このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201212となっている論文です。

PDF登録状況(公開日: 20201212)

TitleAuthorsAbstract論文公表日・翻訳日
# ラビ周波数のメトロジーに及ぼす運動エネルギーの影響

Influence of kinetic energy on the metrology of Rabi frequency ( http://arxiv.org/abs/2003.06781v2 )

ライセンス: Link先を確認
Xingyu Zhang and Xiaoguang Wang(参考訳) ラビ遷移を記述する相互作用モデルは、しばしば解析の便宜のために運動エネルギー項が無視される原子-光子相互作用の研究に不可欠である。 まず, この近似を忠実性アプローチで検討し, その有効領域をデチューニングとモーメントのパラメータ空間で検証した。 放射場の運動量とデチューニングの絶対値が減少すると、近似は有効となる。 さらに, 運動エネルギー項の欠落は, パラメータ領域におけるrabi周波数の測定精度を過大評価し, フィッシャー情報ツールの助けを借りて, 他の領域の精度を過小評価することを発見した。 特に、位置空間における初期ガウス状態の分散の特定の選択は、運動エネルギー項を考慮に入れれば測定精度を向上させる。 また,運動エネルギーを伴わない場合のRabi周波数の実測値についても検討した。

The interacting model describing the Rabi transition is essential in studying atom-photon interactions, where the kinetic energy term is often neglected for the convenience of analysis. We first study the approximation through the fidelity approach and verify its valid region in the parameter space of detuning and momentum. We find that as the radiation field's momentum and the absolute value of detuning decrease, the approximation becomes valid. We further discover that the omission of the kinetic energy term will overestimate the measuring accuracy of the Rabi frequency in some parameter regions and underestimate the precision in other regimes with Fisher information tools' help. Notably, a specific choice of the initial Gaussian state's variance in position space will improve the measuring accuracy when we take the kinetic energy term into account. We also study the realistic measurement of the Rabi frequency for cases with and without the kinetic energy.
翻訳日:2023-05-29 02:35:20 公開日:2020-12-12
# 依存型proto-quipperにおける量子回路プログラミング入門

A tutorial introduction to quantum circuit programming in dependently typed Proto-Quipper ( http://arxiv.org/abs/2005.08396v2 )

ライセンス: Link先を確認
Peng Fu, Kohei Kishida, Neil J. Ross, Peter Selinger(参考訳) 本稿では,線形依存型を持つ実験量子回路言語Proto-Quipper-Dを提案する。 線形依存型が正しい量子回路の構築にどのように役立つかを示すいくつかの例を示す。 具体的には、依存型が回路のプログラミングファミリを実現する方法と、依存型がガベージキュービットのタイプセーフ非計算の問題を解決する方法を示す。 また、他の言語機能についても議論しています。

We introduce dependently typed Proto-Quipper, or Proto-Quipper-D for short, an experimental quantum circuit programming language with linear dependent types. We give several examples to illustrate how linear dependent types can help in the construction of correct quantum circuits. Specifically, we show how dependent types enable programming families of circuits, and how dependent types solve the problem of type-safe uncomputation of garbage qubits. We also discuss other language features along the way.
翻訳日:2023-05-19 21:18:36 公開日:2020-12-12
# ゆらぎ-散逸関係による量子シミュレータの固有状態熱化

Probing eigenstate thermalization in quantum simulators via fluctuation-dissipation relations ( http://arxiv.org/abs/2007.10347v2 )

ライセンス: Link先を確認
Alexander Schuckert, Michael Knap(参考訳) 固有状態熱化仮説(ETH)は、閉量子多体系の平衡へのアプローチの普遍的なメカニズムを提供する。 しかし、これまでの実験では、相当な数値入力を必要とするETHの対角部で説明されているように、可観測物の緩和ダイナミクスに焦点が当てられている。 これはETHの一般的な仮定の多くを未検証のまま残している。 本稿では,ETHの外部対角部を直接探索するゆらぎ-散逸関係の出現を観察することにより,量子シミュレータの完全なETHを探索する理論に依存しない経路を提案する。 変動と散逸を独立に測定するプロトコルと高次時間順序相関関数について検討し,提案する。 まず, 超伝導量子ビットや量子ガス顕微鏡の2次元ボース・ハバード模型において, 非平衡初期状態からのゆらぎ散逸関係の出現が観測できることを示す。 次に、捕捉されたイオンで実現可能な長距離横フィールドイジングモデル(LTFI)に焦点を当てる。 ltfiは強い横磁場に対して、ゆらぎ散逸関係において有効な磁化保存ハミルトニアンへの予熱を観測する。 弱い横磁場では、閉じ込められた励起は非熱的特徴を生じさせ、ゆらぎと散逸の関係を長い時間にわたって破る。 さらに、ltfiの可積分領域では、一般化ギブスアンサンブルへの熱化が起こり、ゆらぎ散逸関係によりハミルトニアンの実験的対角化が可能となる。 本研究は、量子シミュレータにおける熱化を特徴付ける理論に依存しない方法を示し、凝縮物質ポンププロベ実験を量子シミュレーションする方法を提案する。

The eigenstate thermalization hypothesis (ETH) offers a universal mechanism for the approach to equilibrium of closed quantum many-body systems. So far, however, experimental studies have focused on the relaxation dynamics of observables as described by the diagonal part of ETH, whose verification requires substantial numerical input. This leaves many of the general assumptions of ETH untested. Here, we propose a theory-independent route to probe the full ETH in quantum simulators by observing the emergence of fluctuation-dissipation relations, which directly probe the off-diagonal part of ETH. We discuss and propose protocols to independently measure fluctuations and dissipations as well as higher-order time ordered correlation functions. We first show how the emergence of fluctuation dissipation relations from a nonequilibrium initial state can be observed for the 2D Bose-Hubbard model in superconducting qubits or quantum gas microscopes. Then we focus on the long-range transverse field Ising model (LTFI), which can be realized with trapped ions. The LTFI exhibits rich thermalization phenomena: For strong transverse fields, we observe prethermalization to an effective magnetization-conserving Hamiltonian in the fluctuation dissipation relations. For weak transverse fields, confined excitations lead to non-thermal features resulting in a violation of the fluctuation-dissipation relations up to long times. Moreover, in an integrable region of the LTFI, thermalization to a generalized Gibbs ensemble occurs and the fluctuation-dissipation relations enable an experimental diagonalization of the Hamiltonian. Our work presents a theory-independent way to characterize thermalization in quantum simulators and paves the way to quantum simulate condensed matter pump-probe experiments.
翻訳日:2023-05-08 23:08:15 公開日:2020-12-12
# 非線形ナーンスト効果の量子力学理論

Quantum Kinetic Theory of Nonlinear Nernst Effect ( http://arxiv.org/abs/2010.15340v2 )

ライセンス: Link先を確認
Hongchao Li(参考訳) 長年にわたって、Berry曲率が時間反転対称性を破る物質の輸送特性にどのように影響するかを探ってきた。 時間反転対称材料では、線状にベリー曲率によって誘導される熱電電流は存在しない。 しかし、非線形ホール電流は、ベリー曲率双極子が重要な役割を果たす非磁性および非セントロ対称材料で示される。 ほとんどの研究は半古典的ボルツマン方程式から発展している。 ここでは非線形ネルンスト効果の量子力学的理論を示し、新しいタイプのベリー曲率双極子(熱電性ベリー曲率双極子)を紹介する。 この新たなベリー曲率双極子はまた、時間反転不変結晶でも非線形状態における熱電輸送を誘導する。 傾斜したディラック錐体を持つ位相結晶絶縁体にもこの理論を適用する。

For a long period of time, we have been seeking how Berry curvature influnces the transport properties in materials breaking time-reversal symmetry. In time-reversal symmetric material, there will be no thermoelectric current induced by Berry curvature in linear regime. However, the nonlinear Hall current can be shown in non-magnetic and non-centrosymmetric materials, where Berry curvature dipole plays an important role. Most studies are developed from semi-classical Boltzmann equation. Here we show the quantum kinetic theory for nonlinear Nernst effect and introduce a new type of Berry curvature dipole: thermoelectric Berry curvature dipole. This new Berry curvature dipole will also induce the thermoelectric transport in nonlinear regime even in time-reversal invariant crystals. We will also apply our theory to topological crystalline insulator with tilted Dirac cone.
翻訳日:2023-04-27 01:07:15 公開日:2020-12-12
# クラウドフォグ環境におけるワークフロースケジューリングのための人口ベース最適化アルゴリズムの比較評価

A Comparative Evaluation of Population-based Optimization Algorithms for Workflow Scheduling in Cloud-Fog Environments ( http://arxiv.org/abs/2012.00176v2 )

ライセンス: Link先を確認
Dineshan Subramoney, Clement N. Nyirenda(参考訳) 本稿では,クラウドフォグ環境におけるワークフロースケジューリングのための4つの集団最適化アルゴリズムの比較評価を行う。 これらのアルゴリズムは,Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Differential Evolution (DE), GA-PSOである。 この作業はまた、ワークフロースケジューリング問題に対する重み付き和目的関数に対する動機付け的な基礎ワークを提供し、この関数をmakespan、コスト、エネルギーの3つの目的に基づいて開発する。 最近提案されたFogWorkflowSimは、上記の目標がパフォーマンスメトリクスを提供するシミュレーション環境として使用される。 その結果,GA-PSOアルゴリズムのハイブリッド組み合わせは標準アルゴリズムよりも若干優れていることがわかった。 今後の作業には、タスク数の増加によるワークフローの拡張と、ワークフローの追加が含まれている。 重み付き目的関数にさらにいくつかの目的を追加することも追求される。

This work presents a comparative evaluation of four population-based optimization algorithms for workflow scheduling in cloud-fog environments. These algorithms are as follows: Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Differential Evolution (DE) and GA-PSO. This work also provides the motivational groundwork for the weighted sum objective function for the workflow scheduling problem and develops this function based on three objectives: makespan, cost and energy. The recently proposed FogWorkflowSim is used as the simulation environment with the aforementioned objectives serving performance metrics. Results show that hybrid combination of the GA-PSO algorithm exhibits slightly better than the standard algorithms. Future work will include expansion of the workflows used by increasing the number of tasks as well as adding some more workflows. The addition of some more objectives to the weighted objective function will also be pursued
翻訳日:2023-04-22 14:13:07 公開日:2020-12-12
# 機械学習による絡み合い構造検出

Entanglement Structure Detection via Machine Learning ( http://arxiv.org/abs/2012.00526v2 )

ライセンス: Link先を確認
Changbo Chen, Changliang Ren, Hongqing Lin, and He Lu(参考訳) nビット状態の無傷性や深さなどの絡み合い構造を検出することは、実験における状態準備の不完全性を理解する上で重要である。 しかし、そのような構造を特定するには、通常は指数関数的な局所的な測定が必要となる。 本稿では,絡み合いと深さを同時に予測する,効率的な機械学習に基づく手法を提案する。 この分類器の一般化能力は、訓練過程に存在しない純粋な一般化GHZ状態の全範囲を正確に区別できるため、説得力のある証明がなされている。 特に、学習した分類器は、正確な境界が部分的にしか知られていないノイズ付きGHZ状態の絡み目や深さ境界を発見することができる。

Detecting the entanglement structure, such as intactness and depth, of an n-qubit state is important for understanding the imperfectness of the state preparation in experiments. However, identifying such structure usually requires an exponential number of local measurements. In this letter, we propose an efficient machine learning based approach for predicting the entanglement intactness and depth simultaneously. The generalization ability of this classifier has been convincingly proved, as it can precisely distinguish the whole range of pure generalized GHZ states which never exist in the training process. In particular, the learned classifier can discover the entanglement intactness and depth bounds for the noised GHZ state, for which the exact bounds are only partially known.
翻訳日:2023-04-22 12:08:39 公開日:2020-12-12
# 孤立時間周波数エンタングル光子対による分子2光子吸収の実験的実現可能性

Experimental feasibility of molecular two-photon absorption with isolated time-frequency-entangled photon pairs ( http://arxiv.org/abs/2012.06736v1 )

ライセンス: Link先を確認
Tiemo Landes, Markus Allgaier, Sofiane Merkouche, Brian J. Smith, Andrew H. Marcus, Michael G. Raymer(参考訳) 絡み合った光子対は、2光子吸収分光の量子的優位性をもたらすと約束されている。 しかし、最近の研究は2光子吸収の量子増強の規模を前に報告した。 ここでは、孤立光子対によって駆動される総周波生成と分子吸収の実験的比較を示す。 Rhodamine-6Gにおける2光子吸収のエンタングルメントの増大の上限は, 前報値よりかなり低い。

Entangled photon pairs have been promised to deliver a substantial quantum advantage for two-photon absorption spectroscopy. However, recent work has challenged the previously reported magnitude of quantum enhancement in two-photon absorption. Here, we present an experimental comparison of sum-frequency generation and molecular absorption, each driven by isolated photon pairs. We establish an upper bound on the enhancement for entangled-two-photon absorption in Rhodamine-6G, which lies well below previously reported values.
翻訳日:2023-04-21 01:21:32 公開日:2020-12-12
# 生体ニューラルネットワークの低次モデル

Low-Order Model of Biological Neural Networks ( http://arxiv.org/abs/2012.06720v1 )

ライセンス: Link先を確認
Huachuan Wang and James Ting-Ho Lo(参考訳) 生物学的に妥当な生物学的ニューラルネットワークの低次モデル(LOM)は、樹状ノード/ツリー、スパイキング/非スパイキングニューロン、教師なし/教師なし共分散/累積学習機構、フィードバック接続、最大一般化のためのスキームの繰り返し階層的ネットワークである。 これらのコンポーネントモデルは、分化、最適化、反復を伴わずにlomを学習し、容易に取得し、クラスタ化し、複数の/階層的腐敗、歪み、および時間的および空間的パターンを検知し、認識することによって動機づけられ、必要となる。

A biologically plausible low-order model (LOM) of biological neural networks is a recurrent hierarchical network of dendritic nodes/trees, spiking/nonspiking neurons, unsupervised/ supervised covariance/accumulative learning mechanisms, feedback connections, and a scheme for maximal generalization. These component models are motivated and necessitated by making LOM learn and retrieve easily without differentiation, optimization, or iteration, and cluster, detect and recognize multiple/hierarchical corrupted, distorted, and occluded temporal and spatial patterns.
翻訳日:2023-04-21 01:21:03 公開日:2020-12-12
# 自由粒子モーメントの進化と不変性

Evolution and invariants of free-particle moments ( http://arxiv.org/abs/2012.06699v1 )

ライセンス: Link先を確認
Mark Andrews(参考訳) モーメント(英: Moments)とは、量子状態(または古典粒子の集合上の平均)に乗じる位置と運動量の積の期待値である。 自由粒子の場合、量子の場合の進化は古典粒子の集合のそれと密接に関連している。 ここでは、自由粒子に対する対称性モーメントの1次元における進化を考察し、まず、そのエクストリームとインフレクションによって決定される4階までのモーメントの進化の幾何学的性質について考察する。 これらの性質は、自由進化の下で定数であるという点で {\it invariant} であるモーメントの組み合わせによって特定される。 不等式は4階のモーメントを制約し、量子粒子に対して幾何タイプの進化が可能であるが古典的には不可能であることを示す。 明示的な表現は、任意の順序のモーメント、その初期値、不変の組み合わせ、およびこれらの不変量の観点からのモーメントに対して見出される。

Moments are expectation values of products of powers of position and momentum, taken over quantum states (or averages over a set of classical particles). For free particles, the evolution in the quantum case is closely related to that of a set of classical particles. Here we consider the evolution of symmetrized moments for free particles in one dimension, first examining the geometric properties of the evolution for moments up to the fourth order, as determined by their extrema and inflections. These properties are specified by combinations of the moments that are {\it invariant} in that they remain constant under free evolution. An inequality constrains the fourth-order moments and shows that some geometric types of evolution are possible for a quantum particle but not possible classically, and some examples are examined. Explicit expressions are found for the moments of any order in terms of their initial values, for the invariant combinations, and for the moments in terms of these invariants.
翻訳日:2023-04-21 01:20:51 公開日:2020-12-12
# 異なる量子R'enyi発散の関係

Relations between different quantum R\'enyi divergences ( http://arxiv.org/abs/2012.08327v1 )

ライセンス: Link先を確認
Raban Iten(参考訳) R'enyiのエントロピーの量子一般化は、量子情報処理における様々な操作タスクを記述するのに有用なツールである。 そのような一般化の二つの族は特に有用である: petz量子 r\'enyi 発散 $\bar{d}_{\alpha}$ と最小量子 r\'enyi 発散 $\widetilde{d}_{\alpha}$ である。 さらに、最大量子 R'enyi divergence $\widehat{D}_{\alpha}$ は特に数学的な興味を持つ。 本論文では,これらの多様性と量子情報理論への応用について検討する。 我々の主な結果は、逆アラキ・リーブ・サーリングの不等式であり、これは最小値とペッツの発散の新たな関係を示唆するものである。すなわち、$\alpha \bar{D}_{\alpha}(\rho \| \sigma) \leqslant \widetilde{D}_{\alpha}(\rho \| \sigma)$ for $\alpha \in [0,1]$ であり、$\rho$ と $\sigma$ は密度作用素である。 この境界は「ほぼ良い忠実度」を定義することを示唆しており、通常の忠実度との関係は、最適かつかなり良い測定値と最適かつかなり良い一重項分数の間の既知の関係を暗示している。 さらに、araki-lieb-thirring不等式に基づく不等式 $\widetilde{d}_{1}(\rho \| \sigma) \leqslant \widehat{d}_{1}(\rho \| \sigma)\, ,$ の新たな証明を与える。 これは逆ゴールデン・トンプソン不等式の対数形式のエレガントな証明につながる。

Quantum generalizations of R\'enyi's entropies are a useful tool to describe a variety of operational tasks in quantum information processing. Two families of such generalizations turn out to be particularly useful: the Petz quantum R\'enyi divergence $\bar{D}_{\alpha}$ and the minimal quantum R\'enyi divergence $\widetilde{D}_{\alpha}$. Moreover, the maximum quantum R\'enyi divergence $\widehat{D}_{\alpha}$ is of particular mathematical interest. In this Master thesis, we investigate relations between these divergences and their applications in quantum information theory. Our main result is a reverse Araki-Lieb-Thirring inequality that implies a new relation between the minimal and the Petz divergence, namely that $\alpha \bar{D}_{\alpha}(\rho \| \sigma) \leqslant \widetilde{D}_{\alpha}(\rho \| \sigma)$ for $\alpha \in [0,1]$ and where $\rho$ and $\sigma$ are density operators. This bound suggests defining a "pretty good fidelity", whose relation to the usual fidelity implies the known relations between the optimal and pretty good measurement as well as the optimal and pretty good singlet fraction. In addition, we provide a new proof of the inequality $\widetilde{D}_{1}(\rho \| \sigma) \leqslant \widehat{D}_{1}(\rho \| \sigma)\, ,$ based on the Araki-Lieb-Thirring inequality. This leads to an elegant proof of the logarithmic form of the reverse Golden-Thompson inequality.
翻訳日:2023-04-21 01:16:03 公開日:2020-12-12
# 量子ベル非局所性は絡み合いである

Quantum Bell Nonlocality is Entanglement ( http://arxiv.org/abs/2012.06918v1 )

ライセンス: Link先を確認
Kuntal Sengupta, Rana Zibakhsh, Eric Chitambar, Gilad Gour(参考訳) ベル非局所性は、任意の局所隠れ変数モデルでは説明できない量子力学の表現を記述する。 その起源は量子エンタングルメントの性質にあるが、非局所性とエンタングルメントの正確な関係を理解することは、悪名高いオープン問題である。 本稿では,量子ベル非局所性が特別な絡み合いとして出現し,どちらも局所演算および古典通信(LOCC)の下で資源として統一される動的枠組みを開発することにより,この問題を解決する。 私たちのフレームワークは、空間と時間の一定間隔間の要素をマッピングする抽象量子チャネルである量子プロセスの概念に基づいている。 エンタングルメントはLOCCでは生成できない量子過程として特定され、ベル非局所性は即時入力出力遅延時間を持つこれらの過程のサブセットである。 locc前処理は、この理論における自由操作の自然な集合であり、全ての絡み合った状態がベルの非局所性を活性化することができる。 さらに、状態領域から絡み合った量子測定領域へのCHSH目撃者を一般化し、二部量子チャネルのベル非局所性を定量化する体系的な方法を提案する。

Bell nonlocality describes a manifestation of quantum mechanics that cannot be explained by any local hidden variable model. Its origin lies in the nature of quantum entanglement, although understanding the precise relationship between nonlocality and entanglement has been a notorious open problem. In this paper, we resolve this problem by developing a dynamical framework in which quantum Bell nonlocality emerges as special form of entanglement, and both are unified as resources under local operations and classical communication (LOCC). Our framework is built on the notion of quantum processes, which are abstract quantum channels mapping elements between fixed intervals in space and time. Entanglement is then identified as a quantum process that cannot be generated by LOCC while Bell nonlocality is the subset of these processes that have an instantaneous input-output delay time. LOCC pre-processing is a natural set of free operations in this theory, thereby enabling all entangled states to activate some form of Bell nonlocality. In addition, we generalize the CHSH witnesses from the state domain to the domain of entangled quantum measurements, and provide a systematic method to quantify the Bell nonlocality of a bipartite quantum channel.
翻訳日:2023-04-21 01:14:46 公開日:2020-12-12
# 量子ゲームにおける非古典規則

Nonclassical rules in quantum games ( http://arxiv.org/abs/2012.06915v1 )

ライセンス: Link先を確認
Piotr Fr\k{a}ckiewicz(参考訳) 過去20年間にわたり、量子ゲーム理論の研究は、量子ゲームのプレイ方法に関する多くのアイデアを与えてきました。 この分野で最も顕著なアイデアの1つは、J. Eisert、M. Wilkens、M. Lewensteinによって導入された2x2の量子プレイングゲームである。 このスキームはプレイヤーの戦略がユニタリ操作であると仮定し、プレイヤーは最大絡み合った2ビット状態に作用する。 このスキームの量子的性質は、Eisertらによる論文が発刊されてから議論されている。 本論文の目的は,量子スキームの非古典的特徴のいくつかを明らかにすることである。

Over the last twenty years of research on quantum game theory have given us many ideas of how quantum games could be played. One of the most prominent ideas in the field is a model of quantum playing a 2x2 game introduced by J. Eisert, M. Wilkens and M. Lewenstein. The scheme assumes that players' strategies are unitary operations the players act on the maximally entangled two-qubit state. The quantum nature of the scheme has been under discussion since the article by Eisert et al. came out. The aim of our paper is to identify some of non-classical features of the quantum scheme.
翻訳日:2023-04-21 01:14:23 公開日:2020-12-12
# 位置依存非可換性による最小長と最大長

Minimal and maximal lengths from position-dependent noncommutativity ( http://arxiv.org/abs/2012.06906v1 )

ライセンス: Link先を確認
Lat\'evi M. Lawson(参考訳) fring と al は論文 "strings from position-dependent noncommutativity" で、2つの空間次元における新しい非可換空間可換関係を導入した。 この空間の非可換性で導入された基本対象は、弦状であることが示されている。 この結果を考慮すると、Fring と al のセミナルな作業は、位置依存的非可換性およびハイゼンベルクの不確実性関係の一般化版から生じる最小運動量から最大長を持つ場合にも一般化する。 最大長の存在は、粒子の長さにおける余分な第1次項の存在と関係しており、これは我々の分析とそれらの分析の基本的な相違をもたらす。 この最大長は、よく知られた時空の特異点問題を分解する。 我々は、この非可換空間の異なる表現を確立し、最終的にこれらの新しい変数において、基礎的かつ興味深い量子力学系の研究を行う。

Fring and al in their paper entitled "Strings from position-dependent noncommutativity" have introduced a new set of noncommutative space commutation relations in two space dimensions. It had been shown that any fundamental objects introduced in this space-space non-commutativity are string-like. Taking this result into account, we generalize the seminal work of Fring and al to the case that there is also a maximal length from position-dependent noncommutativity and minimal momentum arising from generalized versions of Heisenberg's uncertainty relations. The existence of maximal length is related to the presence of an extra, first order term in particle's length that provides the basic difference of our analysis with theirs. This maximal length breaks up the well known singularity problem of space time. We establish different representations of this noncommutative space and finally we study some basic and interesting quantum mechanical systems in these new variables.
翻訳日:2023-04-21 01:14:14 公開日:2020-12-12
# 磁区2DEGにおける電流分布--半古典的および量子力学的処理

Current distribution in magnetically confined 2DEG: semiclassical and quantum mechanical treatment ( http://arxiv.org/abs/2012.06892v1 )

ライセンス: Link先を確認
R\'obert N\'emeth, Zolt\'an Kaufmann, J\'ozsef Cserti(参考訳) 弾道理論では, 二次元電子ガス (2deg) における電子の動力学を, 平面に垂直な不均質な磁場の存在下で, 半古典的および量子的に研究した。 磁場は、円の直径よりも大きい辺の長さの四角の四隅に位置する4つの別々の円形領域の中で一定であり、一方、円の外側の磁場はゼロである。 周期軌道の安定性解析を行い、与えられた初期条件に対して4次元位相空間に埋め込まれた2次元不変トーラスを数値計算する。 Bohr-Sommerfeld と Einstein--Brillouin-Keller の半古典的量子化法の適用により、異なる磁場強度のエネルギーレベルを得る。 また,schr\"odinger方程式の離散化バージョンを数値解くことで,正確な量子計算を行う。 計算では、4つの磁気ディスクの近傍に局在する境界状態のみを考える。 半古典的結果は量子計算から得られた結果とよく一致していることを示す。 さらに、異なる波動関数の電流分布と位相は、2つの量子数 $n_1$ と $n_2$ を半古典的方法におけるエネルギー準位を推定することができる。 最後に、量子状態が以前の状態と類似した構造を示す2つの例を示すが、これらは以下の意味で特別である。 そのうちの1つは、周期軌道の近傍に局在した傷痕状態であり、この軌道は既に不安定である。 他の状態の場合、電流密度は反対方向に2つのリングで循環する。 したがって、周期軌道の近傍における古典運動とは一致しない。

In the ballistic regime we study both semiclassically and quantum mechanically the electron's dynamics in two-dimensional electron gas (2DEG) in the presence of an inhomogeneous magnetic field applied perpendicular to the plane. The magnetic field is constant inside four separate circular regions which are located at the four corners of a square of side length larger than the diameter of the circles, while outside the circles the magnetic field is zero. We carry out the stability analysis of the periodic orbits and for given initial conditions numerically calculate the two-dimensional invariant torus embedded in the four-dimensional phase space. Applying the Bohr--Sommerfeld and the Einstein--Brillouin--Keller semiclassical quantization methods we obtain the energy levels for different magnetic field strengths. We also perform exact quantum calculations solving numerically the discretized version of the Schr\"odinger equation. In our calculations, we consider only those bound states that are localized to the neighborhood of the four magnetic disks. We show that the semiclassical results are in good agreement with those found from our quantum calculations. Moreover, the current distribution and the phase of the different wave functions enable us to deduce the two quantum numbers $n_1$ and $n_2$ characterizing the energy levels in the semiclassical methods. Finally, we present two examples in which the quantum state shows a similar structure to the previous states, but these are special in the following sense. One of them is a scar state localized to the neighborhood of the periodic orbit while this orbit is already unstable. In the case of the other state, the current density is circulating in two rings in opposite direction. Thus, it is not consistent with the classical motion in the neighborhood of the periodic orbit.
翻訳日:2023-04-21 01:13:58 公開日:2020-12-12
# 位相空間準確率分布を用いたジョイント測定可能性の検証

Verification of joint measurability using phase-space quasiprobability distributions ( http://arxiv.org/abs/2012.06853v1 )

ライセンス: Link先を確認
Saleh Rahimi-Keshari, Mohammad Mehboudi, Dario De Santis, Daniel Cavalcanti, Antonio Ac\'in(参考訳) 測定の非互換性は量子物理学の特徴であり、多くの量子情報処理タスクにとって不可欠な資源である。 位相空間準確率分布に基づく測定の合同測定可能性を検証する手法を提案する。 その結果,非古典性の二つの概念,すなわち準確率分布のネガティビティと測定の非可逆性との関係が確立された。 ボゾン系やガウス系では,不整合破壊チャネルの研究や,不整合破壊による十分な条件の導出に,我々のアプローチが適用可能であることを示す。 特に、これらの条件は、実際の測定の不適合性に及ぼす誤差と不完全性の影響を調べるのに有用なツールである。 提案手法を説明するために,単一モードガウスチャネルのクラスについて検討する。 50%以上の損失を持つ純損失チャネルは、ガウスの測定集合を含む非負のウィグナー関数によって表されるすべての測定値の不整合を損なうことを示した。

Measurement incompatibility is a distinguishing property of quantum physics and an essential resource for many quantum information processing tasks. We introduce an approach to verify the joint measurability of measurements based on phase-space quasiprobability distributions. Our results therefore establish a connection between two notions of non-classicality, namely the negativity of quasiprobability distributions and measurement incompatibility. We show how our approach can be applied to the study of incompatibility-breaking channels and derive incompatibility-breaking sufficient conditions for bosonic systems and Gaussian channels. In particular, these conditions provide useful tools for investigating the effects of errors and imperfections on the incompatibility of measurements in practice. To illustrate our method, we consider all classes of single-mode Gaussian channels. We show that pure lossy channels with 50% or more losses break the incompatibility of all measurements that can be represented by non-negative Wigner functions, which includes the set of Gaussian measurements.
翻訳日:2023-04-21 01:13:24 公開日:2020-12-12
# エラセ・アンド・レストアの逆例による$L_2$の感度の爆発

Exploiting the Sensitivity of $L_2$ Adversarial Examples to Erase-and-Restore ( http://arxiv.org/abs/2001.00116v2 )

ライセンス: Link先を確認
Fei Zuo, Qiang Zeng(参考訳) 入力画像に注意深い摂動を加えることで、ニューラルネットワークベースの画像分類器を誤解させるような逆例(AE)を生成することができる。 l_2$ adversarial perturbations by carlini and wagner (cw) は最も効果的だが検出が難しい攻撃である。 AEに対する多くの対策が提案されているが、適応的なCW-$L_2$ AEsの検出は未解決の問題である。 l_2$ ae でいくつかのピクセルをランダムに消去し、塗装技法で復元することで、ステップの前後に ae は異なる分類結果を持つ傾向にあり、良性サンプルはこの症状を示さない。 そこで我々は,$l_2$攻撃の興味深い感度を利用する新しいae検出手法であるe&rを提案する。 CIFAR-10とImageNetの2つの画像データセットを用いて行った実験により、提案手法は$L_2$AEsの98%以上を検出でき、良性画像に対する偽陽性率は極めて低いことが示された。 CW-$L_2$ AEsでトレーニングされた検出システムは、別の$L_2$攻撃法で生成されたAEを正確に検出することができる。 さらに,AE検出において重要なギャップを埋めるため,適応的な$L_2$攻撃に対して強いレジリエンスを示す。 最後に,可視化と定量化の両面で検出手法を解釈する。

By adding carefully crafted perturbations to input images, adversarial examples (AEs) can be generated to mislead neural-network-based image classifiers. $L_2$ adversarial perturbations by Carlini and Wagner (CW) are among the most effective but difficult-to-detect attacks. While many countermeasures against AEs have been proposed, detection of adaptive CW-$L_2$ AEs is still an open question. We find that, by randomly erasing some pixels in an $L_2$ AE and then restoring it with an inpainting technique, the AE, before and after the steps, tends to have different classification results, while a benign sample does not show this symptom. We thus propose a novel AE detection technique, Erase-and-Restore (E&R), that exploits the intriguing sensitivity of $L_2$ attacks. Experiments conducted on two popular image datasets, CIFAR-10 and ImageNet, show that the proposed technique is able to detect over 98% of $L_2$ AEs and has a very low false positive rate on benign images. The detection technique exhibits high transferability: a detection system trained using CW-$L_2$ AEs can accurately detect AEs generated using another $L_2$ attack method. More importantly, our approach demonstrates strong resilience to adaptive $L_2$ attacks, filling a critical gap in AE detection. Finally, we interpret the detection technique through both visualization and quantification.
翻訳日:2023-01-16 09:18:20 公開日:2020-12-12
# ワイルドテキスト認識のための逆学習を用いたスタイルからのコンテンツ分離

Separating Content from Style Using Adversarial Learning for Recognizing Text in the Wild ( http://arxiv.org/abs/2001.04189v3 )

ライセンス: Link先を確認
Canjie Luo, Qingxiang Lin, Yuliang Liu, Lianwen Jin, Chunhua Shen(参考訳) 本稿では,テキストコンテンツを複雑な背景から分離することで,新たな視点からテキスト認識を改善することを提案する。 バニラガンは自然画像においてシーケンス状文字を生成するのに十分な頑健ではないため,画像中の複数の文字を生成・認識するための逆学習フレームワークを提案する。 提案するフレームワークは注意に基づく認識器と生成的な敵対的アーキテクチャで構成されている。 さらに,ペアトレーニングサンプルの欠如に対処するために,認識者から識別者へ注目マスクを共有する対話型共同訓練方式を設計し,識別者が各文字の特徴を抽出し,さらに敵対的な訓練を行う。 キャラクタレベルの対人訓練から恩恵を受けるため、我々のフレームワークは、スタイルの監視のために、欠落した単純なデータのみを必要とする。 ランダムに選択された文字のみを含むターゲットスタイルのサンプルは、トレーニング中にオンラインで簡単に合成できる。 トレーニングにはコストのかかるペアリングされたサンプルや文字レベルのアノテーションが必要ないため、これは重要なことです。 したがって、入力画像と対応するテキストラベルのみが必要である。 背景のスタイル正規化に加えて,認識作業を容易にするために文字パターンを洗練する。 識別器と認識器のギャップを埋めるためにフィードバック機構を提案する。 したがって、識別器は、認識者の混乱に応じてジェネレータを誘導することができるので、生成されたパターンが認識しやすい。 正規テキストと不規則テキストの両方を含む様々なベンチマーク実験により,本手法は認識の難易度を著しく低減することを示した。 新たな認識精度を実現するために,近年の認識手法に組み込むことができる。

We propose to improve text recognition from a new perspective by separating the text content from complex backgrounds. As vanilla GANs are not sufficiently robust to generate sequence-like characters in natural images, we propose an adversarial learning framework for the generation and recognition of multiple characters in an image. The proposed framework consists of an attention-based recognizer and a generative adversarial architecture. Furthermore, to tackle the issue of lacking paired training samples, we design an interactive joint training scheme, which shares attention masks from the recognizer to the discriminator, and enables the discriminator to extract the features of each character for further adversarial training. Benefiting from the character-level adversarial training, our framework requires only unpaired simple data for style supervision. Each target style sample containing only one randomly chosen character can be simply synthesized online during the training. This is significant as the training does not require costly paired samples or character-level annotations. Thus, only the input images and corresponding text labels are needed. In addition to the style normalization of the backgrounds, we refine character patterns to ease the recognition task. A feedback mechanism is proposed to bridge the gap between the discriminator and the recognizer. Therefore, the discriminator can guide the generator according to the confusion of the recognizer, so that the generated patterns are clearer for recognition. Experiments on various benchmarks, including both regular and irregular text, demonstrate that our method significantly reduces the difficulty of recognition. Our framework can be integrated into recent recognition methods to achieve new state-of-the-art recognition accuracy.
翻訳日:2023-01-11 23:14:26 公開日:2020-12-12
# 深い森林の解釈と簡易化

Interpretation and Simplification of Deep Forest ( http://arxiv.org/abs/2001.04721v4 )

ライセンス: Link先を確認
Sangwon Kim, Mira Jeong, Byoung Chul Ko(参考訳) 本稿では,ルール除去手法を用いて,深部ランダム林(RF)のブラックボックスモデルを解釈し,単純化する手法を提案する。 深いrfでは、多数の決定木が複数の層に接続されており、解析が困難になる。 ディープニューラルネットワーク(dnn)と同様の高性能だが、より汎用性が向上している。 そこで本研究では,完全訓練された深層rfの特徴量と頻度を決定規則セットとして定量化することを検討する。 機能コントリビューションは、ルールセットにおける決定プロセスにどのように影響するかを決定する基盤を提供する。 モデルの単純化は、機能のコントリビューションを測定することによって不要なルールを排除することで達成される。 その結果、単純化されたモデルは以前よりもパラメータやルールが少ない。 実験の結果、特徴寄与分析により、規則セットを定量的に解釈するためにブラックボックスモデルを分解できることが示されている。 提案手法は,多数のルールの排除に拘わらず,頑健な性能を維持しつつ,様々な深部RFモデルやベンチマークデータセットに適用できた。

This paper proposes a new method for interpreting and simplifying a black box model of a deep random forest (RF) using a proposed rule elimination. In deep RF, a large number of decision trees are connected to multiple layers, thereby making an analysis difficult. It has a high performance similar to that of a deep neural network (DNN), but achieves a better generalizability. Therefore, in this study, we consider quantifying the feature contributions and frequency of the fully trained deep RF in the form of a decision rule set. The feature contributions provide a basis for determining how features affect the decision process in a rule set. Model simplification is achieved by eliminating unnecessary rules by measuring the feature contributions. Consequently, the simplified model has fewer parameters and rules than before. Experiment results have shown that a feature contribution analysis allows a black box model to be decomposed for quantitatively interpreting a rule set. The proposed method was successfully applied to various deep RF models and benchmark datasets while maintaining a robust performance despite the elimination of a large number of rules.
翻訳日:2023-01-11 11:58:33 公開日:2020-12-12
# 異常知識グラフの誤り検出のためのパスランキング法によるグラフ埋め込みの誘導

Guiding Graph Embeddings using Path-Ranking Methods for Error Detection innoisy Knowledge Graphs ( http://arxiv.org/abs/2002.08762v2 )

ライセンス: Link先を確認
K. Bougiatiotis, R. Fasoulis, F. Aisopos, A. Nentidis, G. Paliouras(参考訳) 今日、知識グラフは、大きな異種データに対する関係情報の表現に対する主流のアプローチとなっているが、自動的に構築された場合、大量のインデュートノイズを含む可能性がある。 この問題に対処するために,経路ランキングと表現学習を中心に,異なる誤り検出手法が提案されている。 本研究は,様々な主流的アプローチを示し,そのタスクにハイブリッドかつモジュラーな方法論を提案する。 2つのベンチマークと1つの実世界のバイオメディカルパブリッシングデータセットで異なる手法を比較し、我々のアプローチの可能性を示し、ノイズの多い知識グラフを扱う際のグラフ埋め込みに関する洞察を提供する。

Nowadays Knowledge Graphs constitute a mainstream approach for the representation of relational information on big heterogeneous data, however, they may contain a big amount of imputed noise when constructed automatically. To address this problem, different error detection methodologies have been proposed, mainly focusing on path ranking and representation learning. This work presents various mainstream approaches and proposes a hybrid and modular methodology for the task. We compare different methods on two benchmarks and one real-world biomedical publications dataset, showcasing the potential of our approach and providing insights on graph embeddings when dealing with noisy Knowledge Graphs.
翻訳日:2022-12-30 12:51:20 公開日:2020-12-12
# グラフ上の敵対的攻撃と防御:レビュー,ツール,実証的研究

Adversarial Attacks and Defenses on Graphs: A Review, A Tool and Empirical Studies ( http://arxiv.org/abs/2003.00653v3 )

ライセンス: Link先を確認
Wei Jin, Yaxin Li, Han Xu, Yiqi Wang, Shuiwang Ji, Charu Aggarwal and Jiliang Tang(参考訳) ディープニューラルネットワーク(DNN)は様々なタスクで大きなパフォーマンスを実現している。 しかし、最近の研究では、DNNは敵攻撃と呼ばれる入力に対する小さな摂動によって容易に騙せることが示されている。 グラフへのDNNの拡張として、グラフニューラルネットワーク(GNN)がこの脆弱性を継承することを実証している。 Adversaryは、いくつかのエッジを操作するなどのグラフ構造を変更することで、GNNに誤った予測を与えるように誤解を招く可能性がある。 この脆弱性は、安全クリティカルなアプリケーションにGNNを適用することに対する重大な懸念を引き起こし、近年研究の注目を集めている。 したがって、既存のグラフ敵攻撃と対策の包括的概要を提供する必要がある。 本調査では,既存の攻撃と防御を分類し,対応する最先端の手法を概観する。 さらに,代表アルゴリズム(https://github.com/DSE-MSU/DeepRobust/tree/master/deeprobust/graph)のリポジトリも開発した。 このレポジトリは、グラフ上の攻撃や防御に対する理解を深めるための実証的研究を可能にする。

Deep neural networks (DNNs) have achieved significant performance in various tasks. However, recent studies have shown that DNNs can be easily fooled by small perturbation on the input, called adversarial attacks. As the extensions of DNNs to graphs, Graph Neural Networks (GNNs) have been demonstrated to inherit this vulnerability. Adversary can mislead GNNs to give wrong predictions by modifying the graph structure such as manipulating a few edges. This vulnerability has arisen tremendous concerns for adapting GNNs in safety-critical applications and has attracted increasing research attention in recent years. Thus, it is necessary and timely to provide a comprehensive overview of existing graph adversarial attacks and the countermeasures. In this survey, we categorize existing attacks and defenses, and review the corresponding state-of-the-art methods. Furthermore, we have developed a repository with representative algorithms (https://github.com/DSE-MSU/DeepRobust/tree/master/deeprobust/graph). The repository enables us to conduct empirical studies to deepen our understandings on attacks and defenses on graphs.
翻訳日:2022-12-27 04:39:40 公開日:2020-12-12
# ファウショット学習とファウショット学習のための弱教師付き物体位置決め

Weakly-supervised Object Localization for Few-shot Learning and Fine-grained Few-shot Learning ( http://arxiv.org/abs/2003.00874v3 )

ライセンス: Link先を確認
Xiaojian He, Jinfu Lin, Junming Shen(参考訳) FSL(Few-shot Learning)は、ごく少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。 少数ショット分類の多くの方法は、全体表現を学ぶために一般的な画像でうまく機能する。 しかし、微妙で局所的な情報がないため、細かなカテゴリを同時に扱うことはできない。 ローカライゼーションは、一般的な分類と低データ体制におけるきめ細かい分類の両方に欠かせない識別領域を直接提供するため、効率的なアプローチであると主張する。 本稿では,弱教師付き物体定位を実現するために,自己アテンションに基づく補完モジュール(sacモジュール)を提案する。 選択したディープディスクリプタに基づいて、セマンティックアライメントモジュール(SAM)はクエリとサポートイメージ間のセマンティックアライメント距離を計算し、分類性能を向上する。 大規模な実験により,提案手法は様々な条件下でのベンチマークデータセット,特にきめ細かいショットタスクにおいて,最先端の手法よりも優れていた。 さらに,miniimagenet上でモデルをトレーニングし,異なるデータセットで評価した場合,従来の手法よりも優れた性能を達成し,その優れた一般化能力を示す。 余分な可視化は、提案手法が鍵オブジェクトをもっと間隔でローカライズできることを示している。

Few-shot learning (FSL) aims to learn novel visual categories from very few samples, which is a challenging problem in real-world applications. Many methods of few-shot classification work well on general images to learn global representation. However, they can not deal with fine-grained categories well at the same time due to a lack of subtle and local information. We argue that localization is an efficient approach because it directly provides the discriminative regions, which is critical for both general classification and fine-grained classification in a low data regime. In this paper, we propose a Self-Attention Based Complementary Module (SAC Module) to fulfill the weakly-supervised object localization, and more importantly produce the activated masks for selecting discriminative deep descriptors for few-shot classification. Based on each selected deep descriptor, Semantic Alignment Module (SAM) calculates the semantic alignment distance between the query and support images to boost classification performance. Extensive experiments show our method outperforms the state-of-the-art methods on benchmark datasets under various settings, especially on the fine-grained few-shot tasks. Besides, our method achieves superior performance over previous methods when training the model on miniImageNet and evaluating it on the different datasets, demonstrating its superior generalization capacity. Extra visualization shows the proposed method can localize the key objects more interval.
翻訳日:2022-12-27 04:05:01 公開日:2020-12-12
# 勾配誘起コサリエンシー検出

Gradient-Induced Co-Saliency Detection ( http://arxiv.org/abs/2004.13364v3 )

ライセンス: Link先を確認
Zhao Zhang, Wenda Jin, Jun Xu, Ming-Ming Cheng(参考訳) co-saliency detection (co-sod) は、関連画像群に共通サリアンフォアグラウンドを分割することを目的としている。 本稿では,人間の行動に着想を得て,勾配誘起共塩検出(gicd)法を提案する。 まず、埋め込み空間におけるグループ化画像のコンセンサス表現を抽象化し、その1つの画像とコンセンサス表現を比較し、フィードバック勾配情報を用いて、識別的共塩特徴により多くの注意を向ける。 さらに,Co-SODトレーニングデータが不足しているため,余分なピクセルレベルのアノテーションを使わずに,Co-SODネットワークを一般的な唾液度データセット上でトレーニング可能なジグソートレーニング戦略を設計する。 複数のフォアグラウンド間の共塩物発見におけるCo-SOD法の性能を評価するため、各画像が共塩物とともに少なくとも1つの外部フォアグラウンドを含む挑戦的なCoCAデータセットを構築した。 実験は、gicdが最先端のパフォーマンスを達成することを実証する。 私たちのコードとデータセットはhttps://mmcheng.net/gicd/で利用可能です。

Co-saliency detection (Co-SOD) aims to segment the common salient foreground in a group of relevant images. In this paper, inspired by human behavior, we propose a gradient-induced co-saliency detection (GICD) method. We first abstract a consensus representation for the grouped images in the embedding space; then, by comparing the single image with consensus representation, we utilize the feedback gradient information to induce more attention to the discriminative co-salient features. In addition, due to the lack of Co-SOD training data, we design a jigsaw training strategy, with which Co-SOD networks can be trained on general saliency datasets without extra pixel-level annotations. To evaluate the performance of Co-SOD methods on discovering the co-salient object among multiple foregrounds, we construct a challenging CoCA dataset, where each image contains at least one extraneous foreground along with the co-salient object. Experiments demonstrate that our GICD achieves state-of-the-art performance. Our codes and dataset are available at https://mmcheng.net/gicd/.
翻訳日:2022-12-08 23:17:53 公開日:2020-12-12
# 機械学習時系列回帰と Nowcasting への応用

Machine Learning Time Series Regressions with an Application to Nowcasting ( http://arxiv.org/abs/2005.14057v4 )

ライセンス: Link先を確認
Andrii Babii and Eric Ghysels and Jonas Striaukas(参考訳) 本稿では,異なる周波数でサンプリング可能な高次元時系列データに対する構造化機械学習回帰を提案する。 スパース群LASSO推定器は、このような時系列データ構造を活用でき、非構造LASSOより優れる。 混合プロセスを可能にするフレームワーク内で,スパース群LASSO推定器のオラクル不等式を確立し,財務およびマクロ経済データが指数的尾部よりも重いことを認識した。 米国のGDP成長を加速させる実証的な応用は、推定器が他の代替手段と比較して好適に機能し、テキストデータはより伝統的な数値データに有用な追加であることを示している。

This paper introduces structured machine learning regressions for high-dimensional time series data potentially sampled at different frequencies. The sparse-group LASSO estimator can take advantage of such time series data structures and outperforms the unstructured LASSO. We establish oracle inequalities for the sparse-group LASSO estimator within a framework that allows for the mixing processes and recognizes that the financial and the macroeconomic data may have heavier than exponential tails. An empirical application to nowcasting US GDP growth indicates that the estimator performs favorably compared to other alternatives and that text data can be a useful addition to more traditional numerical data.
翻訳日:2022-11-27 05:54:56 公開日:2020-12-12
# フレキシブルデータセット蒸留:画像の代わりにラベルを学ぶ

Flexible Dataset Distillation: Learn Labels Instead of Images ( http://arxiv.org/abs/2006.08572v3 )

ライセンス: Link先を確認
Ondrej Bohdal, Yongxin Yang, Timothy Hospedales(参考訳) 我々はデータセット蒸留の問題を研究し、良いモデルを訓練できる少数の合成例を作成する。 特に,少量の実画像の合成ラベルを作成することによるラベル蒸留の問題点について検討し,従来の画像ベースによるデータセット蒸留手法よりも有効であることを示す。 提案手法では, より堅牢で柔軟な蒸留メタラーニングアルゴリズムと, 凸最適化層に基づく効率的な1次戦略を導入する。 新しいアルゴリズムでラベルを蒸留すると、以前の画像ベースの蒸留よりも結果が向上する。 さらに重要なのは、オフザシェルフオプティマイザと多様なニューラルアーキテクチャとの互換性の観点から、蒸留データセットの柔軟性が明確に向上することです。 興味深いことに、ラベル蒸留はデータセットにまたがって適用でき、例えば合成ラベル付き英語文字のみを訓練することで日本語文字認識を学べる。

We study the problem of dataset distillation - creating a small set of synthetic examples capable of training a good model. In particular, we study the problem of label distillation - creating synthetic labels for a small set of real images, and show it to be more effective than the prior image-based approach to dataset distillation. Methodologically, we introduce a more robust and flexible meta-learning algorithm for distillation, as well as an effective first-order strategy based on convex optimization layers. Distilling labels with our new algorithm leads to improved results over prior image-based distillation. More importantly, it leads to clear improvements in flexibility of the distilled dataset in terms of compatibility with off-the-shelf optimizers and diverse neural architectures. Interestingly, label distillation can also be applied across datasets, for example enabling learning Japanese character recognition by training only on synthetically labeled English letters.
翻訳日:2022-11-21 03:14:11 公開日:2020-12-12
# 自動リコールマシン:内部リプレイ,継続的な学習,脳

Automatic Recall Machines: Internal Replay, Continual Learning and the Brain ( http://arxiv.org/abs/2006.12323v3 )

ライセンス: Link先を確認
Xu Ji, Joao Henriques, Tinne Tuytelaars, Andrea Vedaldi(参考訳) ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。 評価対象に対してトレーニングされているモデルのみを考慮し,外部バッファやジェネレータネットワークを必要とせずに,これらの補助サンプルをフライで生成する手法を提案する。 代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用される。 さらに,既存の研究では全データ分散の強化に重点を置いているが,本番のトレーニングバッチに特化しているサンプル生成の呼び出しを忘れることなく最適化する方が効率的でスケーラブルであることを示す。 我々は,脳との高レベルな並列性,特に単一モデルを用いた推論とリコール,現在の環境バッチへのリコールサンプルの依存性,アクティベーションと学習のトップダウン変調,抽象的リコール,タスクが学習された度数とリコールされる度数との依存性について考察する。 これらの特徴は制御されずに自然に現れる。

Replay in neural networks involves training on sequential data with memorized samples, which counteracts forgetting of previous behavior caused by non-stationarity. We present a method where these auxiliary samples are generated on the fly, given only the model that is being trained for the assessed objective, without extraneous buffers or generator networks. Instead the implicit memory of learned samples within the assessed model itself is exploited. Furthermore, whereas existing work focuses on reinforcing the full seen data distribution, we show that optimizing for not forgetting calls for the generation of samples that are specialized to each real training batch, which is more efficient and scalable. We consider high-level parallels with the brain, notably the use of a single model for inference and recall, the dependency of recalled samples on the current environment batch, top-down modulation of activations and learning, abstract recall, and the dependency between the degree to which a task is learned and the degree to which it is recalled. These characteristics emerge naturally from the method without being controlled for.
翻訳日:2022-11-18 04:20:06 公開日:2020-12-12
# 神経投射による物理的制約の学習

Learning Physical Constraints with Neural Projections ( http://arxiv.org/abs/2006.12745v2 )

ライセンス: Link先を確認
Shuqi Yang, Xingzhe He, Bo Zhu(参考訳) 本稿では,その基礎となる制約を学習することにより,物理システムの振る舞いを予測するニューラルネットワークの新たなファミリーを提案する。 ニューラルネットワークのプロジェクションオペレータは,学習基盤となる制約をインタラクティブに強制し,異なる物理システムのさまざまな統治行動を予測する,組み込み再帰的アーキテクチャを備えた軽量ネットワークで構成されています。 我々のニューラルプロジェクション演算子は、様々な高速物理シミュレータを統合するためにゲームや視覚効果産業で広く使われている位置ベース力学モデルによって動機付けられている。 提案手法は, 距離, 角度, 曲げ, 衝突, 境界効果, および任意の組み合わせなどの観測点データから, 接続を前提とせずに, 広範囲の制約を自動的かつ効果的に解明することができる。 複雑な物理システムを処理するための事前入力を組み込むために,構成可能なネットワーク接続機構とともに多群点表現を提供する。 提案手法は,複雑なジオメトリを持つ剛体,長さと曲げの異なるロープ,関節したソフトと剛体,複雑な境界を持つ多目的衝突など,統一的かつ単純な方法で,一連の挑戦的な物理システムを学習することによって,その効果を実証した。

We propose a new family of neural networks to predict the behaviors of physical systems by learning their underpinning constraints. A neural projection operator lies at the heart of our approach, composed of a lightweight network with an embedded recursive architecture that interactively enforces learned underpinning constraints and predicts the various governed behaviors of different physical systems. Our neural projection operator is motivated by the position-based dynamics model that has been used widely in game and visual effects industries to unify the various fast physics simulators. Our method can automatically and effectively uncover a broad range of constraints from observation point data, such as length, angle, bending, collision, boundary effects, and their arbitrary combinations, without any connectivity priors. We provide a multi-group point representation in conjunction with a configurable network connection mechanism to incorporate prior inputs for processing complex physical systems. We demonstrated the efficacy of our approach by learning a set of challenging physical systems all in a unified and simple fashion including: rigid bodies with complex geometries, ropes with varying length and bending, articulated soft and rigid bodies, and multi-object collisions with complex boundaries.
翻訳日:2022-11-17 21:40:49 公開日:2020-12-12
# 強化学習を用いてロボット群を目標分布に誘導する

Using Reinforcement Learning to Herd a Robotic Swarm to a Target Distribution ( http://arxiv.org/abs/2006.15807v2 )

ライセンス: Link先を確認
Zahi M. Kakish, Karthik Elamvazhuthi, Spring Berman(参考訳) 本稿では,強く連結されたグラフ上のターゲット確率分布に対して可能な限り早く,反発的相互作用を通じて,"フォロワー"エージェント群を群集化する「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。 リーダー制御ポリシは、通常の差分方程式の形で平均場モデルに従って時間とともに進化するスワム分布の関数である。 個々のエージェント活動ではなく、各グラフ頂点におけるエージェント集団に対するポリシーの依存は、リーダーが要求する観察を単純化し、エージェントの数に応じて制御戦略をスケール可能にする。 SARSA と Q-Learning という2つの時間差学習アルゴリズムを用いて,そのグラフ上の従者エージェント分布とリーダの位置に基づくリーダ制御ポリシを生成する。 4つの頂点を持つ格子グラフに対応するシミュレーション環境を用いて,10から100の従者エージェント集団に対する制御ポリシーを訓練し,検証した。 最後に,100個の模擬エージェントを用いて訓練した制御ポリシーを用いて,10個の小型ロボット群を4つの空間領域の目標分布に再分配した。

In this paper, we present a reinforcement learning approach to designing a control policy for a "leader" agent that herds a swarm of "follower" agents, via repulsive interactions, as quickly as possible to a target probability distribution over a strongly connected graph. The leader control policy is a function of the swarm distribution, which evolves over time according to a mean-field model in the form of an ordinary difference equation. The dependence of the policy on agent populations at each graph vertex, rather than on individual agent activity, simplifies the observations required by the leader and enables the control strategy to scale with the number of agents. Two Temporal-Difference learning algorithms, SARSA and Q-Learning, are used to generate the leader control policy based on the follower agent distribution and the leader's location on the graph. A simulation environment corresponding to a grid graph with 4 vertices was used to train and validate the control policies for follower agent populations ranging from 10 to 100. Finally, the control policies trained on 100 simulated agents were used to successfully redistribute a physical swarm of 10 small robots to a target distribution among 4 spatial regions.
翻訳日:2022-11-15 14:13:59 公開日:2020-12-12
# 合成開口レーダ画像におけるターゲット自動認識:調査

Automatic Target Recognition on Synthetic Aperture Radar Imagery: A Survey ( http://arxiv.org/abs/2007.02106v2 )

ライセンス: Link先を確認
O. Kechagias-Stamatis and N. Aouf(参考訳) 自動的標的認識(automatic target recognition, atr)は、諜報機関と自律的な軍事プラットフォームを強化するための中核的なプロセスの一つである。 このことから,SAR(Synthetic Aperture Radar, 合成開口レーダ)は, 対応するデータ領域に対していくつかの利点があることが示された。本論文では, SARドメインで最も一般的なデータセットであるMSTARデータセットを用いて, 現在のSAR ATRアーキテクチャを調査し,評価する。 本研究では,sar atrアーキテクチャの分類法を提案するとともに,各手法の長所と短所を,標準的および拡張的な運用条件下で直接比較する。 さらに、MSTARが標準的なSAR ATRベンチマークデータセットであるにも関わらず、弱点を強調し、今後の研究方向性を提案する。

Automatic Target Recognition (ATR) for military applications is one of the core processes towards enhancing intelligencer and autonomously operating military platforms. Spurred by this and given that Synthetic Aperture Radar (SAR) presents several advantages over its counterpart data domains, this paper surveys and assesses current SAR ATR architectures that employ the most popular dataset for the SAR domain, namely the Moving and Stationary Target Acquisition and Recognition (MSTAR) dataset. Based on the current methodology trends, we propose a taxonomy for the SAR ATR architectures, along with a direct comparison of the strengths and weaknesses of each method under both standard and extended operational conditions. Additionally, despite MSTAR being the standard SAR ATR benchmarking dataset we also highlight its weaknesses and suggest future research directions.
翻訳日:2022-11-13 13:54:33 公開日:2020-12-12
# 高速SUSY予測のためのベイズニューラルネットワーク

Bayesian Neural Networks for Fast SUSY Predictions ( http://arxiv.org/abs/2007.04506v3 )

ライセンス: Link先を確認
Braden Kronheim, Michelle Kuchera, Harrison Prosper, and Alexander Karbo(参考訳) 現在の素粒子物理学研究の目標の1つは、CERNの大型ハドロン衝突型加速器(LHC)のような加速器で、標準模型(BSM)を超える物理学という新しい物理学の証拠を得ることである。 新しい物理学の探索は、多くの未知のパラメータに依存するBSM理論によって導かれることが多い。 本稿では,19個の自由パラメータを持つBSM理論である現象学最小超対称性標準モデル (pMSSM) のパラメータ空間からいくつかの予測へのマッピングを機械学習を用いてモデル化する。 ベイズニューラルネットワークは、任意のpmssmパラメータ点の断面積、関連する最も軽い中性ヒッグス粒子の質量、およびパラメータ点の理論的生存可能性を予測するために使用される。 3つの量はすべて平均誤差3.34%以下でモデル化され、結果が導出される超対称性符号よりもはるかに短い時間でモデル化される。 これらの結果は、機械学習がBSM理論の高次元空間から予測へのマッピングを正確にモデル化する可能性のさらなる実証である。

One of the goals of current particle physics research is to obtain evidence for new physics, that is, physics beyond the Standard Model (BSM), at accelerators such as the Large Hadron Collider (LHC) at CERN. The searches for new physics are often guided by BSM theories that depend on many unknown parameters, which, in some cases, makes testing their predictions difficult. In this paper, machine learning is used to model the mapping from the parameter space of the phenomenological Minimal Supersymmetric Standard Model (pMSSM), a BSM theory with 19 free parameters, to some of its predictions. Bayesian neural networks are used to predict cross sections for arbitrary pMSSM parameter points, the mass of the associated lightest neutral Higgs boson, and the theoretical viability of the parameter points. All three quantities are modeled with average percent errors of 3.34% or less and in a time significantly shorter than is possible with the supersymmetry codes from which the results are derived. These results are a further demonstration of the potential for machine learning to model accurately the mapping from the high dimensional spaces of BSM theories to their predictions.
翻訳日:2022-11-12 05:27:23 公開日:2020-12-12
# IntelligentPooling: mHealthのための実践的なトンプソンサンプリング

IntelligentPooling: Practical Thompson Sampling for mHealth ( http://arxiv.org/abs/2008.01571v2 )

ライセンス: Link先を確認
Sabina Tomkins, Peng Liao, Predrag Klasnja and Susan Murphy(参考訳) モバイルヘルス(mHealth)のスマートデバイスは、ユーザーが健康的な行動を採用し、維持するのを助けることを目的として、時間とともに繰り返し行動療法をユーザーに届ける。 強化学習は、これらのシーケンシャルな処理決定を最適に行う方法を学ぶのに最適である。 しかし、強化学習がモバイル医療環境で効果的に展開される前に、大きな課題を克服しなければならない。 この作業では、次のような課題が懸念されています。 1)同じ状況の個人は治療に対する異なる反応を示すことができる 2)一方の個人について学習するには限られた量のデータしか利用できない。 3)治療に対する非定常反応。 これらの課題に対処するため、Thompson-Sampling banditアルゴリズムを一般化し、IntelligentPoolingを開発した。 IntelligentPoolingはパーソナライズされた治療ポリシーを学び、課題に対処する。 2つ目の課題に対処するため、intelligentpoolingは各ユーザのパーソナライズ度を更新し、他のユーザの利用可能なデータを使用して学習をスピードアップする。 最後に、intelligentpoolingによって、応答性は、治療開始時からユーザの時間の関数として変化するため、チャレンジ3に対処できる。 我々はIntelligentPoolingが最先端技術よりも平均26%低い後悔を達成していることを示す。 我々は、このアプローチの可能性を実証し、実際に臨床試験を行う少数のユーザーから学ぶことができることを実証する。

In mobile health (mHealth) smart devices deliver behavioral treatments repeatedly over time to a user with the goal of helping the user adopt and maintain healthy behaviors. Reinforcement learning appears ideal for learning how to optimally make these sequential treatment decisions. However, significant challenges must be overcome before reinforcement learning can be effectively deployed in a mobile healthcare setting. In this work we are concerned with the following challenges: 1) individuals who are in the same context can exhibit differential response to treatments 2) only a limited amount of data is available for learning on any one individual, and 3) non-stationary responses to treatment. To address these challenges we generalize Thompson-Sampling bandit algorithms to develop IntelligentPooling. IntelligentPooling learns personalized treatment policies thus addressing challenge one. To address the second challenge, IntelligentPooling updates each user's degree of personalization while making use of available data on other users to speed up learning. Lastly, IntelligentPooling allows responsivity to vary as a function of a user's time since beginning treatment, thus addressing challenge three. We show that IntelligentPooling achieves an average of 26% lower regret than state-of-the-art. We demonstrate the promise of this approach and its ability to learn from even a small group of users in a live clinical trial.
翻訳日:2022-11-04 06:21:08 公開日:2020-12-12
# オンラインメモリバインディングタスクのためのワーキングメモリ:ハイブリッドモデル

Working Memory for Online Memory Binding Tasks: A Hybrid Model ( http://arxiv.org/abs/2008.04208v2 )

ライセンス: Link先を確認
Seyed Mohammad Mahdi Heidarpoor Yazdi, Abdolhossein Abbassian(参考訳) ワーキングメモリは、情報をオンラインで保持し操作する脳モジュールである。 本研究では,単純なフィードフォワードネットワークを,インタフェースベクトルと呼ばれる読み書きベクトルを介して,バランスのとれたランダムネットワークに結合するハイブリッドモデルを設計する。 3つのケースとその結果は、n-backタスク、一階メモリバインディングタスク、一般化一階メモリタスク、二階メモリバインディングタスクとよく似ている。 重要な結果として,作業メモリの2成分モデルでは,フィードフォワードコンポーネントのみに制限された学習による性能が向上した。 ここでは学習せずにランダムネットワーク特性を利用する。 最後に、より複雑なメモリバインディングタスクであるcueベースのメモリバインディングタスクが導入され、ネットワークが有用なメモリチャンクを選択するように促すバインディング関係を表す入力としてキューが与えられる。 我々の知る限り、フレキシブルメモリとしてのランダムネットワークがオンラインバインディングタスクにおいて重要な役割を果たすのは、これが初めてである。 我々は,フィードフォワードネットワークが一時記憶ランダムネットワークとのインタラクションを注意統制型実行システムとして学習する作業記憶の候補モデルとして,結果を解釈することができる。

Working Memory is the brain module that holds and manipulates information online. In this work, we design a hybrid model in which a simple feed-forward network is coupled to a balanced random network via a read-write vector called the interface vector. Three cases and their results are discussed similar to the n-back task called, first-order memory binding task, generalized first-order memory task, and second-order memory binding task. The important result is that our dual-component model of working memory shows good performance with learning restricted to the feed-forward component only. Here we take advantage of the random network property without learning. Finally, a more complex memory binding task called, a cue-based memory binding task, is introduced in which a cue is given as input representing a binding relation that prompts the network to choose the useful chunk of memory. To our knowledge, this is the first time that random networks as a flexible memory is shown to play an important role in online binding tasks. We may interpret our results as a candidate model of working memory in which the feed-forward network learns to interact with the temporary storage random network as an attentional-controlling executive system.
翻訳日:2022-11-02 17:29:25 公開日:2020-12-12
# wikihowによる意図検出

Intent Detection with WikiHow ( http://arxiv.org/abs/2009.05781v2 )

ライセンス: Link先を確認
Li Zhang, Qing Lyu, Chris Callison-Burch(参考訳) 現代のタスク指向ダイアログシステムは、ユーザの意図を確実に理解する必要がある。 インテント検出は、注釈付きデータが少ないため、新しいドメインや新しい言語に移行する際に最も難しい。 この課題に対処するために,事前学習した意図検出モデルを提案する。 我々のモデルは、包括的な教育ウェブサイトであるwikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できる。 我々のモデルは、Snipsデータセット、Schema-Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3言語で最先端の結果を得る。 当社のモデルは、ゼロショットと少数ショットのパフォーマンスも強く、すべてのデータセットでたった100のトレーニング例を使用して75%以上の精度を実現しています。

Modern task-oriented dialog systems need to reliably understand users' intents. Intent detection is most challenging when moving to new domains or new languages, since there is little annotated data. To address this challenge, we present a suite of pretrained intent detection models. Our models are able to predict a broad range of intended goals from many actions because they are trained on wikiHow, a comprehensive instructional website. Our models achieve state-of-the-art results on the Snips dataset, the Schema-Guided Dialogue dataset, and all 3 languages of the Facebook multilingual dialog datasets. Our models also demonstrate strong zero- and few-shot performance, reaching over 75% accuracy using only 100 training examples in all datasets.
翻訳日:2022-10-19 07:57:20 公開日:2020-12-12
# マルチターン対話のための発話認識と話者認識表現のギャップを埋める

Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue ( http://arxiv.org/abs/2009.06504v2 )

ライセンス: Link先を確認
Longxiang Liu, Zhuosheng Zhang, Hai Zhao, Xi Zhou, Xiang Zhou(参考訳) マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。 したがって、発話と話者認識の手がかりはモデルでよく捉えられるはずである。 しかし,既存の検索ベースマルチターン対話モデルでは,コーダとしての事前学習言語モデル (PrLM) は,一対の対話履歴と候補応答を全体として捉えて粗い対話を表現しており,このような表現に組み合わされた発話相互関係や話者の役割に関する階層的情報はうまく対応していない。 本研究では,対話履歴に含まれる効果的な発話認識と話者認識表現をモデル化し,そのギャップを埋める新しいモデルを提案する。 本稿では,Transformer ベースの PrLM におけるマスキング機構により,文脈化された単語表現を分離し,各単語が現在発話中の単語のみに焦点を合わせ,他の発話,話者の役割(送信者の発話と受信者の発話)を2つに分けた。 実験結果から,本手法は4つのベンチマークデータセットにおいて,強エレクトラベースラインを実質的に向上させ,従来手法よりも様々な性能向上を実現する。 本手法の有効性を示すため,一連のアブレーション研究を行った。

A multi-turn dialogue is composed of multiple utterances from two or more different speaker roles. Thus utterance- and speaker-aware clues are supposed to be well captured in models. However, in the existing retrieval-based multi-turn dialogue modeling, the pre-trained language models (PrLMs) as encoder represent the dialogues coarsely by taking the pairwise dialogue history and candidate response as a whole, the hierarchical information on either utterance interrelation or speaker roles coupled in such representations is not well addressed. In this work, we propose a novel model to fill such a gap by modeling the effective utterance-aware and speaker-aware representations entailed in a dialogue history. In detail, we decouple the contextualized word representations by masking mechanisms in Transformer-based PrLM, making each word only focus on the words in current utterance, other utterances, two speaker roles (i.e., utterances of sender and utterances of receiver), respectively. Experimental results show that our method boosts the strong ELECTRA baseline substantially in four public benchmark datasets, and achieves various new state-of-the-art performance over previous methods. A series of ablation studies are conducted to demonstrate the effectiveness of our method.
翻訳日:2022-10-18 11:13:34 公開日:2020-12-12
# wikihowによる目標、ステップ、時間順序の推論

Reasoning about Goals, Steps, and Temporal Ordering with WikiHow ( http://arxiv.org/abs/2009.07690v2 )

ライセンス: Link先を確認
Li Zhang, Qing Lyu, Chris Callison-Burch(参考訳) 手続き的事象の2種類の関係に関する一連の推論タスクを提案する。ゴール-ステップ関係("learn pose"は"doing yoga"のより大きな目標へのステップである)とステップ-ステップ時間関係("buy a yoga mat"は一般的に"learn pose"に先行する)である。 本稿では,これらの2つの関係を対象とするデータセットについて紹介する。 我々の評価テストセットは、最先端トランスフォーマーモデルの性能と人間のパフォーマンスとの間に約10%から20%の差があり、コモンセンス推論の信頼性の高いベンチマークとして機能する。 我々の自動生成されたトレーニングセットは、SWAG、Snips、Story Cloze Testをゼロおよび少数ショットで大幅に改善し、手続き的なイベントの知識を必要とするドメイン外のタスクに効果的に移行できます。

We propose a suite of reasoning tasks on two types of relations between procedural events: goal-step relations ("learn poses" is a step in the larger goal of "doing yoga") and step-step temporal relations ("buy a yoga mat" typically precedes "learn poses"). We introduce a dataset targeting these two relations based on wikiHow, a website of instructional how-to articles. Our human-validated test set serves as a reliable benchmark for commonsense inference, with a gap of about 10% to 20% between the performance of state-of-the-art transformer models and human performance. Our automatically-generated training set allows models to effectively transfer to out-of-domain tasks requiring knowledge of procedural events, with greatly improved performances on SWAG, Snips, and the Story Cloze Test in zero- and few-shot settings.
翻訳日:2022-10-17 23:53:34 公開日:2020-12-12
# 小さくて美しい: 分割とリフレーズのための新しいベンチマーク

Small but Mighty: New Benchmarks for Split and Rephrase ( http://arxiv.org/abs/2009.08560v2 )

ライセンス: Link先を確認
Li Zhang, Huaiyu Zhu, Siddhartha Brahma, Yunyao Li(参考訳) Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。 比較的新しいタスクとして、評価ベンチマークと測定基準の健全性を保証するのが最重要である。 広く使われているベンチマークデータセットは、その自動生成プロセスによって生じる、簡単に活用可能な構文的手がかりを普遍的に含んでいる。 このようなヒントを生かして,単純なルールベースモデルであっても,最先端モデルと同等の性能を発揮することを示す。 このような制限に対処するために、クラウドソースのベンチマークデータセットを2つ収集し、リリースします。 私たちは、それらがはるかに多様な構文を含むことを確認するだけでなく、明確に定義された基準に従って、その品質を注意深く制御します。 十分な自動測定基準は存在しないが,これらの基準に基づいた詳細な手作業による評価をクラウドソーシングを用いて適用することにより,我々のデータセットがタスクをより良く表現し,モデルにとって極めて困難であることを示す。

Split and Rephrase is a text simplification task of rewriting a complex sentence into simpler ones. As a relatively new task, it is paramount to ensure the soundness of its evaluation benchmark and metric. We find that the widely used benchmark dataset universally contains easily exploitable syntactic cues caused by its automatic generation process. Taking advantage of such cues, we show that even a simple rule-based model can perform on par with the state-of-the-art model. To remedy such limitations, we collect and release two crowdsourced benchmark datasets. We not only make sure that they contain significantly more diverse syntax, but also carefully control for their quality according to a well-defined set of criteria. While no satisfactory automatic metric exists, we apply fine-grained manual evaluation based on these criteria using crowdsourcing, showing that our datasets better represent the task and are significantly more challenging for the models.
翻訳日:2022-10-17 11:41:57 公開日:2020-12-12
# トランスファーラーニングを用いた改良ニューラルアーキテクチャサーチ(NAS)に基づく物理インフォームニューラルネットワークを用いた異種多孔質材料の確率解析

Stochastic analysis of heterogeneous porous material with modified neural architecture search (NAS) based physics-informed neural networks using transfer learning ( http://arxiv.org/abs/2010.12344v2 )

ライセンス: Link先を確認
Hongwei Guo, Xiaoying Zhuang and Timon Rabczuk(参考訳) 本研究では,不均質多孔質材料の確率的解析のために,ニューラルアーキテクチャ探索法(nas)を応用した物理インフォームド深層学習モデルを提案する。 ランダム化スペクトル表現に基づくモンテカルロ法は、多孔質媒質を流れる流れの確率モデルを構築するために最初に用いられる。 本稿では, 確率的地下水流動問題の制御方程式を解くために, 計算量が少なく, 異なる偏微分方程式 (pdes) を適合させることができる, トランスファー学習を用いた物理インフォーメーションニューラルネットワーク (pinns) に基づく修正nasモデルを構築した。 適用した性能推定戦略は、製造した解を用いた誤差推定モデルから構成する。 PINNモデルの事前知識を取得し、探索空間のパラメータの範囲を狭め、ハイパーパラメータ最適化アルゴリズムを用いてパラメータの値をさらに決定するために感度解析を行う。 さらにNASベースのPINNモデルは、最も好ましいアーキテクチャの重みとバイアスを節約し、微調整プロセスで使用される。 その結果、ガウス相関関数を用いた対数導電性は指数相関の場合よりもはるかに優れており、これはPINNsモデルと修正ニューラルアーキテクチャ検索に基づくPINNsモデルに適合しており、PDEの解を近似する大きな可能性を示している。 さらに,高度に不均質な帯水層における地下水流動シミュレーションの指標となる3次元確率流モデルを構築した。 NASモデルに基づくディープコロケーション法は, 異なる製造法を用いて, 異なる次元の数値的な例を通して有効かつ正確であることを確認した。

In this work, a modified neural architecture search method (NAS) based physics-informed deep learning model is presented for stochastic analysis in heterogeneous porous material. Monte Carlo method based on a randomized spectral representation is first employed to construct a stochastic model for simulation of flow through porous media. To solve the governing equations for stochastic groundwater flow problem, we build a modified NAS model based on physics-informed neural networks (PINNs) with transfer learning in this paper that will be able to fit different partial differential equations (PDEs) with less calculation. The performance estimation strategies adopted is constructed from an error estimation model using the method of manufactured solutions. A sensitivity analysis is performed to obtain the prior knowledge of the PINNs model and narrow down the range of parameters for search space and use hyper-parameter optimization algorithms to further determine the values of the parameters. Further the NAS based PINNs model also saves the weights and biases of the most favorable architectures, then used in the fine-tuning process. It is found that the log-conductivity field using Gaussian correlation function will perform much better than exponential correlation case, which is more fitted to the PINNs model and the modified neural architecture search based PINNs model shows a great potential in approximating solutions to PDEs. Moreover, a three dimensional stochastic flow model is built to provide a benchmark to the simulation of groundwater flow in highly heterogeneous aquifers. The NAS model based deep collocation method is verified to be effective and accurate through numerical examples in different dimensions using different manufactured solutions.
翻訳日:2022-10-11 11:38:57 公開日:2020-12-12
# 軌道埋め込みによる微細な空間的粒度における位置関数類似性の測定

Towards Measuring Place Function Similarity at Fine Spatial Granularity with Trajectory Embedding ( http://arxiv.org/abs/2011.00261v2 )

ライセンス: Link先を確認
Cheng Fu and Robert Weibel(参考訳) 計算の観点からの場所関数のモデリングは、一般的な研究テーマである。 軌道埋め込みは、神経ネットワークが支援する次元減少技術であり、軌道の一部として同様の時間的文脈を共有する場合、埋め込み空間内の近接した場所に類似の社会的機能を持つ場所を配置することができる。 埋め込み類似度は以前、位置関数の類似度を測定するための新しい指標として提案された。 本研究は,このアプローチが従来の研究よりもはるかに小さい地理的粒度で地理的単位に有意かどうかを考察する。 さらに,地理的距離が埋め込み類似性に影響を及ぼすかどうかを検討した。 大型車両軌跡データセットに基づく実験評価により, 埋込類似性は配置関数の指標プロキシとなりうることを確認した。 しかし, 埋め込み類似性は局所的スケールにおける距離によっても有界であることを示した。

Modeling place functions from a computational perspective is a prevalent research topic. Trajectory embedding, as a neural-network-backed dimension reduction technology, allows the possibility to put places with similar social functions at close locations in the embedding space if the places share similar chronological context as part of a trajectory. The embedding similarity was previously proposed as a new metric for measuring the similarity of place functions. This study explores if this approach is meaningful for geographical units at a much smaller geographical granularity compared to previous studies. In addition, this study investigates if the geographical distance can influence the embedding similarity. The empirical evaluations based on a big vehicle trajectory data set confirm that the embedding similarity can be a metric proxy for place functions. However, the results also show that the embedding similarity is still bounded by the distance at the local scale.
翻訳日:2022-10-01 04:22:40 公開日:2020-12-12
# アドベクション・ディフフュージョンモデルのための物理不定形ニューラルネットワーク超解像

Physics-Informed Neural Network Super Resolution for Advection-Diffusion Models ( http://arxiv.org/abs/2011.02519v2 )

ライセンス: Link先を確認
Chulin Wang, Eloisa Bentivegna, Wang Zhou, Levente Klein, Bruce Elmegreen(参考訳) 物理インフォームドニューラルネットワーク(NN)は、空間分解能を改善し、物理モデルや衛星観測からのデータの物理的一貫性を強制する新しい技術である。 大気汚染プラムの対流拡散モデルにおいて,低分解能画像から高分解能画像(4\times$)を再構成するために,超解像(SR)技術を検討した。 アドベクション拡散方程式が従来のピクセルベースの制約に加えてNNを制約すると、一般にSR性能が向上する。 シミュレーションから画像画素をランダムに除去し, 行方不明データの内容を学習可能にすることにより, SR手法による欠落データ再構築の可能性を検討する。 S/Nの111\%$の改善は、物理方程式が40\%$ピクセル損失を持つSRに含まれるときに示される。 物理インフォームドNNは、劣化した画像を正確に再構成し、標準のSRアプローチよりも優れた結果を生成する。

Physics-informed neural networks (NN) are an emerging technique to improve spatial resolution and enforce physical consistency of data from physics models or satellite observations. A super-resolution (SR) technique is explored to reconstruct high-resolution images ($4\times$) from lower resolution images in an advection-diffusion model of atmospheric pollution plumes. SR performance is generally increased when the advection-diffusion equation constrains the NN in addition to conventional pixel-based constraints. The ability of SR techniques to also reconstruct missing data is investigated by randomly removing image pixels from the simulations and allowing the system to learn the content of missing data. Improvements in S/N of $11\%$ are demonstrated when physics equations are included in SR with $40\%$ pixel loss. Physics-informed NNs accurately reconstruct corrupted images and generate better results compared to the standard SR approaches.
翻訳日:2022-09-29 22:58:22 公開日:2020-12-12
# DeepMind Lab2D

DeepMind Lab2D ( http://arxiv.org/abs/2011.07027v2 )

ライセンス: Link先を確認
Charles Beattie, Thomas K\"oppe, Edgar A. Du\'e\~nez-Guzm\'an, Joel Z. Leibo(参考訳) 本稿では,研究者主導の環境設計実験を促進する人工知能研究用スケーラブル環境シミュレータであるDeepMind Lab2Dを紹介する。 deepmind lab2dは、マルチエージェントのディープラーニング研究者を念頭に置いて開発されたが、そのサブフィールドを超えて役立つかもしれない。

We present DeepMind Lab2D, a scalable environment simulator for artificial intelligence research that facilitates researcher-led experimentation with environment design. DeepMind Lab2D was built with the specific needs of multi-agent deep reinforcement learning researchers in mind, but it may also be useful beyond that particular subfield.
翻訳日:2022-09-26 00:12:12 公開日:2020-12-12
# ECoGデータの解釈可能可視化と高次次元化

Interpretable Visualization and Higher-Order Dimension Reduction for ECoG Data ( http://arxiv.org/abs/2011.09447v3 )

ライセンス: Link先を確認
Kelly Geyer, Frederick Campbell, Andersen Chang, John Magnotti, Michael Beauchamp, Genevera I. Allen(参考訳) エレクトロコルチコグラフ(ECoG)技術は、脳外科手術中に皮質表面に直接置かれる電極を介して人間の脳の電気活動を測定する。 速い時間分解能で活動を記録する能力を通じて、ECoGの実験によって、人間の脳がどのように音声を処理しているかをよりよく理解できるようになった。 その性質上、神経科学者が2つの主要な理由で直接解釈することは困難である。 まず、ecogのデータはサイズが大きくなりがちで、個々の実験で最大数ギガバイトのデータが得られる。 第二に、ECoGデータには複雑で高次の性質がある。 信号処理の後、この種のデータは試行、電極、周波数、時間を表す次元の4方向テンソルとして構成される。 本稿では,正規化高次主成分分析と呼ばれる解釈可能な次元削減手法と,神経科学者によるECoGデータの探索と可視化を可能にする正規化高次部分最小方形の拡張を開発する。 提案手法では,スパースかつ機能的なCandecomp-Parafac (CP)分解を用い,各電極と周波数帯域の選択に疎結合し,時間と周波数の滑らかさを考慮し,直接解釈可能な因子を得る。 人間の音声の音声処理と視覚処理に関するECoGケーススタディにより,本手法の性能と解釈可能性を示す。

ElectroCOrticoGraphy (ECoG) technology measures electrical activity in the human brain via electrodes placed directly on the cortical surface during neurosurgery. Through its capability to record activity at a fast temporal resolution, ECoG experiments have allowed scientists to better understand how the human brain processes speech. By its nature, ECoG data is difficult for neuroscientists to directly interpret for two major reasons. Firstly, ECoG data tends to be large in size, as each individual experiment yields data up to several gigabytes. Secondly, ECoG data has a complex, higher-order nature. After signal processing, this type of data may be organized as a 4-way tensor with dimensions representing trials, electrodes, frequency, and time. In this paper, we develop an interpretable dimension reduction approach called Regularized Higher Order Principal Components Analysis, as well as an extension to Regularized Higher Order Partial Least Squares, that allows neuroscientists to explore and visualize ECoG data. Our approach employs a sparse and functional Candecomp-Parafac (CP) decomposition that incorporates sparsity to select relevant electrodes and frequency bands, as well as smoothness over time and frequency, yielding directly interpretable factors. We demonstrate the performance and interpretability of our method with an ECoG case study on audio and visual processing of human speech.
翻訳日:2022-09-25 07:53:29 公開日:2020-12-12
# (参考訳) Mix and Match: 新しいFPGA中心のディープニューラルネットワーク量子化フレームワーク

Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization Framework ( http://arxiv.org/abs/2012.04240v2 )

ライセンス: CC BY 4.0
Sung-En Chang, Yanyu Li, Mengshu Sun, Runbin Shi, Hayden K.-H. So, Xuehai Qian, Yanzhi Wang, Xue Lin(参考訳) ディープニューラルネットワーク(DNN)は、様々なアプリケーションドメインで素晴らしいパフォーマンスを実現している。 多様なDNNモデルをサポートするために, ASIC, FPGA, 組込みシステムなどのエッジコンピューティングプラットフォーム上でのDNN推論の効率的な実装について検討した。 モデルサイズと計算量が大きいため、モデル圧縮はDNNモデルをエッジデバイスにデプロイするための重要なステップである。 本稿では,重量量子化に着目し,重量計算を補完するハードウェアフレンドリーなモデル圧縮手法を提案する。 全ての重みに対して同じ量子化スキームを用いる既存の方法とは異なり、重み行列の異なる行に対して異なる量子化スキームを適用する最初の解を提案する。 1) 異なる列における重みの分布は同じではないこと,(2) 異種FPGAハードウェア資源のより良い利用を実現する可能性によって動機づけられる。 そこで本研究では,まず,論理シフト器と加算器に乗算演算を置き換え,FPGA LUTリソースの高効率な実装を可能にする,ガウス的な重み分布に適したハードウェアフレンドリな量子化手法を提案する。 対照的に、既存の不動点量子化は一様重み分布に適しており、dspにより効率的に実装できる。 そこで本研究では,提案するSP2と固定点スキームのアンサンブルを用いたFPGA中心の混合スキーム量子化(MSQ)を提案する。 2つのスキームを組み合わせることで、重量分布との整合性が向上し、精度が向上する。

Deep Neural Networks (DNNs) have achieved extraordinary performance in various application domains. To support diverse DNN models, efficient implementations of DNN inference on edge-computing platforms, e.g., ASICs, FPGAs, and embedded systems, are extensively investigated. Due to the huge model size and computation amount, model compression is a critical step to deploy DNN models on edge devices. This paper focuses on weight quantization, a hardware-friendly model compression approach that is complementary to weight pruning. Unlike existing methods that use the same quantization scheme for all weights, we propose the first solution that applies different quantization schemes for different rows of the weight matrix. It is motivated by (1) the distribution of the weights in the different rows are not the same; and (2) the potential of achieving better utilization of heterogeneous FPGA hardware resources. To achieve that, we first propose a hardware-friendly quantization scheme named sum-of-power-of-2 (SP2) suitable for Gaussian-like weight distribution, in which the multiplication arithmetic can be replaced with logic shifter and adder, thereby enabling highly efficient implementations with the FPGA LUT resources. In contrast, the existing fixed-point quantization is suitable for Uniform-like weight distribution and can be implemented efficiently by DSP. Then to fully explore the resources, we propose an FPGA-centric mixed scheme quantization (MSQ) with an ensemble of the proposed SP2 and the fixed-point schemes. Combining the two schemes can maintain, or even increase accuracy due to better matching with weight distributions.
翻訳日:2021-05-17 09:07:05 公開日:2020-12-12
# 相対的区間伝播による深部ニューラルネットワークの解釈 : 比較勾配と宿主活動の解析

Interpreting Deep Neural Networks with Relative Sectional Propagation by Analyzing Comparative Gradients and Hostile Activations ( http://arxiv.org/abs/2012.03434v2 )

ライセンス: Link先を確認
Woo-Jeoung Nam, Jaesik Choi, Seong-Whan Lee(参考訳) ディープニューラルネットワーク(DNN)の明確な透明性は、複雑な内部構造と深い階層に沿った非線形変換によって妨げられている。 本稿では,クラス判別的帰属特性と明瞭な対象性によって出力予測を完全に分解する新しい帰属法である相対的分節伝播(rsp)を提案する。 我々は,dnnの分解におけるトレードオフ関係であるバックプロパゲーションに基づく帰属手法の欠点を慎重に検討する。 我々は、敵性因子を標的の属性の発見を妨げる要素として定義し、活性ニューロンの非抑制的な性質を克服するために、それを区別可能な方法で伝達する。 その結果、目的(正)と敵(負)の属性のバイポーラ関連スコアを、重要度に応じて各属性を維持しながら割り当てることが可能となる。 また, チャネル帰属マップの競合ユニットを排除することにより, 目標の妥当性スコアと後方伝播時の敵対的帰属との差を減少させるのを防ぐために, パーシング手法を提案する。 そこで本手法では,従来の帰属法と比較して,クラス識別性と活性化ニューロンの詳細な解明により,dnnの予測を分解することができる。 実証実験環境では, (i) ポインティングゲーム, (ii) miou, (iii) モデルの感度をpascal voc 2007, ms coco 2014, imagenetデータセットを用いて評価した。 その結果,本手法は,特徴的かつ直感的な可視化を含む既存の後方分解法よりも優れていた。

The clear transparency of Deep Neural Networks (DNNs) is hampered by complex internal structures and nonlinear transformations along deep hierarchies. In this paper, we propose a new attribution method, Relative Sectional Propagation (RSP), for fully decomposing the output predictions with the characteristics of class-discriminative attributions and clear objectness. We carefully revisit some shortcomings of backpropagation-based attribution methods, which are trade-off relations in decomposing DNNs. We define hostile factor as an element that interferes with finding the attributions of the target and propagate it in a distinguishable way to overcome the non-suppressed nature of activated neurons. As a result, it is possible to assign the bi-polar relevance scores of the target (positive) and hostile (negative) attributions while maintaining each attribution aligned with the importance. We also present the purging techniques to prevent the decrement of the gap between the relevance scores of the target and hostile attributions during backward propagation by eliminating the conflicting units to channel attribution map. Therefore, our method makes it possible to decompose the predictions of DNNs with clearer class-discriminativeness and detailed elucidations of activation neurons compared to the conventional attribution methods. In a verified experimental environment, we report the results of the assessments: (i) Pointing Game, (ii) mIoU, and (iii) Model Sensitivity with PASCAL VOC 2007, MS COCO 2014, and ImageNet datasets. The results demonstrate that our method outperforms existing backward decomposition methods, including distinctive and intuitive visualizations.
翻訳日:2021-05-16 21:25:27 公開日:2020-12-12
# ブラックボックス最適化アルゴリズムの最適アンサンブルのためのgpu高速化排他探索

GPU Accelerated Exhaustive Search for Optimal Ensemble of Black-Box Optimization Algorithms ( http://arxiv.org/abs/2012.04201v2 )

ライセンス: Link先を確認
Jiwei Liu, Bojan Tunguz, Gilberto Titericz(参考訳) ブラックボックス最適化は、理解するよりも実験しやすい複雑な機械学習アルゴリズムのチューニングに不可欠である。 本稿では,ブラックボックス最適化アルゴリズムの単純なアンサンブルが,いずれのアルゴリズムよりも優れていることを示す。 しかし、そのような最適なアンサンブルを探すには、多くの実験が必要となる。 我々は,複数の実験を並列に実行することで,ブラックボックス最適化アルゴリズムの最適アンサンブルのブラト力探索を高速化するマルチGPU最適化フレームワークを提案する。 軽量な最適化はCPUによって行われ、高価なモデルトレーニングと評価はGPUに割り当てられる。 我々は270万のモデルをトレーニングし、541,440の最適化を実行することで15の最適化器を評価する。 DGX-1では、2つの20コアCPUで10日以上から8GPUで24時間未満に短縮される。 GPUによる排他的検索による最適なアンサンブルによって、NeurIPS 2020ブラックボックス最適化の2位を獲得した。

Black-box optimization is essential for tuning complex machine learning algorithms which are easier to experiment with than to understand. In this paper, we show that a simple ensemble of black-box optimization algorithms can outperform any single one of them. However, searching for such an optimal ensemble requires a large number of experiments. We propose a Multi-GPU-optimized framework to accelerate a brute force search for the optimal ensemble of black-box optimization algorithms by running many experiments in parallel. The lightweight optimizations are performed by CPU while expensive model training and evaluations are assigned to GPUs. We evaluate 15 optimizers by training 2.7 million models and running 541,440 optimizations. On a DGX-1, the search time is reduced from more than 10 days on two 20-core CPUs to less than 24 hours on 8-GPUs. With the optimal ensemble found by GPU-accelerated exhaustive search, we won the 2nd place of NeurIPS 2020 black-box optimization challenge.
翻訳日:2021-05-16 21:05:20 公開日:2020-12-12
# 曖昧な音声感情認識のための多クラス対話型学習

Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition ( http://arxiv.org/abs/2012.05429v2 )

ライセンス: Link先を確認
Ying Zhou, Xuefeng Liang, Yu Gu, Yifei Yin, Longshan Yao(参考訳) 近年,音声感情認識技術は,コールセンターや社会ロボット,医療といった産業応用において非常に重要である。 音声認識と音声感情認識の組み合わせは、フィードバック効率とサービス品質を向上させることができる。 このように、音声感情認識は、産業と学術の両方で注目を集めている。 発話全体に存在する感情は様々な確率を持つため、音声の感情は曖昧になり、タスク認識に大きな課題が生じる可能性がある。 しかし、以前の研究では、特定の発話ごとに1つのラベルまたは複数ラベルを割り当てることが一般的であった。 したがって、それらのアルゴリズムは不適切な表現のために精度が低い。 最適相互作用理論に着想を得て,新しい多クラス対話型学習法(MCIL)を提案することで,あいまいな音声感情に対処する。 MCILでは、複数の異なる分類器がまず複数の個人を模倣し、不明瞭な感情の無矛盾な認識を持ち、新しい曖昧なラベル(感情の確率分布)を構築する。 すると、彼らは新しいラベルで再訓練され、認識と相互作用する。 この手順により、各分類器は、他人からあいまいなデータのより良い表現を学習でき、さらに認識能力を向上させることができる。 3つのベンチマークコーパス(MAS, IEMOCAP, FAU-AIBO)の実験は、MCILが各分類器の性能を向上するだけでなく、認識一貫性を中程度から実質的に向上させることを示した。

In recent years, speech emotion recognition technology is of great significance in industrial applications such as call centers, social robots and health care. The combination of speech recognition and speech emotion recognition can improve the feedback efficiency and the quality of service. Thus, the speech emotion recognition has been attracted much attention in both industry and academic. Since emotions existing in an entire utterance may have varied probabilities, speech emotion is likely to be ambiguous, which poses great challenges to recognition tasks. However, previous studies commonly assigned a single-label or multi-label to each utterance in certain. Therefore, their algorithms result in low accuracies because of the inappropriate representation. Inspired by the optimally interacting theory, we address the ambiguous speech emotions by proposing a novel multi-classifier interactive learning (MCIL) method. In MCIL, multiple different classifiers first mimic several individuals, who have inconsistent cognitions of ambiguous emotions, and construct new ambiguous labels (the emotion probability distribution). Then, they are retrained with the new labels to interact with their cognitions. This procedure enables each classifier to learn better representations of ambiguous data from others, and further improves the recognition ability. The experiments on three benchmark corpora (MAS, IEMOCAP, and FAU-AIBO) demonstrate that MCIL does not only improve each classifier's performance, but also raises their recognition consistency from moderate to substantial.
翻訳日:2021-05-15 06:15:26 公開日:2020-12-12
# (参考訳) talI:背骨トーション角を用いたタンパク質構造アライメント

TALI: Protein Structure Alignment Using Backbone Torsion Angles ( http://arxiv.org/abs/2012.06697v1 )

ライセンス: CC BY 4.0
Xijiang Miao, Michael G. Bryson, Homayoun Valafar(参考訳) 本稿では,従来の距離行列ではなく,タンパク質背骨ねじれ角度に基づく新しいタンパク質構造アライメント法(tali)を提案する。 2つのタンパク質の構造的アライメントは2つの数列(バックボーンのねじれ角)の比較に基づいているため、スミス・ワーターマンやニードルマン・ウンシュのような多くのよく開発された手法を利用することができる。 本稿では, DALI, CE, SSM などの構造アライメント手法と PSI-BLAST に基づくシーケンスアライメント手法との比較を行った。 TALIは、挑戦的なタンパク質に応用する他の方法よりも大きな成功を収めた。 TALIはリモート構造ホモロジーの認識に成功している。 TALIはまた、内部ドメインが180$^\circ$に近い回転によって構造的差異が生じる2つのタンパク質間の構造的ホモロジーを同定する能力を示した。

This article introduces a novel protein structure alignment method (named TALI) based on the protein backbone torsion angle instead of the more traditional distance matrix. Because the structural alignment of the two proteins is based on the comparison of two sequences of numbers (backbone torsion angles), we can take advantage of a large number of well-developed methods such as Smith-Waterman or Needleman-Wunsch. Here we report the result of TALI in comparison to other structure alignment methods such as DALI, CE, and SSM ass well as sequence alignment based on PSI-BLAST. TALI demonstrated great success over all other methods in application to challenging proteins. TALI was more successful in recognizing remote structural homology. TALI also demonstrated an ability to identify structural homology between two proteins where the structural difference was due to a rotation of internal domains by nearly 180$^\circ$.
翻訳日:2021-05-10 11:55:15 公開日:2020-12-12
# (参考訳) 深い自己回帰ポリシーネットワークを用いたノイズロバストエンド・ツー・エンド量子制御

Noise-Robust End-to-End Quantum Control using Deep Autoregressive Policy Networks ( http://arxiv.org/abs/2012.06701v1 )

ライセンス: CC BY 4.0
Jiahao Yao, Paul K\"ottering, Hans Gundlach, Lin Lin, Marin Bukov(参考訳) 変分量子固有解法は、量子コンピューティングデバイスを使うことで、強相関量子多体系の基底エネルギーや基底状態などの複雑な問題に対する解を見つけることができるため、近年注目を集めている。 多くのアプリケーションでは、連続パラメータと離散パラメータの両方の最適化が大きな課題となる。 強化学習(rl)を用いて,連続的および離散的な自由度を不確実性-レジリエントな方法で同時に最適化できるハイブリッドポリシー勾配アルゴリズムを提案する。 ハイブリッドポリシは、因果関係を捉えるために、深い自己回帰ニューラルネットワークによってモデル化される。 一般化量子近似最適化 ansatz: rlエージェントは、事前定義された集合からユニタリの最適な配列を構成する離散的な組合せ問題を解くと同時に、これらユニタリが適用される連続持続時間を最適化する。 古典的, 量子的計測ノイズと制御単位時間における誤差の3つの不確実性源を考慮し, エージェントのノイズロス特性を実証する。 我々の研究は、強化学習と量子制御の相乗効果を示す。

Variational quantum eigensolvers have recently received increased attention, as they enable the use of quantum computing devices to find solutions to complex problems, such as the ground energy and ground state of strongly-correlated quantum many-body systems. In many applications, it is the optimization of both continuous and discrete parameters that poses a formidable challenge. Using reinforcement learning (RL), we present a hybrid policy gradient algorithm capable of simultaneously optimizing continuous and discrete degrees of freedom in an uncertainty-resilient way. The hybrid policy is modeled by a deep autoregressive neural network to capture causality. We employ the algorithm to prepare the ground state of the nonintegrable quantum Ising model in a unitary process, parametrized by a generalized quantum approximate optimization ansatz: the RL agent solves the discrete combinatorial problem of constructing the optimal sequences of unitaries out of a predefined set and, at the same time, it optimizes the continuous durations for which these unitaries are applied. We demonstrate the noise-robust features of the agent by considering three sources of uncertainty: classical and quantum measurement noise, and errors in the control unitary durations. Our work exhibits the beneficial synergy between reinforcement learning and quantum control.
翻訳日:2021-05-10 11:42:21 公開日:2020-12-12
# (参考訳) 顔ランドマーク検出のためのマルチソース一貫性を用いた教師学習

Teacher-Student Asynchronous Learning with Multi-Source Consistency for Facial Landmark Detection ( http://arxiv.org/abs/2012.06711v1 )

ライセンス: CC BY 4.0
Rongye Meng, Sanping Zhou, Xingyu Wan, Mengliu Li, Jinjun Wang(参考訳) ビデオにおける大規模顔ランドマーク検出タスクのアノテーションコストが高いことから,高品質な擬似ラベルをマイニングしてトレーニングに参加するための半教師付きパラダイムが提案されている。 しかし、自己学習ベースの手法は、徐々に多くのサンプルを訓練することが多く、その性能は擬似ラベル付きサンプルの数によって大きく異なる。 本稿では,マルチソース・スーパーバイザリー・シグナル・一貫性基準に基づく教師教育型非同期学習(tsal)フレームワークを提案し,一貫性制約を通じて擬似ラベルを暗黙的にマイニングする。 具体的には、tsalフレームワークは、まったく同じ構造を持つ2つのモデルを含んでいる。 急進的な学生は、同じタスクからのマルチソース監視信号を使用してパラメータを更新し、穏やかな教師はパラメータを更新するためにシングルソース監視信号を使用する。 生徒の提案を合理的に吸収するために,教師のパラメータを再帰的平均フィルタリングにより更新する。 実験の結果,マルチソース監視信号のノイズを効果的にフィルタし,ネットワークパラメータ更新に重要な擬似ラベルをマイニングできることが判明した。 そして、300W、AFLW、300VWベンチマークに関する広範な実験は、TSALフレームワークが最先端のパフォーマンスを達成することを示している。

Due to the high annotation cost of large-scale facial landmark detection tasks in videos, a semi-supervised paradigm that uses self-training for mining high-quality pseudo-labels to participate in training has been proposed by researchers. However, self-training based methods often train with a gradually increasing number of samples, whose performances vary a lot depending on the number of pseudo-labeled samples added. In this paper, we propose a teacher-student asynchronous learning~(TSAL) framework based on the multi-source supervision signal consistency criterion, which implicitly mines pseudo-labels through consistency constraints. Specifically, the TSAL framework contains two models with exactly the same structure. The radical student uses multi-source supervision signals from the same task to update parameters, while the calm teacher uses a single-source supervision signal to update parameters. In order to reasonably absorb student's suggestions, teacher's parameters are updated again through recursive average filtering. The experimental results prove that asynchronous-learning framework can effectively filter noise in multi-source supervision signals, thereby mining the pseudo-labels which are more significant for network parameter updating. And extensive experiments on 300W, AFLW, and 300VW benchmarks show that the TSAL framework achieves state-of-the-art performance.
翻訳日:2021-05-10 11:07:08 公開日:2020-12-12
# (参考訳) 予測制約によるスパースデータからの一貫性深部生成モデルの学習

Learning Consistent Deep Generative Models from Sparse Data via Prediction Constraints ( http://arxiv.org/abs/2012.06718v1 )

ライセンス: CC BY 4.0
Gabriel Hope, Madina Abdrakhmanova, Xiaoyin Chen, Michael C. Hughes, Michael C. Hughes and Erik B. Sudderth(参考訳) 生成的および識別的目標のバランスをとる変分オートエンコーダやその他の深層生成モデルを学ぶための新しいフレームワークを開発する。 提案手法はモデルパラメータを最適化し、観測データの可能性の変動下限を最大化し、モデルの誤特定が不正確な予測につながるのを防ぐタスク固有の予測制約を課す。 さらに,生成モデルから自然に導出される一貫性制約を施行し,元のデータと一致させるために再構成されたデータの予測を要求できる。 この2つのコントリビューション – 予測制約と一貫性制約 – が,特にカテゴリラベルが疎外だがラベルなしデータが豊富である半教師付きシナリオにおいて,有望な画像分類性能につながることを示す。 提案手法は,空間変換をキャプチャする潜伏変数を持つ深層生成モデルを拡張することで,半教師付き分類性能を直接向上する。

We develop a new framework for learning variational autoencoders and other deep generative models that balances generative and discriminative goals. Our framework optimizes model parameters to maximize a variational lower bound on the likelihood of observed data, subject to a task-specific prediction constraint that prevents model misspecification from leading to inaccurate predictions. We further enforce a consistency constraint, derived naturally from the generative model, that requires predictions on reconstructed data to match those on the original data. We show that these two contributions -- prediction constraints and consistency constraints -- lead to promising image classification performance, especially in the semi-supervised scenario where category labels are sparse but unlabeled data is plentiful. Our approach enables advances in generative modeling to directly boost semi-supervised classification performance, an ability we demonstrate by augmenting deep generative models with latent variables capturing spatial transformations.
翻訳日:2021-05-10 10:51:24 公開日:2020-12-12
# (参考訳) ロボットとクラウドの連続学習のための学習データのサンプリング

Sampling Training Data for Continual Learning Between Robots and the Cloud ( http://arxiv.org/abs/2012.06739v1 )

ライセンス: CC BY 4.0
Sandeep Chinchali, Evgenya Pergament, Manabu Nakanoya, Eyal Cidon, Edward Zhang, Dinesh Bharadia, Marco Pavone, and Sachin Katti(参考訳) 今日のロボット艦隊は、ロボットの知覚モデルを改善するために、道路建設現場の稀なシーンのような貴重なトレーニングデータのために採掘できる、高ボリュームのビデオとLIDARセンサーストリームをますます測定している。 しかしながら、中央の計算サーバ(あるいは"クラウド")におけるリッチなセンサデータの量の増加に対する認識モデルの再トレーニングは、ネットワーク転送、クラウドストレージ、ヒューマンアノテーション、クラウドコンピューティングリソースに膨大な時間とコスト負担を課します。 そこで我々は,ロボット上に駐在するインテリジェントサンプリングアルゴリズムであるHarvestNetを導入し,希少かつ有用なイベントを格納するだけでシステムのボトルネックを低減し,クラウドで再トレーニングされた知覚モデルを改善する。 HarvestNetは、新しい道路建設現場の機械学習モデル、自動運転車のフィールドテスト、およびストリーミング顔認識の精度を大幅に向上させ、クラウドストレージ、データセットアノテーション時間、クラウド計算時間を65.7~81.3%削減した。 さらに、ベースラインアルゴリズムよりも1.05-2.58倍正確であり、scalablyは組み込みディープラーニングハードウェア上で動作する。 我々は、Google Edge Tensor Processing Unit(TPU)のための計算効率の高い知覚モデルスイート、拡張技術レポート、そして https://sites.google.com/view/harvestnetで研究コミュニティに新しいビデオデータセットを提供する。

Today's robotic fleets are increasingly measuring high-volume video and LIDAR sensory streams, which can be mined for valuable training data, such as rare scenes of road construction sites, to steadily improve robotic perception models. However, re-training perception models on growing volumes of rich sensory data in central compute servers (or the "cloud") places an enormous time and cost burden on network transfer, cloud storage, human annotation, and cloud computing resources. Hence, we introduce HarvestNet, an intelligent sampling algorithm that resides on-board a robot and reduces system bottlenecks by only storing rare, useful events to steadily improve perception models re-trained in the cloud. HarvestNet significantly improves the accuracy of machine-learning models on our novel dataset of road construction sites, field testing of self-driving cars, and streaming face recognition, while reducing cloud storage, dataset annotation time, and cloud compute time by between 65.7-81.3%. Further, it is between 1.05-2.58x more accurate than baseline algorithms and scalably runs on embedded deep learning hardware. We provide a suite of compute-efficient perception models for the Google Edge Tensor Processing Unit (TPU), an extended technical report, and a novel video dataset to the research community at https://sites.google.com/view/harvestnet.
翻訳日:2021-05-10 10:23:30 公開日:2020-12-12
# (参考訳) 繰り返しネットワークにおける複数遅延ターゲットの効率的な組み込み

Efficient Incorporation of Multiple Latency Targets in the Once-For-All Network ( http://arxiv.org/abs/2012.06748v1 )

ライセンス: CC BY 4.0
Vidhur Kumar and Andrew Szidon(参考訳) Neural Architecture Searchは、アーキテクチャエンジニアリングを自動化する効果的な方法として証明されている。 この分野の最近の取り組みは、異なるターゲットハードウェアに効率的にデプロイするために、精度やレイテンシなど、複数の目的のアーキテクチャを検討することである。 once-for-all (ofa) はトレーニングと検索を分離し、レイテンシー制約の異なる高性能ネットワークを見つけることができる。 しかし、検索フェーズは複数の遅延ターゲットを組み込むのに非効率である。 本稿では,複数の遅延目標をofaネットワークに効率的に組み込むために,ウォームスタートとランダムネットワークプルーニングを用いた2つの戦略(トップダウンとボトムアップ)を提案する。 我々はこれらの戦略を現在のOFA実装に対して評価し、我々の戦略が各レイテンシターゲットで見つかったサブネットワークの精度を犠牲にすることなく、実行時のパフォーマンスを大幅に向上させることを示した。 さらに、これらの性能向上はOFAネットワークが使用するすべての設計空間に一般化されることを示す。

Neural Architecture Search has proven an effective method of automating architecture engineering. Recent work in the field has been to look for architectures subject to multiple objectives such as accuracy and latency to efficiently deploy them on different target hardware. Once-for-All (OFA) is one such method that decouples training and search and is able to find high-performance networks for different latency constraints. However, the search phase is inefficient at incorporating multiple latency targets. In this paper, we introduce two strategies (Top-down and Bottom-up) that use warm starting and randomized network pruning for the efficient incorporation of multiple latency targets in the OFA network. We evaluate these strategies against the current OFA implementation and demonstrate that our strategies offer significant running time performance gains while not sacrificing the accuracy of the subnetworks that were found for each latency target. We further demonstrate that these performance gains are generalized to every design space used by the OFA network.
翻訳日:2021-05-10 09:41:32 公開日:2020-12-12
# (参考訳) SenSeNet: ドキュメント構造を備えたニューラルキーフレーズ生成

SenSeNet: Neural Keyphrase Generation with Document Structure ( http://arxiv.org/abs/2012.06754v1 )

ライセンス: CC BY 4.0
Yichao Luo, Zhengyan Li, Bingning Wang, Xiaoyu Xing, Qi Zhang, Xuanjing Huang(参考訳) キーフレーズ生成(英: keyphrase generation、kg)は、特定の文書や文学作品から中心的なトピックを生成するタスクであり、内容を理解するために必要な重要な情報をキャプチャする。 科学文献などの文書には、文書の論理的意味構造を表す豊富なメタ文情報が含まれている。 しかし、以前のアプローチでは、文書論理構造の制約を無視し、誤って重要でない文からキーフレーズを生成する。 そこで本研究では,メタセンス誘導バイアスをKGに組み込むSentence Selective Network(SenSeNet)を提案する。 SenSeNetでは、エンドツーエンドのトレーニングにストレートスルー推定器を使用し、文選択モジュールのトレーニングに弱い監督を組み込む。 実験結果から,SenSeNetは,構造情報の取得とKGタスクにおける文の意義の識別の有効性を示すセq2seqフレームワークに基づいて,主要なKGモデルの性能を一貫して向上させることができることがわかった。

Keyphrase Generation (KG) is the task of generating central topics from a given document or literary work, which captures the crucial information necessary to understand the content. Documents such as scientific literature contain rich meta-sentence information, which represents the logical-semantic structure of the documents. However, previous approaches ignore the constraints of document logical structure, and hence they mistakenly generate keyphrases from unimportant sentences. To address this problem, we propose a new method called Sentence Selective Network (SenSeNet) to incorporate the meta-sentence inductive bias into KG. In SenSeNet, we use a straight-through estimator for end-to-end training and incorporate weak supervision in the training of the sentence selection module. Experimental results show that SenSeNet can consistently improve the performance of major KG models based on seq2seq framework, which demonstrate the effectiveness of capturing structural information and distinguishing the significance of sentences in KG task.
翻訳日:2021-05-10 09:33:10 公開日:2020-12-12
# (参考訳) HI-Net:脳腫瘍分離のためのハイパーセンスインセプション3D UNet

HI-Net: Hyperdense Inception 3D UNet for Brain Tumor Segmentation ( http://arxiv.org/abs/2012.06760v1 )

ライセンス: CC BY 4.0
Saqib Qamar, Parvez Ahmad, Linlin Shen(参考訳) 脳腫瘍セグメンテーションタスクは、組織を腫瘍全体(WT)、腫瘍コア(TC)、マルチモデルMRI画像を用いた腫瘍クラス(ET)に分類することを目的としている。 脳腫瘍の定量的解析は臨床意思決定に不可欠である。 手動セグメンテーションは退屈で時間がかかり、主観的だが、このタスクは自動セグメンテーションメソッドに対して非常に困難である。 強力な学習能力のおかげで、主に完全な畳み込みネットワークである畳み込みニューラルネットワーク(CNN)は、有望な脳腫瘍セグメンテーションを示している。 本稿では,脳腫瘍の3d重み付き畳み込み層を積み重ねてマルチスケール情報を取り込むhyperdense inception 3d unet (hi-net)を提案することで,脳腫瘍の分節性能をさらに向上させる。 因子化畳み込み層間の高密度接続を用いて、特徴の再利用性を利用して、よりコントラクショナルな情報を抽出する。 我々はダイス損失関数を用いてクラス不均衡に対処する。 提案アーキテクチャをbrats(multi-modal brain tumor segmentation challenge) 2020年テストデータセットで検証した。 提案手法により得られたBRATS 2020テストセットの予備結果から, ET, WT, TCのダイススコアは0.79457, 0.87494, 0.83712であった。

The brain tumor segmentation task aims to classify tissue into the whole tumor (WT), tumor core (TC), and enhancing tumor (ET) classes using multimodel MRI images. Quantitative analysis of brain tumors is critical for clinical decision making. While manual segmentation is tedious, time-consuming, and subjective, this task is at the same time very challenging to automatic segmentation methods. Thanks to the powerful learning ability, convolutional neural networks (CNNs), mainly fully convolutional networks, have shown promising brain tumor segmentation. This paper further boosts the performance of brain tumor segmentation by proposing hyperdense inception 3D UNet (HI-Net), which captures multi-scale information by stacking factorization of 3D weighted convolutional layers in the residual inception block. We use hyper dense connections among factorized convolutional layers to extract more contexual information, with the help of features reusability. We use a dice loss function to cope with class imbalances. We validate the proposed architecture on the multi-modal brain tumor segmentation challenges (BRATS) 2020 testing dataset. Preliminary results on the BRATS 2020 testing set show that achieved by our proposed approach, the dice (DSC) scores of ET, WT, and TC are 0.79457, 0.87494, and 0.83712, respectively.
翻訳日:2021-05-10 09:17:38 公開日:2020-12-12
# (参考訳) ベクトル量子化変分オートエンコーダを用いた潜時空間復元による異常検出

Anomaly detection through latent space restoration using vector-quantized variational autoencoders ( http://arxiv.org/abs/2012.06765v1 )

ライセンス: CC BY 4.0
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 本稿では,ベクトル量子化変分オートエンコーダ(vq-vaes)を用いた密度と復元に基づく手法を組み合わせた分散検出手法を提案する。 VQ-VAEモデルは、カテゴリの潜在空間で画像をエンコードすることを学ぶ。 潜在コードの事前分布は、オートリグレッシブ(ar)モデルを使用してモデル化される。 我々は,ARモデルにより推定される事前確率は,教師なし異常検出に有用であり,サンプル値と画素値の両方の異常スコアを推定できることを示した。 サンプルワイズスコアは、非常に不可能な符号を選択するしきい値の上の潜伏変数の負の対数類似度として定義される。 さらに、未実現の潜在コードを先行モデルからサンプルに置き換え、画素空間にデコードすることにより、配信外画像を配信内画像に復元する。 生成した復元と原画像の平均L1距離を画素ワイド異常スコアとする。 提案手法をMOODチャレンジデータセットで検証し,VAEを用いた標準的な再構築手法と比較して高い精度を報告した。

We propose an out-of-distribution detection method that combines density and restoration-based approaches using Vector-Quantized Variational Auto-Encoders (VQ-VAEs). The VQ-VAE model learns to encode images in a categorical latent space. The prior distribution of latent codes is then modelled using an Auto-Regressive (AR) model. We found that the prior probability estimated by the AR model can be useful for unsupervised anomaly detection and enables the estimation of both sample and pixel-wise anomaly scores. The sample-wise score is defined as the negative log-likelihood of the latent variables above a threshold selecting highly unlikely codes. Additionally, out-of-distribution images are restored into in-distribution images by replacing unlikely latent codes with samples from the prior model and decoding to pixel space. The average L1 distance between generated restorations and original image is used as pixel-wise anomaly score. We tested our approach on the MOOD challenge datasets, and report higher accuracies compared to a standard reconstruction-based approach with VAEs.
翻訳日:2021-05-10 09:09:08 公開日:2020-12-12
# (参考訳) 高分解能シーンモデリングのための距離とステレオデータの融合

Fusion of Range and Stereo Data for High-Resolution Scene-Modeling ( http://arxiv.org/abs/2012.06769v1 )

ライセンス: CC BY 4.0
Georgios D. Evangelidis, Miles Hansard, and Radu Horaud(参考訳) 本稿では,高分解能深度マップ構築におけるレンジステレオ融合の問題に対処する。 特に,低分解能深度データを高分解能ステレオデータと組み合わせ,最大後部(MAP)定式化を行う。 MRFオプティマイザ上に構築されている既存のスキームとは異なり、深度データから得られるスパースな初期格差を増大させることにより、階層的に解決される一連の局所エネルギー最小化問題から格差マップを推定する。 エネルギー関数のデータ項の3つの特性のため、この方法の精度は損なわれない。 第一に、サブピクセル補正を通じて、洗練された相関と格差を提供する新しい相関関数を組み込む。 第2に、相関スコアは、深度データに基づいて適応コスト集約ステップに依存する。 第3に、シーンテクスチャとカメラ形状に基づいてステレオと深度を適応的に融合させる。 これらの性質は、従来の種子育成法とは異なり、不正な格差を伝播する傾向を避けるため、より選択的な成長過程をもたらす。 提案手法は,標準的なデスクトップコンピュータ上で,2.0MP画像上で3FPSで動作可能なアルゴリズムを実現する。 新しい手法の強い性能は、最先端手法と定量的比較と、実深度ステレオデータを用いた定性比較によって確立される。

This paper addresses the problem of range-stereo fusion, for the construction of high-resolution depth maps. In particular, we combine low-resolution depth data with high-resolution stereo data, in a maximum a posteriori (MAP) formulation. Unlike existing schemes that build on MRF optimizers, we infer the disparity map from a series of local energy minimization problems that are solved hierarchically, by growing sparse initial disparities obtained from the depth data. The accuracy of the method is not compromised, owing to three properties of the data-term in the energy function. Firstly, it incorporates a new correlation function that is capable of providing refined correlations and disparities, via subpixel correction. Secondly, the correlation scores rely on an adaptive cost aggregation step, based on the depth data. Thirdly, the stereo and depth likelihoods are adaptively fused, based on the scene texture and camera geometry. These properties lead to a more selective growing process which, unlike previous seed-growing methods, avoids the tendency to propagate incorrect disparities. The proposed method gives rise to an intrinsically efficient algorithm, which runs at 3FPS on 2.0MP images on a standard desktop computer. The strong performance of the new method is established both by quantitative comparisons with state-of-the-art methods, and by qualitative comparisons using real depth-stereo data-sets.
翻訳日:2021-05-10 09:03:36 公開日:2020-12-12
# (参考訳) 自動ポリープセグメンテーションのための生成逆ネットワーク

Generative Adversarial Networks for Automatic Polyp Segmentation ( http://arxiv.org/abs/2012.06771v1 )

ライセンス: CC BY 4.0
Awadelrahman M. A. Ali Ahmed (University of Oslo)(参考訳) 本稿では, 自動ポリプセグメンテーション問題のベンチマーキングに, 生成逆ネットワークフレームワークを用いて貢献することを目的とする。 画像から画像への変換タスクとして問題を認識し、条件生成対向ネットワークを用いて、画像によって条件付けられたマスクを入力として生成する。 ジェネレータと判別器はどちらも畳み込みニューラルネットワークである。 このモデルはジャカード指数0.4382、F2スコア0.611を達成した。

This paper aims to contribute in bench-marking the automatic polyp segmentation problem using generative adversarial networks framework. Perceiving the problem as an image-to-image translation task, conditional generative adversarial networks are utilized to generate masks conditioned by the images as inputs. Both generator and discriminator are convolution neural networks based. The model achieved 0.4382 on Jaccard index and 0.611 as F2 score.
翻訳日:2021-05-10 08:38:21 公開日:2020-12-12
# (参考訳) 飛行時間技術に基づく深度カメラとレンジスキャナの概要

An Overview of Depth Cameras and Range Scanners Based on Time-of-Flight Technologies ( http://arxiv.org/abs/2012.06772v1 )

ライセンス: CC BY 4.0
Radu Horaud, Miles Hansard, Georgios Evangelidis and Clement Menier(参考訳) time-of(tof)カメラは、シーンをレーザーやledソースで照らし、反射光を分析することで、シーンポイントの深さを計測できるセンサーである。 本稿では、まず、飛行時間カメラの基本的な測定原理について述べる。(i)光パルスがデバイスから物体へまた戻るのに要する時間を直接測定するパルス光カメラ、(ii)放出された信号と受信された信号の位相差を測定する連続波変調光カメラであり、それによって間接的に走行時間を得る。 プロトタイプや市販のデバイスを含む,既存の主要な設計についてレビューする。 また、関連するカメラキャリブレーションの原則や、TOFデバイスに適用される方法についてもレビューする。 最後に,TOFとカラーカメラの組み合わせによるメリットと課題について論じる。

Time-of-flight (TOF) cameras are sensors that can measure the depths of scene-points, by illuminating the scene with a controlled laser or LED source, and then analyzing the reflected light. In this paper, we will first describe the underlying measurement principles of time-of-flight cameras, including: (i) pulsed-light cameras, which measure directly the time taken for a light pulse to travel from the device to the object and back again, and (ii) continuous-wave modulated-light cameras, which measure the phase difference between the emitted and received signals, and hence obtain the travel time indirectly. We review the main existing designs, including prototypes as well as commercially available devices. We also review the relevant camera calibration principles, and how they are applied to TOF devices. Finally, we discuss the benefits and challenges of combined TOF and color camera systems.
翻訳日:2021-05-10 08:34:24 公開日:2020-12-12
# (参考訳) 狭義のデータセットを拡張して関連する課題を克服するためのランダムシャッフル法--心不全コホート例

A random shuffle method to expand a narrow dataset and overcome the associated challenges in a clinical study: a heart failure cohort example ( http://arxiv.org/abs/2012.06784v1 )

ライセンス: CC BY 4.0
Lorenzo Fassina, Alessandro Faragli, Francesco Paolo Lo Muzio, Sebastian Kelle, Carlo Campana, Burkert Pieske, Frank Edelmann, Alessio Alogna(参考訳) 心臓不全(HF)は世界中で少なくとも2600万人に影響を与えるため、HF患者の有害事象を予測することは臨床データ科学の主要なターゲットとなっている。 しかし、大規模なサンプルサイズを達成することは、患者募集の難しさや長時間のフォローアップが課題であり、欠落データの問題が増大することもある。 狭いデータセット濃度の問題(臨床データセットでは、そのデータセットの患者数を基数とする)を克服するには、人口増加アルゴリズムが不可欠である。 本研究の目的は,特定の仮説や回帰モデルを必要とせず,統計的に正当でありながら,HFデータセットの濃度を高めるランダムシャッフル法を設計することであった。 臨床症状と終点の予測における正当性について, ランダム反復測定法に対して, 基数向上を検証した。 特に、強化データセットの利点を強調するために、機械学習と回帰モデルが採用された。 提案したランダムシャッフル法は, データセット前処理前のHFデータセット濃度(データセット前処理前711例)を10回, 21回, ランダム反復測定アプローチで改善することができた。 このランダムシャッフル法は,欠落データや狭いデータセットの濃度が問題となる場合に,心血管領域や他のデータサイエンス問題に応用できると考えている。

Heart failure (HF) affects at least 26 million people worldwide, so predicting adverse events in HF patients represents a major target of clinical data science. However, achieving large sample sizes sometimes represents a challenge due to difficulties in patient recruiting and long follow-up times, increasing the problem of missing data. To overcome the issue of a narrow dataset cardinality (in a clinical dataset, the cardinality is the number of patients in that dataset), population-enhancing algorithms are therefore crucial. The aim of this study was to design a random shuffle method to enhance the cardinality of an HF dataset while it is statistically legitimate, without the need of specific hypotheses and regression models. The cardinality enhancement was validated against an established random repeated-measures method with regard to the correctness in predicting clinical conditions and endpoints. In particular, machine learning and regression models were employed to highlight the benefits of the enhanced datasets. The proposed random shuffle method was able to enhance the HF dataset cardinality (711 patients before dataset preprocessing) circa 10 times and circa 21 times when followed by a random repeated-measures approach. We believe that the random shuffle method could be used in the cardiovascular field and in other data science problems when missing data and the narrow dataset cardinality represent an issue.
翻訳日:2021-05-10 08:11:35 公開日:2020-12-12
# (参考訳) 深層学習におけるフィルタサイズ効果の解析

Analysis of Filter Size Effect In Deep Learning ( http://arxiv.org/abs/2101.01115v1 )

ライセンス: CC BY 4.0
Yunus Camg\"ozl\"u, Yakup Kutlu(参考訳) 多くの分野でディープラーニングを使うことによって、この技術を改善する方法や、より効果的に使用される構造を短時間で開発する方法は、この分野で働く多くの人々にとって関心のある問題である。 この課題に関して多くの研究が行われており、使用するモデルにおける変数、関数、データの変更による最良の結果を得るためを除いて、動作の持続時間と処理能力を低減することを目的としている。 本研究では,一定の背景を持つ葉画像からなるmendeleyデータセットを用いた葉分類において,決定されたモデルにおける畳み込み層のフィルタ寸法を除いて,モデル内の層数,反復数,層数,プーリング過程などの他の変数はすべて一定に保たれた。 3つの異なるフィルタサイズでの畳み込み層とそれに加えて、2つの異なる構造で得られた多くの結果が増加・減少し、3つの異なる画像サイズについて検討した。 文献では, プーリング層の利用方法の違い, 層数の増加や減少による変化, 使用するデータサイズの違い, パラメータの異なる多数の関数の結果を評価した。 CNNを用いて決定されたデータセットの葉柄分類において, コンボリューション層のフィルタサイズの変化と, フィルタの組み合わせの変化と, 画像サイズの違いに着目した。 データセットとデータ再生法を用いて,フィルタサイズと画像サイズの違いをより明確にすることを目的とした。 一定回数の反復、モデル、データセットを用いて、異なるフィルタサイズの影響が観測されている。

With the use of deep learning in many areas, how to improve this technology or how to develop the structure used more effectively and in a shorter time is an issue that is of interest to many people working in this field. Many studies are carried out on this subject, it is aimed to reduce the duration of the operation and the processing power required, except to obtain the best result with the changes made in the variables, functions and data in the models used. In this study, in the leaf classification made using Mendeley data set consisting of leaf images with a fixed background, all other variables such as layer number, iteration, number of layers in the model and pooling process were kept constant, except for the filter dimensions of the convolution layers in the determined model. Convolution layers in 3 different filter sizes and in addition to this, many results obtained in 2 different structures, increasing and decreasing, and 3 different image sizes were examined. In the literature, it is seen that different uses of pooling layers, changes due to increase or decrease in the number of layers, the difference in the size of the data used, and the results of many functions used with different parameters are evaluated. In the leaf classification of the determined data set with CNN, the change in the filter size of the convolution layer together with the change in different filter combinations and in different sized images was focused. Using the data set and data reproduction methods, it was aimed to make the differences in filter sizes and image sizes more distinct. Using the fixed number of iterations, model and data set, the effect of different filter sizes has been observed.
翻訳日:2021-05-10 07:44:37 公開日:2020-12-12
# (参考訳) 遅延差動ニューラルネットワーク

Delay Differential Neural Networks ( http://arxiv.org/abs/2012.06800v1 )

ライセンス: CC BY 4.0
Srinivas Anumasa, P.K. Srijith(参考訳) ニューラル常微分方程式(NODE)は、中間特徴ベクトルの計算を、ニューラルネットワークによってパラメータ化された常微分方程式の軌跡として扱う。 本稿では,遅延微分方程式 (DDE) に着想を得た新しいモデルである遅延微分ニューラルネットワーク (DDNN) を提案する。 提案モデルは、隠れ特徴ベクトルの導出を、現在の特徴ベクトルと過去の特徴ベクトル(歴史)の関数として考える。 この関数はニューラルネットワークとしてモデル化され、その結果、最近の多くのresnet変種に対する継続的な深さの代替となる。 提案するDDNNアーキテクチャは,現在の特徴ベクトルと過去の特徴ベクトルの考え方によって異なる。 ddnnのトレーニングには,ネットワーク上での勾配計算とバックプロパゲーションを行うためのメモリ効率の良い随伴法を提案する。 DDNNは、一般化性能に影響を与えることなくパラメータ数をさらに減らし、NODEのデータ効率を改善する。 Cifar10やCifar100のような合成および実世界の画像分類データセットで行った実験は、提案モデルの有効性を示した。

Neural ordinary differential equations (NODEs) treat computation of intermediate feature vectors as trajectories of ordinary differential equation parameterized by a neural network. In this paper, we propose a novel model, delay differential neural networks (DDNN), inspired by delay differential equations (DDEs). The proposed model considers the derivative of the hidden feature vector as a function of the current feature vector and past feature vectors (history). The function is modelled as a neural network and consequently, it leads to continuous depth alternatives to many recent ResNet variants. We propose two different DDNN architectures, depending on the way current and past feature vectors are considered. For training DDNNs, we provide a memory-efficient adjoint method for computing gradients and back-propagate through the network. DDNN improves the data efficiency of NODE by further reducing the number of parameters without affecting the generalization performance. Experiments conducted on synthetic and real-world image classification datasets such as Cifar10 and Cifar100 show the effectiveness of the proposed models.
翻訳日:2021-05-10 07:37:51 公開日:2020-12-12
# (参考訳) 自然火災伝播のための物理インフォームド機械学習シミュレータ

Physics-Informed Machine Learning Simulator for Wildfire Propagation ( http://arxiv.org/abs/2012.06825v1 )

ライセンス: CC BY 4.0
Luca Bottero, Francesco Calisto, Giovanni Graziano, Valerio Pagliarino, Martina Scauda, Sara Tiengo and Simone Azeglio(参考訳) 本研究の目的は,広範に使用されている気象研究・予測WRF-SFIREシミュレータのいくつかの重要な部分を再実装し,数値微分方程式を最先端物理インフォームド機械学習技術に置き換えてODEやPDEを解き、山火事拡散予測のためのリアルタイムシミュレータに変換する可能性を評価することである。 Juliaはコンパイルされた言語で、解釈された言語よりも優れたパーファマンスを提供し、最適化レベルが異なるJust in Time(JIT)コンパイルを提供する。 さらに、Juliaは数値計算や複雑な物理モデルの解法に特に適しており、構文やdifferialEquations.jlやModellingToolkit.jlのような特定のライブラリの存在も考慮している。

The aim of this work is to evaluate the feasibility of re-implementing some key parts of the widely used Weather Research and Forecasting WRF-SFIRE simulator by replacing its core differential equations numerical solvers with state-of-the-art physics-informed machine learning techniques to solve ODEs and PDEs, in order to transform it into a real-time simulator for wildfire spread prediction. The main programming language used is Julia, a compiled language which offers better perfomance than interpreted ones, providing Just in Time (JIT) compilation with different optimization levels. Moreover, Julia is particularly well suited for numerical computation and for the solution of complex physical models, both considering the syntax and the presence of some specific libraries such as DifferentialEquations.jl and ModellingToolkit.jl.
翻訳日:2021-05-10 07:25:17 公開日:2020-12-12
# (参考訳) 非線形データ駆動プロセス監視のための確率的PCAの改良

An improved mixture of probabilistic PCA for nonlinear data-driven process monitoring ( http://arxiv.org/abs/2012.06830v1 )

ライセンス: CC BY 4.0
Jingxin Zhang, Hao Chen, Songhang Chen, and Xia Hong(参考訳) 本稿では, 非線形データ駆動型プロセス監視のために, 確率主成分分析(ppca)の改良を行った。 この目的を達成するために、確率的主成分分析器の混合手法を用いて、基礎となる非線形過程と局所的なPPCAモデルとのモデルを確立し、改良されたPPCAに基づく断層検出手法における2つのモニタリング統計の統合に基づいて、新しい複合監視統計量を提案する。 さらに、上記監視統計の重み付け平均は、潜在的な異常を検出する指標として利用される。 提案アルゴリズムの長所は,いくつかの教師なしアルゴリズムと比較して議論されてきた。 最後に,提案手法の有効性を示すために,テネシー・イーストマン法とオートスペンションモデルを用いた。

An improved mixture of probabilistic principal component analysis (PPCA) has been introduced for nonlinear data-driven process monitoring in this paper. To realize this purpose, the technique of a mixture of probabilistic principal component analysers is utilized to establish the model of the underlying nonlinear process with local PPCA models, where a novel composite monitoring statistic is proposed based on the integration of two monitoring statistics in modified PPCA-based fault detection approach. Besides, the weighted mean of the monitoring statistics aforementioned is utilised as a metrics to detect potential abnormalities. The virtues of the proposed algorithm have been discussed in comparison with several unsupervised algorithms. Finally, Tennessee Eastman process and an autosuspension model are employed to demonstrate the effectiveness of the proposed scheme further.
翻訳日:2021-05-10 07:05:12 公開日:2020-12-12
# (参考訳) 並列超低消費電力マイクロコントローラにおけるエネルギー効率のソースコード分類

Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers ( http://arxiv.org/abs/2012.06836v1 )

ライセンス: CC BY 4.0
Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Giuseppe Tagliavini, Andrea Acquaviva(参考訳) 機械学習技術によるソースコードの分析は、現代のアーキテクチャを最大限に活用するためのソフトウェアツールチェーンの賢さ向上を目的とした、ますます検討されている研究テーマである。 低消費電力の並列組み込みアーキテクチャの場合、例えばコア数の観点から構成を見つけることを意味し、最小のエネルギー消費につながる。 実行すべきカーネルによっては、エネルギー最適スケーリング構成は自明ではない。 最近の研究は、コードやカーネルのスニペットの実行時間(例)で最高の実行目標を学習し、予測する汎用システムに焦点を当てている。 マルチコアCPUやGPUでOpenCLカーネルをオフロードする) この作業では、RISC-Vプロセッサのオンチップクラスタを特徴とする超低消費電力アーキテクチャであるPULPの最小エネルギー構成を予測できるかどうかを評価するために、静的コンパイル時機能に重点を置いている。 実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。

The analysis of source code through machine learning techniques is an increasingly explored research topic aiming at increasing smartness in the software toolchain to exploit modern architectures in the best possible way. In the case of low-power, parallel embedded architectures, this means finding the configuration, for instance in terms of the number of cores, leading to minimum energy consumption. Depending on the kernel to be executed, the energy optimal scaling configuration is not trivial. While recent work has focused on general-purpose systems to learn and predict the best execution target in terms of the execution time of a snippet of code or kernel (e.g. offload OpenCL kernel on multicore CPU or GPU), in this work we focus on static compile-time features to assess if they can be successfully used to predict the minimum energy configuration on PULP, an ultra-low-power architecture featuring an on-chip cluster of RISC-V processors. Experiments show that using machine learning models on the source code to select the best energy scaling configuration automatically is viable and has the potential to be used in the context of automatic system configuration for energy minimisation.
翻訳日:2021-05-10 06:47:35 公開日:2020-12-12
# (参考訳) 多項混合核とワッサースタイン生成逆損失を用いたスペクトルアンミックス

Spectral Unmixing With Multinomial Mixture Kernel and Wasserstein Generative Adversarial Loss ( http://arxiv.org/abs/2012.06859v1 )

ライセンス: CC BY 4.0
Savas Ozkan, Gozde Bozdagi Akar(参考訳) 本研究では1次元畳み込みカーネルとスペクトル不確実性を用いたスペクトルアンミックスのための新しいフレームワークを提案する。 高レベル表現はデータから計算され、重度のスペクトル不確かさの下で分数を推定するために多項混合モデルでさらにモデル化される。 さらに、再構成工程において非線形ニューラルネットワークモデルに基づく新しいトレーニング可能な不確実性項を導入する。 すべての不確実性モデルはwasserstein generative adversarial network (wgan) によって最適化され、安定性が向上し不確実性が捕捉される。 実データと合成データの両方で実験を行う。 その結果,本手法は,特に実際のデータセットに対して,ベースラインと比較して最先端の性能が得られることを確認した。 プロジェクトページ: https://github.com/savasozkan/dscn。

This study proposes a novel framework for spectral unmixing by using 1D convolution kernels and spectral uncertainty. High-level representations are computed from data, and they are further modeled with the Multinomial Mixture Model to estimate fractions under severe spectral uncertainty. Furthermore, a new trainable uncertainty term based on a nonlinear neural network model is introduced in the reconstruction step. All uncertainty models are optimized by Wasserstein Generative Adversarial Network (WGAN) to improve stability and capture uncertainty. Experiments are performed on both real and synthetic datasets. The results validate that the proposed method obtains state-of-the-art performance, especially for the real datasets compared to the baselines. Project page at: https://github.com/savasozkan/dscn.
翻訳日:2021-05-10 06:37:29 公開日:2020-12-12
# (参考訳) VoxSRC 2020: 第二のVoxCeleb話者認識チャレンジ

VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge ( http://arxiv.org/abs/2012.06867v1 )

ライセンス: CC BY 4.0
Arsha Nagrani, Joon Son Chung, Jaesung Huh, Andrew Brown, Ernesto Coto, Weidi Xie, Mitchell McLaren, Douglas A Reynolds and Andrew Zisserman(参考訳) 我々は、Interspeech 2020と共同でVoxCeleb Speaker Recognition Challengeの2回目の実施を行った。 この課題の目標は、現在の話者認識技術が、制約のない、あるいは“野生の”データで話者を分類し、認識できるかどうかを評価することである。 i)youtubeビデオから入手可能な話者認識とダイアリゼーションデータセット、および ground truth アノテーションと標準化された評価ソフトウェア、および (ii)interspeech 2020で開催される仮想パブリックチャレンジとワークショップ。 本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。 最後に,課題の最初のインストールに関する進捗状況に関する議論を締めくくった。

We held the second installment of the VoxCeleb Speaker Recognition Challenge in conjunction with Interspeech 2020. The goal of this challenge was to assess how well current speaker recognition technology is able to diarise and recognize speakers in unconstrained or `in the wild' data. It consisted of: (i) a publicly available speaker recognition and diarisation dataset from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2020. This paper outlines the challenge, and describes the baselines, methods used, and results. We conclude with a discussion of the progress over the first installment of the challenge.
翻訳日:2021-05-10 06:30:18 公開日:2020-12-12
# (参考訳) 測地線を横断するスポーリングネットワーク

Sparsifying networks by traversing Geodesics ( http://arxiv.org/abs/2012.09605v1 )

ライセンス: CC BY 4.0
Guruprasad Raghavan, Matt Thomson(参考訳) 重み空間の幾何学とニューラルネットワークの関数多様体は、MLの複雑さを「理解」するために重要な役割を果たす。 本稿では、幾何のレンズを通してそれらを観察し、最終的にこれらの空間における同値な函数の点や経路の発見に関連付けることで、mlにおけるある種の問題を解くことを試みる。 本研究では,関数空間における測地線を評価するための数学的枠組みを提案し,高密度ネットワークからスパルサーネットワークへの高速経路を求める。 CIFAR-10 で訓練した VGG-11 と MNIST で訓練した MLP について検討した。 広範に、このフレームワークは一般的なものであり、スパシフィケーションから破滅的な忘れの軽減まで幅広い問題に適用可能であることを実証する。

The geometry of weight spaces and functional manifolds of neural networks play an important role towards 'understanding' the intricacies of ML. In this paper, we attempt to solve certain open questions in ML, by viewing them through the lens of geometry, ultimately relating it to the discovery of points or paths of equivalent function in these spaces. We propose a mathematical framework to evaluate geodesics in the functional space, to find high-performance paths from a dense network to its sparser counterpart. Our results are obtained on VGG-11 trained on CIFAR-10 and MLP's trained on MNIST. Broadly, we demonstrate that the framework is general, and can be applied to a wide variety of problems, ranging from sparsification to alleviating catastrophic forgetting.
翻訳日:2021-05-10 06:15:30 公開日:2020-12-12
# (参考訳) 物体認識におけるcnn色の重要性評価

Assessing The Importance Of Colours For CNNs In Object Recognition ( http://arxiv.org/abs/2012.06917v1 )

ライセンス: CC BY 4.0
Aditya Singh, Alessandro Bay and Andrea Mirabile(参考訳) 人間は物体認識の主要な手がかりとして形状に大きく依存している。 第二の手がかりとして、色やテクスチャも有用である。 生物学的ニューラルネットワークの模倣である畳み込みニューラルネットワーク(cnns)は、相反する特性を示すことが示されている。 いくつかの研究はcnnがテクスチャに偏っていることを示唆しているが、別の研究は分類タスクの形状バイアスを示唆している。 しかし、色の役割については議論せず、物体認識のタスクにおいてその謙虚な役割を暗示している。 本稿では,CNNにおける物体認識における色の重要性を実証的に検討する。 私たちは、CNNが予測しながら色情報に大きく依存していることを示すことができます。 その結果,色への依存度はデータセットによって異なる傾向にあることがわかった。 さらにネットワークは、スクラッチからトレーニングすれば色に依存する傾向がある。 事前トレーニングにより、モデルは色に依存しない。 これらの発見を容易にするために、人間の物体認識における色の役割を理解するためにしばしばデプロイされる枠組みに従う。 一致した画像(原色画像など)で訓練したモデルを評価する。 赤いイチゴ)コングルート、グレイスケール、不自然な画像(不自然な色の画像 eg。 イチゴ(イチゴ)。 これらの異なるスタイルで,ネットワークの予測性能(トップ1精度)を測定し,解析する。 我々は,教師付き画像分類ときめ細かい画像分類の標準データセットを実験で活用する。

Humans rely heavily on shapes as a primary cue for object recognition. As secondary cues, colours and textures are also beneficial in this regard. Convolutional neural networks (CNNs), an imitation of biological neural networks, have been shown to exhibit conflicting properties. Some studies indicate that CNNs are biased towards textures whereas, another set of studies suggests shape bias for a classification task. However, they do not discuss the role of colours, implying its possible humble role in the task of object recognition. In this paper, we empirically investigate the importance of colours in object recognition for CNNs. We are able to demonstrate that CNNs often rely heavily on colour information while making a prediction. Our results show that the degree of dependency on colours tend to vary from one dataset to another. Moreover, networks tend to rely more on colours if trained from scratch. Pre-training can allow the model to be less colour dependent. To facilitate these findings, we follow the framework often deployed in understanding role of colours in object recognition for humans. We evaluate a model trained with congruent images (images in original colours eg. red strawberries) on congruent, greyscale, and incongruent images (images in unnatural colours eg. blue strawberries). We measure and analyse network's predictive performance (top-1 accuracy) under these different stylisations. We utilise standard datasets of supervised image classification and fine-grained image classification in our experiments.
翻訳日:2021-05-10 06:09:08 公開日:2020-12-12
# (参考訳) 不確実性下におけるオフライン政策選択

Offline Policy Selection under Uncertainty ( http://arxiv.org/abs/2012.06919v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Bo Dai, Ofir Nachum, George Tucker, Dale Schuurmans(参考訳) 政策評価における不確実性の存在は、実環境における政策ランキングと選択の過程を著しく複雑にする。 我々は、オフラインポリシーの選択を、一定の経験データセットが与えられた政策予測のセットよりも学習の選好として公式に検討する。 政策値のポイント推定値や高信頼区間に基づいて政策を選択したり、ランク付けしたりできるが、政策値に対する信念の完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 本稿では,確率的制約から導かれる分布補正比の後方から,この信念分布を推定するためのベイズDICEを提案する。 ベイズDICEは、信頼区間推定における既存の最先端アプローチと非常に競争力がある。 さらに,BayesDICEが推定した信念分布が任意の下流政策選択指標に対する政策のランク付けにどのように用いられるかを示し,この選択手順が平均値や高信頼度下限値の推定値など,既存のアプローチを著しく上回っていることを実証的に示す。

The presence of uncertainty in policy evaluation significantly complicates the process of policy ranking and selection in real-world settings. We formally consider offline policy selection as learning preferences over a set of policy prospects given a fixed experience dataset. While one can select or rank policies based on point estimates of their policy values or high-confidence intervals, access to the full distribution over one's belief of the policy value enables more flexible selection algorithms under a wider range of downstream evaluation metrics. We propose BayesDICE for estimating this belief distribution in terms of posteriors of distribution correction ratios derived from stochastic constraints (as opposed to explicit likelihood, which is not available). Empirically, BayesDICE is highly competitive to existing state-of-the-art approaches in confidence interval estimation. More importantly, we show how the belief distribution estimated by BayesDICE may be used to rank policies with respect to any arbitrary downstream policy selection metric, and we empirically demonstrate that this selection procedure significantly outperforms existing approaches, such as ranking policies according to mean or high-confidence lower bound value estimates.
翻訳日:2021-05-10 05:58:29 公開日:2020-12-12
# PAIRS AutoGeo:大規模地理空間データのための機械学習フレームワーク

PAIRS AutoGeo: an Automated Machine Learning Framework for Massive Geospatial Data ( http://arxiv.org/abs/2012.06907v1 )

ライセンス: Link先を確認
Wang Zhou, Levente J. Klein, Siyuan Lu(参考訳) PAIRS AutoGeoと名付けられた地理空間データのための自動機械学習フレームワークは、IBM PAIRS Geoscopeのビッグデータと分析プラットフォームで導入された。 このフレームワークは、地理空間データを活用する産業用機械学習ソリューションの開発を単純化し、ユーザ入力を単にラベル付きGPS座標を含むテキストファイルに最小化する。 pairs autogeoは、必要なデータをロケーション座標で自動的に収集し、トレーニングデータを組み立て、品質チェックを行い、その後のデプロイメントのために複数の機械学習モデルをトレーニングする。 本フレームワークは,木種分類の現実的な産業利用事例を用いて検証した。 オープンソースの木種データは、航空画像に基づく10方向木種分類のためのランダム森林分類器と改良されたResNetモデルを訓練するための入力として使用され、それぞれ59.8\%$と81.4\%$の精度をもたらす。 このユースケースは、PAIRS AutoGeoがユーザーが広い地理空間の専門知識を使わずに機械学習を活用できるようにする方法を示している。

An automated machine learning framework for geospatial data named PAIRS AutoGeo is introduced on IBM PAIRS Geoscope big data and analytics platform. The framework simplifies the development of industrial machine learning solutions leveraging geospatial data to the extent that the user inputs are minimized to merely a text file containing labeled GPS coordinates. PAIRS AutoGeo automatically gathers required data at the location coordinates, assembles the training data, performs quality check, and trains multiple machine learning models for subsequent deployment. The framework is validated using a realistic industrial use case of tree species classification. Open-source tree species data are used as the input to train a random forest classifier and a modified ResNet model for 10-way tree species classification based on aerial imagery, which leads to an accuracy of $59.8\%$ and $81.4\%$, respectively. This use case exemplifies how PAIRS AutoGeo enables users to leverage machine learning without extensive geospatial expertise.
翻訳日:2021-05-10 05:27:33 公開日:2020-12-12
# GANトレーニングのモニタリング手段としての二重性ギャップについて

On Duality Gap as a Measure for Monitoring GAN Training ( http://arxiv.org/abs/2012.06723v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Aroof Aimen, Vineet Madan, Narayanan C. Krishnan(参考訳) generative adversarial network(gan)は、複雑なデータ分布を学習するための最も人気のあるディープラーニングモデルの一つである。 しかし、GANのトレーニングは難しい課題であることが知られている。 これはしばしば、訓練の進行とジェネレータの軌道と識別器の損失との相関の欠如と、GANの主観的評価の必要性によるものである。 ゲーム理論に触発された最近提案された双対性ギャップは、このギャップを橋渡しすることを目的としている。 しかし,本実験で示すように,双対性ギャップの能力は,その推定過程によって生じる制約により制約されている。 本稿では,この制限を理論的に理解し,双対性ギャップに対するより信頼性の高い推定法を提案する。 我々のアプローチの要点は、局所摂動はゼロサムゲームのエージェントが非ナッシュサドルポイントを効率的に逃がすのに役立つという考えである。 GANモデルとデータセットの総合的な実験を通じて、計算複雑性を最小限に抑えて、GANトレーニングの進捗を捉えるためのアプローチの有効性を確立する。 さらに、モデル収束/偏差を同定する能力を持つ推定法は、GANのハイパーパラメータを調整できる潜在的な性能指標であることを示す。

Generative adversarial network (GAN) is among the most popular deep learning models for learning complex data distributions. However, training a GAN is known to be a challenging task. This is often attributed to the lack of correlation between the training progress and the trajectory of the generator and discriminator losses and the need for the GAN's subjective evaluation. A recently proposed measure inspired by game theory - the duality gap, aims to bridge this gap. However, as we demonstrate, the duality gap's capability remains constrained due to limitations posed by its estimation process. This paper presents a theoretical understanding of this limitation and proposes a more dependable estimation process for the duality gap. At the crux of our approach is the idea that local perturbations can help agents in a zero-sum game escape non-Nash saddle points efficiently. Through exhaustive experimentation across GAN models and datasets, we establish the efficacy of our approach in capturing the GAN training progress with minimal increase to the computational complexity. Further, we show that our estimate, with its ability to identify model convergence/divergence, is a potential performance measure that can be used to tune the hyperparameters of a GAN.
翻訳日:2021-05-10 05:27:18 公開日:2020-12-12
# マルチタスク環境におけるグラフ表現学習のためのメタラーニング手法

A Meta-Learning Approach for Graph Representation Learning in Multi-Task Settings ( http://arxiv.org/abs/2012.06755v1 )

ライセンス: Link先を確認
Davide Buffelli, Fabio Vandin(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習のためのフレームワークであり、モデルが構造や特徴に関連する情報をカプセル化した低次元ノード埋め込みを生成することを学習する。 GNNは通常、エンドツーエンドでトレーニングされ、高度に専門化されたノードの埋め込みにつながる。 しかし、複数のタスク(シングルタスクモデルに匹敵するパフォーマンスを持つ)の実行に使用できるノード埋め込みの生成は、オープンな問題である。 本稿では,マルチタスクノード組込みが可能な新しいメタ学習戦略を提案する。 本手法は,複数のタスクを同時に実行することを学習する際に生じる困難を回避し,高速(即ち)に学習する。 勾配降下のいくつかのステップで)単調に複数のタスクに適応する。 また,本手法で生成した組込みは,従来のモデルと同等あるいは高い性能で複数のタスクを実行することができることを示した。 本手法はモデル非依存でタスク非依存であり,多様なマルチタスクドメインに適用できる。

Graph Neural Networks (GNNs) are a framework for graph representation learning, where a model learns to generate low dimensional node embeddings that encapsulate structural and feature-related information. GNNs are usually trained in an end-to-end fashion, leading to highly specialized node embeddings. However, generating node embeddings that can be used to perform multiple tasks (with performance comparable to single-task models) is an open problem. We propose a novel meta-learning strategy capable of producing multi-task node embeddings. Our method avoids the difficulties arising when learning to perform multiple tasks concurrently by, instead, learning to quickly (i.e. with a few steps of gradient descent) adapt to multiple tasks singularly. We show that the embeddings produced by our method can be used to perform multiple tasks with comparable or higher performance than classically trained models. Our method is model-agnostic and task-agnostic, thus applicable to a wide variety of multi-task domains.
翻訳日:2021-05-10 05:27:00 公開日:2020-12-12
# グラフ上のクエリフリーなブラックボックス攻撃

Query-free Black-box Adversarial Attacks on Graphs ( http://arxiv.org/abs/2012.06757v1 )

ライセンス: Link先を確認
Jiarong Xu, Yizhou Sun, Xin Jiang, Yanhao Wang, Yang Yang, Chunping Wang, Jiangang Lu(参考訳) 多くのグラフベースの機械学習モデルは、入力データに対する限られた摂動でさえ、劇的なパフォーマンス劣化を引き起こすような敵攻撃に弱いことが知られている。 既存の作品の多くは、攻撃者がモデル構造とパラメータ(ホワイトボックス)を認識するか、モデル情報を取得するためにクエリを送信できる中程度の設定に焦点を当てている。 本稿では,攻撃者が対象モデルについて知識を持っておらず,クエリアクセスができないグラフに対して,クエリフリーなブラックボックス攻撃を提案する。 グラフトポロジーの単なる観察により、提案された攻撃戦略は、グラフモデルを誤解させるための限られた数のリンクをひっくり返す。 対象モデルに対するフリップリンクの影響をスペクトル変化によって定量化できることを証明し,固有値摂動理論を用いて近似する。 そこで,提案する攻撃戦略を最適化問題としてモデル化し,反転するリンクを選択するための欲望アルゴリズムを採用する。 その単純さとスケーラビリティのため、提案モデルは様々なグラフベースモデルで一般的なだけでなく、異なる知識レベルがアクセス可能であれば容易に拡張できる。 様々な下流タスクにおける提案モデルの有効性と効率を示す広範な実験と、いくつかの異なるグラフベースの学習モデルが示されている。

Many graph-based machine learning models are known to be vulnerable to adversarial attacks, where even limited perturbations on input data can result in dramatic performance deterioration. Most existing works focus on moderate settings in which the attacker is either aware of the model structure and parameters (white-box), or able to send queries to fetch model information. In this paper, we propose a query-free black-box adversarial attack on graphs, in which the attacker has no knowledge of the target model and no query access to the model. With the mere observation of the graph topology, the proposed attack strategy flips a limited number of links to mislead the graph models. We prove that the impact of the flipped links on the target model can be quantified by spectral changes, and thus be approximated using the eigenvalue perturbation theory. Accordingly, we model the proposed attack strategy as an optimization problem, and adopt a greedy algorithm to select the links to be flipped. Due to its simplicity and scalability, the proposed model is not only generic in various graph-based models, but can be easily extended when different knowledge levels are accessible as well. Extensive experiments demonstrate the effectiveness and efficiency of the proposed model on various downstream tasks, as well as several different graph-based learning models.
翻訳日:2021-05-10 05:26:46 公開日:2020-12-12
# ニューラルネットワーク最適化問題の質的特徴付け」を再考

Revisiting "Qualitatively Characterizing Neural Network Optimization Problems" ( http://arxiv.org/abs/2012.06898v1 )

ライセンス: Link先を確認
Jonathan Frankle(参考訳) 我々はGoodfellowらの実験を再検討し、拡張する。 (2014) は、初期化と訓練された重みの間の線形経路に沿って「目的関数は単純でほぼ凸な形状」であることを示した。 CIFAR-10 や ImageNet 上の最新のネットワークでは,このような状況は見られない。 代わりに、この経路に沿って損失は概ね単調に増加しないが、最適に近づくまで高いままである。 さらに、損失バリアにより、トレーニングはすぐに最適から線形に分離される。 結論は、Goodfellowなどである。 のMNIST設定を記述しており、現代の設定では行動は質的に異なる。

We revisit and extend the experiments of Goodfellow et al. (2014), who showed that - for then state-of-the-art networks - "the objective function has a simple, approximately convex shape" along the linear path between initialization and the trained weights. We do not find this to be the case for modern networks on CIFAR-10 and ImageNet. Instead, although loss is roughly monotonically non-increasing along this path, it remains high until close to the optimum. In addition, training quickly becomes linearly separated from the optimum by loss barriers. We conclude that, although Goodfellow et al.'s findings describe the "relatively easy to optimize" MNIST setting, behavior is qualitatively different in modern settings.
翻訳日:2021-05-10 05:26:27 公開日:2020-12-12
# 連続時間勾配を用いたポリシー学習の高速化

Faster Policy Learning with Continuous-Time Gradients ( http://arxiv.org/abs/2012.06684v1 )

ライセンス: Link先を確認
Samuel Ainsworth and Kendall Lowrey and John Thickstun and Zaid Harchaoui and Siddhartha Srinivasa(参考訳) 既知のダイナミクスを有する連続時間システムにおけるポリシー勾配の推定について検討する。 ポリシー学習を連続的に行うことで、より効率的で正確な勾配推定器を構築できることを示す。 time estimator (bptt) による標準バックプロパゲーションは、連続時間系の粗離散化の正確な勾配を計算する。 対照的に,本システムでは連続時間勾配を近似する。 連続時間勾配を推定するという明確な目標により、適応的に判別し、より効率的なポリシー勾配推定器を構築することが可能であり、これを連続時間政策勾配(ctpg)と呼ぶ。 BPTTポリシー勾配をより効率的なCTPG推定に置き換えると、様々な制御タスクやシミュレータにおいて、より高速で堅牢な学習が得られることを示す。

We study the estimation of policy gradients for continuous-time systems with known dynamics. By reframing policy learning in continuous-time, we show that it is possible construct a more efficient and accurate gradient estimator. The standard back-propagation through time estimator (BPTT) computes exact gradients for a crude discretization of the continuous-time system. In contrast, we approximate continuous-time gradients in the original system. With the explicit goal of estimating continuous-time gradients, we are able to discretize adaptively and construct a more efficient policy gradient estimator which we call the Continuous-Time Policy Gradient (CTPG). We show that replacing BPTT policy gradients with more efficient CTPG estimates results in faster and more robust learning in a variety of control tasks and simulators.
翻訳日:2021-05-10 05:26:16 公開日:2020-12-12
# NP-ODE:有限要素解析の不確実性定量のためのニューラルプロセス支援正規微分方程式

NP-ODE: Neural Process Aided Ordinary Differential Equations for Uncertainty Quantification of Finite Element Analysis ( http://arxiv.org/abs/2012.06914v1 )

ライセンス: Link先を確認
Yinan Wang, Kaiwen Wang, Wenjun Cai, Xiaowei Yue(参考訳) 有限要素解析(FEA)は複素および非線形系のシミュレーションを生成するために広く用いられている。 その強さと正確さにもかかわらず、FAAの限界は2つの側面にまとめることができる: a) 忠実度の高いFAAを実行するには、しばしばかなりの計算コストが必要であり、大量の時間を消費する; b) FEAは、様々な種類の不確実性を持つ複雑なシステムのモデリングにおいて不確実性定量化(UQ)に不十分な決定論的手法である。 本稿では,feaシミュレーションをモデル化し,入力と出力の両方の不確かさをキャプチャするために,ニューラルプロセス支援常微分方程式(np-ode)と呼ばれる物理モデルを提案する。 提案したNP-ODEの利点を検証するため,与えられた常微分方程式から生成されたシミュレーションデータと実FEAプラットフォームから収集したデータの両方を用いてトライボコロージョン実験を行った。 提案するNP-ODEとベンチマーク手法の性能を比較した。 その結果,提案したNP-ODEはベンチマーク手法よりも優れていた。 NP-ODE法は、最小の予測誤差を実現するとともに、テストデータポイントに最高のカバレッジを有する最も合理的な信頼区間を生成する。

Finite element analysis (FEA) has been widely used to generate simulations of complex and nonlinear systems. Despite its strength and accuracy, the limitations of FEA can be summarized into two aspects: a) running high-fidelity FEA often requires significant computational cost and consumes a large amount of time; b) FEA is a deterministic method that is insufficient for uncertainty quantification (UQ) when modeling complex systems with various types of uncertainties. In this paper, a physics-informed data-driven surrogate model, named Neural Process Aided Ordinary Differential Equation (NP-ODE), is proposed to model the FEA simulations and capture both input and output uncertainties. To validate the advantages of the proposed NP-ODE, we conduct experiments on both the simulation data generated from a given ordinary differential equation and the data collected from a real FEA platform for tribocorrosion. The performances of the proposed NP-ODE and several benchmark methods are compared. The results show that the proposed NP-ODE outperforms benchmark methods. The NP-ODE method realizes the smallest predictive error as well as generates the most reasonable confidence interval having the best coverage on testing data points.
翻訳日:2021-05-10 05:26:05 公開日:2020-12-12
# スコアベクトルを用いた教師付き学習モデルの概念ドリフトモニタリングと診断

Concept Drift Monitoring and Diagnostics of Supervised Learning Models via Score Vectors ( http://arxiv.org/abs/2012.06916v1 )

ライセンス: Link先を確認
Kungang Zhang, Anh T. Bui, Daniel W. Apley(参考訳) 教師付き学習モデルは、モデルの最も基本的なクラスの1つである。 確率的視点から教師付き学習を見ることにより、モデルが適合する訓練データの集合は、通常定常分布に従うと仮定される。 しかし、この定常性の仮定は概念ドリフトと呼ばれる現象においてしばしば破られ、これは共変量 $\mathbf{X}$ と応答変数 $Y$ との予測関係における時間の経過とともに変化し、訓練されたモデルが最適でないあるいは時代遅れになることを意味する。 我々は,概念ドリフトの検出,監視,診断のための包括的かつ計算効率の高いフレームワークを開発した。 具体的には、多変量指数的に重み付けされた移動平均の形式を用いて、適合モデルの対数線勾配として定義されるフィッシャースコアベクトルを監視し、ランダムベクトルの平均の一般的な変化をモニターする。 一般的なエラーベース手法よりもパフォーマンス上のメリットは大きいが,従来は概念ドリフトモニタリングではスコアベースのアプローチが考慮されていなかった。 提案されたスコアベースのフレームワークの利点には、任意のパラメトリックモデルの適用性、理論や実験で示されているような変化のより強力な検出、変化の性質を識別するための固有の診断能力などがある。

Supervised learning models are one of the most fundamental classes of models. Viewing supervised learning from a probabilistic perspective, the set of training data to which the model is fitted is usually assumed to follow a stationary distribution. However, this stationarity assumption is often violated in a phenomenon called concept drift, which refers to changes over time in the predictive relationship between covariates $\mathbf{X}$ and a response variable $Y$ and can render trained models suboptimal or obsolete. We develop a comprehensive and computationally efficient framework for detecting, monitoring, and diagnosing concept drift. Specifically, we monitor the Fisher score vector, defined as the gradient of the log-likelihood for the fitted model, using a form of multivariate exponentially weighted moving average, which monitors for general changes in the mean of a random vector. In spite of the substantial performance advantages that we demonstrate over popular error-based methods, a score-based approach has not been previously considered for concept drift monitoring. Advantages of the proposed score-based framework include applicability to any parametric model, more powerful detection of changes as shown in theory and experiments, and inherent diagnostic capabilities for helping to identify the nature of the changes.
翻訳日:2021-05-10 05:25:41 公開日:2020-12-12
# LiveChess2FEN:CNNに基づいたチェスピースの分類フレームワーク

LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs ( http://arxiv.org/abs/2012.06858v1 )

ライセンス: Link先を確認
David Mallas\'en Quintana, Alberto Antonio del Barrio Garc\'ia and Manuel Prieto Mat\'ias(参考訳) コンピュータビジョンを用いたチェスゲームの自動デジタル化は重要な技術的課題である。 この問題はトーナメントのオーガナイザやアマチュアやプロの選手が、オンライン上でOTB(Over-the-board)ゲームを放送したり、チェスエンジンを使って分析したりすることに関心がある。 これまでの研究は有望な結果を示しているが、最先端技術の認識精度とレイテンシは、実用的で手頃なデプロイメントを可能にするためのさらなる強化が必要である。 Nvidia Jetson Nanoシングルボードコンピュータ上での実装方法について検討した。 最初の貢献はチェスボードの検出アルゴリズムの高速化です。 その後、チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。 特に,画像からチェスの位置を自動的に1秒未満でデジタイズする機能的フレームワークを実装した。

Automatic digitization of chess games using computer vision is a significant technological challenge. This problem is of much interest for tournament organizers and amateur or professional players to broadcast their over-the-board (OTB) games online or analyze them using chess engines. Previous work has shown promising results, but the recognition accuracy and the latency of state-of-the-art techniques still need further enhancements to allow their practical and affordable deployment. We have investigated how to implement them on an Nvidia Jetson Nano single-board computer effectively. Our first contribution has been accelerating the chessboard's detection algorithm. Subsequently, we have analyzed different Convolutional Neural Networks for chess piece classification and how to map them efficiently on our embedded platform. Notably, we have implemented a functional framework that automatically digitizes a chess position from an image in less than 1 second, with 92% accuracy when classifying the pieces and 95% when detecting the board.
翻訳日:2021-05-10 05:25:19 公開日:2020-12-12
# Yelpがレーティング予測をレビュー - マシンラーニングとディープラーニングモデル

Yelp Review Rating Prediction: Machine Learning and Deep Learning Models ( http://arxiv.org/abs/2012.06690v1 )

ライセンス: Link先を確認
Zefang Liu(参考訳) Yelp Open Datasetに基づいてYelpのレビューからレストランの格付けを予測する。 データ配布を示し、1つのバランスの取れたトレーニングデータセットを構築します。 特徴工学のために2つのベクトル化器が実験されている。 Naive Bayes、Logistic Regression、Random Forest、Linear Support Vector Machineを含む4つの機械学習モデルが実装されている。 また、BERT、DistilBERT、RoBERTa、XLNetを含む4つのトランスモデルを適用した。 モデル評価には精度、重み付きf1スコア、混乱行列が用いられる。 XLNetは5つ星分類の精度を64%のロジスティック回帰と比較すると70%の精度で達成している。

We predict restaurant ratings from Yelp reviews based on Yelp Open Dataset. Data distribution is presented, and one balanced training dataset is built. Two vectorizers are experimented for feature engineering. Four machine learning models including Naive Bayes, Logistic Regression, Random Forest, and Linear Support Vector Machine are implemented. Four transformer-based models containing BERT, DistilBERT, RoBERTa, and XLNet are also applied. Accuracy, weighted F1 score, and confusion matrix are used for model evaluation. XLNet achieves 70% accuracy for 5-star classification compared with Logistic Regression with 64% accuracy.
翻訳日:2021-05-10 05:25:03 公開日:2020-12-12
# Less is More: 限定ラベルコンテキストとパスマージによるRNN-Tデコードの改善

Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging ( http://arxiv.org/abs/2012.06749v1 )

ライセンス: Link先を確認
Rohit Prabhavalkar, Yanzhang He, David Rybach, Sean Campbell, Arun Narayanan, Trevor Strohman, Tara N. Sainath(参考訳) 従来の音声認識システム (ASR) の代替として, 前述したラベルの出力ラベル列を条件としたエンドツーエンドモデルが登場している。 ユニークなラベル履歴は異なるモデル状態に対応するため、そのようなモデルは仮説のツリーを生成する近似ビーム探索プロセスを用いて復号される。 本研究では,ラベルコンテキストの量がモデルの精度に及ぼす影響と,その復号処理の効率に与える影響について検討する。 我々は,学習中のリカレントニューラルネットワークトランスデューサ(rnn-t)のコンテキストを,フルコンテキストベースラインと比較して単語誤り率(wer)を低下させることなく,わずか4つのワードピースラベルに制限できることを見出した。 制限コンテキストはまた、アクティブビームからの冗長な経路を除去し、代わりに最終格子に保持することにより、デコード中のビーム探索プロセスの効率を改善する機会を提供する。 このパスマージスキームは、近似を通じてベースラインフルコンテキストモデルをデコードする場合にも適用できる。 全体として、提案されているパスマージスキームは、oracle werをベースラインよりも最大36%改善できる非常に効果的であると同時に、werを劣化させることなく、モデル評価を最大5.3%削減できることがわかった。

End-to-end models that condition the output label sequence on all previously predicted labels have emerged as popular alternatives to conventional systems for automatic speech recognition (ASR). Since unique label histories correspond to distinct models states, such models are decoded using an approximate beam-search process which produces a tree of hypotheses. In this work, we study the influence of the amount of label context on the model's accuracy, and its impact on the efficiency of the decoding process. We find that we can limit the context of the recurrent neural network transducer (RNN-T) during training to just four previous word-piece labels, without degrading word error rate (WER) relative to the full-context baseline. Limiting context also provides opportunities to improve the efficiency of the beam-search process during decoding by removing redundant paths from the active beam, and instead retaining them in the final lattice. This path-merging scheme can also be applied when decoding the baseline full-context model through an approximation. Overall, we find that the proposed path-merging scheme is extremely effective allowing us to improve oracle WERs by up to 36% over the baseline, while simultaneously reducing the number of model evaluations by up to 5.3% without any degradation in WER.
翻訳日:2021-05-10 05:24:56 公開日:2020-12-12
# 時空間データからの学習表現

Learning Representations from Temporally Smooth Data ( http://arxiv.org/abs/2012.06694v1 )

ライセンス: Link先を確認
Shima Rahimi Moghaddam, Fanjun Bu, Christopher J. Honey(参考訳) 実世界の出来事は、時間とともに近隣の点間で相関しており、この時間的にスムーズなデータから学ぶ必要がある。 しかし,ニューラルネットワークが単一項目の分類や再構成を行う場合,トレーニング項目の順序をランダムにすることが一般的である。 時間的平滑なトレーニングデータが学習効率に及ぼす影響について トレーニングデータのスムーズさがフィードフォワードネットのインクリメンタル学習に及ぼす影響を最初に検証したところ,スムーズなデータが学習を遅くすることがわかった。 さらに、時間的平滑さを最小化するためのサンプリングは、ランダムにサンプリングするよりも効率的な学習を生み出した。 滑らかさが一般的に漸進的な学習を損なう場合、トレーニングデータの滑らかさの恩恵を受けるために、ネットワークをどのように修正すればよいのか? 脳にインスパイアされた2つの単純なメカニズム、アクティベーションユニットのリークメモリとメモリゲーティングにより、スムーズなデータから有用な表現を素早く抽出できると仮定した。 あらゆるレベルのデータのスムーズさによって、これらの脳にインスパイアされたアーキテクチャは、フィードフォワードネットワークよりも効率的なカテゴリ学習を実現した。 この利点は、ゲーティング付きリークメモリネットワークがスムーズなデータでトレーニングされ、ランダムに順序付けされたデータでテストされたとしても継続した。 最後に,脳にインスパイアされたメカニズムがネットワークによって学習された内部表現をどのように変化させたかを検討した。 マルチスケールのリークメモリとメモリゲーティングを持つネットワークは、トレーニングサンプル間で高速で遅い時間スケールで異なる未混合データソースの内部表現を学習できることがわかった。 また、時間的スムーズなデータからニューラルネットワークをより早く学習し、トレーニング信号の時間スケールを分離する内部表現を生成するための単純なメカニズムを特定した。

Events in the real world are correlated across nearby points in time, and we must learn from this temporally smooth data. However, when neural networks are trained to categorize or reconstruct single items, the common practice is to randomize the order of training items. What are the effects of temporally smooth training data on the efficiency of learning? We first tested the effects of smoothness in training data on incremental learning in feedforward nets and found that smoother data slowed learning. Moreover, sampling so as to minimize temporal smoothness produced more efficient learning than sampling randomly. If smoothness generally impairs incremental learning, then how can networks be modified to benefit from smoothness in the training data? We hypothesized that two simple brain-inspired mechanisms, leaky memory in activation units and memory-gating, could enable networks to rapidly extract useful representations from smooth data. Across all levels of data smoothness, these brain-inspired architectures achieved more efficient category learning than feedforward networks. This advantage persisted, even when leaky memory networks with gating were trained on smooth data and tested on randomly-ordered data. Finally, we investigated how these brain-inspired mechanisms altered the internal representations learned by the networks. We found that networks with multi-scale leaky memory and memory-gating could learn internal representations that un-mixed data sources which vary on fast and slow timescales across training samples. Altogether, we identified simple mechanisms enabling neural networks to learn more quickly from temporally smooth data, and to generate internal representations that separate timescales in the training signal.
翻訳日:2021-05-10 05:24:32 公開日:2020-12-12
# PiRank: 差別化可能なソーティングでランク付けを学ぶ

PiRank: Learning To Rank via Differentiable Sorting ( http://arxiv.org/abs/2012.06731v1 )

ライセンス: Link先を確認
Robin Swezey, Aditya Grover, Bruno Charron, Stefano Ermon(参考訳) ランク付けのための機械学習アプローチの重要な課題は、関心のあるパフォーマンスメトリクスと、勾配ベースの方法で最適化できるサーロゲート損失関数の間のギャップである。 このギャップは、ランクメトリクスが典型的には微分不可能なソート操作を含むため生じる。 モデルパラメータ。 以前の研究では、ランク付けメトリクスや単純な平滑化バージョンと緩やかに関連のあるサロゲートを提案している。 分類演算子に連続的な温度制御緩和を施したランキングのための新しい分類可能なサロゲートであるpirankを提案する。 理論と実践の両方において,ピランクは所望の指標をゼロ温度の限界で正確に回収し,問題の大きさに好適なスケールを示す。 実証的に、PiRankは、インターネットスケールの学習とランクのベンチマークにおいて、既存のアプローチよりも大幅に改善されていることを実証した。

A key challenge with machine learning approaches for ranking is the gap between the performance metrics of interest and the surrogate loss functions that can be optimized with gradient-based methods. This gap arises because ranking metrics typically involve a sorting operation which is not differentiable w.r.t. the model parameters. Prior works have proposed surrogates that are loosely related to ranking metrics or simple smoothed versions thereof. We propose PiRank, a new class of differentiable surrogates for ranking, which employ a continuous, temperature-controlled relaxation to the sorting operator. We show that PiRank exactly recovers the desired metrics in the limit of zero temperature and scales favorably with the problem size, both in theory and practice. Empirically, we demonstrate that PiRank significantly improves over existing approaches on publicly available internet-scale learning-to-rank benchmarks.
翻訳日:2021-05-10 05:24:05 公開日:2020-12-12
# 遠隔遠隔操作によるループ内模倣学習

Human-in-the-Loop Imitation Learning using Remote Teleoperation ( http://arxiv.org/abs/2012.06733v1 )

ライセンス: Link先を確認
Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習は、人間のデモから動作を再現することで複雑なロボット操作スキルを学ぶための有望なパラダイムである。 しかしながら、操作タスクには、コーヒーを作るためにポッドをコーヒーマシンに挿入するロボットなど、意味のある進歩を行うための一連の正確なアクションを必要とするボトルネック領域が含まれていることが多い。 訓練された政策は、行動のわずかな偏差が、デモの対象にならない状態に政策を導く可能性があるため、これらの地域では失敗する可能性がある。 インターベンションベースのポリシー学習は、この問題に対処できる代替手段であり、人間のオペレータは、トレーニングされたポリシーを監視し、障害に遭遇した時にコントロールを乗っ取ることができる。 本稿では,遠隔操作者が訓練されたポリシーを監視・介入できる,6-DoF操作設定に適したデータ収集システムを構築する。 我々は,システムによって収集された新たなデータに基づいて政策を反復的に訓練する,シンプルで効果的なアルゴリズムを開発した。 本手法は,介入型システムで収集されたデータに基づいて訓練されたエージェントと,非介入型デモ参加者が収集した等価数のサンプルで訓練されたアルゴリズムよりも優れたエージェントを示し,さらに,挑戦的なロボットスレッディングタスクとコーヒーメーキングタスクにおける人間の介入から学ぶための最先端のベースラインよりも優れることを示す。 さらなる結果とビデオはhttps://sites.google.com/stanford.edu/iwr にある。

Imitation Learning is a promising paradigm for learning complex robot manipulation skills by reproducing behavior from human demonstrations. However, manipulation tasks often contain bottleneck regions that require a sequence of precise actions to make meaningful progress, such as a robot inserting a pod into a coffee machine to make coffee. Trained policies can fail in these regions because small deviations in actions can lead the policy into states not covered by the demonstrations. Intervention-based policy learning is an alternative that can address this issue -- it allows human operators to monitor trained policies and take over control when they encounter failures. In this paper, we build a data collection system tailored to 6-DoF manipulation settings, that enables remote human operators to monitor and intervene on trained policies. We develop a simple and effective algorithm to train the policy iteratively on new data collected by the system that encourages the policy to learn how to traverse bottlenecks through the interventions. We demonstrate that agents trained on data collected by our intervention-based system and algorithm outperform agents trained on an equivalent number of samples collected by non-interventional demonstrators, and further show that our method outperforms multiple state-of-the-art baselines for learning from the human interventions on a challenging robot threading task and a coffee making task. Additional results and videos at https://sites.google.com/stanford.edu/iwr .
翻訳日:2021-05-10 05:23:47 公開日:2020-12-12
# 協調遠隔操作によるマルチアーム操作の学習

Learning Multi-Arm Manipulation Through Collaborative Teleoperation ( http://arxiv.org/abs/2012.06738v1 )

ライセンス: Link先を確認
Albert Tung, Josiah Wong, Ajay Mandlekar, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習(il)は、遠隔操作によって収集された人間のデモンストレーションから学習できるようにロボットに操作タスクを実行するための強力なパラダイムであるが、ほとんどは単腕操作に限られている。 しかし、現実世界のタスクの多くは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。 残念なことに、ILを複数のロボットアーム操作タスクに適用することは困難であり、人間に複数のロボットアームを制御させることは、認知上の重荷を負う可能性がある。 これらの課題に対処するために、複数のリモートユーザが同時にロボットアームを遠隔操作し、マルチアームタスクのデモを収集できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。 MARTを用いて地理的に分離されたユーザの5つの新しい2と3つのアームタスクのデモを収集した。 ほとんどのマルチアームタスクは、その全期間を通してグローバルな調整を必要とせず、特定の瞬間にのみ必要としています。 これらのデータから学習することで,ロボット行動のモデル化を直接行なおうとする集中型エージェントの課題が浮かび上がり,タスクの集中レベルが変化するさまざまなポリシアーキテクチャを包括的に研究する。 最後に,マルチアーム操作に共通する混合協調設定に適合する基本残留ポリシーフレームワークを提案し,評価し,分散化された残差モデルにより強化された集中型ポリシーが,我々のベンチマークタスクにおいて他のすべてのモデルより優れていることを示す。 さらなる結果とビデオはhttps://roboturk.stanford.edu/multiarm にある。

Imitation Learning (IL) is a powerful paradigm to teach robots to perform manipulation tasks by allowing them to learn from human demonstrations collected via teleoperation, but has mostly been limited to single-arm manipulation. However, many real-world tasks require multiple arms, such as lifting a heavy object or assembling a desk. Unfortunately, applying IL to multi-arm manipulation tasks has been challenging -- asking a human to control more than one robotic arm can impose significant cognitive burden and is often only possible for a maximum of two robot arms. To address these challenges, we present Multi-Arm RoboTurk (MART), a multi-user data collection platform that allows multiple remote users to simultaneously teleoperate a set of robotic arms and collect demonstrations for multi-arm tasks. Using MART, we collected demonstrations for five novel two and three-arm tasks from several geographically separated users. From our data we arrived at a critical insight: most multi-arm tasks do not require global coordination throughout its full duration, but only during specific moments. We show that learning from such data consequently presents challenges for centralized agents that directly attempt to model all robot actions simultaneously, and perform a comprehensive study of different policy architectures with varying levels of centralization on our tasks. Finally, we propose and evaluate a base-residual policy framework that allows trained policies to better adapt to the mixed coordination setting common in multi-arm manipulation, and show that a centralized policy augmented with a decentralized residual model outperforms all other models on our set of benchmark tasks. Additional results and videos at https://roboturk.stanford.edu/multiarm .
翻訳日:2021-05-10 05:23:23 公開日:2020-12-12
# 正規化ラベル分布:校正、適応性、効率的なアクティベーションマップの学習に向けて

Normalized Label Distribution: Towards Learning Calibrated, Adaptable and Efficient Activation Maps ( http://arxiv.org/abs/2012.06876v1 )

ライセンス: Link先を確認
Utkarsh Uppal, Bharat Giddwani(参考訳) データ収差や敵対的攻撃に対するモデルの脆弱性は、異なるクラス境界を効率的に定義する能力に影響する。 ネットワークの信頼性と不確実性は、重み調整とそのような攻撃に対する認識の程度において重要な役割を果たす。 本稿では,分類ネットワークの精度とキャリブレーションポテンシャルのトレードオフについて述べる。 本研究では,最先端ネットワークの性能と汎用性に及ぼす地中分布変化の意義について検討し,提案手法の応答と予期せぬ攻撃との比較を行った。 さらに,正規化ソフトラベルの提案により特徴地図の校正性が向上し,一般化性と校正確率分布が向上する上で,ラベルスムーシング正規化と正規化が果たす役割を実証する。 その後,従来の畳み込みをパディングに基づく部分畳み込みに翻訳し,精度と収束率を向上する上で,補正の具体的な影響を確定する。 複数のデータセットの信頼性と再現性を調整するために,このようなバリエーションの意義をグラフィカルに解明する。

The vulnerability of models to data aberrations and adversarial attacks influences their ability to demarcate distinct class boundaries efficiently. The network's confidence and uncertainty play a pivotal role in weight adjustments and the extent of acknowledging such attacks. In this paper, we address the trade-off between the accuracy and calibration potential of a classification network. We study the significance of ground-truth distribution changes on the performance and generalizability of various state-of-the-art networks and compare the proposed method's response to unanticipated attacks. Furthermore, we demonstrate the role of label-smoothing regularization and normalization in yielding better generalizability and calibrated probability distribution by proposing normalized soft labels to enhance the calibration of feature maps. Subsequently, we substantiate our inference by translating conventional convolutions to padding based partial convolution to establish the tangible impact of corrections in reinforcing the performance and convergence rate. We graphically elucidate the implication of such variations with the critical purpose of corroborating the reliability and reproducibility for multiple datasets.
翻訳日:2021-05-10 05:22:54 公開日:2020-12-12
# オフライン強化学習のための半教師付き報酬学習

Semi-supervised reward learning for offline reinforcement learning ( http://arxiv.org/abs/2012.06899v1 )

ライセンス: Link先を確認
Ksenia Konyushkova, Konrad Zolna, Yusuf Aytar, Alexander Novikov, Scott Reed, Serkan Cabi, Nando de Freitas(参考訳) オフライン強化学習(RL)エージェントは、ログデータセットを使用してトレーニングされる。 医療やロボティクスといった環境との相互作用は高価か非倫理的であるため、現実のアプリケーションを攻撃する最も自然な道のようです。 トレーニングエージェントは通常、報酬機能を必要とするが、残念なことに、実際に報酬が利用できることはほとんどなく、そのエンジニアリングは困難で労力がかかる。 これを解決するために,人間報酬アノテーションの最小化による報酬学習について検討する。 我々は、タイムステップアノテーションとデモの2つのタイプの監督を考える。 限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。 シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。 さらに,報酬モデルの品質と最終方針との関係について検討する。 例えば、報奨モデルが役に立つポリシーを生み出すのに完璧である必要はないことに気付きました。

In offline reinforcement learning (RL) agents are trained using a logged dataset. It appears to be the most natural route to attack real-life applications because in domains such as healthcare and robotics interactions with the environment are either expensive or unethical. Training agents usually requires reward functions, but unfortunately, rewards are seldom available in practice and their engineering is challenging and laborious. To overcome this, we investigate reward learning under the constraint of minimizing human reward annotations. We consider two types of supervision: timestep annotations and demonstrations. We propose semi-supervised learning algorithms that learn from limited annotations and incorporate unlabelled data. In our experiments with a simulated robotic arm, we greatly improve upon behavioural cloning and closely approach the performance achieved with ground truth rewards. We further investigate the relationship between the quality of the reward model and the final policies. We notice, for example, that the reward models do not need to be perfect to result in useful policies.
翻訳日:2021-05-10 05:22:37 公開日:2020-12-12
# ロバスト顔認識のための高次局所方向パターンに基づくピラミッド多構造

High Order Local Directional Pattern Based Pyramidal Multi-structure for Robust Face Recognition ( http://arxiv.org/abs/2012.06838v1 )

ライセンス: Link先を確認
Almabrok Essa and Vijayan Asari(参考訳) 局所近傍におけるテクスチャの一般的な定義から導出され、局所方向パターン(ldp)は画素の小さな局所3x3近傍の方向情報を符号化するが、特に照明変化による入力画像の変化によって詳細な情報を抽出できない可能性がある。 そこで本稿では,n次方向変化パターンを計算した特徴抽出手法であるholdp(high order local directional pattern)を提案する。 提案したHOLDPは従来のLDPよりも詳細な識別情報を取得できる。 提案手法はldp演算子と異なり,ピラミッド型マルチストラクタ方式で画素の各近傍層から異なる空間関係を符号化することにより,n次局所情報を抽出する。 次に,各近傍層の特徴ベクトルを連結して最終HOLDP特徴ベクトルを形成する。 提案したHOLDPアルゴリズムの性能評価は, 利用可能な複数の顔データベース上で行われ, 極端照明条件下でのHOLDPの優位性を観察した。

Derived from a general definition of texture in a local neighborhood, local directional pattern (LDP) encodes the directional information in the small local 3x3 neighborhood of a pixel, which may fail to extract detailed information especially during changes in the input image due to illumination variations. Therefore, in this paper we introduce a novel feature extraction technique that calculates the nth order direction variation patterns, named high order local directional pattern (HOLDP). The proposed HOLDP can capture more detailed discriminative information than the conventional LDP. Unlike the LDP operator, our proposed technique extracts nth order local information by encoding various distinctive spatial relationships from each neighborhood layer of a pixel in the pyramidal multi-structure way. Then we concatenate the feature vector of each neighborhood layer to form the final HOLDP feature vector. The performance evaluation of the proposed HOLDP algorithm is conducted on several publicly available face databases and observed the superiority of HOLDP under extreme illumination conditions.
翻訳日:2021-05-10 05:21:40 公開日:2020-12-12
# 制御者検証のための逆乱の発生

Generating Adversarial Disturbances for Controller Verification ( http://arxiv.org/abs/2012.06695v1 )

ライセンス: Link先を確認
Udaya Ghai, David Snyder, Anirudha Majumdar, Elad Hazan(参考訳) ブラックボックスアクセスのみを前提として、所定のコントローラに対して最大対向障害を発生させる問題を考える。 本稿では,コントローラが選択した制御入力に基づいて適応的に外乱を生成するオンライン学習手法を提案する。 乱れ発生器の目標は、ベンチマーク乱れ発生ポリシークラスに対する後悔を最小限に抑えることであり、例えば、後ろ向きの最良の乱れ発生器(ベンチマークポリシークラスからの調味料)と比較して、コントローラが生み出すコストを可能な限り最大化することである。 動的に線形でコストが2次となる環境では,メモリのオンライン信頼領域(OTR)問題として問題を定式化し,この問題に対する新しいオンライン学習アルゴリズム(MOTR)を提案する。 本手法は, 線形動的外乱生成ポリシーを含むベンチマークポリシーの豊富なクラスから得られる) における最良の外乱発生器と競合することを示す。 本研究では, (i) 合成線形系と (ii) エアシムシミュレータで有名なPX4コントローラの風乱を発生させる2つの模擬例について実演する。 これらの例では、$h_{\infty}$外乱生成や勾配に基づく手法など、我々のアプローチがいくつかのベースラインアプローチを上回っていることを実証する。

We consider the problem of generating maximally adversarial disturbances for a given controller assuming only blackbox access to it. We propose an online learning approach to this problem that adaptively generates disturbances based on control inputs chosen by the controller. The goal of the disturbance generator is to minimize regret versus a benchmark disturbance-generating policy class, i.e., to maximize the cost incurred by the controller as well as possible compared to the best possible disturbance generator in hindsight (chosen from a benchmark policy class). In the setting where the dynamics are linear and the costs are quadratic, we formulate our problem as an online trust region (OTR) problem with memory and present a new online learning algorithm (MOTR) for this problem. We prove that this method competes with the best disturbance generator in hindsight (chosen from a rich class of benchmark policies that includes linear-dynamical disturbance generating policies). We demonstrate our approach on two simulated examples: (i) synthetically generated linear systems, and (ii) generating wind disturbances for the popular PX4 controller in the AirSim simulator. On these examples, we demonstrate that our approach outperforms several baseline approaches, including $H_{\infty}$ disturbance generation and gradient-based methods.
翻訳日:2021-05-10 05:20:43 公開日:2020-12-12
# GDPNet:関係抽出のための遅延マルチビューグラフの精細化

GDPNet: Refining Latent Multi-View Graph for Relation Extraction ( http://arxiv.org/abs/2012.06780v1 )

ライセンス: Link先を確認
Fuzhao Xue, Aixin Sun, Hao Zhang, Eng Siong Chng(参考訳) 関係抽出(Relation extract、RE)とは、文や対話などのテキストで言及される2つのエンティティの関係型を予測することである。 与えられたテキストが長ければ、関係予測のための指示語を特定することは困難である。 REタスクの最近の進歩は、BERTベースのシーケンスモデリングと、シーケンス内のトークン間の関係のグラフベースのモデリングである。 本稿では,トークン間の様々な関係を捉えるために,潜在多視点グラフを構築することを提案する。 次に,このグラフを改良して,関係予測のための重要な単語を選択する。 最後に、精製グラフの表現とBERTに基づくシーケンス表現を連結して関係抽出を行う。 具体的には,提案するgdpnet (gaussian dynamic time warping pooling net) において,gaussian graph generator (ggg) を用いて多視点グラフのエッジを生成する。 グラフは、Dynamic Time Warping Pooling (DTWPool)によって洗練される。 DialogRE と TACRED では,GDPNet が文レベル RE で最高のパフォーマンスを達成し,文レベル RE で最先端の処理性能を達成していることを示す。

Relation Extraction (RE) is to predict the relation type of two entities that are mentioned in a piece of text, e.g., a sentence or a dialogue. When the given text is long, it is challenging to identify indicative words for the relation prediction. Recent advances on RE task are from BERT-based sequence modeling and graph-based modeling of relationships among the tokens in the sequence. In this paper, we propose to construct a latent multi-view graph to capture various possible relationships among tokens. We then refine this graph to select important words for relation prediction. Finally, the representation of the refined graph and the BERT-based sequence representation are concatenated for relation extraction. Specifically, in our proposed GDPNet (Gaussian Dynamic Time Warping Pooling Net), we utilize Gaussian Graph Generator (GGG) to generate edges of the multi-view graph. The graph is then refined by Dynamic Time Warping Pooling (DTWPool). On DialogRE and TACRED, we show that GDPNet achieves the best performance on dialogue-level RE, and comparable performance with the state-of-the-arts on sentence-level RE.
翻訳日:2021-05-10 05:19:54 公開日:2020-12-12
# AffectON:Affectをダイアログ生成に組み込む

AffectON: Incorporating Affect Into Dialog Generation ( http://arxiv.org/abs/2012.06847v1 )

ライセンス: Link先を確認
Zana Bucinca, Yucel Yemez, Engin Erzin, Metin Sezgin(参考訳) その表現力のため、自然言語は人間間の明示的で暗黙的な情緒的状態コミュニケーションにおいて最重要である。 同じ言語調査(例えば、あなたはどうですか? 会話相手の情緒的状態や会話の文脈によって異なる感情を持った反応を誘発する可能性がある。 しかし,ほとんどの対話システムは応答生成の構成的側面には影響しない。 本稿では,推論中に感情応答を生成するアプローチであるimpactonを提案する。 言語を対象とする影響で生成するには,確率的言語モデルと情緒的空間を利用する。 affectonは言語モデルに依存しないため、任意の言語モデル(シーケンス-シーケンスモデル、ニューラルネットワークモデル、n-gramなど)によって生成された確率で動作する。 したがって、感情的ダイアログと感情的言語生成の両方に使用できる。 感情対話生成実験を行い, テキストを客観的・主観的に評価した。 評価の主観的な部分については,評価のためのカスタムユーザインタフェースをデザインし,それらのインターフェースの設計を推奨した。 その結果,主観的・客観的ともに,構文的コヒーレンスをほとんど犠牲にすることなく,生成した言語を対象とする感情に向かって引き出すことに成功した。

Due to its expressivity, natural language is paramount for explicit and implicit affective state communication among humans. The same linguistic inquiry (e.g., How are you?) might induce responses with different affects depending on the affective state of the conversational partner(s) and the context of the conversation. Yet, most dialog systems do not consider affect as constitutive aspect of response generation. In this paper, we introduce AffectON, an approach for generating affective responses during inference. For generating language in a targeted affect, our approach leverages a probabilistic language model and an affective space. AffectON is language model agnostic, since it can work with probabilities generated by any language model (e.g., sequence-to-sequence models, neural language models, n-grams). Hence, it can be employed for both affective dialog and affective language generation. We experimented with affective dialog generation and evaluated the generated text objectively and subjectively. For the subjective part of the evaluation, we designed a custom user interface for rating and provided recommendations for the design of such interfaces. The results, both subjective and objective demonstrate that our approach is successful in pulling the generated language toward the targeted affect, with little sacrifice in syntactic coherence.
翻訳日:2021-05-10 05:19:35 公開日:2020-12-12
# pop-net: 深度画像による多人数3次元ポーズ推定のための部品ネットワーク上のポーズ

PoP-Net: Pose over Parts Network for Multi-Person 3D Pose Estimation from a Depth Image ( http://arxiv.org/abs/2012.06734v1 )

ライセンス: Link先を確認
Yuliang Guo, Zhong Li, Zekun Li, Xiangyu Du, Shuxue Quan, Yi Xu(参考訳) 本稿では,深度画像から複数人物の3Dポーズを予測するために,PoP-Netと呼ばれるリアルタイム手法を提案する。 PoP-Netは、ボトムアップ部分検出マップとトップダウングローバルポーズを単発フレームワークで予測することを学ぶ。 大域的なポーズと部分検出を融合するために、単純で効果的な融合プロセスを適用する。 具体的には、Trncated Part Displacement Field (TPDF)と呼ばれる新しい部分レベルの表現を導入する。 これは、より正確な部分への低精度なグローバルなポーズを引きずり出し、重度のオクルージョンやトランケーションのケースに対処するグローバルなポーズの利点を維持している。 グローバルポーズと局所検出の競合を自動的に解消するモード選択スキームを開発した。 最後に,多人数の3Dポーズ推定手法の開発と評価のための高品質な深度データセットの欠如により,3Dポーズラベル付き総合深度データセットがリリースされた。 データセットは、開発モデルが制御されていない現実世界のマルチパーソンシナリオに対してより一般化できるように、効果的なマルチパーソンおよびバックグラウンドデータ拡張を可能にするように設計されている。 我々は、PoP-Netがマルチパーソン処理の効率において大きな利点があることを示し、リリースした課題データセットと広く使用されているITOPデータセットの両方で最先端の結果を達成する。

In this paper, a real-time method called PoP-Net is proposed to predict multi-person 3D poses from a depth image. PoP-Net learns to predict bottom-up part detection maps and top-down global poses in a single-shot framework. A simple and effective fusion process is applied to fuse the global poses and part detection. Specifically, a new part-level representation, called Truncated Part Displacement Field (TPDF), is introduced. It drags low-precision global poses towards more accurate part locations while maintaining the advantage of global poses in handling severe occlusion and truncation cases. A mode selection scheme is developed to automatically resolve the conflict between global poses and local detection. Finally, due to the lack of high-quality depth datasets for developing and evaluating multi-person 3D pose estimation methods, a comprehensive depth dataset with 3D pose labels is released. The dataset is designed to enable effective multi-person and background data augmentation such that the developed models are more generalizable towards uncontrolled real-world multi-person scenarios. We show that PoP-Net has significant advantages in efficiency for multi-person processing and achieves the state-of-the-art results both on the released challenging dataset and on the widely used ITOP dataset.
翻訳日:2021-05-10 05:19:03 公開日:2020-12-12
# コンピュータビジョンと正規化フローに基づく欠陥検出

Computer Vision and Normalizing Flow Based Defect Detection ( http://arxiv.org/abs/2012.06737v1 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) 表面欠陥検出は、製造中の製品の品質を制御するために必要であり、必要である。 この複雑なタスクの課題は,1) 欠陥サンプルの収集とトレーニングのための手動ラベリングに時間を要すること,2) 欠陥の特徴を常に新しいタイプの欠陥が発生すると定義することが難しいこと,3) 現実の製品イメージには多くのバックグラウンドノイズが含まれていること,である。 本稿では,対象検出モデルであるyoloと正規化フローに基づく欠陥検出モデルの違いに基づく2段階の欠陥検出ネットワークを提案する。 本モデルは,生産ライン監視システムから撮影した実世界のビデオクリップを用いた欠陥検出において,高い堅牢性と性能を有する。 正規化フローベース異常検出モデルでは、トレーニング用のサンプルを少数必要とせず、YOLOによって検出された製品画像の欠陥検出を行う。 提案手法では,1)yoloを用いた2段階ネットワークと,製品欠陥検出を行う正規化フローベースモデル,2)yoloでトリミングされた製品画像の課題を解決するために,多段階画像変換が実装されている。 さらに、実世界の工場生産ラインから収集した新しいデータセットに関する広範な実験も行われている。 提案モデルでは,単一製品や複数製品の欠陥のない少数のサンプルを学習できることを実証する。 データセットも公開され、表面欠陥検出のさらなる研究と研究が促進される。

Surface defect detection is essential and necessary for controlling the qualities of the products during manufacturing. The challenges in this complex task include: 1) collecting defective samples and manually labeling for training is time-consuming; 2) the defects' characteristics are difficult to define as new types of defect can happen all the time; 3) and the real-world product images contain lots of background noise. In this paper, we present a two-stage defect detection network based on the object detection model YOLO, and the normalizing flow-based defect detection model DifferNet. Our model has high robustness and performance on defect detection using real-world video clips taken from a production line monitoring system. The normalizing flow-based anomaly detection model only requires a small number of good samples for training and then perform defect detection on the product images detected by YOLO. The model we invent employs two novel strategies: 1) a two-stage network using YOLO and a normalizing flow-based model to perform product defect detection, 2) multi-scale image transformations are implemented to solve the issue product image cropped by YOLO includes many background noise. Besides, extensive experiments are conducted on a new dataset collected from the real-world factory production line. We demonstrate that our proposed model can learn on a small number of defect-free samples of single or multiple product types. The dataset will also be made public to encourage further studies and research in surface defect detection.
翻訳日:2021-05-10 05:18:42 公開日:2020-12-12
# クロスモーダルな知識蒸留による野生埋め込み学習における周辺視

Periocular in the Wild Embedding Learning with Cross-Modal Consistent Knowledge Distillation ( http://arxiv.org/abs/2012.06746v1 )

ライセンス: Link先を確認
Yoon Gyo Jung, Jaewoo Park, Cheng Yaw Low, Leslie Ching Ow Tiong, Andrew Beng Jin Teoh(参考訳) 眼窩バイオメトリックス(periocular biometric)または眼の周辺領域( peripheral area of ocular)は、特に顔がオクルードされたりマスキングされたりした場合、顔の協調的な代替手段である。 実際には、単眼バイオメトリックは、特に野生環境では、クラス内コンパクト性やクラス間分散の問題に悩まされる、最も健康な顔の特徴を捉えている。 これらの問題に対処するために,我々は知識蒸留(KD)を用いて顔から有用な情報を伝達し,学習を組み込む。 しかしながら、ヘテロジニアスモダリティに直接典型的なkd手法を適用することは最適ではない。 本論文では, クロスモーダル一貫した知識蒸留 (CM-CKD) として開発された深層対近眼蒸留網について述べる。 CM-CKDの3つの主要成分は,(1)共有量ネットワーク,(2)一貫したバッチ正規化,(3)実効CKD損失による顔および眼周囲の双方向連続蒸留である。 より具体的には、顔のモダリティを眼周囲埋め込み学習に活用するが、識別や検証のタスクを狙うのは眼周囲画像のみである。 6つの制約付きおよび制約なしのperiocularデータセットに関する広範囲な実験により、cm-ckdがリードするperiocular embeddedは、顔とperiocularのベースラインに基づいて計算される相対的なパフォーマンスゲインの点で、識別と検証のパフォーマンスを50%向上させることが明らかになった。 実験により、CM-CKDで学習した近視機能により、主観的クラスタ分離が向上し、全体的な精度が向上することが明らかとなった。

Periocular biometric, or peripheral area of ocular, is a collaborative alternative to face, especially if a face is occluded or masked. In practice, sole periocular biometric captures least salient facial features, thereby suffering from intra-class compactness and inter-class dispersion issues particularly in the wild environment. To address these problems, we transfer useful information from face to support periocular modality by means of knowledge distillation (KD) for embedding learning. However, applying typical KD techniques to heterogeneous modalities directly is suboptimal. We put forward in this paper a deep face-to-periocular distillation networks, coined as cross-modal consistent knowledge distillation (CM-CKD) henceforward. The three key ingredients of CM-CKD are (1) shared-weight networks, (2) consistent batch normalization, and (3) a bidirectional consistency distillation for face and periocular through an effectual CKD loss. To be more specific, we leverage face modality for periocular embedding learning, but only periocular images are targeted for identification or verification tasks. Extensive experiments on six constrained and unconstrained periocular datasets disclose that the CM-CKD-learned periocular embeddings extend identification and verification performance by 50% in terms of relative performance gain computed based upon face and periocular baselines. The experiments also reveal that the CM-CKD-learned periocular features enjoy better subject-wise cluster separation, thereby refining the overall accuracy performance.
翻訳日:2021-05-10 05:18:18 公開日:2020-12-12
# カテゴリ記憶ネットワークによるきめ細かい分類

Fine-grained Classification via Categorical Memory Networks ( http://arxiv.org/abs/2012.06793v1 )

ライセンス: Link先を確認
Weijian Deng, Joshua Marsh, Stephen Gould, Liang Zheng(参考訳) クラス間で共有されるパターンを利用したいという願望に動機づけられ、きめ細かな機能学習のためのシンプルで効果的なクラス固有のメモリモジュールを提示する。 メモリモジュールは、各カテゴリの原型的特徴表現を移動平均として記憶する。 各々の圏に対する類似性の組み合わせは、それ自体が有用で差別的な手がかりであると仮定する。 これらの類似性を検出するため、クエリー機構として注目する。 各クラスプロトタイプに対する注目スコアは、加重和でプロトタイプを組み合わせる重みとして使用され、与えられた入力に対して一意に調整された応答特徴表現を生成する。 オリジナル機能とレスポンス機能を組み合わせて、分類のための拡張機能を生成する。 クラス固有のメモリモジュールを標準畳み込みニューラルネットワークに統合し、カテゴリメモリネットワークを生成します。 メモリモジュールは,CUB-200-2011,Stanford Cars,FGVC Aircraft,NABirdsの4つのベンチマークにおいて,最先端の手法と競合する精度を実現する。

Motivated by the desire to exploit patterns shared across classes, we present a simple yet effective class-specific memory module for fine-grained feature learning. The memory module stores the prototypical feature representation for each category as a moving average. We hypothesize that the combination of similarities with respect to each category is itself a useful discriminative cue. To detect these similarities, we use attention as a querying mechanism. The attention scores with respect to each class prototype are used as weights to combine prototypes via weighted sum, producing a uniquely tailored response feature representation for a given input. The original and response features are combined to produce an augmented feature for classification. We integrate our class-specific memory module into a standard convolutional neural network, yielding a Categorical Memory Network. Our memory module significantly improves accuracy over baseline CNNs, achieving competitive accuracy with state-of-the-art methods on four benchmarks, including CUB-200-2011, Stanford Cars, FGVC Aircraft, and NABirds.
翻訳日:2021-05-10 05:17:33 公開日:2020-12-12
# rgb-infrared person re-identificationのためのコンパクト特徴学習を用いたマルチスケールカスケードネットワーク

Multi-Scale Cascading Network with Compact Feature Learning for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2012.06843v1 )

ライセンス: Link先を確認
Can Zhang, Hong Liu, Wei Guo, Mang Ye(参考訳) rgb-infrared person re-id(rgb-ir re-id)は、可視・熱カメラで撮影された異種画像から人物をマッチングすることを目的としている。 従来の単一モダリティや追加のモダリティ間不一致を含む複雑な分散において大きな課題に直面した既存のrgb-ir re-id法の多くは、画像レベル、特徴レベル、または両方のハイブリッドに制約を課すことを提案している。 ハイブリッド制約の優れたパフォーマンスにもかかわらず、それらは通常、重いネットワークアーキテクチャで実装される。 実際、以前の取り組みは、新しいクロスモーダルre-id領域における先駆的な作業として貢献し、改善のための大きなスペースを残している。 主な要因は,(1)訓練のための異なるモダリティから豊富な人物画像ペアが欠如していること,(2) 健全なモダリティ不変の特徴の欠如,(2) 効果的なマッチングのための粗い表現の欠如である。 これらの問題に対処するために,マルチスケールの細粒度の機能をカスケード方式で集約し,リッチで拡張されたセマンティクス機能を含む統一表現を実現することにより,新たなマルチスケール部分認識型カスケードフレームワーク(mspac)を策定する。 さらに、マージン指数中心(mecen)損失を導入し、モーダル内およびモーダル間例から混合分散を除去する。 したがって、相互モダリティ相関は、特徴的モダリティ不変特徴学習のためのサルエント特徴について効率的に研究することができる。 提案手法が最先端のすべての技術を大きなマージンで上回ることを示すために,広範な実験を行った。

RGB-Infrared person re-identification (RGB-IR Re-ID) aims to match persons from heterogeneous images captured by visible and thermal cameras, which is of great significance in the surveillance system under poor light conditions. Facing great challenges in complex variances including conventional single-modality and additional inter-modality discrepancies, most of the existing RGB-IR Re-ID methods propose to impose constraints in image level, feature level or a hybrid of both. Despite the better performance of hybrid constraints, they are usually implemented with heavy network architecture. As a matter of fact, previous efforts contribute more as pioneering works in new cross-modal Re-ID area while leaving large space for improvement. This can be mainly attributed to: (1) lack of abundant person image pairs from different modalities for training, and (2) scarcity of salient modality-invariant features especially on coarse representations for effective matching. To address these issues, a novel Multi-Scale Part-Aware Cascading framework (MSPAC) is formulated by aggregating multi-scale fine-grained features from part to global in a cascading manner, which results in a unified representation containing rich and enhanced semantic features. Furthermore, a marginal exponential centre (MeCen) loss is introduced to jointly eliminate mixed variances from intra- and inter-modal examples. Cross-modality correlations can thus be efficiently explored on salient features for distinctive modality-invariant feature learning. Extensive experiments are conducted to demonstrate that the proposed method outperforms all the state-of-the-art by a large margin.
翻訳日:2021-05-10 05:16:46 公開日:2020-12-12
# AMINN:多焦点肝転移の予後予測のためのオートエンコーダを用いたマルチインスタンスニューラルネットワーク

AMINN: Autoencoder-based Multiple Instance Neural Network for Outcome Prediction of Multifocal Liver Metastases ( http://arxiv.org/abs/2012.06875v1 )

ライセンス: Link先を確認
Jianan Chen, Helen M. C. Cheung, Laurent Milot, Anne L. Martel(参考訳) 大腸癌は最も一般的で致死的ながんの1つであり,大腸癌肝転移(CRLM)は大腸癌患者の主要な死因である。 多焦点性はCRLMで頻繁に起こるが、CRLMの結果予測では明らかにされていない。 既存の臨床および画像バイオマーカーのほとんどは、すべての多焦点病変のイメージング特徴を考慮に入れていない。 本稿では、造影MRIから抽出した放射能特徴を用いた多焦点CRLM患者の生存率を予測するために、エンドツーエンドの自己エンコーダベースマルチインスタンスニューラルネットワーク(AMINN)を提案する。 具体的には,入力特徴を再構成するオートエンコーダと,患者のすべての腫瘍病変から情報を集約して予測を行う複数インスタンスネットワークを共同で訓練する。 さらに, 2段階の正規化手法を組み込んで, 深層ニューラルネットワークの訓練を改良し, 放射能特徴の分布がほぼ常に著しく歪んでいることを観測した。 実験の結果,全病変の画像特徴を取り入れた多焦点癌の予後予測が改善するという仮説を実証的に検証した。 提案されたADMINNフレームワークは、基準法よりも19.5%高いLOC曲線(AUC)0.70の領域を達成した。 ネットワークの出力に基づいてリスクスコアを作成し,他の臨床・画像バイオマーカーと比較した。 多焦点CRLM患者のコホートにおける一変量および多変量コックス比例ハザードモデリングの統計的意義は,我々のリスクスコアのみである。 全病変を組み込んで2段階の正常化を施す効果は,一連のアブレーション研究によって実証された。 私たちのコードはピアレビュープロセス後にリリースされます。

Colorectal cancer is one of the most common and lethal cancers and colorectal cancer liver metastases (CRLM) is the major cause of death in patients with colorectal cancer. Multifocality occurs frequently in CRLM, but is relatively unexplored in CRLM outcome prediction. Most existing clinical and imaging biomarkers do not take the imaging features of all multifocal lesions into account. In this paper, we present an end-to-end autoencoder-based multiple instance neural network (AMINN) for the prediction of survival outcomes in multifocal CRLM patients using radiomic features extracted from contrast-enhanced MRIs. Specifically, we jointly train an autoencoder to reconstruct input features and a multiple instance network to make predictions by aggregating information from all tumour lesions of a patient. In addition, we incorporate a two-step normalization technique to improve the training of deep neural networks, built on the observation that the distributions of radiomic features are almost always severely skewed. Experimental results empirically validated our hypothesis that incorporating imaging features of all lesions improves outcome prediction for multifocal cancer. The proposed ADMINN framework achieved an area under the ROC curve (AUC) of 0.70, which is 19.5% higher than baseline methods. We built a risk score based on the outputs of our network and compared it to other clinical and imaging biomarkers. Our risk score is the only one that achieved statistical significance in univariate and multivariate cox proportional hazard modeling in our cohort of multifocal CRLM patients. The effectiveness of incorporating all lesions and applying two-step normalization is demonstrated by a series of ablation studies. Our code will be released after the peer-review process.
翻訳日:2021-05-10 05:16:15 公開日:2020-12-12
# Gumbel-Max方程式学習ネットワークによる記号表現の学習

Learning Symbolic Expressions via Gumbel-Max Equation Learner Network ( http://arxiv.org/abs/2012.06921v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) 現代の機械学習、特にディープラーニングは、科学的および工学的な研究で顕著な成功を収めているが、これらの最先端技術によって学習されたニューラルネットワーク(nns)のほとんどはブラックボックスモデルである。 科学と工学における機械学習の成功のためには、複雑なデータセットから高レベルの数学的知識を効果的に抽出する新しいNNアーキテクチャを開発することが重要である。 この研究の要求を満たすため,本論文は記号回帰問題に着目し,gumbel-max方程式学習ネットワーク (gmeql) と呼ばれる新しいnnアーキテクチャを開発した。 以前提案されたEQL(Equation Learner)ネットワークとは異なり、GMEQLはGumbel-Maxトリックを通じてネットワーク構造に継続的緩和を適用し、構造パラメータと回帰パラメータという2種類のトレーニング可能なパラメータを導入している。 本稿では,新しい2段階のトレーニングプロセスと,エリートリポジトリに基づくオンラインとオフラインの両設定における構造パラメータのトレーニング手法を提案する。 8つのベンチマークシンボリックレグレッション問題において、GMEQLは、シンボリックリグレッションのためのいくつかの最先端技術より優れていることを示した。

Although modern machine learning, in particular deep learning, has achieved outstanding success in scientific and engineering research, most of the neural networks (NNs) learned via these state-of-the-art techniques are black-box models. For a widespread success of machine learning in science and engineering, it is important to develop new NN architectures to effectively extract high-level mathematical knowledge from complex dataset. To meet this research demand, this paper focuses on the symbolic regression problem and develops a new NN architecture called the Gumbel-Max Equation Learner (GMEQL) network. Different from previously proposed Equation Learner (EQL) networks, GMEQL applies continuous relaxation to the network structure via the Gumbel-Max trick and introduces two types of trainable parameters: structure parameters and regression parameters. This paper also proposes a new two-stage training process and new techniques to train structure parameters in both the online and offline settings based on an elite repository. On 8 benchmark symbolic regression problems, GMEQL is experimentally shown to outperform several cutting-edge techniques for symbolic regression.
翻訳日:2021-05-10 05:15:48 公開日:2020-12-12
# ニューラルネットワークを描画する

Draw your Neural Networks ( http://arxiv.org/abs/2012.09609v1 )

ライセンス: Link先を確認
Jatin Sharma and Shobha Lata(参考訳) ディープニューラルネットワークは、現代の人工知能の基本的な構成要素である。 彼らは、データから直接学習する能力と、様々なタスクで優れた正確性によって、既存のソフトウェアシステムを置き換えたり強化したりしている。 既存のソフトウェア開発ライフサイクル(SDLC)方法論は、AI開発特有の能力と要件を表現できないため、人工知能開発ライフサイクル(AIDLC)方法論に置き換えられなければならない。 本稿では,複雑なコンピュータプログラミングの代わりに,ブロックやラインなどの直感的なGUI要素を描画するニューラルネットワークを開発するための,より自然なアプローチについて論じる。 我々は、このGUIベースのアプローチを使ってニューラルネットワークを設計、修正し、従来のフレームワークとの相互運用性を提供するSketchフレームワークを提案する。 このシステムは一般的なレイヤと操作を最初から提供し、サポート対象のトレーニング済みモデルをインポートすることで、複雑なニューラルネットワークの設計とトレーニングを高速化し、学習曲線を削除してAIを民主化する。

Deep Neural Networks are the basic building blocks of modern Artificial Intelligence. They are increasingly replacing or augmenting existing software systems due to their ability to learn directly from the data and superior accuracy on variety of tasks. Existing Software Development Life Cycle (SDLC) methodologies fall short on representing the unique capabilities and requirements of AI Development and must be replaced with Artificial Intelligence Development Life Cycle (AIDLC) methodologies. In this paper, we discuss an alternative and more natural approach to develop neural networks that involves intuitive GUI elements such as blocks and lines to draw them instead of complex computer programming. We present Sketch framework, that uses this GUI-based approach to design and modify the neural networks and provides interoperability with traditional frameworks. The system provides popular layers and operations out-of-the-box and could import any supported pre-trained model making it a faster method to design and train complex neural networks and ultimately democratizing the AI by removing the learning curve.
翻訳日:2021-05-10 05:15:27 公開日:2020-12-12
# フェデレーション学習システムにおけるセキュリティとプライバシの獲得:調査,研究課題,今後の方向性

Achieving Security and Privacy in Federated Learning Systems: Survey, Research Challenges and Future Directions ( http://arxiv.org/abs/2012.06810v1 )

ライセンス: Link先を確認
Alberto Blanco-Justicia, Josep Domingo-Ferrer, Sergio Mart\'inez, David S\'anchez, Adrian Flanagan and Kuan Eeik Tan(参考訳) フェデレーション・ラーニング(FL)は、サーバが機械学習(ML)モデルを学習し、複数の分散クライアントで独自のトレーニングデータをプライベートに格納することを可能にする。 集中型MLアプローチとは対照的に、FLは計算をサーバに保存し、クライアントがプライベートデータをサーバにアウトソースする必要がない。 しかし、FLには問題はない。 一方、各トレーニングエポックでクライアントが送信したモデル更新は、クライアントのプライベートデータに関する情報を漏洩させる可能性がある。 一方、サーバが学習したモデルは悪意のあるクライアントによる攻撃を受ける可能性がある。 本稿では,まずflに対するセキュリティとプライバシのアタックを調査し,各アタックを緩和するために文献で提案するソリューションを批判的に調査する。 その後,セキュリティとプライバシ保護を同時に達成することの難しさについて論じる。 最後に、このオープンな問題に対処し、セキュリティとプライバシの両方を達成する方法をスケッチします。

Federated learning (FL) allows a server to learn a machine learning (ML) model across multiple decentralized clients that privately store their own training data. In contrast with centralized ML approaches, FL saves computation to the server and does not require the clients to outsource their private data to the server. However, FL is not free of issues. On the one hand, the model updates sent by the clients at each training epoch might leak information on the clients' private data. On the other hand, the model learnt by the server may be subjected to attacks by malicious clients; these security attacks might poison the model or prevent it from converging. In this paper, we first examine security and privacy attacks to FL and critically survey solutions proposed in the literature to mitigate each attack. Afterwards, we discuss the difficulty of simultaneously achieving security and privacy protection. Finally, we sketch ways to tackle this open problem and attain both security and privacy.
翻訳日:2021-05-10 05:15:10 公開日:2020-12-12
# 2段階オフラインオンラインリソース割り当てのための統一モデル

A Unified Model for the Two-stage Offline-then-Online Resource Allocation ( http://arxiv.org/abs/2012.06845v1 )

ライセンス: Link先を確認
Yifan Xu, Pan Xu, Jianping Pan and Jun Tao(参考訳) インターネットの普及に伴い、従来のオフラインリソースアロケーションは、オンラインリソースアロケーションと呼ばれる新しい形式へと進化してきた。 システム内のエージェントのオンライン到着と、各オンラインエージェントの到着時のリアルタイム意思決定要件が特徴である。 オフラインとオンラインの両方のリソース割り当ては、ライドシェアリングからクラウドソーシングまで、さまざまな現実世界のマッチング市場で広く応用されている。 自転車シェアリングにおける再バランスや、ライドシェアリングにおけるトリップカーのディスパッチといった、2段階のリソース割り当てプロセスを含む新興アプリケーションもある。 プロセスはオフラインフェーズとシーケンシャルなオンラインフェーズで構成され、両方のフェーズは同じリソースセットで競います。 本稿では,オフラインとオンラインの両方のリソース割り当てを一つのフレームワークに組み込む統一モデルを提案する。 本モデルでは,オンラインエージェントの非一様かつ既知の到着分布を,歴史的なデータから学ぶことができる第2のオンラインフェーズに想定する。 本稿では,パラメータ化線形プログラミング(LP)に基づくアルゴリズムを提案する。 実データを用いた実験結果から,我々のLPベースアプローチは,ロバスト性と有効性の観点からLP非依存的ヒューリスティックスより優れていることが示された。

With the popularity of the Internet, traditional offline resource allocation has evolved into a new form, called online resource allocation. It features the online arrivals of agents in the system and the real-time decision-making requirement upon the arrival of each online agent. Both offline and online resource allocation have wide applications in various real-world matching markets ranging from ridesharing to crowdsourcing. There are some emerging applications such as rebalancing in bike sharing and trip-vehicle dispatching in ridesharing, which involve a two-stage resource allocation process. The process consists of an offline phase and another sequential online phase, and both phases compete for the same set of resources. In this paper, we propose a unified model which incorporates both offline and online resource allocation into a single framework. Our model assumes non-uniform and known arrival distributions for online agents in the second online phase, which can be learned from historical data. We propose a parameterized linear programming (LP)-based algorithm, which is shown to be at most a constant factor of $1/4$ from the optimal. Experimental results on the real dataset show that our LP-based approaches outperform the LP-agnostic heuristics in terms of robustness and effectiveness.
翻訳日:2021-05-10 05:14:26 公開日:2020-12-12
# 配車におけるドライバーの所得平等のためのシステム効率の取引

Trading the System Efficiency for the Income Equality of Drivers in Rideshare ( http://arxiv.org/abs/2012.06850v1 )

ライセンス: Link先を確認
Yifan Xu and Pan Xu(参考訳) いくつかの科学的研究は、性別、年齢、人種などの人口統計に基づくライドシェアドライバーの所得格差の存在を報告している。 本稿では,ライダーの差別的キャンセルによる配車者間の所得不平等と,システム効率(利益目標)による所得不平等(公正目標)のトレードオフについて検討する。 オンラインの2部マッチングモデルを提案し,事前の分布に追従して乗客の到着を想定した。 我々のモデルは、人口統計因子に基づいてタイプが定義されるドライバーライダタイプ間の受け入れ率の概念である。 特に、各ライダーが割り当てられたドライバーを受け入れたりキャンセルしたりすることができ、それぞれがライダータイプからドライバータイプへの受け入れ度を反映した一定の確率で発生すると仮定する。 有効なベンチマークとして2目的線形プログラムを構築し、2つのLPベースのパラメータ化オンラインアルゴリズムを提案する。 厳密なオンライン競争比分析は、対立する2つの目標、公正の促進と利益のバランスをとるオンラインアルゴリズムの柔軟性と効率を示すために提供されます。 実世界のデータセットに関する実験結果も提供され、理論的予測を確認します。

Several scientific studies have reported the existence of the income gap among rideshare drivers based on demographic factors such as gender, age, race, etc. In this paper, we study the income inequality among rideshare drivers due to discriminative cancellations from riders, and the tradeoff between the income inequality (called fairness objective) with the system efficiency (called profit objective). We proposed an online bipartite-matching model where riders are assumed to arrive sequentially following a distribution known in advance. The highlight of our model is the concept of acceptance rate between any pair of driver-rider types, where types are defined based on demographic factors. Specially, we assume each rider can accept or cancel the driver assigned to her, each occurs with a certain probability which reflects the acceptance degree from the rider type towards the driver type. We construct a bi-objective linear program as a valid benchmark and propose two LP-based parameterized online algorithms. Rigorous online competitive ratio analysis is offered to demonstrate the flexibility and efficiency of our online algorithms in balancing the two conflicting goals, promotions of fairness and profit. Experimental results on a real-world dataset are provided as well, which confirm our theoretical predictions.
翻訳日:2021-05-10 05:14:07 公開日:2020-12-12
# 正の無ラベルサンプリングによるGANに基づく勧告

GAN-based Recommendation with Positive-Unlabeled Sampling ( http://arxiv.org/abs/2012.06901v1 )

ライセンス: Link先を確認
Yao Zhou, Jianpeng Xu, Jun Wu, Zeinab Taghavi Nasrabadi, Evren Korpeoglu, Kannan Achan, Jingrui He(参考訳) Recommender システムは、様々なウェブアプリケーションやパーソナライズされた製品で情報検索タスクを行う一般的なツールである。 本研究では,正の未ラベルサンプリング戦略を用いたジェネレーティブ・アドバイサル・ネットワークに基づくレコメンデーション・フレームワークを提案する。 具体的には,各ユーザと各アイテムの関連性スコアを出力するバイナリ分類器を識別器として設計し,ユーザ-項目タプルの連続分布を学習するためにジェネレータを利用する。 一方、判別器の学習手順には正の未ラベルサンプリングが適用される。 正の未ラベルサンプリングと判別器とジェネレータの収束の最適性に関する理論的境界が提供される。 ランキングに基づく評価基準を8つ有する3つの公開データセットに対して, フレームワークの有効性と有効性を示し, 人気ベースライン13と比較した。

Recommender systems are popular tools for information retrieval tasks on a large variety of web applications and personalized products. In this work, we propose a Generative Adversarial Network based recommendation framework using a positive-unlabeled sampling strategy. Specifically, we utilize the generator to learn the continuous distribution of user-item tuples and design the discriminator to be a binary classifier that outputs the relevance score between each user and each item. Meanwhile, positive-unlabeled sampling is applied in the learning procedure of the discriminator. Theoretical bounds regarding positive-unlabeled sampling and optimalities of convergence for the discriminators and the generators are provided. We show the effectiveness and efficiency of our framework on three publicly accessible data sets with eight ranking-based evaluation metrics in comparison with thirteen popular baselines.
翻訳日:2021-05-10 05:13:48 公開日:2020-12-12
# マルチモーダルインベッドポースとブランケット下の形状推定

Multimodal In-bed Pose and Shape Estimation under the Blankets ( http://arxiv.org/abs/2012.06735v1 )

ライセンス: Link先を確認
Yu Yin, Joseph P. Robinson, Yun Fu(参考訳) 人間は生涯の約3分の1を平均してベッドで過ごす。 さらに、休息中の人間は多くの医療アプリケーションで不可欠です。 通常、人間は休んでいるときに毛布で覆われており、そこでは被写体を明らかにするためのマルチモーダルなアプローチを提案している。 本稿では,マルチモーダルセンサが捉えた知識を最大限活用するために,様々なモダリティを効果的に融合するピラミッド方式を提案する。 具体的には、最も情報性の高い2つのモード(すなわち深度と赤外画像)を最初に融合させ、優れた初期ポーズと形状推定を生成する。 そして、さらに圧力マップとrgb画像とを融合させ、被覆部に対する咬合不変情報と露出部に対する正確な形状情報とをそれぞれ提供して結果を洗練させる。 しかし、マルチモーダルデータであっても、身体の極端な閉塞のため、安静時に人体を検出する作業は依然として非常に困難である。 ブランケットからの閉塞による負の効果をさらに低減するため,我々は注意に基づく再構成モジュールを用いて未発見のモダリティを発生させ,サイクル方式で電流推定を更新する。 大規模な実験は、提案されたモデルが他よりも優れていることを検証する。

Humans spend vast hours in bed -- about one-third of the lifetime on average. Besides, a human at rest is vital in many healthcare applications. Typically, humans are covered by a blanket when resting, for which we propose a multimodal approach to uncover the subjects so their bodies at rest can be viewed without the occlusion of the blankets above. We propose a pyramid scheme to effectively fuse the different modalities in a way that best leverages the knowledge captured by the multimodal sensors. Specifically, the two most informative modalities (i.e., depth and infrared images) are first fused to generate good initial pose and shape estimation. Then pressure map and RGB images are further fused one by one to refine the result by providing occlusion-invariant information for the covered part, and accurate shape information for the uncovered part, respectively. However, even with multimodal data, the task of detecting human bodies at rest is still very challenging due to the extreme occlusion of bodies. To further reduce the negative effects of the occlusion from blankets, we employ an attention-based reconstruction module to generate uncovered modalities, which are further fused to update current estimation via a cyclic fashion. Extensive experiments validate the superiority of the proposed model over others.
翻訳日:2021-05-10 05:13:16 公開日:2020-12-12
# 3D-Fused Context Propagationを用いたインタラクティブ放射線治療

Interactive Radiotherapy Target Delineation with 3D-Fused Context Propagation ( http://arxiv.org/abs/2012.06873v1 )

ライセンス: Link先を確認
Chun-Hung Chao, Hsien-Tzu Cheng, Tsung-Ying Ho, Le Lu, and Min Sun(参考訳) 放射線治療計画と癌診断には,Gross tumor volume (GTV) delineation on tomography Medical imagingが重要である。 畳み込みニューラルネットワーク(CNN)は、放射線治療対象の3次元CTボリュームの設定を含む、自動的な3次元医療セグメンテーションタスクに優先されている。 cnnは有望な結果をもたらす可能性があるが、臨床シナリオでは、予期せぬ患者に対するcnnの一貫性の欠如により、専門家による二重チェックと予測の洗練が依然として必要である。 モデルを再トレーニングすることなくCNNの予測を効率的に修正する方法を提供するため,我々は3次元ボリューム全体に対して編集されたスライスを伝播する3Dフューズしたコンテキスト伝搬を提案する。 高レベルの特徴マップを考えると、放射線腫瘍学者は修正をガイドし、予測ボリューム全体を洗練するために、わずかなスライスを編集するしかなかった。 具体的には、バックプロパゲーションを利用したアクティベーション手法を用いて、ユーザ編集情報を潜在空間に後方に伝達し、更新された特徴とオリジナル機能に基づいて新たな予測を生成する。 相互作用の間,提案手法は既存の3次元CNNモデルアーキテクチャを変更せずに既存の特徴を再利用し,他の予測に対する摂動を回避する。 本手法は,鼻咽頭癌と食道癌に対する放射線治療標的2例について検討した。 実験の結果,提案手法は,oncologistの対話型入力により,異なるモデルアーキテクチャから既存のセグメンテーション予測をより効果的に改善できることがわかった。

Gross tumor volume (GTV) delineation on tomography medical imaging is crucial for radiotherapy planning and cancer diagnosis. Convolutional neural networks (CNNs) has been predominated on automatic 3D medical segmentation tasks, including contouring the radiotherapy target given 3D CT volume. While CNNs may provide feasible outcome, in clinical scenario, double-check and prediction refinement by experts is still necessary because of CNNs' inconsistent performance on unexpected patient cases. To provide experts an efficient way to modify the CNN predictions without retrain the model, we propose 3D-fused context propagation, which propagates any edited slice to the whole 3D volume. By considering the high-level feature maps, the radiation oncologists would only required to edit few slices to guide the correction and refine the whole prediction volume. Specifically, we leverage the backpropagation for activation technique to convey the user editing information backwardly to the latent space and generate new prediction based on the updated and original feature. During the interaction, our proposed approach reuses the extant extracted features and does not alter the existing 3D CNN model architectures, avoiding the perturbation on other predictions. The proposed method is evaluated on two published radiotherapy target contouring datasets of nasopharyngeal and esophageal cancer. The experimental results demonstrate that our proposed method is able to further effectively improve the existing segmentation prediction from different model architectures given oncologists' interactive inputs.
翻訳日:2021-05-10 05:12:56 公開日:2020-12-12
# Compensated Overlap-FedAvgを用いたコミュニケーション効率の良いフェデレーション学習

Communication-Efficient Federated Learning with Compensated Overlap-FedAvg ( http://arxiv.org/abs/2012.06706v1 )

ライセンス: Link先を確認
Yuhao Zhou, Ye Qing, and Jiancheng Lv(参考訳) 新たなIoT(Internet of Things)によって、ペタバイト単位のデータが毎日生成されるが、データとプライバシリークの理解がMLの成長を著しく変えているため、マシンラーニング(ML)の目的で最終的に収集され、使用されるのはごくわずかである。 この問題を軽減するために、フェデレートラーニングはクラスタ内でデータセットを共有することなく、複数のクライアントの複合データによるモデルトレーニングを実行する。 それでも、フェデレーション学習は、各エポックにおける同期データのサイズがモデルと同じであるため、膨大な通信オーバーヘッドをもたらし、通信効率を低下させる。 そこで, 通信ラウンドの削減とデータ圧縮を主とする変種手法を提案し, 連合学習の通信オーバーヘッドを低減した。 本稿では,モデル学習フェーズとモデルアップロード・ダウンロードフェーズを並列化するフレームワークであるoverload-fedavgを提案する。 バニラFedAvgと比較して、Overlap-FedAvgは階層型コンピューティング戦略、データ補償機構、ネステロフ加速勾配〜(NAG)アルゴリズムでさらに開発されている。 さらに、Overlap-FedAvgは、クラスタの利用を最大化するために、他の多くの圧縮メソッドと直交している。 さらに,提案した Overlap-FedAvg フレームワークの収束性を証明する理論解析を行った。 複数のモデルとデータセットを用いた従来のタスクとリカレントタスクの両方に関する広範囲な実験により、提案手法が連合学習プロセスを大幅に促進することを示した。

Petabytes of data are generated each day by emerging Internet of Things (IoT), but only few of them can be finally collected and used for Machine Learning (ML) purposes due to the apprehension of data & privacy leakage, which seriously retarding ML's growth. To alleviate this problem, Federated learning is proposed to perform model training by multiple clients' combined data without the dataset sharing within the cluster. Nevertheless, federated learning introduces massive communication overhead as the synchronized data in each epoch is of the same size as the model, and thereby leading to a low communication efficiency. Consequently, variant methods mainly focusing on the communication rounds reduction and data compression are proposed to reduce the communication overhead of federated learning. In this paper, we propose Overlap-FedAvg, a framework that parallels the model training phase with model uploading & downloading phase, so that the latter phase can be totally covered by the former phase. Compared to vanilla FedAvg, Overlap-FedAvg is further developed with a hierarchical computing strategy, a data compensation mechanism and a nesterov accelerated gradients~(NAG) algorithm. Besides, Overlap-FedAvg is orthogonal to many other compression methods so that they can be applied together to maximize the utilization of the cluster. Furthermore, the theoretical analysis is provided to prove the convergence of the proposed Overlap-FedAvg framework. Extensive experiments on both conventional and recurrent tasks with multiple models and datasets also demonstrate that the proposed Overlap-FedAvg framework substantially boosts the federated learning process.
翻訳日:2021-05-10 05:12:32 公開日:2020-12-12
# オンラインディープラーニングを用いたラベルなしネットワークトラフィックデータからのddos攻撃のフィルタリング

Filtering DDoS Attacks from Unlabeled Network Traffic Data Using Online Deep Learning ( http://arxiv.org/abs/2012.06805v1 )

ライセンス: Link先を確認
Wesley Joon-Wie Tann, Jackie Tan Jin Wei, Joanna Purba, Ee-Chien Chang(参考訳) DDoS攻撃は単純で効果的であり、20年以上経っても大きな脅威となる。 最近の機械学習の成功を考えると、ディープラーニングを活用してアプリケーション層アタックリクエストをフィルタリングする方法を検討することは興味深い。 継続的に変化するプロファイル、ラベル付きデータの欠如、オンライン環境での制約など、ディープラーニングソリューションを採用する上での課題がある。 オフラインの教師なし学習手法は、通常の日当たりのトラフィック${\mathcal N}$から異常検出器$N$を学習することで、これらのハードルを回避できる。 しかし、異常検出は攻撃時に取得した情報を利用せず、その性能は一般的に満足できない。 本稿では,過去の${\mathcal N}$と,未ラベル要求からなる攻撃時に得られた${\mathcal M}$の混在を利用した2つのフレームワークを提案する。 また、${\mathcal N}$と${\mathcal M}$を使って攻撃を除去することを目的とした機械学習最適化問題も導入する。 まず,提案手法は統計的手法に触発され,教師なし異常検出器$n$を拡張し,推定条件付き確率分布を用いて解く。 我々は転送学習を採用して${\mathcal N}$と${\mathcal M}$を別々に効率的に適用し、その結果を組み合わせてオンライン学習者を得る。 第2に,深層学習に適した特定の損失関数を定式化し,オンライン環境での反復学習を用いて解く。 公開されているデータセットでは、オンライン学習者は、ベースライン検出法と比較して偽陽性率を99.3 %$改善する。 オフライン環境では、当社のアプローチはラベル付きデータでトレーニングされた分類器と競合する。

DDoS attacks are simple, effective, and still pose a significant threat even after more than two decades. Given the recent success in machine learning, it is interesting to investigate how we can leverage deep learning to filter out application layer attack requests. There are challenges in adopting deep learning solutions due to the ever-changing profiles, the lack of labeled data, and constraints in the online setting. Offline unsupervised learning methods can sidestep these hurdles by learning an anomaly detector $N$ from the normal-day traffic ${\mathcal N}$. However, anomaly detection does not exploit information acquired during attacks, and their performance typically is not satisfactory. In this paper, we propose two frameworks that utilize both the historic ${\mathcal N}$ and the mixture ${\mathcal M}$ traffic obtained during attacks, consisting of unlabeled requests. We also introduce a machine learning optimization problem that aims to sift out the attacks using ${\mathcal N}$ and ${\mathcal M}$. First, our proposed approach, inspired by statistical methods, extends an unsupervised anomaly detector $N$ to solve the problem using estimated conditional probability distributions. We adopt transfer learning to apply $N$ on ${\mathcal N}$ and ${\mathcal M}$ separately and efficiently, combining the results to obtain an online learner. Second, we formulate a specific loss function more suited for deep learning and use iterative training to solve it in the online setting. On publicly available datasets, our online learners achieve a $99.3\%$ improvement on false-positive rates compared to the baseline detection methods. In the offline setting, our approaches are competitive with classifiers trained on labeled data.
翻訳日:2021-05-10 05:11:40 公開日:2020-12-12
# クラスタリングに基づくマルチタスク特徴学習による脳波デコードの改善

Improving EEG Decoding via Clustering-based Multi-task Feature Learning ( http://arxiv.org/abs/2012.06813v1 )

ライセンス: Link先を確認
Yu Zhang, Tao Zhou, Wei Wu, Hua Xie, Hongru Zhu, Guoxu Zhou, Andrzej Cichocki(参考訳) 脳脳波(EEG)パターンデコーディングは脳-コンピュータインターフェース(BCI)の開発における重要なステップの1つであり、脳頭皮で収集された脳波の信号-雑音比がかなり低いため、非常に難しい。 機械学習は、より正確な復号化のためにEEGパターンを最適化する有望な技術を提供する。 しかし、既存のアルゴリズムは、真の脳波サンプル分布をキャプチャする基盤となるデータ構造を効果的に探索しないため、最適なデコード精度しか得られない。 そこで本研究では,脳波データの固有分布構造を明らかにするために,クラスタリングに基づくマルチタスク特徴学習アルゴリズムを提案する。 具体的には、各サブクラス(すなわちクラスタ)を探索するためにアフィニティ伝播に基づくクラスタリングを行い、各サブクラスに1対1の符号化戦略に基づいてユニークなラベルを割り当てる。 符号化ラベルマトリクスを用いて,検出されたサブクラスから脳波パターン特徴を協調的に最適化するために,サブクラス関係を利用した新しいマルチタスク学習アルゴリズムを考案する。 次に、EEGパターンデコーディングに最適化された機能を備えた線形サポートベクトルマシンを訓練する。 このアルゴリズムの有効性を検証するために,3つの脳波データセットについて,他の最先端手法との比較実験を行った。 改良された実験結果から,BCIアプリケーションにおける脳波パターン復号化の顕著な性能が示唆された。

Accurate electroencephalogram (EEG) pattern decoding for specific mental tasks is one of the key steps for the development of brain-computer interface (BCI), which is quite challenging due to the considerably low signal-to-noise ratio of EEG collected at the brain scalp. Machine learning provides a promising technique to optimize EEG patterns toward better decoding accuracy. However, existing algorithms do not effectively explore the underlying data structure capturing the true EEG sample distribution, and hence can only yield a suboptimal decoding accuracy. To uncover the intrinsic distribution structure of EEG data, we propose a clustering-based multi-task feature learning algorithm for improved EEG pattern decoding. Specifically, we perform affinity propagation-based clustering to explore the subclasses (i.e., clusters) in each of the original classes, and then assign each subclass a unique label based on a one-versus-all encoding strategy. With the encoded label matrix, we devise a novel multi-task learning algorithm by exploiting the subclass relationship to jointly optimize the EEG pattern features from the uncovered subclasses. We then train a linear support vector machine with the optimized features for EEG pattern decoding. Extensive experimental studies are conducted on three EEG datasets to validate the effectiveness of our algorithm in comparison with other state-of-the-art approaches. The improved experimental results demonstrate the outstanding superiority of our algorithm, suggesting its prominent performance for EEG pattern decoding in BCI applications.
翻訳日:2021-05-10 05:11:13 公開日:2020-12-12
# ロバストな推薦のための非推奨・推奨項目列による学習

Learning over no-Preferred and Preferred Sequence of items for Robust Recommendation ( http://arxiv.org/abs/2012.06910v1 )

ライセンス: Link先を確認
Aleksandra Burashnikova, Marianne Clausel, Charlotte Laclau, Frack Iutzeller, Yury Maximov, Massih-Reza Amini(参考訳) 本稿では,主にクリックの形で,暗黙的なフィードバックに基づいて大規模レコメンダシステム(rs)をトレーニングするための理論的に確立された逐次戦略を提案する。 提案手法は,非クリック項目の系列とクリック項目の各ユーザからなる連続項目のブロックに対して,対方向のランキングロスを最小化するものである。 本稿では,モーメント法と勾配法のいずれかを用いてモデルパラメータを更新する手法を提案する。 対象アイテム(主にボット)に対する異常なクリック数に対するパラメータの更新を防止するため,ユーザ毎のアップデート数に対して,上位と下位のしきい値を導入する。 これらの閾値は、トレーニングセット内のブロック数の分布に対して推定される。 閾値は、RSの決定に影響を及ぼし、ユーザに示されるアイテムの分布のシフトを示唆する。 さらに,両アルゴリズムの収束解析を行い,異なるランキング尺度と計算時間の両方に関して,6つの大規模コレクションに対して実効性を示す。

In this paper, we propose a theoretically founded sequential strategy for training large-scale Recommender Systems (RS) over implicit feedback, mainly in the form of clicks. The proposed approach consists in minimizing pairwise ranking loss over blocks of consecutive items constituted by a sequence of non-clicked items followed by a clicked one for each user. We present two variants of this strategy where model parameters are updated using either the momentum method or a gradient-based approach. To prevent from updating the parameters for an abnormally high number of clicks over some targeted items (mainly due to bots), we introduce an upper and a lower threshold on the number of updates for each user. These thresholds are estimated over the distribution of the number of blocks in the training set. The thresholds affect the decision of RS and imply a shift over the distribution of items that are shown to the users. Furthermore, we provide a convergence analysis of both algorithms and demonstrate their practical efficiency over six large-scale collections, both regarding different ranking measures and computational time.
翻訳日:2021-05-10 05:10:50 公開日:2020-12-12
# フィードバック制御による教師強化学習

Tutoring Reinforcement Learning via Feedback Control ( http://arxiv.org/abs/2012.06863v1 )

ライセンス: Link先を確認
Francesco De Lellis, Giovanni Russo, Mario di Bernardo(参考訳) 制御教師付き強化学習(CTRL)アルゴリズムを導入する。 このアイデアは、システムモデルの知識が限られた制御戦略を用いて、表型学習アルゴリズムを強化することである。 学習過程を学習することにより、学習率を大幅に削減することができる。 逆振り子を安定化する古典的な問題をベンチマークとして、そのアプローチの利点と欠点を数値的に示す。

We introduce a control-tutored reinforcement learning (CTRL) algorithm. The idea is to enhance tabular learning algorithms by means of a control strategy with limited knowledge of the system model. By tutoring the learning process, the learning rate can be substantially reduced. We use the classical problem of stabilizing an inverted pendulum as a benchmark to numerically illustrate the advantages and disadvantages of the approach.
翻訳日:2021-05-10 05:10:18 公開日:2020-12-12
# グラフと高速gフレーム変換を用いたデシメーテッドフレームレットシステム

Decimated Framelet System on Graphs and Fast G-Framelet Transforms ( http://arxiv.org/abs/2012.06922v1 )

ライセンス: Link先を確認
Xuebin Zheng, Bingxin Zhou, Yu Guang Wang, Xiaosheng Zhuang(参考訳) グラフ表現学習には、スーパーレゾリューションイメージング、3Dコンピュータビジョン、薬物再資源化、タンパク質分類、ソーシャルネットワーク分析など、多くの実世界の応用がある。 グラフ構造データに対する統計的あるいは機械学習モデルの学習性能には,グラフデータの適切な表現が不可欠である。 本稿では,グラフ上に局所化されたタイトフレームを形成するデシメーテッドフレームレットと呼ばれる,グラフデータのための新しいマルチスケール表現システムを提案する。 決定されたフレームレットシステムは、粗い粒度のチェーン上にグラフデータ表現を格納し、グラフデータを複数のスケールで処理し、各スケールでデータをサブグラフに格納する。 これに基づいて,構築的データ駆動フィルタバンクを用いた多分解能グラフデータの分解と再構成のためのGフレームレット変換を確立する。 グラフフレームレットは、高速グラフフーリエ変換をサポートするチェーンベースで構築される。 この結果から、サイズ n のグラフに対する線形計算複雑性 o(n) を持つデキメッド g-フレーム変換(英語版)(fgt) の高速アルゴリズムを与える。 この効果は、トラフィックネットワークのマルチレゾリューション分析やグラフ分類タスクのグラフニューラルネットワークなど、現実世界のアプリケーションで実証されている。

Graph representation learning has many real-world applications, from super-resolution imaging, 3D computer vision to drug repurposing, protein classification, social networks analysis. An adequate representation of graph data is vital to the learning performance of a statistical or machine learning model for graph-structured data. In this paper, we propose a novel multiscale representation system for graph data, called decimated framelets, which form a localized tight frame on the graph. The decimated framelet system allows storage of the graph data representation on a coarse-grained chain and processes the graph data at multi scales where at each scale, the data is stored at a subgraph. Based on this, we then establish decimated G-framelet transforms for the decomposition and reconstruction of the graph data at multi resolutions via a constructive data-driven filter bank. The graph framelets are built on a chain-based orthonormal basis that supports fast graph Fourier transforms. From this, we give a fast algorithm for the decimated G-framelet transforms, or FGT, that has linear computational complexity O(N) for a graph of size N. The theory of decimated framelets and FGT is verified with numerical examples for random graphs. The effectiveness is demonstrated by real-world applications, including multiresolution analysis for traffic network, and graph neural networks for graph classification tasks.
翻訳日:2021-05-10 05:09:55 公開日:2020-12-12