このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200427となっている論文です。

PDF登録状況(公開日: 20200427)

TitleAuthorsAbstract論文公表日・翻訳日
# 結合振動子における時間外相関器

Out-of-time-order correlator in coupled harmonic oscillators ( http://arxiv.org/abs/2004.04381v2 )

ライセンス: Link先を確認
Tetsuya Akutagawa, Koji Hashimoto, Toshiaki Sasaki, Ryota Watanabe(参考訳) 熱外秩序相関器(OTOC)の指数的成長は重力双対の指標であり、成長を示す単純なおもちゃ量子モデルが検討されている。 2つの高調波発振器の系を非線形に結合し,熱OTOCが時間的に指数関数的に増加することを数値的に観察する。 この体系は古典的にカオス的に知られており、ヤン=ミルズ=ヒッグス理論の縮小である。 指数的成長は、熱的オトクの成長指数 (quantum lyapunov exponent) がそのエネルギー/温度依存性を含む古典的リアプノフ指数とよく一致するため、証明される。 OTOCの指数的な成長が存在するとしても、エネルギーレベル間隔はウィグナー分布を判断するのに十分ではないため、OTOCは量子カオスの指標として優れている。

Exponential growth of thermal out-of-time-order correlator (OTOC) is an indicator of a possible gravity dual, and a simple toy quantum model showing the growth is being looked for. We consider a system of two harmonic oscillators coupled nonlinearly with each other, and numerically observe that the thermal OTOC grows exponentially in time. The system is well-known to be classically chaotic, and is a reduction of Yang-Mills-Higgs theory. The exponential growth is certified because the growth exponent (quantum Lyapunov exponent) of the thermal OTOC is well matched with the classical Lyapunov exponent, including their energy/temperature dependence. Even in the presence of the exponential growth in the OTOC, the energy level spacings are not sufficient to judge a Wigner distribution, hence the OTOC is a better indicator of quantum chaos.
翻訳日:2023-05-25 08:52:11 公開日:2020-04-27
# EIT三脚法による大型イオン鎖の効率的な地中冷却

Efficient ground-state cooling of large trapped-ion chains with an EIT tripod scheme ( http://arxiv.org/abs/2004.05190v2 )

ライセンス: Link先を確認
L. Feng, W. L. Tan, A. De, A. Menon, A. Chu, G. Pagano, C. Monroe(参考訳) 我々は、量子基底状態に対して、大きな閉じ込められた$^{171}$Yb$^+$イオン鎖の電磁誘導透明性(EIT)冷却を報告した。 従来のEIT冷却とは異なり、4段三脚構造に係わり、全ての運動モードで高速なサブドップラー冷却を行う。 我々は、40ドルまでの完全な横モードスペクトルをまたいで、同時に地上状態を冷却し、帯域幅が3mhzを超えるのを観測した。 冷却時間は300\,\mu$s未満であり、イオンの数に依存しない。 このようなスペクトル全体の効率的な冷却は、量子シミュレータや量子コンピュータに閉じ込められたイオン結晶を用いた高忠実度量子演算に必須である。

We report the electromagnetically-induced-transparency (EIT) cooling of a large trapped $^{171}$Yb$^+$ ion chain to the quantum ground state. Unlike conventional EIT cooling, we engage a four-level tripod structure and achieve fast sub-Doppler cooling over all motional modes. We observe simultaneous ground-state cooling across the complete transverse mode spectrum of up to $40$ ions, occupying a bandwidth of over $3$ MHz. The cooling time is observed to be less than $300\,\mu$s, independent of the number of ions. Such efficient cooling across the entire spectrum is essential for high-fidelity quantum operations using trapped ion crystals for quantum simulators or quantum computers.
翻訳日:2023-05-25 06:16:26 公開日:2020-04-27
# 量子時間拡張:相対論的量子論の新しいテスト

Quantum time dilation: A new test of relativistic quantum theory ( http://arxiv.org/abs/2004.10810v2 )

ライセンス: Link先を確認
Alexander R. H. Smith(参考訳) 時計が2つの相対論的速度の量子重ね合わせで動くと、新しい量子時間拡張効果が生じることが示されている。 この効果は既存の原子干渉法を用いて測定可能であり、相対論的量子論の新しいテストを提供する可能性がある。

A novel quantum time dilation effect is shown to arise when a clock moves in a quantum superposition of two relativistic velocities. This effect is argued to be measurable using existing atomic interferometry techniques, potentially offering a new test of relativistic quantum theory.
翻訳日:2023-05-22 10:59:00 公開日:2020-04-27
# クーロンおよびリング形ポテンシャルの和に対するクライン・フォック・ゴードン方程式の近似解

Approximate Solutions to the Klein-Fock-Gordon Equation for the sum of Coulomb and Ring-Shaped like potentials ( http://arxiv.org/abs/2004.12645v1 )

ライセンス: Link先を確認
Sh. M. Nagiyev, A. I. Ahmadov, and V. A. Tarverdiyeva(参考訳) 我々は、スピンレス荷電相対論粒子の質量$M$の運動の量子力学的問題について、同じスカラー$S(\vec{r})$とベクトル$V(\vec{r})$クーロン+環形ポテンシャルを持つクライン=フォック=ゴルドン方程式で記述する。 検討中のシステムは、$\left|E\right|<Mc^{2} $ で離散的であり、$\left|E\right|>Mc^{2} $ で連続的である。 対応する完全波動関数の解析式を求める。 運動のラジアル波動方程式に対する動的対称性群 $su(1,1)$ を構成する。 この群の生成子の代数は、純粋に代数的な方法でエネルギースペクトルを見つけることができる。 また、極限 $c\to \infty $ における波動関数、エネルギースペクトル、群生成器に対する相対論的表現は、非相対論的問題に対応する表現へと変換されることを示した。

We consider the quantum mechanical problem of the motion of a spinless charged relativistic particle with mass$M$, described by the Klein-Fock-Gordon equation with equal scalar $S(\vec{r})$ and vector $V(\vec{r})$ Coulomb plus ring-shaped potentials. It is shown that the system under consideration has both a discrete at $\left|E\right|<Mc^{2} $ and a continuous at $\left|E\right|>Mc^{2} $ energy spectra. We find the analytical expressions for the corresponding complete wave functions. A dynamical symmetry group $SU(1,1)$ for the radial wave equation of motion is constructed. The algebra of generators of this group makes it possible to find energy spectra in a purely algebraic way. It is also shown that relativistic expressions for wave functions, energy spectra and group generators in the limit $c\to \infty $ go over into the corresponding expressions for the nonrelativistic problem.
翻訳日:2023-05-22 00:29:47 公開日:2020-04-27
# モバイルデバイスを用いた近接センシングによるcovid-19の迅速かつ包括的な接触追跡

How to Return to Normalcy: Fast and Comprehensive Contact Tracing of COVID-19 through Proximity Sensing Using Mobile Devices ( http://arxiv.org/abs/2004.12576v1 )

ライセンス: Link先を確認
Ye Xia and Gwendolyn Lee(参考訳) 携帯端末を用いた近接検知に基づく接触追跡戦略について概説する。 理想的なシステムがどのようなもので、何ができるかを議論する。 十分に広く採用されれば、このような接触追跡戦略は、COVID-19を完全にコントロールし、ソーシャルディスタンシングの必要性を解消し、社会全体を正常に戻すことができる。 また,スマートフォンのbluetooth低エネルギー化など,次世代の近接検知技術が直面する課題をいくつか検討し,中間的・長期的解決を考察する。 私たちの主な貢献は、このような接触追跡戦略が、完全に正常な状態に戻るという目標を達成する可能性が高い理由を説明できることです。 確率論的モデルを用いることで、その目標を達成するために普遍的な適用は必要ないことを示し、例外の余地はあるが、例えば、病気のパラメータによっては9,5\%以上の適用率が必要である。 軽度の症例を早期に検出するために、病気の監視により多くの警戒を払っているため、この数字は約90\%まで下がる可能性がある。 結果は、必要な採用率に達し、追跡範囲が病気のコントロールに関係するほど広くなるように、州または連邦政府レベルで公的当局が主導するデプロイメントの取り組みを要求する。

We outline a contact-tracing strategy based on proximity sensing using mobile devices. We discuss what an ideal system should look like and what it can do. We show that, when adopted sufficiently broadly, such a contact-tracing strategy can bring COVID-19 under complete control, end the need of social distancing, and return the society to full normalcy. We also review some of the challenges faced by the current generation of proximity-sensing technologies, including Bluetooth Low Energy used by phones, and consider both interim and longer-term solutions. Our main contribution is that we reason through why such a contact-tracing strategy is likely to achieve the stated goal of returning to full normalcy. Using probabilistic models, we show that universal adoption is not necessary to achieve the stated goal, thus there is some room for exceptions; however, the adoption rate needs to be very high, e.g., above $95\%$ depending on the disease parameters. With more vigilance in disease surveillance to detect mild cases earlier, the number may be brought down to about $90\%$. The results call for deployment effort to be led by public authorities at the state or federal level so that the required adoption rate can be reached and the tracing coverage is wide enough to be relevant for disease control.
翻訳日:2023-05-22 00:28:27 公開日:2020-04-27
# マルチレジデントスマートホームにおけるIoTサービスのための競合検出フレームワーク

A Conflict Detection Framework for IoT Services in Multi-resident Smart Homes ( http://arxiv.org/abs/2004.12702v1 )

ライセンス: Link先を確認
Dipankar Chaki, Athman Bouguettaya and Sajib Mistry(参考訳) マルチレジデントスマートホームにおけるIoTサービス間の競合を検出する新しいフレームワークを提案する。 IoTサービスの機能的および非機能的性質を考慮した,新たなIoTコンフリクトモデルが提案されている。 我々は、正式に異なる種類の対立を表す矛盾オントロジーを設計する。 知識駆動型アプローチとデータ駆動型アプローチを組み合わせたハイブリッド競合検出アルゴリズムを提案する。 実世界のデータセットにおける実験結果は,提案手法の有効性を示す。

We propose a novel framework to detect conflicts among IoT services in a multi-resident smart home. A novel IoT conflict model is proposed considering the functional and non-functional properties of IoT services. We design a conflict ontology that formally represents different types of conflicts. A hybrid conflict detection algorithm is proposed by combining both knowledge-driven and data-driven approaches. Experimental results on real-world datasets show the efficiency of the proposed approach.
翻訳日:2023-05-22 00:21:50 公開日:2020-04-27
# 最小長空間における厳密連続性方程式

Exact continuity equation in a space with minimal length ( http://arxiv.org/abs/2004.12690v1 )

ライセンス: Link先を確認
H. P. Laba, V. M. Tkachuk(参考訳) 任意の変形代数を持つ空間における連続性方程式とフロー確率密度の正確な式を導出し、最小長に導く。 座標表現では、流れ確率密度は、運動量表現が変形した運動エネルギーによって決定される完全閉形式にキャストできる変形のパラメータ上の無限級数として表される。 流れ確率密度を平面波と2つの平面波の重畳に対して明示的に算出する。

We derive continuity equation and exact expression for flow probability density in a space with arbitrary deformed algebra leading to minimal length. In coordinate representation the flow probability density is presented as infinite series over parameter of deformation which in momentum representation can be casted into exact closed form determined by deformed kinetic energy. The flow probability density is calculated explicitly for plane wave and for superposition of two plane waves.
翻訳日:2023-05-22 00:21:45 公開日:2020-04-27
# 絡み合い理論の観点から見た量子不和合性

Quantum incompatibility from the viewpoint of entanglement theory ( http://arxiv.org/abs/2004.12687v1 )

ライセンス: Link先を確認
Teiko Heinosaari(参考訳) 本稿では,量子不整合と絡み合いの類似性について論じる。 これは、2019年6月にヨークで開催されたPaul BuschのMathematical Foundations of Quantum Mechanicsで発表された私の講演の拡張版です。

In this essay I discuss certain analogies between quantum incompatibility and entanglement. It is an expanded version of my talk presented at Mathematical Foundations of Quantum Mechanics in memoriam Paul Busch, held in York in June 2019.
翻訳日:2023-05-22 00:21:38 公開日:2020-04-27
# 連続時間量子ウォークによる空間探索の最適性について

On the optimality of spatial search by continuous-time quantum walk ( http://arxiv.org/abs/2004.12686v1 )

ライセンス: Link先を確認
Shantanav Chakraborty, Leonardo Novo, J\'er\'emie Roland(参考訳) 量子ウォークの最も重要なアルゴリズム応用の1つは、空間探索問題を解くことである。 childs and goldstone [phys. rev. a 70, 022314 (2004)]によって紹介されたこの問題に対する広く使われている量子アルゴリズムは、連続時間量子ウォークによってn$ノードのグラフ上にマークされたノードを見つける。 このアルゴリズムは、任意のノードを$o(\sqrt{n})$ timeで見つけることができる場合に最適であると言われている。 しかし、グラフが与えられたとき、アルゴリズムの最適性に関する一般的な条件は知られておらず、あるグラフに対する最適な量子探索を示す以前の研究は、インスタンス固有の分析を必要とした。 実際、グラフが最適な量子探索のために満たさなければならない必要十分条件の実証は、長年の未解決問題であった。 本研究では,この問題の解決に向けて大きな進歩を遂げる。 我々は、特定のスペクトル条件が満たされれば、この量子探索アルゴリズムの性能を予測するハミルトニアン駆動のスペクトル特性に依存する一般表現を導出する。 例えば、スペクトルギャップが$n^{-1/2}$よりもかなり大きい(正規化された)ハミルトニアンの予測は有効である。 これにより、この状態における最適量子探索に必要な十分条件を導出することができ、また、量子探索が準最適であるグラフの新しい例を提供することができる。 さらに,この解析を拡張することにより,クラスタに効率的に分割可能なグラフなど,非常に小さなスペクトルギャップを持つあるグラフに対する量子探索の最適性を示すことができる。 以上の結果から,本アルゴリズムのグラフに対する最適性を解析的に証明したすべての先行結果が,我々の一般的な結果から回収できることが示唆された。

One of the most important algorithmic applications of quantum walks is to solve spatial search problems. A widely used quantum algorithm for this problem, introduced by Childs and Goldstone [Phys. Rev. A 70, 022314 (2004)], finds a marked node on a graph of $n$ nodes via a continuous-time quantum walk. This algorithm is said to be optimal if it can find any of the nodes in $O(\sqrt{n})$ time. However, given a graph, no general conditions for the optimality of the algorithm are known and previous works demonstrating optimal quantum search for certain graphs required an instance-specific analysis. In fact, the demonstration of necessary and sufficient conditions a graph must fulfill for quantum search to be optimal has been a long-standing open problem. In this work, we make significant progress towards solving this problem. We derive general expressions, depending on the spectral properties of the Hamiltonian driving the walk, that predict the performance of this quantum search algorithm provided certain spectral conditions are fulfilled. Our predictions are valid, for example, for (normalized) Hamiltonians whose spectral gap is considerably larger than $n^{-1/2}$. This allows us to derive necessary and sufficient conditions for optimal quantum search in this regime, as well as provide new examples of graphs where quantum search is sub-optimal. In addition, by extending this analysis, we are also able to show the optimality of quantum search for certain graphs with very small spectral gaps, such as graphs that can be efficiently partitioned into clusters. Our results imply that, to the best of our knowledge, all prior results analytically demonstrating the optimality of this algorithm for specific graphs can be recovered from our general results.
翻訳日:2023-05-22 00:21:33 公開日:2020-04-27
# バンドワゴン効果のためのソーシャルレーザーモデル:コヒーレント情報波の生成

Social laser model for the Bandwagon effect: generation of coherent information waves ( http://arxiv.org/abs/2004.12669v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) 過去数年間、我々の社会は高振幅のコヒーレントな情報波にさらされることが多かった。 これらは巨大な社会エネルギーの波です。 しばしば、それらは破壊的な特性、一種の情報津波である。 しかし、人類社会におけるポジティブな改善は、社会機関の合理的な推奨に合致する意思決定の波として持ち込める。 これらの波の主な特徴は、高い振幅、コヒーレンス(それらによって生成される社会的行動の均質な特徴)、そしてそれらの生成と緩和に必要な短い時間である。 このような波はバンドワゴン効果の大規模な展示として扱われる。 この社会心理学現象は,最近開発された「it社会レーザー理論」に基づいてモデル化できることを示す。 この理論はコヒーレントな社会的行動の増幅をモデル化するために用いられる。 行動」は、大衆の抗議活動から投票やその他の集団的な決定、例えば社会的な推奨の受け入れ(しばしば無意識)まで、非常に一般的に扱われる。 本稿では, レーザー共振器の理論, 物理的対社会論に着目する。 後者については、インターネットベースのEcho-Chambersの機能を詳細に分析する。 彼らの主な目的は、量子情報場の力とコヒーレンスを増加させることである。 もちろん、バンドワゴン効果はよく知られ、社会心理学でよく研究されている。 しかし、社会レーザー理論は、量子場理論の一般形式論を用いてそれをモデル化する可能性を与える。 この論文には最小限の数学が含まれており、心理学、認知学、社会学、政治科学の研究者が読むことができる。

During the last years our society was often exposed to the coherent information waves of high amplitudes. These are waves of huge social energy. Often they are of the destructive character, a kind of information tsunami. But, they can carry as well positive improvements in the human society, as waves of decision making matching rational recommendations of societal institutes. The main distinguishing features of these waves are their high amplitude, coherence (homogeneous character of social actions generated by them), and short time needed for their generation and relaxation. Such waves can be treated as large scale exhibition of the Bandwagon effect. We show that this socio-psychic phenomenon can be modeled on the basis of the recently developed {\it social laser theory}. This theory can be used to model {\it stimulated amplification of coherent social actions}. "Actions" are treated very generally, from mass protests to votes and other collective decisions, as, e.g., acceptance (often unconscious) of some societal recommendations. In this paper, we concentrate on theory of laser resonators, physical vs. social. For the latter, we analyze in very detail functioning of the internet based Echo-Chambers. Their main purpose is increasing of the power of the quantum information field as well as its coherence. Of course, the Bandwagon effect is well known and well studied in social psychology. However, the social laser theory gives the possibility to model it by using the general formalism of quantum field theory. The paper contains minimum of mathematics and it can be readable by researchers working in psychology, cognitive, social, and political sciences; it might also be interesting for experts in information theory and artificial intelligence.
翻訳日:2023-05-22 00:20:43 公開日:2020-04-27
# 偏光選択による導波路の不完全自発的崩壊

Incomplete spontaneous decay in a waveguide caused by polarization selection ( http://arxiv.org/abs/2004.12897v1 )

ライセンス: Link先を確認
A. S. Kuraptsev and I. M. Sokolov(参考訳) 導波管内の励起原子の自発的崩壊は、真空貯水池の空間構造によって本質的に修正される。 これは量子情報科学の様々な応用の観点から特にエキサイティングである。 その結果, 原子遷移周波数が導波路の遮断周波数よりも大きく, カットオフの活力から遠く離れた条件下では, 励起状態の時間依存性は非ゼロ値に漸近的に近づくことがわかった。 発見された効果は、偏光選択規則により非退化状態である暗黒状態の出現によって説明される。 長距離双極子-双極子相互作用が重要な役割を果たす場合, 単原子の場合と二原子の場合の長方形断面を持つ単モード導波路について明らかにした。

Spontaneous decay of an excited atom in a waveguide is essentially modified by the spatial structure of vacuum reservoir. This is particularly exciting in view of a range of applications for quantum information science. We found out that spontaneous decay can be incomplete, so the time dependence of the excited state population asymptotically approaches to a nonzero value, under the conditions when the atomic transition frequency is larger than the cutoff frequency of a waveguide and far from the vicinities of the cut-offs. Discovered effect is explained by the emergence of the dark state, which is non-decaying due to polarization selection rules. It was revealed for single-mode waveguide with rectangular cross section both in single-atom case and diatomic case when the long-range dipole-dipole interaction plays a significant role.
翻訳日:2023-05-22 00:12:19 公開日:2020-04-27
# IT安全プリミティブのためのクラウド/エッジDCインターコネクトのフレキシブルエンタングルメント分布オーバーレイ

Flexible Entanglement Distribution Overlay for Cloud/Edge DC Interconnect as Seed for IT-Secure Primitives ( http://arxiv.org/abs/2004.12895v1 )

ライセンス: Link先を確認
Fabian Laudenbach, Bernhard Schrenk, Martin Achleitner, Nemanja Voki\'c, Dinka Milovan\v{c}ev, Hannes H\"ubel (AIT Austrian Institute of Technology)(参考訳) エンタングルメントと空間スイッチのスペクトル特性を利用して,クラウド・ツー・エッジおよびエッジ・ツー・エッジ量子パイプの柔軟な分布マップを実現し,セキュアなプリミティブをシードする。 動的帯域割り当てと古典制御との共存を実証する。

We leverage spectral assets of entanglement and spatial switching to realize a flexible distribution map for cloud-to-edge and edge-to-edge quantum pipes that seed IT-secure primitives. Dynamic bandwidth allocation and co-existence with classical control are demonstrated.
翻訳日:2023-05-22 00:12:04 公開日:2020-04-27
# SOI/BiCMOSマイクロリング共振器を用いた小型微分位相シフト量子受信器

Compact Differential Phase-Shift Quantum Receiver Assisted by a SOI / BiCMOS Micro-Ring Resonator ( http://arxiv.org/abs/2004.12892v1 )

ライセンス: Link先を確認
Nemanja Voki\'c, Dinka Milovan\v{c}ev, Winfried Boxleitner, Hannes H\"ubel, Bernhard Schrenk (AIT Austrian Institute of Technology)(参考訳) シリコンオン絶縁体マイクロリングによる位相選択型および無色の量子受信機を実演し、5.3kb/sセキュアキーレートで1.3%のQBERを実現する。 遅延干渉計に比べてペナルティは発生しない。 BiCMOS 3D統合は実現可能である。

We demonstrate a phase-selective and colorless quantum receiver assisted by a silicon-on-insulator microring, enabling a low 1.3% QBER at 5.3kb/s secure-key rate. No penalty incurs compared to a delay interferometer. BiCMOS 3D-integration is proven feasible.
翻訳日:2023-05-22 00:11:54 公開日:2020-04-27
# リットGPON/NG-PON2アクセスネットワークにおけるDPS-QKDの展開機会

Deployment Opportunities for DPS-QKD in the Co-Existence Regime of Lit GPON / NG-PON2 Access Networks ( http://arxiv.org/abs/2004.12889v1 )

ライセンス: Link先を確認
Nemanja Voki\'c, Dinka Milovan\v{c}ev, Bernhard Schrenk, Michael Hentschel, Hannes H\"ubel (AIT Austrian Institute of Technology)(参考訳) GPONとNG-PON2の費用対効果を実証した。 5.1e-7のセキュアビット/パルスとQBERの3.28%の動作は、13.5kmの範囲で2:16分割のPONで達成され、19の古典チャンネルでは0.52%の共存ペナルティを持つ。

We demonstrate cost-effective QKD integration for GPON and NG-PON2. Operation at 5.1e-7 secure bits/pulse and a QBER of 3.28% is accomplished for a 13.5-km reach, 2:16-split PON, with 0.52% co-existence penalty for 19 classical channels.
翻訳日:2023-05-22 00:11:47 公開日:2020-04-27
# 散逸性フォトニックモット絶縁体の絡み合いダイナミクス

Entanglement dynamics in dissipative photonic Mott insulators ( http://arxiv.org/abs/2004.12883v1 )

ライセンス: Link先を確認
Kaelan Donatella, Alberto Biella, Alexandre Le Boit\'e and Cristiano Ciuti(参考訳) フォトニックモット絶縁体における粒子損失とデフォーカスの存在下での絡み合いのダイナミクスを理論的に検討する。 キャビティ共振器の連鎖の中心部位に光子を注入または抽出した後、絡み合いが生じる2つの配置について検討する。 時間とサイト間距離の関数として, 2点還元密度行列の絡み合いネガティリティについて検討した。 その結果, 粒子の損失にもかかわらず, 量子エンタングルメント伝播は, 動力学に関わる異種準粒子, それぞれフォトニック二重粒子, ホロンに関連する伝播速度を持つ弾道的特性を示すことがわかった。 解析の結果,光子散逸は2つの構成において顕著に非対称な挙動を示し,ホロンの絡み合いの伝播はドバイロンの場合よりもはるかに劇的であった。

We theoretically investigate the entanglement dynamics in photonic Mott insulators in the presence of particle losses and dephasing. We explore two configurations where entanglement is generated following the injection or extraction of a photon in the central site of a chain of cavity resonators. We study the entanglement negativity of two-site reduced density matrices as a function of time and inter-site distance. Our findings show that in spite of particle losses the quantum entanglement propagation exhibits a ballistic character with propagation speeds related to the differerent quasiparticles that are involved in the dynamics, namely photonic doublons and holons respectively. Our analysis reveals that photon dissipation has a strikingly asymmetric behavior in the two configurations with a much more dramatic role on the holon entanglement propagation than for the doublon case.
翻訳日:2023-05-22 00:11:20 公開日:2020-04-27
# 単一原子振動子における非古典性の無条件蓄積

Unconditional accumulation of nonclassicality in a single-atom mechanical oscillator ( http://arxiv.org/abs/2004.12863v1 )

ライセンス: Link先を確認
L. Podhora, T. Pham, A. Le\v{s}und\'ak, P. Ob\v{s}il, M. \v{C}\'i\v{z}ek, O. \v{C}\'ip, P. Marek, L. Slodi\v{c}ka, R. Filip(参考訳) 単一捕捉イオンの非古典的運動のロバストな実験蓄積について報告する。 非古典性は、イオンの内部-電子準位と外部-運動準位の間の非線形結合のレーザー励起によって実装された熱フォノン数分布の決定論的不整合変調に由来する。 この非線形過程の反復的適用が観測可能な非古典性を単調に蓄積することを示す。 出力状態は、特定のフォック状態と高い重なり合いを持つフォノン数分布と、対応する負のウィグナー関数を含む可視量子非ガウス面に収束する。 結果として生じる振動子状態は、4つのフォノンまでの量子非ガウス性階層における決定論的遷移を示す。 この遷移は実験的不完全に対して非常に頑健であり、絡み合いポテンシャルが増大する。

We report on the robust experimental accumulation of nonclassicallity of motion of a single trapped ion. The nonclassicality stems from deterministic incoherent modulation of thermal phonon number distribution implemented by a laser excitation of nonlinear coupling between the ion's internal - electronic levels and external - motional states. We demonstrate that the repetitive application of this nonlinear process monotonically accumulates the observable state nonclassicality. The output states converge to a phonon number distribution with high overlap with a particular Fock state and visible quantum non-Gaussian aspects including corresponding negative Wigner function. The resulting oscillator states prove deterministic transition in the hierarchy of quantum non-Gaussianity up to four phonons. This transition is very robust against experimental imperfections and produces increasing entanglement potential.
翻訳日:2023-05-22 00:11:08 公開日:2020-04-27
# マルチプログラミング量子コンピューティングのための新しいQubitsマッピング機構

A New Qubits Mapping Mechanism for Multi-programming Quantum Computing ( http://arxiv.org/abs/2004.12854v1 )

ライセンス: Link先を確認
Lei Liu, Xinglei Dou(参考訳) 特定の量子チップの場合、マルチプログラミングは全体的なスループットとリソース利用を改善するのに役立つ。 しかし、複数のプログラムを量子チップにマッピングする以前のソリューションは、しばしばリソースの低利用率、高いエラー率、低い忠実度につながる。 本稿では,並列量子プログラムをマッピングする新しい手法を提案する。 私たちのアプローチには3つの重要な要素があります。 ひとつは community detection assisted partition (cdap) アルゴリズムで、物理的タイポロジーとエラー率の両方を考慮して並列量子プログラムの物理量子ビットを分割し、堅牢なリソースの浪費を回避する。 2つ目は、プログラム間SWAP操作によるSWAPオーバーヘッドの低減を可能にするX-SWAPスキームである。 最後に,推定忠実性に基づいて実行すべき並列量子プログラムを動的に選択し,量子コンピュータのスループットを増加させるコンパイルタスクスケジューリングフレームワークを提案する。 我々は,利用可能な量子コンピュータ IBMQ16 とシミュレーション量子チップ IBMQ20 について検討した。 我々の研究は、忠実度とSWAPのオーバーヘッドをそれぞれ12.0%と11.1%に改善した。

For a specific quantum chip, multi-programming helps to improve overall throughput and resource utilization. However, the previous solutions for mapping multiple programs onto a quantum chip often lead to resource under-utilization, high error rate and low fidelity. In this paper, we propose a new approach to map concurrent quantum programs. Our approach has three critical components. The first one is the Community Detection Assisted Partition (CDAP) algorithm, which partitions physical qubits for concurrent quantum programs by considering both physical typology and the error rates, avoiding the waste of robust resources. The second one is the X-SWAP scheme that enables inter-program SWAP operations to reduce the SWAP overheads. Finally, we propose a compilation task scheduling framework, which dynamically selects concurrent quantum programs to be executed based on estimated fidelity, increasing the throughput of the quantum computer. We evaluate our work on publicly available quantum computer IBMQ16 and a simulated quantum chip IBMQ20. Our work outperforms the previous solution on multi-programming in both fidelity and SWAP overheads by 12.0% and 11.1%, respectively.
翻訳日:2023-05-22 00:10:57 公開日:2020-04-27
# グローバル・ユニタリ・オペレーションで非ゼロ量子ディスクを持つ2つの量子状態

Any Two Qubit State Has Non Zero Quantum Discord Under Global Unitary Operations ( http://arxiv.org/abs/2004.12991v1 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Biswajit Paul and Sumana Karmakar(参考訳) 量子不協和は、絡み合いのパラダイムを超えた量子非古典性を分析する上で重要である。 一般に2量子ビットゼロのディスコド状態から量子ディスコドを表わす場合のグローバルユニタリ演算の有効性について検討した。 絶対古典量子、絶対量子古典状態などの明らかな概念の出現とは別に、より興味深いことに、絶対性によって特徴づけられる状態の集合が最大混合状態のみを含むことが観察される。 従って、他の標準メソッドがそうしなかった場合、任意の2つの量子ビット状態から非古典性を示すという観点から、グローバルユニタリ操作の有効性のピークとなる。 この文脈で有効なグローバルユニタリのセットが提供されている。 我々の観察は遠隔状態準備タスクに直接的な意味を持つ。

Quantum discord is significant in analyzing quantum nonclassicality beyond the paradigm of entanglement. Presently we have explored the effectiveness of global unitary operations in manifesting quantum discord from a general two qubit zero discord state. Apart from the emergence of some obvious concepts such as absolute classical-quantum, absolute quantum-classical states, more interestingly, it is observed that set of states characterized by absoluteness contains only maximally mixed state. Consequently this marks the peak of effectiveness of global unitary operations in purview of manifesting nonclassicality from arbitrary two qubit state when other standard methods fail to do so. Set of effective global unitaries has been provided in this context. Our observations have direct implications in remote state preparation task.
翻訳日:2023-05-22 00:04:20 公開日:2020-04-27
# 高齢者と慢性障害者のための補助技術の活用と開発に関する国際交流ワークショップ

Trans-NIH/Interagency Workshop on the Use and Development of Assistive Technology for the Aging Population and People with Chronic Disabilities ( http://arxiv.org/abs/2004.12961v1 )

ライセンス: Link先を確認
Elizabeth Mynatt, Alice Borrelli, Sara Czaja, Erin Iturriaga, Jeff Kaye, Wendy Nilsen, Dan Siewiorek, and John Stankovic(参考訳) 1946年に生まれた最初のベビーブームは2011年に65歳になり、最後のベビーブームは2029年に65歳になる。 それまでに65人を超えるアメリカの人口は7150万人と予測されている(2013年には4460万人)。 現在(2014年)の老人ホームの平均費用は1日226ドル(年間82,490ドル)で、補助生活は月3500ドル(年間42,000ドル)である。 高齢者は増加傾向にあり、コストは上昇し続けるが、90%近く(90%)は自家や地域社会で高齢化を望んでおり、病院や老人ホーム、その他の施設に留まっている。 新しい技術は、高齢者や障害者が自宅に留まるのを長くし、医療費を削減し、生活の質を高める可能性がある。 まとめると、生命の質と多様で老朽化した人口の自立を支える複雑さに対処する新しい世代の研究が必要である。 この研究には、我々がすぐに説明する共通のテーマとニーズがあるが、これらの多様なニーズを満たすために複数のパスとアプローチが必要であると認識することから始めなければならない。 一つの経路は、在宅における慢性疾患管理と既存の急性医療システムとの緊密な統合である。 もう一つの経路は、身体的、認知的、心理的障害と闘いながら、栄養と社会的つながりを改善するために総合的な家庭健康を受け入れる。 さらに別の道は、健全性、消費者技術、そして有意義なコミュニティ参加に対する基本的な障壁を取り除くことを強調している。 これらの経路は、個人、家族、医療提供者、そしてコミュニティにとって興味深い方法で交差する。 しかし、これらの経路を照らし、我々のケアと国民の15%以上の支援において測定可能な進歩を起こすためには、研究が不可欠である。

The first baby boomer born in 1946 turned 65 in 2011 and the last baby boomer will turn 65 in 2029. By then, the total U.S. population over 65 is projected to be 71.5 million (compared with 44.6 million in 2013). The current (2014) median cost of a nursing home is $226 a day ($82,490 per year), while assisted living is $3500 a month ($42,000 per year). While the elderly population continues to get larger and costs will continue to rise, nearly ninety percent (90%) of people want to grow old in their own home and community and remain out of the hospital, nursing home or other institutional setting. New technologies could potentially allow older adults and people with disabilities to remain in their homes longer, reduce health care costs and enhance the quality of life. In summary, there is a need for a new generation of research that addresses the complexity of supporting the quality of life and independence of a vast, diverse, and aging population. While there are common themes and needs in this research that we describe shortly, we must start by recognizing that there is more than one needed path and approach to meet these diverse needs. One path includes the tight integration of chronic disease management in the home with existing acute healthcare systems. Another path embraces comprehensive home health for improving nutrition and social connectedness while combating physical, cognitive and psychological ailments. Yet another path emphasizes wellness, consumer technologies and removing basic barriers to meaningful community participation. These paths will intersect in interesting ways for individuals, families, healthcare providers, and communities. However research is critically needed to illuminate these paths and to make measurable strides in our care and support for over 15% of our nation's citizens.
翻訳日:2023-05-22 00:03:51 公開日:2020-04-27
# シミュレーション・データサイエンスにおける不確かさの定量化・コミュニケーション・解釈に関するワークショップ

Workshop on Quantification, Communication, and Interpretation of Uncertainty in Simulation and Data Science ( http://arxiv.org/abs/2004.12939v1 )

ライセンス: Link先を確認
Ross Whitaker, William Thompson, James Berger, Baruch Fischhof, Michael Goodchild, Mary Hegarty, Christopher Jermaine, Kathryn S. McKinley, Alex Pang, Joanne Wendelberger(参考訳) 現代の科学、技術、政治は全て、人、測定、計算プロセスから来るデータによって浸透している。 このデータは、しばしば不完全、破損、あるいは十分な精度と精度の欠如があるが、不確実性に対する明確な考慮は、計算と意思決定パイプラインの一部であることは滅多にない。 CCC Workshop on Quantification, Communication, and Interpretation of Uncertainty in Simulation and Data Scienceはこの問題を探求し、不確実なデータの処理、現在、そして解釈方法における重大な欠点を特定した。 大規模計算シミュレーションにおける不確実性定量化、データサイエンスにおける不確実性定量化、不確実性計算のためのソフトウェアサポート、不確実性定量化と利害関係者とのコミュニケーションのより良い統合である。

Modern science, technology, and politics are all permeated by data that comes from people, measurements, or computational processes. While this data is often incomplete, corrupt, or lacking in sufficient accuracy and precision, explicit consideration of uncertainty is rarely part of the computational and decision making pipeline. The CCC Workshop on Quantification, Communication, and Interpretation of Uncertainty in Simulation and Data Science explored this problem, identifying significant shortcomings in the ways we currently process, present, and interpret uncertain data. Specific recommendations on a research agenda for the future were made in four areas: uncertainty quantification in large-scale computational simulations, uncertainty quantification in data science, software support for uncertainty computation, and better integration of uncertainty quantification and communication to stakeholders.
翻訳日:2023-05-22 00:02:55 公開日:2020-04-27
# モノのインターネットアーキテクチャ:比較研究

Internet of Things Architectures: A Comparative Study ( http://arxiv.org/abs/2004.12936v1 )

ライセンス: Link先を確認
Marcela G. dos Santos, Darine Ameyed, Fabio Petrillo, Fehmi Jaafar, Mohamed Cheriet(参考訳) 過去20年間で、iot(internet of things, モノのインターネット)は、さまざまなソリューションやテクノロジの基礎概念となり、それらすべてを列挙し記述することは不可能になった。 モノのインターネット(Internet of Things)の背景にある概念は、複雑であると同時に強力で、IoTソリューションのコンポーネントが完全に統合するためには、すべてよく考えられた構造の一部である必要があります。 そこでIoTアーキテクチャを理解することが最重要である。 IoTの広大な領域のため、IoTアーキテクチャに関するコンセンサスはひとつもありません。 異なる研究者や組織は、概念的、標準的、産業的、商業的に、様々な分類の下で異なるアーキテクチャを提案した。 IoTアーキテクチャを体系的に分析して,産業的な提案を比較して,その類似点と相違点を識別できることは不可欠だ。 本研究では,異なるIoTアーキテクチャ間の比較分析を可能にするアプローチを提案するために,7つのIoT産業アーキテクチャに関する情報を要約する。 この作品の主な貢献は2つあります i)レイヤモデルを用いたIoTアーキテクチャの解析と比較のためのアプローチ (ii)7つの産業用IoTアーキテクチャの比較研究。

Over the past two decades, the Internet of Things (IoT) has become an underlying concept to a variety of solutions and technologies that it is now hardly possible to enumerate and describe all of them. The concept behind the Internet of Things is as powerful as it is complex, and for the components in the IoT solution tomesh together perfectly, they all have to be part of a well-thought-out structure. That is where understanding the IoT architecture becomes paramount. Because of the vast domain of IoT, there is no single consensus on IoT architecture. Different researchers and organizations proposed different architectures under a variety of classifications, mainly: conceptual, standard and, industrial or commercial adoption. It is indispensable to make a systematic analysis of IoT architecture to be able to compare the industrial proposals and identify their similarities and their differences. In this work, we summarize information about seven IoT industrial architectures in order to propose an approach that makes possible a comparative analysis between different IoT architectures. This work presents two main contributions: (i) an approach for analyzing and comparing IoTarchitectures using Layer-Model; (ii) a comparative study of seven industrial IoT architectures.
翻訳日:2023-05-22 00:02:37 公開日:2020-04-27
# 再起動する方法? 公共ビルにおけるcovid-19「第2段階」の戦略定義に向けたエージェントベースシミュレーションモデル

How to restart? An agent-based simulation model towards the definition of strategies for COVID-19 "second phase" in public buildings ( http://arxiv.org/abs/2004.12927v1 )

ライセンス: Link先を確認
Marco D'Orazio, Gabriele Bernardini, Enrico Quagliarini(参考訳) 緊急事態宣言の「第2段階」での公共建築活動の再開は、第2のウイルス感染拡大を回避するための対策で支援されるべきである。 同じ利用者が連続的に存在し、空間や時間(大きなオフィスや大学など)でかなりの過密状態にある建物が、感染者との接触が長引くために重要なシナリオである。 個人のリスク軽減戦略(顔面マスク)の他に、利害関係者は、居住者の負荷制限(「ソーシャルディスタンシング」に向かう)やアクセス制御などの追加戦略を推進する必要がある。 シミュレータは測定の有効性評価を支援することができる。 この作業は、クローズドビルド環境で拡散するウイルスを推定するためのエージェントベースモデルを提供する。 このモデルは、国際保健機関が提案する近接型および露光時間に基づくルールに従って、被占領者の移動とウイルス感染を共同でシミュレートする確率的アプローチを採用する。 シナリオは、占有、緩和戦略、ウイルス関連の観点から定義することができる。 モデルは実験データに基づいて校正され("Diamond Princess" Cruise")、関連するケーススタディ(大学のキャンパスの一部)に適用される。 結果はモデル能力を示す。 ケーススタディでは、感染者の受け入れ可能な数を維持することで、初期状態ごとにウイルス感染を減少させる最重要戦略とみられている。 建物容量の制限は、FFPkマスクから乗員が使用する手術用マスク(利用者の快適性の問題を改善するため)に移行することで、そのような手段をサポートすることができる。 マスクフィルタと乗員の密度の組み合わせを許容する予備モデルを提案する。 このモデルは、他の公共の建物(観光施設、文化施設など)で繰り返されるシナリオを考慮に入れ替えることができる。

Restarting public buildings activities in the "second phase" of COVID-19 emergency should be supported by operational measures to avoid a second virus spreading. Buildings hosting the continuous presence of the same users and significant overcrowd conditions over space/time (e.g. large offices, universities) are critical scenarios due to the prolonged contact with infectors. Beside individual's risk-mitigation strategies performed (facial masks), stakeholders should promote additional strategies, i.e. occupants' load limitation (towards "social distancing") and access control. Simulators could support the measures effectiveness evaluation. This work provides an Agent-Based Model to estimate the virus spreading in the closed built environment. The model adopts a probabilistic approach to jointly simulate occupants' movement and virus transmission according to proximity-based and exposure-time-based rules proposed by international health organizations. Scenarios can be defined in terms of building occupancy, mitigation strategies and virus-related aspects. The model is calibrated on experimental data ("Diamond Princess" cruise) and then applied to a relevant case-study (a part of a university campus). Results demonstrate the model capabilities. Concerning the case-study, adopting facial masks seems to be a paramount strategy to reduce virus spreading in each initial condition, by maintaining an acceptable infected people's number. The building capacity limitation could support such measure by potentially moving from FFPk masks to surgical masks use by occupants (thus improving users' comfort issues). A preliminary model to combine acceptable mask filters-occupants' density combination is proposed. The model could be modified to consider other recurring scenarios in other public buildings (e.g. tourist facilities, cultural buildings).
翻訳日:2023-05-22 00:02:21 公開日:2020-04-27
# 凸量子資源理論のための多目的運用課題

Multi-object operational tasks for convex quantum resource theories ( http://arxiv.org/abs/2004.12898v1 )

ライセンス: Link先を確認
Andr\'es F. Ducuara and Patryk Lipka-Bartosik and Paul Skrzypczyk(参考訳) 量子資源理論の枠組みにおける最も一般的なモダス・オペランディは、単一オブジェクト内のリソースを特徴付け、活用することであり、これは「emph{single-object} 量子資源理論」と呼ばれる。 しかし、今や \emph{multi-object} 量子リソース理論において、複数の異なる種類のオブジェクトに含まれるリソースが同時に運用タスクの利益のために活用できるかどうか疑問に思う。 本稿では,そのようなマルチオブジェクト操作タスクの例として,状態測定ペアに含まれるリソースを利用するサブチャネル識別ゲームとサブチャネル排除ゲームについて紹介する。 いずれか一方が資源に富む状態測定対の場合、そのような対が任意の自由状態測定対を上回る識別と排他ゲームが存在することを証明する。 これらの結果は、状態の任意の凸リソースと、古典的後処理が自由操作である測定値の任意の凸リソースに対して成り立つ。 さらに,これらの多目的操作タスクの利点は,資源量化器によって決定されることを示す: 識別ゲームにおける状態および測定における「資源の一般ロバスト性」と、状態および排他ゲームにおける「資源の重み付け」の両方の「資源の重み付け」である。

The prevalent modus operandi within the framework of quantum resource theories has been to characterise and harness the resources within single objects, in what we can call \emph{single-object} quantum resource theories. One can wonder however, whether the resources contained within multiple different types of objects, now in a \emph{multi-object} quantum resource theory, can simultaneously be exploited for the benefit of an operational task. In this work, we introduce examples of such multi-object operational tasks in the form of subchannel discrimination and subchannel exclusion games, in which the player harnesses the resources contained within a state-measurement pair. We prove that for any state-measurement pair in which either of them is resourceful, there exist discrimination and exclusion games for which such a pair outperforms any possible free state-measurement pair. These results hold for arbitrary convex resources of states, and arbitrary convex resources of measurements for which classical post-processing is a free operation. Furthermore, we prove that the advantage in these multi-object operational tasks is determined, in a multiplicative manner, by the resource quantifiers of: \emph{generalised robustness of resource} of both state and measurement for discrimination games and \emph{weight of resource} of both state and measurement for exclusion games.
翻訳日:2023-05-22 00:01:38 公開日:2020-04-27
# 音響周波数窒化ケイ素膜の空洞非定常冷却に向けて

Towards cavity-free ground state cooling of an acoustic-frequency silicon nitride membrane ( http://arxiv.org/abs/2004.13187v1 )

ライセンス: Link先を確認
Christian M. Pluchar, Aman Agrawal, Edward Schenk, Dalziel J. Wilson(参考訳) 室内温度から5mK (3000フォノン) まで, ミリスケール40kHzのSiN膜のフィードバック冷却をミッチェルソン干渉計を用いて実証し, 光キャビティを使わずに接地状態冷却の課題について議論した。 この進歩は現在の膜技術の範囲内にあり、量子センシングや基本的な弱い力測定のための浮揚系の代替として位置づけられている。

We demonstrate feedback cooling of a millimeter-scale, 40 kHz SiN membrane from room temperature to 5 mK (3000 phonons) using a Michelson interferometer, and discuss the challenges to ground state cooling without an optical cavity. This advance appears within reach of current membrane technology, positioning it as a compelling alternative to levitated systems for quantum sensing and fundamental weak force measurements.
翻訳日:2023-05-21 23:52:56 公開日:2020-04-27
# デュアルパルス構成を用いたシリコンマイクロトラック共振器からの高スペクトル時間純度単一光子

High spectro-temporal purity single-photons from silicon micro-racetrack resonators using a dual-pulse configuration ( http://arxiv.org/abs/2004.13168v1 )

ライセンス: Link先を確認
Ben Burridge, Imad I. Faruque, John Rarity and Jorge Barreto(参考訳) 分光時間純度の高い単一光子は、量子フォトニクス技術にとって必須の資源である。 これまで報告されたシリコンフォトニックデバイスからの純度が最も高いのは、スペクトルフィルタリングなしで92%である。 従来のマイクロトラック共振器と2重ポンプパルスを用いた98.0+-0.3%の分光時空間純度を持つ単一光子を実験的に生成・観測した。

Single-photons with high spectro-temporal purity are an essential resource for quantum photonic technologies. The highest reported purity up until now from a conventional silicon photonic device is 92% without any spectral filtering. We have experimentally generated and observed single-photons with 98.0+-0.3 % spectro-temporal purity using a conventional micro racetrack resonator and an engineered dual pump pulse.
翻訳日:2023-05-21 23:52:24 公開日:2020-04-27
# 開量子系に対する形式的完全マスター方程式

A formally exact master equation for open quantum systems ( http://arxiv.org/abs/2004.13130v1 )

ライセンス: Link先を確認
Li Yu and Eric J. Heller(参考訳) 一般開量子系に対する形式的正則マスター方程式の簡潔かつ直感的な導出を、形式的正則マスター方程式に関する以前の研究で紹介された「逆」写像を用いずに提示する。 この形式主義は非マルコフ的体制に適用できる。 任意の温度でのスピンボーソン模型の2次運動方程式を導出し、非指数的デコヒーレンスと緩和を観測する。 また,Physにおける真空浴の特別な場合においても,一般的な導出をゼロ温度に制限する。 81, 042103 (2010) を参照。

We present a succinct and intuitive derivation of a formally exact master equation for general open quantum systems, without the use of an "inverse" map which was invoked in previous works on formally exact master equations. This formalism is applicable to non-Markovian regimes. We derive a second-order equation of motion for the illustrative spin-boson model at arbitrary temperatures, observing non-exponential decoherence and relaxation. Limiting our generic derivation to zero temperature, we also reproduce the result for the special case of a vacuum bath in Phys. Rev. A 81, 042103 (2010).
翻訳日:2023-05-21 23:52:17 公開日:2020-04-27
# 浴槽に結合した多体局在系の絡み合いダイナミクス

Entanglement dynamics of a many-body localized system coupled to a bath ( http://arxiv.org/abs/2004.13072v1 )

ライセンス: Link先を確認
Elisabeth Wybo, Michael Knap and Frank Pollmann(参考訳) 閉量子系における強い障害と相互作用の組み合わせは多体局在(MBL)を引き起こす。 しかし、この量子相は、系が熱環境と結合するときに安定ではない。 マルコフ環境に弱結合したシステムにおいて,MBLがいかに破壊されるかを,その絡み合いのダイナミクスに着目して検討する。 我々は、最近提案されたエンタングルメントプロキシであるR'{e}nyi negativity $R_3$を数値的に研究し、閉体における非有界対数成長を捉え、テンソルネットワークで効率的に計算できる。 また、R_3$の崩壊は、不均衡と同様に拡張指数法則に従うが、より小さい伸張指数を持つことを示す。

The combination of strong disorder and interactions in closed quantum systems can lead to many-body localization (MBL). However this quantum phase is not stable when the system is coupled to a thermal environment. We investigate how MBL is destroyed in systems that are weakly coupled to a dephasive Markovian environment by focusing on their entanglement dynamics. We numerically study the third R\'{e}nyi negativity $R_3$, a recently proposed entanglement proxy based on the negativity that captures the unbounded logarithmic growth in the closed case and that can be computed efficiently with tensor networks. We also show that the decay of $R_3$ follows a stretched exponential law, similarly to the imbalance, with however a smaller stretching exponent.
翻訳日:2023-05-21 23:51:48 公開日:2020-04-27
# ハードウェアチューニングと校正のための量子コンピュータアーキテクチャへのspectator qubitsの統合

Integration of spectator qubits into quantum computer architectures for hardware tuneup and calibration ( http://arxiv.org/abs/2004.13059v1 )

ライセンス: Link先を確認
Riddhi S. Gupta, Luke C.G. Govia and Michael J. Biercuk(参考訳) 効率的な量子コンピュータチューナップとキャリブレーションの実行は、システムの複雑さの成長に不可欠である。 本研究では,そのような機能の実現と物理ハードウェアの基盤となるアーキテクチャとの関係について検討する。 本研究では,空間的に不均質な準静的キャリブレーション誤差を検知・校正するタスクを専門とするspectator qubitsを用いて測定する(`'mapping'')という特定の課題に注目した。 本稿では, 最適2次元近似理論の処方則に従って空間的に配置する, このような観測量子ビットに対する新しいアーキテクチャ概念を提案する。 この知見は, 量子ビットキャリブレーションにおける不均一性の効率的な再構成を可能にし, 生成ばらつきや周囲磁場から生じる周波数誤差の具体例に焦点を当てている。 提案手法は, 測定特性(以下, キュービット周波数)がスムーズな場合において, 最適誤差スケーリングに近づき, 測定の不確かさの関数としてこれらの利点の限界を検証した。 より複雑な空間的変動に対して、適応測定および雑音フィルタリングのためのNMQA形式は、最適な補間技術よりも優れており、重要なことに、最適補間理論からの洞察と組み合わせて汎用プロトコルを作成することができる。

Performing efficient quantum computer tuneup and calibration is essential for growth in system complexity. In this work we explore the link between facilitating such capabilities and the underlying architecture of the physical hardware. We focus on the specific challenge of measuring (``mapping'') spatially inhomogeneous quasi-static calibration errors using spectator qubits dedicated to the task of sensing and calibration. We introduce a novel architectural concept for such spectator qubits: arranging them spatially according to prescriptions from optimal 2D approximation theory. We show that this insight allows for efficient reconstruction of inhomogeneities in qubit calibration, focusing on the specific example of frequency errors which may arise from fabrication variances or ambient magnetic fields. Our results demonstrate that optimal interpolation techniques display near optimal error-scaling in cases where the measured characteristic (here the qubit frequency) varies smoothly, and we probe the limits of these benefits as a function of measurement uncertainty. For more complex spatial variations, we demonstrate that the NMQA formalism for adaptive measurement and noise filtering outperforms optimal interpolation techniques in isolation, and crucially, can be combined with insights from optimal interpolation theory to produce a general purpose protocol.
翻訳日:2023-05-21 23:51:34 公開日:2020-04-27
# 教師なしマルチモーダルスタイルコンテンツ生成

Unsupervised multi-modal Styled Content Generation ( http://arxiv.org/abs/2001.03640v2 )

ライセンス: Link先を確認
Omry Sendik, Dani Lischinski, Daniel Cohen-Or(参考訳) 深層生成モデルの出現により、2Dと3Dの両方で大量のグラフィカルコンテンツを自動生成できるようになった。 GAN(Generative Adversarial Networks)と、Adaptive Instance Normalization (AdaIN)のようなスタイル制御機構は、この文脈で特に有効であることが証明され、最先端のStyleGANアーキテクチャが完成した。 このようなモデルは多様な分布を学習することができ、十分に大きなトレーニングセットを提供するが、トレーニングデータの分布がマルチモーダルな振る舞いを示すシナリオには適していない。 このような場合、潜在空間上の均一分布や正規分布をデータ領域内の複雑なマルチモーダル分布に変換することは困難であり、生成元はターゲット分布を適切にサンプリングできない可能性がある。 さらに、既存の教師なし生成モデルは、訓練データに通常絡まっていないにもかかわらず、他の視覚特性とは独立して生成されたサンプルのモードを制御することができない。 本稿では,マルチモーダル分布のモデル化を目的とした新しいアーキテクチャであるUMMGANについて,教師なし方式で紹介する。 styleganアーキテクチャに基づいて、ネットワークは完全に教師なしの方法で複数のモードを学習し、それらを一連の学習重みを使って組み合わせます。 このアプローチは、複数の単純分布の重ね合わせとして複素分布を効果的に近似できることを示す。 さらに、UMMGANは、モードとスタイルを効果的に切り離すことで、生成されたコンテンツに対して独立した制御を行うことができることを示す。

The emergence of deep generative models has recently enabled the automatic generation of massive amounts of graphical content, both in 2D and in 3D. Generative Adversarial Networks (GANs) and style control mechanisms, such as Adaptive Instance Normalization (AdaIN), have proved particularly effective in this context, culminating in the state-of-the-art StyleGAN architecture. While such models are able to learn diverse distributions, provided a sufficiently large training set, they are not well-suited for scenarios where the distribution of the training data exhibits a multi-modal behavior. In such cases, reshaping a uniform or normal distribution over the latent space into a complex multi-modal distribution in the data domain is challenging, and the generator might fail to sample the target distribution well. Furthermore, existing unsupervised generative models are not able to control the mode of the generated samples independently of the other visual attributes, despite the fact that they are typically disentangled in the training data. In this paper, we introduce UMMGAN, a novel architecture designed to better model multi-modal distributions, in an unsupervised fashion. Building upon the StyleGAN architecture, our network learns multiple modes, in a completely unsupervised manner, and combines them using a set of learned weights. We demonstrate that this approach is capable of effectively approximating a complex distribution as a superposition of multiple simple ones. We further show that UMMGAN effectively disentangles between modes and style, thereby providing an independent degree of control over the generated content.
翻訳日:2023-01-12 23:39:33 公開日:2020-04-27
# DYNOTEARS:時系列データによる構造学習

DYNOTEARS: Structure Learning from Time-Series Data ( http://arxiv.org/abs/2002.00498v2 )

ライセンス: Link先を確認
Roxana Pamfil, Nisara Sriwattanaworachai, Shaan Desai, Philip Pilgerstorfer, Paul Beaumont, Konstantinos Georgatzis, Bryon Aragam(参考訳) 本稿では,動的ベイズネットワークの構造学習問題を再検討し,時系列変数間の同時性(イントラスライス)と時間遅延(相互スライス)の関係を同時に推定する手法を提案する。 我々のアプローチはスコアベースであり、非循環性制約によるペナル化損失を最小限に抑える。 この問題を解決するために、非巡回性制約を滑らかな等式制約として特徴づける最近の代数的結果を活用する。 その結果、dynotearsと呼ばれるアルゴリズムは、シミュレーションデータ、特に変数数の増加に伴う高次元データにおいて、他の手法よりも優れています。 また,このアルゴリズムを,財務学と分子生物学の2つの異なる領域の実際のデータセットに適用し,結果を分析する。 動的ベイズネットワークを学習するための最先端手法と比較すると,本手法はスケーラブルで実データに正確である。 本手法の簡易な定式化と競争性能は,変数間の関係を時間をかけて学習しようとする様々な問題に適合する。

We revisit the structure learning problem for dynamic Bayesian networks and propose a method that simultaneously estimates contemporaneous (intra-slice) and time-lagged (inter-slice) relationships between variables in a time-series. Our approach is score-based, and revolves around minimizing a penalized loss subject to an acyclicity constraint. To solve this problem, we leverage a recent algebraic result characterizing the acyclicity constraint as a smooth equality constraint. The resulting algorithm, which we call DYNOTEARS, outperforms other methods on simulated data, especially in high-dimensions as the number of variables increases. We also apply this algorithm on real datasets from two different domains, finance and molecular biology, and analyze the resulting output. Compared to state-of-the-art methods for learning dynamic Bayesian networks, our method is both scalable and accurate on real data. The simple formulation and competitive performance of our method make it suitable for a variety of problems where one seeks to learn connections between variables across time.
翻訳日:2023-01-04 19:46:24 公開日:2020-04-27
# ワッサースタイン計量の分布マッチングによるニューラルネットワークの活性化の規則化

Regularizing activations in neural networks via distribution matching with the Wasserstein metric ( http://arxiv.org/abs/2002.05366v2 )

ライセンス: Link先を確認
Taejong Joo, Donggu Kang, Byunghoon Kim(参考訳) 正規化と正規化はディープニューラルネットワークのトレーニングにおいて必須の要素となり、より高速なトレーニングと一般化性能の向上に繋がる。 本稿では,標準正規分布に従う活性化を促す予測誤差関数正規化損失(PER)を提案する。 per は1次元空間に活性化を投影し、射影空間の正規化損失を計算する。 PER は射影空間における Pseudo-Huber の損失と似ているため、$L^1$ と $L^2$ の正則化損失を利用する。 さらにPERは、ユニット球から引き出された射影ベクトルによって隠れたユニット間の相互作用をキャプチャすることができる。 これによりPERは、活性化の実証的な分布と標準正規分布の間の位数1のワッサーシュタイン距離の上限を最小化する。 著者の知る限りでは、これは確率分布空間における分布マッチングを通じて活性化を正規化する最初の仕事である。 画像分類タスクと単語レベル言語モデリングタスクにおける提案手法を評価した。

Regularization and normalization have become indispensable components in training deep neural networks, resulting in faster training and improved generalization performance. We propose the projected error function regularization loss (PER) that encourages activations to follow the standard normal distribution. PER randomly projects activations onto one-dimensional space and computes the regularization loss in the projected space. PER is similar to the Pseudo-Huber loss in the projected space, thus taking advantage of both $L^1$ and $L^2$ regularization losses. Besides, PER can capture the interaction between hidden units by projection vector drawn from a unit sphere. By doing so, PER minimizes the upper bound of the Wasserstein distance of order one between an empirical distribution of activations and the standard normal distribution. To the best of the authors' knowledge, this is the first work to regularize activations via distribution matching in the probability distribution space. We evaluate the proposed method on the image classification task and the word-level language modeling task.
翻訳日:2023-01-01 09:42:45 公開日:2020-04-27
# オークションアルゴリズムによる制約付きマルチエージェントロールアウトと多次元アサインメント

Constrained Multiagent Rollout and Multidimensional Assignment with the Auction Algorithm ( http://arxiv.org/abs/2002.07407v2 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 我々は,組合せ最適化問題を含む制約付き決定論的動的プログラミングに適用可能なロールアウトアルゴリズムの拡張を考える。 このアルゴリズムはベースヒューリスティックと呼ばれる準最適ポリシーに依存している。 適切な仮定の下では、基本ヒューリスティックが実現可能な解を生成する場合、ロールアウトアルゴリズムがコスト改善特性を持つことを示す。 次に、各ステージの制御が複数のコンポーネント(エージェント毎に1つ)で構成され、コスト関数または制約によって結合されるマルチエージェント問題に焦点を当てます。 コスト改善特性は,計算要件を大幅に削減した代替実装で維持され,多数のエージェントが抱える問題に対するロールアウトが利用可能であることを示す。 この代替アルゴリズムを,空間構造と時間構造の両方を含む階層グラフ問題に適用することで実証する。 このような問題の顕著な例として,多次元代入法を基本ヒューリスティックとして2次元代入法として用いた多次元代入法を考える。 このオークションアルゴリズムは、価格を用いて、他の関連する代入問題を解くための出発点として代入問題の解を有利に利用でき、ロールアウトアルゴリズムの実行を大幅に高速化できるため、私たちの状況に特に適している。

We consider an extension of the rollout algorithm that applies to constrained deterministic dynamic programming, including challenging combinatorial optimization problems. The algorithm relies on a suboptimal policy, called base heuristic. Under suitable assumptions, we show that if the base heuristic produces a feasible solution, the rollout algorithm has a cost improvement property: it produces a feasible solution, whose cost is no worse than the base heuristic's cost. We then focus on multiagent problems, where the control at each stage consists of multiple components (one per agent), which are coupled either through the cost function or the constraints or both. We show that the cost improvement property is maintained with an alternative implementation that has greatly reduced computational requirements, and makes possible the use of rollout in problems with many agents. We demonstrate this alternative algorithm by applying it to layered graph problems that involve both a spatial and a temporal structure. We consider in some detail a prominent example of such problems: multidimensional assignment, where we use the auction algorithm for 2-dimensional assignment as a base heuristic. This auction algorithm is particularly well-suited for our context, because through the use of prices, it can advantageously use the solution of an assignment problem as a starting point for solving other related assignment problems, and this can greatly speed up the execution of the rollout algorithm.
翻訳日:2022-12-30 20:27:45 公開日:2020-04-27
# QEML(Quantum Enhanced Machine Learning): 量子コンピューティングを用いてML分類器と特徴空間を拡張

QEML (Quantum Enhanced Machine Learning): Using Quantum Computing to Enhance ML Classifiers and Feature Spaces ( http://arxiv.org/abs/2002.10453v3 )

ライセンス: Link先を確認
Siddharth Sharma(参考訳) 機械学習と量子コンピューティングは、特定のアルゴリズムのパフォーマンスと振る舞いをパラダイムシフトさせ、これまで達成できなかった結果を達成する2つの技術である。 機械学習(カーネル分類)はパターン認識の先駆的手法として広く普及しており、多くの社会的応用があることが示されている。 まだフォールトトレラントではないが、量子コンピューティングは重ね合わせや絡み合いといった量子現象を利用した全く新しい計算方法である。 Support Vector Machineのような現在の機械学習分類器は、パフォーマンスが徐々に改善されているが、カーネル関数を推定するのに計算コストがかかるような限られた機能空間のため、そのようなアルゴリズムの効率性とスケーラビリティには厳しい制限がある。 量子回路を従来のMLに統合することにより、並列化とストレージ空間の指数関数から線形への削減により既存の機械学習アルゴリズムを改善する技術である量子特徴空間を用いることで、この問題を解決することができる。 この研究はヒルベルト空間の概念を拡張し、K近傍のアルゴリズムの量子強化版を実装することで古典的な機械学習に適用する。 本稿では,量子機能空間の実装に関する数学的直観を最初に理解し,qiskit pythonライブラリとibm quantum experience platformを介して,fidelityやgroverのアルゴリズムのような量子特性とアルゴリズムをうまくシミュレートする。 本研究の主な実験は、従来のKNN分類器の分類法を模倣したノイズ変動量子回路KNN(QKNN)を構築することである。 QKNNは、ハミング距離の距離メートル法を利用して、既存のKNNを10次元乳がんデータセットで上回ることができる。

Machine learning and quantum computing are two technologies that are causing a paradigm shift in the performance and behavior of certain algorithms, achieving previously unattainable results. Machine learning (kernel classification) has become ubiquitous as the forefront method for pattern recognition and has been shown to have numerous societal applications. While not yet fault-tolerant, Quantum computing is an entirely new method of computation due to its exploitation of quantum phenomena such as superposition and entanglement. While current machine learning classifiers like the Support Vector Machine are seeing gradual improvements in performance, there are still severe limitations on the efficiency and scalability of such algorithms due to a limited feature space which makes the kernel functions computationally expensive to estimate. By integrating quantum circuits into traditional ML, we may solve this problem through the use of quantum feature space, a technique that improves existing Machine Learning algorithms through the use of parallelization and the reduction of the storage space from exponential to linear. This research expands on this concept of the Hilbert space and applies it for classical machine learning by implementing the quantum-enhanced version of the K nearest neighbors algorithm. This paper first understands the mathematical intuition for the implementation of quantum feature space and successfully simulates quantum properties and algorithms like Fidelity and Grover's Algorithm via the Qiskit python library and the IBM Quantum Experience platform. The primary experiment of this research is to build a noisy variational quantum circuit KNN (QKNN) which mimics the classification methods of a traditional KNN classifier. The QKNN utilizes the distance metric of Hamming Distance and is able to outperform the existing KNN on a 10-dimensional Breast Cancer dataset.
翻訳日:2022-12-29 19:50:37 公開日:2020-04-27
# 非凸最適化のためのモーメンタムおよびフレキシブルパラメータ再起動による近似勾配アルゴリズム

Proximal Gradient Algorithm with Momentum and Flexible Parameter Restart for Nonconvex Optimization ( http://arxiv.org/abs/2002.11582v3 )

ライセンス: Link先を確認
Yi Zhou and Zhe Wang and Kaiyi Ji and Yingbin Liang and Vahid Tarokh(参考訳) 凸最適化における現実的な収束を容易にするために, パラメータ再起動方式が提案されている。 しかし、パラメータ再起動時の加速勾配アルゴリズムの収束特性は、非凸最適化において不明瞭である。 本稿では,非凸および非スムース問題を解くためのパラメータ再スタート(apg-restart)を用いた新しい高速化近位勾配アルゴリズムを提案する。 私たちのAPG-restartは 1) 既存の多くのパラメータをカバーするフレキシブルパラメータ再起動方式を採用することができる。 2)非凸及び非滑らかな最適化における大域的サブ線形収束率;及び 3) 臨界点への収束を保証し、非凸最適化および非滑らか最適化における局所幾何のパラメータ化に依存する様々な漸近収束率を持つ。 数値実験により提案アルゴリズムの有効性が示された。

Various types of parameter restart schemes have been proposed for accelerated gradient algorithms to facilitate their practical convergence in convex optimization. However, the convergence properties of accelerated gradient algorithms under parameter restart remain obscure in nonconvex optimization. In this paper, we propose a novel accelerated proximal gradient algorithm with parameter restart (named APG-restart) for solving nonconvex and nonsmooth problems. Our APG-restart is designed to 1) allow for adopting flexible parameter restart schemes that cover many existing ones; 2) have a global sub-linear convergence rate in nonconvex and nonsmooth optimization; and 3) have guaranteed convergence to a critical point and have various types of asymptotic convergence rates depending on the parameterization of local geometry in nonconvex and nonsmooth optimization. Numerical experiments demonstrate the effectiveness of our proposed algorithm.
翻訳日:2022-12-28 15:55:34 公開日:2020-04-27
# Visual Commonsense R-CNN

Visual Commonsense R-CNN ( http://arxiv.org/abs/2002.12204v3 )

ライセンス: Link先を確認
Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun(参考訳) 本稿では,ビジュアルコモンセンス領域をベースとした畳み込みニューラルネットワーク(VC R-CNN)を用いて,キャプションやVQAといった高レベルタスクの視覚領域エンコーダとして機能する新しい特徴表現学習手法を提案する。 画像中の検出対象領域(例えば、より高速なR-CNN)のセットが、他の教師なし特徴学習方法(例えば、 word2vec)と同様に、VC R-CNNのプロキシトレーニングの目的は、領域のコンテキストオブジェクトを予測することである。 しかし、それらは根本的に異なる: VC R-CNN の予測は因果的介入 P(Y|do(X)) によって行われるが、他のものは従来の可能性 P(Y|X) を用いて行われる。 VC R-CNNが椅子のような「センスメイキング」の知識を学べる中核的な理由でもある。 我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それらを一貫したパフォーマンス向上を観察し、多くの新しい最先端を実現する。 コードと機能はhttps://github.com/Wangt-CN/VC-R-CNNで公開されている。

We present a novel unsupervised feature representation learning method, Visual Commonsense Region-based Convolutional Neural Network (VC R-CNN), to serve as an improved visual region encoder for high-level tasks such as captioning and VQA. Given a set of detected object regions in an image (e.g., using Faster R-CNN), like any other unsupervised feature learning methods (e.g., word2vec), the proxy training objective of VC R-CNN is to predict the contextual objects of a region. However, they are fundamentally different: the prediction of VC R-CNN is by using causal intervention: P(Y|do(X)), while others are by using the conventional likelihood: P(Y|X). This is also the core reason why VC R-CNN can learn "sense-making" knowledge like chair can be sat -- while not just "common" co-occurrences such as chair is likely to exist if table is observed. We extensively apply VC R-CNN features in prevailing models of three popular tasks: Image Captioning, VQA, and VCR, and observe consistent performance boosts across them, achieving many new state-of-the-arts. Code and feature are available at https://github.com/Wangt-CN/VC-R-CNN.
翻訳日:2022-12-28 09:00:13 公開日:2020-04-27
# 複数話者音声合成における品質自動推定のための音声表現の比較

Comparison of Speech Representations for Automatic Quality Estimation in Multi-Speaker Text-to-Speech Synthesis ( http://arxiv.org/abs/2002.12645v2 )

ライセンス: Link先を確認
Jennifer Williams, Joanna Rownicka, Pilar Oplustil, Simon King(参考訳) 本研究の目的は,多話者テキスト音声合成(TTS)の出力品質に異なる話者がどう寄与するかを特徴付けることである。 ヒト平均世論スコア(mos)で訓練されたニューラルネットワーク(nn)を用いて、ttsの品質を自動的に評価する。 まず、ASVSpoof 2019 Logical Access (LA) Datasetから、13の異なるTSおよび音声変換(VC)システム上でNNモデルをトレーニングし、評価する。 このタスクにおける音声表現の最適性は分かっていないため、mosnetのフレームベースの機能と合わせて8種類の表現を比較した。 我々の表現には、画像ベースのスペクトログラム機能や、T60残響時間などの異なる種類のノイズを明示的にモデル化するxベクトル埋め込みが含まれる。 我々のNNは、人間の判断と高い相関でMOSを予測する。 予測相関と誤差を報告する。 重要な発見は、TSやVCシステムに関係なく、特定の話者が達成した品質は一貫性があるように見えることだ。 提案手法は,TTSシステムを構築する上で,他の話者よりも高品質な話者がいることが広く受け入れられている。 最後に、我々の品質予測モデルが一般化されるかどうかを確認するために、LibriTTSデータに基づいてトレーニングされた別個のマルチスピーカTSシステムを用いて合成音声の品質スコアを予測し、我々のMOSリスニングテストを実施し、人間のレーティングとNN予測を比較した。

We aim to characterize how different speakers contribute to the perceived output quality of multi-speaker Text-to-Speech (TTS) synthesis. We automatically rate the quality of TTS using a neural network (NN) trained on human mean opinion score (MOS) ratings. First, we train and evaluate our NN model on 13 different TTS and voice conversion (VC) systems from the ASVSpoof 2019 Logical Access (LA) Dataset. Since it is not known how best to represent speech for this task, we compare 8 different representations alongside MOSNet frame-based features. Our representations include image-based spectrogram features and x-vector embeddings that explicitly model different types of noise such as T60 reverberation time. Our NN predicts MOS with a high correlation to human judgments. We report prediction correlation and error. A key finding is the quality achieved for certain speakers seems consistent, regardless of the TTS or VC system. It is widely accepted that some speakers give higher quality than others for building a TTS system: our method provides an automatic way to identify such speakers. Finally, to see if our quality prediction models generalize, we predict quality scores for synthetic speech using a separate multi-speaker TTS system that was trained on LibriTTS data, and conduct our own MOS listening test to compare human ratings with our NN predictions.
翻訳日:2022-12-28 01:47:20 公開日:2020-04-27
# Disrupting Deepfakes: 条件付き画像翻訳ネットワークと顔操作システムに対する敵対的攻撃

Disrupting Deepfakes: Adversarial Attacks Against Conditional Image Translation Networks and Facial Manipulation Systems ( http://arxiv.org/abs/2003.01279v3 )

ライセンス: Link先を確認
Nataniel Ruiz, Sarah Adel Bargal, Stan Sclaroff(参考訳) ディープラーニングを用いた顔修正システムはますます強力でアクセスしやすいものになりつつある。 人の顔の画像が与えられた場合、そのようなシステムは異なる表情やポーズの下で同じ人物の新しい画像を生成することができる。 毛髪の色や年齢などの対象属性を修正できるシステムもある。 この種の操作された画像とビデオはDeepfakesと呼ばれている。 悪意のあるユーザが同意なく修正画像を生成するのを防止するため、このような画像翻訳システムに対する敵攻撃を発生させる新たな問題に対処し、結果の出力画像を破壊する。 この問題をディープフェイクを混乱させる問題と呼びます ほとんどの画像翻訳アーキテクチャは、属性に基づいた生成モデルである(例えば、この人の顔に笑顔を置く)。 まず,(1)異なるクラスに一般化するクラス転送可能な敵攻撃を提案する。つまり,攻撃者は条件付けクラスに関する知識を必要とせず,(2)画像翻訳ネットワークの堅牢化に向けた第一歩として,GAN(Generative Adversarial Network)に対する敵対的訓練を行う。 最後に、グレーボックスのシナリオでは、ぼやけは破壊に対する防御を成功させる。 本稿では,ぼやけた防御を避けた広帯域対向攻撃を提案する。 当社のオープンソースコードはhttps://github.com/natanielruiz/disrupting-deepfakesにあります。

Face modification systems using deep learning have become increasingly powerful and accessible. Given images of a person's face, such systems can generate new images of that same person under different expressions and poses. Some systems can also modify targeted attributes such as hair color or age. This type of manipulated images and video have been coined Deepfakes. In order to prevent a malicious user from generating modified images of a person without their consent we tackle the new problem of generating adversarial attacks against such image translation systems, which disrupt the resulting output image. We call this problem disrupting deepfakes. Most image translation architectures are generative models conditioned on an attribute (e.g. put a smile on this person's face). We are first to propose and successfully apply (1) class transferable adversarial attacks that generalize to different classes, which means that the attacker does not need to have knowledge about the conditioning class, and (2) adversarial training for generative adversarial networks (GANs) as a first step towards robust image translation networks. Finally, in gray-box scenarios, blurring can mount a successful defense against disruption. We present a spread-spectrum adversarial attack, which evades blur defenses. Our open-source code can be found at https://github.com/natanielruiz/disrupting-deepfakes.
翻訳日:2022-12-26 22:34:23 公開日:2020-04-27
# POI勧告の実践的プライバシー保護

Practical Privacy Preserving POI Recommendation ( http://arxiv.org/abs/2003.02834v2 )

ライセンス: Link先を確認
Chaochao Chen, Jun Zhou, Bingzhe Wu, Wenjin Fang, Li Wang, Yuan Qi, Xiaolin Zheng(参考訳) 近年,poi(point-of-interest)勧告が広く研究され,産業に適用されている。 しかし、既存のアプローチのほとんどは、ユーザのデータ収集に基づいて集中型モデルを構築している。 プライベートデータとモデルの両方がレコメンデーターによって保持され、重大なプライバシー上の懸念を引き起こす。 本稿では,PriRec(Privacy Preserving POI Recommendation)フレームワークを提案する。 まず、データのプライバシを保護するため、ユーザのプライベートデータ(機能やアクション)は、携帯電話やパッドなど、独自の側に保持される。 一方、ユーザのデバイスのストレージコストを削減するためには、すべてのユーザが公開データをレコメンデーションによって保持する必要がある。 これらの公開データには、(1)poiカテゴリのようなpoiのステータスのみに関連する静的データ、(2)訪問数のようなユーザー-poiアクションに依存する動的データが含まれる。 動的データはセンシティブで、我々はローカルな差分プライバシー技術を開発し、プライバシー保証付きでそのようなデータを公開します。 第二に、PriRecは線形モデルと特徴相互作用モデルからなる因子化マシン(FM)の表現に従う。 モデルプライバシを保護するために,線形モデルはユーザ側で保存され,ユーザが協調的に学習するためのセキュアな分散勾配降下プロトコルを提案する。 プライバシリスクがないため,機能インタラクションモデルは推奨者によって維持され,フェデレーション学習パラダイムにセキュアなアグリゲーション戦略を採用して学習する。 この目的のために、PriRecはユーザのプライベートな生データとモデルを自身の手で保持し、ユーザのプライバシを広範囲に保護する。 実世界のデータセットにPriRecを適用し、包括的な実験により、FMと比較すると、PriRecは同等またはそれ以上のレコメンデーション精度を達成した。

Point-of-Interest (POI) recommendation has been extensively studied and successfully applied in industry recently. However, most existing approaches build centralized models on the basis of collecting users' data. Both private data and models are held by the recommender, which causes serious privacy concerns. In this paper, we propose a novel Privacy preserving POI Recommendation (PriRec) framework. First, to protect data privacy, users' private data (features and actions) are kept on their own side, e.g., Cellphone or Pad. Meanwhile, the public data need to be accessed by all the users are kept by the recommender to reduce the storage costs of users' devices. Those public data include: (1) static data only related to the status of POI, such as POI categories, and (2) dynamic data depend on user-POI actions such as visited counts. The dynamic data could be sensitive, and we develop local differential privacy techniques to release such data to public with privacy guarantees. Second, PriRec follows the representations of Factorization Machine (FM) that consists of linear model and the feature interaction model. To protect the model privacy, the linear models are saved on users' side, and we propose a secure decentralized gradient descent protocol for users to learn it collaboratively. The feature interaction model is kept by the recommender since there is no privacy risk, and we adopt secure aggregation strategy in federated learning paradigm to learn it. To this end, PriRec keeps users' private raw data and models in users' own hands, and protects user privacy to a large extent. We apply PriRec in real-world datasets, and comprehensive experiments demonstrate that, compared with FM, PriRec achieves comparable or even better recommendation accuracy.
翻訳日:2022-12-26 06:50:42 公開日:2020-04-27
# 自動交渉理論の現状:文献レビュー

The current state of automated negotiation theory: a literature review ( http://arxiv.org/abs/2004.02614v2 )

ライセンス: Link先を確認
Sam Vente (1), Angelika Kimmig (1), Alun Preece (1), Federico Cerutti (2) ((1) Cardiff University, (2) University of Brescia)(参考訳) 自動交渉は、対立を解消し、連立で資源を再分配する効率的な方法である。 スマートギルドにおける電子商取引や電力流通などの分野における自動交渉の利用が既に増加しており、近年の対戦型モデリングの進歩はより良い結果をもたらすことが証明されている。 しかしながら、予測可能な結果の欠如やユーザの信頼など、より広範な採用への大きな障壁が残っている。 さらに、不確実性に関する推論の分野では近年多くの進歩があり、これらの問題を緩和するのに役立ちます。 この2つの分野に関する最近の調査は存在せず、特にこの2つの分野の交差点に関する調査は行われていない。

Automated negotiation can be an efficient method for resolving conflict and redistributing resources in a coalition setting. Automated negotiation has already seen increased usage in fields such as e-commerce and power distribution in smart girds, and recent advancements in opponent modelling have proven to deliver better outcomes. However, significant barriers to more widespread adoption remain, such as lack of predictable outcome over time and user trust. Additionally, there have been many recent advancements in the field of reasoning about uncertainty, which could help alleviate both those problems. As there is no recent survey on these two fields, and specifically not on their possible intersection we aim to provide such a survey here.
翻訳日:2022-12-18 07:46:48 公開日:2020-04-27
# 忠実に解釈可能なNLPシステムに向けて: 忠実性をどのように定義し評価するか?

Towards Faithfully Interpretable NLP Systems: How should we define and evaluate faithfulness? ( http://arxiv.org/abs/2004.03685v3 )

ライセンス: Link先を確認
Alon Jacovi, Yoav Goldberg(参考訳) ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。 しかし、解釈可能性とは何か、そして高品質な解釈を構成するものは何か? 本稿では,解釈可能性評価研究の現状について考察する。 我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実さの基準に焦点を合わせることを求める。 本研究は,忠実性評価に関する文献を調査し,3つの仮定を中心に現在のアプローチを整理し,コミュニティが忠実性をどのように「定義」しているかを明確に示す。 本稿では,解釈方法の評価方法について,具体的なガイドラインを提供する。 最後に、忠実性のための現在の二項定義は、忠実であると見なされる潜在的な非現実的なバーであると主張する。 我々は、よりグレードの高いものを支持するために、二元的信条の概念を捨てることを呼びかけ、より実用的なものになるだろうと信じている。

With the growing popularity of deep-learning based NLP models, comes a need for interpretable systems. But what is interpretability, and what constitutes a high-quality interpretation? In this opinion piece we reflect on the current state of interpretability evaluation research. We call for more clearly differentiating between different desired criteria an interpretation should satisfy, and focus on the faithfulness criteria. We survey the literature with respect to faithfulness evaluation, and arrange the current approaches around three assumptions, providing an explicit form to how faithfulness is "defined" by the community. We provide concrete guidelines on how evaluation of interpretation methods should and should not be conducted. Finally, we claim that the current binary definition for faithfulness sets a potentially unrealistic bar for being considered faithful. We call for discarding the binary notion of faithfulness in favor of a more graded one, which we believe will be of greater practical utility.
翻訳日:2022-12-15 22:53:40 公開日:2020-04-27
# 特許画像形状のサンプル間の空間関係の学習

Learning Spatial Relationships between Samples of Patent Image Shapes ( http://arxiv.org/abs/2004.05713v3 )

ライセンス: Link先を確認
Juan Castorena, Manish Bhattarai, Diane Oyen(参考訳) バイナリイメージに基づく知的性質の文書の分類と検索は、非常に難しい問題である。 図面スタイル,視点,複数画像成分の包含を含む文書職人が対象とするバイナリ画像生成機構のばらつきは,問題の複雑さを増大させる上で妥当な原因である。 本研究では,先述の変分による問題を軽減するために,深層学習(DL)の成功の一部を橋渡しするバイナリ画像に適した手法を提案する。 本手法は、2値画像から興味の形状を抽出し、非ユークリッド幾何学的ニューラルネットワークアーキテクチャを適用して形状の局所的および大域的空間的関係を学習する。 実験結果から,本手法は画像生成機構の変動にある程度不変であり,特許画像データセットベンチマークにおいて既存の手法よりも優れた結果が得られることが示された。

Binary image based classification and retrieval of documents of an intellectual nature is a very challenging problem. Variations in the binary image generation mechanisms which are subject to the document artisan designer including drawing style, view-point, inclusion of multiple image components are plausible causes for increasing the complexity of the problem. In this work, we propose a method suitable to binary images which bridges some of the successes of deep learning (DL) to alleviate the problems introduced by the aforementioned variations. The method consists on extracting the shape of interest from the binary image and applying a non-Euclidean geometric neural-net architecture to learn the local and global spatial relationships of the shape. Empirical results show that our method is in some sense invariant to the image generation mechanism variations and achieves results outperforming existing methods in a patent image dataset benchmark.
翻訳日:2022-12-14 05:32:02 公開日:2020-04-27
# GEVO:進化計算を用いたGPUコードの最適化

GEVO: GPU Code Optimization using Evolutionary Computation ( http://arxiv.org/abs/2004.08140v2 )

ライセンス: Link先を確認
Jhe-Yu Liou, Xiaodong Wang, Stephanie Forrest, Carole-Jean Wu(参考訳) GPUは、機械学習とハイパフォーマンスコンピューティングにおける革命の重要な実現要因であり、大規模な計算を加速するデファクトコプロセッサとして機能する。 プログラミングスタックとツールのサポートが成熟するにつれ、gpuは基盤となるアーキテクチャに関する詳細な知識がなく、gpuの計算能力を完全に活用できないプログラマにもアクセス可能になった。 GEVO(Gpu Optimization using EVOlutionary Computing)は、LLVM表現で最適化の機会を自動的に発見し、GPUカーネルのパフォーマンスをチューニングするためのツールである。 GEVOは、LLVM-IRにコンパイルされたGPUコードの編集を見つけるために人口ベースの検索を使用し、必要な機能を維持しながら、所望の基準でのパフォーマンスを改善する。 GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善することを実証した。 rodiniaベンチマークでは、gevoはgpuカーネルランタイムのパフォーマンスを平均49.48%改善し、完全なコンパイラ最適化ベースラインよりも412%向上した。 カーネル出力精度が1%のエラーに耐えるために緩和された場合、GEVOは平均51.08%でベースラインバージョンを上回るカーネル変種を見つけることができる。 機械学習のワークロードでは、GEVOはMNISTの手書き文字認識(3.24X)とa9aの収入予測(2.93X)データセットでSVMのカーネル性能を向上し、モデルの精度を損なわない。 GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。

GPUs are a key enabler of the revolution in machine learning and high performance computing, functioning as de facto co-processors to accelerate large-scale computation. As the programming stack and tool support have matured, GPUs have also become accessible to programmers, who may lack detailed knowledge of the underlying architecture and fail to fully leverage the GPU's computation power. GEVO (Gpu optimization using EVOlutionary computation) is a tool for automatically discovering optimization opportunities and tuning the performance of GPU kernels in the LLVM representation. GEVO uses population-based search to find edits to GPU code compiled to LLVM-IR and improves performance on desired criteria while retaining required functionality. We demonstrate that GEVO improves the execution time of the GPU programs in the Rodinia benchmark suite and the machine learning models, SVM and ResNet18, on NVIDIA Tesla P100. For the Rodinia benchmarks, GEVO improves GPU kernel runtime performance by an average of 49.48% and by as much as 412% over the fully compiler-optimized baseline. If kernel output accuracy is relaxed to tolerate up to 1% error, GEVO can find kernel variants that outperform the baseline version by an average of 51.08%. For the machine learning workloads, GEVO achieves kernel performance improvement for SVM on the MNIST handwriting recognition (3.24X) and the a9a income prediction (2.93X) datasets with no loss of model accuracy. GEVO achieves 1.79X kernel performance improvement on image classification using ResNet18/CIFAR-10, with less than 1% model accuracy reduction.
翻訳日:2022-12-12 12:48:18 公開日:2020-04-27
# 神経odeにおける正規化の理解に向けて

Towards Understanding Normalization in Neural ODEs ( http://arxiv.org/abs/2004.09222v2 )

ライセンス: Link先を確認
Julia Gusak, Larisa Markeeva, Talgat Daulbaev, Alexandr Katrutsa, Andrzej Cichocki, Ivan Oseledets(参考訳) 正規化は深層学習において重要かつ大きく研究された手法である。 しかし、通常の微分方程式に基づくネットワーク(ニューラルODE)に対するその役割はいまだに理解されていない。 本稿では,様々な正規化手法がニューラルodeの性能に与える影響について検討する。 特に,cifar-10分類タスクでは93%の精度が達成可能であり,我々の知る限りでは,この問題でテストされた神経odeにおいて,最も高い精度が報告されている。

Normalization is an important and vastly investigated technique in deep learning. However, its role for Ordinary Differential Equation based networks (neural ODEs) is still poorly understood. This paper investigates how different normalization techniques affect the performance of neural ODEs. Particularly, we show that it is possible to achieve 93% accuracy in the CIFAR-10 classification task, and to the best of our knowledge, this is the highest reported accuracy among neural ODEs tested on this problem.
翻訳日:2022-12-11 17:43:15 公開日:2020-04-27
# 実時間ユニバーサルフォトリアリスティックスタイル転送のための共同バイラテラル学習

Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer ( http://arxiv.org/abs/2004.10955v2 )

ライセンス: Link先を確認
Xide Xia, Meng Zhang, Tianfan Xue, Zheng Sun, Hui Fang, Brian Kulis, and Jiawen Chen(参考訳) フォトリアリスティックなスタイル転送(photorealistic style transfer)は、画像の芸術的なスタイルをコンテンツターゲットに転送し、カメラで撮影される結果を生成するタスクである。 ディープニューラルネットワークに基づく最近のアプローチは、印象的な結果を生み出すが、実用的な解像度で実行するには遅すぎるか、あるいは不利なアーティファクトを含むかのどちらかだ。 本稿では,フォトリアリスティックなスタイル転送を高速かつ本質的に生成するエンド・ツー・エンドなモデルを提案する。 私たちのアプローチの核心は、光リアリズム制約に自動的に従う、エッジアウェアアフィン変換を学習するフィードフォワードニューラルネットワークです。 多様なイメージセットとさまざまなスタイルでトレーニングすると、任意の入力イメージにロバストにスタイル転送を適用することができます。 現状と比較すると,この手法は視覚的に優れた結果をもたらし,3桁の高速化を実現し,携帯電話の4kでのリアルタイムパフォーマンスを実現している。 本手法をアブレーションとユーザスタディで検証する。

Photorealistic style transfer is the task of transferring the artistic style of an image onto a content target, producing a result that is plausibly taken with a camera. Recent approaches, based on deep neural networks, produce impressive results but are either too slow to run at practical resolutions, or still contain objectionable artifacts. We propose a new end-to-end model for photorealistic style transfer that is both fast and inherently generates photorealistic results. The core of our approach is a feed-forward neural network that learns local edge-aware affine transforms that automatically obey the photorealism constraint. When trained on a diverse set of images and a variety of styles, our model can robustly apply style transfer to an arbitrary pair of input images. Compared to the state of the art, our method produces visually superior results and is three orders of magnitude faster, enabling real-time performance at 4K on a mobile phone. We validate our method with ablation and user studies.
翻訳日:2022-12-10 09:48:06 公開日:2020-04-27
# 音楽音声シンセサイザーとしてのニューラルネットワークの自動エンコード

Autoencoding Neural Networks as Musical Audio Synthesizers ( http://arxiv.org/abs/2004.13172v1 )

ライセンス: Link先を確認
Joseph Colonel and Christopher Curro and Sam Keene(参考訳) 自動符号化ニューラルネットワークを用いた音声合成手法を提案する。 オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。 オートエンコーダはその最小の隠れ層を活性化してスペクトログラムを生成し、リアルタイム位相勾配ヒープ積分を用いて位相応答を算出する。 逆短時間フーリエ変換を取ると音声信号が生成される。 我々のアルゴリズムは、現在の最先端の音声生成機械学習アルゴリズムと比較して軽量である。 設計プロセスの概要、メトリクスの作成、およびモデルのオープンソースPython実装の詳細について述べる。

A method for musical audio synthesis using autoencoding neural networks is proposed. The autoencoder is trained to compress and reconstruct magnitude short-time Fourier transform frames. The autoencoder produces a spectrogram by activating its smallest hidden layer, and a phase response is calculated using real-time phase gradient heap integration. Taking an inverse short-time Fourier transform produces the audio signal. Our algorithm is light-weight when compared to current state-of-the-art audio-producing machine learning algorithms. We outline our design process, produce metrics, and detail an open-source Python implementation of our model.
翻訳日:2022-12-09 06:18:11 公開日:2020-04-27
# 機械学習のためのユニカーネルのダークサイド

The Dark Side of Unikernels for Machine Learning ( http://arxiv.org/abs/2004.13081v1 )

ライセンス: Link先を確認
Matthew Leon(参考訳) 本稿では、機械学習推論アプリケーションのデプロイ方法としてユニカーネルの欠点を分析し、この分野における今後の作業に関する洞察と分析を提供する。 本稿では,より人間工学的な構築プロセスを実現するとともに,ユニカーネルのセキュリティとパフォーマンス上のメリットを生かして,ユニカーネル内の依存ライブラリの管理を可能にするツールを提案する。

This paper analyzes the shortcomings of unikernels as a method of deployment for machine learning inferencing applications as well as provides insights and analysis on future work in this space. The findings of this paper advocate for a tool to enable management of dependent libraries in a unikernel to enable a more ergonomic build process as well as take advantage of the inherent security and performance benefits of unikernels.
翻訳日:2022-12-09 06:16:13 公開日:2020-04-27
# 確率的勾配降下における勾配の分散に及ぼすミニバッチサイズの影響

The Impact of the Mini-batch Size on the Variance of Gradients in Stochastic Gradient Descent ( http://arxiv.org/abs/2004.13146v1 )

ライセンス: Link先を確認
Xin Qian, Diego Klabjan(参考訳) ミニバッチ確率勾配勾配(SGD)アルゴリズムは、機械学習モデル、特にディープラーニングモデルのトレーニングに広く用いられている。 本研究は,線形回帰と2層線形ネットワークによるsgdダイナミクスについて,勾配の分散に着目し,より深い線形ネットワークへ容易に拡張できる,この性質の最初の研究である。 線形回帰の場合、各反復において勾配のノルムがミニバッチサイズ$b$の減少関数であり、従って確率勾配推定器の分散は$b$の減少関数であることを示す。 L_2$損失の深いニューラルネットワークの場合、勾配の分散は1/b$の多項式であることが示される。 その結果、より小さいバッチサイズで損失関数の値が小さくなるという重要な直感が、研究者の間でよく信じられている。 この証明技術は確率的勾配推定器と初期重み付けの関係を示しており、sgdのダイナミクスのさらなる研究に有用である。 さまざまなデータセットや一般的に使用されているディープネットワーク構造について、実験的に結果にさらなる洞察を提供する。

The mini-batch stochastic gradient descent (SGD) algorithm is widely used in training machine learning models, in particular deep learning models. We study SGD dynamics under linear regression and two-layer linear networks, with an easy extension to deeper linear networks, by focusing on the variance of the gradients, which is the first study of this nature. In the linear regression case, we show that in each iteration the norm of the gradient is a decreasing function of the mini-batch size $b$ and thus the variance of the stochastic gradient estimator is a decreasing function of $b$. For deep neural networks with $L_2$ loss we show that the variance of the gradient is a polynomial in $1/b$. The results back the important intuition that smaller batch sizes yield lower loss function values which is a common believe among the researchers. The proof techniques exhibit a relationship between stochastic gradient estimators and initial weights, which is useful for further research on the dynamics of SGD. We empirically provide further insights to our results on various datasets and commonly used deep network structures.
翻訳日:2022-12-09 06:16:07 公開日:2020-04-27
# シングルショット6Dオブジェクトポス推定

Single Shot 6D Object Pose Estimation ( http://arxiv.org/abs/2004.12729v1 )

ライセンス: Link先を確認
Kilian Kleeberger and Marco F. Huber(参考訳) 本稿では,深度画像に基づく剛体物体の6次元ポーズ推定のための新しい単発撮影手法を提案する。 この目的のために、完全畳み込みニューラルネットワークを用いて、3次元入力データを空間的離散化し、得られたボリューム要素に対して局所的に解く回帰タスクとしてポーズ推定を行う。 gpu上の65fpsのobject pose network(op-net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6dポーズを同時に推定します。 提案手法では,手動で6次元ポーズアノテートされた実世界のデータセットや実世界への転送は不要である。 提案手法は,公開ベンチマークデータセット上で評価され,最先端の手法が著しく優れていることを示すことができる。

In this paper, we introduce a novel single shot approach for 6D object pose estimation of rigid objects based on depth images. For this purpose, a fully convolutional neural network is employed, where the 3D input data is spatially discretized and pose estimation is considered as a regression task that is solved locally on the resulting volume elements. With 65 fps on a GPU, our Object Pose Network (OP-Net) is extremely fast, is optimized end-to-end, and estimates the 6D pose of multiple objects in the image simultaneously. Our approach does not require manually 6D pose-annotated real-world datasets and transfers to the real world, although being entirely trained on synthetic data. The proposed method is evaluated on public benchmark datasets, where we can demonstrate that state-of-the-art methods are significantly outperformed.
翻訳日:2022-12-09 06:15:10 公開日:2020-04-27
# 生成変分オートエンコーダによる教師なし実画像超解法

Unsupervised Real Image Super-Resolution via Generative Variational AutoEncoder ( http://arxiv.org/abs/2004.12811v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Wan-Chi Siu, Li-Wen Wang, Chu-Tak Li, Marie-Paule Cani, Yui-Lam Chan(参考訳) ディープラーニングの恩恵を受けたイメージスーパーレゾリューションは、コンピュータビジョンで最も発展している研究分野の1つだ。 判別器の使用の有無に応じて、深い畳み込みニューラルネットワークは、高い忠実度または知覚品質のイメージを提供することができる。 実生活における地上真実画像の欠如により、人々は忠実度の高いぼやけた画像よりも忠実度の低い写真実写画像を好む。 本稿では,古典的例に基づく画像超解法を再考し,知覚的画像超解法のための新しい生成モデルを提案する。 実画像に様々なノイズやアーティファクトが含まれていることを考慮し,可変オートエンコーダを用いた超解像モデルを提案する。 我々は、高濃度特徴ベクトルの参照を符号化する条件付き変分オートエンコーダを考案し、対象画像のデコードのためにデコーダに転送することができる。 判別器の助けを借りて、超高解像度サブネットワークのオーバヘッドを追加して、デノレーションされた画像をフォトリアリスティックな視覚品質でスーパーリゾルする。 我々はNTIRE2020 Real Image Super-Resolution Challengeに参加した。 実験の結果,提案手法を用いて,他の教師付き手法と比較して,清潔で快適な特徴を有する拡大画像が得られることがわかった。 また,提案手法を各種データセットの最先端手法と比較し,教師なし超解像モデルの有効性を実証した。

Benefited from the deep learning, image Super-Resolution has been one of the most developing research fields in computer vision. Depending upon whether using a discriminator or not, a deep convolutional neural network can provide an image with high fidelity or better perceptual quality. Due to the lack of ground truth images in real life, people prefer a photo-realistic image with low fidelity to a blurry image with high fidelity. In this paper, we revisit the classic example based image super-resolution approaches and come up with a novel generative model for perceptual image super-resolution. Given that real images contain various noise and artifacts, we propose a joint image denoising and super-resolution model via Variational AutoEncoder. We come up with a conditional variational autoencoder to encode the reference for dense feature vector which can then be transferred to the decoder for target image denoising. With the aid of the discriminator, an additional overhead of super-resolution subnetwork is attached to super-resolve the denoised image with photo-realistic visual quality. We participated the NTIRE2020 Real Image Super-Resolution Challenge. Experimental results show that by using the proposed approach, we can obtain enlarged images with clean and pleasant features compared to other supervised methods. We also compared our approach with state-of-the-art methods on various datasets to demonstrate the efficiency of our proposed unsupervised super-resolution model.
翻訳日:2022-12-09 06:14:55 公開日:2020-04-27
# 強化学習によるフォトニック貯水池計算における適応モデル選択

Adaptive model selection in photonic reservoir computing by reinforcement learning ( http://arxiv.org/abs/2004.12575v1 )

ライセンス: Link先を確認
Kazutaka Kanno, Makoto Naruse and Atsushi Uchida(参考訳) フォトニック貯水池コンピューティングは、ノイマン計算の先進的な技術である。 フォトニック貯水池計算は、貯水池のトレーニングデータセットと特性が一致する環境において優れた性能を提供するが、これらの特性がトレーニングフェーズで使用される元の知識から逸脱した場合、性能は著しく低下する。 本稿では,強化学習を用いたフォトニック貯水池計算における適応モデル選択手法を提案する。 このスキームでは、時間とともに変化する異なる動的ソースモデルによって時間波形が生成される。 本システムは,フォトニック貯水池計算と強化学習を用いた時系列予測作業において,最適な情報源モデルを自律的に同定する。 そこで本研究では,情報源モデルの出力重みを2種類用意し,予測誤差と報酬の相関関係を持つ強化学習を用いて,適切なモデルを適応的に選択する。 我々は、原信号が時間的に混合され、元々は2つの異なる力学系モデルによって生成され、同時に信号が同一モデルから混合されているがパラメータ値が異なる場合、適応モデル選択に成功している。 本研究は、フォトニック人工知能における自律的行動の道筋を解明し、頻繁な環境変化を期待する負荷予測と多目的制御の新しい応用につながる可能性がある。

Photonic reservoir computing is an emergent technology toward beyond-Neumann computing. Although photonic reservoir computing provides superior performance in environments whose characteristics are coincident with the training datasets for the reservoir, the performance is significantly degraded if these characteristics deviate from the original knowledge used in the training phase. Here, we propose a scheme of adaptive model selection in photonic reservoir computing using reinforcement learning. In this scheme, a temporal waveform is generated by different dynamic source models that change over time. The system autonomously identifies the best source model for the task of time series prediction using photonic reservoir computing and reinforcement learning. We prepare two types of output weights for the source models, and the system adaptively selected the correct model using reinforcement learning, where the prediction errors are associated with rewards. We succeed in adaptive model selection when the source signal is temporally mixed, having originally been generated by two different dynamic system models, as well as when the signal is a mixture from the same model but with different parameter values. This study paves the way for autonomous behavior in photonic artificial intelligence and could lead to new applications in load forecasting and multi-objective control, where frequent environment changes are expected.
翻訳日:2022-12-09 06:14:07 公開日:2020-04-27
# イジングシステムの制限ボルツマンマシンモデルの精度

The Accuracy of Restricted Boltzmann Machine Models of Ising Systems ( http://arxiv.org/abs/2004.12867v1 )

ライセンス: Link先を確認
David Yevick, Roger Melko(参考訳) 制限ボルツマンマシン(RBM)は物理システムをモデル化するための一般的なフレームワークを提供するが、その振る舞いは学習率、隠れノードの数、しきい値関数の形式などハイパーパラメータに依存する。 本稿では,これらのパラメータがイジングスピン系計算に与える影響について詳細に検討する。 比熱などの統計量の精度とエネルギーと磁化の連成分布の精度との間にはトレードオフがある。 したがって、RBMの最適構造は、適用される物理的問題に本質的に依存する。

Restricted Boltzmann machine (RBM) provide a general framework for modeling physical systems, but their behavior is dependent on hyperparameters such as the learning rate, the number of hidden nodes and the form of the threshold function. This article accordingly examines in detail the influence of these parameters on Ising spin system calculations. A tradeoff is identified between the accuracy of statistical quantities such as the specific heat and that of the joint distribution of energy and magnetization. The optimal structure of the RBM therefore depends intrinsically on the physical problem to which it is applied.
翻訳日:2022-12-09 06:13:37 公開日:2020-04-27
# Oracleによる効率的な量子トラッキング

Efficient Quantile Tracking Using an Oracle ( http://arxiv.org/abs/2004.12588v1 )

ライセンス: Link先を確認
Hugo L. Hammer, Anis Yazidi, Michael A. Riegler and H{\aa}vard Rue(参考訳) インクリメンタル量子推定器では、ステップサイズや他のチューニングパラメータを慎重に設定する必要がある。 しかし、これらの価値をどのようにオンラインに設定するかにはほとんど注意が払われていない。 本稿ではこの問題に対処する2つの新しい手順を提案する。 手順の中核となる部分は、現在の追跡平均二乗誤差(MSE)を推定することである。 MSEは分散とバイアスの追跡において分解され、これらの量を推定する新規で効率的な手順が提示される。 その結果, 推定バイアスは, 量的推定値以下の観測部分と関連付けることで追跡できることがわかった。 最初の手順は、チューニングパラメータの幅広い値と典型的には約$l = 100$に対して、$l$ quantile estimatorのアンサンブルを実行する。 各イテレーションにおいて、オラクルは推定されたMSEのガイダンスによって最良の見積もりを選択する。 第2の方法は、$l = 3$の推定値のみを実行するため、チューニングパラメータの値は、実行中の推定値に調整される時間によって必要となる。 プロシージャのメモリフットプリントは8l$で、計算の複雑さは1イテレーションあたり8l$である。 実験の結果、手順は非常に効率的で、理論上の最適値に近い誤差で量子を追跡できることがわかった。 Oracleのアプローチは最高に機能するが、高い計算コストが伴う。 この手順は、ツイートの膨大なリアルタイムデータストリームに適用され、それらの実世界の適用性を証明する。

For incremental quantile estimators the step size and possibly other tuning parameters must be carefully set. However, little attention has been given on how to set these values in an online manner. In this article we suggest two novel procedures that address this issue. The core part of the procedures is to estimate the current tracking mean squared error (MSE). The MSE is decomposed in tracking variance and bias and novel and efficient procedures to estimate these quantities are presented. It is shown that estimation bias can be tracked by associating it with the portion of observations below the quantile estimates. The first procedure runs an ensemble of $L$ quantile estimators for wide range of values of the tuning parameters and typically around $L = 100$. In each iteration an oracle selects the best estimate by the guidance of the estimated MSEs. The second method only runs an ensemble of $L = 3$ estimators and thus the values of the tuning parameters need from time to time to be adjusted for the running estimators. The procedures have a low memory foot print of $8L$ and a computational complexity of $8L$ per iteration. The experiments show that the procedures are highly efficient and track quantiles with an error close to the theoretical optimum. The Oracle approach performs best, but comes with higher computational cost. The procedures were further applied to a massive real-life data stream of tweets and proofed real world applicability of them.
翻訳日:2022-12-09 06:07:51 公開日:2020-04-27
# 自閉症者に対するPoIのパーソナライズされた勧告

Personalized Recommendation of PoIs to People with Autism ( http://arxiv.org/abs/2004.12733v1 )

ライセンス: Link先を確認
Noemi Mauro, Liliana Ardissono and Federica Cena(参考訳) 自閉症スペクトラム障害(ASD)患者に対する関心のポイントの提案は、ストレスや不安を引き起こすことで自らの経験をマイニングできる慣用性感覚障害の影響を受け、システム研究を推奨するものである。 したがって、個々の好みを管理するだけでは、これらの人々に適切な推奨を与えるには不十分である。 この問題に対処するため,我々は,ユーザの慣用的嫌悪感と自身の好みを組み合わせるトップnレコメンデーションモデルを提案する。 我々は、これらの側面を適切に考慮するために異種評価基準を統合するレコメンデーションモデルの中で、ユーザ固有の互換性と関心のバランスを見つけることに興味がある。 ASDと"ニューロタイプ"の両方でモデルをテストしました。 評価結果は,両グループとも,商品の適合性,ユーザの嗜好,あるいはこれら2つの側面を一様評価モデルにより統合したレコメンダシステムにおいて,精度とランキング能力に優れていたことを示す。

The suggestion of Points of Interest to people with Autism Spectrum Disorder (ASD) challenges recommender systems research because these users' perception of places is influenced by idiosyncratic sensory aversions which can mine their experience by causing stress and anxiety. Therefore, managing individual preferences is not enough to provide these people with suitable recommendations. In order to address this issue, we propose a Top-N recommendation model that combines the user's idiosyncratic aversions with her/his preferences in a personalized way to suggest the most compatible and likable Points of Interest for her/him. We are interested in finding a user-specific balance of compatibility and interest within a recommendation model that integrates heterogeneous evaluation criteria to appropriately take these aspects into account. We tested our model on both ASD and "neurotypical" people. The evaluation results show that, on both groups, our model outperforms in accuracy and ranking capability the recommender systems based on item compatibility, on user preferences, or which integrate these two aspects by means of a uniform evaluation model.
翻訳日:2022-12-09 06:06:44 公開日:2020-04-27
# station-to-user transfer learning:tidal-regularized non-negative matrix factorizationを用いた潜在トリップシグネチャによるユーザクラスタリングの解法

Station-to-User Transfer Learning: Towards Explainable User Clustering Through Latent Trip Signatures Using Tidal-Regularized Non-Negative Matrix Factorization ( http://arxiv.org/abs/2004.12828v1 )

ライセンス: Link先を確認
Liming Zhang, Andreas Z\"ufle, Dieter Pfoser(参考訳) 都市部は、人口の生活のほぼすべての側面を捉えた、利用可能なデータの宝庫を提供する。 この研究は、モビリティデータと、それが都市のモビリティパターンの理解を改善する方法に焦点を当てている。 簡単に利用でき、少額のファラーカードデータは公共交通網で旅行をキャプチャする。 しかし,このようなデータには時間的モダリティが欠如しており,旅行の意味や駅機能,ユーザプロファイルなどを推測する作業は非常に難しい。 既存のアプローチでは、ステーションレベルの信号やユーザーレベルの信号に重点を置いているため、過度に適合し、信頼性が低く、洞察力に富んだ結果を生み出す傾向にある。 このような特徴を旅行データから適切に学習するために、駅レベルの信号から学習した集合パターンを用いてユーザレベルの学習を増強する、遅延表現による集合学習フレームワークを提案する。 このフレームワークは, 汎用的非負行列分解における時間的乗客フローパターンの形式にドメイン知識を組み込んだ, いわゆるTidal-Regularized Non- negative Matrix Factorization法を用いている。 モデル性能を評価するため,従来のRand Indexに基づくユーザ安定性試験を,教師なし学習モデルのベンチマーク指標として導入した。 ワシントンD.C.地下鉄の駅機能とユーザプロファイルの質的分析を行い,その方法が時空間都市内モビリティ探索をどのようにサポートするかを示した。

Urban areas provide us with a treasure trove of available data capturing almost every aspect of a population's life. This work focuses on mobility data and how it will help improve our understanding of urban mobility patterns. Readily available and sizable farecard data captures trips in a public transportation network. However, such data typically lacks temporal modalities and as such the task of inferring trip semantic, station function, and user profile is quite challenging. As existing approaches either focus on station-level or user-level signals, they are prone to overfitting and generate less credible and insightful results. To properly learn such characteristics from trip data, we propose a Collective Learning Framework through Latent Representation, which augments user-level learning with collective patterns learned from station-level signals. This framework uses a novel, so-called Tidal-Regularized Non-negative Matrix Factorization method, which incorporates domain knowledge in the form of temporal passenger flow patterns in generic Non-negative Matrix Factorization. To evaluate our model performance, a user stability test based on the classical Rand Index is introduced as a metric to benchmark different unsupervised learning models. We provide a qualitative analysis of the station functions and user profiles for the Washington D.C. metro and show how our method supports spatiotemporal intra-city mobility exploration.
翻訳日:2022-12-09 06:06:24 公開日:2020-04-27
# ミリ波マルチユーザMIMOシステムのための学習型ハイブリッドビームフォーミング

Learning Based Hybrid Beamforming for Millimeter Wave Multi-User MIMO Systems ( http://arxiv.org/abs/2004.12917v1 )

ライセンス: Link先を確認
Shaocheng Huang, Yu Ye, Ming Xiao(参考訳) ハイブリッドビームフォーミング(HBF)設計は、ミリ波(mmWave)マルチユーザマルチインプットマルチアウトプット(MU-MIMO)システムにおいて重要な段階である。 しかし,従来のHBF法は依然として複雑であり,チャネル状態情報の品質に強く依存している。 本稿では,ビームフォーマーの送受信を共同で最適化するextreme learning machine(elm)フレームワークを提案する。 具体的には,まず,派閥プログラミングとメジャー化最小化に基づくhbf法(fp-mm-hbf)を提案する。 そして、ビームフォーマのロバスト性を高めるために、ELMベースのHBF(ELM-HBF)フレームワークを提案する。 FP-MM-HBF と ELM-HBF はどちらも,既存の手法に比べて高いシステム和率を提供できる。 さらに、EMM-HBFは堅牢なHBF性能を提供するだけでなく、非常に短い計算時間を消費する。

Hybrid beamforming (HBF) design is a crucial stage in millimeter wave (mmWave) multi-user multi-input multi-output (MU-MIMO) systems. However, conventional HBF methods are still with high complexity and strongly rely on the quality of channel state information. We propose an extreme learning machine (ELM) framework to jointly optimize transmitting and receiving beamformers. Specifically, to provide accurate labels for training, we first propose an factional-programming and majorization-minimization based HBF method (FP-MM-HBF). Then, an ELM based HBF (ELM-HBF) framework is proposed to increase the robustness of beamformers. Both FP-MM-HBF and ELM-HBF can provide higher system sum-rate compared with existing methods. Moreover, ELM-HBF cannot only provide robust HBF performance, but also consume very short computation time.
翻訳日:2022-12-09 06:05:58 公開日:2020-04-27
# 教師なしオフポリティ強化学習による創発的実世界ロボット技術

Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2004.12974v1 )

ライセンス: Link先を確認
Archit Sharma, Michael Ahn, Sergey Levine, Vikash Kumar, Karol Hausman, Shixiang Gu(参考訳) 強化学習は、エンジニアリング作業を最小化しながらロボットスキルを学ぶための一般的なフレームワークを提供する。 しかし、ほとんどの強化学習アルゴリズムは、よく設計された報酬関数が提供されると仮定し、その報酬関数の単一の振る舞いを学ぶ。 このような報酬関数を実際に設計することは困難である。 代わりに、報酬機能なしで多様なスキルを習得し、それらのスキルを下流タスクに再利用する効率的な強化学習方法を開発することができるか? 本稿では,最近提案された教師なしスキル発見アルゴリズムを,実世界で教師なし強化学習を行うのに適した効率的なオフポリシー法に拡張できることを実証する。 まず,提案手法により学習効率が大幅に向上し,無報酬実世界のトレーニングが実現可能であることを示す。 次に,シミュレーション環境を超えて,実ハードウェア上でのアルゴリズムの評価を行う。 四足歩行では、様々な歩行と異なる方向の移動スキルが報酬や実演なしで現れるのが観察できる。 また、学習スキルは、追加のトレーニングなしに、ゴール指向ナビゲーションのためのモデル予測制御を用いて構成できることを実証する。

Reinforcement learning provides a general framework for learning robotic skills while minimizing engineering effort. However, most reinforcement learning algorithms assume that a well-designed reward function is provided, and learn a single behavior for that single reward function. Such reward functions can be difficult to design in practice. Can we instead develop efficient reinforcement learning methods that acquire diverse skills without any reward function, and then repurpose these skills for downstream tasks? In this paper, we demonstrate that a recently proposed unsupervised skill discovery algorithm can be extended into an efficient off-policy method, making it suitable for performing unsupervised reinforcement learning in the real world. Firstly, we show that our proposed algorithm provides substantial improvement in learning efficiency, making reward-free real-world training feasible. Secondly, we move beyond the simulation environments and evaluate the algorithm on real physical hardware. On quadrupeds, we observe that locomotion skills with diverse gaits and different orientations emerge without any rewards or demonstrations. We also demonstrate that the learned skills can be composed using model predictive control for goal-oriented navigation, without any additional training.
翻訳日:2022-12-09 06:05:44 公開日:2020-04-27
# ビッグデータ分析のための統合プラットフォームを目指して

Towards an Integrated Platform for Big Data Analysis ( http://arxiv.org/abs/2004.13021v1 )

ライセンス: Link先を確認
Mahdi Bohlouli, Frank Schulz, Lefteris Angelis, David Pahor, Ivona Brandic, David Atlan, Rosemary Tate(参考訳) 世界のデータ量は急速に増加している。 毎日、膨大な量のデータが科学実験、企業、エンドユーザーの活動によって作成されます。 これらの大きなデータセットは"Big Data"とラベル付けられており、そのストレージ、処理、分析は、コンピュータサイエンス研究者やIT専門家に多くの新しい課題をもたらす。 効率的なデータ管理に加えて、半構造化データや非構造化データを扱うことと、時間クリティカルな処理要件からさらに複雑さが発生する。 これらの膨大なデータを理解するためには、高度な可視化とデータ探索技術が必要である。 これらの課題に対する革新的なアプローチは近年開発され、将来も研究と産業にとってホットなトピックとなっている。 現在のアプローチの調査により、データ管理、処理、分析、可視化において、1つまたは2つの側面だけがアドレッシングされていることが明らかになった。 本稿では,ビッグデータ解析のための統合型plat-formのビジョンについて述べる。 このアプローチの主な利点は、プラットフォーム全体のスケーラビリティの向上、アルゴリズムのパラメータ化の改善、システムリソースの効率的な利用、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの向上である。

The amount of data in the world is expanding rapidly. Every day, huge amounts of data are created by scientific experiments, companies, and end users' activities. These large data sets have been labeled as "Big Data", and their storage, processing and analysis presents a plethora of new challenges to computer science researchers and IT professionals. In addition to efficient data management, additional complexity arises from dealing with semi-structured or unstructured data, and from time critical processing requirements. In order to understand these massive amounts of data, advanced visualization and data exploration techniques are required. Innovative approaches to these challenges have been developed during recent years, and continue to be a hot topic for re-search and industry in the future. An investigation of current approaches reveals that usually only one or two aspects are ad-dressed, either in the data management, processing, analysis or visualization. This paper presents the vision of an integrated plat-form for big data analysis that combines all these aspects. Main benefits of this approach are an enhanced scalability of the whole platform, a better parameterization of algorithms, a more efficient usage of system resources, and an improved usability during the end-to-end data analysis process.
翻訳日:2022-12-09 06:05:26 公開日:2020-04-27
# FlexSA: 効率的なDNNモデルトレーニングのための柔軟なシストリックアレーアーキテクチャ

FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training ( http://arxiv.org/abs/2004.13027v1 )

ライセンス: Link先を確認
Sangkug Lym, Mattan Erez(参考訳) 現代のディープラーニングモデルは、メモリと計算コストが高い。 高速化とメモリコストの削減のために、構造化モデルプルーニングが一般的である。 大規模シストリック配列を持つ共通のトレーニングアクセラレータを用いたモデルのpruningは、非常にパフォーマンス非効率であることが分かりました。 そこで本研究では,シストリックアレーの効率を高めるために,フレキシブルなシストリックアレーアーキテクチャであるflexsaを提案する。 FlexSAはシストリックアレイ構造を動的に再構成し、複数のサブシストリック動作モードを提供する。 また、FlexSAのリソースを最大限活用するために、トレーニング作業における行列乗算および累積演算のコンパイルヒューリスティックも提案する。 提案したコンパイルヒューリスティックを用いたFlexSAは,従来のシストリックアレイを用いたトレーニングアクセラレータと比較して,最新のCNNモデルのプルーニングとトレーニングの計算資源利用を37%向上させる。 FlexSAはまた、1.7倍の省エネでオンチップデータの再利用を改善する。

Modern deep learning models have high memory and computation cost. To make them fast and memory-cost efficient, structured model pruning is commonly used. We find that pruning a model using a common training accelerator with large systolic arrays is extremely performance-inefficient. To make a systolic array efficient for pruning and training, we propose FlexSA, a flexible systolic array architecture. FlexSA dynamically reconfigures the systolic array structure and offers multiple sub-systolic operating modes, which are designed for energy- and memory bandwidth-efficient processing of tensors with different sizes and shapes. We also present a compilation heuristic for tiling matrix-multiplication-and-accumulation operations in a training workload to best utilize the resources of FlexSA. Based on our evaluation, FlexSA with the proposed compilation heuristic improves compute resource utilization of pruning and training modern CNN models by 37% compared to a conventional training accelerator with a large systolic array. FlexSA also improves on-chip data reuse by 1.7X saving 28% energy compared to naive systolic array splitting.
翻訳日:2022-12-09 06:05:08 公開日:2020-04-27
# ポーズ非拘束多線構造光視覚による3次元回転構造の正常断面形状の再構成

Reconstructing normal section profiles of 3D revolving structures via pose-unconstrained multi-line structured-light vision ( http://arxiv.org/abs/2004.12697v1 )

ライセンス: Link先を確認
Junhua Sun and Zhou Zhang and Jie Zhang(参考訳) 列車の車輪は3D回転する幾何学構造である。 正常断面プロファイルの再構成は, 鉄道安全コミュニティにおいて, 重要な幾何学的パラメータと車輪の摩耗を決定するための効果的なアプローチである。 既存の再建法は、通常、制限された位置とポーズで作業するセンサーを必要とし、柔軟性が悪く、視野が限られている。 本稿では,多線構造光視覚センサにより取得された複数の3次元一般断面プロファイルを用いた3次元回転構造のためのポーズ制約なし正規断面形状再構成フレームワークを提案する。 まず、3次元回転幾何構造と正規断面形状の軸を対応する点を用いて推定するモデルを構築した。 そして,モデルを反復アルゴリズムに組み込んで対応する点を最適化し,最終的に正規部プロファイルを再構成する。 3dホイールの正常断面形状を再構成する実実験を行った。 その結果,本アルゴリズムの平均精度は0.068mm,STDは0.007mmであった。 また、センサーの様々なポーズのバリエーションにも堅牢である。 提案するフレームワークとモデルは,任意の3次元ホイール型回転部品に一般化される。

The wheel of the train is a 3D revolving geometrical structure. Reconstructing the normal section profile is an effective approach to determine the critical geometric parameter and wear of the wheel in the community of railway safety. The existing reconstruction methods typically require a sensor working in a constrained position and pose, suffering poor flexibility and limited viewangle. This paper proposes a pose-unconstrained normal section profile reconstruction framework for 3D revolving structures via multiple 3D general section profiles acquired by a multi-line structured light vision sensor. First, we establish a model to estimate the axis of 3D revolving geometrical structure and the normal section profile using corresponding points. Then, we embed the model into an iterative algorithm to optimize the corresponding points and finally reconstruct the accurate normal section profile. We conducted real experiment on reconstructing the normal section profile of a 3D wheel. The results demonstrate that our algorithm reaches the mean precision of 0.068mm and good repeatability with the STD of 0.007mm. It is also robust to varying pose variations of the sensor. Our proposed framework and models are generalized to any 3D wheeltype revolving components.
翻訳日:2022-12-09 05:59:07 公開日:2020-04-27
# ビデオにおける心拍の間接的評価について

On indirect assessment of heart rate in video ( http://arxiv.org/abs/2004.12703v1 )

ライセンス: Link先を確認
Mikhail Kopeliovich, Konstantin Kalinin, Yuriy Mironenko, Mikhail Petrushan(参考訳) ビデオ中の心拍数の間接的評価の問題に対処する。 遠隔生理的信号センシング課題において,間接的な評価方法(適応ベースライン)をいくつか検討した。 特に, 平均年齢と運動強度に対する心拍数依存性の回帰モデルが, チャレンジの列車セットで得られた。 回帰モデルにおける動きと年齢の両面から、リーダーボードの上位4位に導いた。 このような適応的ベースラインアプローチの実践的価値について論じる。 このようなアプローチは医学では適用できないと考えられているが、フォトプレチスモグラフィ問題の基礎として有用である。

Problem of indirect assessment of heart rate in video is addressed. Several methods of indirect evaluations (adaptive baselines) were examined on Remote Physiological Signal Sensing challenge. Particularly, regression models of dependency of heart rate on estimated age and motion intensity were obtained on challenge's train set. Accounting both motion and age in regression model led to top-quarter position in the leaderboard. Practical value of such adaptive baseline approaches is discussed. Although such approaches are considered as non-applicable in medicine, they are valuable as baseline for the photoplethysmography problem.
翻訳日:2022-12-09 05:58:50 公開日:2020-04-27
# 物体検出における分断咬合の問題点

The Problem of Fragmented Occlusion in Object Detection ( http://arxiv.org/abs/2004.13076v1 )

ライセンス: Link先を確認
Julian Pegoraro and Roman Pflugfelder(参考訳) ディープラーニングはここ数年で大幅なパフォーマンス向上をもたらしていますが、自然環境におけるオブジェクト検出は依然として非常に難しい作業です。 ディープラーニングに基づくオブジェクト検出の基本的な問題は、トレーニングデータも推奨モデルも、分断されたオクルージョンの課題を意図していないことだ。 分断的閉塞は通常の部分的閉塞よりも困難であり、森林などの自然環境において頻繁に発生する。 フラグメンテッド・オクルージョンのモチベーションの例は、緑の国境監視において必須の葉を通しての物体検出である。 本稿では,グリーン境界の画像を用いた最先端検出器の解析を行い,フラグメンテッド・オクルージョンの問題を明示的に捉えた新しいトレーニングデータを用いてMask R-CNNを訓練することを提案する。 これらの結果から,Mask R-CNNは断片的な閉塞を示すデータに対して,新たなトレーニング戦略(他の検出器に対しても)により明らかに改善されている。

Object detection in natural environments is still a very challenging task, even though deep learning has brought a tremendous improvement in performance over the last years. A fundamental problem of object detection based on deep learning is that neither the training data nor the suggested models are intended for the challenge of fragmented occlusion. Fragmented occlusion is much more challenging than ordinary partial occlusion and occurs frequently in natural environments such as forests. A motivating example of fragmented occlusion is object detection through foliage which is an essential requirement in green border surveillance. This paper presents an analysis of state-of-the-art detectors with imagery of green borders and proposes to train Mask R-CNN on new training data which captures explicitly the problem of fragmented occlusion. The results show clear improvements of Mask R-CNN with this new training strategy (also against other detectors) for data showing slight fragmented occlusion.
翻訳日:2022-12-09 05:57:45 公開日:2020-04-27
# Graph2Plan: レイアウトグラフからフロアプラン生成を学ぶ

Graph2Plan: Learning Floorplan Generation from Layout Graphs ( http://arxiv.org/abs/2004.13204v1 )

ライセンス: Link先を確認
Ruizhen Hu, Zeyu Huang, Yuhan Tang, Oliver van Kaick, Hao Zhang, Hui Huang(参考訳) 本稿では,深層ニューラルネットワークを用いた生成モデルとループ内ユーザ設計を組み合わせた自動フロアプラン生成のための学習フレームワークを提案する。 このような制約はレイアウトグラフで表される。 学習フレームワークの中核的なコンポーネントはディープニューラルネットワークであるGraph2Planで、レイアウトグラフとビルの境界を、レイアウトとバウンダリの両方の制約を満たすフロアプランに変換する。 入力された建物の境界が与えられた場合、ユーザはデータベースから複数のフロアプランと関連するレイアウトグラフを検索するために使用される部屋数やその他のレイアウト制約を指定できる。 検索されたレイアウトグラフごとに、入力境界とともに、Graph2Planはまず対応するラスタフロアプラン画像を生成し、次に部屋を表す洗練されたボックスセットを生成する。 Graph2Planは、80Kの注釈付きフロアプランからなる大規模なデータセットであるRPLANでトレーニングされている。 このネットワークは主に、グラフニューラルネットワーク(GNN)を介してレイアウトグラフ上の畳み込み処理と、従来の画像畳み込みによるラスタフロアプラン画像の両方に基づいている。

We introduce a learning framework for automated floorplan generation which combines generative modeling using deep neural networks and user-in-the-loop designs to enable human users to provide sparse design constraints. Such constraints are represented by a layout graph. The core component of our learning framework is a deep neural network, Graph2Plan, which converts a layout graph, along with a building boundary, into a floorplan that fulfills both the layout and boundary constraints. Given an input building boundary, we allow a user to specify room counts and other layout constraints, which are used to retrieve a set of floorplans, with their associated layout graphs, from a database. For each retrieved layout graph, along with the input boundary, Graph2Plan first generates a corresponding raster floorplan image, and then a refined set of boxes representing the rooms. Graph2Plan is trained on RPLAN, a large-scale dataset consisting of 80K annotated floorplans. The network is mainly based on convolutional processing over both the layout graph, via a graph neural network (GNN), and the input building boundary, as well as the raster floorplan images, via conventional image convolution.
翻訳日:2022-12-09 05:57:16 公開日:2020-04-27
# コンピューティングの新しい時代と脳

A New Age of Computing and the Brain ( http://arxiv.org/abs/2004.12926v1 )

ライセンス: Link先を確認
Polina Golland, Jack Gallant, Greg Hager, Hanspeter Pfister, Christos Papadimitriou, Stefan Schaal, and Joshua T. Vogelstein(参考訳) コンピュータ科学と脳科学の歴史は絡み合っている。 未完の原稿 "the computer and the brain" で、フォン・ノイマンは脳を計算機械として考えることができるかどうかを議論し、自然計算と人工計算の類似点と相違点を明らかにした。 1950年の論文 in mind でチューリングは、コンピュータ装置は最終的に知能をエミュレートできると主張し、チューリングテストを提案した。 1957年、ハーバート・サイモンは、ほとんどの心理学理論がコンピュータプログラムの形をとると予言した。 1976年、デービッド・マー(david marr)は、視覚系の機能は、基礎となる物理基板に依存しない計算およびアルゴリズムレベルで抽象化され、研究できると提案した。 2014年12月、ワシントンd.c.で、compute community consortium (ccc) とnational science foundation's computer and information science and engineering directorate (nsf cise) が支援する2日間のワークショップが開催された。 特に私たちの目標は 1.脳科学とコンピューティングのインターフェースにおける研究のための概念的枠組みを明確にし、このインターフェースにおける重要な問題を特定し、CISEと脳研究者の両方をこの分野に惹きつける方法で提示する。 2. 脳研究の機会についてCISE研究コミュニティ内の研究者に情報提供し、かつ、このイニシアチブを進める上での戦略的役割を特定・説明すること。 3.脳科学とCISE研究者の新たなつながり、会話、コラボレーションを開発するため、高度に関連性があり競争的な提案、高影響の研究、影響力のある出版物に至る。

The history of computer science and brain sciences are intertwined. In his unfinished manuscript "The Computer and the Brain," von Neumann debates whether or not the brain can be thought of as a computing machine and identifies some of the similarities and differences between natural and artificial computation. Turing, in his 1950 article in Mind, argues that computing devices could ultimately emulate intelligence, leading to his proposed Turing test. Herbert Simon predicted in 1957 that most psychological theories would take the form of a computer program. In 1976, David Marr proposed that the function of the visual system could be abstracted and studied at computational and algorithmic levels that did not depend on the underlying physical substrate. In December 2014, a two-day workshop supported by the Computing Community Consortium (CCC) and the National Science Foundation's Computer and Information Science and Engineering Directorate (NSF CISE) was convened in Washington, DC, with the goal of bringing together computer scientists and brain researchers to explore these new opportunities and connections, and develop a new, modern dialogue between the two research communities. Specifically, our objectives were: 1. To articulate a conceptual framework for research at the interface of brain sciences and computing and to identify key problems in this interface, presented in a way that will attract both CISE and brain researchers into this space. 2. To inform and excite researchers within the CISE research community about brain research opportunities and to identify and explain strategic roles they can play in advancing this initiative. 3. To develop new connections, conversations and collaborations between brain sciences and CISE researchers that will lead to highly relevant and competitive proposals, high-impact research, and influential publications.
翻訳日:2022-12-09 05:56:03 公開日:2020-04-27
# オンライン製品レビューにおけるコンテキスト認識型ヘルプフルネス予測

Context-aware Helpfulness Prediction for Online Product Reviews ( http://arxiv.org/abs/2004.13078v1 )

ライセンス: Link先を確認
Iyiola E. Olatunji, Xin Li, Wai Lam(参考訳) 電子商取引サイトやオンラインショップの普及により,レビュー支援のモデル化と予測が主流となっている。 製品の機能が購入前にテストできないため、人々は製品を購入するかどうかを決めるために、さまざまな種類のユーザレビューに頼ることが多い。 しかし、品質レビューは大量のレビューの山深くに埋もれてしまうかもしれない。 したがって、レビュー品質に基づいたレビューを顧客に推奨することが重要です。 レビュー品質の直接の表示がないため、ほとんどのレビューでは'x out of y' のユーザーがレビュー品質を得るのに役立ちそうな情報を使っている。 しかし、すべてのレビューに統計学的に豊富な投票があるわけではないため、このアプローチは有用性予測を損なう。 本稿では,レビューの有用度スコアを予測するニューラル深層学習モデルを提案する。 このモデルは畳み込みニューラルネットワーク(CNN)とコンテキスト認識符号化機構に基づいており、長いシーケンスで単語間の関係を直接キャプチャすることができる。 我々は,人間の注釈付きデータセット上でのモデル検証を行い,提案手法が既存のモデルよりも有益であることを示す。

Modeling and prediction of review helpfulness has become more predominant due to proliferation of e-commerce websites and online shops. Since the functionality of a product cannot be tested before buying, people often rely on different kinds of user reviews to decide whether or not to buy a product. However, quality reviews might be buried deep in the heap of a large amount of reviews. Therefore, recommending reviews to customers based on the review quality is of the essence. Since there is no direct indication of review quality, most reviews use the information that ''X out of Y'' users found the review helpful for obtaining the review quality. However, this approach undermines helpfulness prediction because not all reviews have statistically abundant votes. In this paper, we propose a neural deep learning model that predicts the helpfulness score of a review. This model is based on convolutional neural network (CNN) and a context-aware encoding mechanism which can directly capture relationships between words irrespective of their distance in a long sequence. We validated our model on human annotated dataset and the result shows that our model significantly outperforms existing models for helpfulness prediction.
翻訳日:2022-12-09 05:49:29 公開日:2020-04-27
# モバイルデバイスにイメージをデプロイする - 品質とレイテンシの観点から

Deploying Image Deblurring across Mobile Devices: A Perspective of Quality and Latency ( http://arxiv.org/abs/2004.12599v1 )

ライセンス: Link先を確認
Cheng-Ming Chiang, Yu Tseng, Yu-Syuan Xu, Hsien-Kai Kuo, Yi-Min Tsai, Guan-Yu Chen, Koan-Sin Tan, Wei-Ting Wang, Yu-Chieh Lin, Shou-Yao Roy Tseng, Wei-Shiang Lin, Chia-Lin Yu, BY Shen, Kloze Kao, Chia-Ming Cheng, Hung-Jen Chen(参考訳) 近年,スーパーレゾリューションや画像デブラリングなど,モバイル機器における画像強調や復元が重要になっている。 しかし、ほとんどの最先端のネットワークは計算の複雑さが非常に高い。 これにより、レイテンシが許容されるモバイルデバイスへのデプロイが困難になる。 さらに、異なるモバイルデバイスにデプロイする場合、モバイルデバイス上のディープラーニングアクセラレータの違いと制限のために、レイテンシのばらつきが大きい。 本稿では,モバイル機器間の品質・レイテンシのトレードオフを改善するために,ポータブルネットワークアーキテクチャの探索を行う。 さらに,画像デブラリングタスクにおけるネットワーク最適化の有効性について述べる。 本稿では,レイテンシと画質の両方について詳細な分析を行うため,包括的な実験と比較を行う。 以上の作業を通じて、ディープラーニングアクセラレーターの高速化により、モバイルデバイスへのイメージデブロアリングアプリケーションのデプロイに成功したことを実証する。 私たちの知る限りでは、この論文はモバイルデバイス全体にわたるイメージデブラリングタスクのすべてのデプロイ問題に対処する最初の論文です。 本論文は,NTIRE 2020 Image Deblurring Challenge on smartphone Trackで優勝チームによって採用されている,実用的なデプロイメントガイドを提供する。

Recently, image enhancement and restoration have become important applications on mobile devices, such as super-resolution and image deblurring. However, most state-of-the-art networks present extremely high computational complexity. This makes them difficult to be deployed on mobile devices with acceptable latency. Moreover, when deploying to different mobile devices, there is a large latency variation due to the difference and limitation of deep learning accelerators on mobile devices. In this paper, we conduct a search of portable network architectures for better quality-latency trade-off across mobile devices. We further present the effectiveness of widely used network optimizations for image deblurring task. This paper provides comprehensive experiments and comparisons to uncover the in-depth analysis for both latency and image quality. Through all the above works, we demonstrate the successful deployment of image deblurring application on mobile devices with the acceleration of deep learning accelerators. To the best of our knowledge, this is the first paper that addresses all the deployment issues of image deblurring task across mobile devices. This paper provides practical deployment-guidelines, and is adopted by the championship-winning team in NTIRE 2020 Image Deblurring Challenge on Smartphone Track.
翻訳日:2022-12-09 05:47:51 公開日:2020-04-27
# 3Dポイントを用いた眼球連続校正

Continuous hand-eye calibration using 3D points ( http://arxiv.org/abs/2004.12611v1 )

ライセンス: Link先を確認
Bjarne Grossmann, Volker Krueger(参考訳) 近年のキャリブレーションアルゴリズムの発展は,(1)数学的アプローチの精度の向上,(2)キャリブレーション対象への依存性の低減による利用の柔軟性の向上,の2つの方向に向かって進んでいる。 しかし、これらの2つの傾向は、全体の精度がキャリブレーション対象のポーズ推定の精度に直接関係しているため、大きなオブジェクトを要求するため、柔軟性が増すとより小さいオブジェクトやノイジエ推定方法につながるため、矛盾しているように見える。 本稿では,この問題を2つのステップで解決することを目的としている。まず,手目変換のみを解決する翻訳方程式に焦点を移した,単純な閉形式解を導出する。 従来の手法に比べて精度と堅牢性が優れていることを示す。 第2に、キャリブレーション対象の向きの推定誤差の影響をはるかに少なくする翻訳方程式に基づく類似の定式化を用いて、キャリブレーション対象への依存性を1つの3Dポイントに減少させる。 さらに、第1の解から高い精度と頑健さを生かしながら、方位推定を時代遅れにし、連続的な手目校正のための多用途な手法とした。

The recent development of calibration algorithms has been driven into two major directions: (1) an increasing accuracy of mathematical approaches and (2) an increasing flexibility in usage by reducing the dependency on calibration objects. These two trends, however, seem to be contradictory since the overall accuracy is directly related to the accuracy of the pose estimation of the calibration object and therefore demanding large objects, while an increased flexibility leads to smaller objects or noisier estimation methods. The method presented in this paper aims to resolves this problem in two steps: First, we derive a simple closed-form solution with a shifted focus towards the equation of translation that only solves for the necessary hand-eye transformation. We show that it is superior in accuracy and robustness compared to traditional approaches. Second, we decrease the dependency on the calibration object to a single 3D-point by using a similar formulation based on the equation of translation which is much less affected by the estimation error of the calibration object's orientation. Moreover, it makes the estimation of the orientation obsolete while taking advantage of the higher accuracy and robustness from the first solution, resulting in a versatile method for continuous hand-eye calibration.
翻訳日:2022-12-09 05:47:37 公開日:2020-04-27
# OR-UNet:内視鏡画像における機器分割のためのロバスト残差U-Net最適化

OR-UNet: an Optimized Robust Residual U-Net for Instrument Segmentation in Endoscopic Images ( http://arxiv.org/abs/2004.12668v1 )

ライセンス: Link先を確認
Fabian Isensee and Klaus H. Maier-Hein(参考訳) 内視鏡画像のセグメンテーションは、コンピュータとロボティクスによる介入に不可欠な処理ステップである。 Robust-MISチャレンジは、これまでで最大の注釈付き内視鏡画像データセットを提供する。 ここでは,内視鏡的画像分割に最適化された頑健な2次元u-netor-unetについて述べる。 名前が示すように、ネットワークはエンコーダ内の残余接続を利用する。 ディスとクロスエントロピーの損失と深い監督の合計で訓練されている。 トレーニングでは、堅牢性を高めるために広範なデータ拡張が使用される。 トレーニング画像上で8倍のクロスバリデーションを行い,平均(中間)サイススコア87.41 (94.35) を達成した。 クロスバリデーションの8つのモデルをテストセットのアンサンブルとして使用します。

Segmentation of endoscopic images is an essential processing step for computer and robotics-assisted interventions. The Robust-MIS challenge provides the largest dataset of annotated endoscopic images to date, with 5983 manually annotated images. Here we describe OR-UNet, our optimized robust residual 2D U-Net for endoscopic image segmentation. As the name implies, the network makes use of residual connections in the encoder. It is trained with the sum of Dice and cross-entropy loss and deep supervision. During training, extensive data augmentation is used to increase the robustness. In an 8-fold cross-validation on the training images, our model achieved a mean (median) Dice score of 87.41 (94.35). We use the eight models from the cross-validation as an ensemble on the test set.
翻訳日:2022-12-09 05:47:03 公開日:2020-04-27
# リモートフォトプレチモグラフィ:稀に考慮される因子

Remote Photoplethysmography: Rarely Considered Factors ( http://arxiv.org/abs/2004.12695v1 )

ライセンス: Link先を確認
Yuriy Mironenko, Konstantin Kalinin, Mikhail Kopeliovich, Mikhail Petrushan(参考訳) remote photoplethysmography (rppg) は,人物の映像解析によるバイタルサイン推定の高速化手法である。 rPPG信号に影響を及ぼすいくつかの主要な現象(例えば、ビデオ圧縮、人からカメラまでの距離、皮膚のトーン、頭部の動き)が研究されている。 しかし、高精度なrPPG法を開発するためには、新しい、マイナーな要因を検討する必要がある。 第一に、ビデオ記録のフレームレートが不規則である。 フレームレートの不規則性によるPSG信号の変換にもかかわらず, PPG信号スペクトルの有意な歪みは認められなかった。 第2の要因はローリングシャッター効果であり、プログレッシブスキャンによるフレームの異なる部分に同じPGG信号の小さな位相シフトを生成する。 特に、このアーティファクトの効果は、生理学的に生じる位相シフトと同じ大きさのものである可能性がある。 第3の要因は、時間窓の大きさであり、バイタルサイン評価の推定誤差に大きな影響を及ぼす可能性がある。 rppg法を比較する場合,処理窓のサイズの違いを考慮すべきである。 これらの現象の重要性を推定し、さらに包括的な研究の必要性を判断するために、一連の実験を行った。

Remote Photoplethysmography (rPPG) is a fast-growing technique of vital sign estimation by analyzing video of a person. Several major phenomena affecting rPPG signals have been studied (e.g. video compression, distance from person to camera, skin tone, head motions). However, to develop a highly accurate rPPG method, new, minor, factors should be investigated. First considered factor is irregular frame rate of video recordings. Despite of PPG signal transformation by frame rate irregularity, no significant distortion of PPG signal spectra was found in the experiments. Second factor is rolling shutter effect which generates tiny phase shift of the same PPG signal in different parts of the frame caused by progressive scanning. In particular conditions effect of this artifact could be of the same order of magnitude as physiologically caused phase shifts. Third factor is a size of temporal windows, which could significantly influence the estimated error of vital sign evaluation. It follows that one should account difference in size of processing windows when comparing rPPG methods. Short series of experiments were conducted to estimate importance of these phenomena and to determine necessity of their further comprehensive study.
翻訳日:2022-12-09 05:46:52 公開日:2020-04-27
# 手書きバングラ文字とディジット認識のためのスキップ接続型マルチカラムネットワーク

A Skip-connected Multi-column Network for Isolated Handwritten Bangla Character and Digit recognition ( http://arxiv.org/abs/2004.12769v1 )

ライセンス: Link先を確認
Animesh Singh, Ritesh Sarkhel, Nibaran Das, Mahantapas Kundu, Mita Nasipuri(参考訳) 光文字認識のための手書き文字と/または桁の局所不変パターンを見つけることは難しい課題である。 ある人から別の人への書き方の変化は、この課題を難しくする。 本研究では,マルチスケールマルチカラムスキップ畳み込みニューラルネットワークを用いた非明示的特徴抽出手法を提案する。 提案アーキテクチャの異なる層から抽出された局所的特徴と大域的特徴を組み合わせて、文字または数字画像を符号化する最終特徴記述子を導出する。 本手法は,手書き文字と数字の4つの公開データセットを用いて評価する。 現代の手法に対する排他的比較分析は,提案手法の有効性を確立している。

Finding local invariant patterns in handwrit-ten characters and/or digits for optical character recognition is a difficult task. Variations in writing styles from one person to another make this task challenging. We have proposed a non-explicit feature extraction method using a multi-scale multi-column skip convolutional neural network in this work. Local and global features extracted from different layers of the proposed architecture are combined to derive the final feature descriptor encoding a character or digit image. Our method is evaluated on four publicly available datasets of isolated handwritten Bangla characters and digits. Exhaustive comparative analysis against contemporary methods establishes the efficacy of our proposed approach.
翻訳日:2022-12-09 05:40:35 公開日:2020-04-27
# ラベルを踏む」以上の敵の愚行

Adversarial Fooling Beyond "Flipping the Label" ( http://arxiv.org/abs/2004.12771v1 )

ライセンス: Link先を確認
Konda Reddy Mopuri, Vaisakh Shaj and R. Venkatesh Babu(参考訳) CNNの最近の進歩は、様々なCV/AI応用において顕著な成果を示している。 CNNは、多くの重要なタスクにおいて人間よりも人間に近いか、人間よりも優れているが、敵の攻撃に対して非常に脆弱である。 これらの攻撃は、実際のデプロイメントでは潜在的に危険である。 近年、多くの敵攻撃が提案されているが、これらの攻撃の有効性を定量化する適切な方法はない。 現在では、モデルの感受性や敵攻撃の効果を測定するために、単なる愚かさ率が使われている。 例えば、いくつかの展開では、犬種間のフリップは、犬種を車両と混同するほど厳しいものではないかもしれない。 したがって、モデルの脆弱性を定量化するためのメトリクスは、フリップの重大さも捉えるべきです。 本研究では,まず既存の評価の欠点を抽出し,騙しのさまざまな側面を捉えるための新しい指標を提案する。 さらに,本研究では,cnnアーキテクチャ群に対するいくつかの重要な敵意攻撃の包括的解析を行った。 提示された分析は、現在の敵攻撃とCNNモデルに関する貴重な洞察をもたらすと信じている。

Recent advancements in CNNs have shown remarkable achievements in various CV/AI applications. Though CNNs show near human or better than human performance in many critical tasks, they are quite vulnerable to adversarial attacks. These attacks are potentially dangerous in real-life deployments. Though there have been many adversarial attacks proposed in recent years, there is no proper way of quantifying the effectiveness of these attacks. As of today, mere fooling rate is used for measuring the susceptibility of the models, or the effectiveness of adversarial attacks. Fooling rate just considers label flipping and does not consider the cost of such flipping, for instance, in some deployments, flipping between two species of dogs may not be as severe as confusing a dog category with that of a vehicle. Therefore, the metric to quantify the vulnerability of the models should capture the severity of the flipping as well. In this work we first bring out the drawbacks of the existing evaluation and propose novel metrics to capture various aspects of the fooling. Further, for the first time, we present a comprehensive analysis of several important adversarial attacks over a set of distinct CNN architectures. We believe that the presented analysis brings valuable insights about the current adversarial attacks and the CNN models.
翻訳日:2022-12-09 05:40:24 公開日:2020-04-27
# モバイル展開のための小型小売棚セグメンテーション

Compact retail shelf segmentation for mobile deployment ( http://arxiv.org/abs/2004.13094v1 )

ライセンス: Link先を確認
Pratyush Kumar, Muktabh Mayank Srivastava(参考訳) 近年の小売業の自動化の進展により、モバイルデバイスにディープラーニングモデルを適用する需要が急増している。 ディープラーニングモデルをデバイス上でリアルタイムにするために、コンパクトな効率的なネットワークは避けられない。 本稿では,小売業において共通する問題である棚セグメンテーションについて検討する。 棚のセグメンテーションは、ピクセル単位での分類問題、すなわち、各画素が目に見える棚のエッジに属するかどうかで分類される。 目的は、シェルフエッジをセグメント化するだけでなく、モデルをモバイルデバイスにデプロイすることにある。 モバイルデバイスにそのような密接な分類問題に対する標準的な解決策がないため、エッジにデプロイ可能なセマンティックセグメンテーションアーキテクチャを検討する。 低フットプリントのセマンティクスセグメンテーションアーキテクチャを改良して棚セグメンテーションを行う。 この問題に対処するため、我々は有名なu-netアーキテクチャをいくつかの面で修正し、デバイス上でのアーキテクチャに適合するようにしました。 本稿では,メモリに制限のあるデバイス上で高速に動作でき,ラベル付きデータの少ない量(約100画像)でトレーニングできる小型モデルであるlight weight segmentation network (lwsnet)を提案する。

The recent surge of automation in the retail industries has rapidly increased demand for applying deep learning models on mobile devices. To make the deep learning models real-time on-device, a compact efficient network becomes inevitable. In this paper, we work on one such common problem in the retail industries - Shelf segmentation. Shelf segmentation can be interpreted as a pixel-wise classification problem, i.e., each pixel is classified as to whether they belong to visible shelf edges or not. The aim is not just to segment shelf edges, but also to deploy the model on mobile devices. As there is no standard solution for such dense classification problem on mobile devices, we look at semantic segmentation architectures which can be deployed on edge. We modify low-footprint semantic segmentation architectures to perform shelf segmentation. In addressing this issue, we modified the famous U-net architecture in certain aspects to make it fit for on-devices without impacting significant drop in accuracy and also with 15X fewer parameters. In this paper, we proposed Light Weight Segmentation Network (LWSNet), a small compact model able to run fast on devices with limited memory and can train with less amount (~ 100 images) of labeled data.
翻訳日:2022-12-09 05:39:03 公開日:2020-04-27
# 潜在表現記述のための遠方無逆解釈ネットワーク

A Disentangling Invertible Interpretation Network for Explaining Latent Representations ( http://arxiv.org/abs/2004.13166v1 )

ライセンス: Link先を確認
Patrick Esser, Robin Rombach, Bj\"orn Ommer(参考訳) ニューラルネットワークは、入力データの強力な表現を学習することで、コンピュータビジョンのパフォーマンスを大きく向上させた。 分散コーディングは潜在層が頑健性を改善するために最適であるため、隠れた特徴ベクトルの一部や個々のニューロンに意味を与えるのは妨げられている。 ユーザにとって理解しやすい意味概念への隠された表現の翻訳として解釈を定式化する。 両方のドメイン間のマッピングは、対象ドメインのセマンティックな変更が元の表現を正しく変更できるように、単射でなければならない。 提案された可逆解釈ネットワークは、変更や再トレーニングを必要とせずに、既存のアーキテクチャの上に透過的に適用することができる。 その結果、元の表現を等価で解釈可能な表現に変換し、元の表現の表現性や性能に影響を与えない。 逆解釈ネットワークは隠された表現を別々に意味的に意味のある概念に分解する。 さらに,2つのイメージをスケッチするだけでなく,教師なしの戦略によって意味概念を定義するための効率的な手法を提案する。 実験による評価により,既存の分類や画像生成ネットワークの解釈や,意味的に誘導された画像操作への幅広い適用性が示された。

Neural networks have greatly boosted performance in computer vision by learning powerful representations of input data. The drawback of end-to-end training for maximal overall performance are black-box models whose hidden representations are lacking interpretability: Since distributed coding is optimal for latent layers to improve their robustness, attributing meaning to parts of a hidden feature vector or to individual neurons is hindered. We formulate interpretation as a translation of hidden representations onto semantic concepts that are comprehensible to the user. The mapping between both domains has to be bijective so that semantic modifications in the target domain correctly alter the original representation. The proposed invertible interpretation network can be transparently applied on top of existing architectures with no need to modify or retrain them. Consequently, we translate an original representation to an equivalent yet interpretable one and backwards without affecting the expressiveness and performance of the original. The invertible interpretation network disentangles the hidden representation into separate, semantically meaningful concepts. Moreover, we present an efficient approach to define semantic concepts by only sketching two images and also an unsupervised strategy. Experimental evaluation demonstrates the wide applicability to interpretation of existing classification and image generation networks as well as to semantically guided image manipulation.
翻訳日:2022-12-09 05:38:44 公開日:2020-04-27
# マルチタスク画像に基づく食品認識と口径推定のための食事評価

Multi-Task Image-Based Dietary Assessment for Food Recognition and Portion Size Estimation ( http://arxiv.org/abs/2004.13188v1 )

ライセンス: Link先を確認
Jiangpeng He, Zeman Shao, Janine Wright, Deborah Kerr, Carol Boushey and Fengqing Zhu(参考訳) ディープラーニングに基づく手法は、食品分類や食品部分サイズ推定など、画像に基づく食事評価に多くの応用で顕著な成果を上げている。 しかし、既存の手法は一度に1つのタスクにのみフォーカスするので、複数のタスクを一緒に処理する必要がある場合、現実に適用することは困難である。 そこで本研究では,食品分類と食品分量推定の両立が可能なエンドツーエンドマルチタスクフレームワークを提案する。 そこで本研究では, 栄養学から収集した食品画像データセットについて紹介する。 マルチタスク学習では、L2ノルムに基づくソフトパラメータ共有を使用して、分類タスクと回帰タスクを同時にトレーニングする。 また,食品部分サイズ推定の性能向上のために,領域間特徴適応と正規化を併用することを提案する。 以上の結果から, 分類精度と平均絶対誤差の両基準法を上回り, 画像に基づく食事評価の分野を前進させる可能性が示唆された。

Deep learning based methods have achieved impressive results in many applications for image-based diet assessment such as food classification and food portion size estimation. However, existing methods only focus on one task at a time, making it difficult to apply in real life when multiple tasks need to be processed together. In this work, we propose an end-to-end multi-task framework that can achieve both food classification and food portion size estimation. We introduce a food image dataset collected from a nutrition study where the groundtruth food portion is provided by registered dietitians. The multi-task learning uses L2-norm based soft parameter sharing to train the classification and regression tasks simultaneously. We also propose the use of cross-domain feature adaptation together with normalization to further improve the performance of food portion size estimation. Our results outperforms the baseline methods for both classification accuracy and mean absolute error for portion estimation, which shows great potential for advancing the field of image-based dietary assessment.
翻訳日:2022-12-09 05:38:25 公開日:2020-04-27
# ピクセルプロセッサアレイ上の高速畳み込みネットワークの完全埋め込み

Fully Embedding Fast Convolutional Networks on Pixel Processor Arrays ( http://arxiv.org/abs/2004.12525v1 )

ライセンス: Link先を確認
Laurie Bose, Jianing Chen, Stephen J. Carey, Piotr Dudek, Walterio Mayol-Cuevas(参考訳) 本稿では,PPA(Pixel processor array)視覚センサのCNN推論手法を提案する。 PPAセンサーは一連の処理要素(PE)で構成され、各PEは光キャプチャ、データストレージ、計算が可能で、様々なコンピュータビジョン処理をセンサーデバイスに直接実行することができる。 このアプローチの背景にある重要な考え方は、PPAセンサ自体のPE内にネットワーク重みを「ピクセル内」に格納し、複数の異なる画像畳み込みなどの様々な計算を並列に実行できるようにすることである。 提案手法では, 最大プール, ReLu などの畳み込み層と, PPA センサ上に完全に完全に接続された最終層を動作させることができる。 これは、センサレベルの処理だけで画像畳み込みを逐次計算し、データを外部のデジタルプロセッサに転送し、計算を完了するという以前の研究とは対照的である。 提案手法はSCAMP-5ビジョンシステムにおいて,MNIST桁分類網を毎秒3000フレーム以上,93%以上の分類精度で推定する手法である。 これは、外部処理を必要としないPPA視覚センサデバイスのプロセッサアレイで完全に行われたCNN推論を示す最初の研究である。

We present a novel method of CNN inference for pixel processor array (PPA) vision sensors, designed to take advantage of their massive parallelism and analog compute capabilities. PPA sensors consist of an array of processing elements (PEs), with each PE capable of light capture, data storage and computation, allowing various computer vision processing to be executed directly upon the sensor device. The key idea behind our approach is storing network weights "in-pixel" within the PEs of the PPA sensor itself to allow various computations, such as multiple different image convolutions, to be carried out in parallel. Our approach can perform convolutional layers, max pooling, ReLu, and a final fully connected layer entirely upon the PPA sensor, while leaving no untapped computational resources. This is in contrast to previous works that only use a sensor-level processing to sequentially compute image convolutions, and must transfer data to an external digital processor to complete the computation. We demonstrate our approach on the SCAMP-5 vision system, performing inference of a MNIST digit classification network at over 3000 frames per second and over 93% classification accuracy. This is the first work demonstrating CNN inference conducted entirely upon the processor array of a PPA vision sensor device, requiring no external processing.
翻訳日:2022-12-09 05:31:20 公開日:2020-04-27
# 低リソースシナリオにおける効率的な検出のためのグループインスタンスの配置

Localizing Grouped Instances for Efficient Detection in Low-Resource Scenarios ( http://arxiv.org/abs/2004.12623v1 )

ライセンス: Link先を確認
Amelie Royer, Christoph H. Lampert(参考訳) 最先端検出システムは、画像に高密度に分散したオブジェクトを、様々な外観や意味カテゴリーにわたって徹底的に検索する能力に基づいて、一般的に評価される。 これと直交して、例えばリモートセンシングのような多くの実生活オブジェクト検出アプリケーションは、その代わりに、空間に不均一に散在する単一のクラスの小さなオブジェクトだけを含む大きなイメージを扱う必要がある。 加えて、バッテリ容量の制限や計算能力の制限など、厳格な計算制約を受けることが多い。 これらのより実用的なシナリオに取り組むために、我々は可変オブジェクトサイズと密度に効率的に適応する新しい柔軟な検出手法を提案する。 検出カスケードと同様に、この多段アーキテクチャは、検出プロセス中に画像の大きな無関係な領域を早期に破棄することで計算作業を省く。 オブジェクトをグループ化する能力は、より計算量とメモリの節約をもたらし、初期の段階ではより低い解像度で作業できる。 本稿では,2つの航空画像データセットの実験結果について報告し,提案手法が標準単発検出器よりも精度が高く,計算効率も高いことを示す。

State-of-the-art detection systems are generally evaluated on their ability to exhaustively retrieve objects densely distributed in the image, across a wide variety of appearances and semantic categories. Orthogonal to this, many real-life object detection applications, for example in remote sensing, instead require dealing with large images that contain only a few small objects of a single class, scattered heterogeneously across the space. In addition, they are often subject to strict computational constraints, such as limited battery capacity and computing power. To tackle these more practical scenarios, we propose a novel flexible detection scheme that efficiently adapts to variable object sizes and densities: We rely on a sequence of detection stages, each of which has the ability to predict groups of objects as well as individuals. Similar to a detection cascade, this multi-stage architecture spares computational effort by discarding large irrelevant regions of the image early during the detection process. The ability to group objects provides further computational and memory savings, as it allows working with lower image resolutions in early stages, where groups are more easily detected than individuals, as they are more salient. We report experimental results on two aerial image datasets, and show that the proposed method is as accurate yet computationally more efficient than standard single-shot detectors, consistently across three different backbone architectures.
翻訳日:2022-12-09 05:30:37 公開日:2020-04-27
# GraftNet: きめ細かいマルチラベルタスクのためのCNNのエンジニアリング実装

GraftNet: An Engineering Implementation of CNN for Fine-grained Multi-label Task ( http://arxiv.org/abs/2004.12709v1 )

ライセンス: Link先を確認
Chunhua Jia, Lei Zhang, Hui Huang, Weiwei Cai, Hao Hu, Rohan Adivarekar(参考訳) 分岐を持つマルチラベルネットワークは精度と速度の両方で良好に機能することが証明されているが、アノテートとトレーニングの再作業の効率が低いため、新しいラベルへの動的拡張の柔軟性に欠ける。 マルチラベル分類タスクでは、新しいラベルをカバーするために、新たに収集したイメージだけでなく、これらの新しいラベルの存在をチェックする前のデータセット全体についても注釈を付ける必要があります。 また、再アノテーションされたデータセット全体のトレーニングには多くの時間がかかる。 新しいラベルをより効果的かつ正確に認識するために,汎用的な特徴抽出のための動的グラフで事前訓練されたトランクを備えたツリーライクネットワークであるGraftNetと,単一ラベル付きサブデータセットで個別に訓練されたブランチを提案する。 GraftNetはコストを削減し、柔軟性を高め、新たなラベルをインクリメンタルに扱うことができる。 実験結果から, 微粒な多ラベル分類である人的属性認識タスクにおいて, 良好な性能を示すことが示された。

Multi-label networks with branches are proved to perform well in both accuracy and speed, but lacks flexibility in providing dynamic extension onto new labels due to the low efficiency of re-work on annotating and training. For multi-label classification task, to cover new labels we need to annotate not only newly collected images, but also the previous whole dataset to check presence of these new labels. Also training on whole re-annotated dataset costs much time. In order to recognize new labels more effectively and accurately, we propose GraftNet, which is a customizable tree-like network with its trunk pretrained with a dynamic graph for generic feature extraction, and branches separately trained on sub-datasets with single label to improve accuracy. GraftNet could reduce cost, increase flexibility, and incrementally handle new labels. Experimental results show that it has good performance on our human attributes recognition task, which is fine-grained multi-label classification.
翻訳日:2022-12-09 05:29:09 公開日:2020-04-27
# セマンティックな隣り合わせの深い顔の表情認識

Semantic Neighborhood-Aware Deep Facial Expression Recognition ( http://arxiv.org/abs/2004.12725v1 )

ライセンス: Link先を確認
Yongjian Fu, Xintian Wu, Xi Li, Zhijie Pan, Daxin Luo(参考訳) 他の多くの属性とは異なり、顔の表情は連続的に変化しうるため、入力のわずかな意味的変化は、小さなスケールで制限された出力変動につながる。 この一貫性は重要です。 しかし、現在の Facial Expression Recognition (FER) データセットは、データの欠如と過剰なノイズに加えて、極端な不均衡の問題があり、この一貫性を妨げ、テスト時にパフォーマンスが低下する可能性がある。 本稿では,標本点の予測精度を考察するだけでなく,入力のわずかな意味的摂動に対する出力の安定性に着目し,近傍の滑らかさを考察する。 学習中に意味摂動を定式化し,信頼できないサンプルを選択する新しい手法を提案し,その悪影響を低減した。 実験では,提案手法の有効性と最先端結果が報告され,現在までに最大規模のferデータベースであるimpactnetにおいて,最先端手法よりも上限値に近い値が得られた。

Different from many other attributes, facial expression can change in a continuous way, and therefore, a slight semantic change of input should also lead to the output fluctuation limited in a small scale. This consistency is important. However, current Facial Expression Recognition (FER) datasets may have the extreme imbalance problem, as well as the lack of data and the excessive amounts of noise, hindering this consistency and leading to a performance decreasing when testing. In this paper, we not only consider the prediction accuracy on sample points, but also take the neighborhood smoothness of them into consideration, focusing on the stability of the output with respect to slight semantic perturbations of the input. A novel method is proposed to formulate semantic perturbation and select unreliable samples during training, reducing the bad effect of them. Experiments show the effectiveness of the proposed method and state-of-the-art results are reported, getting closer to an upper limit than the state-of-the-art methods by a factor of 30\% in AffectNet, the largest in-the-wild FER database by now.
翻訳日:2022-12-09 05:28:51 公開日:2020-04-27
# ラテントナラティブ構造を用いた画面要約

Screenplay Summarization Using Latent Narrative Structure ( http://arxiv.org/abs/2004.12727v1 )

ライセンス: Link先を確認
Pinelopi Papalampidi, Frank Keller, Lea Frermann, Mirella Lapata(参考訳) ほとんどの汎用的抽出要約モデルは、ニュース記事に基づいて訓練され、すべての重要な情報を事前に提示する。 結果として、このようなモデルは位置に偏りがあり、文書の冒頭から文章をスマートに選択することが多い。 複雑な構造を持ち情報断片的な長い物語を要約する場合、単純な位置ヒューリスティックは不十分である。 本稿では,物語の基本構造を一般に教師なしかつ教師なしの抽出要約モデルに明示的に組み込むことを提案する。 本研究では,重要な物語イベント(転向点)の観点で物語構造を定式化し,脚本(シーンの最適配列を抽出する)を要約するために潜時として扱う。 シーンレベルの要約ラベルを付加したcsiコーパスを用いた実験結果から,潜在ターニングポイントがcsiエピソードの重要な側面と相関し,汎用抽出アルゴリズムに対する要約性能が向上し,より完全かつ多様な要約が得られた。

Most general-purpose extractive summarization models are trained on news articles, which are short and present all important information upfront. As a result, such models are biased on position and often perform a smart selection of sentences from the beginning of the document. When summarizing long narratives, which have complex structure and present information piecemeal, simple position heuristics are not sufficient. In this paper, we propose to explicitly incorporate the underlying structure of narratives into general unsupervised and supervised extractive summarization models. We formalize narrative structure in terms of key narrative events (turning points) and treat it as latent in order to summarize screenplays (i.e., extract an optimal sequence of scenes). Experimental results on the CSI corpus of TV screenplays, which we augment with scene-level summarization labels, show that latent turning points correlate with important aspects of a CSI episode and improve summarization performance over general extractive algorithms leading to more complete and diverse summaries.
翻訳日:2022-12-09 05:22:01 公開日:2020-04-27
# DeSeption: 二重シーケンス予測とFact-Checking改善のための逆例

DeSePtion: Dual Sequence Prediction and Adversarial Examples for Improved Fact-Checking ( http://arxiv.org/abs/2004.12864v1 )

ライセンス: Link先を確認
Christopher Hidey and Tuhin Chakrabarty and Tariq Alhindi and Siddharth Varia and Kriste Krstovski and Mona Diab and Smaranda Muresan(参考訳) 誤情報への注目が高まり、主張の真偽を検知するデータやシステムの開発や、権威ある証拠の検索が進められている。 Fact extract and verification (FEVER)データセットは、エンドツーエンドの事実チェックを評価するためのリソースを提供する。 フィーバーの現在のシステムは、ファクトチェックの現実的な課題(複数の命題、時間的推論、あいまいさと語彙のバリエーション)の3つのカテゴリに対して脆弱であることを示し、これらのクレームでリソースを導入する。 そこで本稿では,複数のポインタネットワークを用いて文書選択を行い,証拠文の列と妥当性関係の予測を共同でモデル化するシステムを提案する。 その結果,これらの攻撃に対処する際には,証拠検索の改善が主な原因で,FEVERの最先端の結果が得られることがわかった。

The increased focus on misinformation has spurred development of data and systems for detecting the veracity of a claim as well as retrieving authoritative evidence. The Fact Extraction and VERification (FEVER) dataset provides such a resource for evaluating end-to-end fact-checking, requiring retrieval of evidence from Wikipedia to validate a veracity prediction. We show that current systems for FEVER are vulnerable to three categories of realistic challenges for fact-checking -- multiple propositions, temporal reasoning, and ambiguity and lexical variation -- and introduce a resource with these types of claims. Then we present a system designed to be resilient to these "attacks" using multiple pointer networks for document selection and jointly modeling a sequence of evidence sentences and veracity relation predictions. We find that in handling these attacks we obtain state-of-the-art results on FEVER, largely due to improved evidence retrieval.
翻訳日:2022-12-09 05:21:13 公開日:2020-04-27
# 文エンコーダを用いたインテリジェント翻訳メモリマッチングと検索

Intelligent Translation Memory Matching and Retrieval with Sentence Encoders ( http://arxiv.org/abs/2004.12894v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Constantin Orasan, Ruslan Mitkov(参考訳) 翻訳メモリからの予め翻訳されたセグメントのマッチングと検索は、翻訳メモリシステムにおいて重要な機能である。 しかし、このマッチングと検索のプロセスは、翻訳記憶システムにおける大きな欠点と認識された編集距離に基づくアルゴリズムに限定されている。 本稿では,文エンコーダを導入して,編集距離に基づくアルゴリズムを効率よく置き換える,翻訳記憶システムにおけるマッチングと検索のプロセスを改善する。

Matching and retrieving previously translated segments from a Translation Memory is the key functionality in Translation Memories systems. However this matching and retrieving process is still limited to algorithms based on edit distance which we have identified as a major drawback in Translation Memories systems. In this paper we introduce sentence encoders to improve the matching and retrieving process in Translation Memories systems - an effective and efficient solution to replace edit distance based algorithms.
翻訳日:2022-12-09 05:20:54 公開日:2020-04-27
# scde: 検査から高品質の気晴らしを持つ文クローゼデータセット

SCDE: Sentence Cloze Dataset with High Quality Distractors From Examinations ( http://arxiv.org/abs/2004.12934v1 )

ライセンス: Link先を確認
Xiang Kong, Varun Gangal, Eduard Hovy(参考訳) 文予測による計算モデルの性能評価のためのデータセットであるscdeを提案する。 scdeは人間の作成した文クローズデータセットで、公立学校の英語の試験から収集される。 我々の課題は、英語教師が設計した気を散らすような共用候補から、複数の空白を埋めるモデルを必要とする。 実験結果から,この課題には即時文近傍以外の非局所的談話レベルコンテキストの使用が必要であることが示された。 空白は共同解決を必要とし、お互いのコンテキストを著しく損なう。 さらに,アブリケーションにより,気晴らしが高品質であること,タスクをより困難にしていることを示す。 我々の実験は、先進モデル(72%)と人間(87%)の間に大きなパフォーマンスギャップがあることを示し、将来のモデルがこのギャップを埋めるように促している。

We introduce SCDE, a dataset to evaluate the performance of computational models through sentence prediction. SCDE is a human-created sentence cloze dataset, collected from public school English examinations. Our task requires a model to fill up multiple blanks in a passage from a shared candidate set with distractors designed by English teachers. Experimental results demonstrate that this task requires the use of non-local, discourse-level context beyond the immediate sentence neighborhood. The blanks require joint solving and significantly impair each other's context. Furthermore, through ablations, we show that the distractors are of high quality and make the task more challenging. Our experiments show that there is a significant performance gap between advanced models (72%) and humans (87%), encouraging future models to bridge this gap.
翻訳日:2022-12-09 05:20:48 公開日:2020-04-27
# 言語ドキュメンテーションと再生のための言語技術に関する第1回ワークショップの概要

A Summary of the First Workshop on Language Technology for Language Documentation and Revitalization ( http://arxiv.org/abs/2004.13203v1 )

ライセンス: Link先を確認
Graham Neubig, Shruti Rijhwani, Alexis Palmer, Jordan MacKenzie, Hilaria Cruz, Xinjian Li, Matthew Lee, Aditi Chaudhary, Luke Gessler, Steven Abney, Shirley Anugrah Hayati, Antonios Anastasopoulos, Olga Zamaraeva, Emily Prud'hommeaux, Jennette Child, Sara Child, Rebecca Knowles, Sarah Moeller, Jeffrey Micher, Yiyuan Li, Sydney Zink, Mengzhou Xia, Roshan S Sharma and Patrick Littell(参考訳) 近年の自然言語処理や他の言語技術の発展にもかかわらず、このような技術の言語文書化や保存への応用は限られている。 2019年8月、ピッツバーグのカーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集めて、このギャップを埋め、新しい実用的な言語再生技術のプロトタイプを作成する方法について議論した。 Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala, Ojibwe, San Juan Quiahije Chatino, Senecaの9つの言語で議論され, 実装された様々な技術について報告する。

Despite recent advances in natural language processing and other language technology, the application of such technology to language documentation and conservation has been limited. In August 2019, a workshop was held at Carnegie Mellon University in Pittsburgh to attempt to bring together language community members, documentary linguists, and technologists to discuss how to bridge this gap and create prototypes of novel and practical language revitalization technologies. This paper reports the results of this workshop, including issues discussed, and various conceived and implemented technologies for nine languages: Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala, Ojibwe, San Juan Quiahije Chatino, and Seneca.
翻訳日:2022-12-09 05:19:43 公開日:2020-04-27
# 無人自動車の野生における車内物体検出

In-Vehicle Object Detection in the Wild for Driverless Vehicles ( http://arxiv.org/abs/2004.12700v1 )

ライセンス: Link先を確認
Ranjith Dinakaran, Li Zhang and Richard Jiang(参考訳) 車両内物体の識別は視覚に基づく自動走行システムにおいて重要な役割を担い、道路や道路上の歩行者や車両などの物体は無人走行車から保護される主要な標的である。 課題は、野生の環境下を移動する物体を検出するのが困難である一方で、照明や画質が大幅に異なることだ。 本研究では,この課題に対処するために,Dep Convolutional Generative Adversarial Networks (DCGANs) とSingle Shot Detector (SSD) を併用して野生環境に対処する。 我々の研究では、スマートシティの野生環境から生じる課題に対処するために、低画質の画像を用いてGANを訓練し、また、GANで実行する対象検出器として、ケース付きSSDが使用される。 ロンドン・ストリートのタクシー運転手の動画を昼間と夜間の両方で、野生条件下でテストし、車内ビデオによるテストでは、この戦略が野生条件下で検出率を大幅に向上できることが示されました。

In-vehicle human object identification plays an important role in vision-based automated vehicle driving systems while objects such as pedestrians and vehicles on roads or streets are the primary targets to protect from driverless vehicles. A challenge is the difficulty to detect objects in moving under the wild conditions, while illumination and image quality could drastically vary. In this work, to address this challenge, we exploit Deep Convolutional Generative Adversarial Networks (DCGANs) with Single Shot Detector (SSD) to handle with the wild conditions. In our work, a GAN was trained with low-quality images to handle with the challenges arising from the wild conditions in smart cities, while a cascaded SSD is employed as the object detector to perform with the GAN. We used tested our approach under wild conditions using taxi driver videos on London street in both daylight and night times, and the tests from in-vehicle videos demonstrate that this strategy can drastically achieve a better detection rate under the wild conditions.
翻訳日:2022-12-09 05:13:48 公開日:2020-04-27
# LSHR-Net:混合重み付けニューラルネットワークを用いた高分解能計算イメージングのためのハードウェアフレンドリなソリューション

LSHR-Net: a hardware-friendly solution for high-resolution computational imaging using a mixed-weights neural network ( http://arxiv.org/abs/2004.13173v1 )

ライセンス: Link先を確認
Fangliang Bai, Jinchao Liu, Xiaojuan Liu, Margarita Osadchy, Chao Wang, Stuart J. Gibson(参考訳) 近年の研究では、圧縮された測定値から画像を再構成するニューラルネットワークに基づくアプローチが、精度と信号圧縮を大幅に改善することを示した。 このような手法は、計算画像ハードウェアの能力を劇的に向上させることができる。 しかし,(1)既存の作品で提案されている高精度な実数値センシングパターンは,デジタルマイクロミラーサンプリング装置などの計算画像ハードウェアでは問題となりうること,(2)画像再構成のためのネットワーク構造には集中的な計算が必要であり,ハードウェアの展開にも適さないこと,の2つの大きな欠点がある。 これらの問題に対処するために,混合重み付きニューラルネットワークを用いた新しいハードウェアフレンドリな計算手法を提案する。 特に、学習した二分重センシングパターンをサンプリング装置に調整する。 さらに,低解像度画像サンプリングと高分解能再構成のための再帰的ネットワーク構造を提案する。 小さな中間特徴写像上の畳み込みを演算することで、必要な測定回数と再構成計算の両方を削減する。 再帰構造により、モデルのサイズはさらに小さくなり、ハードウェアでデプロイする際のネットワークの計算効率が向上した。 本手法は,ベンチマークデータセット上で検証され,再現精度が向上した。 提案するネットワークを概念実証ハードウェアのセットアップと組み合わせてテストした。

Recent work showed neural-network-based approaches to reconstructing images from compressively sensed measurements offer significant improvements in accuracy and signal compression. Such methods can dramatically boost the capability of computational imaging hardware. However, to date, there have been two major drawbacks: (1) the high-precision real-valued sensing patterns proposed in the majority of existing works can prove problematic when used with computational imaging hardware such as a digital micromirror sampling device and (2) the network structures for image reconstruction involve intensive computation, which is also not suitable for hardware deployment. To address these problems, we propose a novel hardware-friendly solution based on mixed-weights neural networks for computational imaging. In particular, learned binary-weight sensing patterns are tailored to the sampling device. Moreover, we proposed a recursive network structure for low-resolution image sampling and high-resolution reconstruction scheme. It reduces both the required number of measurements and reconstruction computation by operating convolution on small intermediate feature maps. The recursive structure further reduced the model size, making the network more computationally efficient when deployed with the hardware. Our method has been validated on benchmark datasets and achieved the state of the art reconstruction accuracy. We tested our proposed network in conjunction with a proof-of-concept hardware setup.
翻訳日:2022-12-09 05:12:42 公開日:2020-04-27
# リコールと学習: フォーミングを少なくした微調整型事前学習言語モデル

Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting ( http://arxiv.org/abs/2004.12651v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu, Xiangzhan Yu(参考訳) 深い事前学習された言語モデルは、まず事前学習し、次に微調整することで大きな成功を収めている。 しかし、このようなシーケンシャルトランスファー学習パラダイムは、しばしば破滅的な忘れの問題に直面し、準最適性能をもたらす。 そこで本研究では,マルチタスク学習の概念を取り入れ,事前学習タスクとダウンストリームタスクを共同で学習するリコール・学習機構を提案する。 具体的には,データのない事前学習タスクから知識を想起する事前学習シミュレーション機構と,学習を徐々に下流タスクに集中させる客観的シフト機構を提案する。 実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。 また,提案手法により,BERT-largeを直接微調整するよりも,BERT-baseの性能が向上する。 さらに,提案機構をAdamオプティマイザに統合したオープンソースのRecAdamオプティマイザを,NLPコミュニティの施設として提供する。

Deep pretrained language models have achieved great success in the way of pretraining first and then fine-tuning. But such a sequential transfer learning paradigm often confronts the catastrophic forgetting problem and leads to sub-optimal performance. To fine-tune with less forgetting, we propose a recall and learn mechanism, which adopts the idea of multi-task learning and jointly learns pretraining tasks and downstream tasks. Specifically, we propose a Pretraining Simulation mechanism to recall the knowledge from pretraining tasks without data, and an Objective Shifting mechanism to focus the learning on downstream tasks gradually. Experiments show that our method achieves state-of-the-art performance on the GLUE benchmark. Our method also enables BERT-base to achieve better performance than directly fine-tuning of BERT-large. Further, we provide the open-source RecAdam optimizer, which integrates the proposed mechanisms into Adam optimizer, to facility the NLP community.
翻訳日:2022-12-09 05:11:19 公開日:2020-04-27
# レベンシュテイントランスフォーマーを用いた語彙制約付きニューラルマシン翻訳

Lexically Constrained Neural Machine Translation with Levenshtein Transformer ( http://arxiv.org/abs/2004.12681v1 )

ライセンス: Link先を確認
Raymond Hendy Susanto, Shamil Chollampatt, and Liling Tan(参考訳) 本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。 以前の作業では、既存のモデルを語彙的制約で再トレーニングするか、ビーム探索復号中にそれらを組み込むか、計算オーバーヘッドを大幅に高める必要があった。 最近提案されたLevenshtein Transformerモデル(Gu et al., 2019)の柔軟性と速度を活用して,提案手法はデコード速度に影響を与えることなく,推論時に用語制約を注入する。 本手法はトレーニング手順の変更を一切必要とせず,カスタム辞書で実行時に容易に適用することができる。 英語とドイツ語のWMTデータセットを用いた実験により,我々のアプローチは制約のないベースラインと,それ以前のアプローチを改善することが示された。

This paper proposes a simple and effective algorithm for incorporating lexical constraints in neural machine translation. Previous work either required re-training existing models with the lexical constraints or incorporating them during beam search decoding with significantly higher computational overheads. Leveraging the flexibility and speed of a recently proposed Levenshtein Transformer model (Gu et al., 2019), our method injects terminology constraints at inference time without any impact on decoding speed. Our method does not require any modification to the training procedure and can be easily applied at runtime with custom dictionaries. Experiments on English-German WMT datasets show that our approach improves an unconstrained baseline and previous approaches.
翻訳日:2022-12-09 05:11:03 公開日:2020-04-27
# 深い質問を生成するための意味グラフ

Semantic Graphs for Generating Deep Questions ( http://arxiv.org/abs/2004.12704v1 )

ライセンス: Link先を確認
Liangming Pan, Yuxi Xie, Yansong Feng, Tat-Seng Chua, Min-Yen Kan(参考訳) 本稿では,入力経路の複数の情報に対する推論を必要とする複雑な質問を生成することを目的としたDeep Question Generation(DQG)問題を提案する。 文書のグローバルな構造を把握し、推論を容易にするために、まず入力文書のセマンティックレベルグラフを構築し、次に注意に基づくGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。 その後、文書レベルとグラフレベルの表現を融合して、コンテンツ選択と質問復号の合同トレーニングを行う。 hotpotqa deep-question centric datasetでは、複数の事実を推論する必要がある問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。 コードはhttps://github.com/WING-NUS/SG-Deep-Question-Generationで公開されている。

This paper proposes the problem of Deep Question Generation (DQG), which aims to generate complex questions that require reasoning over multiple pieces of information of the input passage. In order to capture the global structure of the document and facilitate reasoning, we propose a novel framework which first constructs a semantic-level graph for the input document and then encodes the semantic graph by introducing an attention-based GGNN (Att-GGNN). Afterwards, we fuse the document-level and graph-level representations to perform joint training of content selection and question decoding. On the HotpotQA deep-question centric dataset, our model greatly improves performance over questions requiring reasoning over multiple facts, leading to state-of-the-art performance. The code is publicly available at https://github.com/WING-NUS/SG-Deep-Question-Generation.
翻訳日:2022-12-09 05:10:49 公開日:2020-04-27
# 隠れマルコフモデルを用いたウェアラブル筋電図センサからの活動検出

Activity Detection from Wearable Electromyogram Sensors using Hidden Markov Model ( http://arxiv.org/abs/2005.00107v1 )

ライセンス: Link先を確認
Rinki Gupta, Karush Suri(参考訳) 表面筋電図 (semg) は, 近年の医療機器, ジェスチャー解析, 認識, 手話コミュニケーションの進歩において重要視されている。 このようなシステムでは、連続記録されたsEMG信号における活動領域を決定することが必須である。 本研究は, 各種手の動きが記録されたときのsEMG信号を用いた隠れマルコフモデル(HMM)に基づく新しい活動検出手法を提案する。 数学的モデルを用いて確率論的展望に基づいて検出手順を設計する。 アクティビティ検出のしきい値の要求は、対象とアクティビティを独立にすることを妨げる。 検出された遷移領域周辺の信号セグメントを活動または休息として分類することで、予測出力の正確性を主張する。 分類された出力は、被験者がアクティビティを実行するために与えられる刺激の遷移領域と比較される。 活動開始は平均96.25%の精度で検出されるのに対し、活動終了領域は平均87.5%の精度で6つの活動と4つの被験者からなる。

Surface electromyography (sEMG) has gained significant importance during recent advancements in consumer electronics for healthcare systems, gesture analysis and recognition and sign language communication. For such a system, it is imperative to determine the regions of activity in a continuously recorded sEMG signal. The proposed work provides a novel activity detection approach based on Hidden Markov Models (HMM) using sEMG signals recorded when various hand gestures are performed. Detection procedure is designed based on a probabilistic outlook by making use of mathematical models. The requirement of a threshold for activity detection is obviated making it subject and activity independent. Correctness of the predicted outputs is asserted by classifying the signal segments around the detected transition regions as activity or rest. Classified outputs are compared with the transition regions in a stimulus given to the subject to perform the activity. The activity onsets are detected with an average of 96.25% accuracy whereas the activity termination regions with an average of 87.5% accuracy with the considered set of six activities and four subjects.
翻訳日:2022-12-09 05:05:41 公開日:2020-04-27
# ディープカプセルネットワークとゲーム理論を用いたウェアラブルIMUからの連続手話認識

Continuous sign language recognition from wearable IMUs using deep capsule networks and game theory ( http://arxiv.org/abs/2005.00409v1 )

ライセンス: Link先を確認
Karush Suri, Rinki Gupta(参考訳) 手話は世界中の聴覚障害のコミュニティで使われている。 本稿では,インド手話認識のための1次元深層カプセルネットワーク(CapsNet)アーキテクチャを提案する。 提案するCapsNetアーキテクチャの性能は,カプセル層間の動的ルーティングを変更することで評価する。 提案したCapsNetでは、3つのルーティングで94%、5つのルーティングで92.50%の精度が向上し、畳み込みニューラルネットワーク(CNN)では87.99%の精度が得られた。 また, 予測層における励起単位の空間的活性化により, 提案アーキテクチャの学習性の向上が検証された。 最後に、CapsNetとCNNの間に新しい非協調的なピック・アンド・予測コンペティションが設計されている。 CNNと比較して、CapsNetのNash平衡値が高いことは、提案手法の適合性を示している。

Sign Language is used by the deaf community all over world. The work presented here proposes a novel one-dimensional deep capsule network (CapsNet) architecture for continuous Indian Sign Language recognition by means of signals obtained from a custom designed wearable IMU system. The performance of the proposed CapsNet architecture is assessed by altering dynamic routing between capsule layers. The proposed CapsNet yields improved accuracy values of 94% for 3 routings and 92.50% for 5 routings in comparison with the convolutional neural network (CNN) that yields an accuracy of 87.99%. Improved learning of the proposed architecture is also validated by spatial activations depicting excited units at the predictive layer. Finally, a novel non-cooperative pick-and-predict competition is designed between CapsNet and CNN. Higher value of Nash equilibrium for CapsNet as compared to CNN indicates the suitability of the proposed approach.
翻訳日:2022-12-09 05:05:26 公開日:2020-04-27
# ディープニューラルネットワークを用いたウェアラブルIMUのハンドジェスチャの分類

Classification of Hand Gestures from Wearable IMUs using Deep Neural Network ( http://arxiv.org/abs/2005.00410v1 )

ライセンス: Link先を確認
Karush Suri, Rinki Gupta(参考訳) IMUは手の動き解析、軌跡検出、運動機能研究において重要な役割を担っている。 慣性測定ユニット(imu)は、三軸加速度計とジャイロスコープからなり、一緒に形成分析に使用できる。 本稿では,ウェアラブルIMUセンサから得られる手の動きを分類するために,Deep Neural Network (DNN) を用いた新しい分類手法を提案する。 動作間の相関を減らし、信号セットを最高の性能パラメータに適合させるために、分類器の最適化目標を設定する。 ネットワークのトレーニングは、入力特徴のフィードフォワード計算と、エラーのバックプロパゲーションによって行われる。 予測された出力は分類精度の形で分析され、SVMやkNNの従来の分類方式と比較される。 DNN分類では, 35%の精度向上が見られた。 記録された加速度計とジャイロスコープの信号および検討された分類方式について結果を示す。

IMUs are gaining significant importance in the field of hand gesture analysis, trajectory detection and kinematic functional study. An Inertial Measurement Unit (IMU) consists of tri-axial accelerometers and gyroscopes which can together be used for formation analysis. The paper presents a novel classification approach using a Deep Neural Network (DNN) for classifying hand gestures obtained from wearable IMU sensors. An optimization objective is set for the classifier in order to reduce correlation between the activities and fit the signal-set with best performance parameters. Training of the network is carried out by feed-forward computation of the input features followed by the back-propagation of errors. The predicted outputs are analyzed in the form of classification accuracies which are then compared to the conventional classification schemes of SVM and kNN. A 3-5% improvement in accuracies is observed in the case of DNN classification. Results are presented for the recorded accelerometer and gyroscope signals and the considered classification schemes.
翻訳日:2022-12-09 05:05:14 公開日:2020-04-27
# マスタースレーブアーキテクチャにおける深層学習を用いたsEMGに基づく手指義手分類のための伝達学習

Transfer Learning for sEMG-based Hand Gesture Classification using Deep Learning in a Master-Slave Architecture ( http://arxiv.org/abs/2005.03460v1 )

ライセンス: Link先を確認
Karush Suri, Rinki Gupta(参考訳) ジェスチャーに基づくヒューマンマシンインタフェースの診断学習と開発における最近の進歩は、表面筋電図(sEMG)を重要視している。 手のジェスチャーの分析には、sEMG信号の正確な評価が必要である。 本研究は,複数のsEMGチャネルから記録された信号を用いて,インド手話からの信号の分類を行うディープニューラルネットワーク(DNN)からなる,新しいマスタスレーブアーキテクチャを提案する。 短期記憶ネットワークによって生成された追加の合成特徴データを利用することにより、マスタスレーブネットワークの性能が向上する。 提案するネットワークの性能は,合成データの追加前後の従来のDNNの性能と比較する。 従来のDNNでは最大14%の改善が見られ、提案手法の適合性を主張する平均精度93.5%の合成データの追加により、マスタースレーブネットワークが最大9%改善されている。

Recent advancements in diagnostic learning and development of gesture-based human machine interfaces have driven surface electromyography (sEMG) towards significant importance. Analysis of hand gestures requires an accurate assessment of sEMG signals. The proposed work presents a novel sequential master-slave architecture consisting of deep neural networks (DNNs) for classification of signs from the Indian sign language using signals recorded from multiple sEMG channels. The performance of the master-slave network is augmented by leveraging additional synthetic feature data generated by long short term memory networks. Performance of the proposed network is compared to that of a conventional DNN prior to and after the addition of synthetic data. Up to 14% improvement is observed in the conventional DNN and up to 9% improvement in master-slave network on addition of synthetic data with an average accuracy value of 93.5% asserting the suitability of the proposed approach.
翻訳日:2022-12-09 05:05:00 公開日:2020-04-27
# 集中治療室における視力状態の変化を識別・特徴付ける計算可能な表現型の開発

Development of Computable Phenotype to Identify and Characterize Transitions in Acuity Status in Intensive Care Unit ( http://arxiv.org/abs/2005.05163v1 )

ライセンス: Link先を確認
Yuanfeng Ren (1)(4), Tyler J. Loftus (2)(4), Rahul Sai Kasula (1)(4), Prudhvee Narasimha Sadha (1)(4), Parisa Rashidi (3)(4), Azra Bihorac (1)(4), and Tezcan Ozrazgat-Baslanti (1)(4) ((1) Department of Medicine, College of Medicine, University of Florida, Gainesville, FL, USA, (2) Department of Surgery, College of Medicine, University of Florida, Gainesville, FL, USA, (3) Crayton Pruitt Family Department of Biomedical Engineering, University of Florida, Gainesville, FL, (4) Precision and Intelligent Systems in Medicine (PrismaP), University of Florida, Gainesville, FL, USA)(参考訳) 背景: 米国では、毎年570万人の患者が集中治療室(ICU)に入院しており、費用は820億ドルを超える。 icuケアの重要な側面は、患者の視力の密接な監視と動的評価であるが、どちらも医療提供者に課される時間制限によって制限されている。 方法: フロリダ健康大学(UFH)統合データリポジトリをHonest Brokerとして使用し, UF HealthでICUを受けた成人38,749人を対象に, 06/01/2014~08/22/2019間の電子健康記録データを用いたデータベースを作成した。 本リポジトリは、人口統計情報、コンモビディティー、バイタルサイン、検査値、日付及びタイムスタンプ付き薬剤、すべてのインデックス入会者に対する診断および手続きコード、インデックス入会から12ヶ月以内に遭遇し、12ヶ月のフォローアップを含む。 ICU滞在中, 4時間毎に患者の体力状態を特定するアルゴリズムを開発した。 結果: 入院患者は383,193人(121,800人)、入院患者は51,073人(38,749人)で, 少なくとも1回のICU滞在期間は4時間以上であった。 icu入院を要した患者は入院期間の中央値(7日対1日)が長く、病院内死亡率(9.6%対0.4%)がicuに入院していない患者より高かった。 ICUに入院し、入院中に期限切れになった患者のうち、ICUでは一般病院の病棟(それぞれ7.4%対0.8%)よりも多くの死亡があった。 結論: ICU入院中, 4時間毎に患者の容積状態を決定する表現型アルゴリズムを開発した。 このアプローチは、患者、介護者、提供者を支援するための予後および臨床的意思決定支援ツールの開発に有用であり、リソース使用やケアのエスカレーションに関する共有意思決定プロセスにおいて有用である。

Background: In the United States, 5.7 million patients are admitted annually to intensive care units (ICU), with costs exceeding $82 billion. Although close monitoring and dynamic assessment of patient acuity are key aspects of ICU care, both are limited by the time constraints imposed on healthcare providers. Methods: Using the University of Florida Health (UFH) Integrated Data Repository as Honest Broker, we created a database with electronic health records data from a retrospective study cohort of 38,749 adult patients admitted to ICU at UF Health between 06/01/2014 and 08/22/2019. This repository includes demographic information, comorbidities, vital signs, laboratory values, medications with date and timestamps, and diagnoses and procedure codes for all index admission encounters as well as encounters within 12 months prior to index admission and 12 months follow-up. We developed algorithms to identify acuity status of the patient every four hours during each ICU stay. Results: We had 383,193 encounters (121,800 unique patients) admitted to the hospital, and 51,073 encounters (38,749 unique patients) with at least one ICU stay that lasted more than four hours. These patients requiring ICU admission had longer median hospital stay (7 days vs. 1 day) and higher in-hospital mortality (9.6% vs. 0.4%) compared with those not admitted to the ICU. Among patients who were admitted to the ICU and expired during hospital admission, more deaths occurred in the ICU than on general hospital wards (7.4% vs. 0.8%, respectively). Conclusions: We developed phenotyping algorithms that determined patient acuity status every four hours while admitted to the ICU. This approach may be useful in developing prognostic and clinical decision-support tools to aid patients, caregivers, and providers in shared decision-making processes regarding resource use and escalation of care.
翻訳日:2022-12-09 05:04:44 公開日:2020-04-27
# 画像モード間の翻訳による内視鏡的意思決定支援システムの改善

Improving Endoscopic Decision Support Systems by Translating Between Imaging Modalities ( http://arxiv.org/abs/2004.12604v1 )

ライセンス: Link先を確認
Georg Wimmer, Michael Gadermayr, Andreas V\'ecsei, Andreas Uhl(参考訳) 新しいイメージング技術は、コンピュータ支援意思決定支援システムの適応に関する多くの疑問を提起する。 改良されたテクニックの可能性を最大限に活用するために、分類モデルはスクラッチから適応するか、あるいは新しく訓練する必要がある。 どちらのオプションも通常、新しいラベル付きトレーニングデータを取得する必要がある。 本研究では,従来の白光画像と狭帯域画像の異なる画像モダリティを示す内視鏡画像への画像-画像変換の適用性について検討する。 コンピュータ支援セリアック病診断の研究において,画像から画像への翻訳がドメイン間の翻訳を効果的に行うことができるか検討する。 モデルが仮想(または仮想と実の混合)サンプルでトレーニング可能かどうかを調べ,ラベル付きトレーニングデータに制限のある設定で全体の精度を向上させる。 最後に,画像の他の領域への変換が,画像特性の強化を生かして精度を向上させることができるかどうかを問う。

Novel imaging technologies raise many questions concerning the adaptation of computer-aided decision support systems. Classification models either need to be adapted or even newly trained from scratch to exploit the full potential of enhanced techniques. Both options typically require the acquisition of new labeled training data. In this work we investigate the applicability of image-to-image translation to endoscopic images showing different imaging modalities, namely conventional white-light and narrow-band imaging. In a study on computer-aided celiac disease diagnosis, we explore whether image-to-image translation is capable of effectively performing the translation between the domains. We investigate if models can be trained on virtual (or a mixture of virtual and real) samples to improve overall accuracy in a setting with limited labeled training data. Finally, we also ask whether a translation of testing images to another domain is capable of improving accuracy by exploiting the enhanced imaging characteristics.
翻訳日:2022-12-09 05:02:14 公開日:2020-04-27
# 異常検出のためのデータ駆動型データセンタグラフの構築

Data-Driven Construction of Data Center Graph of Things for Anomaly Detection ( http://arxiv.org/abs/2004.12540v1 )

ライセンス: Link先を確認
Hao Zhang, Zhan Li, Zhixing Ren(参考訳) データセンター(dc)はit機器と設備機器の両方を含み、dcの運用には高品質の監視(異常検知)システムが必要である。 dc監視システムのコンピュータルームには多くのセンサーがあり、それらは本質的に関連している。 本研究は,センサの時系列測定から直流グラフ(センサグラフ)を構築するためのデータ駆動パイプライン(ts2graph)を提案する。 センサグラフは、センサがノードであり、センサーの特徴がノード特性であり、センサ接続がエッジである、非方向の重み付きプロパティグラフである。 センサノード特性は、元の時系列ではなく、センサイベント(挙動)を特徴付ける特徴によって定義される。 センサ接続(エッジウェイト)は、2つのセンサ間の同時イベントの確率によって定義される。 プロトタイプのグラフは、実際のデータセンターのセンサー時系列から構築され、センサー間の有意義な関係を明らかにすることに成功している。 異常検出に直流センサグラフを用いることを実証するために,グラフニューラルネットワーク(GNN)と,合成異常データに対する既存の標準手法の性能を比較した。 GNNは、直流センサ間のトポロジの関係を考慮して、既存のアルゴリズムを2から3(精度とF1スコア)で上回っている。 我々は,直流センサグラフがセンサ関係を表すため,直流監視システムの基盤となることを期待する。

Data center (DC) contains both IT devices and facility equipment, and the operation of a DC requires a high-quality monitoring (anomaly detection) system. There are lots of sensors in computer rooms for the DC monitoring system, and they are inherently related. This work proposes a data-driven pipeline (ts2graph) to build a DC graph of things (sensor graph) from the time series measurements of sensors. The sensor graph is an undirected weighted property graph, where sensors are the nodes, sensor features are the node properties, and sensor connections are the edges. The sensor node property is defined by features that characterize the sensor events (behaviors), instead of the original time series. The sensor connection (edge weight) is defined by the probability of concurrent events between two sensors. A graph of things prototype is constructed from the sensor time series of a real data center, and it successfully reveals meaningful relationships between the sensors. To demonstrate the use of the DC sensor graph for anomaly detection, we compare the performance of graph neural network (GNN) and existing standard methods on synthetic anomaly data. GNN outperforms existing algorithms by a factor of 2 to 3 (in terms of precision and F1 score), because it takes into account the topology relationship between DC sensors. We expect that the DC sensor graph can serve as the infrastructure for the DC monitoring system since it represents the sensor relationships.
翻訳日:2022-12-09 04:55:41 公開日:2020-04-27
# 実世界のロボット強化学習の成果

The Ingredients of Real-World Robotic Reinforcement Learning ( http://arxiv.org/abs/2004.12570v1 )

ライセンス: Link先を確認
Henry Zhu, Justin Yu, Abhishek Gupta, Dhruv Shah, Kristian Hartikainen, Avi Singh, Vikash Kumar, Sergey Levine(参考訳) 実世界のロボット工学における強化学習の成功は、多くの場合、実験室のシナリオに限られており、しばしば、厳しい人間の努力を必要とし、継続的な学習を可能にするために監督されている。 本研究では,実世界で収集されたデータを用いて,継続的に自律的に改善できるロボット学習システムに必要な要素について議論する。 我々は,このようなシステムの特定のインスタンス化について,デクスタース操作を事例として提案する。 その後,楽器を使わずに学習する際に生じる課題について検討する。 このような設定では、手動で設計したリセット、オンボードでの認識のみの使用、手動の報酬機能無しで学習が実現できなければならない。 我々は,これらの課題に対するシンプルでスケーラブルなソリューションを提案し,提案システムの有効性をロボット操作タスクで実証し,この学習パラダイムに関連する課題を詳細に分析する。 我々は人間の介入なしに学習できることを実証し、現実世界の3本指で様々な視覚ベースのスキルを習得する。 結果とビデオはhttps://sites.google.com/view/realworld-rl/で見ることができる。

The success of reinforcement learning for real world robotics has been, in many cases limited to instrumented laboratory scenarios, often requiring arduous human effort and oversight to enable continuous learning. In this work, we discuss the elements that are needed for a robotic learning system that can continually and autonomously improve with data collected in the real world. We propose a particular instantiation of such a system, using dexterous manipulation as our case study. Subsequently, we investigate a number of challenges that come up when learning without instrumentation. In such settings, learning must be feasible without manually designed resets, using only on-board perception, and without hand-engineered reward functions. We propose simple and scalable solutions to these challenges, and then demonstrate the efficacy of our proposed system on a set of dexterous robotic manipulation tasks, providing an in-depth analysis of the challenges associated with this learning paradigm. We demonstrate that our complete system can learn without any human intervention, acquiring a variety of vision-based skills with a real-world three-fingered hand. Results and videos can be found at https://sites.google.com/view/realworld-rl/
翻訳日:2022-12-09 04:55:19 公開日:2020-04-27
# 特徴の離散化に関する実証的研究

An Empirical Study on Feature Discretization ( http://arxiv.org/abs/2004.12602v1 )

ライセンス: Link先を確認
Qiang Liu and Zhaocheng Liu and Haoli Zhang(参考訳) 連続的な数値化を扱う場合、通常、特徴の離散化を採用する。 本研究では,特徴離散化を行う最善の方法を見つけるために,特徴離散化の正しさと堅牢性を分析することに焦点を当てた理論的解析を行う。 そこで我々はLLE(Local Linear Encoding)と呼ばれる新しい離散化手法を提案する。 2つの数値データセットに関する実験は、lleが従来の離散化法をはるかに少ないモデルパラメータで上回ることを示した。

When dealing with continuous numeric features, we usually adopt feature discretization. In this work, to find the best way to conduct feature discretization, we present some theoretical analysis, in which we focus on analyzing correctness and robustness of feature discretization. Then, we propose a novel discretization method called Local Linear Encoding (LLE). Experiments on two numeric datasets show that, LLE can outperform conventional discretization method with much fewer model parameters.
翻訳日:2022-12-09 04:55:02 公開日:2020-04-27
# 理論から行動へ: エンゲージメントの一般的なモデルに向けて

From Theory to Behaviour: Towards a General Model of Engagement ( http://arxiv.org/abs/2004.12644v1 )

ライセンス: Link先を確認
Valerio Bonometti, Charles Ringer, Mathieu Ruiz, Alex Wade, Anders Drachen(参考訳) エンゲージメントはファジィなコンセプトです。 本研究は,人間行動に直接リンクすることで,エンゲージメントを機械的に操作し,データ駆動手法の形状と解釈にエンゲージメントの構成を利用できることを示す。 まず、エンゲージメントモデリングのための正式なフレームワークを概説する。 次に、新しいモデリング手法であるMelchoir Modelを提案し、エンゲージメントプロセスをより良くモデル化するために、理論にインスパイアされたデータ駆動アプローチに関する以前の研究を拡張しました。 第3に,モデル比較とインスペクションを通じて,機械学習モデルと基礎となる理論的枠組みをリンクする方法を説明する。 最後に,理論駆動仮説に照らして結果を議論し,産業における我々の活動の潜在的応用を強調する。

Engagement is a fuzzy concept. In the present work we operationalize engagement mechanistically by linking it directly to human behaviour and show that the construct of engagement can be used for shaping and interpreting data-driven methods. First we outline a formal framework for engagement modelling. Second we expanded on our previous work on theory-inspired data-driven approaches to better model the engagement process by proposing a new modelling technique, the Melchoir Model. Third, we illustrate how, through model comparison and inspection, we can link machine-learned models and underlying theoretical frameworks. Finally we discuss our results in light of a theory-driven hypothesis and highlight potential application of our work in industry.
翻訳日:2022-12-09 04:54:53 公開日:2020-04-27
# 深部補間ネットワークの生理時系列クラスタリングへの応用

Application of Deep Interpolation Network for Clustering of Physiologic Time Series ( http://arxiv.org/abs/2004.13066v1 )

ライセンス: Link先を確認
Yanjun Li (4)(5), Yuanfang Ren (1)(5), Tyler J. Loftus (2,5), Shounak Datta (1) (5), M. Ruppert (1)(5), Ziyuan Guan (1)(5), Dapeng Wu (4), Parisa Rashidi (3)(5), Tezcan Ozrazgat-Baslanti (1)(5)(6), and Azra Bihorac (3)(5)(6) ((1) Department of Medicine, Division of Nephrology, Hypertension, and Renal Transplantation, University of Florida, Gainesville, FL. (2) Department of Surgery, University of Florida, Gainesville, FL. (3) J. Crayton Pruitt Family Department of Biomedical Engineering, University of Florida, Gainesville, FL. (4) NSF Center for Big Learning, University of Florida, Gainesville, FL. (5) Precision and Intelligent Systems in Medicine (PrismaP), University of Florida, Gainesville, FL (6) Sepsis and Critical Illness Research Center, University of Florida, Gainesville, FL. )(参考訳) 背景: 入院初期, 臨床医は患者視力の発達に伴い, 診断・治療の判断に限られた情報を使用しなければならない。 しかし, 患者が疎外かつ不規則に収集されることは, 臨床医がヒトの健康状態を改善するために分析・促進するための機械/ディープラーニング技術に重大な課題をもたらすことが一般的である。 そこで本研究では,病院入所6時間以内に測定された不規則かつ不規則な時系列バイタルサインから潜在表現を抽出する新しい深層補間ネットワークを提案する。 方法: トレーニング用データセットの55%, 検証用23%, 検査用22%を用いて, 3次ケアセンターに入院した成人患者(n=75,762)全員を対象に, 電子健康記録データの単一中心縦断データセットを作成した。 入院6時間以内の生の時系列は6つの生命徴候(収縮期血圧、拡張期血圧、心拍数、温度、血液酸素飽和度、呼吸数)で抽出された。 このような不規則かつスパースな多変量時系列データから、固定された低次元潜在パターンを抽出するために、深い補間ネットワークを提案する。 k-meansクラスタリングアルゴリズムを用いて入院患者を7つのクラスタに分類した。 発見: トレーニング, 検証, テストコホートは, 同様の年齢(55~57歳), 性(55%) および入院バイタルサインを有していた。 7つの異なるクラスターが同定された。 M解釈: 入院患者の異種コホートにおいて, 深層補間ネットワークは入院6時間以内に測定されたバイタルサインデータから表現を抽出した。 このアプローチは、時間的制約と不確実性の下で臨床決定支援に重要な意味を持つかもしれない。

Background: During the early stages of hospital admission, clinicians must use limited information to make diagnostic and treatment decisions as patient acuity evolves. However, it is common that the time series vital sign information from patients to be both sparse and irregularly collected, which poses a significant challenge for machine / deep learning techniques to analyze and facilitate the clinicians to improve the human health outcome. To deal with this problem, We propose a novel deep interpolation network to extract latent representations from sparse and irregularly sampled time-series vital signs measured within six hours of hospital admission. Methods: We created a single-center longitudinal dataset of electronic health record data for all (n=75,762) adult patient admissions to a tertiary care center lasting six hours or longer, using 55% of the dataset for training, 23% for validation, and 22% for testing. All raw time series within six hours of hospital admission were extracted for six vital signs (systolic blood pressure, diastolic blood pressure, heart rate, temperature, blood oxygen saturation, and respiratory rate). A deep interpolation network is proposed to learn from such irregular and sparse multivariate time series data to extract the fixed low-dimensional latent patterns. We use k-means clustering algorithm to clusters the patient admissions resulting into 7 clusters. Findings: Training, validation, and testing cohorts had similar age (55-57 years), sex (55% female), and admission vital signs. Seven distinct clusters were identified. M Interpretation: In a heterogeneous cohort of hospitalized patients, a deep interpolation network extracted representations from vital sign data measured within six hours of hospital admission. This approach may have important implications for clinical decision-support under time constraints and uncertainty.
翻訳日:2022-12-09 04:54:16 公開日:2020-04-27
# 機械学習に基づくモバイルネットワークのスループット分類

Machine Learning Based Mobile Network Throughput Classification ( http://arxiv.org/abs/2004.13148v1 )

ライセンス: Link先を確認
Lauri Alho, Adrian Burian, Janne Helenius, Joni Pajarinen(参考訳) 4gセル内のモバイルネットワークの問題を識別することは、ネットワークの複雑さが増すにつれて難しくなり、プライバシーの懸念によってデータの情報コンテンツが制限される。 本稿では,ネットワークスループットに根本的な問題がある4Gセルを同定するためのデータ駆動モデルを提案する。 提案モデルでは,クラスタリングとディープニューラルネットワーク(dnn)を活用する。 モデルパラメータは、少数のエキスパートラベルデータを使用して学習される。 ケース固有の分類を実現するために,問題細胞に共通する特徴をキャプチャするために,複数のクラスタリングモデルブロックを含むモデルを提案する。 このブロックのキャプチャされた機能は、DNNへの入力として使用される。 実験により,提案モデルがネットワークスループット問題のあるセルの識別において,単純な分類器よりも優れていることを示した。 著者の知識を最大限に活用するために,サービス提供者側からのみ収集された情報を用いて,セルレベルでネットワークスループットの分類を行う,関連研究は存在しない。

Identifying mobile network problems in 4G cells is more challenging when the complexity of the network increases, and privacy concerns limit the information content of the data. This paper proposes a data driven model for identifying 4G cells that have fundamental network throughput problems. The proposed model takes advantage of clustering and Deep Neural Networks (DNNs). Model parameters are learnt using a small number of expert-labeled data. To achieve case specific classification, we propose a model that contains a multiple clustering models block, for capturing features common for problematic cells. The captured features of this block are then used as an input to a DNN. Experiments show that the proposed model outperforms a simple classifier in identifying cells with network throughput problems. To the best of the authors' knowledge, there is no related research where network throughput classification is performed on the cell level with information gathered only from the service provider's side.
翻訳日:2022-12-09 04:53:32 公開日:2020-04-27
# 原子分解能タンパク質コンホメーションのエネルギーモデル

Energy-based models for atomic-resolution protein conformations ( http://arxiv.org/abs/2004.13167v1 )

ライセンス: Link先を確認
Yilun Du, Joshua Meier, Jerry Ma, Rob Fergus, Alexander Rives(参考訳) 原子スケールで動作するタンパク質コンホメーションのエネルギーモデル(EBM)を提案する。 このモデルは結晶化されたタンパク質のデータにのみ訓練されている。 対照的に、既存のコンフォメーションをスコアリングするアプローチでは、数十年にわたる研究とチューニングの複雑な産物である物理的原理と特徴の知識を組み込んだエネルギー関数を使用する。 本モデルを評価するために, タンパク質設計のためのエネルギー関数の評価に用いられているタンパク質構造において, 側鎖のコンフォーメーションをそのコンテキストから予測する問題であるロタマー回収タスクをベンチマークした。 このモデルは、タンパク質構造予測と設計に広く用いられている最先端の手法であるロゼッタエネルギー関数に近い性能を達成する。 モデル出力と隠された表現の研究により、タンパク質エネルギーに関連する物理化学的性質を捉えることが判明した。

We propose an energy-based model (EBM) of protein conformations that operates at atomic scale. The model is trained solely on crystallized protein data. By contrast, existing approaches for scoring conformations use energy functions that incorporate knowledge of physical principles and features that are the complex product of several decades of research and tuning. To evaluate the model, we benchmark on the rotamer recovery task, the problem of predicting the conformation of a side chain from its context within a protein structure, which has been used to evaluate energy functions for protein design. The model achieves performance close to that of the Rosetta energy function, a state-of-the-art method widely used in protein structure prediction and design. An investigation of the model's outputs and hidden representations finds that it captures physicochemical properties relevant to protein energy.
翻訳日:2022-12-09 04:53:19 公開日:2020-04-27
# 医療AIの校正 - 信頼性と解釈可能な深層予測モデルを目指して

Calibrating Healthcare AI: Towards Reliable and Interpretable Deep Predictive Models ( http://arxiv.org/abs/2004.14480v1 )

ライセンス: Link先を確認
Jayaraman J. Thiagarajan, Prasanna Sattigeri, Deepta Rajan and Bindya Venkatesh(参考訳) 臨床意思決定における表現学習技術の広範採用は、モデルの信頼性を特徴づける必要性を強調し、厳密なモデル行動検査を可能にする。 前者のニーズはしばしば不確実な定量化戦略を取り入れることで対処されるが、後者の課題は幅広い解釈可能性技術を用いて対処される。 本稿では,これら2つの目的が必ずしも不一致ではないことを議論し,両目的を満たすための予測校正の活用を提案する。 より具体的には、このアプローチは校正駆動学習法で構成されており、これは反事実推論に基づく解釈可能性技法を設計するためにも用いられる。 さらに,モデル信頼性の総合評価機構である「textit{reliability plots」を導入する。 皮膚内視鏡画像を用いた病変分類問題を用いて,本手法の有効性を示し,モデル行動に関する興味深い知見を推察する。

The wide-spread adoption of representation learning technologies in clinical decision making strongly emphasizes the need for characterizing model reliability and enabling rigorous introspection of model behavior. While the former need is often addressed by incorporating uncertainty quantification strategies, the latter challenge is addressed using a broad class of interpretability techniques. In this paper, we argue that these two objectives are not necessarily disparate and propose to utilize prediction calibration to meet both objectives. More specifically, our approach is comprised of a calibration-driven learning method, which is also used to design an interpretability technique based on counterfactual reasoning. Furthermore, we introduce \textit{reliability plots}, a holistic evaluation mechanism for model reliability. Using a lesion classification problem with dermoscopy images, we demonstrate the effectiveness of our approach and infer interesting insights about the model behavior.
翻訳日:2022-12-09 04:47:12 公開日:2020-04-27
# 複数領域判別器と適応自己学習を用いた教師なしドメイン適応

Unsupervised Domain Adaptation with Multiple Domain Discriminators and Adaptive Self-Training ( http://arxiv.org/abs/2004.12724v1 )

ライセンス: Link先を確認
Teo Spadotto, Marco Toldo, Umberto Michieli and Pietro Zanuttigh(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースドメインでトレーニングされたモデルの一般化能力を改善し、ラベル付きデータが使用できないターゲットドメインでうまく機能することを目的としている。 本稿では,都市景観のセマンティックセグメンテーションを考察し,合成データに基づいて訓練されたディープニューラルネットワークを,2つの異なるデータ分布間のドメインシフトに対応する実際のシーンに適応させるアプローチを提案する。 本稿では,ラベル付き合成データに対する標準教師付き損失を敵モジュールによって支援する新しいudaフレームワークと,これら2つのドメイン分布の整合を目的とした自己学習戦略を提案する。 逆加群は、異なる領域を扱う2つの完全畳み込み型判別器によって駆動される: 1つ目は基底真理と生成地図を区別し、もう1つは合成または実世界データからのセグメンテーションマップである。 自己学習モジュールは、ラベルのないデータに基づいて識別者が推定した信頼度を利用して、学習プロセスを強化するために使用する領域を選択する。 さらに、クラス毎全体の信頼度に基づく適応機構により、信頼度をしきい値とする。 gta5やsynthiaのような合成データセットで訓練されたセグメンテーションネットワークをcityscapesやmapillaryのような現実世界のデータセットに適用する手法の有効性を実験的に証明した。

Unsupervised Domain Adaptation (UDA) aims at improving the generalization capability of a model trained on a source domain to perform well on a target domain for which no labeled data is available. In this paper, we consider the semantic segmentation of urban scenes and we propose an approach to adapt a deep neural network trained on synthetic data to real scenes addressing the domain shift between the two different data distributions. We introduce a novel UDA framework where a standard supervised loss on labeled synthetic data is supported by an adversarial module and a self-training strategy aiming at aligning the two domain distributions. The adversarial module is driven by a couple of fully convolutional discriminators dealing with different domains: the first discriminates between ground truth and generated maps, while the second between segmentation maps coming from synthetic or real world data. The self-training module exploits the confidence estimated by the discriminators on unlabeled data to select the regions used to reinforce the learning process. Furthermore, the confidence is thresholded with an adaptive mechanism based on the per-class overall confidence. Experimental results prove the effectiveness of the proposed strategy in adapting a segmentation network trained on synthetic datasets like GTA5 and SYNTHIA, to real world datasets like Cityscapes and Mapillary.
翻訳日:2022-12-09 04:46:47 公開日:2020-04-27
# IntelのPohoiki Springsを用いたニューロモルフィック近接探索

Neuromorphic Nearest-Neighbor Search Using Intel's Pohoiki Springs ( http://arxiv.org/abs/2004.12691v1 )

ライセンス: Link先を確認
E. Paxon Frady, Garrick Orchard, David Florey, Nabil Imam, Ruokun Liu, Joyesh Mishra, Jonathan Tse, Andreas Wild, Friedrich T. Sommer, Mike Davies(参考訳) ニューロモルフィックコンピューティングは、コンピュータ技術の革新を明らかにするために神経科学からの洞察を適用している。 脳では、何十億もの相互接続されたニューロンが、時間的スパイクコードやメモリと計算を統合した微細並列処理ユニットといった従来の計算システムとは別の特性を利用して、非常に低いエネルギーレベルで高速に計算を行う。 ここでは768個の相互接続されたLoihiチップのメッシュであるPohoiki Springsニューロモルフィックシステムを紹介します。 ニューロモルフィック原理を利用する大規模データベースを探索するためのスケーラブルな近似k-nearest neighbor (k-nn)アルゴリズムを示す。 従来のCPUベースの実装と比較して、100万以上の高次元パターンを含むいくつかの標準データセットで評価すると、レイテンシ、インデックス構築時間、エネルギー効率が向上する。 さらに,従来のk-NN実装と異なり,オンラインのインデックスデータベースに新たなデータポイントをO(1)時間で追加する機能も備えている。

Neuromorphic computing applies insights from neuroscience to uncover innovations in computing technology. In the brain, billions of interconnected neurons perform rapid computations at extremely low energy levels by leveraging properties that are foreign to conventional computing systems, such as temporal spiking codes and finely parallelized processing units integrating both memory and computation. Here, we showcase the Pohoiki Springs neuromorphic system, a mesh of 768 interconnected Loihi chips that collectively implement 100 million spiking neurons in silicon. We demonstrate a scalable approximate k-nearest neighbor (k-NN) algorithm for searching large databases that exploits neuromorphic principles. Compared to state-of-the-art conventional CPU-based implementations, we achieve superior latency, index build time, and energy efficiency when evaluated on several standard datasets containing over 1 million high-dimensional patterns. Further, the system supports adding new data points to the indexed database online in O(1) time unlike all but brute force conventional k-NN implementations.
翻訳日:2022-12-09 04:45:51 公開日:2020-04-27
# ファインマン方程式を用いた次元認識型遺伝的プログラミングのフィットネス景観解析

Fitness Landscape Analysis of Dimensionally-Aware Genetic Programming Featuring Feynman Equations ( http://arxiv.org/abs/2004.12762v1 )

ライセンス: Link先を確認
Marko Durasevic, Domagoj Jakobovic, Marcella Scoczynski Ribeiro Martins, Stjepan Picek, and Markus Wagner(参考訳) 遺伝的プログラミングは、よく使われる記号回帰の手法であり、未知の関数からのデータにマッチする記号表現を見つける。 シンボリック回帰をより効率的にするために、方程式の物理単位を制約する次元認識遺伝的プログラミングを使うこともできる。 それにもかかわらず、次元認識が回帰過程にどの程度役立つかに関する形式的な分析は存在しない。 本稿では、リチャード・ファインマンの有名な講義の方程式のサブセット上で、次元認識型遺伝的プログラミング探索空間のフィットネスランドスケープ解析を行う。 物理単位の制約内で局所探索を行うための初期化手順と周辺演算子のセットを定義する。 実験の結果,変数次元に関する付加情報は探索アルゴリズムを効率的に導くことができることがわかった。 それでも、次元認識と標準遺伝プログラミングのランドスケープの違いのさらなる分析は、次元認識回帰に使用される効率的な進化的演算子の設計に役立てる必要がある。

Genetic programming is an often-used technique for symbolic regression: finding symbolic expressions that match data from an unknown function. To make the symbolic regression more efficient, one can also use dimensionally-aware genetic programming that constrains the physical units of the equation. Nevertheless, there is no formal analysis of how much dimensionality awareness helps in the regression process. In this paper, we conduct a fitness landscape analysis of dimensionallyaware genetic programming search spaces on a subset of equations from Richard Feynmans well-known lectures. We define an initialisation procedure and an accompanying set of neighbourhood operators for conducting the local search within the physical unit constraints. Our experiments show that the added information about the variable dimensionality can efficiently guide the search algorithm. Still, further analysis of the differences between the dimensionally-aware and standard genetic programming landscapes is needed to help in the design of efficient evolutionary operators to be used in a dimensionally-aware regression.
翻訳日:2022-12-09 04:45:36 公開日:2020-04-27
# 強化学習によるエネルギーハーベスティング型IoTセンサの経時的状態更新制御

Age-Aware Status Update Control for Energy Harvesting IoT Sensors via Reinforcement Learning ( http://arxiv.org/abs/2004.12684v1 )

ライセンス: Link先を確認
Mohammad Hatami, Mojtaba Jahandideh, Markus Leinonen and Marian Codreanu(参考訳) ユーザとセンサ間のゲートウェイとして機能する,複数のユーザ,複数のエネルギー回収センサ,ワイヤレスエッジノードを備えたIoTセンサネットワークを検討する。 ユーザは物理プロセスの価値に関する更新を要求し、それぞれが1つのセンサーで測定される。 エッジノードには、各センサから最近受信した計測データを格納するキャッシュストレージがある。 リクエストを受信すると、エッジノードは対応するセンサーにステータス更新を送信するように指示するか、キャッシュ内のデータを使用することができる。 我々は,情報時代とエネルギー消費のトレードオフが生じる平均的長期コストを最小化するために,エッジノードの最善の行動を見つけることを目的とする。 本稿では,センサの正確なバッテリレベルを知らずに最適方針を求める,実用的な強化学習手法を提案する。

We consider an IoT sensing network with multiple users, multiple energy harvesting sensors, and a wireless edge node acting as a gateway between the users and sensors. The users request for updates about the value of physical processes, each of which is measured by one sensor. The edge node has a cache storage that stores the most recently received measurements from each sensor. Upon receiving a request, the edge node can either command the corresponding sensor to send a status update, or use the data in the cache. We aim to find the best action of the edge node to minimize the average long-term cost which trade-offs between the age of information and energy consumption. We propose a practical reinforcement learning approach that finds an optimal policy without knowing the exact battery levels of the sensors.
翻訳日:2022-12-09 04:45:20 公開日:2020-04-27
# 動作の多様性:汎用マルチエージェント連続逆最適制御

Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal Control ( http://arxiv.org/abs/2004.12678v1 )

ライセンス: Link先を確認
Christian Muench, Frans A. Oliehoek, Dariu M. Gavrila(参考訳) トラフィックシナリオは本質的にインタラクティブです。 複数の意思決定者が他人の行動を予測し、報酬を最大化する戦略を選択する。 様々な課題を提起するゲーム理論の観点からこれらの相互作用を考察する。 人間は完全に合理的ではなく、その報酬は現実世界のデータから推測される必要があり、あらゆる予測アルゴリズムは、私たちが自律走行車(AV)で使用できるようにリアルタイムでなければならない。 そこで本研究では,上述のすべてのポイントに対応するゲーム理論的な手法を提案する。 AVに使われている多くの既存手法と比較して、我々のアプローチはそうである。 1)完璧なコミュニケーションを必要とせず 2) エージェントごとに個別の報酬を付与する。 我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。

Traffic scenarios are inherently interactive. Multiple decision-makers predict the actions of others and choose strategies that maximize their rewards. We view these interactions from the perspective of game theory which introduces various challenges. Humans are not entirely rational, their rewards need to be inferred from real-world data, and any prediction algorithm needs to be real-time capable so that we can use it in an autonomous vehicle (AV). In this work, we present a game-theoretic method that addresses all of the points above. Compared to many existing methods used for AVs, our approach does 1) not require perfect communication, and 2) allows for individual rewards per agent. Our experiments demonstrate that these more realistic assumptions lead to qualitatively and quantitatively different reward inference and prediction of future actions that match better with expected real-world behaviour.
翻訳日:2022-12-09 04:38:00 公開日:2020-04-27
# 合成勾配を用いた経験的ベイズ変換メタラーニング

Empirical Bayes Transductive Meta-Learning with Synthetic Gradients ( http://arxiv.org/abs/2004.12696v1 )

ライセンス: Link先を確認
Shell Xu Hu, Pablo G. Moreno, Yang Xiao, Xi Shen, Guillaume Obozinski, Neil D. Lawrence, Andreas Damianou(参考訳) 本稿では,各タスクに対してより強力なモデルを生成するためのサポートセットに加えて,ラベルのないクエリセットを活用することで,複数のタスクからトランスダクティブな設定で学習するメタラーニング手法を提案する。 本研究では,マルチタスク学習のための経験的ベイズ定式化について再考する。 経験ベイズの辺縁的ログ類似性のエビデンスの下限は、各タスクのクエリ集合上の変動後段と真の後段の間の局所的klの発散の和として分解される。 我々は,合成勾配ネットワークと初期化ネットワークからなるメタモデルにより,すべての変動後段を結合する新しい不定形変分推論法を導出する。 各変分後部は、真の勾配にアクセスできないにもかかわらず、クエリセット上の真の後部を近似するために合成勾配降下から導かれる。 エピソディック・マイズショット分類のためのmini-imagenetおよびcifar-fsベンチマークの結果は,従来の最先端手法を上回っている。 さらに、2つのゼロショット学習実験を行い、合成勾配のポテンシャルをさらに探求する。

We propose a meta-learning approach that learns from multiple tasks in a transductive setting, by leveraging the unlabeled query set in addition to the support set to generate a more powerful model for each task. To develop our framework, we revisit the empirical Bayes formulation for multi-task learning. The evidence lower bound of the marginal log-likelihood of empirical Bayes decomposes as a sum of local KL divergences between the variational posterior and the true posterior on the query set of each task. We derive a novel amortized variational inference that couples all the variational posteriors via a meta-model, which consists of a synthetic gradient network and an initialization network. Each variational posterior is derived from synthetic gradient descent to approximate the true posterior on the query set, although where we do not have access to the true gradient. Our results on the Mini-ImageNet and CIFAR-FS benchmarks for episodic few-shot classification outperform previous state-of-the-art methods. Besides, we conduct two zero-shot learning experiments to further explore the potential of the synthetic gradient.
翻訳日:2022-12-09 04:37:49 公開日:2020-04-27
# 生涯学習プロセス: 自己記憶監視と動的成長ネットワーク

Lifelong Learning Process: Self-Memory Supervising and Dynamically Growing Networks ( http://arxiv.org/abs/2004.12731v1 )

ライセンス: Link先を確認
Youcheng Huang and Tangchen Wei and Jundong Zhou and Chunxin Yang(参考訳) 幼少期から青年期にかけて、人間は徐々に世界を知るようになる。 しかし、ニューラルネットワークにとって、この成長過程は困難に思える。 破滅的な忘れ物で追跡された現在の研究者は、すべてのカテゴリのデータをトレーニングプロセス全体で同じ構造であるニューラルネットワークにフィードする。 このトレーニングプロセスと人間の学習パターンを比較し、2つの大きな衝突を見つけます。 本稿では,条件付き変分オートエンコーダ(CVAE)モデルに基づく生成モデルにおけるこれらの競合を解決する方法について検討する。 不連続な競合を解決するため、我々は、見えない使用カテゴリーにおけるモデルの認識と生成能力を維持するためにメモリ再生戦略を適用した。 また,従来の単方向CVAEを循環モードに拡張し,メモリ再生戦略をより良くする。 このような「死」構造衝突を解決するため、CVAE式を書き換え、CVAEモデルの異なる部分の振舞いについて新しい解釈をすることができる。 新たな理解に基づいて,新たなカテゴリのトレーニングを行う際のネットワーク構造を動的に拡張する方法を見出す。 mnist と fashion mnist に対する提案手法の有効性を検証し,非常に謎めいた結果を示す。

From childhood to youth, human gradually come to know the world. But for neural networks, this growing process seems difficult. Trapped in catastrophic forgetting, current researchers feed data of all categories to a neural network which remains the same structure in the whole training process. We compare this training process with human learing patterns, and find two major conflicts. In this paper, we study how to solve these conflicts on generative models based on the conditional variational autoencoder(CVAE) model. To solve the uncontinuous conflict, we apply memory playback strategy to maintain the model's recognizing and generating ability on invisible used categories. And we extend the traditional one-way CVAE to a circulatory mode to better accomplish memory playback strategy. To solve the `dead' structure conflict, we rewrite the CVAE formula then are able to make a novel interpretation about the funtions of different parts in CVAE models. Based on the new understanding, we find ways to dynamically extend the network structure when training on new categories. We verify the effectiveness of our methods on MNIST and Fashion MNIST and display some very insteresting results.
翻訳日:2022-12-09 04:37:33 公開日:2020-04-27
# セトロイド自己融解階層型ファジィc-平均クラスタリング

A Centroid Auto-Fused Hierarchical Fuzzy c-Means Clustering ( http://arxiv.org/abs/2004.12756v1 )

ライセンス: Link先を確認
Yunxia Lin, Songcan Chen(参考訳) k-meansやGaussian Mixture Model(GMM)と同様に、ソフトパーティションを持つファジィc-means(FCM)も一般的なクラスタリングアルゴリズムとなり、現在も広く研究されている。 しかし、これらのアルゴリズムとその変種は、クラスタリング品質の重要な要因である最適なクラスタ数の決定など、いくつかの困難に悩まされている。 この困難を克服するための一般的なアプローチは、全ての整数を$\sqrt{n}$ 2 のような大きな数から、あるクラスタの妥当性指数のピーク値に対応する最適な数を見つけるまでトラバースするという試行と検証の戦略を使うことである。 しかし,適応的な階層的クラスタ構造をトライアル・アンド・バリデーション戦略を用いて自然に構築することは不可能である。 可能であっても、既存の異なる妥当性指標は異なる数のクラスタをもたらす。 そこで,本研究では,クラスタ階層を形成するための最適化手順が自動的に集積され,有効性指標に頼らずに最適なクラスタ数が得られるセンタロイド自己融合階層型ファジィc-means法(caf-hfcm)を提案する。 最近発表されたロバスト学習型ファジィc-means (rl-fcm) は、有効性指標を必要とせずに、最適なクラスタ数を自動的に得ることができるが、このような3つのハイパーパラメータは高価な調整が必要となる。 さらに,最適化目標の付加的な利点として,caf-hfcmはクラスタリング性能の初期化に対する感度を効果的に低減する。 さらに,提案手法はFCMの様々な変種に容易に拡張できる。

Like k-means and Gaussian Mixture Model (GMM), fuzzy c-means (FCM) with soft partition has also become a popular clustering algorithm and still is extensively studied. However, these algorithms and their variants still suffer from some difficulties such as determination of the optimal number of clusters which is a key factor for clustering quality. A common approach for overcoming this difficulty is to use the trial-and-validation strategy, i.e., traversing every integer from large number like $\sqrt{n}$ to 2 until finding the optimal number corresponding to the peak value of some cluster validity index. But it is scarcely possible to naturally construct an adaptively agglomerative hierarchical cluster structure as using the trial-and-validation strategy. Even possible, existing different validity indices also lead to different number of clusters. To effectively mitigate the problems while motivated by convex clustering, in this paper we present a Centroid Auto-Fused Hierarchical Fuzzy c-means method (CAF-HFCM) whose optimization procedure can automatically agglomerate to form a cluster hierarchy, more importantly, yielding an optimal number of clusters without resorting to any validity index. Although a recently-proposed robust-learning fuzzy c-means (RL-FCM) can also automatically obtain the best number of clusters without the help of any validity index, so-involved 3 hyper-parameters need to adjust expensively, conversely, our CAF-HFCM involves just 1 hyper-parameter which makes the corresponding adjustment is relatively easier and more operational. Further, as an additional benefit from our optimization objective, the CAF-HFCM effectively reduces the sensitivity to the initialization of clustering performance. Moreover, our proposed CAF-HFCM method is able to be straightforwardly extended to various variants of FCM.
翻訳日:2022-12-09 04:37:14 公開日:2020-04-27
# 極端学習機械における複数の隠れノードに対する効率的な逆フリーインクリメンタル・デクリメンタルアルゴリズム

Efficient Inverse-Free Incremental and Decremental Algorithms for Multiple Hidden Nodes in Extreme Learning Machine ( http://arxiv.org/abs/2004.13023v1 )

ライセンス: Link先を確認
Hufei Zhu(参考訳) 4] で提案されている逆フリーエクストリームラーニングマシン (inverse-free extreme learning machine, elm) アルゴリズムは、逆フリーな再帰的アルゴリズムから導出され、エルミート行列の逆数を更新する正規化擬似逆数を計算する逆フリーアルゴリズムに基づいている。 その再帰的アルゴリズムが [4] に適用される前に、その改良版は以前の文献 [9], [10] で利用されていた。 改良された再帰アルゴリズム [9], [10] から, [13] において計算複雑性を低減するために, ELM の効率的な逆フリーアルゴリズムが提案された。 本稿では,tikhonov正規化を伴うelmの逆フリーな2つのアルゴリズムを提案する。 一方,tikhonov正則化を用いたelmのための2つの効率的なデクリメント学習アルゴリズムを提案する。

The inverse-free extreme learning machine (ELM) algorithm proposed in [4] was based on an inverse-free algorithm to compute the regularized pseudo-inverse, which was deduced from an inverse-free recursive algorithm to update the inverse of a Hermitian matrix. Before that recursive algorithm was applied in [4], its improved version had been utilized in previous literatures [9], [10]. Accordingly from the improved recursive algorithm [9], [10], several efficient inverse-free algorithms for ELM were proposed in [13] to reduce the computational complexity. In this paper, we propose two inverse-free algorithms for ELM with Tikhonov regularization, which can increase multiple hidden nodes in an iteration. On the other hand, we also propose two efficient decremental learning algorithms for ELM with Tikhonov regularization, which can remove multiple redundant nodes in an iteration.
翻訳日:2022-12-09 04:35:37 公開日:2020-04-27
# 帯域フィードバックを用いた位置ベースモデルのランク付け学習

Learning to Rank in the Position Based Model with Bandit Feedback ( http://arxiv.org/abs/2004.13106v1 )

ライセンス: Link先を確認
Beyza Ermis, Patrick Ernst, Yannik Stein, Giovanni Zappella(参考訳) パーソナライズは多くのオンライン体験において重要な側面である。 特に、コンテンツランキングは、洗練されたパーソナライズ結果を提供する上で重要な要素であることが多い。 一般的には、ランキング作成を担当するプロダクションシステムによるデータ収集中に引き起こされるバイアスに苦しむ教師付き学習からランクへの方法が適用される。 この問題を補うために,コンテキスト型マルチアームバンディットを利用する。 我々は2つのよく知られたアルゴリズムの新たな拡張を提案する。 linucb と linear thompson sampling to the ranking use-case の略。 生産環境におけるバイアスを考慮するために, 位置ベースのクリックモデルを用いる。 最後に,オンラインA/B実験に直面する顧客だけでなく,合成データセットに対する広範囲なオフライン実験を行うことにより,提案アルゴリズムの有効性を示す。

Personalization is a crucial aspect of many online experiences. In particular, content ranking is often a key component in delivering sophisticated personalization results. Commonly, supervised learning-to-rank methods are applied, which suffer from bias introduced during data collection by production systems in charge of producing the ranking. To compensate for this problem, we leverage contextual multi-armed bandits. We propose novel extensions of two well-known algorithms viz. LinUCB and Linear Thompson Sampling to the ranking use-case. To account for the biases in a production environment, we employ the position-based click model. Finally, we show the validity of the proposed algorithms by conducting extensive offline experiments on synthetic datasets as well as customer facing online A/B experiments.
翻訳日:2022-12-09 04:35:18 公開日:2020-04-27
# 聞く価値のない人: エンドユーザーのチームからのフィードバックで定期的に分類器を再トレーニングする

Some people aren't worth listening to: periodically retraining classifiers with feedback from a team of end users ( http://arxiv.org/abs/2004.13152v1 )

ライセンス: Link先を確認
Joshua Lockhart, Samuel Assefa, Tucker Balch, Manuela Veloso(参考訳) 文書分類はビジネス環境ではユビキタスですが、分類器のエンドユーザは、それを維持するチームとの継続的なフィードバック-リトラクションループに従事します。 分類器が提供するラベル付きデータに対するフィードバックを提供する自律エージェントとしてエンドユーザーを考慮し、マルチエージェントの観点からこのフィードバック・リトレーニング・ループを考察する。 これにより、誤ったフィードバックを提供する信頼性の低いエンドユーザの分類器のパフォーマンスへの影響を検証できます。 我々は、どのユーザが信頼できないかを知り、ループからフィードバックをフィルタリングし、その後のイテレーションでパフォーマンスを改善する分類器を示す。

Document classification is ubiquitous in a business setting, but often the end users of a classifier are engaged in an ongoing feedback-retrain loop with the team that maintain it. We consider this feedback-retrain loop from a multi-agent point of view, considering the end users as autonomous agents that provide feedback on the labelled data provided by the classifier. This allows us to examine the effect on the classifier's performance of unreliable end users who provide incorrect feedback. We demonstrate a classifier that can learn which users tend to be unreliable, filtering their feedback out of the loop, thus improving performance in subsequent iterations.
翻訳日:2022-12-09 04:35:06 公開日:2020-04-27
# LightPAFF: 事前トレーニングと微調整のための2段階蒸留フレームワーク

LightPAFF: A Two-Stage Distillation Framework for Pre-training and Fine-tuning ( http://arxiv.org/abs/2004.12817v1 )

ライセンス: Link先を確認
Kaitao Song, Hao Sun, Xu Tan, Tao Qin, Jianfeng Lu, Hongzhi Liu and Tie-Yan Liu(参考訳) 事前トレーニングと微調整、例えばbert~\citep{devlin2018bert}、gpt-2~\citep{radford2019language}は言語理解と生成タスクで大きな成功を収めているが、事前トレーニングされたモデルは、通常、メモリコストと推論速度の両方の観点から、オンライン展開には大きすぎるため、オンライン使用を妨げている。 本稿では,2段階の知識蒸留を活用し,事前学習と微調整の両方において,大きな教師モデルから軽量な学生モデルに知識を移す軽量な事前学習および微調整フレームワークであるlightpaffを提案する。 このように、軽量モデルは大きな教師モデルと同様の精度を達成できますが、パラメータがはるかに少なく、オンライン推論速度が速くなります。 LightPAFFは、BERT、GPT-2、MASS~\citep{song2019mass}のような様々な事前学習方法をサポートし、多くの下流タスクに適用できる。 3つの言語理解タスク、3つの言語モデリングタスク、3つのシーケンスからシーケンス生成タスクの実験は、大きなBERT、GPT-2、MASSモデルと同様の精度を達成する一方で、LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善することを示した。

While pre-training and fine-tuning, e.g., BERT~\citep{devlin2018bert}, GPT-2~\citep{radford2019language}, have achieved great success in language understanding and generation tasks, the pre-trained models are usually too big for online deployment in terms of both memory cost and inference speed, which hinders them from practical online usage. In this paper, we propose LightPAFF, a Lightweight Pre-training And Fine-tuning Framework that leverages two-stage knowledge distillation to transfer knowledge from a big teacher model to a lightweight student model in both pre-training and fine-tuning stages. In this way the lightweight model can achieve similar accuracy as the big teacher model, but with much fewer parameters and thus faster online inference speed. LightPAFF can support different pre-training methods (such as BERT, GPT-2 and MASS~\citep{song2019mass}) and be applied to many downstream tasks. Experiments on three language understanding tasks, three language modeling tasks and three sequence to sequence generation tasks demonstrate that while achieving similar accuracy with the big BERT, GPT-2 and MASS models, LightPAFF reduces the model size by nearly 5x and improves online inference speed by 5x-7x.
翻訳日:2022-12-09 04:27:52 公開日:2020-04-27
# DeeBERT: BERT推論の高速化のための動的早期実行

DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference ( http://arxiv.org/abs/2004.12993v1 )

ライセンス: Link先を確認
Ji Xin, Raphael Tang, Jaejun Lee, Yaoliang Yu, Jimmy Lin(参考訳) BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。 しかし、それらは推論が遅いことで悪名高いため、リアルタイムアプリケーションへのデプロイが難しい。 本稿では, BERT推論を高速化するために, 単純だが効果的なDeeBERTを提案する。 当社のアプローチでは,モデル全体を通過することなく,サンプルを早期に終了することが可能です。 実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。 さらに,BERT変圧器層に異なる挙動を示すとともに,その冗長性を明らかにする。 我々の研究は、下流タスクにディープトランスフォーマティブベースのモデルを効率的に適用するための新しいアイデアを提供します。 コードはhttps://github.com/castorini/DeeBERT.comで入手できる。

Large-scale pre-trained language models such as BERT have brought significant improvements to NLP applications. However, they are also notorious for being slow in inference, which makes them difficult to deploy in real-time applications. We propose a simple but effective method, DeeBERT, to accelerate BERT inference. Our approach allows samples to exit earlier without passing through the entire model. Experiments show that DeeBERT is able to save up to ~40% inference time with minimal degradation in model quality. Further analyses show different behaviors in the BERT transformer layers and also reveal their redundancy. Our work provides new ideas to efficiently apply deep transformer-based models to downstream tasks. Code is available at https://github.com/castorini/DeeBERT.
翻訳日:2022-12-09 04:27:27 公開日:2020-04-27
# 深部特徴分布の伝達可能な摂動

Transferable Perturbations of Deep Feature Distributions ( http://arxiv.org/abs/2004.12519v1 )

ライセンス: Link先を確認
Nathan Inkawhich, Kevin J Liang, Lawrence Carin and Yiran Chen(参考訳) CNN分類器の現在の攻撃のほとんどは、ネットワークの出力層から派生した情報に依存している。 本研究は,クラスワイドおよび層ワイドな特徴分布のモデリングと利用に基づく新たな敵攻撃を提案する。 我々は、未定義の画像ネットモデルに対して、最先端のブラックボックス転送に基づく攻撃結果を得る。 さらに,攻撃プロセスの説明可能性と解釈可能性を重視した。 提案手法は,CNNの中間的特徴分布をどのように変化させるか,また,階層的およびクラス的特徴分離可能性/絡み合いの尺度である。 また、cnnアーキテクチャにおけるタスク/データ固有の機能からモデル固有の機能への遷移の概念化も行います。

Almost all current adversarial attacks of CNN classifiers rely on information derived from the output layer of the network. This work presents a new adversarial attack based on the modeling and exploitation of class-wise and layer-wise deep feature distributions. We achieve state-of-the-art targeted blackbox transfer-based attack results for undefended ImageNet models. Further, we place a priority on explainability and interpretability of the attacking process. Our methodology affords an analysis of how adversarial attacks change the intermediate feature distributions of CNNs, as well as a measure of layer-wise and class-wise feature distributional separability/entanglement. We also conceptualize a transition from task/data-specific to model-specific features within a CNN architecture that directly impacts the transferability of adversarial examples.
翻訳日:2022-12-09 04:26:40 公開日:2020-04-27
# シークエンシャル解釈可能性:シークエンシャルデータの文脈における深層学習モデル理解のための方法、応用、今後の方向性

Sequential Interpretability: Methods, Applications, and Future Direction for Understanding Deep Learning Models in the Context of Sequential Data ( http://arxiv.org/abs/2004.12524v1 )

ライセンス: Link先を確認
Benjamin Shickel, Parisa Rashidi(参考訳) ディープラーニングは、医療、輸送、金融、基礎科学など、ますます多くの重要な応用分野を革新し続けている。 予測能力の増大にもかかわらず、現代のディープラーニングモデルの"ブラックボックス"の性質から、モデルの透明性と人間の説明可能性には依然として大きな課題がある。 多くの場合、解釈可能性とパフォーマンスの望ましいバランスは、主にタスク固有です。 医療のような人間中心のドメインは、これらのフレームワークが重要かつ潜在的に生命または死の決定にどのように到達しているかを理解することに再び焦点を絞る必要がある。 コンピュータビジョンにおけるディープラーニングの研究と経験的成功を考えると、既存の解釈可能性の研究のほとんどは画像処理技術に重点を置いている。 シーケンシャルデータを用いたディープラーニングフレームワークの解釈には,比較的注意が払われていない。 近年,自然言語処理や生理学的信号処理といった高度に逐次的な領域におけるディープラーニングの進歩を考えると,深いシーケンシャルな説明の必要性は高い。 本稿では,シーケンシャルデータを含むディープラーニング手法の解釈,非シーケンシャル手法との類似性,シーケンシャル解釈可能性研究の限界と今後の方向性について考察する。

Deep learning continues to revolutionize an ever-growing number of critical application areas including healthcare, transportation, finance, and basic sciences. Despite their increased predictive power, model transparency and human explainability remain a significant challenge due to the "black box" nature of modern deep learning models. In many cases the desired balance between interpretability and performance is predominately task specific. Human-centric domains such as healthcare necessitate a renewed focus on understanding how and why these frameworks are arriving at critical and potentially life-or-death decisions. Given the quantity of research and empirical successes of deep learning for computer vision, most of the existing interpretability research has focused on image processing techniques. Comparatively, less attention has been paid to interpreting deep learning frameworks using sequential data. Given recent deep learning advancements in highly sequential domains such as natural language processing and physiological signal processing, the need for deep sequential explanations is at an all-time high. In this paper, we review current techniques for interpreting deep learning techniques involving sequential data, identify similarities to non-sequential methods, and discuss current limitations and future avenues of sequential interpretability research.
翻訳日:2022-12-09 04:26:29 公開日:2020-04-27
# 最大エントロピーマルチタスク逆RL

Maximum Entropy Multi-Task Inverse RL ( http://arxiv.org/abs/2004.12873v1 )

ライセンス: Link先を確認
Saurabh Arora, Bikramjit Banerjee, Prashant Doshi(参考訳) マルチタスクIRLは、専門家が同じ問題を解決する複数の方法を切り替えたり、複数のタスクのデモをインターリーブしたりすることができる。 学習者は、これらの問題を解決する方法を導く複数の報酬関数を学ぶことを目指している。 観測された入力のディリクレプロセスに基づくクラスタリングと組み合わせることで、よく知られた最大エントロピーアプローチをIRLに一般化するマルチタスクIRLの新しい手法を提案する。 これはMaxEnt Multi-task IRLと呼ばれる単一の非線形最適化問題をもたらし、これはラグランジュ緩和法と勾配降下法を用いて解ける。 我々は,オニオンの選別作業におけるシミュレーションにおいて,オニオンの検出と除去の複数の方法を利用したMaxEnt Multi-task IRLを評価した。 この手法は、基礎となる報酬関数を高い精度で学習することができ、マルチタスクirlに対する以前のアプローチを改善している。

Multi-task IRL allows for the possibility that the expert could be switching between multiple ways of solving the same problem, or interleaving demonstrations of multiple tasks. The learner aims to learn the multiple reward functions that guide these ways of solving the problem. We present a new method for multi-task IRL that generalizes the well-known maximum entropy approach to IRL by combining it with the Dirichlet process based clustering of the observed input. This yields a single nonlinear optimization problem, called MaxEnt Multi-task IRL, which can be solved using the Lagrangian relaxation and gradient descent methods. We evaluate MaxEnt Multi-task IRL in simulation on the robotic task of sorting onions on a processing line where the expert utilizes multiple ways of detecting and removing blemished onions. The method is able to learn the underlying reward functions to a high level of accuracy and it improves on the previous approaches to multi-task IRL.
翻訳日:2022-12-09 04:20:04 公開日:2020-04-27
# 領域適応のための最大密度発散

Maximum Density Divergence for Domain Adaptation ( http://arxiv.org/abs/2004.12615v1 )

ライセンス: Link先を確認
Li Jingjing, Chen Erpeng, Ding Zhengming, Zhu Lei, Lu Ke, Shen Heng Tao(参考訳) 教師なしドメイン適応は、よくラベルされたソースドメインから2つのドメインに固有のデータ分布がある未ラベルのターゲットドメインに知識を転送する問題に対処する。 したがって、領域適応の本質は2つの領域間の分布のばらつきを軽減することである。 最先端の手法は、敵の訓練を行うか、分布ギャップを定義する計量を最小化することによって、この考え方を実践する。 本稿では,敵対的学習とメートル法学習の両方の利点を享受するATM(Adversarial Tight Match)というドメイン適応手法を提案する。 具体的には,まず,分布の発散を定量化するmdd(maximum density divergence)という新しい距離損失を提案する。 MDDはドメイン間の分岐(ATMではマッチ)を最小限に抑え、クラス内の密度(ATMではタイト)を最大化する。 そこで,敵領域適応における平衡問題に対処するために,提案したMDDを敵領域適応フレームワークに活用することを検討する。 最終的に、提案したMDDを実用的な学習損失として調整し、ATMを報告する。 実験的評価と理論的解析の両方を報告し,提案手法の有効性を検証した。 古典的および大規模の4つのベンチマークによる実験結果から,本手法は,ほとんどの評価において,新たな最先端性能を実現することができることが示された。 本論文で使用されるコードとデータセットは, {\it github.com/lijin118/ATM} で公開されている。

Unsupervised domain adaptation addresses the problem of transferring knowledge from a well-labeled source domain to an unlabeled target domain where the two domains have distinctive data distributions. Thus, the essence of domain adaptation is to mitigate the distribution divergence between the two domains. The state-of-the-art methods practice this very idea by either conducting adversarial training or minimizing a metric which defines the distribution gaps. In this paper, we propose a new domain adaptation method named Adversarial Tight Match (ATM) which enjoys the benefits of both adversarial training and metric learning. Specifically, at first, we propose a novel distance loss, named Maximum Density Divergence (MDD), to quantify the distribution divergence. MDD minimizes the inter-domain divergence ("match" in ATM) and maximizes the intra-class density ("tight" in ATM). Then, to address the equilibrium challenge issue in adversarial domain adaptation, we consider leveraging the proposed MDD into adversarial domain adaptation framework. At last, we tailor the proposed MDD as a practical learning loss and report our ATM. Both empirical evaluation and theoretical analysis are reported to verify the effectiveness of the proposed method. The experimental results on four benchmarks, both classical and large-scale, show that our method is able to achieve new state-of-the-art performance on most evaluations. Codes and datasets used in this paper are available at {\it github.com/lijin118/ATM}.
翻訳日:2022-12-09 04:19:14 公開日:2020-04-27
# 専門家の競争による因果生成シーンモデルに向けて

Towards causal generative scene models via competition of experts ( http://arxiv.org/abs/2004.12906v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Ivan Ustyuzhaninov, Peter Gehler, Matthias Bethge, Bernhard Sch\"olkopf(参考訳) 再結合可能なコンポーネントでモジュール化された方法で複雑なシーンをモデル化する方法を学ぶことは、物理世界での高階推論と行動の前提条件である。 しかし、現在の生成モデルには、視覚シーンの本質的に構成的かつ階層化された性質を捉える能力が欠けている。 近年の研究では、オブジェクトベースのシーン表現の教師なし学習が進んでいるが、ほとんどのモデルはグローバルな表現空間(つまり、オブジェクトは明示的に分離されていない)を維持しており、新しいオブジェクト配置と深度順序のシーンを生成することはできない。 本稿では,生成モデル(専門家)のアンサンブルを訓練することにより,モジュール性を促進する帰納的バイアスを用いる代替手法を提案する。 訓練中、専門家はシーンの一部を説明するために競い合い、異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として識別される。 我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。 他の手法とは対照的に、深度階層化と閉塞は正しく処理され、このアプローチは因果生成シーンモデルに近づく。 単純な玩具データを用いた実験は,提案手法の概念的利点を定性的に示している。

Learning how to model complex scenes in a modular way with recombinable components is a pre-requisite for higher-order reasoning and acting in the physical world. However, current generative models lack the ability to capture the inherently compositional and layered nature of visual scenes. While recent work has made progress towards unsupervised learning of object-based scene representations, most models still maintain a global representation space (i.e., objects are not explicitly separated), and cannot generate scenes with novel object arrangement and depth ordering. Here, we present an alternative approach which uses an inductive bias encouraging modularity by training an ensemble of generative models (experts). During training, experts compete for explaining parts of a scene, and thus specialise on different object classes, with objects being identified as parts that re-occur across multiple scenes. Our model allows for controllable sampling of individual objects and recombination of experts in physically plausible ways. In contrast to other methods, depth layering and occlusion are handled correctly, moving this approach closer to a causal generative scene model. Experiments on simple toy data qualitatively demonstrate the conceptual advantages of the proposed approach.
翻訳日:2022-12-09 04:18:51 公開日:2020-04-27
# 質量と距離のトルクバランスによるクラスタリング

Clustering via torque balance with mass and distance ( http://arxiv.org/abs/2004.13160v1 )

ライセンス: Link先を確認
Jie Yang and Chin-Teng Lin(参考訳) 類似した物体をグループ化することは、生物学や化学から天文学、パターン認識に至るまで、科学分析の基本的な道具である。 銀河が融合するときの重力相互作用に存在するトルクバランスに着想を得て、宇宙の2つの自然特性(質量と距離)に基づく新しいクラスタリング法を提案する。 質量と距離の相互作用を記述するトルクの概念は、形状、大きさ、密度に関係なく任意のクラスターを認識するためにトルクバランスを利用するパラメータフリークラスタリングアルゴリズムの基礎を形成する。 重力相互作用は合併過程を制御し、トルクバランスの概念は除去の自然な順序に合致しない分割を明らかにする。 ベンチマークデータセットの実験は、提案アルゴリズムの膨大な汎用性を示している。

Grouping similar objects is a fundamental tool of scientific analysis, ubiquitous in disciplines from biology and chemistry to astronomy and pattern recognition. Inspired by the torque balance that exists in gravitational interactions when galaxies merge, we propose a novel clustering method based on two natural properties of the universe: mass and distance. The concept of torque describing the interactions of mass and distance forms the basis of the proposed parameter-free clustering algorithm, which harnesses torque balance to recognize any cluster, regardless of shape, size, or density. The gravitational interactions govern the merger process, while the concept of torque balance reveals partitions that do not conform to the natural order for removal. Experiments on benchmark data sets show the enormous versatility of the proposed algorithm.
翻訳日:2022-12-09 04:18:31 公開日:2020-04-27
# PuzzLing Machines: 小規模なデータから学ぶための挑戦

PuzzLing Machines: A Challenge on Learning From Small Data ( http://arxiv.org/abs/2004.13161v1 )

ライセンス: Link先を確認
G\"ozde G\"ul \c{S}ahin, Yova Kementchedjhieva, Phillip Rust, Iryna Gurevych(参考訳) ディープニューラルモデルは、様々なmlおよびnlpベンチマークのために、大規模なデータセットからの表面パターンを記憶することに成功した。 しかし、知識に反復的推論のスキルが欠けているため、人間的な思考を達成するのに苦労している。 この問題を新しい光で明らかにするために,高校生向けのLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという小さなデータから学習する課題を紹介した。 これらのパズルは、見当たらない表現の形を推測するために必要な最小限の並列テキストだけを含むように慎重に設計されている。 それらを解決するには、外部情報(知識ベース、視覚信号など)や言語専門知識は必要とせず、メタ言語学的な認識と推論スキルを必要とする。 我々の挑戦には、81の言語から幅広い言語現象をカバーする約100のパズルが含まれている。 単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に機能することを示す。 このベンチマークがhttps://ukplab.github.io/PuzzLing-Machines/で利用可能になることを願っている。

Deep neural models have repeatedly proved excellent at memorizing surface patterns from large datasets for various ML and NLP benchmarks. They struggle to achieve human-like thinking, however, because they lack the skill of iterative reasoning upon knowledge. To expose this problem in a new light, we introduce a challenge on learning from small data, PuzzLing Machines, which consists of Rosetta Stone puzzles from Linguistic Olympiads for high school students. These puzzles are carefully designed to contain only the minimal amount of parallel text necessary to deduce the form of unseen expressions. Solving them does not require external information (e.g., knowledge bases, visual signals) or linguistic expertise, but meta-linguistic awareness and deductive skills. Our challenge contains around 100 puzzles covering a wide range of linguistic phenomena from 81 languages. We show that both simple statistical algorithms and state-of-the-art deep neural models perform inadequately on this challenge, as expected. We hope that this benchmark, available at https://ukplab.github.io/PuzzLing-Machines/, inspires further efforts towards a new paradigm in NLP---one that is grounded in human-like reasoning and understanding.
翻訳日:2022-12-09 04:17:45 公開日:2020-04-27
# EM-GAN:生成逆ネットワークを用いたマルチセグメントインターコネクションの高速応力解析

EM-GAN: Fast Stress Analysis for Multi-Segment Interconnect Using Generative Adversarial Networks ( http://arxiv.org/abs/2004.13181v1 )

ライセンス: Link先を確認
Wentian Jin, Sheriff Sadiqbatcha, Jinwei Zhang, Sheldon X.-D. Tan(参考訳) 本稿では, ジェネレーティブ・ディバイザリ・ネットワーク(GAN)を用いた多セグメント配線における静電マイグレーション(EM)故障評価のための高速過渡的静水圧応力解析を提案する。 我々の研究はganベースの生成型ディープニューラルネットワークの画像合成機能を活用する。 偏微分方程式によりモデル化された多セグメント配線の応力評価は、入力が多セグメント配線トポロジーと電流密度とを接続し、出力が所定の経時における電線セグメントのem応力分布である時変2d画像対画像問題と見なすことができる。 本研究は,COMSOLシミュレーション結果に対して,多くの自己生成多セグメントワイヤとワイヤ電流密度と経時時間(条件として)の画像を用いて条件付きGANモデルを訓練する。 GANの異なるハイパーパラメータの研究と比較を行った。 提案するアルゴリズムは"it em-gan"と呼ばれ、一般的なマルチセグメントワイヤツリーの応力分布を所定の老化時間に素早く与えることができ、これはフルチップの高速em障害評価に重要である。 実験の結果, EM-GAN は COMSOL シミュレーションの結果に比べて6.6 % の誤差を示した。 また、最先端分析ベースのEM解析解法よりも8.3倍のスピードアップを提供する。

In this paper, we propose a fast transient hydrostatic stress analysis for electromigration (EM) failure assessment for multi-segment interconnects using generative adversarial networks (GANs). Our work leverages the image synthesis feature of GAN-based generative deep neural networks. The stress evaluation of multi-segment interconnects, modeled by partial differential equations, can be viewed as time-varying 2D-images-to-image problem where the input is the multi-segment interconnects topology with current densities and the output is the EM stress distribution in those wire segments at the given aging time. Based on this observation, we train conditional GAN model using the images of many self-generated multi-segment wires and wire current densities and aging time (as conditions) against the COMSOL simulation results. Different hyperparameters of GAN were studied and compared. The proposed algorithm, called {\it EM-GAN}, can quickly give accurate stress distribution of a general multi-segment wire tree for a given aging time, which is important for full-chip fast EM failure assessment. Our experimental results show that the EM-GAN shows 6.6\% averaged error compared to COMSOL simulation results with orders of magnitude speedup. It also delivers 8.3X speedup over state-of-the-art analytic based EM analysis solver.
翻訳日:2022-12-09 04:10:09 公開日:2020-04-27
# 表面筋電図を用いた手指の2段階分類

Dual Stage Classification of Hand Gestures using Surface Electromyogram ( http://arxiv.org/abs/2005.01711v1 )

ライセンス: Link先を確認
Karush Suri, Rinki Gupta(参考訳) 表面筋電図(sEMG)は、ヒューマン・マシン・インタフェース、補助技術、医療、義肢の発達など、人間の動作の分析を含む応用において有用である。 本研究は,sEMG信号からの把握ジェスチャーの分類のための新しい二段階分類手法を提案する。 これらの活動の統計的評価を行い、検討された活動の類似した特性を判定する。 同様の活動をまとめて行う。 分類の第1段階では、アクティビティはグループに属するものとして識別され、分類の第2段階ではグループ内のアクティビティの1つとしてさらに分類される。 提案手法の性能は,従来の単一段階分類法と比較した。 提案した2段階分類を用いた分類精度は, 単段階分類と比較して有意に高い値を示した。

Surface electromyography (sEMG) is becoming exceeding useful in applications involving analysis of human motion such as in human-machine interface, assistive technology, healthcare and prosthetic development. The proposed work presents a novel dual stage classification approach for classification of grasping gestures from sEMG signals. A statistical assessment of these activities is presented to determine the similar characteristics between the considered activities. Similar activities are grouped together. In the first stage of classification, an activity is identified as belonging to a group, which is then further classified as one of the activities within the group in the second stage of classification. The performance of the proposed approach is compared to the conventional single stage classification approach in terms of classification accuracies. The classification accuracies obtained using the proposed dual stage classification are significantly higher as compared to that for single stage classification.
翻訳日:2022-12-09 04:09:46 公開日:2020-04-27
# モンテカルロ木探索を用いたニューラルマシン翻訳

Neural Machine Translation with Monte-Carlo Tree Search ( http://arxiv.org/abs/2004.12527v1 )

ライセンス: Link先を確認
Jerrod Parker and Jerry Zikun Chen(参考訳) 最近の機械翻訳のアルゴリズムには、翻訳の各ステップで出力する単語を決定する際にポリシーネットワークを支援する値ネットワークが含まれている。 値ネットワークの追加は、アルゴリズムがbleuスコアのような評価指標をより良く実行するのに役立つ。 教師付き環境でポリシーと価値ネットワークをトレーニングした後、ポリシーと価値ネットワークは共通のアクター批判的手法によって共同で改善することができる。 我々のプロジェクトの主な考え方は、代わりにモンテカルロ木探索(MCTS)を利用して、AlphaZeroと同じような方法で、ポリシーと価値ネットワークアーキテクチャの組み合わせから優れた出力語を検索することである。 このネットワークは、ローカルおよびグローバルなルックアヘッド参照として機能し、検索の結果を使って自身を改善する。 IWLST14ドイツ語から英語への翻訳データセットを用いた実験では,近年の機械翻訳論文におけるアクター・クリティカルな手法よりも優れていた。

Recent algorithms in machine translation have included a value network to assist the policy network when deciding which word to output at each step of the translation. The addition of a value network helps the algorithm perform better on evaluation metrics like the BLEU score. After training the policy and value networks in a supervised setting, the policy and value networks can be jointly improved through common actor-critic methods. The main idea of our project is to instead leverage Monte-Carlo Tree Search (MCTS) to search for good output words with guidance from a combined policy and value network architecture in a similar fashion as AlphaZero. This network serves both as a local and a global look-ahead reference that uses the result of the search to improve itself. Experiments using the IWLST14 German to English translation dataset show that our method outperforms the actor-critic methods used in recent machine translation papers.
翻訳日:2022-12-09 04:09:33 公開日:2020-04-27
# 単語相互依存はLSTMがどのように表現を構成するかを示す

Word Interdependence Exposes How LSTMs Compose Representations ( http://arxiv.org/abs/2004.13195v1 )

ライセンス: Link先を確認
Naomi Saphra and Adam Lopez(参考訳) NLPにおける最近の研究は、LSTM言語モデルが言語データの構成構造を捉えていることを示している。 これらの表現が階層的にどのように構成されるかをより詳しく見るため、内部ゲートでの相互作用に基づいて、LSTMにおける単語の意味間の相互依存の新たな尺度を提案する。 学習中に構成表現がどのように生じるかを調べるため、我々は合成データの簡単な実験を行い、相互依存がいかに一般化を損なうかを示す。 これらの合成実験はまた、トレーニングの過程で階層構造がどのように発見されたかという特定の仮説を示している:親構成員は、長距離関係を独立に学ぶのではなく、子供の効果的な表現に依存している。 さらに,この尺度を英語データを用いた実験でサポートし,より緊密に結合された単語対に対して相互依存度が高くなった。

Recent work in NLP shows that LSTM language models capture compositional structure in language data. For a closer look at how these representations are composed hierarchically, we present a novel measure of interdependence between word meanings in an LSTM, based on their interactions at the internal gates. To explore how compositional representations arise over training, we conduct simple experiments on synthetic data, which illustrate our measure by showing how high interdependence can hurt generalization. These synthetic experiments also illustrate a specific hypothesis about how hierarchical structures are discovered over the course of training: that parent constituents rely on effective representations of their children, rather than on learning long-range relations independently. We further support this measure with experiments on English language data, where interdependence is higher for more closely syntactically linked word pairs.
翻訳日:2022-12-09 04:08:53 公開日:2020-04-27
# ファジィ時系列による非定常環境の予測

Forecasting in Non-stationary Environments with Fuzzy Time Series ( http://arxiv.org/abs/2004.12554v1 )

ライセンス: Link先を確認
Petr\^onio C\^andido de Lima e Silva, Carlos Alberto Severiano Junior, Marcos Antonio Alves, Rodrigo Silva, Miri Weiss Cohen, Frederico Gadelha Guimar\~aes(参考訳) 本稿では,データ分布から適応した時間変化パラメータを持つ非定常ファジィ時系列(NSFTS)手法を提案する。 本手法では,時系列の統計的変化に応じて知識ベースにおけるメンバシップ関数パラメータを適応させるために摂動関数を用いる非定常ファジィ集合を用いる。 提案手法は,モデルの再学習を必要とせず,残差に基づいて確率過程の変化を反映するようにファジィ集合を動的に適応させることができる。 この方法では、非定常およびヘテロスケダスティックなデータだけでなく、コンセプトドリフトのシナリオも扱える。 提案されたアプローチでは、モデルのトレーニングは一度だけ可能で、適切な正確さを維持しながら、長く有効でなければならない。 この手法の柔軟性は,数種類のコンセプトドリフトを持つ8つの合成非定常時系列データ,Dow Jones,NASDAQ,SP500,TAIEXの4つの実市場指標,EUR-USD,EUR-GBP,GBP-USDの3つの実市場対,および2つの実暗号通貨交換レート(Bitcoin-USD,Ethereum-USD)を用いて検証した。 競合モデルである Time Variant fuzzy 時系列と Incremental Ensemble が使われたため、これらは非定常データセットを扱う主要なアプローチの2つである。 非パラメトリックテストは結果の重要性を確認するために使用される。 提案手法は,知識基盤のシンボル構造を保ちながら,モデルのパラメータを適応させることにより,概念のドリフトに対するレジリエンスを示す。

In this paper we introduce a Non-Stationary Fuzzy Time Series (NSFTS) method with time varying parameters adapted from the distribution of the data. In this approach, we employ Non-Stationary Fuzzy Sets, in which perturbation functions are used to adapt the membership function parameters in the knowledge base in response to statistical changes in the time series. The proposed method is capable of dynamically adapting its fuzzy sets to reflect the changes in the stochastic process based on the residual errors, without the need to retraining the model. This method can handle non-stationary and heteroskedastic data as well as scenarios with concept-drift. The proposed approach allows the model to be trained only once and remain useful long after while keeping reasonable accuracy. The flexibility of the method by means of computational experiments was tested with eight synthetic non-stationary time series data with several kinds of concept drifts, four real market indices (Dow Jones, NASDAQ, SP500 and TAIEX), three real FOREX pairs (EUR-USD, EUR-GBP, GBP-USD), and two real cryptocoins exchange rates (Bitcoin-USD and Ethereum-USD). As competitor models the Time Variant fuzzy time series and the Incremental Ensemble were used, these are two of the major approaches for handling non-stationary data sets. Non-parametric tests are employed to check the significance of the results. The proposed method shows resilience to concept drift, by adapting parameters of the model, while preserving the symbolic structure of the knowledge base.
翻訳日:2022-12-09 04:08:12 公開日:2020-04-27