このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200610となっている論文です。

PDF登録状況(公開日: 20200610)

TitleAuthorsAbstract論文公表日・翻訳日
# 文脈性に対するペレス予想の証明

Proof of the Peres conjecture for contextuality ( http://arxiv.org/abs/2001.07656v2 )

ライセンス: Link先を確認
Zhen-Peng Xu, Jing-Ling Chen, Otfried G\"uhne(参考訳) 量子力学の基礎における中心的な結果は、コーヘン・スペックルの定理である。 簡単に言えば、量子力学は理想的な測度に対して非文脈的な古典的なモデルと整合できない。 Kochen と Specker による最初の明示的な導出はかなり複雑であったが、その後かなりの単純化がなされた。 古典モデルの予測が量子力学の予測とは逆であるという事実を特徴とする,コッチェン・スペックの定理の最小ハーディ型およびグリーンバーガー・ホーン・ゼーリンガー型(ghz型)の証明を求める体系的アプローチを提案する。 この結果から,コチェン=スペクター集合はカベロ等から18個のベクトルからなることを示す。 [a. cabello et al., phys. lett. a 212, 183 (1996)] は任意の次元の最小集合であり、ペレスによる長年の予想を検証する。 その結果,文脈性シナリオの最小化と情報処理における有用性の検討が可能となった。

A central result in the foundations of quantum mechanics is the Kochen-Specker theorem. In short, it states that quantum mechanics cannot be reconciled with classical models that are noncontextual for ideal measurements. The first explicit derivation by Kochen and Specker was rather complex, but considerable simplifications have been achieved thereafter. We propose a systematic approach to find minimal Hardy-type and Greenberger-Horne-Zeilinger-type (GHZ-type) proofs of the Kochen-Specker theorem, these are characterized by the fact that the predictions of classical models are opposite to the predictions of quantum mechanics. Based on our results, we show that the Kochen-Specker set with 18 vectors from Cabello et al. [A. Cabello et al., Phys. Lett. A 212, 183 (1996)] is the minimal set for any dimension, verifying a longstanding conjecture by Peres. Our results allow to identify minimal contextuality scenarios and to study their usefulness for information processing.
翻訳日:2023-06-06 09:12:13 公開日:2020-06-10
# 量子アニールの熱力学

Thermodynamics of a Quantum Annealer ( http://arxiv.org/abs/2003.02055v2 )

ライセンス: Link先を確認
Lorenzo Buffoni and Michele Campisi(参考訳) d-waveプロセッサは部分的に制御可能なオープン量子システムであり、エネルギーを周囲の環境(熱の形で)と外部時間に依存した制御場(仕事の形式で)と交換する。 あまり考えられていないが、熱力学機械である。 ここでは熱力学的観点からD波量子アニールの特性について検討する。 私たちは、d-wave 2000qをopen access cloud server leap経由でリバースアニーリング実験を行い、マシンがどのような熱操作を行うのかを理解し、それに付随する散逸の程度と交換する熱量と作業量を定量化することを目的としていた。 後者は、プロセッサで発生した全体的なエネルギー変化(つまり、それが受ける熱と仕事の総和)にのみ実験的にアクセスできるという事実を考えると、難しいタスクである。 しかし、最近の非平衡熱力学(すなわち、ゆらぎ定理と熱力学的不確実性関係)の結果は、平均エントロピー生成(散逸の程度を定量化する)および平均熱と仕事の交換の低い境界を計算することができる。 収集した実験データの解析は, 1) 逆アニールプロセスでは、D-Waveプロセッサは熱加速器として機能し、 2) その進化は, 横磁場の増加に伴う散逸量の増加を伴う。

The D-wave processor is a partially controllable open quantum system which exchanges energy with its surrounding environment (in the form of heat) and with the external time dependent control fields (in the form of work). Despite being rarely thought as such, it is a thermodynamic machine. Here we investigate the properties of the D-Wave quantum annealers from a thermodynamical perspective. We performed a number of reverse-annealing experiments on the D-Wave 2000Q via the open access cloud server Leap, with the aim of understanding what type of thermal operation the machine performs, and quantifying the degree of dissipation that accompanies it, as well as the amount of heat and work that it exchanges. The latter is a challenging task in view of the fact that one can experimentally access only the overall energy change occurring in the processor, (which is the sum of heat and work it receives). However, recent results of non-equilibrium thermodynamics(namely, the fluctuation theorem and the thermodynamic uncertainty relations), allow to calculate lower bounds on the average entropy production (which quantifies the degree of dissipation) as well as the average heat and work exchanges. The analysis of the collected experimental data shows that 1) in a reverse annealing process the D-Wave processor works as a thermal accelerator and 2) its evolution involves an increasing amount of dissipation with increasing transverse field.
翻訳日:2023-05-31 05:25:44 公開日:2020-06-10
# 量子シミュレーションと計算のための超伝導量子多体回路

Superconducting quantum many-body circuits for quantum simulation and computing ( http://arxiv.org/abs/2003.08838v2 )

ライセンス: Link先を確認
Samuel A. Wilkinson and Michael J. Hartmann(参考訳) 量子シミュレータは、古典的数値処理に適さない多体量子システムを研究する手段として魅力的である。 量子シミュレーションのための汎用フレームワークは超伝導回路によって提供される。 この観点からは、超伝導回路が様々な相互作用の工学をいかに可能にし、その結果、様々なモデルハミルトニアンのシミュレーションを可能にするかについて議論する。 特に非線形要素を介する強い光子-光子相互作用に着目する。 これには、格子モデルにおけるオンサイト、最寄り、四体相互作用が含まれており、拡張されたボース・ハッバードモデルとトーリックコードの実装を可能にする。 我々は、アナログ量子シミュレーションの現状だけでなく、量子ゲートを新興量子コンピューティングプラットフォームで結合するときに開く超伝導量子シミュレーションの将来の展望についても論じる。

Quantum simulators are attractive as a means to study many-body quantum systems that are not amenable to classical numerical treatment. A versatile framework for quantum simulation is offered by superconducting circuits. In this perspective, we discuss how superconducting circuits allow the engineering of a wide variety of interactions, which in turn allows the simulation of a wide variety of model Hamiltonians. In particular we focus on strong photon-photon interactions mediated by nonlinear elements. This includes on-site, nearest-neighbour and four-body interactions in lattice models, allowing the implementation of extended Bose-Hubbard models and the toric code. We discuss not only the present state in analogue quantum simulation, but also future perspectives of superconducting quantum simulation that open up when concatenating quantum gates in emerging quantum computing platforms.
翻訳日:2023-05-28 19:57:12 公開日:2020-06-10
# シュウィンガー機構と動的カシミール効果の相互支援

Mutual assistance between the Schwinger mechanism and the dynamical Casimir effect ( http://arxiv.org/abs/2003.12061v2 )

ライセンス: Link先を確認
Hidetoshi Taya(参考訳) 強電界下での2つの振動板間に閉じ込められた真空からの帯電粒子の生成について検討した。 本研究では,Furry図の摂動理論に基づく生産数の公式を解析的に導出し,強電場によるシュウィンガー機構と振動アシストによる動的カシミール効果を用いて,生産数を大幅に向上させることを示す。

We study massive charged particle production from the vacuum confined between two vibrating plates in the presence of a strong electric field. We analytically derive a formula for the production number based on the perturbation theory in the Furry picture, and show that the Schwinger mechanism by the strong electric field and the dynamical Casimir effect by the vibration assist with each other to dramatically enhance the production number by orders of the magnitude.
翻訳日:2023-05-27 20:38:16 公開日:2020-06-10
# $\mathbb Z_2$対称性の破れのない散逸時間結晶

A dissipative time crystal with or without $\mathbb Z_2$ symmetry breaking ( http://arxiv.org/abs/2004.02855v2 )

ライセンス: Link先を確認
Crist\'obal Lled\'o and Marzena H. Szyma\'nska(参考訳) 2つの相互作用駆動散逸ボソニックモードからなる創発的半古典的時間結晶について検討した。 この系は離散的な$\mathbb Z_2$空間対称性を持ち、駆動の強さによらず、時間結晶相で破壊されるか不可能である。 厳密な半古典的平均場解析、量子構造における数値シミュレーション、およびリウビリアンのスペクトル解析を組み合わせることで、時間結晶の出現を示し、量子揺らぎに対する振動周期のロバスト性を証明する。

We study an emergent semiclassical time crystal composed of two interacting driven-dissipative bosonic modes. The system has a discrete $\mathbb Z_2$ spatial symmetry which, depending on the strength of the drive, can be broken in the time-crystalline phase or it cannot. An exact semiclassical mean-field analysis, numerical simulations in the quantum regime, and the spectral analysis of the Liouvillian are combined to show the emergence of the time crystal and to prove the robustness of the oscillation period against quantum fluctuations.
翻訳日:2023-05-26 06:15:57 公開日:2020-06-10
# チャーターレーザービームによる量子真空シグネチャの強化

Enhancing quantum vacuum signatures with tailored laser beams ( http://arxiv.org/abs/2004.04268v2 )

ライセンス: Link先を確認
Felix Karbstein, Elena A. Mosman(参考訳) 我々は、レーザー光が強力な電磁界における量子真空シグネチャを実験でアクセス可能にする強力な手段であることを実証する。 高強度フロンティアにおける量子真空非線形性の検出を目的とした典型的なシナリオは、集束レーザーパルスの衝突を想定している。 真空揺らぎを媒介とする駆動場の効果的な相互作用は、量子真空非線形性のシグネチャをコードする信号光子を生み出す。 駆動レーザー光子の大きな背景から少数の信号光子を分離することは、大きな実験的課題である。 本研究の主な目的は、駆動レーザビームの遠方界特性を変更して、その中心にフィールドフリーホールを示すことにより、信号が前方方向に散乱する本質的に背景自由な測定を可能にすることである。 我々の明示的な構成は特異な遠方界/焦点双対性を利用する。

We demonstrate that tailored laser beams provide a powerful means to make quantum vacuum signatures in strong electromagnetic fields accessible in experiment. Typical scenarios aiming at the detection of quantum vacuum nonlinearities at the high-intensity frontier envision the collision of focused laser pulses. The effective interaction of the driving fields mediated by vacuum fluctuations gives rise to signal photons encoding the signature of quantum vacuum nonlinearity. Isolating a small number of signal photons from the large background of the driving laser photons poses a major experimental challenge. The main idea of the present work is to modify the far-field properties of a driving laser beam to exhibit a field-free hole in its center, thereby allowing for an essentially background free measurement of the signal scattered in the forward direction. Our explicit construction makes use of a peculiar far-field/focus duality.
翻訳日:2023-05-26 03:49:05 公開日:2020-06-10
# 一般化不確かさ原理、古典力学、一般相対性理論

Generalized Uncertainty Principle, Classical Mechanics, and General Relativity ( http://arxiv.org/abs/2004.04076v2 )

ライセンス: Link先を確認
R. Casadio, F. Scardigli(参考訳) 一般化不確実性原理(gup)は、ニュートン力学や一般相対性理論で予測される古典軌道の補正を計算するために、与えられた時空上の(マクロスコープの)試験体の運動に直接適用される。 これらの補正は総じて同値原理に違反する。 GUPは、GUP修正ホーキング温度を背景距離の変形に関連付けることで、重力源にも間接的に適用されている。 このような変形した背景計量は、同値原理に違反せずに新しい測地運動を決定する。 ここでは、この2つの効果は実験境界と比較して互いに排他的であることを指摘する。 さらに、前者は変形した正準作用素の古典的極限から得られる修正ポアソン括弧に由来する。

The Generalized Uncertainty Principle (GUP) has been directly applied to the motion of (macroscopic) test bodies on a given space-time in order to compute corrections to the classical orbits predicted in Newtonian Mechanics or General Relativity. These corrections generically violate the Equivalence Principle. The GUP has also been indirectly applied to the gravitational source by relating the GUP modified Hawking temperature to a deformation of the background metric. Such a deformed background metric determines new geodesic motions without violating the Equivalence Principle. We point out here that the two effects are mutually exclusive when compared with experimental bounds. Moreover, the former stems from modified Poisson brackets obtained from a wrong classical limit of the deformed canonical commutators.
翻訳日:2023-05-25 11:31:41 公開日:2020-06-10
# 二次元非エルミート系におけるトポロジカルアンダーソン絶縁体

Topological Anderson insulators in two-dimensional non-Hermitian disordered systems ( http://arxiv.org/abs/2005.13205v2 )

ライセンス: Link先を確認
Ling-Zhi Tang, Ling-Feng Zhang, Guo-Qing Zhang and Dan-Wei Zhang(参考訳) トポロジ、障害、非ハーミティリティの間の相互作用は、エキゾチックなトポロジカルおよびローカライゼーション現象を引き起こす。 本稿では,この相互作用を2種類の典型的な非エルミティティ性を持つ2次元非エルミアン乱チャーン・インシュレータモデルにおいて検討する。 位相位相図は、実空間における2つの位相不変量、すなわち乱平均開点チャーン数と一般化ボット指数を数値計算して得られる。 その結果,非相反ホッピング(ゲイン・アンド・ロス効果)は位相領域を増加(減少)し,障害によって引き起こされる位相アンダーソン絶縁体は両種類の非ヘルミティティーの下に存在しうることが明らかとなった。 さらに, 逆参加比と単一粒子密度分布の拡大を用いて, 位相的に非自明かつ自明な領域における系の局在特性について検討した。

The interplay among topology, disorder, and non-Hermiticity can induce some exotic topological and localization phenomena. Here we investigate this interplay in a two-dimensional non-Hermitian disordered Chern-insulator model with two typical kinds of non-Hermiticities, the nonreciprocal hopping and on-site gain-and-loss effects. The topological phase diagrams are obtained by numerically calculating two topological invariants in the real space, which are the disorder-averaged open-bulk Chern number and the generalized Bott index, respectively. We reveal that the nonreciprocal hopping (the gain-and-loss effect) can enlarge (reduce) the topological regions and the topological Anderson insulators induced by disorders can exist under both kinds of non-Hermiticities. Furthermore, we study the localization properties of the system in the topologically nontrivial and trivial regions by using the inverse participation ratio and the expansion of single particle density distribution.
翻訳日:2023-05-18 05:23:31 公開日:2020-06-10
# 波動粒子双対のパラドックス

No Paradox in Wave-Particle Duality ( http://arxiv.org/abs/2006.05315v1 )

ライセンス: Link先を確認
Andrew Knight(参考訳) Afsharらによる実験がボーアの相補性原理に違反しているという主張は、二重スリット干渉実験における一方の情報が将来の測定から遡って決定できるという誤った仮定に基づいている。

The assertion that an experiment by Afshar et al. demonstrates violation of Bohr's Principle of Complementarity is based on the faulty assumption that which-way information in a double-slit interference experiment can be retroactively determined from a future measurement.
翻訳日:2023-05-16 03:02:44 公開日:2020-06-10
# 高齢者と中年者のためのモノのインターネット

Internet of Things for Elderly and Fragile People ( http://arxiv.org/abs/2006.05709v1 )

ライセンス: Link先を確認
Andrea Zanella, Federico Mason, Patrik Pluchino, Giulia Cisotto, Valeria Orso, Luciano Gamberini(参考訳) 本稿では,iot(internet of things, モノのインターネット, モノのインターネット)パラダイムの潜在性について, 機能的, 技術的両面から, 高齢者および脆弱な人々の生活支援の観点から考察する。 我々は、技術受容性やユーザビリティなど、技術コミュニティからしばしば無視されるいくつかの側面を強調し、システム設計プロセスにおける最終ユーザの積極的な関与を示唆する現在の共同設計アプローチの枠組みとフェーズを説明します。 これにより、技術と脆弱な人々の要求をマージするための一連の設計プラクティスを特定します。 この議論は、この論文に記述されている概念のほとんどを具現化した、プロトタイパルのIoTベースのAALシステムであるDOMHOの説明によって裏付けられている。 最後に、現在のアプローチの可能性と限界について議論し、いくつかのオープン課題と今後の研究方向性を示す。

This paper discusses the potential of the Internet of Things (IoT) paradigm in the context of assisted living for elderly and fragile people, in the light of the peculiar requirements of such users, both from a functional and a technological perspective. We stress some aspects that are often disregarded by the technical community, such as technology acceptability and usability, and we describe the framework and the phases of the current co-design approaches that imply the active involvement of the final users in the system design process. Thereby, we identify a series of design practices to merge technical and fragile people's requirements. The discussion is backed up by the description of DOMHO, a prototypal IoT-based AAL system that embodies most of the concepts described in the paper, and that is being deployed and tested in a shelter house for elders, and in an apartment for the co-housing of individuals with disabilities. Finally, we discuss the potential and limits of the current approaches and present some open challenges and future research directions.
翻訳日:2023-05-16 03:00:45 公開日:2020-06-10
# エッジコンピューティングのための太陽エネルギー余剰の爆発

Exploiting the Solar Energy Surplus for Edge Computing ( http://arxiv.org/abs/2006.05703v1 )

ライセンス: Link先を確認
Borja Martinez and Xavier Vilajosana(参考訳) グローバルエネルギーエコシステムの変革の文脈では、クラウドコンピューティング分野の二酸化炭素排出量を減らすための新しいアプローチを導入し、同時に、小規模の私的太陽光発電プラントの展開を促進する。 クラウドサービスをプライベート、分散、ソーラーパワーのコンピューティング施設に移行する機会コストについて検討する。 そこで本研究では,コンピューティング資源をクラウドプールにリースする潜在的収益と,余剰エネルギーをグリッドに販売した収益とを比較した。 まず、仮想クラウドコンピューティングインスタンスの消費を推定し、名目光電力当たりの計算効率の指標を確立する。 この測定値に基づいて、この地域の年間ソーラー生産を特徴付け、合計のリターンと報酬を見積もる。 結果は、このモデルは経済的に実現可能であり、技術的に実現可能であることを示している。 最終的に私たちは、セキュリティなど、まだオープンである多くの疑問と、対処すべき基本的な障壁を描き出しました。

In the context of the global energy ecosystem transformation, we introduce a new approach to reduce the carbon emissions of the cloud-computing sector and, at the same time, foster the deployment of small-scale private photovoltaic plants. We consider the opportunity cost of moving some cloud services to private, distributed, solar-powered computing facilities. To this end, we compare the potential revenue of leasing computing resources to a cloud pool with the revenue obtained by selling the surplus energy to the grid. We first estimate the consumption of virtualized cloud computing instances, establishing a metric of computational efficiency per nominal photovoltaic power installed. Based on this metric and characterizing the site's annual solar production, we estimate the total return and payback. The results show that the model is economically viable and technically feasible. We finally depict the still many questions open, such as security, and the fundamental barriers to address, mainly related with a cloud model ruled by a few big players.
翻訳日:2023-05-16 03:00:28 公開日:2020-06-10
# 一般化確率論のクラスにおけるエントロピー不確かさ関係

Entropic Uncertainty Relations in a Class of Generalized Probabilistic Theories ( http://arxiv.org/abs/2006.05671v1 )

ライセンス: Link先を確認
Ryo Takakura, Takayuki Miyadera(参考訳) エントロピーの不確実性関係は、量子論の基礎と応用の両方において重要な役割を果たす。 量子論においてよく研究されているが、一般化確率論(GPT)におけるエントロピーの不確実性についてはほとんど知られていない。 現在の研究では、量子論の一般化と見なせるGPTのクラスにおいて、2種類のエントロピー不確実性関係、準備および測定不確実性関係を探求している。 エントロピック準備の不確かさ関係を得る方法だけでなく、buscemiらによる量子不確かさ関係と同様のエントロピック測定の不確かさ関係を得る方法。 この説では[Phys. Rev. Lett., 1112, 050401] が証明されている。 これは量子論における不確実性関係のエントロピー構造がより普遍的であることを示している。 正規多角形理論と呼ばれるGPTにおける我々の関係の具体的な計算も示す。

Entropic uncertainty relations play an important role in both fundamentals and applications of quantum theory. Although they have been well-investigated in quantum theory, little is known about entropic uncertainty in generalized probabilistic theories (GPTs). The current study explores two types of entropic uncertainty relations, preparation and measurement uncertainty relations, in a class of GPTs which can be considered generalizations of quantum theory. Not only a method for obtaining entropic preparation uncertainty relations but also an entropic measurement uncertainty relation similar to the quantum one by Buscemi et al. [Phys. Rev. Lett., 112, 050401] are proved in those theories. It manifests that the entropic structure of uncertainty relations in quantum theory is more universal. Concrete calculations of our relations in GPTs called the regular polygon theories are also demonstrated.
翻訳日:2023-05-16 03:00:13 公開日:2020-06-10
# フィードフォワード制御による長寿命・多重化原子-光子結合界面

Long-lived and multiplexed atom-photon entanglement interface with feed-forward-controlled readouts ( http://arxiv.org/abs/2006.05631v1 )

ライセンス: Link先を確認
Shengzhi Wang, Minjie Wang, Yafei Wen, Zhongxiao Xu, Tengfei Ma, Shujing Li, Hai Wang(参考訳) フォトニックとスピン波(原子メモリ)量子ビット間の絡み合いを生成する量子インタフェース(QI)は、量子リピータの基本構成要素である。 実際にアンサンブルベースのリピータを実現するには、長い寿命とマルチモード容量の量子メモリが必要である。 これらの異なる目標に対して大きな進展があった。 残る課題は、長期記憶とマルチモード記憶を1つのQIにまとめることである。 そこで, 位相安定偏光干渉計内に配置したレーザー冷却原子に, マルチモード, 磁場非感受性, 長波長のスピン波を蓄え, 最大3つの長寿命スピン波量子ビットを蓄える多重qiを構築した。 フィードフォワード制御システムを用いて、多重化QIは、単一モードQIと比較して原子-光子(光子-光子)絡み合いの発生確率が3倍増加することを示した。 測定されたベルパラメータは2.5+/-0.1であり、メモリ寿命は最大1msである。 この研究は、ファイバーベースの長距離量子通信を実現する上で重要な一歩である。

The quantum interface (QI) that generates entanglement between photonic and spin-wave (atomic memory) qubits is a basic building block for quantum repeaters. Realizing ensemble-based repeaters in practice requires quantum memory providing long lifetime and multimode capacity. Significant progresses have been achieved on these separate goals. The remaining challenge is to combine long-lived and multimode memories into a single QI. Here, by establishing multimode, magnetic-field-insensitive and long-wavelength spin-wave storage in laser-cooled atoms that are placed inside a phase-passively-stabilized polarization interferometer, we constructed a multiplexed QI that stores up to three long-lived spin-wave qubits. Using a feed-forward-controlled system, we demonstrated that the multiplexed QI gives rise to a 3-fold increase in the atom-photon (photon-photon) entanglement-generation probability compared to single-mode QIs. The measured Bell parameter is 2.5+/-0.1 combined with a memory lifetime up to 1ms. The presented work represents a key step forward in realizing fiber-based long-distance quantum communications.
翻訳日:2023-05-16 02:58:40 公開日:2020-06-10
# 光子封鎖の崩壊に関する臨界理論

Critical Theory for the Breakdown of Photon Blockade ( http://arxiv.org/abs/2006.05593v1 )

ライセンス: Link先を確認
Jonathan B. Curtis, Igor Boettcher, Jeremy T. Young, Mohammad F. Maghrebi, Howard Carmichael, Alexey V. Gorshkov, Michael Foss-Feig(参考訳) 光子遮断は、量子化された光の性質と強い光非線形性の相互作用の結果であり、強い光子-光子反発は量子光学系が複数の光子を吸収することを妨げている。 理論上、光場に結合した単一原子を共振駆動のjaynes-cummingsモデルで記述し、光子遮断が臨界駆動強度で第2次相転移で崩壊する場合に理論的に研究する。 この遷移は、反単体PT対称性の自発的破壊と関連していることを示す。 半古典近似の中で、定常状態における可観測性の期待値を計算する。 その後、半古典近似を超えて、リンドブラッド量子マスター方程式を減らし、乱(ブロックされた)相から古典的なレート方程式にアプローチする。 フォック空間における定常分布の幅は、単純なパワーローで臨界点に近づくと分岐し、平均場理論を呼び出すことなく定常状態観測可能性の臨界スケーリングを計算することができる。 本研究では,定常状態の普遍的性質を捉えた,占有数空間における偏拡散のための単純な物理玩具モデルを提案する。 この現象が観測できるいくつかの実験プラットフォームを挙げる。

Photon blockade is the result of the interplay between the quantized nature of light and strong optical nonlinearities, whereby strong photon-photon repulsion prevents a quantum optical system from absorbing multiple photons. We theoretically study a single atom coupled to the light field, described by the resonantly driven Jaynes--Cummings model, in which case the photon blockade breaks down in a second order phase transition at a critical drive strength. We show that this transition is associated to the spontaneous breaking of an anti-unitary PT-symmetry. Within a semiclassical approximation we calculate the expectation values of observables in the steady state. We then move beyond the semiclassical approximation and approach the critical point from the disordered (blockaded) phase by reducing the Lindblad quantum master equation to a classical rate equation that we solve. The width of the steady-state distribution in Fock space is found to diverge as we approach the critical point with a simple power-law, allowing us to calculate the critical scaling of steady state observables without invoking mean-field theory. We propose a simple physical toy model for biased diffusion in the space of occupation numbers, which captures the universal properties of the steady state. We list several experimental platforms where this phenomenon may be observed.
翻訳日:2023-05-16 02:58:20 公開日:2020-06-10
# 障害者のための安全スマートホームの構築に向けて

Toward Building Safer Smart Homes for the People with Disabilities ( http://arxiv.org/abs/2006.05907v1 )

ライセンス: Link先を確認
Shahinur Alam, Md Sultan Mahmud, Mohammed Yeasin(参考訳) 状況意識は、人命・財産の保護にとって重要な基盤であり、障害者(視覚障害や限られた移動性)の維持が困難である。 本稿では,状況認識を提供することで,より安全なスマートホームを構築するための対話型エンド・ツー・エンド支援ソリューション「SafeAccess」を提案する。 safeaccessの主な機能は、1)住宅の監視、および入居者の識別である。 2) 来るべき脅威(強盗、強盗、銃乱用など)をユーザが評価するのを助けること、及び 3) 友人や家族の家に安全にアクセスできるようにする。 本研究では,人物の検出と認識,画像記述の生成,スマートドアのプロトタイプ設計のためのロバストモデルの構築に注目する。 システムと対話するために,対話可能なスマートフォンアプリ,特に顔画像や友人や家族のビデオからパーソナライズされたプロフィールを作成するために実装した。 ホーム監視カメラに接続されたRaspberry piは、ビデオフレームをキャプチャし、変更検出を行い、アクティビティとフレームを識別する。 次に,高速なr-cnnを用いて人間の存在を検知し,マルチタスクカスケード畳み込みネットワーク(mtcnn)を用いて顔を抽出する。 その後,facenet/support vector machine (svm) 分類器を用いて検出された顔と照合する。 このシステムは、着信者の名前を含むmms、または「未知」、シーンイメージ、顔の説明、文脈情報としてユーザに通知する。 ユーザは、受信した通知に基づいてSafeAccessアプリを使って、アクセスを許可したり、緊急サービスを呼び出すことができる。 本システムは,Fスコア0.97の人物を特定し,Fスコア0.97の平均画像記述を生成する。

Situational awareness is a critical foundation for the protection of human life/properties and is challenging to maintain for people with disabilities (i.e., visual impairments and limited mobility). In this paper, we present a dialog enabled end-to-end assistive solution called "SafeAccess" to build a safer smart home by providing situational awareness. The key functions of SafeAccess are: - 1) monitoring homes and identifying incoming persons; 2) helping users in assessing incoming threats (e.g., burglary, robbery, gun violence); and, 3) allowing users to grant safe access to homes for friends/families. In this work, we focus on building a robust model for detecting and recognizing person, generating image descriptions, and designing a prototype for the smart door. To interact with the system, we implemented a dialog enabled smartphone app, especially for creating a personalized profile from face images or videos of friends/families. A Raspberry pi connected to the home monitoring cameras captures the video frames and performs change detection to identify frames with activities. Then, we detect human presence using Faster r-cnn and extract faces using Multi-task Cascaded Convolutional Networks (MTCNN). Subsequently, we match the detected faces using FaceNet/support vector machine (SVM) classifiers. The system notifies users with an MMS containing the name of incoming persons or as "unknown", scene image, facial description, and contextual information. The users can grant access or call emergency services using the SafeAccess app based on the received notification. Our system identifies persons with an F-score 0.97 and recognizes items to generate image description with an average F-score 0.97.
翻訳日:2023-05-16 02:49:53 公開日:2020-06-10
# 価値交換システムにおける設計によるプライバシ

Privacy by Design in Value-Exchange Systems ( http://arxiv.org/abs/2006.05892v1 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) この記事では、電子決済システムにおけるプライバシに関する最も議論の多い問題、特に中央銀行デジタル通貨の解決策の提案について論じる。

This article addresses some of the most contentious issues related to privacy in electronic payment systems, particularly the current zeitgeist of proposed solutions for central bank digital currency.
翻訳日:2023-05-16 02:49:30 公開日:2020-06-10
# アモルファス位相物質の臨界 --普遍スケーリングパラダイムを超えて-

Criticality in amorphous topological matter -- beyond the universal scaling paradigm ( http://arxiv.org/abs/2006.05886v1 )

ライセンス: Link先を確認
Moein N. Ivaki, Isac Sahlberg, and Teemu Ojanen(参考訳) アモルファスチャーン絶縁体における臨界輸送の理論を確立し、量子ホール転移によって表される現在の位相的臨界性のパラダイムを越えていることを示す。 平均密度が幾何学の統計的性質を決定するパーコレーション型ランダム格子上のチャーン絶縁体のモデルを考える。 これらの系は臨界密度付近で2パラメータのスケーリング挙動を示すが、臨界指数と臨界伝導率分布は著しく不均一である。 解析の結果, アモルファスな位相臨界は, 低密度での幾何型遷移と高密度でのアンダーソン局在型遷移の補間によって生じることがわかった。 本研究では,最近発見されたアモルファストポロジカル系が,従来から研究されてきたものと異なる特異な現象を示すことを示す。

We establish the theory of critical transport in amorphous Chern insulators and show that it lies beyond the current paradigm of topological criticality epitomized by the quantum Hall transitions. We consider models of Chern insulators on percolation-type random lattices where the average density determines the statistical properties of geometry. While these systems display a two-parameter scaling behaviour near the critical density, the critical exponents and the critical conductance distributions are strikingly nonuniversal. Our analysis indicates that the amorphous topological criticality results from an interpolation of a geometric-type transition at low density and an Anderson localization-type transition at high density. Our work demonstrates how the recently discovered amorphous topological systems display unique phenomena distinct from their conventionally-studied counterparts.
翻訳日:2023-05-16 02:49:26 公開日:2020-06-10
# 炭素ネットワークにおける節間連鎖とその例

Interlocking nodal chains and their examples in carbon networks ( http://arxiv.org/abs/2006.05751v1 )

ライセンス: Link先を確認
Zhiwei Li, Yuee Xie1, Po-Yao Chang, and Yuanping Chen(参考訳) Nodal chain は Nodal line semimetals の典型的な位相相である。 ここでは,2組の節鎖が相互に連動する新たな位相的位相相 -- 節鎖をインターロックすることを提案する。 1次元 (1D) 、2次元 (2D) 、3次元 (3D) バージョンがあり、3バンドモデルで作成できる。 2Dと3Dの介在する結節連鎖は、二重同心孤立(または交差)結節環、共存する結節鎖、孤立(または交差)結節環などの他の相へと進化する。 これらの相は様々な表面状態とランダウ準位を示しており、それらと関連する電子的および磁気的性質が豊富にあることを示唆している。 さらに, ひずみ下における一連の炭素ネットワークにおいて, 2次元結合性nodal鎖と関連する相転移を実現できる。 ひずみがなければ、炭素構造の位相相は二重同心孤立結節環である。 より大きな引張ひずみは、中間相がノーダル鎖と孤立したノーダル環の共存相であるのに対し、インターロック・ノーダル鎖に転移する相に繋がる。 さらに, 炭素ネットワークの安定性と合成について考察した。

Nodal chain is a typical topological phase in nodal line semimetals. Here, we propose a new topological phase -- interlocking nodal chains, in which two sets of nodal chains are interlocked each other. It includes one- (1D), two- (2D) and three-dimensional (3D) versions, which can be produced by a three-band model. The 2D and 3D interlocking nodal chains will evolve into some other phases, such as double concentric isolated (or intersecting) nodal rings, coexisting nodal chain and isolated (or intersecting) nodal rings. These phases exhibit diverse surface states and Landau levels, which implies that there are rich electronic and magnetic properties associating with them. Moreover, the 2D interlocking nodal chains and related phase transitions can be realized in a series of carbon networks under strain. Without strain, topological phase in the carbon structures is double concentric isolated nodal rings. A larger tensile strain leads to the phase transiting to an interlocking nodal chain, while the middle phase is a coexisting phase of a nodal chain and isolated nodal rings. In addition, stability and synthesis of the carbon networks are discussed.
翻訳日:2023-05-16 02:48:16 公開日:2020-06-10
# 新型コロナウイルス(covid-19)時代のtwitter乱用:白書

MP Twitter Abuse in the Age of COVID-19: White Paper ( http://arxiv.org/abs/2006.08363v1 )

ライセンス: Link先を確認
Genevieve Gorrell, Tracie Farrell and Kalina Bontcheva(参考訳) 新型コロナウイルス(COVID-19)が世界中を席巻する中、結果は公衆と意思決定者の間の効果的な関係に依存する。 英国では、英国がロックダウンに陥る恐れがあるという認識について、議会議員に悪質なツイートがあった。 パンデミックは危機に影響を及ぼす閣僚に注意を向けている。 しかし、概してこの急上昇は民事的であった。 ボリス・ジョンソン首相の新型コロナウイルス(covid-19)による重篤な病気は、twitter上で異例の支持反応のピークをもたらした。 新型コロナウイルス(covid-19)により多くの言及を受けた人は、悪用(負の相関関係)が減る傾向がある。 ジョンソン氏の回復後、経済的懸念が高まり、影響力のある人物によるロックダウン違反に対する怒りが高まり、5月には1,902人の議員への虐待レベルが上昇し、ウイルスの存在を否定するハッシュタグや用語が見つかった(例えば、#coronahoax、#coronabollocks、合計470万件のリプライの0.04%、または「安定したホームセーブ」や「変種」の言及の9%)。 これらはより悪用される傾向がある。 新型コロナウイルスの陰謀説を信じる一部の一般市民の証拠も見つかった。 高い虐待レベルは、パンデミックの中国を非難するハッシュタグと関連づけられた。

As COVID-19 sweeps the globe, outcomes depend on effective relationships between the public and decision-makers. In the UK there were uncivil tweets to MPs about perceived UK tardiness to go into lockdown. The pandemic has led to increased attention on ministers with a role in the crisis. However, generally this surge has been civil. Prime minister Boris Johnson's severe illness with COVID-19 resulted in an unusual peak of supportive responses on Twitter. Those who receive more COVID-19 mentions in their replies tend to receive less abuse (significant negative correlation). Following Mr Johnson's recovery, with rising economic concerns and anger about lockdown violations by influential figures, abuse levels began to rise in May. 1,902 replies to MPs within the study period were found containing hashtags or terms that refute the existence of the virus (e.g. #coronahoax, #coronabollocks, 0.04% of a total 4.7 million replies, or 9% of the number of mentions of "stay home save lives" and variants). These have tended to be more abusive. Evidence of some members of the public believing in COVID-19 conspiracy theories was also found. Higher abuse levels were associated with hashtags blaming China for the pandemic.
翻訳日:2023-05-16 02:42:01 公開日:2020-06-10
# ディラックの調和振動子の古典量子アナロジー:ゼロ点放射を含む熱放射の古典的側面

Dirac's Classical-Quantum Analogy for the Harmonic Oscillator: Classical Aspects in Thermal Radiation Including Zero-Point Radiation ( http://arxiv.org/abs/2006.07468v1 )

ライセンス: Link先を確認
Timothy H. Boyer(参考訳) 古典力学から量子力学への移行に対するディラックのPoisson-bracket-to-commutatorアナログは、多くの系において古典系と量子系は同じ代数構造を持つことを保証している。 アナロジーの量子側(プランク定数$\hbar$でスケールされた交換子を持つヒルベルト空間上の作用素)は代数構造を与えるだけでなく、量子基底状態における物理量の平均値も決定する。 一方、古典的な正準変換のみを与える非相対論的力学のポアソン括弧は、物理量に対していかなる値も与えない。 むしろ、古典物理学の基本的な位相空間分布を得るためには、非相対論的古典力学の外へ行かなければならない。 任意の温度における古典理論における物理量の値は、プランクの定数 $\hbar$ で設定されたスケールの古典的ゼロ点放射を含む熱放射平衡から生じる位相空間確率分布に依存すると仮定する。 熱放射の全ての機械系は、熱放射から一定の$\hbar$を継承する。 ここでは、1次元と3次元の調和振動子のすべての温度における古典理論と量子理論(アグリメントとコントラスト)の接続について述べる。

Dirac's Poisson-bracket-to-commutator analogy for the transition from classical to quantum mechanics assures that for many systems, the classical and quantum systems share the same algebraic structure. The quantum side of the analogy (involving operators on Hilbert space with commutators scaled by Planck's constant $\hbar$) not only gives the algebraic structure but also dictates the average values of physical quantities in the quantum ground state. On the other hand, the Poisson brackets of nonrelativistic mechanics, which give only the classical canonical transformations, do not give any values for physical quantities. Rather, one must go outside nonrelativistic classical mechanics in order to obtain a fundamental phase space distribution for classical physics. We assume that the values of physical quantities in classical theory at any temperature depend on the phase space probability distribution which arises from thermal radiation equilibrium including classical zero-point radiation with the scale set by Planck's constant $\hbar$. All mechanical systems in thermal radiation will inherit the constant $\hbar$ from thermal radiation. Here we note the connections between classical and quantum theories (agreement and contrasts) at all temperatures for the harmonic oscillator in one and three spatial dimensions.
翻訳日:2023-05-16 02:41:32 公開日:2020-06-10
# 急勾配エントロピー上昇量子熱力学の枠組みにおける制御相ゲートのエンタングルメントの損失予測

Loss-of-entanglement prediction of a controlled-PHASE gate in the framework of steepest-entropy-ascent quantum thermodynamics ( http://arxiv.org/abs/2006.06092v1 )

ライセンス: Link先を確認
J. A. Monta\~nez-Barrera, Cesar E. Damian-Ascencio, Michael R. von Spakovsky, Sergio Cano-Andrade(参考訳) 他の場所で示されているように、量子計算で起こる絡み合いや相関の損失の合理的なモデルは、システムに内在する非可逆性の存在を前提とした枠組みによって効果的に予測できると仮定するものである。 最も急なエントロピー上昇原理に基づいており、制御相ゲートの挙動を実験データとよく一致させて再現するために用いられる。 その結果、予測された絡み合いの損失は、非自明な方法での非可逆性と関連しており、絡み合いの損失を予測するために従来使用されていたものへの探索を保証している可能性がある。 この結果は、非平衡熱力学の観点から量子プロトコルにおけるこの損失を理解する手段を提供する。 このフレームワークは、計算の最大忠実性または絡み合い時間を拡張する戦略の開発を可能にする。

As has been shown elsewhere, a reasonable model of the loss of entanglement or correlation that occurs in quantum computations is one which assumes that they can effectively be predicted by a framework that presupposes the presence of irreversibilities internal to the system. It is based on the steepest-entropy-ascent principle and is used here to reproduce the behavior of a controlled-PHASE gate in good agreement with experimental data. The results show that the loss of entanglement predicted is related to the irreversibilities in a nontrivial way, providing a possible alternative approach that warrants exploration to that conventionally used to predict the loss of entanglement. The results provide a means for understanding this loss in quantum protocols from a nonequilibrium thermodynamic standpoint. This framework permits the development of strategies for extending either the maximum fidelity of the computation or the entanglement time.
翻訳日:2023-05-16 02:41:11 公開日:2020-06-10
# 変分量子ボルツマン機械

Variational Quantum Boltzmann Machines ( http://arxiv.org/abs/2006.06004v1 )

ライセンス: Link先を確認
Christa Zoufal and Aur\'elien Lucchi and Stefan Woerner(参考訳) 本稿では,量子ボルツマンマシン(qbms)に対する新しい実現手法を提案する。 必要なギブス状態の調製と損失関数の解析勾配の評価は、典型的には基底状態計算に使用される変分量子イマジナリー時間進化に基づいている。 既存の方法とは対照的に、この実装は、完全に可視である必要はなく隠れ単位を含むかもしれない任意のパラメータ化されたハミルトニアンの実際の損失関数の勾配を持つ、短期的互換性のあるqbmトレーニングを容易にする。 変分ギブス状態近似は、IBM Quantumが提供する実際の量子ハードウェア上での数値シミュレーションと実験によって実証される。 さらに,この変分QBM手法を数値シミュレーションを用いた生成的・識別的学習タスクに適用する。

This work presents a novel realization approach to Quantum Boltzmann Machines (QBMs). The preparation of the required Gibbs states, as well as the evaluation of the loss function's analytic gradient is based on Variational Quantum Imaginary Time Evolution, a technique that is typically used for ground state computation. In contrast to existing methods, this implementation facilitates near-term compatible QBM training with gradients of the actual loss function for arbitrary parameterized Hamiltonians which do not necessarily have to be fully-visible but may also include hidden units. The variational Gibbs state approximation is demonstrated with numerical simulations and experiments run on real quantum hardware provided by IBM Quantum. Furthermore, we illustrate the application of this variational QBM approach to generative and discriminative learning tasks using numerical simulation.
翻訳日:2023-05-16 02:40:16 公開日:2020-06-10
# 量子実験室による偽真空の運命の観測

Observing the fate of the false vacuum with a quantum laboratory ( http://arxiv.org/abs/2006.06003v1 )

ライセンス: Link先を確認
Steven Abel and Michael Spannowsky(参考訳) 量子場理論の力学過程を実験的に観察し研究するための量子実験室を設計・実装する。 我々のアプローチは、場の理論をイジングモデルとしてエンコードし、量子アニールにより解かれる。 概念の証明として、スカラー場理論を符号化し、様々なトンネル時間、真空変位、ポテンシャルプロファイルにおいて偽真空から真真空へのトンネルの確率を測定する。 結果は理論上予測されたものと一致し、量子アニールが真の量子系であり、量子実験室として使用できることを示した。 自由選択量子場理論においてインスタントン過程を実験的に測定できるのはこれが初めてである。 量子系のダイナミクスを研究するこの新で柔軟な方法は、任意の場の理論に適用することができる。 場の理論の動的挙動の実験的測定は理論計算とは無関係であり、適切な摂動的あるいは非摂動的計算法によって制限されることなく、それらの性質を推測することができる。 近い将来、そのような量子実験室における測定は理論的および計算的手法を概念的に改善し、これまで観測されていなかった量子現象の測定と詳細な研究を可能にする可能性がある。

We design and implement a quantum laboratory to experimentally observe and study dynamical processes of quantum field theories. Our approach encodes the field theory as an Ising model, which is then solved by a quantum annealer. As a proof-of-concept, we encode a scalar field theory and measure the probability for it to tunnel from the false to the true vacuum for various tunnelling times, vacuum displacements and potential profiles. The results are in accord with those predicted theoretically, showing that a quantum annealer is a genuine quantum system that can be used as a quantum laboratory. This is the first time it has been possible to experimentally measure instanton processes in a freely chosen quantum field theory. This novel and flexible method to study the dynamics of quantum systems can be applied to any field theory of interest. Experimental measurements of the dynamical behaviour of field theories are independent of theoretical calculations and can be used to infer their properties without being limited by the availability of suitable perturbative or nonperturbative computational methods. In the near future, measurements in such a quantum laboratory could therefore be used to improve theoretical and computational methods conceptually and may enable the measurement and detailed study of previously unobserved quantum phenomena.
翻訳日:2023-05-16 02:40:02 公開日:2020-06-10
# パンデミックパルス : 新型コロナウイルスパンデミックの社会的シグナルの解明とモデル化

Pandemic Pulse: Unraveling and Modeling Social Signals during the COVID-19 Pandemic ( http://arxiv.org/abs/2006.05983v1 )

ライセンス: Link先を確認
Steven J. Krieg, Jennifer J. Schnur, Jermaine D. Marshall, Matthew M. Schoenbauer, Nitesh V. Chawla(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが米国に与える影響の一部を表わす、社会データの収集を提示し、調査を始めます。 このデータは、様々な情報源から収集され、ニューストピック、ソーシャルディスタンシング行動、コミュニティモビリティの変化、Web検索などの経年的傾向を含む。 このマルチモーダルな取り組みによって、パンデミックが社会の脈拍に与える影響を分析する新たな機会が生まれます。 予備的な結果は、世界保健機関(WHO)が3月11日にパンデミックを宣言した直後に公表した新型コロナウイルス関連のニュース記事の数が着実に減少していることを示している。 さらに、政治的に中道的で科学的に根拠のある情報源は、パンデミックの開始前に測定された基準と比べて、政治的に極端な情報源よりも新型コロナウイルスのニュースの割合が低いことが判明した。 これらのマルチモーダル信号のさらなる分析は有意義な社会的洞察をもたらし、さらなる探索を支援するためにインタラクティブなダッシュボードを提示することを提案する。

We present and begin to explore a collection of social data that represents part of the COVID-19 pandemic's effects on the United States. This data is collected from a range of sources and includes longitudinal trends of news topics, social distancing behaviors, community mobility changes, web searches, and more. This multimodal effort enables new opportunities for analyzing the impacts such a pandemic has on the pulse of society. Our preliminary results show that the number of COVID-19-related news articles published immediately after the World Health Organization declared the pandemic on March 11, and that since that time have steadily decreased---regardless of changes in the number of cases or public policies. Additionally, we found that politically moderate and scientifically-grounded sources have, relative to baselines measured before the beginning of the pandemic, published a lower proportion of COVID-19 news than more politically extreme sources. We suggest that further analysis of these multimodal signals could produce meaningful social insights and present an interactive dashboard to aid further exploration.
翻訳日:2023-05-16 02:39:42 公開日:2020-06-10
# autodnnchip:fpgaとasicの両方のための自動dnnチップ予測およびビルダー

AutoDNNchip: An Automated DNN Chip Predictor and Builder for Both FPGAs and ASICs ( http://arxiv.org/abs/2001.03535v4 )

ライセンス: Link先を確認
Pengfei Xu, Xiaofan Zhang, Cong Hao, Yang Zhao, Yongan Zhang, Yue Wang, Chaojian Li, Zetong Guan, Deming Chen, Yingyan Lin(参考訳) 近年のDeep Neural Networks(DNN)のブレークスルーにより、DNNチップの需要が高まっている。 しかし、DNNチップの設計は、(1)主流のDNNには数百万のパラメータと操作があり、(2)データフロー、処理要素、メモリ階層といった多くの設計上の選択による大きな設計空間があるため、簡単ではない。 アプリケーション仕様を満たすためには、異なるハードウェアIPを必要とするDNN機能が異なる分解を行うために、アルゴリズム/ハードウェアの共同設計が必要である。 そのため、DNNチップの設計には長い時間がかかり、学際的な専門家を必要とする。 高速かつ効果的なDNNチップ設計を実現するため、指定されたアプリケーションとデータセットに対して機械学習フレームワーク(例えば、PyTorch)からDNNに与えられたFPGAおよびASICベースのDNNチップ実装を自動的に生成できるDNNチップジェネレータであるAutoDNNchipを提案する。 Specifically, AutoDNNchip consists of two integrated enablers: (1) a Chip Predictor, built on top of a graph-based accelerator representation, which can accurately and efficiently predict a DNN accelerator's energy, throughput, and area based on the DNN model parameters, hardware configuration, technology-based IPs, and platform constraints; and (2) a Chip Builder, which can automatically explore the design space of DNN chips (including IP selection, block configuration, resource balancing, etc.), optimize chip design via the Chip Predictor, and then generate optimized synthesizable RTL to achieve the target design metrics. 実験の結果,15のDNNモデルと4つのプラットフォーム(edge-FPGA/TPU/GPUおよびASIC)を用いて検証した場合,チップ予測器の性能は実測値と10%程度異なることがわかった。 さらに、autodnnchipによって生成されたアクセラレータは、エキスパートによる最先端アクセラレータよりも優れた(最大3.86倍の改善)パフォーマンスを実現できます。

Recent breakthroughs in Deep Neural Networks (DNNs) have fueled a growing demand for DNN chips. However, designing DNN chips is non-trivial because: (1) mainstream DNNs have millions of parameters and operations; (2) the large design space due to the numerous design choices of dataflows, processing elements, memory hierarchy, etc.; and (3) an algorithm/hardware co-design is needed to allow the same DNN functionality to have a different decomposition, which would require different hardware IPs to meet the application specifications. Therefore, DNN chips take a long time to design and require cross-disciplinary experts. To enable fast and effective DNN chip design, we propose AutoDNNchip - a DNN chip generator that can automatically generate both FPGA- and ASIC-based DNN chip implementation given DNNs from machine learning frameworks (e.g., PyTorch) for a designated application and dataset. Specifically, AutoDNNchip consists of two integrated enablers: (1) a Chip Predictor, built on top of a graph-based accelerator representation, which can accurately and efficiently predict a DNN accelerator's energy, throughput, and area based on the DNN model parameters, hardware configuration, technology-based IPs, and platform constraints; and (2) a Chip Builder, which can automatically explore the design space of DNN chips (including IP selection, block configuration, resource balancing, etc.), optimize chip design via the Chip Predictor, and then generate optimized synthesizable RTL to achieve the target design metrics. Experimental results show that our Chip Predictor's predicted performance differs from real-measured ones by < 10% when validated using 15 DNN models and 4 platforms (edge-FPGA/TPU/GPU and ASIC). Furthermore, accelerators generated by our AutoDNNchip can achieve better (up to 3.86X improvement) performance than that of expert-crafted state-of-the-art accelerators.
翻訳日:2023-01-14 03:12:55 公開日:2020-06-10
# サイバーセキュリティのための人工知能(AICS)ワークショップ2020の成果

Proceedings of the Artificial Intelligence for Cyber Security (AICS) Workshop 2020 ( http://arxiv.org/abs/2002.08320v2 )

ライセンス: Link先を確認
Dennis Ross, Arunesh Sinha, Diane Staheli, Bill Streilein(参考訳) ワークショップは、サイバーセキュリティにおける問題への人工知能の適用に焦点を当てる。 aics 2020の重点は、サイバーセキュリティ問題における人間と機械のコラボレーションであり、人間のオペレーターとai技術のコラボレーションを特に探求する。 このワークショップは、機械学習、ゲーム理論、自然言語処理、知識表現、自動化された補助的推論、人間のマシンインタラクションなど、AIの応用分野に対処する。 さらに、人間とマシンのチーム構成のキャラクタリゼーションとデプロイに特に重点を置いたサイバーセキュリティアプリケーション領域が焦点となる。

The workshop will focus on the application of artificial intelligence to problems in cyber security. AICS 2020 emphasis will be on human-machine teaming within the context of cyber security problems and will specifically explore collaboration between human operators and AI technologies. The workshop will address applicable areas of AI, such as machine learning, game theory, natural language processing, knowledge representation, automated and assistive reasoning and human machine interactions. Further, cyber security application areas with a particular emphasis on the characterization and deployment of human-machine teaming will be the focus.
翻訳日:2023-01-03 04:19:17 公開日:2020-06-10
# 結晶変分勾配の投射

Projected Stein Variational Gradient Descent ( http://arxiv.org/abs/2002.03469v2 )

ライセンス: Link先を確認
Peng Chen, Omar Ghattas(参考訳) 次元の呪いは、高次元のベイズ推論における長年の挑戦である。 そこで本研究では,これらの問題の誤用から生ずる情報空間の内在的低次元性の基本特性を活用することで,この課題を克服するために,スタイン変分勾配降下法(pSVGD)を提案する。 我々は,log-likelihoodの勾配情報行列を用いて部分空間を適応的に構築し,psvgdをパラメータ射影のより低次元係数に適用する。 この方法はSVGDよりも正確で効率的であることが示されている。 また、パラメータ数、サンプル数、データポイント数、プロセッサコア数に関して、数百から数万の範囲のパラメータによる実験により、よりスケーラブルであることが示されている。

The curse of dimensionality is a longstanding challenge in Bayesian inference in high dimensions. In this work, we propose a projected Stein variational gradient descent (pSVGD) method to overcome this challenge by exploiting the fundamental property of intrinsic low dimensionality of the data informed subspace stemming from ill-posedness of such problems. We adaptively construct the subspace using a gradient information matrix of the log-likelihood, and apply pSVGD to the much lower-dimensional coefficients of the parameter projection. The method is demonstrated to be more accurate and efficient than SVGD. It is also shown to be more scalable with respect to the number of parameters, samples, data points, and processor cores via experiments with parameters dimensions ranging from the hundreds to the tens of thousands.
翻訳日:2023-01-02 14:27:34 公開日:2020-06-10
# サブクラス蒸留

Subclass Distillation ( http://arxiv.org/abs/2002.03936v2 )

ライセンス: Link先を確認
Rafael M\"uller, Simon Kornblith, Geoffrey Hinton(参考訳) 大きな「教師」ニューラルネットワークがラベル付きデータに基づいて訓練された後、教師が誤ったクラスに割り当てる確率は、教師が一般化する方法に関する多くの情報を明らかにする。 これらの確率に合致するように小さな「学生」モデルを訓練することで、教師の一般化能力のほとんどを生徒に移すことができ、訓練データから直接生徒を訓練するよりも、はるかに小さなモデルを作ることができる。 転校は、教師が学習した関数についてより多くのことが明らかになるため、可能なクラスが多数ある場合に最もうまく機能するが、いくつかの可能なクラスがある場合、教師が教師が教師が監督訓練中に考案した多くのサブクラスに分割させることによって、転校を改善することができる。 生徒はサブクラスの確率に合致するように訓練される。 既知の自然サブクラスが存在するデータセットに対して、教師が同様のサブクラスを学習し、蒸留を改善することを実証する。 サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速くより良く学習できることを示す。

After a large "teacher" neural network has been trained on labeled data, the probabilities that the teacher assigns to incorrect classes reveal a lot of information about the way in which the teacher generalizes. By training a small "student" model to match these probabilities, it is possible to transfer most of the generalization ability of the teacher to the student, often producing a much better small model than directly training the student on the training data. The transfer works best when there are many possible classes because more is then revealed about the function learned by the teacher, but in cases where there are only a few possible classes we show that we can improve the transfer by forcing the teacher to divide each class into many subclasses that it invents during the supervised training. The student is then trained to match the subclass probabilities. For datasets where there are known, natural subclasses we demonstrate that the teacher learns similar subclasses and these improve distillation. For clickthrough datasets where the subclasses are unknown we demonstrate that subclass distillation allows the student to learn faster and better.
翻訳日:2023-01-02 08:00:50 公開日:2020-06-10
# GPU-Systolic Array統合によるDNN加速のバランシング効率とフレキシビリティ

Balancing Efficiency and Flexibility for DNN Acceleration via Temporal GPU-Systolic Array Integration ( http://arxiv.org/abs/2002.08326v2 )

ライセンス: Link先を確認
Cong Guo, Yangjie Zhou, Jingwen Leng, Yuhao Zhu, Zidong Du, Quan Chen, Chao Li, Bin Yao and Minyi Guo(参考訳) ディープニューラルネットワーク(DNN)スパイクのための特別なハードウェアアクセラレータに対する研究の関心は最近、パフォーマンスと効率の面で優れています。 しかし、今日のDNNアクセラレータは主に、畳み込みや行列乗算のような特定の"カーネル"の加速に焦点を当てている。 アプリケーション全体に対する意味のあるスピードアップは、しばしば、非常に並列で、DNNアクセラレータに不適な計算をサポートする必要がある。 CPUやGPUなどの汎用プロセッサを統合すると、データ移動のオーバーヘッドが大きくなり、DNNアクセラレーターのリソース過小評価につながる。 エンド・ツー・エンドのアプリケーションを高速化するために,DNNアクセラレータ上で汎用的なプログラマビリティを提供する新しいアーキテクチャ設計と実行モデルであるSMAを提案する。 SMAの鍵は、シストリック実行モデルとGPUのようなSIMD実行モデルとの時間的統合である。 smaはsystolic-arrayアクセラレータとgpuの間で共有される共通コンポーネントを活用し、2つのモードをその場で切り替える軽量な再構成機能を提供する。 SMAは最大63%のパフォーマンス改善を実現し、TensorCoreを使ったベースラインのVoltaアーキテクチャよりも23%少ないエネルギーを消費する。

The research interest in specialized hardware accelerators for deep neural networks (DNN) spikes recently owing to their superior performance and efficiency. However, today's DNN accelerators primarily focus on accelerating specific "kernels" such as convolution and matrix multiplication, which are vital but only part of an end-to-end DNN-enabled application. Meaningful speedups over the entire application often require supporting computations that are, while massively parallel, ill-suited to DNN accelerators. Integrating a general-purpose processor such as a CPU or a GPU incurs significant data movement overhead and leads to resource under-utilization on the DNN accelerators. We propose Simultaneous Multi-mode Architecture (SMA), a novel architecture design and execution model that offers general-purpose programmability on DNN accelerators in order to accelerate end-to-end applications. The key to SMA is the temporal integration of the systolic execution model with the GPU-like SIMD execution model. The SMA exploits the common components shared between the systolic-array accelerator and the GPU, and provides lightweight reconfiguration capability to switch between the two modes in-situ. The SMA achieves up to 63% performance improvement while consuming 23% less energy than the baseline Volta architecture with TensorCore.
翻訳日:2022-12-30 20:44:11 公開日:2020-06-10
# 空における連合学習--uavスウォームを用いた協調電力割当とスケジューリング

Federated Learning in the Sky: Joint Power Allocation and Scheduling with UAV Swarms ( http://arxiv.org/abs/2002.08196v2 )

ライセンス: Link先を確認
Tengchan Zeng, Omid Semiari, Mohammad Mozaffari, Mingzhe Chen, Walid Saad, and Mehdi Bennis(参考訳) 無人航空機(UAV)は、協調軌道計画から協調目標認識まで様々なタスクを実行するために機械学習(ML)を利用する必要がある。 しかし、UAVスワムと地上基地局(BS)の連続的な接続が欠如しているため、特に大量のデータを扱う場合、集中型MLの使用は困難である。 本稿では,主要なUAVとそれに続くUAVからなるUAVスワム内に,分散フェデレーション学習(FL)アルゴリズムを実装するための新しいフレームワークを提案する。 その後のUAVは、収集したデータに基づいてローカルFLモデルをトレーニングし、このトレーニングされたローカルモデルを主要なUAVに送信し、受信したモデルを集約し、グローバルFLモデルを生成し、スワームネットワーク上でフォロワーに送信する。 風や機械振動による電波の減衰、伝達遅延、UAVアンテナ角の偏差などの無線要因がFLの性能に与える影響を明らかにするため、FLの厳密な収束解析を行う。 そこで, コンバージェンス時のエネルギー消費とSwarmの制御系に課される遅延要件を考慮しつつ, FLの収束率を最適化するために, 連系電力割当とスケジューリング設計を提案する。 シミュレーションの結果,fl収束解析の有効性を検証し,統合設計戦略がベースライン設計と比較して,収束に必要な通信ラウンド数を最大35%削減できることを示した。

Unmanned aerial vehicle (UAV) swarms must exploit machine learning (ML) in order to execute various tasks ranging from coordinated trajectory planning to cooperative target recognition. However, due to the lack of continuous connections between the UAV swarm and ground base stations (BSs), using centralized ML will be challenging, particularly when dealing with a large volume of data. In this paper, a novel framework is proposed to implement distributed federated learning (FL) algorithms within a UAV swarm that consists of a leading UAV and several following UAVs. Each following UAV trains a local FL model based on its collected data and then sends this trained local model to the leading UAV who will aggregate the received models, generate a global FL model, and transmit it to followers over the intra-swarm network. To identify how wireless factors, like fading, transmission delay, and UAV antenna angle deviations resulting from wind and mechanical vibrations, impact the performance of FL, a rigorous convergence analysis for FL is performed. Then, a joint power allocation and scheduling design is proposed to optimize the convergence rate of FL while taking into account the energy consumption during convergence and the delay requirement imposed by the swarm's control system. Simulation results validate the effectiveness of the FL convergence analysis and show that the joint design strategy can reduce the number of communication rounds needed for convergence by as much as 35% compared with the baseline design.
翻訳日:2022-12-30 13:53:10 公開日:2020-06-10
# メモリベースグラフネットワーク

Memory-Based Graph Networks ( http://arxiv.org/abs/2002.09518v2 )

ライセンス: Link先を確認
Amir Hosein Khasahmadi, Kaveh Hassani, Parsa Moradi, Leo Lee, Quaid Morris(参考訳) グラフニューラルネットワーク(GNN)は、グラフとして表現された任意のトポロジを持つデータを扱うディープモデルのクラスである。 我々は,ノード表現を協調的に学習し,グラフを粗くすることができるGNNのための効率的なメモリ層を提案する。 また,この階層的グラフ表現を学習できるメモリベースgnn (memgnn) とグラフメモリネットワーク (gmn) という2つの新しいネットワークを導入した。 実験の結果,提案手法は9つのグラフの分類と回帰ベンチマークのうち8つの結果が得られた。 また,学習した表現は分子データの化学的特徴に対応できることを示した。 コードと参照の実装は、https://github.com/amirkhas/GraphMemoryNetでリリースされます。

Graph neural networks (GNNs) are a class of deep models that operate on data with arbitrary topology represented as graphs. We introduce an efficient memory layer for GNNs that can jointly learn node representations and coarsen the graph. We also introduce two new networks based on this layer: memory-based GNN (MemGNN) and graph memory network (GMN) that can learn hierarchical graph representations. The experimental results shows that the proposed models achieve state-of-the-art results in eight out of nine graph classification and regression benchmarks. We also show that the learned representations could correspond to chemical features in the molecule data. Code and reference implementations are released at: https://github.com/amirkhas/GraphMemoryNet
翻訳日:2022-12-30 00:08:09 公開日:2020-06-10
# 深層混合による強化学習領域における文脈的政策伝達

Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts ( http://arxiv.org/abs/2003.00203v2 )

ライセンス: Link先を確認
Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee(参考訳) 強化学習では、転送のためのソースポリシーを選択する際に、コンテキストや現在の状態を考慮するエージェントが文脈自由アプローチより優れていることが示されている。 しかし、既存のアプローチでは、知識をモデルベース学習者からモデルフリー学習者へ文脈的に伝達するものではない。 これは例えば、豊富なデータを持つ多様なシミュレーションで故意にソースポリシーを学習するが、限られたデータを持つ実世界環境に移行する場合に有用である。 本稿では,推定対象タスクのダイナミクスとポリシー,および共通するサブゴールの知識を仮定する。 本稿では,目標タスクから収集した状態トラジェクトリを用いて,対象タスクのダイナミックスにマッチするソースタスクのダイナミックスに対する状態依存的信念を学習するための,新しい深層混合型定式化を提案する。 混合モデルは容易に解釈でき、ダイナミクスにおける推定誤差に対する頑健性を示し、ほとんどの学習アルゴリズムと互換性がある。 次に、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示し、OpenAI-Gymのベンチマークでその効果を実証する。

In reinforcement learning, agents that consider the context, or current state, when selecting source policies for transfer have been shown to outperform context-free approaches. However, none of the existing approaches transfer knowledge contextually from model-based learners to a model-free learner. This could be useful, for instance, when source policies are intentionally learned on diverse simulations with plentiful data but transferred to a real-world setting with limited data. In this paper, we assume knowledge of estimated source task dynamics and policies, and common sub-goals but different dynamics. We introduce a novel deep mixture-of-experts formulation for learning state-dependent beliefs over source task dynamics that match the target dynamics using state trajectories collected from the target task. The mixture model is easy to interpret, demonstrates robustness to estimation errors in dynamics, and is compatible with most learning algorithms. We then show how this model can be incorporated into standard policy reuse frameworks, and demonstrate its effectiveness on benchmarks from OpenAI-Gym.
翻訳日:2022-12-27 20:09:05 公開日:2020-06-10
# X-Stance: スタンス検出のための多言語マルチターゲットデータセット

X-Stance: A Multilingual Multi-Target Dataset for Stance Detection ( http://arxiv.org/abs/2003.08385v2 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。 データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語間評価を可能にする。 150以上の政治問題(ターゲット)について67万件のコメントがある。 特定のターゲットを持つスタンス検出モデルとは異なり、データセットを使用して、すべての問題に対して単一のモデルをトレーニングします。 ターゲット間の学習を可能にするために、各インスタンスに対して、ターゲットを表す自然な質問(例えば、"あなたはxをサポートしていますか? 多言語BERTのベースライン結果から, 姿勢検出のゼロショット・クロスリンガル・クロスターゲット転送が適度に成功していることが示された。

We extract a large-scale stance detection dataset from comments written by candidates of elections in Switzerland. The dataset consists of German, French and Italian text, allowing for a cross-lingual evaluation of stance detection. It contains 67 000 comments on more than 150 political issues (targets). Unlike stance detection models that have specific target issues, we use the dataset to train a single model on all the issues. To make learning across targets possible, we prepend to each instance a natural question that represents the target (e.g. "Do you support X?"). Baseline results from multilingual BERT show that zero-shot cross-lingual and cross-target transfer of stance detection is moderately successful with this approach.
翻訳日:2022-12-22 10:07:08 公開日:2020-06-10
# テクスチャ対応層状深度塗布による3次元撮影

3D Photography using Context-aware Layered Depth Inpainting ( http://arxiv.org/abs/2004.04727v3 )

ライセンス: Link先を確認
Meng-Li Shih, Shih-Yang Su, Johannes Kopf, Jia-Bin Huang(参考訳) 本稿では,1枚のRGB-D入力画像を3次元写真に変換する手法を提案する。 そこで我々は,明明な画素接続を基盤とする階層型奥行き画像を用いて,新しい局所色・奥行きコンテンツを空間的文脈認識でオクルード領域に合成する学習ベースの塗り込みモデルを提案する。 結果として得られる3D写真は、標準のグラフィックスエンジンを使用してモーションパララックスで効率よくレンダリングできる。 本手法の有効性を,課題の多い日常の場面で検証し,芸術的状況と比較して少ない工芸品を提示する。

We propose a method for converting a single RGB-D input image into a 3D photo - a multi-layer representation for novel view synthesis that contains hallucinated color and depth structures in regions occluded in the original view. We use a Layered Depth Image with explicit pixel connectivity as underlying representation, and present a learning-based inpainting model that synthesizes new local color-and-depth content into the occluded region in a spatial context-aware manner. The resulting 3D photos can be efficiently rendered with motion parallax using standard graphics engines. We validate the effectiveness of our method on a wide range of challenging everyday scenes and show fewer artifacts compared with the state of the arts.
翻訳日:2022-12-15 03:21:08 公開日:2020-06-10
# UHH-LT at SemEval-2020 Task 12: Fine-Tuning of Pre-Trained Transformer Networks for Offensive Language Detection

UHH-LT at SemEval-2020 Task 12: Fine-Tuning of Pre-Trained Transformer Networks for Offensive Language Detection ( http://arxiv.org/abs/2004.11493v2 )

ライセンス: Link先を確認
Gregor Wiedemann and Seid Muhie Yimam and Chris Biemann(参考訳) BERTのような事前訓練されたトランスフォーマーネットワークの微調整により、テキスト分類タスクの最先端結果が得られる。 通常、微調整はタスク固有のトレーニングデータセットを教師付きで行う。 マスク付き言語モデリング(MLM)タスクをさらに事前トレーニングすることで、教師なしで微調整することもできる。 これにより、実際の分類対象データセットに類似した教師なしMLMのドメイン内データにより、モデルのドメイン適応が可能となる。 本稿では,現在トレーニング済みのトランスフォーマーネットワークとMLMの微調整を併用して,攻撃言語検出の性能を比較検討する。 私たちのMLMファインチューニングされたRoBERTaベースの分類器は、英語のSemEval 2020 Shared Task~12で公式に1位にランクされています。 ALBERTモデルによるさらなる実験もこの結果を上回っている。

Fine-tuning of pre-trained transformer networks such as BERT yield state-of-the-art results for text classification tasks. Typically, fine-tuning is performed on task-specific training datasets in a supervised manner. One can also fine-tune in unsupervised manner beforehand by further pre-training the masked language modeling (MLM) task. Hereby, in-domain data for unsupervised MLM resembling the actual classification target dataset allows for domain adaptation of the model. In this paper, we compare current pre-trained transformer networks with and without MLM fine-tuning on their performance for offensive language detection. Our MLM fine-tuned RoBERTa-based classifier officially ranks 1st in the SemEval 2020 Shared Task~12 for the English language. Further experiments with the ALBERT model even surpass this result.
翻訳日:2022-12-10 09:49:23 公開日:2020-06-10
# DenoiSeg: 統合Denoisingとセグメンテーション

DenoiSeg: Joint Denoising and Segmentation ( http://arxiv.org/abs/2005.02987v2 )

ライセンス: Link先を確認
Tim-Oliver Buchholz, Mangal Prakash, Alexander Krull, Florian Jug(参考訳) 顕微鏡画像解析は、しばしばオブジェクトのセグメンテーションを必要とするが、このタスクのトレーニングデータは通常、乏しく、取得が困難である。 ここでは、いくつかの注釈付き基底真理セグメンテーションでエンドツーエンドに訓練できる新しい方法であるDenoySegを提案する。 我々は、ノイズの多い画像だけで訓練できる自己教師付き遮音方式であるNoss2Voidを拡張して、密度の高い3クラスセグメンテーションを予測する。 提案手法が成功した理由は,特に同一ネットワーク内で共同で行う場合,セグメンテーションがデノナイズから利益を得ることができるためである。 ネットワークは、利用可能なすべての生データを見て、ほんの数個のセグメンテーションラベルが利用可能であっても、セグメンテーションにコラーニングしながら、注目のエキスパートになる。 この仮説は, 適度な合成ノイズを付加した場合に, 高品質(非常に低騒音)の生データに対する最高のセグメンテーション結果が得られるという観察によってさらに促進される。 これは分別処理を非自明なものにし、望ましい共学習効果を解き放つ。 我々はDenoiSegが、高品質なトレーニングデータに対する巨大な飢餓を回避し、高密度なセグメンテーションを効果的に少なからぬ学習を可能にする有効な方法を提供すると考えている。

Microscopy image analysis often requires the segmentation of objects, but training data for this task is typically scarce and hard to obtain. Here we propose DenoiSeg, a new method that can be trained end-to-end on only a few annotated ground truth segmentations. We achieve this by extending Noise2Void, a self-supervised denoising scheme that can be trained on noisy images alone, to also predict dense 3-class segmentations. The reason for the success of our method is that segmentation can profit from denoising, especially when performed jointly within the same network. The network becomes a denoising expert by seeing all available raw data, while co-learning to segment, even if only a few segmentation labels are available. This hypothesis is additionally fueled by our observation that the best segmentation results on high quality (very low noise) raw data are obtained when moderate amounts of synthetic noise are added. This renders the denoising-task non-trivial and unleashes the desired co-learning effect. We believe that DenoiSeg offers a viable way to circumvent the tremendous hunger for high quality training data and effectively enables few-shot learning of dense segmentations.
翻訳日:2022-12-06 05:05:47 公開日:2020-06-10
# VecQ: ベクトル化重み量子化による最小損失DNNモデル圧縮

VecQ: Minimal Loss DNN Model Compression With Vectorized Weight Quantization ( http://arxiv.org/abs/2005.08501v2 )

ライセンス: Link先を確認
Cheng Gong, Yao Chen, Ye Lu, Tao Li, Cong Hao, Deming Chen(参考訳) 量子化はDNNの計算および/またはストレージコストを削減する効果的な方法であることが証明されている。 しかし、量子化ビット幅と最終的な精度のトレードオフは複雑で非凸であり、直接最適化することは困難である。 係数データの直接量子化損失(DQL)を最小化することは効果的な局所最適化法であるが、以前の研究ではDQLの正確な制御を無視することが多く、最終的なDNNモデルの精度が低下する。 本稿ではベクトル損失と呼ばれる新しい計量を提案する。 この新たな指標に基づいて、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。 さらに, モデル学習中に提案する量子化プロセスを高速化するために, パラメータ化確率推定法とテンプレートに基づく導出計算を用いて量子化プロセスを高速化する。 提案アルゴリズムは,MNIST, CIFAR, ImageNet, IMDB 映画レビュー, THUCNews テキストデータセットを数値DNNモデルで評価する。 その結果,提案した量子化解は最先端の手法よりも正確かつ効果的であり,より柔軟なビット幅支援が可能であることが示された。 さらに、Saliency Object Detection (SOD)タスクにおける量子化モデルの評価では、最大16$\times$weight size reductionという特徴抽出品質を維持している。

Quantization has been proven to be an effective method for reducing the computing and/or storage cost of DNNs. However, the trade-off between the quantization bitwidth and final accuracy is complex and non-convex, which makes it difficult to be optimized directly. Minimizing direct quantization loss (DQL) of the coefficient data is an effective local optimization method, but previous works often neglect the accurate control of the DQL, resulting in a higher loss of the final DNN model accuracy. In this paper, we propose a novel metric called Vector Loss. Based on this new metric, we develop a new quantization solution called VecQ, which can guarantee minimal direct quantization loss and better model accuracy. In addition, in order to speed up the proposed quantization process during model training, we accelerate the quantization process with a parameterized probability estimation method and template-based derivation calculation. We evaluate our proposed algorithm on MNIST, CIFAR, ImageNet, IMDB movie review and THUCNews text data sets with numerical DNN models. The results demonstrate that our proposed quantization solution is more accurate and effective than the state-of-the-art approaches yet with more flexible bitwidth support. Moreover, the evaluation of our quantized models on Saliency Object Detection (SOD) tasks maintains comparable feature extraction quality with up to 16$\times$ weight size reduction.
翻訳日:2022-12-01 23:48:10 公開日:2020-06-10
# 配向・密集物体検出のための動的細粒化ネットワーク

Dynamic Refinement Network for Oriented and Densely Packed Object Detection ( http://arxiv.org/abs/2005.09973v2 )

ライセンス: Link先を確認
Xingjia Pan, Yuqiang Ren, Kekai Sheng, Weiming Dong, Haolei Yuan, Xiaowei Guo, Chongyang Ma, Changsheng Xu(参考訳) 物体検出は過去10年で顕著な進歩を遂げた。 しかし,(1) ニューロンの受容野がすべて軸方向で同じ形状をしているのに対して,(2) 対象は多種多様な形状をしており,様々な方向に沿って配列している; (2) 検出モデルは一般的に一般的な知識で訓練されており,テスト時に特定の対象を扱うためにうまく一般化できない; (3) 限られたデータセットは,このタスクの開発を妨げる。 最初の2つの問題を解決するために,機能選択モジュール (FSM) と動的改善ヘッド (DRH) という2つの新しいコンポーネントからなる動的改良ネットワークを提案する。 我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。 関連するベンチマークの可用性の制限に対処するため,SKU110K-Rという,SKU110Kに基づく有向境界ボックスを組み込んだ,広範かつ完全な注釈付きデータセットを収集する。 我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。 実験の結果,本手法はベースライン手法と比較して,一貫性と実質的な向上が得られた。 コードとデータセットはhttps://github.com/Anymake/DRN_CVPR2020で公開されている。

Object detection has achieved remarkable progress in the past decade. However, the detection of oriented and densely packed objects remains challenging because of following inherent reasons: (1) receptive fields of neurons are all axis-aligned and of the same shape, whereas objects are usually of diverse shapes and align along various directions; (2) detection models are typically trained with generic knowledge and may not generalize well to handle specific objects at test time; (3) the limited dataset hinders the development on this task. To resolve the first two issues, we present a dynamic refinement network that consists of two novel components, i.e., a feature selection module (FSM) and a dynamic refinement head (DRH). Our FSM enables neurons to adjust receptive fields in accordance with the shapes and orientations of target objects, whereas the DRH empowers our model to refine the prediction dynamically in an object-aware manner. To address the limited availability of related benchmarks, we collect an extensive and fully annotated dataset, namely, SKU110K-R, which is relabeled with oriented bounding boxes based on SKU110K. We perform quantitative evaluations on several publicly available benchmarks including DOTA, HRSC2016, SKU110K, and our own SKU110K-R dataset. Experimental results show that our method achieves consistent and substantial gains compared with baseline approaches. The code and dataset are available at https://github.com/Anymake/DRN_CVPR2020.
翻訳日:2022-12-01 05:40:38 公開日:2020-06-10
# ビデオ講義におけるエンゲージメントの予測

Predicting Engagement in Video Lectures ( http://arxiv.org/abs/2006.00592v2 )

ライセンス: Link先を確認
Sahan Bulathwela, Mar\'ia P\'erez-Ortiz, Aldo Lipani, Emine Yilmaz and John Shawe-Taylor(参考訳) 近年のオープン・エデュケーショナル・リソース(OER)の爆発は、OERを処理・評価するためのスケーラブルで自動的なアプローチの需要を生み出し、学習者にとって最も適した教材を特定し、推薦することを目的としている。 個々の学習者のエンゲージメントに焦点をあてた他の文脈的、パーソナライズされたアプローチに比べて、ほとんど研究されていないトピックである、コンテキスト非依存のエンゲージメント(人口ベース)に関連する特徴や特徴を見つけるためのモデルを構築することに重点を置いています。 学習者のエンゲージメントは、人気/ビュー数よりも信頼性が高く、ユーザ評価よりも豊富であり、学習成果を達成する上でも重要な要素であることが示されている。 本研究では,教育における人口ベースエンゲージメントの予測モデルの構築について検討する。 本稿では,コンテキスト非依存な関与を予測するためのビデオ講義の新たな大規模データセットを提案し,この課題を実現するために,クロスモーダルとモダリティを特徴とする特徴セットを提案する。 さらに,学習者のエンゲージメントシグナルを定量化するための異なる戦略を検証した。 我々は、データ不足の場合、このアプローチの使用を実証する。 さらに,評価性能を示す最高の性能モデルの感度解析を行い,OERの教育推薦システムに容易に組み込めるようにした。

The explosion of Open Educational Resources (OERs) in the recent years creates the demand for scalable, automatic approaches to process and evaluate OERs, with the end goal of identifying and recommending the most suitable educational materials for learners. We focus on building models to find the characteristics and features involved in context-agnostic engagement (i.e. population-based), a seldom researched topic compared to other contextualised and personalised approaches that focus more on individual learner engagement. Learner engagement, is arguably a more reliable measure than popularity/number of views, is more abundant than user ratings and has also been shown to be a crucial component in achieving learning outcomes. In this work, we explore the idea of building a predictive model for population-based engagement in education. We introduce a novel, large dataset of video lectures for predicting context-agnostic engagement and propose both cross-modal and modality-specific feature sets to achieve this task. We further test different strategies for quantifying learner engagement signals. We demonstrate the use of our approach in the case of data scarcity. Additionally, we perform a sensitivity analysis of the best performing model, which shows promising performance and can be easily integrated into an educational recommender system for OERs.
翻訳日:2022-11-26 13:07:30 公開日:2020-06-10
# 新型コロナウイルス(covid-19)パンデミックの監視、モデル化、予測、制御のためのデータ駆動手法--データサイエンス、疫学、制御理論の活用

Data-Driven Methods to Monitor, Model, Forecast and Control Covid-19 Pandemic: Leveraging Data Science, Epidemiology and Control Theory ( http://arxiv.org/abs/2006.01731v2 )

ライセンス: Link先を確認
Teodoro Alamo, D. G. Reina, Pablo Mill\'an(参考訳) この文書は、コビッドウイルスパンデミックにおけるデータ駆動手法の役割を分析する。 SWOT分析と、データソースへのアクセスから最終的な意思決定ステップまでのロードマップを提供します。 我々は、コビッドウイルスのパンデミックと戦うためのデータ駆動型戦略の開発における困難と課題を予測しつつ、利用可能な方法論を見直しることを目指している。 3M分析: モニタリング、モデリング、意思決定。 パンデミックによって引き起こされたさまざまな課題に対処する、よく知られたデータ駆動スキームの可能性に焦点が当てられている。 一 疫病の流行をモニタリングし、予知すること。 二 政府の決定の有効性を評価すること。 (iii)タイムリーな決定をする。 ロードマップの各ステップは、統合された理論結果のレビューと、Covid-19コンテキストにおけるそれらの潜在的な応用を通じて詳細に記述されている。 可能であれば、過去の流行や現在の流行にその応用例を提供する。 方法論、アルゴリズム、アプリケーションの完全な列挙は提供していません。 データサイエンス、疫学、制御理論など、流行に総合的なアプローチを提供するために必要なさまざまな分野の橋渡しを試みています。 つまり、他のコンテキストで成功し、提案されたロードマップの異なるステップで潜在的な応用が示されている効率的なデータ駆動方法論に注目します。 この文書をより機能的にし、各分野の仕様に適合させるため、研究者や実践者がフィードバックを提供することを奨励する。 この文書を定期的に更新します。

This document analyzes the role of data-driven methodologies in Covid-19 pandemic. We provide a SWOT analysis and a roadmap that goes from the access to data sources to the final decision-making step. We aim to review the available methodologies while anticipating the difficulties and challenges in the development of data-driven strategies to combat the Covid-19 pandemic. A 3M-analysis is presented: Monitoring, Modelling and Making decisions. The focus is on the potential of well-known datadriven schemes to address different challenges raised by the pandemic: i) monitoring and forecasting the spread of the epidemic; (ii) assessing the effectiveness of government decisions; (iii) making timely decisions. Each step of the roadmap is detailed through a review of consolidated theoretical results and their potential application in the Covid-19 context. When possible, we provide examples of their applications on past or present epidemics. We do not provide an exhaustive enumeration of methodologies, algorithms and applications. We do try to serve as a bridge between different disciplines required to provide a holistic approach to the epidemic: data science, epidemiology, controltheory, etc. That is, we highlight effective data-driven methodologies that have been shown to be successful in other contexts and that have potential application in the different steps of the proposed roadmap. To make this document more functional and adapted to the specifics of each discipline, we encourage researchers and practitioners to provide feedback. We will update this document regularly.
翻訳日:2022-11-26 07:56:57 公開日:2020-06-10
# RNNとLSTMはLong Memoryを持っているか?

Do RNN and LSTM have Long Memory? ( http://arxiv.org/abs/2006.03860v2 )

ライセンス: Link先を確認
Jingyu Zhao, Feiqing Huang, Jia Lv, Yanjie Duan, Zhen Qin, Guodong Li, Guangjian Tian(参考訳) LSTMネットワークは、長期依存学習の難しさを克服するために提案され、アプリケーションに多大な進歩をもたらした。 成功と欠点を念頭に置いて、この記事では、RNNとLSTMは長い記憶を持つのだろうか、という疑問を提起する。 RNN と LSTM が統計的視点から長いメモリを持たないことを証明することで部分的に答える。 長期記憶ネットワークに対する新たな定義がさらに導入され、モデル重みを多項式速度で減衰させる必要がある。 この理論を検証するため、RNNとLSTMを最小限の修正を行うことで長期記憶ネットワークに変換し、その優位性を様々なデータセットの長期依存をモデル化する。

The LSTM network was proposed to overcome the difficulty in learning long-term dependence, and has made significant advancements in applications. With its success and drawbacks in mind, this paper raises the question - do RNN and LSTM have long memory? We answer it partially by proving that RNN and LSTM do not have long memory from a statistical perspective. A new definition for long memory networks is further introduced, and it requires the model weights to decay at a polynomial rate. To verify our theory, we convert RNN and LSTM into long memory networks by making a minimal modification, and their superiority is illustrated in modeling long-term dependence of various datasets.
翻訳日:2022-11-24 21:07:32 公開日:2020-06-10
# 誤情報は複雑度が高く

Misinformation Has High Perplexity ( http://arxiv.org/abs/2006.04666v2 )

ライセンス: Link先を確認
Nayeon Lee, Yejin Bang, Andrea Madotto, Pascale Fung(参考訳) 誤報が即座に処理されない場合、誤報が有害な結果をもたらす可能性があるため、誤報の開示は重要かつ時間的に重要な課題である。 しかし、誤情報の分類による解約は、通常、人間による注釈データが必要であり、新型コロナウイルスの感染拡大など、新たに発生したイベントの早い時間枠には適していない。 本稿では,誤報自体が真理文よりも難解であると仮定し,その難解性を利用して疑似クレームを非教師的な方法でデバンクすることを提案する。 まず,クレームと文の類似性から,科学的・ニュース的情報源から信頼できる証拠を抽出する。 第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。 我々は2つの新しいcovid-19関連テストセットを構築し、もう1つは科学的で、もう1つはコンテンツの政治的側面であり、我々のシステムが既存のシステムよりも良好に機能していることを実証的に検証する。 当社はこれらのデータセットを公開し、covid-19や他のトピックに関する誤情報の流布に関するさらなる研究を奨励しています。

Debunking misinformation is an important and time-critical task as there could be adverse consequences when misinformation is not quashed promptly. However, the usual supervised approach to debunking via misinformation classification requires human-annotated data and is not suited to the fast time-frame of newly emerging events such as the COVID-19 outbreak. In this paper, we postulate that misinformation itself has higher perplexity compared to truthful statements, and propose to leverage the perplexity to debunk false claims in an unsupervised manner. First, we extract reliable evidence from scientific and news sources according to sentence similarity to the claims. Second, we prime a language model with the extracted evidence and finally evaluate the correctness of given claims based on the perplexity scores at debunking time. We construct two new COVID-19-related test sets, one is scientific, and another is political in content, and empirically verify that our system performs favorably compared to existing systems. We are releasing these datasets publicly to encourage more research in debunking misinformation on COVID-19 and other topics.
翻訳日:2022-11-23 23:56:41 公開日:2020-06-10
# ラガンエフォートと形状と隠れマルコフモデルを用いた影響運動生成

Affective Movement Generation using Laban Effort and Shape and Hidden Markov Models ( http://arxiv.org/abs/2006.06071v1 )

ライセンス: Link先を確認
Ali Samadani, Rob Gorbet, Dana Kulic(参考訳) 身体運動は、感情状態を識別できる重要なコミュニケーション媒体である。 影響を伝達する動きは、機械に生命のような特性を与え、より魅力的な人間と機械の相互作用を生み出すのに役立つ。 本稿では,2つの動作抽象化を利用した自動感情運動生成手法を提案する。 1)laban movement analysis (lma) および 2)隠れマルコフモデリング。 LMAは運動の運動的および表現的特徴を抽象的に表現するための体系的なツールを提供する。 対象の感情がオーバーレイされる所望の運動経路を前提として,LMAエフォートと形状空間のラベル付きデータセットを探索し,対象の感情を伝達する所望の運動経路と類似した動きを求める。 特定された動きのhmm抽象化を求め、所望の動作経路を用いて、目標の感情を伝達する所望の動作経路の変調版である新規な動きを生成する。 変調の程度は変化し、発生した動きにおける運動的制約と感情的制約のトレードオフとなる。 提案手法は全身運動データセットを用いて検証する。 目標感情を認識可能な運動生成における提案手法の有効性を検証された自動認識モデルとユーザスタディを用いて評価した。 対象感情は, 認識モデルを用いて72%の割合で生成した運動から正しく認識された。 さらに,ユーザ研究の参加者は,生成した動きのサンプルからターゲットの感情を正しく知覚することができたが,混乱の事例も見られた。

Body movements are an important communication medium through which affective states can be discerned. Movements that convey affect can also give machines life-like attributes and help to create a more engaging human-machine interaction. This paper presents an approach for automatic affective movement generation that makes use of two movement abstractions: 1) Laban movement analysis (LMA), and 2) hidden Markov modeling. The LMA provides a systematic tool for an abstract representation of the kinematic and expressive characteristics of movements. Given a desired motion path on which a target emotion is to be overlaid, the proposed approach searches a labeled dataset in the LMA Effort and Shape space for similar movements to the desired motion path that convey the target emotion. An HMM abstraction of the identified movements is obtained and used with the desired motion path to generate a novel movement that is a modulated version of the desired motion path that conveys the target emotion. The extent of modulation can be varied, trading-off between kinematic and affective constraints in the generated movement. The proposed approach is tested using a full-body movement dataset. The efficacy of the proposed approach in generating movements with recognizable target emotions is assessed using a validated automatic recognition model and a user study. The target emotions were correctly recognized from the generated movements at a rate of 72% using the recognition model. Furthermore, participants in the user study were able to correctly perceive the target emotions from a sample of generated movements, although some cases of confusion were also observed.
翻訳日:2022-11-23 06:43:36 公開日:2020-06-10
# STONNE: フレキシブルニューラルネットワーク加速器のための詳細なアーキテクチャシミュレータ

STONNE: A Detailed Architectural Simulator for Flexible Neural Network Accelerators ( http://arxiv.org/abs/2006.07137v1 )

ライセンス: Link先を確認
Francisco Mu\~noz-Mart\'inez, Jos\'e L. Abell\'an, Manuel E. Acacio, Tushar Krishna(参考訳) 近年,Deep Neural Networks (DNN) の推論手順を高速化する特化アーキテクチャの設計が盛んに行われている。 第一世代の厳密な提案は、様々な層タイプと次元を効率的にサポートできるより高度な柔軟な加速器アーキテクチャに急速に置き換えられた。 設計の複雑さが増大するにつれて、設計の初期段階において、設計空間の迅速かつ正確な探索と、アーキテクチャ拡張の有効性の迅速な定量化を可能にするために、研究者がサイクル精度のシミュレーションツールを組み込むことがますます魅力的になる。 この目的のために,完全同時代のDNNモデルを実行するフレキシブルアクセラレーションアーキテクチャのエンドツーエンド評価を可能にする,サイクル精度,高モジュラー,高拡張性シミュレーションフレームワークSTONNE(Simulation Tool of Neural Network Engines)を提案する。 我々は最近提案されたMAERIアーキテクチャをモデル化するためにSTONNEを使用し、公開されているBSV符号化MAERI実装の性能結果にどのようにアプローチできるかを示す。 そして,MAERI に実装された折り畳み戦略を総合的に評価し,計算単位利用率が非常に低く (平均 5 DNN モデルで25% ) ,最終的に性能が低下することを示す。

The design of specialized architectures for accelerating the inference procedure of Deep Neural Networks (DNNs) is a booming area of research nowadays. First-generation rigid proposals have been rapidly replaced by more advanced flexible accelerator architectures able to efficiently support a variety of layer types and dimensions. As the complexity of the designs grows, it is more and more appealing for researchers to have cycle-accurate simulation tools at their disposal to allow for fast and accurate design-space exploration, and rapid quantification of the efficacy of architectural enhancements during the early stages of a design. To this end, we present STONNE (Simulation TOol of Neural Network Engines), a cycle-accurate, highly-modular and highly-extensible simulation framework that enables end-to-end evaluation of flexible accelerator architectures running complete contemporary DNN models. We use STONNE to model the recently proposed MAERI architecture and show how it can closely approach the performance results of the publicly available BSV-coded MAERI implementation. Then, we conduct a comprehensive evaluation and demonstrate that the folding strategy implemented for MAERI results in very low compute unit utilization (25% on average across 5 DNN models) which in the end translates into poor performance.
翻訳日:2022-11-23 06:43:13 公開日:2020-06-10
# ディープニューラルネットワークフレームワークによるシステム動作の劣化物理の解明 : 生活予後の維持をめざして

Uncovering the Underlying Physics of Degrading System Behavior Through a Deep Neural Network Framework: The Case of Remaining Useful Life Prognosis ( http://arxiv.org/abs/2006.09288v1 )

ライセンス: Link先を確認
Sergio Cofre-Martel, Enrique Lopez Droguett and Mohammad Modarres(参考訳) 深層学習(DL)は、システム行動の予後の回帰アルゴリズムとして一般的に用いられる、予後と健康管理(PHM)に不可欠なツールとなっている。 興味ある指標の1つは、監視センサデータを用いて推定される残りの有用寿命(RUL)である。 これらのディープラーニングアプリケーションのほとんどは、アルゴリズムをブラックボックス関数として扱い、データ解釈をほとんど制御しない。 制約が課されない場合、モデルが物理やその他の自然科学の法則を破る場合、これは問題となる。 最近の研究は、モデルがどのようにデータとシステム自体の振る舞いを解釈するかを研究するのではなく、低予測エラーを達成するために複雑なdlモデルを適用することに重点を置いている。 本稿では,部分微分方程式(PDE)による劣化の物理を探索するために,ディープニューラルネットワークフレームワークを用いたオープンボックスアプローチを提案する。 フレームワークには3つのステージがあり、システムの状態を表す潜伏変数と対応するPDEを見つけることを目的としている。 モデルは教師付き回帰として訓練され、RULと、システムの健康指標として使用および解釈可能な潜在変数マップを出力するように設計されている。

Deep learning (DL) has become an essential tool in prognosis and health management (PHM), commonly used as a regression algorithm for the prognosis of a system's behavior. One particular metric of interest is the remaining useful life (RUL) estimated using monitoring sensor data. Most of these deep learning applications treat the algorithms as black-box functions, giving little to no control of the data interpretation. This becomes an issue if the models break the governing laws of physics or other natural sciences when no constraints are imposed. The latest research efforts have focused on applying complex DL models to achieve a low prediction error rather than studying how the models interpret the behavior of the data and the system itself. In this paper, we propose an open-box approach using a deep neural network framework to explore the physics of degradation through partial differential equations (PDEs). The framework has three stages, and it aims to discover a latent variable and corresponding PDE to represent the health state of the system. Models are trained as a supervised regression and designed to output the RUL as well as a latent variable map that can be used and interpreted as the system's health indicator.
翻訳日:2022-11-23 06:42:51 公開日:2020-06-10
# エンタングルメント埋め込みリカレントネットワークアーキテクチャ:テンソル化潜在状態伝播とカオス予測

Entanglement-Embedded Recurrent Network Architecture: Tensorized Latent State Propagation and Chaos Forecasting ( http://arxiv.org/abs/2006.14698v1 )

ライセンス: Link先を確認
Xiangyi Meng (Boston University) and Tong Yang (Boston College)(参考訳) カオス時系列予測は理論や実世界の応用において大きな可能性を秘めているにもかかわらず、あまり理解されていない。 伝統的な統計/ML法は、非線形力学系におけるカオスを捉えるのに非効率であり、特に連続するステップ間の時間差$\Delta t$があまりに大きいため、自明でエルゴード的な局所最小値に到達する可能性が高い。 本稿では,LSTMの長期記憶特性を保ちながら,短期的非線形複雑性の学習を同時に促進し,セル状態から状態への伝播を緊張させることにより,LSTMに基づく新しい長期記憶アーキテクチャを提案する。 カオスの大域的ミニマは、多項式順序まで全ての非線形項が等しく扱われるテンソル化によって最も効率的に到達できると強調する。 アーキテクチャの効率性と汎用性は,理論的解析と実験結果によって体系的に検証され,確認される。 In our design, we have explicitly used two different many-body entanglement structures---matrix product states (MPS) and the multiscale entanglement renormalization ansatz (MERA)---as physics-inspired tensor decomposition techniques, from which we find that MERA generally performs better than MPS, hence conjecturing that the learnability of chaos is determined not only by the number of free parameters but also the tensor complexity---recognized as how entanglement entropy scales with varying matricization of the tensor.

Chaotic time series forecasting has been far less understood despite its tremendous potential in theory and real-world applications. Traditional statistical/ML methods are inefficient to capture chaos in nonlinear dynamical systems, especially when the time difference $\Delta t$ between consecutive steps is so large that a trivial, ergodic local minimum would most likely be reached instead. Here, we introduce a new long-short-term-memory (LSTM)-based recurrent architecture by tensorizing the cell-state-to-state propagation therein, keeping the long-term memory feature of LSTM while simultaneously enhancing the learning of short-term nonlinear complexity. We stress that the global minima of chaos can be most efficiently reached by tensorization where all nonlinear terms, up to some polynomial order, are treated explicitly and weighted equally. The efficiency and generality of our architecture are systematically tested and confirmed by theoretical analysis and experimental results. In our design, we have explicitly used two different many-body entanglement structures---matrix product states (MPS) and the multiscale entanglement renormalization ansatz (MERA)---as physics-inspired tensor decomposition techniques, from which we find that MERA generally performs better than MPS, hence conjecturing that the learnability of chaos is determined not only by the number of free parameters but also the tensor complexity---recognized as how entanglement entropy scales with varying matricization of the tensor.
翻訳日:2022-11-23 06:42:31 公開日:2020-06-10
# パラメータ化ニューラルオーディオ効果の探索と一般化可能性

Exploring Quality and Generalizability in Parameterized Neural Audio Effects ( http://arxiv.org/abs/2006.05584v1 )

ライセンス: Link先を確認
William Mitchell, Scott H. Hawley(参考訳) ディープニューラルネットワークは、特に波形領域のエンド・ツー・エンドモデルのように、しばしば以前のアプローチを超える音楽オーディオ信号処理アプリケーションへの期待を示している。 しかし、これまでの結果は低いサンプルレート、ノイズ、信号タイプの狭い領域、パラメータ化制御の欠如(すなわち「ノブ」)によって制約される傾向にあり、プロのオーディオエンジニアリングワークフローにはまだ適していない。 この研究は、ディープニューラルネットワークを用いて音楽制作に関連する非線形時間依存信号処理効果をモデル化する以前の研究を拡大しており、これはアナログ機器で見られるパラメータ化設定をエミュレートする機能を含み、最終的には商業的に実行可能な高品質オーディオ、すなわち16ビット解像度で44.1kHzサンプリングレートを生産することを目的としている。 本稿では,これらの効果をアーキテクチャや最適化によってモデル化し,計算効率の向上,信号対雑音比の低減,さらに様々な非線形音響効果にまで拡張する方法について述べる。 これらの目的のために採用される戦略は、モデル速度、モデルの正確性、モデルの一般化可能性という3つのアプローチであった。 提案手法のほとんどは、データセット操作を除いて、元のモデルよりも出力精度が限界あるいはゼロに向上する。 データセットのオーディオ内容の制限、例えば1つの楽器のデータセットの使用は、より一般的なデータセットでトレーニングされたモデルよりも、モデルの精度が大幅に向上することを発見した。

Deep neural networks have shown promise for music audio signal processing applications, often surpassing prior approaches, particularly as end-to-end models in the waveform domain. Yet results to date have tended to be constrained by low sample rates, noise, narrow domains of signal types, and/or lack of parameterized controls (i.e. "knobs"), making their suitability for professional audio engineering workflows still lacking. This work expands on prior research published on modeling nonlinear time-dependent signal processing effects associated with music production by means of a deep neural network, one which includes the ability to emulate the parameterized settings you would see on an analog piece of equipment, with the goal of eventually producing commercially viable, high quality audio, i.e. 44.1 kHz sampling rate at 16-bit resolution. The results in this paper highlight progress in modeling these effects through architecture and optimization changes, towards increasing computational efficiency, lowering signal-to-noise ratio, and extending to a larger variety of nonlinear audio effects. Toward these ends, the strategies employed involved a three-pronged approach: model speed, model accuracy, and model generalizability. Most of the presented methods provide marginal or no increase in output accuracy over the original model, with the exception of dataset manipulation. We found that limiting the audio content of the dataset, for example using datasets of just a single instrument, provided a significant improvement in model accuracy over models trained on more general datasets.
翻訳日:2022-11-23 06:36:55 公開日:2020-06-10
# オンライン決済システムにおけるインテリジェント制御のための解釈可能なマルチモーダル学習

Interpretable Multimodal Learning for Intelligent Regulation in Online Payment Systems ( http://arxiv.org/abs/2006.05669v1 )

ライセンス: Link先を確認
Shuoyao Wang, Diwei Zhu(参考訳) オンライン決済システムにおける取引活動の爆発的な増加に伴い、効果的かつリアルタイムな規制が決済サービスプロバイダーにとって重要な問題となっている。 人工知能(AI)の急速な発展により、将来性のあるソリューションとしてAIが実現可能な規制が出現する。 AI対応規制の主な課題の1つは、マルチメディア情報、すなわち、金融技術(FinTech)におけるマルチモーダル信号の活用方法である。 自然言語処理におけるアテンション機構に着想を得て,テキストとトランザクションの関係を調査するための,新たなクロスモーダル・イントラモーダルアテンションネットワーク(CIAN)を提案する。 具体的には、テキストとトランザクション情報を統合して、正のペアをクラスタリングし、負のペアを互いに切り離すテキスト-トレーダ共同埋め込み学習を強化する。 インテリジェントな規制のもう一つの課題は、複雑な機械学習モデルの解釈可能性である。 金融規制の要件を維持するため,我々は,低ランク行列近似問題として定式化された,注目機構が元の特徴とどのように相互作用するかを解釈するCIAN-Explainerを設計する。 Tencentの最大のオンライン決済システムであるWeChat Payの実際のデータセットを用いて、我々はCIANの実用的応用価値を検証する実験を行い、その手法は最先端の手法よりも優れています。

With the explosive growth of transaction activities in online payment systems, effective and realtime regulation becomes a critical problem for payment service providers. Thanks to the rapid development of artificial intelligence (AI), AI-enable regulation emerges as a promising solution. One main challenge of the AI-enabled regulation is how to utilize multimedia information, i.e., multimodal signals, in Financial Technology (FinTech). Inspired by the attention mechanism in nature language processing, we propose a novel cross-modal and intra-modal attention network (CIAN) to investigate the relation between the text and transaction. More specifically, we integrate the text and transaction information to enhance the text-trade jointembedding learning, which clusters positive pairs and push negative pairs away from each other. Another challenge of intelligent regulation is the interpretability of complicated machine learning models. To sustain the requirements of financial regulation, we design a CIAN-Explainer to interpret how the attention mechanism interacts the original features, which is formulated as a low-rank matrix approximation problem. With the real datasets from the largest online payment system, WeChat Pay of Tencent, we conduct experiments to validate the practical application value of CIAN, where our method outperforms the state-of-the-art methods.
翻訳日:2022-11-23 06:35:26 公開日:2020-06-10
# ニューラルネットワークをベースとするユニバーサルサウンドセレクタ

Listen to What You Want: Neural Network-based Universal Sound Selector ( http://arxiv.org/abs/2006.05712v1 )

ライセンス: Link先を確認
Tsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke Kinoshita, Shoko Araki(参考訳) 耳を傾ける音響イベント(AE)を制御できれば、より制御可能な可聴デバイスの開発が可能になるでしょう。 本稿では,1つまたは複数の希望するaeクラスに属するすべての音の抽出(または抑制)として定義するae音選択(または除去)問題に対処する。 この問題は、ソース分離とAE分類の組み合わせで対処できるが、この問題を解くための準最適方法である。 さらに、ソース分離は通常、AEを扱う際には実用的でないソースの最大数を知る必要がある。 本稿では,ユーザが指定したAEクラスからAE音声を直接選択可能な,普遍的な音声選択ニューラルネットワークを提案する。 提案するフレームワークは、複数のAEクラスから音を同時に選択するように明示的に最適化することができる。 本研究では,提案手法が有望なae選択性能を達成し,訓練中に見当たらない多数の音源との混合に一般化できることを実験的に示す。

Being able to control the acoustic events (AEs) to which we want to listen would allow the development of more controllable hearable devices. This paper addresses the AE sound selection (or removal) problems, that we define as the extraction (or suppression) of all the sounds that belong to one or multiple desired AE classes. Although this problem could be addressed with a combination of source separation followed by AE classification, this is a sub-optimal way of solving the problem. Moreover, source separation usually requires knowing the maximum number of sources, which may not be practical when dealing with AEs. In this paper, we propose instead a universal sound selection neural network that enables to directly select AE sounds from a mixture given user-specified target AE classes. The proposed framework can be explicitly optimized to simultaneously select sounds from multiple desired AE classes, independently of the number of sources in the mixture. We experimentally show that the proposed method achieves promising AE sound selection performance and could be generalized to mixtures with a number of sources that are unseen during training.
翻訳日:2022-11-23 06:34:52 公開日:2020-06-10
# 産業データに関するデータサイエンス --ブラウンフィールド応用における今日の課題-

Data science on industrial data -- Today's challenges in brown field applications ( http://arxiv.org/abs/2006.05757v1 )

ライセンス: Link先を確認
Tilman Klaeger, Sebastian Gottschall, Lukas Oehm(参考訳) 多くの研究がデータ分析と機械学習で行われている。 産業プロセスでは大量のデータが利用可能であり、多くの研究者がこのデータに取り組んでいる。 実践的なアプローチでは、現代の技術、特にブラウンフィールド応用の適用を阻害する多くの落とし穴が見つかる。 本論文では,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。 この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。 また、機械学習アプリケーションのデータ品質も実験室を去ると課題となる。 この領域では、データのセマンティックな記述の欠如と、マシンラーニングモデルのトレーニングと検証に利用できる基礎的な真実の欠如を期待する必要があります。 最後の課題はITセキュリティとファイアウォールへのデータ転送です。

Much research is done on data analytics and machine learning. In industrial processes large amounts of data are available and many researchers are trying to work with this data. In practical approaches one finds many pitfalls restraining the application of modern technologies especially in brown field applications. With this paper we want to show state of the art and what to expect when working with stock machines in the field. A major focus in this paper is on data collection which can be more cumbersome than most people might expect. Also data quality for machine learning applications is a challenge once leaving the laboratory. In this area one has to expect the lack of semantic description of the data as well as very little ground truth being available for training and verification of machine learning models. A last challenge is IT security and passing data through firewalls.
翻訳日:2022-11-23 06:34:29 公開日:2020-06-10
# ヘテロジニアスグラフアテンションネットワークによるtwitter上の噂の早期検出

Heterogeneous Graph Attention Networks for Early Detection of Rumors on Twitter ( http://arxiv.org/abs/2006.05866v1 )

ライセンス: Link先を確認
Qi Huang, Junshuai Yu, Jia Wu, Bin Wang(参考訳) モバイルインターネット技術の急速な発展とモバイルデバイスの普及により、ソーシャルメディア上で意見を述べるのがずっと簡単になった。 ソーシャルメディアプラットフォームのオープン性と利便性は、人々の自由な表現を提供すると同時に、新たな社会問題を引き起こす。 ソーシャルメディア上での虚偽の噂の普及は、大衆のパニックを引き起こし、個人の評判を損なう可能性があるため、うわさの自動検出技術が特に必要となる。 既存の噂検出手法の大半は、テキストの内容、ユーザプロファイル、伝播パターンから効果的な特徴を抽出することに焦点を当てている。 しかし、これらの手法は、噂の持つ意味的共通点を、噂を検出する重要な要素として特徴づけるテキスト内容のグローバルな意味関係を十分に活用していない。 本稿では,テキストの内容と噂の発信元をベースとした,ツイートワードユーザによる異種グラフを構築する。 メタパスに基づくヘテロジニアスグラフアテンションネットワークフレームワークが提案され,テキスト内容のグローバルな意味関係と,うわさ検出のためのソースツイートのグローバルな構造情報とをキャプチャする。 実世界のtwitterデータに関する実験は、提案されたアプローチの優位性を示しており、これは非常に初期段階で噂を検出するのに匹敵する能力を持っている。

With the rapid development of mobile Internet technology and the widespread use of mobile devices, it becomes much easier for people to express their opinions on social media. The openness and convenience of social media platforms provide a free expression for people but also cause new social problems. The widespread of false rumors on social media can bring about the panic of the public and damage personal reputation, which makes rumor automatic detection technology become particularly necessary. The majority of existing methods for rumor detection focus on mining effective features from text contents, user profiles, and patterns of propagation. Nevertheless, these methods do not take full advantage of global semantic relations of the text contents, which characterize the semantic commonality of rumors as a key factor for detecting rumors. In this paper, we construct a tweet-word-user heterogeneous graph based on the text contents and the source tweet propagations of rumors. A meta-path based heterogeneous graph attention network framework is proposed to capture the global semantic relations of text contents, together with the global structure information of source tweet propagations for rumor detection. Experiments on real-world Twitter data demonstrate the superiority of the proposed approach, which also has a comparable ability to detect rumors at a very early stage.
翻訳日:2022-11-23 06:34:19 公開日:2020-06-10
# AdaSense:ウェアラブルデバイスのための適応型低消費電力センシングとアクティビティ認識

AdaSense: Adaptive Low-Power Sensing and Activity Recognition for Wearable Devices ( http://arxiv.org/abs/2006.05884v1 )

ライセンス: Link先を確認
Marina Neseem, Jon Nelson, Sherief Reda(参考訳) ウェアラブルデバイスには厳格なパワーとメモリ制限がある。 その結果、精度を犠牲にすることなく、これらのデバイス上での消費電力を最適化する必要がある。 本稿では,人間行動認識のためのセンシング・特徴抽出・分類協調フレームワークであるAdaSenseについて述べる。 ユーザアクティビティの関数として異なるセンサ構成を動的に切り替えることで消費電力を削減する手法を提案する。 フレームワークは、正確性とエネルギーのトレードオフのpareto-frontierを表す構成を選択する。 AdaSenseは低オーバーヘッド処理と分類手法も使っている。 提案手法は, センサの消費電力を69%削減し, 動作認識精度は1.5%以下である。

Wearable devices have strict power and memory limitations. As a result, there is a need to optimize the power consumption on those devices without sacrificing the accuracy. This paper presents AdaSense: a sensing, feature extraction and classification co-optimized framework for Human Activity Recognition. The proposed techniques reduce the power consumption by dynamically switching among different sensor configurations as a function of the user activity. The framework selects configurations that represent the pareto-frontier of the accuracy and energy trade-off. AdaSense also uses low-overhead processing and classification methodologies. The introduced approach achieves 69% reduction in the power consumption of the sensor with less than 1.5% decrease in the activity recognition accuracy.
翻訳日:2022-11-23 06:33:57 公開日:2020-06-10
# 雲検出のためのLandsat-8とProba-V画像のクロスセンサ対応ドメイン適応

Cross-Sensor Adversarial Domain Adaptation of Landsat-8 and Proba-V images for Cloud Detection ( http://arxiv.org/abs/2006.05923v1 )

ライセンス: Link先を確認
Gonzalo Mateo-Garc\'ia, Valero Laparra, Dan L\'opez-Puigdollers, Luis G\'omez-Chova(参考訳) 同様の特性を持つ光学センサーを搭載した地球観測衛星の数は絶えず増加している。 その類似性や潜在的な相乗効果にもかかわらず、導出された衛星製品は個々のセンサーに対して独立して開発されることが多い。 抽出された放射能の差は精度を著しく低下させ、センサー間の知識と情報共有を損なう。 これは機械学習アルゴリズムにとって特に有害であり、各センサーのモデルをトレーニングするために新しい真実データを集めるのはコストがかかり、経験豊富な人力を必要とする。 本研究では、転送学習モデルの性能を高めるために、2つの衛星センサの画像間の統計的差異を低減するための領域適応変換を提案する。 提案手法は,変換モデルを非ペアで学習するcycada(cycle consistent generative adversarial domain adaptation)フレームワークに基づいている。 特にランドサット-8とproba-vの衛星は、異なるが互換性のあるスペクトル特性を示し、この方法を説明するために用いられる。 得られた変換は、適応された画像の空間的およびスペクトル的情報を保存しながら、画像データセット間の差を著しく低減するので、汎用的なクロスセンサー応用に有用である。 さらに,クラウド検出など特定のリモートセンシングアプリケーションの性能向上のために,コスト関数に専用の用語を含めることで,提案した対向領域適応モデルのトレーニングを改良することができる。 その結果,ランドサット8データを用いて訓練したクラウド検出モデルは,proba-vにおけるクラウド検出精度を向上させることがわかった。

The number of Earth observation satellites carrying optical sensors with similar characteristics is constantly growing. Despite their similarities and the potential synergies among them, derived satellite products are often developed for each sensor independently. Differences in retrieved radiances lead to significant drops in accuracy, which hampers knowledge and information sharing across sensors. This is particularly harmful for machine learning algorithms, since gathering new ground truth data to train models for each sensor is costly and requires experienced manpower. In this work, we propose a domain adaptation transformation to reduce the statistical differences between images of two satellite sensors in order to boost the performance of transfer learning models. The proposed methodology is based on the Cycle Consistent Generative Adversarial Domain Adaptation (CyCADA) framework that trains the transformation model in an unpaired manner. In particular, Landsat-8 and Proba-V satellites, which present different but compatible spatio-spectral characteristics, are used to illustrate the method. The obtained transformation significantly reduces differences between the image datasets while preserving the spatial and spectral information of adapted images, which is hence useful for any general purpose cross-sensor application. In addition, the training of the proposed adversarial domain adaptation model can be modified to improve the performance in a specific remote sensing application, such as cloud detection, by including a dedicated term in the cost function. Results show that, when the proposed transformation is applied, cloud detection models trained in Landsat-8 data increase cloud detection accuracy in Proba-V.
翻訳日:2022-11-23 06:26:46 公開日:2020-06-10
# 筋ロボットを用いたスクラッチからのテーブルテニスの学習

Learning to Play Table Tennis From Scratch using Muscular Robots ( http://arxiv.org/abs/2006.05935v1 )

ライセンス: Link先を確認
Dieter B\"uchler, Simon Guist, Roberto Calandra, Vincent Berenz, Bernhard Sch\"olkopf, Jan Peters(参考訳) テーブルテニスのようなダイナミックなタスクは人間にとって比較的簡単に学べるが、ロボットにとって大きな課題となる。 このようなタスクは、飛球とロボットの不正確な状態推定が存在する場合に、高速動作の正確な制御と正確なタイミングを必要とする。 強化学習(rl)は、データから複雑な制御タスクを学ぶことに有望である。 しかし、ステップベースのRLを実際のシステムの動的タスクに適用することは安全性に重要であり、RLは高速なシステムにおいて数百万の時間ステップで安全に探索および失敗する必要がある。 本稿では,空気圧人工筋肉(pams)によって駆動されるロボットアームを用いて,モデルフリーの強化学習を用いた卓球の安全学習を実現する。 pamsのソフトネスとバックドラビティ特性は、システムが状態空間の安全な領域を離れることを妨げる。 このようにして、RLはロボットに5m\sと12m\sの実際のボールを平均して所望の着地点に戻す権限を与える。 我々の設定により、エージェントはこの安全クリティカルなタスクを学習できる (i)アルゴリズムに安全性の制約がないもの (ii)返却球の速さを最大化しつつ (三)実システムの低レベルな制御に直接作用する確率的方針の使用、及び (iv)数千回の試用列車 (v)事前の知識のないゼロから。 さらに,シミュレーションで記録された球軌道をランダムに再生し,実際のロボットにアクションを適用することにより,練習中の実球の演奏を回避できる実用的ハイブリッドシミュレータHYSRを提案する。 この仕事は初めてです (a)擬人化ロボットアームを用いた安全クリティカルダイナミックタスクのフェールセーフ学習 (b)制御課題にも拘わらず、PAM駆動システムで精度要求問題を学ぶ (c)本物のボールなしで卓球をするロボットを訓練する。 ビデオとデータセットは muscleTT.embodied.ml で入手できる。

Dynamic tasks like table tennis are relatively easy to learn for humans but pose significant challenges to robots. Such tasks require accurate control of fast movements and precise timing in the presence of imprecise state estimation of the flying ball and the robot. Reinforcement Learning (RL) has shown promise in learning of complex control tasks from data. However, applying step-based RL to dynamic tasks on real systems is safety-critical as RL requires exploring and failing safely for millions of time steps in high-speed regimes. In this paper, we demonstrate that safe learning of table tennis using model-free Reinforcement Learning can be achieved by using robot arms driven by pneumatic artificial muscles (PAMs). Softness and back-drivability properties of PAMs prevent the system from leaving the safe region of its state space. In this manner, RL empowers the robot to return and smash real balls with 5 m\s and 12m\s on average to a desired landing point. Our setup allows the agent to learn this safety-critical task (i) without safety constraints in the algorithm, (ii) while maximizing the speed of returned balls directly in the reward function (iii) using a stochastic policy that acts directly on the low-level controls of the real system and (iv) trains for thousands of trials (v) from scratch without any prior knowledge. Additionally, we present HYSR, a practical hybrid sim and real training that avoids playing real balls during training by randomly replaying recorded ball trajectories in simulation and applying actions to the real robot. This work is the first to (a) fail-safe learn of a safety-critical dynamic task using anthropomorphic robot arms, (b) learn a precision-demanding problem with a PAM-driven system despite the control challenges and (c) train robots to play table tennis without real balls. Videos and datasets are available at muscularTT.embodied.ml.
翻訳日:2022-11-23 06:26:25 公開日:2020-06-10
# 暗視サーベイランスのための画像強調と物体認識

Image Enhancement and Object Recognition for Night Vision Surveillance ( http://arxiv.org/abs/2006.05787v1 )

ライセンス: Link先を確認
Aashish Bhandari, Aayush Kafle, Pranjal Dhakal, Prateek Raj Joshi, Dinesh Baniya Kshatri(参考訳) 物体認識はあらゆる監視システムにおいて重要な部分である。 監視が実施されている地域で侵入者や外国の物体を識別することが最も懸念される問題である。 従来のカメラを用いた夜間監視システムの性能は夜間に比べて非常に優れている。 夜間の監視の主な問題は、従来のカメラで捉えた物体は、可視光線に周囲の光がないため、背景とのコントラストが低いことである。 このため、赤外線カメラを用いて低照度で撮像し、空間領域に基づく異なる強調アルゴリズムを用いてコントラストの高い画像を得るように画像を強化する。 強化された画像は分類プロセスに送られる。 この分類は畳み込みニューラルネットワークを用いて行われ、その後ニューロンの完全な結合層が続く。 本稿では,異なる拡張アルゴリズムの実装後の分類精度を比較した。

Object recognition is a critical part of any surveillance system. It is the matter of utmost concern to identify intruders and foreign objects in the area where surveillance is done. The performance of surveillance system using the traditional camera in daylight is vastly superior as compared to night. The main problem for surveillance during the night is the objects captured by traditional cameras have low contrast against the background because of the absence of ambient light in the visible spectrum. Due to that reason, the image is taken in low light condition using an Infrared Camera and the image is enhanced to obtain an image with higher contrast using different enhancing algorithms based on the spatial domain. The enhanced image is then sent to the classification process. The classification is done by using convolutional neural network followed by a fully connected layer of neurons. The accuracy of classification after implementing different enhancement algorithms is compared in this paper.
翻訳日:2022-11-23 06:25:45 公開日:2020-06-10
# 帯域制限パラメータ化と半ラグランジアンルンゲ-クッタ統合を組み合わせた効率的なPDE制約LDDMM

Combining the band-limited parameterization and Semi-Lagrangian Runge--Kutta integration for efficient PDE-constrained LDDMM ( http://arxiv.org/abs/2006.06823v1 )

ライセンス: Link先を確認
Monica Hernandez(参考訳) PDE制約付き LDDMM 法のファミリーは、物理的に有意な微分同相変換に対する特に興味深いアプローチとして現れている。 Gauss--Newton--Krylov最適化とRunge--Kutta積分の元々の組合せは、優れた数値精度と高速収束率を示している。 しかし、その最も重要な制限は計算の複雑さであり、計算解剖学の応用研究で広く使われることを妨げている。 この極限は、帯域制限ベクトル場と半ラグランジュ積分の空間における問題定式化によって独立に扱われている。 本研究の目的は、帯域制限付きPDE制約付き LDDMM の3つの変種を組み合わせ、計算効率をさらに高めることである。 得られた手法の精度を広く評価する。 全ての変種に対して、提案された組合せアプローチは、計算効率の著しい増加を示す。 さらに、変形状態方程式に基づく変種は、精度と効率の点で、全ての評価フレームワークで最高の実行方法として一貫して位置づけられている。

The family of PDE-constrained LDDMM methods is emerging as a particularly interesting approach for physically meaningful diffeomorphic transformations. The original combination of Gauss--Newton--Krylov optimization and Runge--Kutta integration, shows excellent numerical accuracy and fast convergence rate. However, its most significant limitation is the huge computational complexity, hindering its extensive use in Computational Anatomy applied studies. This limitation has been treated independently by the problem formulation in the space of band-limited vector fields and Semi-Lagrangian integration. The purpose of this work is to combine both in three variants of band-limited PDE-constrained LDDMM for further increasing their computational efficiency. The accuracy of the resulting methods is evaluated extensively. For all the variants, the proposed combined approach shows a significant increment of the computational efficiency. In addition, the variant based on the deformation state equation is positioned consistently as the best performing method across all the evaluation frameworks in terms of accuracy and efficiency.
翻訳日:2022-11-23 06:25:33 公開日:2020-06-10
# ハンドヘルドデバイスを用いた野生のリアルタイム単一画像奥行き知覚

Real-time single image depth perception in the wild with handheld devices ( http://arxiv.org/abs/2006.05724v1 )

ライセンス: Link先を確認
Filippo Aleotti, Giulio Zaccaroni, Luca Bartolomei, Matteo Poggi, Fabio Tosi, Stefano Mattoccia(参考訳) 深度知覚は、自動運転から消費者アプリケーションまで、現実世界の問題に取り組む上で最も重要である。 後者では、標準カメラはほとんどのハンドヘルドデバイスで利用できるため、単一の画像からの深度推定が最も多用途なソリューションである。 それでも、主な問題は2つある。 一 被配備時の信頼性の低いもの 二 リアルタイムな性能を達成するために要求される資源要件であって、しばしばそのような装置と互換性がないこと。 そこで,本稿では,ネットワーク設計とトレーニング戦略の適切な適用方法と,ハンドヘルドデバイスにネットワークをマップしてリアルタイムのパフォーマンスを実現する方法について,これらの課題を深く検討する。 我々の徹底的な評価は、このような高速ネットワークが新しい環境にうまく適応できる能力を強調しており、これは実際のアプリケーションで直面する極めて多様な状況に対処するために必要な重要な機能である。 実際、この証拠をさらに裏付けるために、リアルタイムの奥行き認識拡張現実とスマートフォンによる画像のぼやけに関する実験結果を報告します。

Depth perception is paramount to tackle real-world problems, ranging from autonomous driving to consumer applications. For the latter, depth estimation from a single image represents the most versatile solution, since a standard camera is available on almost any handheld device. Nonetheless, two main issues limit its practical deployment: i) the low reliability when deployed in-the-wild and ii) the demanding resource requirements to achieve real-time performance, often not compatible with such devices. Therefore, in this paper, we deeply investigate these issues showing how they are both addressable adopting appropriate network design and training strategies -- also outlining how to map the resulting networks on handheld devices to achieve real-time performance. Our thorough evaluation highlights the ability of such fast networks to generalize well to new environments, a crucial feature required to tackle the extremely varied contexts faced in real applications. Indeed, to further support this evidence, we report experimental results concerning real-time depth-aware augmented reality and image blurring with smartphones in-the-wild.
翻訳日:2022-11-23 06:19:34 公開日:2020-06-10
# 甲状腺癌の超音波診断における人工知能の役割 : 過去・現在・未来

A systematic review on the role of artificial intelligence in sonographic diagnosis of thyroid cancer: Past, present and future ( http://arxiv.org/abs/2006.05861v1 )

ライセンス: Link先を確認
Fatemeh Abdolali, Atefeh Shahroudnejad, Abhilash Rakkunedeth Hareendranathan, Jacob L Jaremko, Michelle Noga, Kumaradevan Punithakumar(参考訳) 甲状腺癌は世界中で一般的であり、近年は北米全域で急速に流行している。 ほとんどの患者は身体検査により触覚性結節を呈するが,超音波検査により中小結節が多数検出された。 疑わしい結節は微細な針刺しによって生検される。 生検は侵襲的であり、時には決定的ではないため、様々な研究グループがコンピュータ支援診断システムの開発を試みた。 これらの線に沿った初期のアプローチは、放射線科医が手動で特定した臨床的に関連する特徴に依存していた。 最近のai(artificial intelligence)の成功により、甲状腺超音波のこれらの特徴を自動で識別するための様々な新しい方法が開発されている。 本稿では,甲状腺癌の超音波診断におけるAI応用の現状を体系的に検討する。 本総説は甲状腺癌の診断に利用できるテクニックの方法論に基づく分類である。 このレビューには50以上の論文が含まれており、甲状腺悪性腫瘍の超音波診断分野の動向と課題を考察し、超音波検査が甲状腺癌診断の将来に与える影響を高めるためのコンピュータ支援診断の可能性について考察する。 マシンラーニングは、将来の甲状腺癌診断フレームワークの開発において、引き続き基本的な役割を果たす。

Thyroid cancer is common worldwide, with a rapid increase in prevalence across North America in recent years. While most patients present with palpable nodules through physical examination, a large number of small and medium-sized nodules are detected by ultrasound examination. Suspicious nodules are then sent for biopsy through fine needle aspiration. Since biopsies are invasive and sometimes inconclusive, various research groups have tried to develop computer-aided diagnosis systems. Earlier approaches along these lines relied on clinically relevant features that were manually identified by radiologists. With the recent success of artificial intelligence (AI), various new methods are being developed to identify these features in thyroid ultrasound automatically. In this paper, we present a systematic review of state-of-the-art on AI application in sonographic diagnosis of thyroid cancer. This review follows a methodology-based classification of the different techniques available for thyroid cancer diagnosis. With more than 50 papers included in this review, we reflect on the trends and challenges of the field of sonographic diagnosis of thyroid malignancies and potential of computer-aided diagnosis to increase the impact of ultrasound applications on the future of thyroid cancer diagnosis. Machine learning will continue to play a fundamental role in the development of future thyroid cancer diagnosis frameworks.
翻訳日:2022-11-23 06:19:16 公開日:2020-06-10
# WasteNet:スマートビンのエッジにおける廃棄物分類

WasteNet: Waste Classification at the Edge for Smart Bins ( http://arxiv.org/abs/2006.05873v1 )

ライセンス: Link先を確認
Gary White, Christian Cabrera, Andrei Palade, Fan Li, Siobhan Clarke(参考訳) スマートビンは世界中のスマートシティやキャンパスで人気を集めている。 これらのビンは圧縮機構を備えており、ビンの容量を増大させ、リアルタイムコレクション通知を自動化する。 本稿では,Jetson Nano などのネットワーク端の低消費電力デバイスに展開可能な畳み込みニューラルネットワークに基づく廃棄物分類モデルである WasteNet を提案する。 廃棄物を隔離する問題は、世界中の多くの国にとって大きな課題である。 エッジでの廃棄物の自動分類は、クラウドへのアクセスを必要とせずに、スマートビンのインテリジェントな意思決定を可能にする。 廃棄物は紙、段ボール、ガラス、金属、プラスチックなど6つのカテゴリーに分類される。 本モデルでは,テストデータセット上で97\%の予測精度を実現する。 この分類精度のレベルは、リサイクル汚染などの一般的なスマートビン問題を軽減するのに役立つだろう。 また、スマートビンが決定をすることができるので、市民が正しいビンにゴミを捨てることを心配する必要がなくなるため、よりユーザーフレンドリーなビンも利用できる。

Smart Bins have become popular in smart cities and campuses around the world. These bins have a compaction mechanism that increases the bins' capacity as well as automated real-time collection notifications. In this paper, we propose WasteNet, a waste classification model based on convolutional neural networks that can be deployed on a low power device at the edge of the network, such as a Jetson Nano. The problem of segregating waste is a big challenge for many countries around the world. Automated waste classification at the edge allows for fast intelligent decisions in smart bins without needing access to the cloud. Waste is classified into six categories: paper, cardboard, glass, metal, plastic and other. Our model achieves a 97\% prediction accuracy on the test dataset. This level of classification accuracy will help to alleviate some common smart bin problems, such as recycling contamination, where different types of waste become mixed with recycling waste causing the bin to be contaminated. It also makes the bins more user friendly as citizens do not have to worry about disposing their rubbish in the correct bin as the smart bin will be able to make the decision for them.
翻訳日:2022-11-23 06:19:00 公開日:2020-06-10
# サルコニア評価のためのCT画像からの完全自動ディープラーニングスライス筋推定

Fully-automated deep learning slice-based muscle estimation from CT images for sarcopenia assessment ( http://arxiv.org/abs/2006.06432v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Shah Islam, Zohaib Arain, Eric O. Aboagye, Andrea Rockall(参考訳) 目的: 完全自動スライス法による筋量測定における深層学習法の有効性を実証するため, 症例除外基準を満たさずに腹部ct検査にて検討した。 材料と方法: この振り返り研究は, パブリックおよびプライベートに利用可能なCT画像集(n = 1070)を用いて行った。 方法はCTボリュームからのスライス検出と単スライスCTセグメンテーションの2段階からなる。 どちらも完全な畳み込みニューラルネットワーク(FCNN)を使用しており、UNetのようなアーキテクチャに基づいている。 入力データは様々な視野を持つCTボリュームで構成されていた。 出力は、l3椎骨のレベルでctスライス上の分節された筋肉塊から成っていた。 筋肉の塊は、直立性スピナエ、腰痛、腹直筋のグループに分けられる。 出力は、エキスパート・アノテータによって手動の地中セグメンテーションに対してテストされた。 結果: 提案手法の評価には3倍のクロスバリデーションを用いた。 スライス検出クロス検証誤差は 1.41+-5.02 であった。 セグメンテーションクロスバリデーションDiceのオーバーラップは, erector spinae, psoas, rectus abdominusそれぞれ0.97+-0.02, 0.95+-0.04, 0.94+-0.04, 複合筋量0.96+-0.02であった。 結語: サルコパニアのスライスに基づく分析を行うために, CTスライスと分節筋量を検出するディープラーニングアプローチは有効かつ有望なアプローチである。 さまざまな視野,閉塞,スライス厚さを有するCTボリュームのスライスを高精度かつ効率的に検出するために,FCNNを用いた。

Objective: To demonstrate the effectiveness of using a deep learning-based approach for a fully automated slice-based measurement of muscle mass for assessing sarcopenia on CT scans of the abdomen without any case exclusion criteria. Materials and Methods: This retrospective study was conducted using a collection of public and privately available CT images (n = 1070). The method consisted of two stages: slice detection from a CT volume and single-slice CT segmentation. Both stages used Fully Convolutional Neural Networks (FCNN) and were based on a UNet-like architecture. Input data consisted of CT volumes with a variety of fields of view. The output consisted of a segmented muscle mass on a CT slice at the level of L3 vertebra. The muscle mass is segmented into erector spinae, psoas, and rectus abdominus muscle groups. The output was tested against manual ground-truth segmentation by an expert annotator. Results: 3-fold cross validation was used to evaluate the proposed method. The slice detection cross validation error was 1.41+-5.02 (in slices). The segmentation cross validation Dice overlaps were 0.97+-0.02, 0.95+-0.04, 0.94+-0.04 for erector spinae, psoas, and rectus abdominus, respectively, and 0.96+-0.02 for the combined muscle mass. Conclusion: A deep learning approach to detect CT slices and segment muscle mass to perform slice-based analysis of sarcopenia is an effective and promising approach. The use of FCNN to accurately and efficiently detect a slice in CT volumes with a variety of fields of view, occlusions, and slice thicknesses was demonstrated.
翻訳日:2022-11-23 06:18:21 公開日:2020-06-10
# ロボットパラレルプレイにおけるナッシュ平衡推論のためのベイズ的枠組み

A Bayesian Framework for Nash Equilibrium Inference in Human-Robot Parallel Play ( http://arxiv.org/abs/2006.05729v1 )

ライセンス: Link先を確認
Shray Bansal, Jin Xu, Ayanna Howard, Charles Isbell(参考訳) 我々は、並列プレイと呼ばれる独立した目標を達成するために行動する人間やロボットとのワークスペースシナリオの共有を検討する。 我々は,これらを汎用ゲームとしてモデル化し,nash均衡解の概念を活用したフレームワークを構築し,計画中の両エージェントの対話的効果を検討する。 これらのタスクには複数のpareto-optimal equilibriaがある。 我々は、人々が社会的規範と個性に基づいて均衡を選択することによって行動する、と仮定する。 協調を可能にするために, この2つの因子を含む確率モデルを用いてオンラインの平衡を推定し, ロボットの動作を選択する。 我々は、ロボットとシミュレーションされた人間の3つの潜在的な行動 - 防御、自尊心、規範的追跡 - を含む近近近性ピック・アンド・プレイス・タスクに適用する。 本研究では, 平衡推定にベイズ的手法を用いることで, 衝突回数の半分未満でタスクを完了できると同時に, 最適なベースラインと比較してタスク実行時間を短縮できることを示した。 また,他の人間や異なるロボットエージェントと対話する人間と実験を行い,提案手法が人間と人間の並列プレイインタラクションと類似していることを確認した。 コードはhttps://github.com/shray/bayes-nashで入手できる。

We consider shared workspace scenarios with humans and robots acting to achieve independent goals, termed as parallel play. We model these as general-sum games and construct a framework that utilizes the Nash equilibrium solution concept to consider the interactive effect of both agents while planning. We find multiple Pareto-optimal equilibria in these tasks. We hypothesize that people act by choosing an equilibrium based on social norms and their personalities. To enable coordination, we infer the equilibrium online using a probabilistic model that includes these two factors and use it to select the robot's action. We apply our approach to a close-proximity pick-and-place task involving a robot and a simulated human with three potential behaviors - defensive, selfish, and norm-following. We showed that using a Bayesian approach to infer the equilibrium enables the robot to complete the task with less than half the number of collisions while also reducing the task execution time as compared to the best baseline. We also performed a study with human participants interacting either with other humans or with different robot agents and observed that our proposed approach performs similar to human-human parallel play interactions. The code is available at https://github.com/shray/bayes-nash
翻訳日:2022-11-23 06:17:53 公開日:2020-06-10
# 自律運転エージェントの一般化能力向上のための時系列生成モデルを用いた確率的交通環境の開発

Development of A Stochastic Traffic Environment with Generative Time-Series Models for Improving Generalization Capabilities of Autonomous Driving Agents ( http://arxiv.org/abs/2006.05821v1 )

ライセンス: Link先を確認
Anil Ozturk, Mustafa Burak Gunel, Melih Dal, Ugur Yavas, Nazim Kemal Ure(参考訳) 自動車線変更は、先進的な自動運転システムにとって重要な特徴である。 近年,交通シミュレータをトレーニングした強化学習(RL)アルゴリズムは,安全性,アジリティ,交通の不確実性補償のバランスを崩す車線変更ポリシの計算に成功している。 しかし、多くのRLアルゴリズムはシミュレータバイアスを示し、単純なシミュレータで訓練されたポリシーは現実的な交通シナリオに適さない。 本研究では,実生活軌跡データに対してgan(generative adverserial network)を訓練し,データ駆動トラヒックシミュレータを開発した。 シミュレータは、車両間の実生活の交通相互作用に似たランダムな軌道を生成し、よりリッチで現実的なシナリオでRLエージェントを訓練することができる。 我々は,ganベースのトラヒックシミュレータで訓練されたrlエージェントが,単純なルール駆動シミュレータで訓練されたrlエージェントよりも一般化能力が高いことをシミュレーションにより実証する。

Automated lane changing is a critical feature for advanced autonomous driving systems. In recent years, reinforcement learning (RL) algorithms trained on traffic simulators yielded successful results in computing lane changing policies that strike a balance between safety, agility and compensating for traffic uncertainty. However, many RL algorithms exhibit simulator bias and policies trained on simple simulators do not generalize well to realistic traffic scenarios. In this work, we develop a data driven traffic simulator by training a generative adverserial network (GAN) on real life trajectory data. The simulator generates randomized trajectories that resembles real life traffic interactions between vehicles, which enables training the RL agent on much richer and realistic scenarios. We demonstrate through simulations that RL agents that are trained on GAN-based traffic simulator has stronger generalization capabilities compared to RL agents trained on simple rule-driven simulators.
翻訳日:2022-11-23 06:17:32 公開日:2020-06-10
# 脳誘発超次元計算型分類器の逆攻撃

Adversarial Attacks on Brain-Inspired Hyperdimensional Computing-Based Classifiers ( http://arxiv.org/abs/2006.05594v1 )

ライセンス: Link先を確認
Fangfang Yang and Shaolei Ren(参考訳) 脳にインスパイアされた超次元コンピューティング(HDC)は、新しいインメモリコンピューティングアーキテクチャのクラスであり、脳の認知を模倣し、ランダムなハイパーベクトル(数千以上の次元を持つベクトル)を活用して特徴を表現し、分類タスクを実行する。 独自のハイパーベクトル表現により、HDC分類器は高いエネルギー効率、低推論遅延、ハードウェアによるビットエラーに対する強い堅牢性を示すことができる。 その結果、特に低電力のモノのインターネットデバイスにおいて、従来のディープニューラルネットワーク(dnn)をローカルなオンデバイス分類に置き換える、あるいは置き換える魅力的な選択肢として認識されるようになった。 それにもかかわらず、HDC分類器の最先端の設計は、DNNのものと異なり、安全と敵の入力に対する免疫に疑念を抱いている。 本稿では,HDC分類器に対する敵対攻撃を初めて検討し,HDC分類器が最小摂動対向サンプルに対して脆弱であることを示す。 具体的には、手書きの数字分類を例として、hdc分類器を構築し、ターゲットのhdc分類器を誤解して誤った予測ラベルを生成することを目標とするグレイボックス攻撃問題を、付加摂動ノイズを極力少なく抑えながら定式化する。 そこで本研究では,比較的少数のクエリにおいて,対数サンプルを生成する遺伝的アルゴリズムを提案する。 その結果,提案アルゴリズムが生成した敵対画像は,HDC分類器を誤誘導して高い確率で誤予測ラベルを生成することができた(HDC分類器が決定に一定の多数決ルールを使用する場合の78%)。 最後に,hdc分類器のセキュリティを強化するために,攻撃的訓練と再訓練という2つの防御戦略も提示する。

Being an emerging class of in-memory computing architecture, brain-inspired hyperdimensional computing (HDC) mimics brain cognition and leverages random hypervectors (i.e., vectors with a dimensionality of thousands or even more) to represent features and to perform classification tasks. The unique hypervector representation enables HDC classifiers to exhibit high energy efficiency, low inference latency and strong robustness against hardware-induced bit errors. Consequently, they have been increasingly recognized as an appealing alternative to or even replacement of traditional deep neural networks (DNNs) for local on device classification, especially on low-power Internet of Things devices. Nonetheless, unlike their DNN counterparts, state-of-the-art designs for HDC classifiers are mostly security-oblivious, casting doubt on their safety and immunity to adversarial inputs. In this paper, we study for the first time adversarial attacks on HDC classifiers and highlight that HDC classifiers can be vulnerable to even minimally-perturbed adversarial samples. Concretely, using handwritten digit classification as an example, we construct a HDC classifier and formulate a grey-box attack problem, where an attacker's goal is to mislead the target HDC classifier to produce erroneous prediction labels while keeping the amount of added perturbation noise as little as possible. Then, we propose a modified genetic algorithm to generate adversarial samples within a reasonably small number of queries. Our results show that adversarial images generated by our algorithm can successfully mislead the HDC classifier to produce wrong prediction labels with a high probability (i.e., 78% when the HDC classifier uses a fixed majority rule for decision). Finally, we also present two defense strategies -- adversarial training and retraining-- to strengthen the security of HDC classifiers.
翻訳日:2022-11-23 06:16:36 公開日:2020-06-10
# 量子コンピューティングのユースケース構築のための標準化手法に向けて

Toward a standardized methodology for constructing quantum computing use cases ( http://arxiv.org/abs/2006.05846v1 )

ライセンス: Link先を確認
Nicholas Chancellor, Robert Cumming, Tim Thomas(参考訳) 本稿では,量子コンピュータと量子インスピレーション方式のユースケースの開発と評価のための標準化手法を提案する。 この方法論は、与えられたアプリケーションにおいて量子コンピューティングがどのように、そして実際にどのように役割を果たせるかを決定するために要求される、標準化された一連の質問からなる。 このような質問セットの開発は、各ケースをアドホックベースで考慮するのではなく、さまざまなユースケースを公平かつ客観的に評価することができるため、ユースケースの肯定性を重視しつつ、弱点を無視する評価につながる可能性があるため、重要である。 提案手法を具体的ユースケース,救急隊の派遣に適用し,短期的な量子コンピューティングを賢明に展開する方法がいくつかあること,また,その使用を推奨しないケースもいくつかあることを明らかにする。 本研究の目的は,量子コンピューティング研究者と潜在的なエンドユーザの間で,現実世界のユースケースを開発する際にどのような質問をすべきかという対話を開始することである。

We propose a standardized methodology for developing and evaluating use cases for quantum computers and quantum inspired methods. This methodology consists of a standardized set of questions which should be asked to determine how and indeed if, near term quantum computing can play a role in a given application. Developing such a set of questions is important because it allows different use cases to be evaluated in a fair and objective way, rather than considering each case on an ad hoc basis which could lead to an evaluation which focuses on positives of a use case, while ignoring weaknesses. To demonstrate our methodology we apply it to a concrete use case, ambulance dispatch, and find that there are some ways in which near term quantum computing could be deployed sensibly, but also demonstrate some cases ways in which its use would not be advised. The purpose of this paper is to initiate a dialogue within the community of quantum computing scientists and potential end users on what questions should be asked when developing real world use cases.
翻訳日:2022-11-23 06:10:39 公開日:2020-06-10
# 最適化モデルにおける公平性と効率のバランス

Balancing Fairness and Efficiency in an Optimization Model ( http://arxiv.org/abs/2006.05963v1 )

ライセンス: Link先を確認
Violet Xinying Chen, J.N. Hooker(参考訳) 最適化モデルは一般的に、全利益の最大化やコストの最小化によって効率性を目指している。 しかし、公平性と効率性のトレードオフは多くの実用的な決定の重要な要素である。 最適化モデルにおいて,これら2つの基準のバランスをとるための原理的かつ実用的な手法を提案する。 既存の制度の批判的評価に続いて, ロールス・レキシマックスフェアネスと有効性主義を組み合わせた社会福祉関数(swfs)のセットを定義し, これまでのアプローチの弱点を克服する。 特に、実践的な文脈で意味のある解釈を持つ単一のパラメータで、株式/効率トレードオフを規制する。 混合整数制約を用いてSWFを定式化し、その問題を定義する制約を順次最大化する。 実践的なステップバイステップの指導を行った後,医療資源の配分と災害対応に関わる現実的な規模の問題に関する手法を実証する。 解の時間は控えめで、トレードオフパラメータの与えられた値に対して1秒から18秒の範囲である。

Optimization models generally aim for efficiency by maximizing total benefit or minimizing cost. Yet a trade-off between fairness and efficiency is an important element of many practical decisions. We propose a principled and practical method for balancing these two criteria in an optimization model. Following a critical assessment of existing schemes, we define a set of social welfare functions (SWFs) that combine Rawlsian leximax fairness and utilitarianism and overcome some of the weaknesses of previous approaches. In particular, we regulate the equity/efficiency trade-off with a single parameter that has a meaningful interpretation in practical contexts. We formulate the SWFs using mixed integer constraints and sequentially maximize them subject to constraints that define the problem at hand. After providing practical step-by-step instructions for implementation, we demonstrate the method on problems of realistic size involving healthcare resource allocation and disaster preparation. The solution times are modest, ranging from a fraction of a second to 18 seconds for a given value of the trade-off parameter.
翻訳日:2022-11-23 06:10:22 公開日:2020-06-10
# 分散人工知能を用いたドメイン知識のない電力網・ICT・市場分析

Analyzing Power Grid, ICT, and Market Without Domain Knowledge Using Distributed Artificial Intelligence ( http://arxiv.org/abs/2006.06074v1 )

ライセンス: Link先を確認
Eric MSP Veith, Stephan Balduin, Nils Wenninghoff, Martin Tr\"oschel, Lars Fischer, Astrid Nie{\ss}e, Thomas Wolgast, Richard Sethmann, Bastian Fraune, Torben Woltjen(参考訳) 私たちのエネルギーインフラのような現代のサイバー物理システム(cps)はますます複雑になってきている。人工知能(ai)ベースの技術は、運用の最適化、コスト効率、世界中のco2目標を達成するために、エネルギーシステムの情報通信技術(ict)ファセットを使用する。 同時に、柔軟性が増し、貿易の地平がずっと短い市場は、この状況で現われている複数株主の状況を可能にする。 これらのシステムは依然として高い信頼性で実行する必要がある重要なインフラを形成している。 しかし、今日のCPSは従来のモノリシックなアプローチでは、電力網やICT、エネルギー市場といった各ドメインが依存や副作用を無視しながら独立したエンティティと見なされるほど複雑になってきている。 全体分析を実現するために,分散人工知能を自己適応分析ツールとして,攻撃によってCPS内のドメイン間の依存関係を解析できる概念を紹介した。 事前に設定されたドメイン知識を駆使し、CPSドメインを急激なリスク状況とコーディックの悪用可能な抜け穴のために探索し、市場ルールに従いながらシステムを利用する合理的な市場アクターに焦点を当てる。

Modern cyber-physical systems (CPS), such as our energy infrastructure, are becoming increasingly complex: An ever-higher share of Artificial Intelligence (AI)-based technologies use the Information and Communication Technology (ICT) facet of energy systems for operation optimization, cost efficiency, and to reach CO2 goals worldwide. At the same time, markets with increased flexibility and ever shorter trade horizons enable the multi-stakeholder situation that is emerging in this setting. These systems still form critical infrastructures that need to perform with highest reliability. However, today's CPS are becoming too complex to be analyzed in the traditional monolithic approach, where each domain, e.g., power grid and ICT as well as the energy market, are considered as separate entities while ignoring dependencies and side-effects. To achieve an overall analysis, we introduce the concept for an application of distributed artificial intelligence as a self-adaptive analysis tool that is able to analyze the dependencies between domains in CPS by attacking them. It eschews pre-configured domain knowledge, instead exploring the CPS domains for emergent risk situations and exploitable loopholes in codices, with a focus on rational market actors that exploit the system while still following the market rules.
翻訳日:2022-11-23 06:10:08 公開日:2020-06-10
# 雇用パフォーマンス、個性、認知能力、効果、幸福感を共同予測する

Jointly Predicting Job Performance, Personality, Cognitive Ability, Affect, and Well-Being ( http://arxiv.org/abs/2006.08364v1 )

ライセンス: Link先を確認
Pablo Robles-Granda, Suwen Lin, Xian Wu, Sidney D'Mello, Gonzalo J. Martinez, Koustuv Saha, Kari Nies, Gloria Mark, Andrew T. Campbell, Munmun De Choudhury, Anind D. Dey, Julie Gregg, Ted Grover, Stephen M. Mattingly, Shayan Mirjafari, Edward Moskal, Aaron Striegel, Nitesh V. Chawla(参考訳) ジョブパフォーマンス、パーソナライズドヘルス、心理測定指標の評価は、データ駆動型およびユビキタスコンピューティングが将来に大きな影響を与える可能性を示す領域である。 既存の技術では、アンケートやセンサー(ウェアラブル、コンピュータなど)から抽出したデータを使って、個人の幸福感や認知特性を評価する。 しかし、これらの手法は個人の幸福感や心理的特性をグローバルに予測することができないし、不完全で騒がしいデータを処理する際の課題も考慮できない。 本稿では,身体的および生理的行動,心理状態と特性,仕事のパフォーマンスなどを統合する視点から,個人の予測分析のためのベンチマークを作成する。 データマイニング手法をベンチマークとして設計し,ウェアラブルセンサから得られた実ノイズと不完全なデータを用いて,12の標準化された評価テストに基づいて19のコンストラクタを予測した。 調査対象は、米国全土の知識労働者で、様々な役割を持つ757人であった。 検討中の19変数それぞれに有意な予測因子を抽出するデータマイニングフレームワークを開発した。 我々のモデルは、ウェアラブル、モバイル、ソーシャルメディアソースからの真の未処理データを活用することで、これらの様々な楽器由来の変数を単一のフレームワークで組み合わせた最初のベンチマークである。 縦断研究から得られたデータを用いて実験的に検証した。 その結果,本フレームワークは信頼性が保たれ,不完全データに制限された場合のベースラインよりも高い精度で学習中の変数を予測できることがわかった。

Assessment of job performance, personalized health and psychometric measures are domains where data-driven and ubiquitous computing exhibits the potential of a profound impact in the future. Existing techniques use data extracted from questionnaires, sensors (wearable, computer, etc.), or other traits, to assess well-being and cognitive attributes of individuals. However, these techniques can neither predict individual's well-being and psychological traits in a global manner nor consider the challenges associated to processing the data available, that is incomplete and noisy. In this paper, we create a benchmark for predictive analysis of individuals from a perspective that integrates: physical and physiological behavior, psychological states and traits, and job performance. We design data mining techniques as benchmark and uses real noisy and incomplete data derived from wearable sensors to predict 19 constructs based on 12 standardized well-validated tests. The study included 757 participants who were knowledge workers in organizations across the USA with varied work roles. We developed a data mining framework to extract the meaningful predictors for each of the 19 variables under consideration. Our model is the first benchmark that combines these various instrument-derived variables in a single framework to understand people's behavior by leveraging real uncurated data from wearable, mobile, and social media sources. We verify our approach experimentally using the data obtained from our longitudinal study. The results show that our framework is consistently reliable and capable of predicting the variables under study better than the baselines when prediction is restricted to the noisy, incomplete data.
翻訳日:2022-11-23 06:09:45 公開日:2020-06-10
# PeopleMap:自然言語処理を用いた研究者のマッピングのための可視化ツール

PeopleMap: Visualization Tool for Mapping Out Researchers using Natural Language Processing ( http://arxiv.org/abs/2006.06105v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Shaikh, Zijie J. Wang, Austin P. Wright, Sasha Richardson, Duen Horng Chau(参考訳) 機関における研究専門知識の発見は難しい作業である。 研究者の興味や過去の研究を理解するために必要な情報が不足し、機関における研究の多様性を探求し、研究人材を特定することが困難になることが多い。 その結果、内部と外部の両方が新しいつながりを発見し、研究協力を育む機会を失った。 この問題を解決するために我々は,自然言語処理(NLP)技術による埋め込みを利用して,研究者の興味や出版物に基づいて視覚的に"マップアウト"する,インタラクティブでオープンソースのWebベースのツールであるPeopleMapを開発した。 PeopleMapは、研究の才能を要約し、人びとが新しいつながりを発見するための、新しいエンゲージメントな方法を提供する。 プラットフォームは使いやすさと持続可能性を考慮して開発されている。 研究者のGoogle Scholarプロファイルのみを入力として使用することで、PeopleMapは、公開アクセス可能なリポジトリと詳細なドキュメントを使用して、任意の機関で簡単に採用することができる。

Discovering research expertise at institutions can be a difficult task. Manually curated university directories easily become out of date and they often lack the information necessary for understanding a researcher's interests and past work, making it harder to explore the diversity of research at an institution and identify research talents. This results in lost opportunities for both internal and external entities to discover new connections and nurture research collaboration. To solve this problem, we have developed PeopleMap, the first interactive, open-source, web-based tool that visually "maps out" researchers based on their research interests and publications by leveraging embeddings generated by natural language processing (NLP) techniques. PeopleMap provides a new engaging way for institutions to summarize their research talents and for people to discover new connections. The platform is developed with ease-of-use and sustainability in mind. Using only researchers' Google Scholar profiles as input, PeopleMap can be readily adopted by any institution using its publicly-accessible repository and detailed documentation.
翻訳日:2022-11-23 06:08:14 公開日:2020-06-10
# 災害影響評価のためのオープンデータを用いた深層学習による空中画像分割

Deep Learning-based Aerial Image Segmentation with Open Data for Disaster Impact Assessment ( http://arxiv.org/abs/2006.05575v1 )

ライセンス: Link先を確認
Ananya Gupta, Simon Watson, Hujun Yin(参考訳) 衛星画像は、ハリケーンや津波などの自然災害の余波の中で非常に貴重な資源であり、リスク評価や災害管理に利用することができる。 本稿では,災害対応のためのタイムリーかつ実用的な情報を提供するために,災害後のシナリオにおいて,影響地域やアクセス可能な道路を特定するためにセグメンテーションニューラルネットワークを利用するフレームワークを提案する。 航空画像セグメンテーションの課題に対するImageNetによる事前トレーニングの有効性を解析し,一般的なセグメンテーションモデルの性能を比較した。 実験の結果、imagenetでの事前トレーニングは、多くのモデルのセグメンテーション性能を改善することが示されている。 openstreetmap (osm) から入手可能なオープンデータはトレーニングに使用され、時間を要する手動アノテーションの必要性を回避している。 また,OSMから利用可能な道路ネットワークデータを更新し,自然災害による変化を検出するためにグラフ理論を利用する。 インドネシア・パルーで発生した2018年津波のデータに関する広範囲な実験により,提案手法の有効性が示された。 ENetSeparableは、ENetに比べて30%少ないパラメータで、最先端のネットワークと同等のセグメンテーション結果を得た。

Satellite images are an extremely valuable resource in the aftermath of natural disasters such as hurricanes and tsunamis where they can be used for risk assessment and disaster management. In order to provide timely and actionable information for disaster response, in this paper a framework utilising segmentation neural networks is proposed to identify impacted areas and accessible roads in post-disaster scenarios. The effectiveness of pretraining with ImageNet on the task of aerial image segmentation has been analysed and performances of popular segmentation models compared. Experimental results show that pretraining on ImageNet usually improves the segmentation performance for a number of models. Open data available from OpenStreetMap (OSM) is used for training, forgoing the need for time-consuming manual annotation. The method also makes use of graph theory to update road network data available from OSM and to detect the changes caused by a natural disaster. Extensive experiments on data from the 2018 tsunami that struck Palu, Indonesia show the effectiveness of the proposed framework. ENetSeparable, with 30% fewer parameters compared to ENet, achieved comparable segmentation results to that of the state-of-the-art networks.
翻訳日:2022-11-23 06:07:55 公開日:2020-06-10
# ソーシャル画像検索のための二重レベル意味伝達深度ハッシュ

Dual-level Semantic Transfer Deep Hashing for Efficient Social Image Retrieval ( http://arxiv.org/abs/2006.05586v1 )

ライセンス: Link先を確認
Lei Zhu, Hui Cui, Zhiyong Cheng, Jingjing Li, Zheng Zhang(参考訳) ソーシャルネットワークは膨大な量のユーザー共有画像を保存し、広める。 deep hashingは、その深い表現能力、検索速度の速さ、ストレージコストの低さから、大規模なソーシャルイメージ検索をサポートする効率的なインデックス技術である。 特に教師なしのディープハッシュは、トレーニングのために手作業によるラベル付きデータを必要としないため、スケーラビリティに優れています。 しかし、ラベルガイダンスの欠如により、既存の手法は、大量のディープニューラルネットワークパラメータを最適化する際、深刻な意味不足に悩まされる。 そこで本稿では,DSTDH(Dual-level Semantic Transfer Deep Hashing)手法を提案する。 本モデルは,ソーシャルイメージに関連付けられたユーザ生成タグを特別に活用することにより,意味的に強化された深層ハッシュコードの学習を目標とする。 具体的には,タグの潜在的なセマンティクスを効率的に発見し,それらをバイナリハッシュコードにシームレスに転送するために,補完的なデュアルレベルセマンティクス転送機構を設計する。 一方、インスタンスレベルのセマンティクスは、関連するタグからハッシュコードに直接保存され、ノイズ除去される。 また、画像とタグの潜在高階意味相関をハッシュコードに間接的に転送する画像概念ハイパーグラフを構築する。 さらに、離散ハッシュ最適化戦略により、深層表現学習と同時にハッシュ符号を得る。 2つの公開社会画像検索データセットの大規模な実験により,最先端のハッシュ法と比較して,提案手法の優れた性能が検証された。 我々の手法のソースコードはhttps://github.com/research2020-1/DSTDHで取得できる。

Social network stores and disseminates a tremendous amount of user shared images. Deep hashing is an efficient indexing technique to support large-scale social image retrieval, due to its deep representation capability, fast retrieval speed and low storage cost. Particularly, unsupervised deep hashing has well scalability as it does not require any manually labelled data for training. However, owing to the lacking of label guidance, existing methods suffer from severe semantic shortage when optimizing a large amount of deep neural network parameters. Differently, in this paper, we propose a Dual-level Semantic Transfer Deep Hashing (DSTDH) method to alleviate this problem with a unified deep hash learning framework. Our model targets at learning the semantically enhanced deep hash codes by specially exploiting the user-generated tags associated with the social images. Specifically, we design a complementary dual-level semantic transfer mechanism to efficiently discover the potential semantics of tags and seamlessly transfer them into binary hash codes. On the one hand, instance-level semantics are directly preserved into hash codes from the associated tags with adverse noise removing. Besides, an image-concept hypergraph is constructed for indirectly transferring the latent high-order semantic correlations of images and tags into hash codes. Moreover, the hash codes are obtained simultaneously with the deep representation learning by the discrete hash optimization strategy. Extensive experiments on two public social image retrieval datasets validate the superior performance of our method compared with state-of-the-art hashing methods. The source codes of our method can be obtained at https://github.com/research2020-1/DSTDH
翻訳日:2022-11-23 06:07:39 公開日:2020-06-10
# 顔への音声融合:人間の声の特徴と顔画像のギャップを埋める

Speech Fusion to Face: Bridging the Gap Between Human's Vocal Characteristics and Facial Imaging ( http://arxiv.org/abs/2006.05888v1 )

ライセンス: Link先を確認
Yeqi Bai, Tao Ma, Lipo Wang, Zhenjie Zhang(参考訳) 深層学習技術は、人間を混乱させる現実的なイメージを生成することができる一方で、研究はより具体的でアプリケーション固有の目的のために画像の合成に目を向けている。 音声の発声特性に基づく顔画像生成は重要な課題の一つである。 これは、特に公共の安全とエンターテイメントのビジネスにおいて、画像生成の影響力のあるユースケースの鍵となる。 speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、トレーニングのための品質データセットの欠如と声の特徴の適切な統合のために、顔の類似性を保たない。 本稿では、これらの重要な技術的課題を考察し、顔への音声融合(sf2f)を提案し、顔画像の品質問題と音声特徴領域と現代の画像生成モデルとの接続の貧弱さについて考察する。 データモデルとトレーニングに関する新たな戦略を採用することで、個々のアイデンティティのリコールを倍にし、VGGFace分類器による相互情報スコアに基づいて品質スコアを15から19に引き上げることで、最先端ソリューションに対する劇的なパフォーマンス向上を示す。

While deep learning technologies are now capable of generating realistic images confusing humans, the research efforts are turning to the synthesis of images for more concrete and application-specific purposes. Facial image generation based on vocal characteristics from speech is one of such important yet challenging tasks. It is the key enabler to influential use cases of image generation, especially for business in public security and entertainment. Existing solutions to the problem of speech2face renders limited image quality and fails to preserve facial similarity due to the lack of quality dataset for training and appropriate integration of vocal features. In this paper, we investigate these key technical challenges and propose Speech Fusion to Face, or SF2F in short, attempting to address the issue of facial image quality and the poor connection between vocal feature domain and modern image generation models. By adopting new strategies on data model and training, we demonstrate dramatic performance boost over state-of-the-art solution, by doubling the recall of individual identity, and lifting the quality score from 15 to 19 based on the mutual information score with VGGFace classifier.
翻訳日:2022-11-23 06:01:12 公開日:2020-06-10
# 3Dオブジェクトの最近の進歩とハンドポース推定

Recent Advances in 3D Object and Hand Pose Estimation ( http://arxiv.org/abs/2006.05927v1 )

ライセンス: Link先を確認
Vincent Lepetit(参考訳) 3dオブジェクトと手の位置推定は、現実の世界と仮想世界の境界を曖昧にするために、拡張現実にとって大きな可能性を秘めている。 本章では, カメラを用いた3次元物体・手動ポーズ推定の最近の展開について述べるとともに, その能力, 限界, 今後の発展について論じる。

3D object and hand pose estimation have huge potentials for Augmented Reality, to enable tangible interfaces, natural interfaces, and blurring the boundaries between the real and virtual worlds. In this chapter, we present the recent developments for 3D object and hand pose estimation using cameras, and discuss their abilities and limitations and the possible future development of the field.
翻訳日:2022-11-23 06:00:34 公開日:2020-06-10
# 小型物体検出用マルチレゾリューションアテンション抽出器

MultiResolution Attention Extractor for Small Object Detection ( http://arxiv.org/abs/2006.05941v1 )

ライセンス: Link先を確認
Fan Zhang, Licheng Jiao, Lingling Li, Fang Liu, and Xu Liu(参考訳) 小さなオブジェクトは、解像度が低く、サイズが小さいため、検出が難しい。 既存の小さなオブジェクト検出方法は、主にデータ前処理や、大きなオブジェクトと小さなオブジェクトの違いを狭めることに焦点を当てている。 人間の視覚"アテンション"機構に触発されて,2つの特徴抽出手法を用いて,小型物体の最も有用な情報をマイニングする。 どちらの手法もマルチレゾリューション特徴抽出に基づいている。 まず,ソフトアテンション法の設計と探索を行ったが,その収束速度は遅いことがわかった。 次に,マルチレゾリューションアテンション抽出器(mrae)と呼ばれるアテンションに基づく2番目のアテンションインタラクション法を提案する。 バニラ特徴抽出器の各ビルディングブロックの後に、注意重みを発生させるために小さなネットワークを付加し、次に重み付け操作を行い、最終的な注意マップを得る。 注意に基づく特徴抽出器は、COCO小物体検出ベンチマークの「ハード」な注意相手(プレーンアーキテクチャ)のAPの2.0倍であり、MRAEが適応学習を通じて有用な位置情報や文脈情報をキャプチャできることを示す。

Small objects are difficult to detect because of their low resolution and small size. The existing small object detection methods mainly focus on data preprocessing or narrowing the differences between large and small objects. Inspired by human vision "attention" mechanism, we exploit two feature extraction methods to mine the most useful information of small objects. Both methods are based on multiresolution feature extraction. We initially design and explore the soft attention method, but we find that its convergence speed is slow. Then we present the second method, an attention-based feature interaction method, called a MultiResolution Attention Extractor (MRAE), showing significant improvement as a generic feature extractor in small object detection. After each building block in the vanilla feature extractor, we append a small network to generate attention weights followed by a weighted-sum operation to get the final attention maps. Our attention-based feature extractor is 2.0 times the AP of the "hard" attention counterpart (plain architecture) on the COCO small object detection benchmark, proving that MRAE can capture useful location and contextual information through adaptive learning.
翻訳日:2022-11-23 06:00:09 公開日:2020-06-10
# 識別特徴の最大分離によるロバスト微粒化認識に向けて

Towards Robust Fine-grained Recognition by Maximal Separation of Discriminative Features ( http://arxiv.org/abs/2006.06028v1 )

ライセンス: Link先を確認
Krishna Kanth Nakka and Mathieu Salzmann(参考訳) 対人攻撃は一般的な分類作業のために広く研究されてきたが、クラス間の類似性によって攻撃者のタスクが促進される微粒化認識の文脈では未解明のままである。 本稿では,細粒度認識ネットワークにおける異なるクラスの潜在表現の近接を,敵の攻撃の成功の鍵となる要因として同定する。 そこで本研究では,非識別領域のクラス予測への寄与を最小限に抑えつつ,異なるクラスの識別潜在特徴を最大限に分離する,注意に基づく正規化機構を導入する。 実験によって証明されたように、敵の攻撃に対する堅牢性は、敵の訓練と一致またはそれ以上に向上するが、敵のサンプルへのアクセスは不要である。

Adversarial attacks have been widely studied for general classification tasks, but remain unexplored in the context of fine-grained recognition, where the inter-class similarities facilitate the attacker's task. In this paper, we identify the proximity of the latent representations of different classes in fine-grained recognition networks as a key factor to the success of adversarial attacks. We therefore introduce an attention-based regularization mechanism that maximally separates the discriminative latent features of different classes while minimizing the contribution of the non-discriminative regions to the final class prediction. As evidenced by our experiments, this allows us to significantly improve robustness to adversarial attacks, to the point of matching or even surpassing that of adversarial training, but without requiring access to adversarial samples.
翻訳日:2022-11-23 05:59:50 公開日:2020-06-10
# ニューラルネットワークにおけるスケーラブルなバックドア検出

Scalable Backdoor Detection in Neural Networks ( http://arxiv.org/abs/2006.05646v1 )

ライセンス: Link先を確認
Haripriya Harikumar, Vuong Le, Santu Rana, Sourangshu Bhattacharya, Sunil Gupta, and Svetha Venkatesh(参考訳) 近年、ディープラーニングモデルはトロイア攻撃に弱いことが示されており、攻撃者はトレーニング中にバックドアをインストールして、小さなトリガーパッチで汚染されたサンプルを誤識別させることができる。 現在のバックドア検出手法は良好な検出性能を達成できず、計算コストがかかる。 本稿では,計算複雑性がラベル数に比例せず,異なるネットワークタイプとパッチタイプにまたがって解釈可能かつ普遍的な尺度に基づく,トリガーリバースエンジニアリングに基づく新しい手法を提案する。 実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。

Recently, it has been shown that deep learning models are vulnerable to Trojan attacks, where an attacker can install a backdoor during training time to make the resultant model misidentify samples contaminated with a small trigger patch. Current backdoor detection methods fail to achieve good detection performance and are computationally expensive. In this paper, we propose a novel trigger reverse-engineering based approach whose computational complexity does not scale with the number of labels, and is based on a measure that is both interpretable and universal across different network and patch types. In experiments, we observe that our method achieves a perfect score in separating Trojaned models from pure models, which is an improvement over the current state-of-the art method.
翻訳日:2022-11-23 05:52:40 公開日:2020-06-10
# Agrupamento de Pixels para o Reconhecimento de Faces

Agrupamento de Pixels para o Reconhecimento de Faces ( http://arxiv.org/abs/2006.05652v1 )

ライセンス: Link先を確認
Tiago Buarque Assun\c{c}\~ao de Carvalho(参考訳) この研究は、顔認識が画像収縮による影響が低いという観察から始まった。 この事実を説明するために,我々は画素クラスタリング手法を提案した。 画像内のピクセルが互いに非常によく似た領域を定義する。 各地域の特徴を抽出する。 実験には3つの顔データベースを使用しました。 512は高精細画像認識に必要な特徴の最大数であることがわかった。 トレーニングセットから数クラスを使用していても,提案手法は堅牢である。

This research starts with the observation that face recognition can suffer a low impact from significant image shrinkage. To explain this fact, we proposed the Pixel Clustering methodology. It defines regions in the image in which its pixels are very similar to each other. We extract features from each region. We used three face databases in the experiments. We noticed that 512 is the maximum number of features needed for high accuracy image recognition. The proposed method is also robust, even if only it uses a few classes from the training set.
翻訳日:2022-11-23 05:52:28 公開日:2020-06-10
# tubetk: ワンステップトレーニングモデルにおけるマルチオブジェクト追跡のためのチューブの採用

TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model ( http://arxiv.org/abs/2006.05683v1 )

ライセンス: Link先を確認
Bo Pang, Yizhuo Li, Yifan Zhang, Muchen Li, Cewu Lu(参考訳) マルチオブジェクト追跡は、長い間研究されてきた基本的なビジョン問題である。 ディープラーニングはオブジェクト検出アルゴリズムに優れたパフォーマンスをもたらすため、トラッキングによる検出(TBD)が主流のトラッキングフレームワークとなっている。 TBDの成功にもかかわらず、この2段階の手法はエンドツーエンドで訓練するには複雑すぎるため、ビデオ時空間情報の不十分な探索、物体閉塞時の脆弱性、検出結果への過度な依存など、多くの課題も引き起こす。 これらの課題に対処するために、短いビデオクリップでオブジェクトの時間空間位置を示す「bounding-tube」を導入することで、ワンステップのトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。 TubeTKは,複数物体追跡の新しい方向を提供するとともに,ベルやホイッスルを使わずに上記の課題を解決する可能性を実証する。 我々は,複数のMOTベンチマーク上でのTubTKの性能を分析し,Re-IDのような補助技術がなくても,TubTKがある程度の閉塞を克服できることを示す実証的証拠を提供する。 プライベート検出結果を採用する他の手法と比較して,我々の一段階のエンドツーエンドモデルでは,既製の検出結果が適用されていない場合でも,最先端のパフォーマンスが達成される。 提案するTubeTKモデルは,ビデオベースのMOTタスクに対して,シンプルだが強力な代替手段となることを期待する。 コードとモデルはhttps://github.com/BoPang1996/TubeTKで入手できる。

Multi-object tracking is a fundamental vision problem that has been studied for a long time. As deep learning brings excellent performances to object detection algorithms, Tracking by Detection (TBD) has become the mainstream tracking framework. Despite the success of TBD, this two-step method is too complicated to train in an end-to-end manner and induces many challenges as well, such as insufficient exploration of video spatial-temporal information, vulnerability when facing object occlusion, and excessive reliance on detection results. To address these challenges, we propose a concise end-to-end model TubeTK which only needs one step training by introducing the ``bounding-tube" to indicate temporal-spatial locations of objects in a short video clip. TubeTK provides a novel direction of multi-object tracking, and we demonstrate its potential to solve the above challenges without bells and whistles. We analyze the performance of TubeTK on several MOT benchmarks and provide empirical evidence to show that TubeTK has the ability to overcome occlusions to some extent without any ancillary technologies like Re-ID. Compared with other methods that adopt private detection results, our one-stage end-to-end model achieves state-of-the-art performances even if it adopts no ready-made detection results. We hope that the proposed TubeTK model can serve as a simple but strong alternative for video-based MOT task. The code and models are available at https://github.com/BoPang1996/TubeTK.
翻訳日:2022-11-23 05:51:58 公開日:2020-06-10
# ビデオにおけるユニークな顔認識

Unique Faces Recognition in Videos ( http://arxiv.org/abs/2006.05713v1 )

ライセンス: Link先を確認
Jiahao Huo and Terence L van Zyl(参考訳) 本稿では,距離学習法と類似度ランキングモデルを用いたビデオの顔認識に取り組む。 本稿では, google/inception architecture, 3d convolutional network (c3d), 2d long short-term memory (lstm) recurrent neural networkのアーキテクチャを比較検討した。 ネットワークのトレーニングには静止画像とビデオシーケンスを使用し、上記のアーキテクチャを実装した性能を比較する。 使用されるデータセットは、ビデオにおける顔認識の問題を調べるために設計されたYouTube Face Databaseである。 この論文の貢献は,まず3次元畳み込みネットワークと2次元LSTMを構築し,画像列における対照的な損失は,静止画像を用いたトップ$n$の顔検索において対照的な損失でGoogle/Inceptionアーキテクチャを上回りません。 しかし、3次元畳み込みネットワークと3重項損失を持つ2次元LSTMは、データセット上の上位$n$ランクの顔検索において、Google/Inceptionを上回り、第2に、CNNが学習した顔識別のための特徴表現と組み合わせて、サポートベクトルマシン(SVM)を使用した。 その結果,3重項損失で学習した特徴表現は,比較的損失よりもnショット顔認証の方が有意に優れていることがわかった。 顔の識別に最も有用な特徴は3重項損失を有する2次元LSTMである。 実験の結果,ビデオ系列からの時空間的特徴の学習は,映像の顔認識に有用であることが示唆された。

This paper tackles face recognition in videos employing metric learning methods and similarity ranking models. The paper compares the use of the Siamese network with contrastive loss and Triplet Network with triplet loss implementing the following architectures: Google/Inception architecture, 3D Convolutional Network (C3D), and a 2-D Long short-term memory (LSTM) Recurrent Neural Network. We make use of still images and sequences from videos for training the networks and compare the performances implementing the above architectures. The dataset used was the YouTube Face Database designed for investigating the problem of face recognition in videos. The contribution of this paper is two-fold: to begin, the experiments have established 3-D Convolutional networks and 2-D LSTMs with the contrastive loss on image sequences do not outperform Google/Inception architecture with contrastive loss in top $n$ rank face retrievals with still images. However, the 3-D Convolution networks and 2-D LSTM with triplet Loss outperform the Google/Inception with triplet loss in top $n$ rank face retrievals on the dataset; second, a Support Vector Machine (SVM) was used in conjunction with the CNNs' learned feature representations for facial identification. The results show that feature representation learned with triplet loss is significantly better for n-shot facial identification compared to contrastive loss. The most useful feature representations for facial identification are from the 2-D LSTM with triplet loss. The experiments show that learning spatio-temporal features from video sequences is beneficial for facial recognition in videos.
翻訳日:2022-11-23 05:51:31 公開日:2020-06-10
# 物体間相互作用検出における粗さの診断

Diagnosing Rarity in Human-Object Interaction Detection ( http://arxiv.org/abs/2006.05728v1 )

ライセンス: Link先を確認
Mert Kilickaya and Arnold Smeulders(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出はコンピュータビジョンのコアタスクである。 目標は、すべての人間と物体のペアをローカライズし、相互作用を認識することである。 また,<verb, noun> タプルによって定義される相互作用は,多くの組み合わせがほとんど表現されないため,長い尾を持つ視覚認識課題につながる。 提案モデルの性能は特に尾のカテゴリーで制限されているが,理由を理解するためにはほとんど行われていない。 そこで本論文では,HOI検出における希少性の診断を提案する。 そこで我々は,最先端モデルの研究により限界因子を慎重に分析する3段階戦略,すなわち検出,同定,認識を提案する。 以上の結果から,検出と識別のステップは咬合や相対位置などの相互作用信号によって変化し,認識精度が制限されることが示唆された。

Human-object interaction (HOI) detection is a core task in computer vision. The goal is to localize all human-object pairs and recognize their interactions. An interaction defined by a <verb, noun> tuple leads to a long-tailed visual recognition challenge since many combinations are rarely represented. The performance of the proposed models is limited especially for the tail categories, but little has been done to understand the reason. To that end, in this paper, we propose to diagnose rarity in HOI detection. We propose a three-step strategy, namely Detection, Identification and Recognition where we carefully analyse the limiting factors by studying state-of-the-art models. Our findings indicate that detection and identification steps are altered by the interaction signals like occlusion and relative location, as a result limiting the recognition accuracy.
翻訳日:2022-11-23 05:50:59 公開日:2020-06-10
# 自己教師付き学習による3次元ニューラルネットワークへのタスク知識の埋め込み

Embedding Task Knowledge into 3D Neural Networks via Self-supervised Learning ( http://arxiv.org/abs/2006.05798v1 )

ライセンス: Link先を確認
Jiuwen Zhu, Yuexiang Li, Yifan Hu, S. Kevin Zhou(参考訳) ディープラーニングは注釈付きデータの量に大きく依存する。 しかし、医用画像の注釈は極めて手間がかかり、高価である。 この目的のために、注釈付きデータ不足の潜在的な解決策として自己教師付き学習(SSL)がコミュニティから注目を集めている。 しかしSSLアプローチは、ターゲットタスクと必ずしも関係のないプロキシタスクを設計することが多い。 本稿では,3次元ニューラルネットワークのトレーニングにタスク知識を組み込むタスク関連コントラスト予測符号化(tcpc)という,医用画像分類のための新しいssl手法を提案する。 提案するtcpcは, 単純な線形反復クラスタリングを用いたスーパーボクセル推定により, まず初期候補病変を同定する。 次に, 潜在病変領域周辺で切り取られたサブボリュームの特徴を抽出し, 自己教師付き学習のための校正コントラスト予測符号化方式を構築する。 パブリックデータセットとプライベートデータセットで広範な実験が行われている。 実験の結果,3次元医用画像分類のためのニューラルネットワークへの病変関連事前知識の埋め込みの有効性が示された。

Deep learning highly relies on the amount of annotated data. However, annotating medical images is extremely laborious and expensive. To this end, self-supervised learning (SSL), as a potential solution for deficient annotated data, attracts increasing attentions from the community. However, SSL approaches often design a proxy task that is not necessarily related to target task. In this paper, we propose a novel SSL approach for 3D medical image classification, namely Task-related Contrastive Prediction Coding (TCPC), which embeds task knowledge into training 3D neural networks. The proposed TCPC first locates the initial candidate lesions via supervoxel estimation using simple linear iterative clustering. Then, we extract features from the sub-volume cropped around potential lesion areas, and construct a calibrated contrastive predictive coding scheme for self-supervised learning. Extensive experiments are conducted on public and private datasets. The experimental results demonstrate the effectiveness of embedding lesion-related prior-knowledge into neural networks for 3D medical image classification.
翻訳日:2022-11-23 05:50:20 公開日:2020-06-10
# 3次元医用画像分割のための強化学習による探索学習戦略

Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2006.05847v1 )

ライセンス: Link先を確認
Dong Yang, Holger Roth, Ziyue Xu, Fausto Milletari, Ling Zhang, Daguang Xu(参考訳) 深層ニューラルネットワーク(dnn)ベースのアプローチは広く研究され、医療画像解析に展開されている。 例えば、完全畳み込みニューラルネットワーク(FCN)は、2D/3D医療画像セグメンテーションのいくつかの応用において最先端のパフォーマンスを達成する。 ベースラインニューラルネットワークモデル(U-Net、V-Netなど)でさえ、トレーニングプロセスが適切に設定された場合、非常に効果的で効率的であることが証明されている。 それでも,ニューラルネットワークの可能性を十分に活用するために,強化学習を用いた最適学習戦略のための自動探索手法を提案する。 提案手法は、ハイパーパラメータのチューニングや、特定の確率で必要なデータ拡張の選択に利用できる。 提案手法は3次元医用画像セグメンテーションのいくつかのタスクで検証される。 ベースラインモデルの性能は検索後に向上し、他の手作業による最先端セグメンテーション手法と同等の精度が得られる。

Deep neural network (DNN) based approaches have been widely investigated and deployed in medical image analysis. For example, fully convolutional neural networks (FCN) achieve the state-of-the-art performance in several applications of 2D/3D medical image segmentation. Even the baseline neural network models (U-Net, V-Net, etc.) have been proven to be very effective and efficient when the training process is set up properly. Nevertheless, to fully exploit the potentials of neural networks, we propose an automated searching approach for the optimal training strategy with reinforcement learning. The proposed approach can be utilized for tuning hyper-parameters, and selecting necessary data augmentation with certain probabilities. The proposed approach is validated on several tasks of 3D medical image segmentation. The performance of the baseline model is boosted after searching, and it can achieve comparable accuracy to other manually-tuned state-of-the-art segmentation approaches.
翻訳日:2022-11-23 05:50:04 公開日:2020-06-10
# ミューテックスネットワークの効率的な表現における最大の制約

At-Most-One Constraints in Efficient Representations of Mutex Networks ( http://arxiv.org/abs/2006.05962v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) At-Most-One(AMO)制約は、TRUEにセットされるブール変数のセットから少なくとも1つの変数を必要とする濃度制約の特別なケースである。 AMOは、決定変数が同じ空間的または時間的スロットを共有することができないいくつかのオブジェクトの空間的または時間的配置を表す領域からのブール満足度(SAT)をモデル化するために重要である。 amo制約は、boolean変数のペアを同時に禁止する対の相互排他からなるミューテックスネットワークにおけるより効率的な表現と問題解決に使うことができる。 AMOを用いて新しいミューテックスが到着するインクリメンタルミューテックスネットワークの効率的な表現のためのクリプトの自動検出方法を提案する。 様々なエンコーディングを用いたAMO制約で表されるミューテックスネットワークにおけるSATベースの問題解決の比較を示す。

The At-Most-One (AMO) constraint is a special case of cardinality constraint that requires at most one variable from a set of Boolean variables to be set to TRUE. AMO is important for modeling problems as Boolean satisfiability (SAT) from domains where decision variables represent spatial or temporal placements of some objects that cannot share the same spatial or temporal slot. The AMO constraint can be used for more efficient representation and problem solving in mutex networks consisting of pair-wise mutual exclusions forbidding pairs of Boolean variable to be simultaneously TRUE. An on-line method for automated detection of cliques for efficient representation of incremental mutex networks where new mutexes arrive using AMOs is presented. A comparison of SAT-based problem solving in mutex networks represented by AMO constraints using various encodings is shown.
翻訳日:2022-11-23 05:43:25 公開日:2020-06-10
# 生成的逆模倣学習による人間の運転行動のモデル化

Modeling Human Driving Behavior through Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2006.06412v1 )

ライセンス: Link先を確認
Raunak Bhattacharyya, Blake Wulfe, Derek Phillips, Alex Kuefler, Jeremy Morton, Ransalu Senanayake, Mykel Kochenderfer(参考訳) 模倣学習(imitation learning)とは、コスト関数が未知あるいは特定が難しい場合に、インテリジェントな振る舞いを生成するアプローチである。 逆強化学習(IRL)において、GAIL(Generative Adversarial Imitation Learning)は、大規模または連続的な状態や行動空間の問題に対しても効果的な模倣を提供することを目的としている。 ドライバ・モデリングは状態と行動空間が連続している問題の一例である。 人間の運転行動は非線形性と確率性が特徴であり,その基礎となるコスト関数は不明である。 結果として、人間の運転デモから学ぶことは、人間のような運転行動を生み出すための有望なアプローチである。 本稿では,学習型ドライバモデリングにおけるGAILの利用について述べる。 ドライバモデリングは本質的にはエージェント間の相互作用をモデル化する必要があるマルチエージェント問題であるので,PS-GAILと呼ばれるGAILのパラメータ共有拡張について述べる。 さらに、gailはドメインに依存しないため、学習プロセスの駆動に関連する特定の知識をエンコードすることが難しい。 本稿では、報酬信号を変更し、エージェントにドメイン固有の知識を提供するReward Augmented Imitation Learning (RAIL)について述べる。 最後に、ヒトのデモンストレーションはGAILによって捕捉されない潜在因子に依存する。 本稿では,実演における潜伏変動の解消を可能にするBurn-InfoGAILについて述べる。 実世界の高速道路走行データセットであるNGSIMを用いてシミュレーション学習実験を行う。 実験により、これらの変更は高速道路の運転行動のモデル化に成功し、人間の実演を正確に再現し、運転エージェント間の相互作用から生じる交通の流れにおいて現実的な創発的な行動を生み出すことが示されている。

Imitation learning is an approach for generating intelligent behavior when the cost function is unknown or difficult to specify. Building upon work in inverse reinforcement learning (IRL), Generative Adversarial Imitation Learning (GAIL) aims to provide effective imitation even for problems with large or continuous state and action spaces. Driver modeling is one example of a problem where the state and action spaces are continuous. Human driving behavior is characterized by non-linearity and stochasticity, and the underlying cost function is unknown. As a result, learning from human driving demonstrations is a promising approach for generating human-like driving behavior. This article describes the use of GAIL for learning-based driver modeling. Because driver modeling is inherently a multi-agent problem, where the interaction between agents needs to be modeled, this paper describes a parameter-sharing extension of GAIL called PS-GAIL to tackle multi-agent driver modeling. In addition, GAIL is domain agnostic, making it difficult to encode specific knowledge relevant to driving in the learning process. This paper describes Reward Augmented Imitation Learning (RAIL), which modifies the reward signal to provide domain-specific knowledge to the agent. Finally, human demonstrations are dependent upon latent factors that may not be captured by GAIL. This paper describes Burn-InfoGAIL, which allows for disentanglement of latent variability in demonstrations. Imitation learning experiments are performed using NGSIM, a real-world highway driving dataset. Experiments show that these modifications to GAIL can successfully model highway driving behavior, accurately replicating human demonstrations and generating realistic, emergent behavior in the traffic flow arising from the interaction between driving agents.
翻訳日:2022-11-23 05:42:54 公開日:2020-06-10
# 非揮発性メモリによるニューロモルフィックコンピューティングの依存性改善

Improving Dependability of Neuromorphic Computing With Non-Volatile Memory ( http://arxiv.org/abs/2006.05868v1 )

ライセンス: Link先を確認
Shihao Song, Anup Das, Nagarajan Kandasamy(参考訳) プロセス技術が積極的にスケールし続けるにつれ、負バイアス温度不安定性(NBTI)と時間依存性誘電体破壊(TDDB)によるニューロモルフィックハードウェアの回路劣化が重要な信頼性問題となり、シナプス記憶に非揮発性メモリ(NVM)を使用すると増大すると予想されている。 これは、NVMはそのシナプス重みにアクセスするために高電圧と電流を必要とするためであり、ニューロモルフィックハードウェアにおける回路の老化をさらに加速させる。 現在の信頼性評価手法は、最悪の動作条件と不必要な制約性能を考慮した回路老化を推定するため、過度に保守的である。 本稿では,ハードウェア上での実行時間などの重要な性能指標を妥協することなく,システム全体の信頼性を向上させることを目的として,機械学習アプリケーションをニューロモルフィックハードウェアにマップする,信頼性指向のアプローチであるreneuを提案する。 RENEUの基本は、異なる故障機構を考慮したニューロモルフィックハードウェアにおけるCMOSベースの回路の老化の新たな定式化である。 この定式化を用いて、RENEUは、ニューロンとシナプスのハードウェアへのマッピングを含む設計空間探索フレームワーク内で使用できるシステム全体の信頼性モデルを開発する。 この目的のために、RENEUはParticle Swarm Optimization (PSO) のインスタンスを使用して、パフォーマンスと信頼性の観点からパレート最適のマッピングを生成する。 我々は、NVMシナプスを持つ最先端のニューロモルフィックハードウェア上で、異なる機械学習アプリケーションを用いてRENEUを評価する。 その結果,回路の劣化は平均38%減少し,ハードウェアの寿命は現行の手法に比べて平均18%改善した。 RENEUは、パフォーマンス指向の最先端と比較して、限界パフォーマンスオーバーヘッドを5%にしか導入していない。

As process technology continues to scale aggressively, circuit aging in a neuromorphic hardware due to negative bias temperature instability (NBTI) and time-dependent dielectric breakdown (TDDB) is becoming a critical reliability issue and is expected to proliferate when using non-volatile memory (NVM) for synaptic storage. This is because an NVM requires high voltage and current to access its synaptic weight, which further accelerates the circuit aging in a neuromorphic hardware. Current methods for qualifying reliability are overly conservative, since they estimate circuit aging considering worst-case operating conditions and unnecessarily constrain performance. This paper proposes RENEU, a reliability-oriented approach to map machine learning applications to neuromorphic hardware, with the aim of improving system-wide reliability without compromising key performance metrics such as execution time of these applications on the hardware. Fundamental to RENEU is a novel formulation of the aging of CMOS-based circuits in a neuromorphic hardware considering different failure mechanisms. Using this formulation, RENEU develops a system-wide reliability model which can be used inside a design-space exploration framework involving the mapping of neurons and synapses to the hardware. To this end, RENEU uses an instance of Particle Swarm Optimization (PSO) to generate mappings that are Pareto-optimal in terms of performance and reliability. We evaluate RENEU using different machine learning applications on a state-of-the-art neuromorphic hardware with NVM synapses. Our results demonstrate an average 38\% reduction in circuit aging, leading to an average 18% improvement in the lifetime of the hardware compared to current practices. RENEU only introduces a marginal performance overhead of 5% compared to a performance-oriented state-of-the-art.
翻訳日:2022-11-23 05:42:27 公開日:2020-06-10
# 遺伝的アルゴリズムを用いたフォン・ヴォルフフェルスドルフモデルの校正

Calibration of the von Wolffersdorff model using Genetic Algorithms ( http://arxiv.org/abs/2006.08433v1 )

ライセンス: Link先を確認
Francisco J. Mendez, Antonio Pasculli, Miguel A. Mendez, Nicola Sciarra(参考訳) 本稿では,フォン・ヴォルフフェルスドルフの構成法則を校正するための遺伝的アルゴリズム(GA)に基づく最適化フレームワークを提案する。 この構成法則はSand hypoplasticity(SH)と呼ばれ、土壌の挙動の堅牢で正確なモデリングを可能にするが、8つのパラメータを含む複雑なキャリブレーションを必要とする。 提案手法は, gaとshを結合した数値解法とを組み合わせることで, oedometric および triaxial drained compression test の結果から, これらのパラメータを自動的に適合させることができる。 同じキャリブレーションを数回繰り返すことで、オプティマイザの確率的性質はキャリブレーションパラメータの不確実性定量化を可能にし、モデル予測における相対的重要性の研究を可能にする。 soilmodelsのwebサイトからexaliber-laboratoryソフトウェア上で数値解法を検証すると、gaキャリブレーションが合成データセット上でテストされ、結果の収束度と統計値を分析する。 特に相関解析により、8つのモデルパラメータの2つの組が強く相関していることが分かる。 最後に、1996年のフォン・ヴォルフフェルスドルフと1999年のHerle & Gudehusによるホクステッテン砂のキャリブレーション法が試験された。 遺伝的アルゴリズム最適化によって同定されたモデルパラメータは、実験データとのマッチングを改善し、キャリブレーションが向上する。

This article proposes an optimization framework, based on Genetic Algorithms (GA), to calibrate the constitutive law of von Wolffersdorff. This constitutive law is known as Sand Hypoplasticity (SH), and allows for robust and accurate modeling of the soil behavior but requires a complex calibration involving eight parameters. The proposed optimization can automatically fit these parameters from the results of an oedometric and a triaxial drained compression test, by combining the GA with a numerical solver that integrates the SH in the test conditions. By repeating the same calibration several times, the stochastic nature of the optimizer enables the uncertainty quantification of the calibration parameters and allows studying their relative importance on the model prediction. After validating the numerical solver on the ExCaliber-Laboratory software from the SoilModels' website, the GA calibration is tested on a synthetic dataset to analyze the convergence and the statistics of the results. In particular, a correlation analysis reveals that two couples of the eight model parameters are strongly correlated. Finally, the calibration procedure is tested on the results from von Wolffersdorff, 1996, and Herle & Gudehus, 1999, on the Hochstetten sand. The model parameters identified by the Genetic Algorithm optimization improves the matching with the experimental data and hence lead to a better calibration.
翻訳日:2022-11-23 05:41:58 公開日:2020-06-10
# ファーストパーソンビデオの視線駆動高速フォワード法

A gaze driven fast-forward method for first-person videos ( http://arxiv.org/abs/2006.05569v1 )

ライセンス: Link先を確認
Alan Carvalho Neves, Michel Melo Silva, Mario Fernando Montenegro Campos, Erickson Rangel Nascimento(参考訳) データ共有とライフログ文化の増大は、編集されていないファーストパーソンビデオの量が前例のない増加を招いている。 本稿では,入力映像の高速化版を作成し,レコーダに重要な瞬間を強調することで,ファーストパーソンビデオの関連情報にアクセスする問題に対処する。 本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。 公開されているFirst-Person Videosデータセットについて実験を行った。 提案手法は,モノトニッククリップを含まないまま,レコーダーがシーンコンポーネントと視覚的に相互作用する瞬間を強調する。

The growing data sharing and life-logging cultures are driving an unprecedented increase in the amount of unedited First-Person Videos. In this paper, we address the problem of accessing relevant information in First-Person Videos by creating an accelerated version of the input video and emphasizing the important moments to the recorder. Our method is based on an attention model driven by gaze and visual scene analysis that provides a semantic score of each frame of the input video. We performed several experimental evaluations on publicly available First-Person Videos datasets. The results show that our methodology can fast-forward videos emphasizing moments when the recorder visually interact with scene components while not including monotonous clips.
翻訳日:2022-11-23 05:41:32 公開日:2020-06-10
# ガウス過程を用いた画像レイニングのためのSyn2Real Transfer Learning

Syn2Real Transfer Learning for Image Deraining using Gaussian Processes ( http://arxiv.org/abs/2006.05580v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Vishwanath A. Sindagi, Vishal M. Patel(参考訳) 近年のCNNによる画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。 しかし、これらの手法は完全なラベル付きデータでのみ訓練できるという意味で制限されている。 実世界の完全ラベル付き画像デライニングデータセットを得る上で様々な課題があるため、既存の手法は合成されたデータのみに基づいて訓練されるため、実世界の画像にはあまり一般化されない。 画像デラリニングネットワークのトレーニングにおける実世界のデータの利用は、文献では比較的調査されていない。 そこで本研究では,合成データセットを用いたネットワーク学習を可能にするガウス過程に基づく半教師付き学習フレームワークを提案する。 rain800, rain200h, ddn-sirrなど,いくつかの難解なデータセットに対する広範囲な実験とアブレーションを通じて,本手法が限定ラベルデータに基づいて訓練された場合,完全なラベル付きトレーニングによるオンパリパフォーマンスを実現することを実証した。 さらに,提案するgpベースのフレームワークでラベルなしの実世界画像を用いることで,従来の手法と比較して優れた性能が得られることを示す。 コードは、https://github.com/rajeevyasarla/Syn2Realで入手できる。

Recent CNN-based methods for image deraining have achieved excellent performance in terms of reconstruction error as well as visual quality. However, these methods are limited in the sense that they can be trained only on fully labeled data. Due to various challenges in obtaining real world fully-labeled image deraining datasets, existing methods are trained only on synthetically generated data and hence, generalize poorly to real-world images. The use of real-world data in training image deraining networks is relatively less explored in the literature. We propose a Gaussian Process-based semi-supervised learning framework which enables the network in learning to derain using synthetic dataset while generalizing better using unlabeled real-world images. Through extensive experiments and ablations on several challenging datasets (such as Rain800, Rain200H and DDN-SIRR), we show that the proposed method, when trained on limited labeled data, achieves on-par performance with fully-labeled training. Additionally, we demonstrate that using unlabeled real-world images in the proposed GP-based framework results in superior performance as compared to existing methods. Code is available at: https://github.com/rajeevyasarla/Syn2Real
翻訳日:2022-11-23 05:41:20 公開日:2020-06-10
# 衛星画像におけるcnnに基づく意味変化検出

CNN-Based Semantic Change Detection in Satellite Imagery ( http://arxiv.org/abs/2006.05589v1 )

ライセンス: Link先を確認
Ananya Gupta, Elisabeth Welburn, Simon Watson, Hujun Yin(参考訳) タイムリーな災害リスク管理には正確な道路地図が必要である。 現在、これは被災地の衛星画像を手動でマークするボランティアによって行われているが、このプロセスは遅く、しばしばエラーを起こしやすい。 分割アルゴリズムは衛星画像に適用して道路網を検出することができる。 しかし、これらのシナリオではもはや有効ではない道路網のトポロジを仮定するため、既存の手法は災害現場には適さない。 本稿では,災害前の画像から変化を検出することで,災害後の画像からアクセス可能な道路を特定するためのCNNベースのフレームワークを提案する。 グラフ理論とCNN出力を組み合わせて,OpenStreetMapデータを用いた道路ネットワークの意味変化を検出する。 本研究は,インドネシアのパウル州でDigitalGlobeから取得した津波被害地域のデータを用いて検証した。

Timely disaster risk management requires accurate road maps and prompt damage assessment. Currently, this is done by volunteers manually marking satellite imagery of affected areas but this process is slow and often error-prone. Segmentation algorithms can be applied to satellite images to detect road networks. However, existing methods are unsuitable for disaster-struck areas as they make assumptions about the road network topology which may no longer be valid in these scenarios. Herein, we propose a CNN-based framework for identifying accessible roads in post-disaster imagery by detecting changes from pre-disaster imagery. Graph theory is combined with the CNN output for detecting semantic changes in road networks with OpenStreetMap data. Our results are validated with data of a tsunami-affected region in Palu, Indonesia acquired from DigitalGlobe.
翻訳日:2022-11-23 05:40:59 公開日:2020-06-10
# リモートセンシング画像における変化検出のためのディープラーニング:包括的レビューとメタ分析

Deep Learning for Change Detection in Remote Sensing Images: Comprehensive Review and Meta-Analysis ( http://arxiv.org/abs/2006.05612v1 )

ライセンス: Link先を確認
Lazhar Khelifi and Max Mignotte(参考訳) 深層学習(DL)アルゴリズムは,過去数年間のリモートセンシング画像解析の方法論として検討されている。 その効果的な応用のため、ディープラーニングは自動変更検出にも導入され、大きな成功を収めた。 本研究は,このサブフィールドにおける最近の進歩の包括的レビューとメタアナリシスを試みている。 具体的には,まず,変更検出に頻繁に採用される深層学習法の基礎を紹介する。 次に, 変化検出dl研究の現状を調べるために実施したメタ分析の詳細について述べる。 次に,既存の手法の概要を概観し,リモートセンシング画像の深層学習に基づく変化検出手法に注目する。 具体的には,これらの深層学習に基づく手法を,教師なし学習法,教師なし学習法,転向学習法という3つのグループに分類した。 これらの調査の結果、将来の研究のために新たな方向性が示された。 本研究は、変化検出のためのディープラーニングの理解にいくつかの方法で貢献し、さらなる研究の基盤を提供する。

Deep learning (DL) algorithms are considered as a methodology of choice for remote-sensing image analysis over the past few years. Due to its effective applications, deep learning has also been introduced for automatic change detection and achieved great success. The present study attempts to provide a comprehensive review and a meta-analysis of the recent progress in this subfield. Specifically, we first introduce the fundamentals of deep learning methods which arefrequently adopted for change detection. Secondly, we present the details of the meta-analysis conducted to examine the status of change detection DL studies. Then, we focus on deep learning-based change detection methodologies for remote sensing images by giving a general overview of the existing methods. Specifically, these deep learning-based methods were classified into three groups; fully supervised learning-based methods, fully unsupervised learning-based methods and transfer learning-based techniques. As a result of these investigations, promising new directions were identified for future research. This study will contribute in several ways to our understanding of deep learning for change detection and will provide a basis for further research.
翻訳日:2022-11-23 05:40:26 公開日:2020-06-10
# 制限ガウス神託を用いた複合ログコンケーブサンプリング

Composite Logconcave Sampling with a Restricted Gaussian Oracle ( http://arxiv.org/abs/2006.05976v1 )

ライセンス: Link先を確認
Ruoqi Shen, Kevin Tian, Yin Tat Lee(参考訳) d\pi(x) \propto \exp(-f(x) - g(x))dx$ for well-conditioned $f$ and convex (but non-smooth) $g$、制限されたガウス神託の抽象化を通じて凸集合への制限を一般化した族である。 条件番号 $\kappa$ で$f$ の場合、アルゴリズムは$o \left(\kappa^2 d \log^2\tfrac{\kappa d}{\epsilon}\right)$ で実行され、それぞれ$f$ の勾配と制限されたガウスオラクルをクエリし、全変動距離 $\epsilon$ を達成する。 負の対数類似度が2次和と$g$の分布からサンプルを引き出す限定ガウスオラクルは、以前に研究され、合成最適化に使用される近位オラクルの自然な拡張である。 提案アルゴリズムは概念的に単純であり,既存の複合サンプリング法よりも証明可能な保証と一般化が得られる。 提案手法は,正のオータントに対する(非対角的)ガウスの制限をサンプリングするヒット・アンド・ランアルゴリズムを大幅に改善することを示す実験を行う。

We consider sampling from composite densities on $\mathbb{R}^d$ of the form $d\pi(x) \propto \exp(-f(x) - g(x))dx$ for well-conditioned $f$ and convex (but possibly non-smooth) $g$, a family generalizing restrictions to a convex set, through the abstraction of a restricted Gaussian oracle. For $f$ with condition number $\kappa$, our algorithm runs in $O \left(\kappa^2 d \log^2\tfrac{\kappa d}{\epsilon}\right)$ iterations, each querying a gradient of $f$ and a restricted Gaussian oracle, to achieve total variation distance $\epsilon$. The restricted Gaussian oracle, which draws samples from a distribution whose negative log-likelihood sums a quadratic and $g$, has been previously studied and is a natural extension of the proximal oracle used in composite optimization. Our algorithm is conceptually simple and obtains stronger provable guarantees and greater generality than existing methods for composite sampling. We conduct experiments showing our algorithm vastly improves upon the hit-and-run algorithm for sampling the restriction of a (non-diagonal) Gaussian to the positive orthant.
翻訳日:2022-11-23 05:33:38 公開日:2020-06-10
# 感情分析のためのマルチソース非教師なしドメイン適応型逆訓練

Adversarial Training Based Multi-Source Unsupervised Domain Adaptation for Sentiment Analysis ( http://arxiv.org/abs/2006.05602v1 )

ライセンス: Link先を確認
Yong Dai, Jian Liu, Xiancong Ren, Zenglin Xu(参考訳) 感情分析のためのマルチソース非教師付きドメイン適応(MS-UDA)は、複数のソースドメインで有用な情報を活用し、教師付き情報を持たないラベルなしのターゲットドメインでSAを支援することを目的としている。 既存のMS-UDAのアルゴリズムは共有特徴、すなわちドメイン不変情報のみを利用するか、NLPの弱い仮定、例えば滑らかさの仮定に基づいている。 これらの問題を避けるため,本論文では,ソース仮説を組み合わせ,良好な目標仮説を導出することにより,saの多元領域適応手法に基づく2つのトランスファー学習フレームワークを提案する。 最初のフレームワークの重要な機能は、新しいWeighting Schemeベースのunsupervised Domain Adaptation framework (WS-UDA)である。 第2のフレームワークは、教師なしドメイン適応フレームワーク(unsupervised domain adaptation framework, 2st-uda)に基づく2段階のトレーニングである。 重要なことは、各ソース分類器に割り当てられた重みは、ターゲットインスタンスとソースドメインの関係に基づいており、その関係は、敵の訓練によって判別器によって測定される。 さらに、同一の判別子を通して、共有機能とプライベート機能の分離も実現します。 2つのSAデータセットによる実験結果から,我々のフレームワークの有望な性能が実証された。

Multi-source unsupervised domain adaptation (MS-UDA) for sentiment analysis (SA) aims to leverage useful information in multiple source domains to help do SA in an unlabeled target domain that has no supervised information. Existing algorithms of MS-UDA either only exploit the shared features, i.e., the domain-invariant information, or based on some weak assumption in NLP, e.g., smoothness assumption. To avoid these problems, we propose two transfer learning frameworks based on the multi-source domain adaptation methodology for SA by combining the source hypotheses to derive a good target hypothesis. The key feature of the first framework is a novel Weighting Scheme based Unsupervised Domain Adaptation framework (WS-UDA), which combine the source classifiers to acquire pseudo labels for target instances directly. While the second framework is a Two-Stage Training based Unsupervised Domain Adaptation framework (2ST-UDA), which further exploits these pseudo labels to train a target private extractor. Importantly, the weights assigned to each source classifier are based on the relations between target instances and source domains, which measured by a discriminator through the adversarial training. Furthermore, through the same discriminator, we also fulfill the separation of shared features and private features. Experimental results on two SA datasets demonstrate the promising performance of our frameworks, which outperforms unsupervised state-of-the-art competitors.
翻訳日:2022-11-23 05:32:48 公開日:2020-06-10
# 抽象要約のための文間の対応点の理解

Understanding Points of Correspondence between Sentences for Abstractive Summarization ( http://arxiv.org/abs/2006.05621v1 )

ライセンス: Link先を確認
Logan Lebanoff, John Muchovej, Franck Dernoncourt, Doo Soon Kim, Lidan Wang, Walter Chang, Fei Liu(参考訳) 異なる内容を含む文を融合することは、有益で簡潔な要約を作成するのに役立つ驚くべき人間の能力である。 このような簡単な作業は、現代の抽象的な要約者にとって依然として困難であり、現実のシナリオにおける適用性を著しく制限している。 本稿では,2つの文を結合したコヒーレントテキストに結合するコヒーレントな装置である対応点の概念を導入することにより,文書から引き出された文を融合する検討を行う。 対応点のタイプは、テキスト結束理論(英語版)によって説明され、プロノミナルおよび名目的参照、反復などをカバーする。 我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。 私たちのデータセットは、コリファレンス解決と要約の間のギャップを橋渡しします。 文融合システムの成功を測定するための将来の研究の基盤となるために、公に共有されている。 (https://github.com/ucfnlp/points-of-correspondence)

Fusing sentences containing disparate content is a remarkable human ability that helps create informative and succinct summaries. Such a simple task for humans has remained challenging for modern abstractive summarizers, substantially restricting their applicability in real-world scenarios. In this paper, we present an investigation into fusing sentences drawn from a document by introducing the notion of points of correspondence, which are cohesive devices that tie any two sentences together into a coherent text. The types of points of correspondence are delineated by text cohesion theory, covering pronominal and nominal referencing, repetition and beyond. We create a dataset containing the documents, source and fusion sentences, and human annotations of points of correspondence between sentences. Our dataset bridges the gap between coreference resolution and summarization. It is publicly shared to serve as a basis for future work to measure the success of sentence fusion systems. (https://github.com/ucfnlp/points-of-correspondence)
翻訳日:2022-11-23 05:32:22 公開日:2020-06-10
# 統一対話システム評価に向けて:現状評価プロトコルの包括的分析

Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols ( http://arxiv.org/abs/2006.06110v1 )

ライセンス: Link先を確認
Sarah E. Finch and Jinho D. Choi(参考訳) 対話型AIベースの対話管理がトレンドになりつつあるため、標準化された信頼性の高い評価手順の必要性はさらに強くなっている。 現状では、チャット指向の対話管理システムを評価するための様々な評価プロトコルを提案し、異なるアプローチで公正な比較研究を行うことを困難にし、それらの価値について洞察力のある理解を得る。 この研究を促進するためには、より堅牢な評価プロトコルを設定する必要がある。 本稿では,対話システムにおける自動評価手法と人的評価手法の両方を総合的に合成し,その欠点を特定しながら,最も有効な評価次元に対するエビデンスを蓄積する。 過去2年間の合計20の論文を調査し、自動化、静的、インタラクティブの3種類の評価プロトコルを分析した。 最後に、これらの論文で用いられる評価次元を、Alexa Prize 2020から収集されたシステムユーザ対話データに関する専門家評価と比較した。

As conversational AI-based dialogue management has increasingly become a trending topic, the need for a standardized and reliable evaluation procedure grows even more pressing. The current state of affairs suggests various evaluation protocols to assess chat-oriented dialogue management systems, rendering it difficult to conduct fair comparative studies across different approaches and gain an insightful understanding of their values. To foster this research, a more robust evaluation protocol must be set in place. This paper presents a comprehensive synthesis of both automated and human evaluation methods on dialogue systems, identifying their shortcomings while accumulating evidence towards the most effective evaluation dimensions. A total of 20 papers from the last two years are surveyed to analyze three types of evaluation protocols: automated, static, and interactive. Finally, the evaluation dimensions used in these papers are compared against our expert evaluation on the system-user dialogue data collected from the Alexa Prize 2020.
翻訳日:2022-11-23 05:32:05 公開日:2020-06-10
# 二元RRAMアレイによるVMMの実現手法:OxRAMクロスバーを用いた二元化ADALINEの実験実証

Methodology for Realizing VMM with Binary RRAM Arrays: Experimental Demonstration of Binarized-ADALINE Using OxRAM Crossbar ( http://arxiv.org/abs/2006.05657v1 )

ライセンス: Link先を確認
Sandeep Kaur Kingra, Vivek Parmar, Shubham Negi, Sufyan Khan, Boris Hudec, Tuo-Hung Hou and Manan Suri(参考訳) 本稿では,抵抗メモリ(RRAM)アレイ上のベクトル行列乗算(VMM)を実現するための効率的なハードウェアマッピング手法を提案する。 提案手法を用いて,OxRAMクロスバー上に二値化ADALINE(Adaptive Linear)分類器を試作した。 Ni/3nm HfO2/7nm AlドープTiO2/TiNデバイススタックを備えた8x8 OxRAMクロスバーを使用する。 UCIがんデータセットに基づいて二項化ADALINE分類器の重量訓練を行う。 OxRAMアレイは、カスタムビルドテストベンチ上で提案した重みマッピング技術を用いて、2重み付け状態に慎重にプログラムされる。 シミュレーションでは,VMMを用いたバイナライズ-ADALINEネットワークが78%,実験では67%の分類精度を実現している。 実験精度は、主にクロスバー固有のスニーパス問題とRRAMデバイスプログラミングのばらつきにより低下した。

In this paper, we present an efficient hardware mapping methodology for realizing vector matrix multiplication (VMM) on resistive memory (RRAM) arrays. Using the proposed VMM computation technique, we experimentally demonstrate a binarized-ADALINE (Adaptive Linear) classifier on an OxRAM crossbar. An 8x8 OxRAM crossbar with Ni/3-nm HfO2/7 nm Al-doped-TiO2/TiN device stack is used. Weight training for the binarized-ADALINE classifier is performed ex-situ on UCI cancer dataset. Post weight generation the OxRAM array is carefully programmed to binary weight-states using the proposed weight mapping technique on a custom-built testbench. Our VMM powered binarized-ADALINE network achieves a classification accuracy of 78% in simulation and 67% in experiments. Experimental accuracy was found to drop mainly due to crossbar inherent sneak-path issues and RRAM device programming variability.
翻訳日:2022-11-23 05:31:51 公開日:2020-06-10
# Rinascimento: Splendorの再生にイベント値関数を使用する

Rinascimento: using event-value functions for playing Splendor ( http://arxiv.org/abs/2006.05894v1 )

ライセンス: Link先を確認
Ivan Bravi and Simon Lucas(参考訳) ゲーム研究の領域では、人工知能アルゴリズムはしばしばスコアを学習やプレイのための主要な報酬信号として利用する。 しかし、ポイント報酬がゲーム終了まで非常に稀または欠落している場合、これは厳しい制限を示している。 本稿では,イベントログに基づく新しいアプローチを提案する。ゲーム状態は,その機能変更の度にイベントをトリガーする。 これらのイベントは、単一のアクションやシーケンスに値を割り当てるイベント値関数(EF)によって処理される。 実験の結果、このような手法はポイント報酬の不足を軽減し、AIのパフォーマンスを向上させることができることがわかった。 さらにこれは、EFを通じてよりリッチで制御可能な行動空間を記述することによって、人工エージェントが採用する戦略を制御するための一歩である。 チューニングされたEFは、ゲーム内のイベントの関連性をきちんと合成することができる。 EFを使用するエージェントは、複数の対戦相手とゲームをする際により堅牢である。

In the realm of games research, Artificial General Intelligence algorithms often use score as main reward signal for learning or playing actions. However this has shown its severe limitations when the point rewards are very rare or absent until the end of the game. This paper proposes a new approach based on event logging: the game state triggers an event every time one of its features changes. These events are processed by an Event-value Function (EF) that assigns a value to a single action or a sequence. The experiments have shown that such approach can mitigate the problem of scarce point rewards and improve the AI performance. Furthermore this represents a step forward in controlling the strategy adopted by the artificial agent, by describing a much richer and controllable behavioural space through the EF. Tuned EF are able to neatly synthesise the relevance of the events in the game. Agents using an EF show more robust when playing games with several opponents.
翻訳日:2022-11-23 05:31:36 公開日:2020-06-10
# 条件変動オートエンコーダを用いた電力消費プロファイルにおける関税影響のシミュレーション

Simulating Tariff Impact in Electrical Energy Consumption Profiles with Conditional Variational Autoencoders ( http://arxiv.org/abs/2006.07115v1 )

ライセンス: Link先を確認
Margaux Br\'eg\`ere and Ricardo J. Bessa(参考訳) 家庭用電力消費に対する効率的な需要応答(DR)プログラムの実装は、異なる関税体系の影響をシミュレートできるデータ駆動方式の恩恵を受けるだろう。 本稿では,外因性気象とカレンダー変数を組み合わせた電気関税プロファイルから,異なるクラスタに区切られた消費者の日常消費プロファイルを生成するための,条件付き変分オートエンコーダ(CVAE)に基づく新しい手法を提案する。 まず、多数の消費者が消費行動と価格対応に応じてクラスタに集まります。 クラスタリング法は、特定の関税が消費水準に与える影響を測定する因果性モデルに基づいている。 そして、CVAEを用いたクラスタ毎に、毎日の電力消費プロファイルを生成する。 この非パラメトリックなアプローチは、一般化された加法モデルに基づく半パラメトリックデータジェネレータと比較され、エネルギー消費の事前知識を使用する。 公開データセットにおける実験により,提案手法は,原データの平均値を生成する際に,半パラメトリック値と同等の性能を示すことを示した。 この新しい手法の主な貢献は、生成した消費プロファイルにおけるリバウンドおよび副作用を再現する能力である。 実際、特別な電気料金の適用は、この時間窓の外の消費にも影響を及ぼす可能性がある。 もう1つの貢献は、クラスタリングアプローチが消費者を日々の消費プロファイルと関税変更に対する弾力性に応じてセグメント化することである。 これらの2つの結果は、システムオペレーター、小売業者、エネルギー規制当局による将来のDRポリシーのテストに非常に関係している。

The implementation of efficient demand response (DR) programs for household electricity consumption would benefit from data-driven methods capable of simulating the impact of different tariffs schemes. This paper proposes a novel method based on conditional variational autoencoders (CVAE) to generate, from an electricity tariff profile combined with exogenous weather and calendar variables, daily consumption profiles of consumers segmented in different clusters. First, a large set of consumers is gathered into clusters according to their consumption behavior and price-responsiveness. The clustering method is based on a causality model that measures the effect of a specific tariff on the consumption level. Then, daily electrical energy consumption profiles are generated for each cluster with CVAE. This non-parametric approach is compared to a semi-parametric data generator based on generalized additive models and that uses prior knowledge of energy consumption. Experiments in a publicly available data set show that, the proposed method presents comparable performance to the semi-parametric one when it comes to generating the average value of the original data. The main contribution from this new method is the capacity to reproduce rebound and side effects in the generated consumption profiles. Indeed, the application of a special electricity tariff over a time window may also affect consumption outside this time window. Another contribution is that the clustering approach segments consumers according to their daily consumption profile and elasticity to tariff changes. These two results combined are very relevant for an ex-ante testing of future DR policies by system operators, retailers and energy regulators.
翻訳日:2022-11-23 05:26:32 公開日:2020-06-10
# 画像検索のためのディープハッシュに関する調査

A survey on deep hashing for image retrieval ( http://arxiv.org/abs/2006.05627v1 )

ライセンス: Link先を確認
Xiaopeng Zhang(参考訳) ハッシュ処理は、計算とストレージ効率のために、大規模データベース検索の近似最寄り探索に広く使われている。 画像の意味情報や特徴を利用して抽出する畳み込みニューラルネットワークアーキテクチャを考案したDeep Hashingが最近注目を集めている。 本調査では, 画像検索のための深層型ハッシュ法の評価を行い, 深層型ハッシュ法の主な3つの方向を結論付ける。 最後にいくつかのコメントがある。 さらに,既存のハッシュ手法のボトルネックを克服するために,shadow recurrent hashing(srh)メソッドを提案する。 具体的には、画像の意味的特徴を抽出するCNNアーキテクチャを考案し、類似した画像を近接に投影するロス関数を設計する。 この目的のために、CNN出力の影という概念を提案します。 最適化プロセス中、cnn出力とそのシャドーは、可能な限り最適なソリューションを達成するために互いに誘導している。 データセットCIFAR-10のいくつかの実験は、SRHの満足な性能を示している。

Hashing has been widely used in approximate nearest search for large-scale database retrieval for its computation and storage efficiency. Deep hashing, which devises convolutional neural network architecture to exploit and extract the semantic information or feature of images, has received increasing attention recently. In this survey, several deep supervised hashing methods for image retrieval are evaluated and I conclude three main different directions for deep supervised hashing methods. Several comments are made at the end. Moreover, to break through the bottleneck of the existing hashing methods, I propose a Shadow Recurrent Hashing(SRH) method as a try. Specifically, I devise a CNN architecture to extract the semantic features of images and design a loss function to encourage similar images projected close. To this end, I propose a concept: shadow of the CNN output. During optimization process, the CNN output and its shadow are guiding each other so as to achieve the optimal solution as much as possible. Several experiments on dataset CIFAR-10 show the satisfying performance of SRH.
翻訳日:2022-11-23 05:25:53 公開日:2020-06-10
# ディープラーニングによる自然カメラボケ効果のレンダリング

Rendering Natural Camera Bokeh Effect with Deep Learning ( http://arxiv.org/abs/2006.05698v1 )

ライセンス: Link先を確認
Andrey Ignatov, Jagruti Patel, Radu Timofte(参考訳) ボケは、すべての焦点外領域をぼやけ、写真に対する関心の対象を強調するために使われる重要な芸術的効果である。 DSLRとシステムカメラのレンズはこの効果を自然にレンダリングできるが、光学の直径が非常に小さいため、モバイルカメラは視野の浅い写真を作ることができない。 画像背景にガウスのぼかしを適用してボケをシミュレートする現在のソリューションとは違って,本論文では,デジタル一眼レフカメラで撮影した写真から直接,現実的な浅層焦点技術を学ぶことを提案する。 そこで本研究では,Canon 7D DSLRと50mm f/1.8レンズを用いた5Kの浅視野/広視野画像ペアからなる大規模ボケデータセットを提案する。 これらの画像を用いて、深層学習モデルを訓練し、単一の狭視野画像に基づいて自然ボケ効果を再現する。 実験結果から,複数オブジェクトの複雑な入力データであっても,提案手法は実現可能な非一様ボケを描画できることがわかった。 この論文で使用されるデータセット、事前訓練されたモデル、コードは、プロジェクトのウェブサイトで入手できる。

Bokeh is an important artistic effect used to highlight the main object of interest on the photo by blurring all out-of-focus areas. While DSLR and system camera lenses can render this effect naturally, mobile cameras are unable to produce shallow depth-of-field photos due to a very small aperture diameter of their optics. Unlike the current solutions simulating bokeh by applying Gaussian blur to image background, in this paper we propose to learn a realistic shallow focus technique directly from the photos produced by DSLR cameras. For this, we present a large-scale bokeh dataset consisting of 5K shallow / wide depth-of-field image pairs captured using the Canon 7D DSLR with 50mm f/1.8 lenses. We use these images to train a deep learning model to reproduce a natural bokeh effect based on a single narrow-aperture image. The experimental results show that the proposed approach is able to render a plausible non-uniform bokeh even in case of complex input data with multiple objects. The dataset, pre-trained models and codes used in this paper are available on the project website.
翻訳日:2022-11-23 05:25:38 公開日:2020-06-10
# ラベル付きデータを持たない計算エラストダイナミックスのための物理情報深層学習

Physics informed deep learning for computational elastodynamics without labeled data ( http://arxiv.org/abs/2006.08472v1 )

ライセンス: Link先を確認
Chengping Rao and Hao Sun and Yang Liu(参考訳) 有限要素のような数値的手法は、偏微分方程式 (PDE) を解くことによって、固体力学の問題をモデル化するために過去数十年にわたって繁栄してきた。 これらの数値的手法を区別する健全な側面は、それらが関心の物理的場を近似する方法である。 物理学を応用したディープラーニングは、pdeソリューションをモデル化するために最近開発された新しいアプローチであり、ラベル付きデータを使わずに計算力学問題を解決することを約束している。 その背景にある哲学は、ディープニューラルネットワーク(DNN)による関心の量(例えば、PDEソリューション変数)を近似し、物理法則を組み込んでネットワークを正規化することである。 この目的のために、ネットワークのトレーニングは、pde残差と初期/境界条件(i/bcs)を含むよく設計された損失関数の最小化に相当する。 本稿では,i/bcsをほとんど課さないラベル付きデータに頼らずにelistodynamics問題をモデル化するために,混合変数出力を持つ物理不定型ニューラルネットワーク(pinn)を提案する。 特に、変位成分と応力成分をDNN出力とみなし、ネットワークの精度とトレーニング性を大幅に向上させるハイブリッド有限要素解析に着想を得た。 従来のPINNフレームワークはラグランジュ乗算器と「ソフト」な方法で全ての残留損失成分を増強するので、特に複雑なI/BCが存在する場合、弱いI/BCは十分に満足できない。 この問題を克服するために、複数の単一DNNに基づいてDNNの合成スキームを確立し、I/BCを「ハード」な方法で強制的に満足させることができる。 提案するPINNフレームワークは,静的および動的問題だけでなく,絡み合った領域の波動伝播を含む,異なるI/BCを持つ数値弾性例で実証される。 結果は計算力学応用の文脈におけるpinnの期待を示す。

Numerical methods such as finite element have been flourishing in the past decades for modeling solid mechanics problems via solving governing partial differential equations (PDEs). A salient aspect that distinguishes these numerical methods is how they approximate the physical fields of interest. Physics-informed deep learning is a novel approach recently developed for modeling PDE solutions and shows promise to solve computational mechanics problems without using any labeled data. The philosophy behind it is to approximate the quantity of interest (e.g., PDE solution variables) by a deep neural network (DNN) and embed the physical law to regularize the network. To this end, training the network is equivalent to minimization of a well-designed loss function that contains the PDE residuals and initial/boundary conditions (I/BCs). In this paper, we present a physics-informed neural network (PINN) with mixed-variable output to model elastodynamics problems without resort to labeled data, in which the I/BCs are hardly imposed. In particular, both the displacement and stress components are taken as the DNN output, inspired by the hybrid finite element analysis, which largely improves the accuracy and trainability of the network. Since the conventional PINN framework augments all the residual loss components in a "soft" manner with Lagrange multipliers, the weakly imposed I/BCs cannot not be well satisfied especially when complex I/BCs are present. To overcome this issue, a composite scheme of DNNs is established based on multiple single DNNs such that the I/BCs can be satisfied forcibly in a "hard" manner. The propose PINN framework is demonstrated on several numerical elasticity examples with different I/BCs, including both static and dynamic problems as well as wave propagation in truncated domains. Results show the promise of PINN in the context of computational mechanics applications.
翻訳日:2022-11-23 05:23:39 公開日:2020-06-10
# 通常クラスタリングアルゴリズムにおける気候データ知識を用いたエキスパート偏差の利用

Using an expert deviation carrying the knowledge of climate data in usual clustering algorithms ( http://arxiv.org/abs/2006.05603v1 )

ライセンス: Link先を確認
Emmanuel Biabiany, Vincent Page, Didier Bernard, H\'el\`ene Paugam-Moisy(参考訳) 風速と累積降雨データセットのクラスタリング分析を用いて,気候に関する知識をより少ないアンティルで拡張するために,時空間構成を同定することを目的としている。 しかし,従来のクラスタリング手法では,K-Means (KMS) や階層的集約クラスタリング (HAC) としてL2ノルムを用いることで,望ましくない効果がもたらされることが示されている。 そこで本稿では,Euclidean distance (L2) をExpert Deviation (ED) という異種性尺度で置き換えることを提案する。 シンメトリフィケーションされたクルバック・リーバーの発散に基づいて、EDは観測された物理パラメータと気候知識の特性を統合する。 この測定は、大気構造に影響された4つのパッチのヒストグラムを比較するのに役立つ。 EDおよびL2を用いて得られた内部均一性の評価とクラスターの分離を行った。 結果はシルエット指数を用いて比較され、高い指数を持つ5つのクラスターを示す。 2つの利用可能なデータセットでは、KMS-L2とは異なり、KMS-EDは日々の状況を適切に識別し、アルゴリズムによって発見されたクラスタにより物理的な意味を与える。 KMS-EDの代表要素の空間解析においてパッチの効果が観察された。 EDは、通常の大気構造を明確に識別できる様々な構成を作成できる。 大気物理学者は、大気構造に応じて各クラスターの特定のゾーンにおける衝突の位置を解釈することができる。 KMS-L2は、空間的に非常に滑らかな状況であるため、そのような解釈可能性をもたらすことはない。 この気候学的研究は、EDを新しいアプローチとして使う利点を示している。

In order to help physicists to expand their knowledge of the climate in the Lesser Antilles, we aim to identify the spatio-temporal configurations using clustering analysis on wind speed and cumulative rainfall datasets. But we show that using the L2 norm in conventional clustering methods as K-Means (KMS) and Hierarchical Agglomerative Clustering (HAC) can induce undesirable effects. So, we propose to replace Euclidean distance (L2) by a dissimilarity measure named Expert Deviation (ED). Based on the symmetrized Kullback-Leibler divergence, the ED integrates the properties of the observed physical parameters and climate knowledge. This measure helps comparing histograms of four patches, corresponding to geographical zones, that are influenced by atmospheric structures. The combined evaluation of the internal homogeneity and the separation of the clusters obtained using ED and L2 was performed. The results, which are compared using the silhouette index, show five clusters with high indexes. For the two available datasets one can see that, unlike KMS-L2, KMS-ED discriminates the daily situations favorably, giving more physical meaning to the clusters discovered by the algorithm. The effect of patches is observed in the spatial analysis of representative elements for KMS-ED. The ED is able to produce different configurations which makes the usual atmospheric structures clearly identifiable. Atmospheric physicists can interpret the locations of the impact of each cluster on a specific zone according to atmospheric structures. KMS-L2 does not lead to such an interpretability, because the situations represented are spatially quite smooth. This climatological study illustrates the advantage of using ED as a new approach.
翻訳日:2022-11-23 05:07:59 公開日:2020-06-10
# 機械学習と制御理論

Machine Learning and Control Theory ( http://arxiv.org/abs/2006.05604v1 )

ライセンス: Link先を確認
Alain Bensoussan, Yiqun Li, Dinh Phan Cao Nguyen, Minh-Binh Tran, Sheung Chi Phillip Yam, Xiang Zhou(参考訳) 本稿では,機械学習と制御理論の関係について調査する。 制御理論は機械学習に有用な概念とツールを提供する。 逆に、機械学習は大きな制御問題を解くのに使える。 本稿の第1部では,離散時間制御問題である強化学習とマルコフ決定プロセスとの関係について述べる。 第2部では,教師あり学習の概念と静的最適化との関係を概観する。 教師付き学習を拡張するディープラーニングは、制御問題と見なすことができる。 第3部では,確率勾配降下と平均場理論の関係について述べる。 逆に、第4部と第5部では、確率的制御問題に対する機械学習アプローチをレビューし、決定論的ケースに着目し、より簡単に数値アルゴリズムを説明する。

We survey in this article the connections between Machine Learning and Control Theory. Control Theory provide useful concepts and tools for Machine Learning. Conversely Machine Learning can be used to solve large control problems. In the first part of the paper, we develop the connections between reinforcement learning and Markov Decision Processes, which are discrete time control problems. In the second part, we review the concept of supervised learning and the relation with static optimization. Deep learning which extends supervised learning, can be viewed as a control problem. In the third part, we present the links between stochastic gradient descent and mean-field theory. Conversely, in the fourth and fifth parts, we review machine learning approaches to stochastic control problems, and focus on the deterministic case, to explain, more easily, the numerical algorithms.
翻訳日:2022-11-23 05:07:34 公開日:2020-06-10
# Anytime MiniBatch: オンライン分散最適化におけるストラグラーの爆発

Anytime MiniBatch: Exploiting Stragglers in Online Distributed Optimization ( http://arxiv.org/abs/2006.05752v1 )

ライセンス: Link先を確認
Nuwan Ferdinand, Haider Al-Lawati, Stark C. Draper and Matthew Nokleby(参考訳) 分散最適化は、大規模な機械学習問題を解決する上で不可欠である。 分散最適化手法の広く共有されている特徴は、システムが次のエポックに進む前に、全てのノードが割り当てられたタスクを各計算エポックで完了させることである。 このような設定では、ストラグラーと呼ばれる遅いノードは、進行を大幅に遅くする。 トラグラーの影響を軽減するため,Anytime Minibatchと呼ばれるオンライン分散最適化手法を提案する。 このアプローチでは、すべてのノードに可能な限り多くのデータサンプルの勾配を計算する固定時間を与える。 その結果、ノードごとのミニバッチサイズが変化する。 ワーカーは固定された通信時間を取得して、いくつかのコンセンサスを通じてミニバッチ勾配を平均し、それから2つの平均化によってプリミティブ変数を更新する。 anytime minibatchは、ストラグラーが完了できる作業を無駄にすることなく、ストラグラーがシステムを保持できないようにする。 コンバージェンス解析を行い,壁面の時間特性を解析する。 数値計算の結果,Amazon EC2では最大1.5倍高速であり,計算ノード性能の変動が大きい場合には最大5倍高速であることがわかった。

Distributed optimization is vital in solving large-scale machine learning problems. A widely-shared feature of distributed optimization techniques is the requirement that all nodes complete their assigned tasks in each computational epoch before the system can proceed to the next epoch. In such settings, slow nodes, called stragglers, can greatly slow progress. To mitigate the impact of stragglers, we propose an online distributed optimization method called Anytime Minibatch. In this approach, all nodes are given a fixed time to compute the gradients of as many data samples as possible. The result is a variable per-node minibatch size. Workers then get a fixed communication time to average their minibatch gradients via several rounds of consensus, which are then used to update primal variables via dual averaging. Anytime Minibatch prevents stragglers from holding up the system without wasting the work that stragglers can complete. We present a convergence analysis and analyze the wall time performance. Our numerical results show that our approach is up to 1.5 times faster in Amazon EC2 and it is up to five times faster when there is greater variability in compute node performance.
翻訳日:2022-11-23 05:06:53 公開日:2020-06-10
# 変分オートエンコーダと潜時エネルギーベースモデルの共同訓練

Joint Training of Variational Auto-Encoder and Latent Energy-Based Model ( http://arxiv.org/abs/2006.06059v1 )

ライセンス: Link先を確認
Tian Han, Erik Nijkamp, Linqi Zhou, Bo Pang, Song-Chun Zhu, Ying Nian Wu(参考訳) 本稿では,変分オートエンコーダ(VAE)と潜時エネルギーベースモデル(EBM)を併用した共同学習手法を提案する。 VAEと潜伏ESMの合同訓練は、潜伏ベクトル上の3つの関節分布と画像との間の3つのクルバック・リーバー分岐からなる目的関数に基づいており、目的関数は、変分学習と逆数学習をシームレスに統合するエレガントな対称および反対称な発散三角形である。 この共同トレーニングスキームでは、潜伏ESMはジェネレータモデルへの批判として機能し、VAEのジェネレータモデルと推論モデルは、潜伏ESMの近似合成サンプルおよび推論サンプルとして機能する。 実験の結果,共同訓練はVAEの合成品質を大幅に向上させることがわかった。 また、サンプルからサンプルを検出できるエネルギー関数を学習して異常を検出することもできる。

This paper proposes a joint training method to learn both the variational auto-encoder (VAE) and the latent energy-based model (EBM). The joint training of VAE and latent EBM are based on an objective function that consists of three Kullback-Leibler divergences between three joint distributions on the latent vector and the image, and the objective function is of an elegant symmetric and anti-symmetric form of divergence triangle that seamlessly integrates variational and adversarial learning. In this joint training scheme, the latent EBM serves as a critic of the generator model, while the generator model and the inference model in VAE serve as the approximate synthesis sampler and inference sampler of the latent EBM. Our experiments show that the joint training greatly improves the synthesis quality of the VAE. It also enables learning of an energy function that is capable of detecting out of sample examples for anomaly detection.
翻訳日:2022-11-23 04:57:35 公開日:2020-06-10
# 構成可能なクロスオーバー確率を持つ$(\mu+\lambda)$遺伝的アルゴリズムのベンチマーク

Benchmarking a $(\mu+\lambda)$ Genetic Algorithm with Configurable Crossover Probability ( http://arxiv.org/abs/2006.05889v1 )

ライセンス: Link先を確認
Furong Ye and Hao Wang and Carola Doerr and Thomas B\"ack(参考訳) 遺伝的アルゴリズム (gas) は、突然変異またはランダムに選択された2つの親を組み換えることで子孫を発生させる。 クロスオーバー確率を拡大することにより、完全突然変異のみのアルゴリズムから完全クロスオーバーベースGAへの補間が可能となる。 実証的な方法により,人口規模と交叉確率の相互関係によってパフォーマンスがどう変わるかを分析する。 25個の疑似ボアリーン最適化問題の比較により,複数の簡単な最適化タスクにおけるクロスオーバーベースの構成の利点が明らかになった。 さらに, <fast'' 変異方式は, クロスオーバーと組み合わせた複雑な最適化タスクにおいて, 標準的なビット突然変異よりも優れるが, クロスオーバーの欠如によりさらに悪化する。 次に、よく知られたLeadingOnesベンチマーク問題に関して、クロスオーバーベースの$(\mu+\lambda)$ GAの驚くほど優れたパフォーマンスを詳しく見ていきます。 人口増加に伴い最適クロスオーバー確率が増加することが観測された。 同時に、問題次元の増大とともに減少し、古典的にランタイム分析に適用される漸近的観点では、クロスオーバーの利点が見えないことを示す。 したがって、固定次元に対する数学的調査は、漸近的な性能境界にのみ焦点をあてるときに目に見えない効果を観察するのに役立つと論じる。

We investigate a family of $(\mu+\lambda)$ Genetic Algorithms (GAs) which creates offspring either from mutation or by recombining two randomly chosen parents. By scaling the crossover probability, we can thus interpolate from a fully mutation-only algorithm towards a fully crossover-based GA. We analyze, by empirical means, how the performance depends on the interplay of population size and the crossover probability. Our comparison on 25 pseudo-Boolean optimization problems reveals an advantage of crossover-based configurations on several easy optimization tasks, whereas the picture for more complex optimization problems is rather mixed. Moreover, we observe that the ``fast'' mutation scheme with its are power-law distributed mutation strengths outperforms standard bit mutation on complex optimization tasks when it is combined with crossover, but performs worse in the absence of crossover. We then take a closer look at the surprisingly good performance of the crossover-based $(\mu+\lambda)$ GAs on the well-known LeadingOnes benchmark problem. We observe that the optimal crossover probability increases with increasing population size $\mu$. At the same time, it decreases with increasing problem dimension, indicating that the advantages of the crossover are not visible in the asymptotic view classically applied in runtime analysis. We therefore argue that a mathematical investigation for fixed dimensions might help us observe effects which are not visible when focusing exclusively on asymptotic performance bounds.
翻訳日:2022-11-23 04:57:09 公開日:2020-06-10
# TableQA: テーブル対応SQL生成のための大規模中国語テキスト-SQLデータセット

TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation ( http://arxiv.org/abs/2006.06434v1 )

ライセンス: Link先を確認
Ningyuan Sun, Xuefeng Yang, Yunfeng Liu(参考訳) 近年、ディープニューラルネットワークのようなデータ駆動アプローチで自然言語を対応するSQL(NL2SQL)に解析することが注目されている。 既存のNL2SQLデータセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。 しかし、これらの仮定は、ユーザがテーブル内の同じコンテンツに対して異なる表現を使い、テーブル内のコンテンツの全体像なしでテーブル外の情報をクエリできるため、現実的なシナリオでは失敗する可能性がある。 そこで我々は,64,891の質問と2,311のユニークなSQLクエリからなる中国語の大規模クロスドメイン自然言語からSQLへのデータセットであるTableQAを提案する。 NL2SQLデータセットの消し出しとは異なり、TableQAは、異なる質問やテーブルスキーマのSQLスケルトンだけでなく、条件値のさまざまな式に対しても、適切に一般化する必要がある。 実験の結果、wikisqlの条件値精度95.1%の最先端モデルは、tableqaの条件値精度46.8%と論理フォーム精度43.0%しか得られず、提案されたデータセットの処理が困難で必要であることが示されている。 問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクの精度が51.3%と47.4%、それぞれ4.7%と3.4%向上した。

Parsing natural language to corresponding SQL (NL2SQL) with data driven approaches like deep neural networks attracts much attention in recent years. Existing NL2SQL datasets assume that condition values should appear exactly in natural language questions and the queries are answerable given the table. However, these assumptions may fail in practical scenarios, because user may use different expressions for the same content in the table, and query information outside the table without the full picture of contents in table. Therefore we present TableQA, a large-scale cross-domain Natural Language to SQL dataset in Chinese language consisting 64,891 questions and 20,311 unique SQL queries on over 6,000 tables. Different from exisiting NL2SQL datasets, TableQA requires to generalize well not only to SQL skeletons of different questions and table schemas, but also to the various expressions for condition values. Experiment results show that the state-of-the-art model with 95.1% condition value accuracy on WikiSQL only gets 46.8% condition value accuracy and 43.0% logic form accuracy on TableQA, indicating the proposed dataset is challenging and necessary to handle. Two table-aware approaches are proposed to alleviate the problem, the end-to-end approaches obtains 51.3% and 47.4% accuracy on the condition value and logic form tasks, with improvement of 4.7% and 3.4% respectively.
翻訳日:2022-11-23 04:56:28 公開日:2020-06-10
# submodular maximum coverage問題に対する変分最適化

Variational Optimization for the Submodular Maximum Coverage Problem ( http://arxiv.org/abs/2006.05583v1 )

ライセンス: Link先を確認
Jian Du, Zhigang Hua, Shuang Yang(参考訳) 我々は,広範囲のアプリケーションに関連する問題である \emph{submodular maximum coverage problem} (smcp) について検討する。 我々はネムハウザーの発散に基づくこの問題に対する最初の変分近似を提案し、変分最適化を用いて効率よく解けることを示す。 このアルゴリズムは、(1)変動パラメータを推定してパラメータ化された \emph{modular} 下限を最大化するeステップ、(2)局所近似問題を解くことで解を更新するmステップの2つのステップを交互に行う。 提案手法の性能と曲率依存性の近似因子に関する理論的解析を行い,いくつかの公開データセットといくつかのアプリケーションタスクで実証的に評価した。

We examine the \emph{submodular maximum coverage problem} (SMCP), which is related to a wide range of applications. We provide the first variational approximation for this problem based on the Nemhauser divergence, and show that it can be solved efficiently using variational optimization. The algorithm alternates between two steps: (1) an E step that estimates a variational parameter to maximize a parameterized \emph{modular} lower bound; and (2) an M step that updates the solution by solving the local approximate problem. We provide theoretical analysis on the performance of the proposed approach and its curvature-dependent approximate factor, and empirically evaluate it on a number of public data sets and several application tasks.
翻訳日:2022-11-23 04:56:00 公開日:2020-06-10
# オンポリシー強化学習で何が問題か? 大規模実証研究

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study ( http://arxiv.org/abs/2006.05990v1 )

ライセンス: Link先を確認
Marcin Andrychowicz, Anton Raichuk, Piotr Sta\'nczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, L\'eonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem(参考訳) 近年, オンライン強化学習 (RL) が多種多様な連続制御タスクに適用されている。 RLアルゴリズムは概念的には単純であることが多いが、その最先端の実装は、結果のエージェントの性能に強く影響を与える、低レベルかつ高レベルの多くの決定を下す。 これらの選択は通常、文献で広く議論されることはなく、アルゴリズムとその実装の公開記述に相違が生じている。 これにより、RLの進捗を判断しにくく、全体の進捗を遅くする[Engstrom'20]。 このギャップを埋めるためのステップとして、50以上の‘choices’を統一されたオンポリシーrlフレームワークに実装し、大規模な実証研究でその影響を調査できるようにしました。 複雑度が異なる5つの連続制御環境において,250,000以上のエージェントを訓練し,rlエージェントのオンポリシートレーニングに対する洞察と実践的推奨を提供する。

In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress [Engstrom'20]. As a step towards filling that gap, we implement >50 such ``choices'' in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.
翻訳日:2022-11-23 04:48:27 公開日:2020-06-10
# エントロピー・カントロビッチポテンシャルからの正規化フローの学習

Learning normalizing flows from Entropy-Kantorovich potentials ( http://arxiv.org/abs/2006.06033v1 )

ライセンス: Link先を確認
Chris Finlay, Augusto Gerolin, Adam M Oberman, Aram-Alexandre Pooladian(参考訳) 本研究では,連続正規化フローをスカラーポテンシャル関数の勾配としてキャストする,エントロピー正規化最適輸送を動機とする2つの視点から連続正規化フローを学ぶ問題にアプローチする。 この定式化により、スカラーポテンシャル関数のみからなる双対対象を訓練することができ、トレーニング中の正規化フローを明示的に計算する負担を取り除くことができる。 トレーニング後、正規化フローはポテンシャル関数から容易に回収される。

We approach the problem of learning continuous normalizing flows from a dual perspective motivated by entropy-regularized optimal transport, in which continuous normalizing flows are cast as gradients of scalar potential functions. This formulation allows us to train a dual objective comprised only of the scalar potential functions, and removes the burden of explicitly computing normalizing flows during training. After training, the normalizing flow is easily recovered from the potential functions.
翻訳日:2022-11-23 04:48:13 公開日:2020-06-10
# ニューラルネットワークの最大相互情報容量について

On the Maximum Mutual Information Capacity of Neural Architectures ( http://arxiv.org/abs/2006.06037v1 )

ライセンス: Link先を確認
Brandon Foggo and Nanpeng Yu(参考訳) ニューラルネットワークアーキテクチャの幅広いファミリーに対して,最大相互情報のクローズドフォーム表現 - トレーニングによって取得可能な最大値$i(x;z)$ - を導出する。 この量は、機械学習理論と実践のいくつかの分野に必須である。 定量的には、これらの族に対する最大相互情報はすべて単一のキャッチオール公式の一般化によるものである。 定性的には、アーキテクチャの最大相互情報は、ネットワークの最小層の幅(フレーズの異なる意味での「情報のボトルネック」)と、アーキテクチャによってキャプチャされた任意の統計的不変性(英語版)に最も強く影響される。

We derive the closed-form expression of the maximum mutual information - the maximum value of $I(X;Z)$ obtainable via training - for a broad family of neural network architectures. The quantity is essential to several branches of machine learning theory and practice. Quantitatively, we show that the maximum mutual information for these families all stem from generalizations of a single catch-all formula. Qualitatively, we show that the maximum mutual information of an architecture is most strongly influenced by the width of the smallest layer of the network - the "information bottleneck" in a different sense of the phrase, and by any statistical invariances captured by the architecture.
翻訳日:2022-11-23 04:48:04 公開日:2020-06-10
# ワッサーシュタイン計量によるロバスト分布最適化を用いたロバスト化多変量回帰と分類

Robustified Multivariate Regression and Classification Using Distributionally Robust Optimization under the Wasserstein Metric ( http://arxiv.org/abs/2006.06090v1 )

ライセンス: Link先を確認
Ruidi Chen and Ioannis Ch. Paschalidis(参考訳) 我々は,複数変数線形回帰(MLR)と多クラスロジスティック回帰(MLG)のための分散ロバスト最適化(DRO)の定式化を開発する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 実験の結果,mlgでは予測誤差を7%,mlrでは37%,mlgでは100%改善した。

We develop Distributionally Robust Optimization (DRO) formulations for Multivariate Linear Regression (MLR) and Multiclass Logistic Regression (MLG) when both the covariates and responses/labels may be contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. Experimental results show that our approach improves the predictive error by 7% -- 37% for MLR, and a metric of robustness by 100% for MLG.
翻訳日:2022-11-23 04:47:28 公開日:2020-06-10
# 分布ロバスト最適化を用いたロバスト群選択

Robust Grouped Variable Selection Using Distributionally Robust Optimization ( http://arxiv.org/abs/2006.06094v1 )

ライセンス: Link先を確認
Ruidi Chen and Ioannis Ch. Paschalidis(参考訳) 本稿では,線形回帰問題と分類問題の両方に対するデータに対する摂動の下で群付き変数を選択するための不確実性セットを用いた分布ロバスト最適化(DRO)の定式化を提案する。 結果として得られたモデルは、GLASSO(Grouped Least Absolute Shrinkage and Selection Operator)アルゴリズムに対してロバストネスの説明を提供し、ロバストネスと正規化の関係を強調する。 我々は、サンプルの損失と推定バイアスの確率的境界を証明し、推定器のグルーピング効果を確立し、同じ群の係数が共変量間のサンプル相関と同じ値に収束することを示す。 そこで本研究では,ガウス類似度関数を用いたスペクトルクラスタリングアルゴリズムを用いて,予測器のグルーピングを行い,グルーピング構造を事前に知ることなく適用する手法を提案する。 提案手法を代替品の配列と比較し, 合成データと手術関連医療記録の実際の大規模データセットの両方について広範な数値計算結果を提供し, グループレベルでのスパーシティを奨励し, 異常者の存在下でのより良い予測と推定性能を達成することができる, 解釈可能で控えめなモデルを作成した。

We propose a Distributionally Robust Optimization (DRO) formulation with a Wasserstein-based uncertainty set for selecting grouped variables under perturbations on the data for both linear regression and classification problems. The resulting model offers robustness explanations for Grouped Least Absolute Shrinkage and Selection Operator (GLASSO) algorithms and highlights the connection between robustness and regularization. We prove probabilistic bounds on the out-of-sample loss and the estimation bias, and establish the grouping effect of our estimator, showing that coefficients in the same group converge to the same value as the sample correlation between covariates approaches 1. Based on this result, we propose to use the spectral clustering algorithm with the Gaussian similarity function to perform grouping on the predictors, which makes our approach applicable without knowing the grouping structure a priori. We compare our approach to an array of alternatives and provide extensive numerical results on both synthetic data and a real large dataset of surgery-related medical records, showing that our formulation produces an interpretable and parsimonious model that encourages sparsity at a group level and is able to achieve better prediction and estimation performance in the presence of outliers.
翻訳日:2022-11-23 04:47:13 公開日:2020-06-10
# ギャップ依存型サンプル複素数をもつマルコフ決定過程の計画

Planning in Markov Decision Processes with Gap-Dependent Sample Complexity ( http://arxiv.org/abs/2006.05879v1 )

ライセンス: Link先を確認
Anders Jonsson, Emilie Kaufmann, Pierre M\'enard, Omar Darwiche Domingues, Edouard Leurent, Michal Valko(参考訳) MDP-GapEは,遷移が有限であるマルコフ決定過程において,新しい軌道に基づくモンテカルロ木探索アルゴリズムを提案する。 我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。 この問題に依存したサンプル複雑性の結果は、探索中に訪れた状態-作用対の準最適ギャップによって表される。 実験の結果,mdp-gapeは,固定信頼設定におけるサンプル複雑性を保証した他のアルゴリズムとは対照的に,理論上も有効であることが判明した。

We propose MDP-GapE, a new trajectory-based Monte-Carlo Tree Search algorithm for planning in a Markov Decision Process in which transitions have a finite support. We prove an upper bound on the number of calls to the generative models needed for MDP-GapE to identify a near-optimal action with high probability. This problem-dependent sample complexity result is expressed in terms of the sub-optimality gaps of the state-action pairs that are visited during exploration. Our experiments reveal that MDP-GapE is also effective in practice, in contrast with other algorithms with sample complexity guarantees in the fixed-confidence setting, that are mostly theoretical.
翻訳日:2022-11-23 04:39:33 公開日:2020-06-10
# スキップ接続は、ニューラルネットワークの損失の状況を変えることができるか?

Is the Skip Connection Provable to Reform the Neural Network Loss Landscape? ( http://arxiv.org/abs/2006.05939v1 )

ライセンス: Link先を確認
Lifu Wang, Bo Shen, Ning Zhao, Zhiyuan Zhang(参考訳) 残差ネットワークは、今やディープラーニングの最も効果的な構造のひとつであり、スキップ接続を利用して``guarantee'のパフォーマンスは悪化しない。 しかし、ニューラルネットワークの非凸性は、非線形性が多くの局所的なミニマを生み出すため、スキップ接続が学習能力を向上するかどうかをはっきりしない。 以前の『cite{freeman2016トポロジー』では、非凸性にもかかわらず、2層ReLUネットワークのロスランドスケープは、隠されたノードの$m$が非常に大きいときに良い特性を持つことが示された。 In this paper, we follow this line to study the topology (sub-level sets) of the loss landscape of deep ReLU neural networks with a skip connection and theoretically prove that the skip connection network inherits the good properties of the two-layer network and skip connections can help to control the connectedness of the sub-level sets, such that any local minima worse than the global minima of some two-layer ReLU network will be very ``shallow". The ``depth" of these local minima are at most $O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$. これは、ディープラーニングにおけるスキップ接続の有効性に関する理論的説明を提供する。

The residual network is now one of the most effective structures in deep learning, which utilizes the skip connections to ``guarantee" the performance will not get worse. However, the non-convexity of the neural network makes it unclear whether the skip connections do provably improve the learning ability since the nonlinearity may create many local minima. In some previous works \cite{freeman2016topology}, it is shown that despite the non-convexity, the loss landscape of the two-layer ReLU network has good properties when the number $m$ of hidden nodes is very large. In this paper, we follow this line to study the topology (sub-level sets) of the loss landscape of deep ReLU neural networks with a skip connection and theoretically prove that the skip connection network inherits the good properties of the two-layer network and skip connections can help to control the connectedness of the sub-level sets, such that any local minima worse than the global minima of some two-layer ReLU network will be very ``shallow". The ``depth" of these local minima are at most $O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$. This provides a theoretical explanation for the effectiveness of the skip connection in deep learning.
翻訳日:2022-11-23 04:38:14 公開日:2020-06-10
# モデルリダクションのための多層埋め込みによるトレーニング

Training with Multi-Layer Embeddings for Model Reduction ( http://arxiv.org/abs/2006.05623v1 )

ライセンス: Link先を確認
Benjamin Ghaemmaghami, Zihao Deng, Benjamin Cho, Leo Orshansky, Ashish Kumar Singh, Mattan Erez, and Michael Orshansky(参考訳) 現代のレコメンデーションシステムは、カテゴリの特徴の実際の価値埋め込みに依存している。 埋め込みベクトルの次元を増加させることでモデルの精度は向上するが、モデルのサイズには高いコストがかかる。 モデルサイズトレードオフよりも優れた埋め込み精度を導出するために, 線形層による埋め込みを訓練する多層埋め込み訓練(MLET)アーキテクチャを導入する。 本手法は, 線形層を分解し, 単一の線形層に対して優れた埋め込みを実現できることに基づく。 本稿では,2層方式の解析と実装に焦点をあてる。 線形ニューラルネットワークにおけるバックプロパゲーションのダイナミクスの最近の結果に言及し、より優れた多層埋め込みを実現する能力について説明する。 隠れた層の幅が最終埋め込み(d)の幅よりもはるかに大きい場合において、実質的な利点が得られることを示す。 重要なことに、トレーニングの結論として、2層解を単層解に変換する: 結果として、推論時間モデルのサイズはdとしてスケールする。 我々は、FacebookのPyTorchベースのオープンソースのDeep Learning Recommendation ModelでMLETスキームをプロトタイプする。 その結果,dを4~8倍削減でき,メモリフットプリントが改善され,モデルの精度が向上した。 実験は2つの公開クリックスルーレート予測ベンチマーク(Criteo-KaggleとAvazu)で実施されている。 MLETのランタイムコストは平均25%である。

Modern recommendation systems rely on real-valued embeddings of categorical features. Increasing the dimension of embedding vectors improves model accuracy but comes at a high cost to model size. We introduce a multi-layer embedding training (MLET) architecture that trains embeddings via a sequence of linear layers to derive superior embedding accuracy vs. model size trade-off. Our approach is fundamentally based on the ability of factorized linear layers to produce superior embeddings to that of a single linear layer. We focus on the analysis and implementation of a two-layer scheme. Harnessing the recent results in dynamics of backpropagation in linear neural networks, we explain the ability to get superior multi-layer embeddings via their tendency to have lower effective rank. We show that substantial advantages are obtained in the regime where the width of the hidden layer is much larger than that of the final embedding (d). Crucially, at conclusion of training, we convert the two-layer solution into a single-layer one: as a result, the inference-time model size scales as d. We prototype the MLET scheme within Facebook's PyTorch-based open-source Deep Learning Recommendation Model. We show that it allows reducing d by 4-8X, with a corresponding improvement in memory footprint, at given model accuracy. The experiments are run on two publicly available click-through-rate prediction benchmarks (Criteo-Kaggle and Avazu). The runtime cost of MLET is 25%, on average.
翻訳日:2022-11-23 04:32:03 公開日:2020-06-10
# 低ランク非巡回グラフと因果構造学習

Low Rank Directed Acyclic Graphs and Causal Structure Learning ( http://arxiv.org/abs/2006.05691v1 )

ライセンス: Link先を確認
Zhuangyan Fang, Shengyu Zhu, Jiji Zhang, Yue Liu, Zhitang Chen, Yangbo He(参考訳) 近年のいくつかの重要な進歩にもかかわらず、有向非巡回グラフ(DAG)で表される学習因果構造は、学習すべきグラフがスパースでない場合、高次元設定において難しい課題である。 特に、連続最適化問題としての最近の構造学習の定式化は、従来の組合せ的定式化よりもかなりのアドバンテージがあることが証明されたが、対象グラフが比較的大きく密度が高い場合、結果として得られるアルゴリズムの性能は依然として期待されている。 本稿では,DAG因果モデルの(重み付けされた)隣接行列に関する低階仮定を利用して,この問題を軽減する新しい手法を提案する。 低ランクの仮定に対して解釈可能なグラフィカル条件を関連づけた有用な結果をいくつか確立し,この仮定を生かした因果構造学習に既存の手法を適用する方法を示す。 また、低ランクアルゴリズム、特にスパースでないグラフの有用性に関する実証的な証拠も提供しています。 低ランク条件を満たすときだけでなく、ランダムに生成されたスケールフリーグラフのパフォーマンスも、真のランクが想定されるほど低くないにもかかわらず、非常に競争力がある。

Despite several important advances in recent years, learning causal structures represented by directed acyclic graphs (DAGs) remains a challenging task in high dimensional settings when the graphs to be learned are not sparse. In particular, the recent formulation of structure learning as a continuous optimization problem proved to have considerable advantages over the traditional combinatorial formulation, but the performance of the resulting algorithms is still wanting when the target graph is relatively large and dense. In this paper we propose a novel approach to mitigate this problem, by exploiting a low rank assumption regarding the (weighted) adjacency matrix of a DAG causal model. We establish several useful results relating interpretable graphical conditions to the low rank assumption, and show how to adapt existing methods for causal structure learning to take advantage of this assumption. We also provide empirical evidence for the utility of our low rank algorithms, especially on graphs that are not sparse. Not only do they outperform state-of-the-art algorithms when the low rank condition is satisfied, the performance on randomly generated scale-free graphs is also very competitive even though the true ranks may not be as low as is assumed.
翻訳日:2022-11-23 04:31:02 公開日:2020-06-10
# 深層学習における大規模バッチトレーニングのための外挿法

Extrapolation for Large-batch Training in Deep Learning ( http://arxiv.org/abs/2006.05720v1 )

ライセンス: Link先を確認
Tao Lin, Lingjing Kong, Sebastian U. Stich, Martin Jaggi(参考訳) ディープラーニングネットワークは、訓練データのごくわずかな部分の勾配を推定することによってモデルパラメータを反復的に改善するSGD(Stochastic Gradient Descent)法によって訓練される。 トレーニング時間を改善するためのトレーニングデータのかなりの部分にバッチサイズを拡大する際に直面する大きな障害は、パフォーマンスの持続的劣化(一般化ギャップ)である。 この問題に対処するため,最近の研究では,確率勾配を計算する際にモデルパラメータに小さな摂動を加え,平滑化効果による一般化性能の向上を報告している。 しかし、このアプローチはよく理解されておらず、しばしばモデル固有のノイズと微調整を必要とする。 これらの欠点を軽減するため,計算効率のよい外挿法(外挿法)を用いて最適化軌道の安定化を図ることを提案する。 この原理に基づくアプローチは最適化の観点から十分に基礎を置き、我々が提案する一連のバリエーションを統一したフレームワークでカバーできることを示す。 本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。 様々な実験において,SOTAの精度を達成または超過しながら,従来よりもはるかに大きなバッチサイズにスケールできることを示した。

Deep learning networks are typically trained by Stochastic Gradient Descent (SGD) methods that iteratively improve the model parameters by estimating a gradient on a very small fraction of the training data. A major roadblock faced when increasing the batch size to a substantial fraction of the training data for improving training time is the persistent degradation in performance (generalization gap). To address this issue, recent work propose to add small perturbations to the model parameters when computing the stochastic gradients and report improved generalization performance due to smoothing effects. However, this approach is poorly understood; it requires often model-specific noise and fine-tuning. To alleviate these drawbacks, we propose to use instead computationally efficient extrapolation (extragradient) to stabilize the optimization trajectory while still benefiting from smoothing to avoid sharp minima. This principled approach is well grounded from an optimization perspective and we show that a host of variations can be covered in a unified framework that we propose. We prove the convergence of this novel scheme and rigorously evaluate its empirical performance on ResNet, LSTM, and Transformer. We demonstrate that in a variety of experiments the scheme allows scaling to much larger batch sizes than before whilst reaching or surpassing SOTA accuracy.
翻訳日:2022-11-23 04:30:17 公開日:2020-06-10
# 干渉グラフ変換:深部教師なしグラフ表現

Interferometric Graph Transform: a Deep Unsupervised Graph Representation ( http://arxiv.org/abs/2006.05722v1 )

ライセンス: Link先を確認
Edouard Oyallon (MLIA)(参考訳) 本稿では,グラフ表現を構築するための深い教師なしグラフ畳み込みニューラルネットワークのクラスであるinterferometric graph transform (igt)を提案する。 最初のコントリビューションは、ユークリッドフーリエ変換の一般化から得られる一般化された複素数値スペクトルグラフアーキテクチャを提案することである。 我々の学習した表現は、新しい欲望のあるコンケーブの目的により、判別的特徴と不変特徴の両方から成り立っている。 実験の結果,本手法はスペクトル領域のトポロジを利用しており,これは通常スペクトル手法の欠陥であり,特に視覚タスクの解析演算子を復元する手法であることがわかった。 我々は,画像分類 (MNIST, CIFAR-10), コミュニティ検出 (認証, Facebook グラフ), 3Dスケルトンビデオ (SBU, NTU) からの行動認識 (SBU, NTU) などの課題に対して,スペクトルグラフの教師なし設定において,新たな最先端性を示すアルゴリズムを検証した。

We propose the Interferometric Graph Transform (IGT), which is a new class of deep unsupervised graph convolutional neural network for building graph representations. Our first contribution is to propose a generic, complex-valued spectral graph architecture obtained from a generalization of the Euclidean Fourier transform. We show that our learned representation consists of both discriminative and invariant features, thanks to a novel greedy concave objective. From our experiments, we conclude that our learning procedure exploits the topology of the spectral domain, which is normally a flaw of spectral methods, and in particular our method can recover an analytic operator for vision tasks. We test our algorithm on various and challenging tasks such as image classification (MNIST, CIFAR-10), community detection (Authorship, Facebook graph) and action recognition from 3D skeletons videos (SBU, NTU), exhibiting a new state-of-the-art in spectral graph unsupervised settings.
翻訳日:2022-11-23 04:29:56 公開日:2020-06-10
# 関係領域に対する適合Q-Learning

Fitted Q-Learning for Relational Domains ( http://arxiv.org/abs/2006.05595v1 )

ライセンス: Link先を確認
Srijita Das, Sriraam Natarajan, Kaushik Roy, Ronald Parr and Kristian Kersting(参考訳) 関係領域における近似動的プログラミングの問題点を考察する。 提案条件下での適合Q-ラーニング手法の成功に触発されて,値関数とベルマン残差を表現した最初の関係適合Q-ラーニングアルゴリズムを開発した。 Q-関数に適合すると、ベルマン作用素の2つのステップ、すなわち、勾配ブースティング手法を用いて、応用と射影のステップが実行可能であることを示す。 提案フレームワークは、ドメインモデルを用いることなく、トレーニングトラジェクトリを少なくすることなく、標準ドメインで合理的に機能する。

We consider the problem of Approximate Dynamic Programming in relational domains. Inspired by the success of fitted Q-learning methods in propositional settings, we develop the first relational fitted Q-learning algorithms by representing the value function and Bellman residuals. When we fit the Q-functions, we show how the two steps of Bellman operator; application and projection steps can be performed using a gradient-boosting technique. Our proposed framework performs reasonably well on standard domains without using domain models and using fewer training trajectories.
翻訳日:2022-11-23 04:23:22 公開日:2020-06-10
# グラフを用いた対比多視点表現学習

Contrastive Multi-View Representation Learning on Graphs ( http://arxiv.org/abs/2006.05582v1 )

ライセンス: Link先を確認
Kaveh Hassani and Amir Hosein Khasahmadi(参考訳) グラフの構造的ビューを対比することにより,ノードとグラフレベルの表現を学習するための自己教師型アプローチを導入する。 視覚表現学習とは異なり,2 以上のビュー数の増加やマルチスケールエンコーディングでは性能が向上せず,一階近傍からのエンコーディングとグラフ拡散を対比することにより,最高の性能が得られることを示す。 線形評価プロトコルを用いて,8ノード中8ノードの自己教師型学習とグラフ分類ベンチマークを新たに実現した。 例えば、cora (node) と reddit-binary (graph) の分類ベンチマークでは、86.8% と 84.5% の精度を達成しています。 教師付きベースラインと比較すると、我々のアプローチは8つのベンチマークのうち4つで優れています。 ソースコード: https://github.com/kavehhassani/mvgrl

We introduce a self-supervised approach for learning node and graph level representations by contrasting structural views of graphs. We show that unlike visual representation learning, increasing the number of views to more than two or contrasting multi-scale encodings do not improve performance, and the best performance is achieved by contrasting encodings from first-order neighbors and a graph diffusion. We achieve new state-of-the-art results in self-supervised learning on 8 out of 8 node and graph classification benchmarks under the linear evaluation protocol. For example, on Cora (node) and Reddit-Binary (graph) classification benchmarks, we achieve 86.8% and 84.5% accuracy, which are 5.5% and 2.4% relative improvements over previous state-of-the-art. When compared to supervised baselines, our approach outperforms them in 4 out of 8 benchmarks. Source code is released at: https://github.com/kavehhassani/mvgrl
翻訳日:2022-11-23 04:22:20 公開日:2020-06-10
# 樹木構造イジングモデルのロバスト推定

Robust Estimation of Tree Structured Ising Models ( http://arxiv.org/abs/2006.05601v1 )

ライセンス: Link先を確認
Ashish Katiyar, Vatsal Shah, Constantine Caramanis(参考訳) 異なる確率変数の符号が独立に反転し、おそらく不平等で未知の確率を持つ場合、イジングモデルを学ぶタスクを考える。 本稿では,木構造イジングモデルのロバストな推定問題に焦点をあてる。 追加のサイド情報の仮定がなければ、これはオープンな問題です。 この問題はまず同定不能であることが証明されるが、この識別不能性は葉ノードが隣接ノードとの位置を交換することによって形成される木の小さな同値類に限られる。 次に,ノード数と多項式実行時複雑性における対数的サンプル複雑性の問題を解くアルゴリズムを提案する。 最後に,本アルゴリズムが基礎となる同値クラスを正しくリカバリするのに対し,既存のアルゴリズムは提案手法では本質的に頑健ではないことを実証的に示す。

We consider the task of learning Ising models when the signs of different random variables are flipped independently with possibly unequal, unknown probabilities. In this paper, we focus on the problem of robust estimation of tree-structured Ising models. Without any additional assumption of side information, this is an open problem. We first prove that this problem is unidentifiable, however, this unidentifiability is limited to a small equivalence class of trees formed by leaf nodes exchanging positions with their neighbors. Next, we propose an algorithm to solve the above problem with logarithmic sample complexity in the number of nodes and polynomial run-time complexity. Lastly, we empirically demonstrate that, as expected, existing algorithms are not inherently robust in the proposed setting whereas our algorithm correctly recovers the underlying equivalence class.
翻訳日:2022-11-23 04:21:39 公開日:2020-06-10
# 大治療空間における因果推論に対する後悔の最小化

Regret Minimization for Causal Inference on Large Treatment Space ( http://arxiv.org/abs/2006.05616v1 )

ライセンス: Link先を確認
Akira Tanimoto, Tomoya Sakai, Takashi Takenouchi, Hisashi Kashima(参考訳) どのアクション(処理)がより良い結果をもたらすかを予測することは、意思決定支援システムにおける中心的なタスクである。 実環境下で予測モデルを構築するためには,偏りのある観測データから学ぶことが,ランダム化制御試験(rct)データの欠如による重要な課題である。 このような偏りのある観察データを扱うために、近年の因果推論と反ファクト機械学習の取り組みは、二元的行動空間における潜在的な結果、すなわち個々の治療効果の差を偏りなく推定することに焦点を当てている。 しかし、大きな行動空間(例えば、患者のための薬の適切な組み合わせの選択)に関しては、潜在的な結果の回帰精度は、適切な意思決定性能を達成するにはもはや不十分である。 これは、大きなアクション空間における平均的精度が、決定全体を誤解させる可能性のある単一の潜在的結果誤推定の非存在を保証しないためである。 提案した損失は, 個々の目標に対して比較的良好な動作であるか否かの分類誤差を最小限に抑え, 決定性能をさらに向上させる。 また、ネットワークアーキテクチャと、個々の特徴だけでなく、大きな動作空間におけるより良い一般化のために偏りのある動作から偏りのある表現を抽出する正規化子を提案する。 合成および半合成データセットに関する広範な実験は、大規模組合せ作用空間に対するこの手法の優越性を示している。

Predicting which action (treatment) will lead to a better outcome is a central task in decision support systems. To build a prediction model in real situations, learning from biased observational data is a critical issue due to the lack of randomized controlled trial (RCT) data. To handle such biased observational data, recent efforts in causal inference and counterfactual machine learning have focused on debiased estimation of the potential outcomes on a binary action space and the difference between them, namely, the individual treatment effect. When it comes to a large action space (e.g., selecting an appropriate combination of medicines for a patient), however, the regression accuracy of the potential outcomes is no longer sufficient in practical terms to achieve a good decision-making performance. This is because the mean accuracy on the large action space does not guarantee the nonexistence of a single potential outcome misestimation that might mislead the whole decision. Our proposed loss minimizes a classification error of whether or not the action is relatively good for the individual target among all feasible actions, which further improves the decision-making performance, as we prove. We also propose a network architecture and a regularizer that extracts a debiased representation not only from the individual feature but also from the biased action for better generalization in large action spaces. Extensive experiments on synthetic and semi-synthetic datasets demonstrate the superiority of our method for large combinatorial action spaces.
翻訳日:2022-11-23 04:20:59 公開日:2020-06-10
# フレキシブルアクティベーション関数によるニューラルネットワークのスケーラブル部分説明可能性

Scalable Partial Explainability in Neural Networks via Flexible Activation Functions ( http://arxiv.org/abs/2006.06057v1 )

ライセンス: Link先を確認
Schyler C. Sun, Chen Li, Zhuangkun Wei, Antonios Tsourdos, Weisi Guo(参考訳) ブラックボックスのディープラーニングアルゴリズムにおける透明性の実現は、まだ未解決の課題である。 ディープニューラルネットワーク(NN)によって与えられる高次元の特徴と決定は、そのメカニズムを公開するために新しいアルゴリズムと方法を必要とする。 現在の最先端NN解釈手法(例えば、Saliency map、DeepLIFT、LIMEなど)は、NNの構造や操作自体よりも、NN出力と入力との直接的な関係に重点を置いている。 現在のディープNN操作では、ニューロンが活性化機能を固定する正確な役割について不確実性がある。 本稿では,スケーラブルなトポロジの下でのアクティベーション関数(AF)の役割を象徴的に説明することにより,部分的に説明可能な学習モデルを実現する。 これは、KST(Kolmogorov-Arnold Superposition Theorem)に基づいて、新しいスケーラブルNNトポロジー内に位置する適応ガウス過程(GP)としてAFをモデル化することで実現される。 このスケーラブルNNアーキテクチャでは、AFは制御点間のGP補間によって生成され、勾配勾配によるバックプロパゲーション手順で調整することができる。 制御点はAFの局所的および大域的調整可能性のコアイネーブルとして機能し、GP補間は過度な適合を避けるために内在的自己相関を制約する。 線形KSTトポロジースケーリングでは,NNの表現力と解釈の複雑さの間にトレードオフが存在することを示す。 そこで本研究では,銀行券認証のバイナリ分類データセットについて事例研究を行う。 入力と出力のマッピング関係を定量的に定性的に調べることで,各1次元属性に対する解釈を提供することができる。 これらの初期の結果は、我々のモデルがディープニューラルネットワークの最終解釈層として機能する可能性を示唆している。

Achieving transparency in black-box deep learning algorithms is still an open challenge. High dimensional features and decisions given by deep neural networks (NN) require new algorithms and methods to expose its mechanisms. Current state-of-the-art NN interpretation methods (e.g. Saliency maps, DeepLIFT, LIME, etc.) focus more on the direct relationship between NN outputs and inputs rather than the NN structure and operations itself. In current deep NN operations, there is uncertainty over the exact role played by neurons with fixed activation functions. In this paper, we achieve partially explainable learning model by symbolically explaining the role of activation functions (AF) under a scalable topology. This is carried out by modeling the AFs as adaptive Gaussian Processes (GP), which sit within a novel scalable NN topology, based on the Kolmogorov-Arnold Superposition Theorem (KST). In this scalable NN architecture, the AFs are generated by GP interpolation between control points and can thus be tuned during the back-propagation procedure via gradient descent. The control points act as the core enabler to both local and global adjustability of AF, where the GP interpolation constrains the intrinsic autocorrelation to avoid over-fitting. We show that there exists a trade-off between the NN's expressive power and interpretation complexity, under linear KST topology scaling. To demonstrate this, we perform a case study on a binary classification dataset of banknote authentication. By quantitatively and qualitatively investigating the mapping relationship between inputs and output, our explainable model can provide interpretation over each of the one-dimensional attributes. These early results suggest that our model has the potential to act as the final interpretation layer for deep neural networks.
翻訳日:2022-11-23 04:13:58 公開日:2020-06-10
# 決定論的ガウス平均ニューラルネットワーク

Deterministic Gaussian Averaged Neural Networks ( http://arxiv.org/abs/2006.06061v1 )

ライセンス: Link先を確認
Ryan Campbell, Chris Finlay, Adam M Oberman(参考訳) 本稿では,回帰と分類に用いられるニューラルネットワークのガウス平均を計算する決定論的手法を提案する。 本手法は,特定の正規化損失を伴うトレーニングとガウス平均の期待値との等価性に基づく。 この等価性を利用して、クリーンなデータでうまく機能するが、敵の摂動に対して堅牢でないモデルを認証する。 本手法は,確率的平滑化法のような既知の確率的手法に匹敵するものの,推論中に1つのモデル評価しか必要としない。

We present a deterministic method to compute the Gaussian average of neural networks used in regression and classification. Our method is based on an equivalence between training with a particular regularized loss, and the expected values of Gaussian averages. We use this equivalence to certify models which perform well on clean data but are not robust to adversarial perturbations. In terms of certified accuracy and adversarial robustness, our method is comparable to known stochastic methods such as randomized smoothing, but requires only a single model evaluation during inference.
翻訳日:2022-11-23 04:13:00 公開日:2020-06-10
# NSF Future Directions Workshop, toward User-Oriented Agents: Research Directions and Challenges 参加報告

Report from the NSF Future Directions Workshop, Toward User-Oriented Agents: Research Directions and Challenges ( http://arxiv.org/abs/2006.06026v1 )

ライセンス: Link先を確認
Maxine Eskenazi, Tiancheng Zhao(参考訳) このUSERワークショップは、急成長する知的エージェント研究コミュニティのための将来の研究方向性を定義し、それらを国立科学財団に伝えることを目標に招集された。 2019年10月24日と25日にペンシルベニア州ピッツバーグで開催され、National Science Foundation Grant Number IIS-1934222によって後援された。 この文書で示される意見、発見、結論、将来の方向性は著者のものであり、必ずしも国立科学財団の見解を反映していない。 27名の参加者が個人研究の関心と個人研究の目標を提示した。 その後のブレイクアウトセッションでは、参加者は知的エージェントのドメイン内の主な研究領域を定義し、この分野の各分野の研究が行うべき主要な今後の方向性について論じた。

This USER Workshop was convened with the goal of defining future research directions for the burgeoning intelligent agent research community and to communicate them to the National Science Foundation. It took place in Pittsburgh Pennsylvania on October 24 and 25, 2019 and was sponsored by National Science Foundation Grant Number IIS-1934222. Any opinions, findings and conclusions or future directions expressed in this document are those of the authors and do not necessarily reflect the views of the National Science Foundation. The 27 participants presented their individual research interests and their personal research goals. In the breakout sessions that followed, the participants defined the main research areas within the domain of intelligent agents and they discussed the major future directions that the research in each area of this domain should take
翻訳日:2022-11-23 04:12:48 公開日:2020-06-10
# 遅延依存伝達とラベル付きタスク適応投影ネットワークを用いたショットスロットタギング

Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network ( http://arxiv.org/abs/2006.05702v1 )

ライセンス: Link先を確認
Yutai Hou, Wanxiang Che, Yongkui Lai, Zhihan Zhou, Yijia Liu, Han Liu, Ting Liu(参考訳) 本稿では,数個のラベル付きサポート文(すなわち,少数ショット)でスロットタグ付けを行う。 ラベル間の依存関係をモデル化することを要求する他のいくつかのショット分類問題と比較すると、タグ付けはユニークな課題に直面している。 しかし、ラベルセットの不一致のため、事前に学習したラベル依存を未認識のドメインに適用することは困難である。 そこで我々は,条件付き確率場 (crf) に,抽象ラベル依存パターンを遷移スコアとして転送するために,崩壊した依存性伝達機構を導入する。 少数ショット設定では、各ラベルの表現と単語の類似性としてCRFの発光スコアを算出することができる。 このような類似性を計算するために,ラベル名セマンティクスをラベル表現に活用して,最先端の複数ショット分類モデルであるTapNetに基づくラベル付きタスク適応プロジェクションネットワーク(L-TapNet)を提案する。 実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の学習ベースラインを著しく上回ることがわかった。

In this paper, we explore the slot tagging with only a few labeled support sentences (a.k.a. few-shot). Few-shot slot tagging faces a unique challenge compared to the other few-shot classification problems as it calls for modeling the dependencies between labels. But it is hard to apply previously learned label dependencies to an unseen domain, due to the discrepancy of label sets. To tackle this, we introduce a collapsed dependency transfer mechanism into the conditional random field (CRF) to transfer abstract label dependency patterns as transition scores. In the few-shot setting, the emission score of CRF can be calculated as a word's similarity to the representation of each label. To calculate such similarity, we propose a Label-enhanced Task-Adaptive Projection Network (L-TapNet) based on the state-of-the-art few-shot classification model -- TapNet, by leveraging label name semantics in representing labels. Experimental results show that our model significantly outperforms the strongest few-shot learning baseline by 14.64 F1 scores in the one-shot setting.
翻訳日:2022-11-23 04:11:55 公開日:2020-06-10
# 性別が危険か? MuST-SHEコーパスにおける音声翻訳技術の評価

Gender in Danger? Evaluating Speech Translation Technology on the MuST-SHE Corpus ( http://arxiv.org/abs/2006.05754v1 )

ライセンス: Link先を確認
Luisa Bentivogli and Beatrice Savoldi and Matteo Negri and Mattia Antonino Di Gangi and Roldano Cattoni and Marco Turchi(参考訳) 英語のような生産的な文法的性別のない言語からジェンダーマーク付き言語への翻訳は、機械にとってよく知られた困難である。 この難しさは、モデルが構築されているトレーニングデータが典型的に自然言語の対称性を反映しているという事実による。 テキストデータで排他的に入力される機械翻訳は、入力文が参照された人間の性同一性に関する手がかりを常に含んでいないという事実によって本質的に制約される。 しかし、入力が音声信号である音声翻訳ではどうなるのか? オーディオは性別バイアスを減らすために追加情報を提供できるか? 音声翻訳におけるジェンダーバイアスに関する最初の徹底的な調査について述べる。 一 将来の研究に有用なベンチマークのリリース、及び 二 二つの言語方向(英語・イタリア語/フランス語)の異なる技術(カスケード及びエンドツーエンド)の比較

Translating from languages without productive grammatical gender like English into gender-marked languages is a well-known difficulty for machines. This difficulty is also due to the fact that the training data on which models are built typically reflect the asymmetries of natural languages, gender bias included. Exclusively fed with textual data, machine translation is intrinsically constrained by the fact that the input sentence does not always contain clues about the gender identity of the referred human entities. But what happens with speech translation, where the input is an audio signal? Can audio provide additional information to reduce gender bias? We present the first thorough investigation of gender bias in speech translation, contributing with: i) the release of a benchmark useful for future studies, and ii) the comparison of different technologies (cascade and end-to-end) on two language directions (English-Italian/French).
翻訳日:2022-11-23 04:11:08 公開日:2020-06-10
# 交差点における運転意図予測のための注意機構を用いた深層学習

Deep Learning with Attention Mechanism for Predicting Driver Intention at Intersection ( http://arxiv.org/abs/2006.05918v1 )

ライセンス: Link先を確認
Abenezer Girma, Seifemichael Amsalu, Abrham Workineh, Mubbashar Khan, Abdollah Homaifar(参考訳) 本稿では,道路交差点付近での運転者の意図予測を提案する。 提案手法では,HSS(Hybrid-state System)フレームワークに基づく注目機構モデルを備えた,双方向長短期記憶(LSTM)を用いる。 交差点は交通事故の主な原因の1つと考えられているため、交差点でのドライバーの意図を予測することは非常に重要である。 本手法では,速度やヨーレートなどの時系列データから時間情報を効果的に活用するために,注意機構を備えたシーケンスモデリングを行う。 モデルでは、目標の車両/ドライバーが直進するか、停止するか、または右折するかを事前に予測する。 提案手法の性能は,自然主義的駆動データセット上で評価され,本手法は他の手法よりも高い精度と高い精度が得られることを示した。 提案手法は、高度運転支援システム(ADAS)および自動運転車のアクティブ安全システムの一部として適用されることを約束している。

In this paper, a driver's intention prediction near a road intersection is proposed. Our approach uses a deep bidirectional Long Short-Term Memory (LSTM) with an attention mechanism model based on a hybrid-state system (HSS) framework. As intersection is considered to be as one of the major source of road accidents, predicting a driver's intention at an intersection is very crucial. Our method uses a sequence to sequence modeling with an attention mechanism to effectively exploit temporal information out of the time-series vehicular data including velocity and yaw-rate. The model then predicts ahead of time whether the target vehicle/driver will go straight, stop, or take right or left turn. The performance of the proposed approach is evaluated on a naturalistic driving dataset and results show that our method achieves high accuracy as well as outperforms other methods. The proposed solution is promising to be applied in advanced driver assistance systems (ADAS) and as part of active safety system of autonomous vehicles.
翻訳日:2022-11-23 04:05:10 公開日:2020-06-10
# 複数のデモから学ぶベイズ経験

Bayesian Experience Reuse for Learning from Multiple Demonstrators ( http://arxiv.org/abs/2006.05725v1 )

ライセンス: Link先を確認
Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee(参考訳) 実演からの学習(lfd)は、専門家のデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。 しかし、デモデータは相反する目標を持つ複数の専門家から来ることが多く、オンライン設定に安全かつ効果的に組み込むのが困難である。 本稿では,静的および動的最適化設定において,正規逆ガンマ前駆体を用いて対象タスク関数の不確かさをモデル化することでこの問題に対処し,共通特徴を持つベイズ型ニューラルネットワークを用いた実演と対象データから対応する事後関係を学習する。 この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次プログラミング問題を導出する。 最後に,この分布に応じて実演をサンプル化し,それらを新しいタスクで直接再利用するために,Bayesian Experience Reuse (BERS)を提案する。 コスト不確実性のある高次元サプライチェーン問題において,滑らかな関数の静的最適化と伝達学習に本手法の有効性を示す。

Learning from demonstrations (LfD) improves the exploration efficiency of a learning agent by incorporating demonstrations from experts. However, demonstration data can often come from multiple experts with conflicting goals, making it difficult to incorporate safely and effectively in online settings. We address this problem in the static and dynamic optimization settings by modelling the uncertainty in source and target task functions using normal-inverse-gamma priors, whose corresponding posteriors are, respectively, learned from demonstrations and target data using Bayesian neural networks with shared features. We use this learned belief to derive a quadratic programming problem whose solution yields a probability distribution over the expert models. Finally, we propose Bayesian Experience Reuse (BERS) to sample demonstrations in accordance with this distribution and reuse them directly in new tasks. We demonstrate the effectiveness of this approach for static optimization of smooth functions, and transfer learning in a high-dimensional supply chain problem with cost uncertainty.
翻訳日:2022-11-23 04:04:19 公開日:2020-06-10
# 音声認識誤りに頑健なダイアログモデルのトレーニングのためのデータ拡張

Data Augmentation for Training Dialog Models Robust to Speech Recognition Errors ( http://arxiv.org/abs/2006.05635v1 )

ライセンス: Link先を確認
Longshaokan Wang, Maryam Fazel-Zarandi, Aditya Tiwari, Spyros Matsoukas, Lazaros Polymenakos(参考訳) Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換し、自然言語理解と応答生成のための下流ダイアログモデルにテキストを供給します。 ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。 このギャップを埋めて、ASRエラーに対してより堅牢なダイアログモデルを構築するために、ASRエラーシミュレータを用いてエラーのないテキストデータにノイズを注入し、次に拡張データでダイアログモデルを訓練する。 ASR格子やエンドツーエンドメソッドなどの他のASRエラー処理手法と比較して、データ拡張アプローチでは、ASRや下流のダイアログモデルの変更は不要である。 我々は,ベンチマークデータに対する広範な実験を行い,ASRエラーが存在する場合の下流ダイアログモデルの性能向上を示すとともに,モデルサイズに制約がある場合やトレーニングデータが少ない場合の低リソース環境では特に有効であることを示す。

Speech-based virtual assistants, such as Amazon Alexa, Google assistant, and Apple Siri, typically convert users' audio signals to text data through automatic speech recognition (ASR) and feed the text to downstream dialog models for natural language understanding and response generation. The ASR output is error-prone; however, the downstream dialog models are often trained on error-free text data, making them sensitive to ASR errors during inference time. To bridge the gap and make dialog models more robust to ASR errors, we leverage an ASR error simulator to inject noise into the error-free text data, and subsequently train the dialog models with the augmented data. Compared to other approaches for handling ASR errors, such as using ASR lattice or end-to-end methods, our data augmentation approach does not require any modification to the ASR or downstream dialog models; our approach also does not introduce any additional latency during inference time. We perform extensive experiments on benchmark data and show that our approach improves the performance of downstream dialog models in the presence of ASR errors, and it is particularly effective in the low-resource situations where there are constraints on model size or the training data is scarce.
翻訳日:2022-11-23 04:04:02 公開日:2020-06-10
# マイクロブログのための新しい文埋め込みに基づく話題検出手法

A novel sentence embedding based topic detection method for micro-blog ( http://arxiv.org/abs/2006.09977v1 )

ライセンス: Link先を確認
Cong Wan, Shan Jiang, Cuirong Wang, Cong Wang, Changming Xu, Xianxia Chen, Ying Yuan(参考訳) トピック検出は、特にトピックの正確な数を知らずに難しいタスクである。 本稿では,マイクロブログデータセット内のトピックを検出するニューラルネットワークに基づく新しい手法を提案する。 ブログを埋め込み空間にマッピングするために、教師なしのニューラル文埋め込みモデルを使用します。 我々のモデルは重み付きパワー平均単語埋め込みモデルであり,重みは注意機構によって計算される。 実験の結果,本手法は文クラスタリングにおいてベースラインよりも優れた性能を示す。 さらに,関係対応DBSCAN (RADBSCAN) と呼ばれる改良されたクラスタリングアルゴリズムを提案する。 マイクロブロッギングデータセットからトピックを見つけることができ、トピック番号はデータセットの文字自身に依存する。 さらに,パラメータに敏感な問題を解くために,ブログフォワード関係を2つの独立したクラスタのブリッジとして扱う。 最後に,シナマイクロブログからのデータセットに対するアプローチを検証する。 その結果、すべてのトピックをうまく検出し、各トピックのキーワードを抽出することができる。

Topic detection is a challenging task, especially without knowing the exact number of topics. In this paper, we present a novel approach based on neural network to detect topics in the micro-blogging dataset. We use an unsupervised neural sentence embedding model to map the blogs to an embedding space. Our model is a weighted power mean word embedding model, and the weights are calculated by attention mechanism. Experimental result shows our embedding method performs better than baselines in sentence clustering. In addition, we propose an improved clustering algorithm referred as relationship-aware DBSCAN (RADBSCAN). It can discover topics from a micro-blogging dataset, and the topic number depends on dataset character itself. Moreover, in order to solve the problem of parameters sensitive, we take blog forwarding relationship as a bridge of two independent clusters. Finally, we validate our approach on a dataset from sina micro-blog. The result shows that we can detect all the topics successfully and extract keywords in each topic.
翻訳日:2022-11-23 04:03:26 公開日:2020-06-10