このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210117となっている論文です。

PDF登録状況(公開日: 20210117)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子逆問題のためのニューラルネットワーク

Neural Networks for Quantum Inverse Problems ( http://arxiv.org/abs/2005.01540v2 )

ライセンス: Link先を確認
Ningping Cao, Jie Xie, Aonan Zhang, Shi-Yao Hou, Lijian Zhang, and Bei Zeng(参考訳) 量子逆問題(Quantum Inverse Problem, QIP)とは、未知の量子系を測定値から$\rho$で推定する問題である。 本稿では,古典的手法として広く研究されているQIPのニューラルネットワークに基づく手法を提案する。 提案手法は、QIPの量子性を利用して、ニューラルネットワークの計算能力を利用して、量子状態推定の効率を高める。 部分的情報から未知の状態$\rho$の最大エントロピー推定問題に対して,本手法を検証した。 本手法は, 数値実験と量子光学実験の両方において高い忠実性, 効率性, 頑健性をもたらす。

Quantum Inverse Problem (QIP) is the problem of estimating an unknown quantum system $\rho$ from a set of measurements, whereas the classical counterpart is the Inverse Problem of estimating a distribution from a set of observations. In this paper, we present a neural network based method for QIPs, which has been widely explored for its classical counterpart. The proposed method utilizes the quantum-ness of the QIPs and takes advantage of the computational power of neural networks to achieve higher efficiency for the quantum state estimation. We test the method on the problem of Maximum Entropy Estimation of an unknown state $\rho$ from partial information. Our method yields high fidelity, efficiency and robustness for both numerical experiments and quantum optical experiments.
翻訳日:2023-05-21 05:14:25 公開日:2021-01-17
# 量子化学における軌道エンタングルメントと相関の概念

Concept of orbital entanglement and correlation in quantum chemistry ( http://arxiv.org/abs/2006.00961v2 )

ライセンス: Link先を確認
Lexin Ding, Sam Mardazad, Sreetama Das, Szil\'ard Szalay, Ulrich Schollw\"ock, Zolt\'an Zimbor\'as, Christian Schilling(参考訳) 近年の量子化学の発展は、電子構造の主要な記述子として軌道間の量子相互情報を確立している。 これは既に数値的な方法の顕著な改善を促進しており、化学結合理論のより包括的な基盤に繋がる可能性がある。 この有望な発展に基づき、本研究は電子構造の特異な量子化子として、古典的および量子的な部分への物理的相関とその分離を導入することにより、量子情報理論的概念の洗練された議論を提供する。 特に、絡み合いの定量化に成功した。 興味深いことに、異なる分子に対する我々の結果は、軌道間の全相関は主に古典的であり、化学結合における絡み合いの一般的な意義について疑問を投げかける。 また, 量子化学では説明されていない素粒子数超選択則の実装は, 以前に見られた相関や絡み合いの大きな部分を取り除くことも示している。 その点において、分子システムによる量子情報処理タスクの実現は、予想以上に困難である。

A recent development in quantum chemistry has established the quantum mutual information between orbitals as a major descriptor of electronic structure. This has already facilitated remarkable improvements of numerical methods and may lead to a more comprehensive foundation for chemical bonding theory. Building on this promising development, our work provides a refined discussion of quantum information theoretical concepts by introducing the physical correlation and its separation into classical and quantum parts as distinctive quantifiers of electronic structure. In particular, we succeed in quantifying the entanglement. Intriguingly, our results for different molecules reveal that the total correlation between orbitals is mainly classical, raising questions about the general significance of entanglement in chemical bonding. Our work also shows that implementing the fundamental particle number superselection rule, so far not accounted for in quantum chemistry, removes a major part of correlation and entanglement previously seen. In that respect, realizing quantum information processing tasks with molecular systems might be more challenging than anticipated.
翻訳日:2023-05-17 11:28:31 公開日:2021-01-17
# 固体の軌道効果:基礎,最近の進歩と機会

Orbital effects in solids: basics, recent progress and opportunities ( http://arxiv.org/abs/2006.05920v2 )

ライセンス: Link先を確認
D.I. Khomskii, S.V. Streltsov(参考訳) 遷移金属化合物の性質は、電荷、スピン、格子、軌道など、様々な自由度の非自明な相互作用によって決定される。 特に豊かで興味深い効果は、軌道変性を持つ系で起こる。 その結果、有名なヤーン・テラー効果は、非自明な量子効果を含む静的および動的性質において多くの結果をもたらす。 本稿では,このような系の物理学における主要な現象を考察し,それらの新しい現象に注目する。 基礎現象とその記述をすぐに要約した後、この分野のいくつかの特定の方向に集中する。 そのうちの1つは、軌道の方向特性による軌道自由度を持つ多くの系における有効次元の減少であり、特に二量体、三量体および類似のクラスターの形成に繋がるいくつかの不安定性の類似した外観である。 これらのクラスター系の特性は、主に軌道構造によって決定され、細部において議論され、異なる物質の具体的な例が提示される。 相対論的スピン軌道相互作用 (relativistic spin-orbit interaction) の役割がある。 この相互作用とより伝統的なヤーン・テラー物理学の相互影響は、レビューの第2部で詳細に扱われる。 これら全ての問題を議論する際には、新しい量子効果に特別な注意が払われる。

The properties of transition metal compounds are largely determined by nontrivial interplay of different degrees of freedom: charge, spin, lattice, but also orbital ones. Especially rich and interesting effects occur in systems with orbital degeneracy. They result in the famous Jahn-Teller effect leading to a plethora of consequences, in static and in dynamic properties, including nontrivial quantum effects. In the present review we discuss the main phenomena in the physics of such systems, paying central attention to the novel manifestations of those. After shortly summarising the basic phenomena and their description, we concentrate on several specific directions in this field. One of them is the reduction of effective dimensionality in many systems with orbital degrees of freedom due to directional character of orbitals, with concomitant appearance of some instabilities leading in particular to the formation of dimers, trimers and similar clusters in a material. The properties of such cluster systems, largely determined by their orbital structure, are discussed in detail, and many specific examples of those in different materials are presented. Another big field which acquired special significance relatively recently is the role of relativistic spin-orbit interaction. The mutual influence of this interaction and the more traditional Jahn-Teller physics is treated in details in the second part of the review. In discussing all these questions special attention is paid to novel quantum effects in those.
翻訳日:2023-05-16 02:39:11 公開日:2021-01-17
# マヨラナ粒子の3+1次元および1+1次元における波動方程式について

On wave equations for the Majorana particle in (3+1) and (1+1) dimensions ( http://arxiv.org/abs/2007.03789v2 )

ライセンス: Link先を確認
Salvatore De Vincenzo(参考訳) 一般に、いわゆるマヨラナ粒子を数学的に記述する相対論的波動方程式は、実ローレンツスカラーポテンシャルといわゆるマヨラナ条件を持つディラック方程式である。 もちろん、使用する表現に依存すると、結果の微分方程式は変化する。 これは実数あるいは複雑な結合方程式系かもしれないし、波動関数全体の単一成分に対する単一の複素方程式であるかもしれない。 これらの方程式または方程式の系は、マヨラナ粒子を記述するために用いられるため、マヨラナ方程式またはマヨラナ方程式系と呼ばれることができる。 例えば、ワイル表現(3+1)次元では、2つの非同値な共変複素一階方程式を持つことができ、対照的に(1+1)次元では、結合方程式の複素系を持つ。 いずれにせよ、方程式や方程式体系が用いられる場合、マヨラナ粒子を (3+1) または (1+1) 次元で表す波動関数は 4 または 2 つの実数量で決定される。 本稿では,これらの問題を代数的観点から研究・議論し,ディラック,ワイル,マヨラナ表現における3+1次元と(1+1次元)次元におけるこれらの方程式の類似性と相違を浮き彫りにする。 さらに、この課題を補強するために、ケースが既に導入した2成分マヨラナ方程式を3+1次元で得る手順から得られる結果を再検討し、活用する。 同様に、(1+1)次元の幾らか類似した手順を初めて導入し、得られた結果を使用する。

In general, the relativistic wave equation considered to mathematically describe the so-called Majorana particle is the Dirac equation with a real Lorentz scalar potential plus the so-called Majorana condition. Certainly, depending on the representation that one uses, the resulting differential equation changes. It could be a real or a complex system of coupled equations, or it could even be a single complex equation for a single component of the entire wave function. Any of these equations or systems of equations could be referred to as a Majorana equation or Majorana system of equations because it can be used to describe the Majorana particle. For example, in the Weyl representation, in (3+1) dimensions, we can have two non-equivalent explicitly covariant complex first-order equations; in contrast, in (1+1) dimensions, we have a complex system of coupled equations. In any case, whichever equation or system of equations is used, the wave function that describes the Majorana particle in (3+1) or (1+1) dimensions is determined by four or two real quantities. The aim of this paper is to study and discuss all these issues from an algebraic point of view, highlighting the similarities and differences that arise between these equations in the cases of (3+1) and (1+1) dimensions in the Dirac, Weyl, and Majorana representations. Additionally, to reinforce this task, we rederive and use results that come from a procedure already introduced by Case to obtain a two-component Majorana equation in (3+1) dimensions. Likewise, we introduce for the first time a somewhat analogous procedure in (1+1) dimensions and then use the results we obtain.
翻訳日:2023-05-11 01:32:14 公開日:2021-01-17
# ディラック量子化規則とトレース異常について

On Dirac Quantisation rules and the trace anomaly ( http://arxiv.org/abs/2007.12025v2 )

ライセンス: Link先を確認
Tuck C Choy(参考訳) 本稿では1930\cite{Dirac} の Dirac 量子化規則の様々な側面、すなわち (i)反対称ポアソン括弧の選択 (ii)第一の定量化規則1 (iii)第2の量子化規則2とそのトレース異常との関係 1925年、ディラックは既にこれらの規則を予備的に定式化していた。 それらを用いて、彼は独立にボルン・ジョルダン量子化規則 \cite{bornjordan1925} を発見し、これを量子状態と呼んだ。 これは量子力学の正準量子化規則の中で最もよく知られており、間違いなく最も重要なものである。 リー代数を定義する最初の基準である反対称性から始め、ポアソン・リー環(dirac によって仮定される)のいくつかの違反について議論する。 同様の違反はライプニッツの法則やヤコビの同一性に対しても起こり、後者は我々の量子ポアソン括弧についても証明する。 これらの違反は、ディラックの最初の量子化規則1の創発的な元の導出 \cite{Dirac} を危険にさらすことはなかった。 これは、違反はすべて$\hbar$の上位命令であるからである。 私たちはさらにそれを示します (ii) は、ある有界可積分作用素に対して自動的にトレース異常を生じない。 この研究から生じる教育的および基礎的な問題により、量子力学はまだ完成品ではないことが示されている。 開発を完了するためのいくつかの試みと選択肢を簡潔に述べます。

In this article I shall clarify various aspects of the Dirac quantisation rules of 1930\cite{Dirac}, namely (i) the choice of antisymmetric Poisson brackets, (ii) the first quantisation Rule 1 (iii) the second quantisation Rule 2, and their relations to the trace anomaly. In fact in 1925 Dirac already had a preliminarily formulation of these rules \cite{Dirac3}. Using them, he had independently rediscovered the Born-Jordan quantisation rule \cite{BornJordan1925} and called it the quantum condition. This is the best known and undoubtedly most significant of the canonical quantisation rules of quantum mechanics. We shall discuss several violations of the Poisson-Lie algebra (assumed by Dirac), starting from antisymmetry, which is the first criterion for defining a Lie algebra. Similar violations also occur for the Leibniz's rule and the Jacobi identity, the latter we shall also prove for all our quantum Poisson brackets. That none of these violations jeopardised Dirac's ingenious original derivation \cite{Dirac} of his first quantisation Rule 1, is quite remarkable. This is because the violations are all of higher orders in $\hbar$. We shall further show that (ii) does not automatically lead to a trace anomaly for certain bounded integrable operators. Several issues that are both pedagogical and foundational arising from this study show that quantum mechanics is still not a finished product. I shall briefly mention some attempts and options to complete its development.
翻訳日:2023-05-08 11:00:17 公開日:2021-01-17
# D-Braneホログラフィにおけるゲージ不変なターゲット空間の絡み合い

Gauge Invariant Target Space Entanglement in D-Brane Holography ( http://arxiv.org/abs/2011.13857v2 )

ライセンス: Link先を確認
Sumit R. Das, Anurag Kaushal, Sinong Liu, Gautam Mandal, Sandip P. Trivedi(参考訳) arXiv:2004.00613では、Dp-ブレーンホログラフィーにおいて、D-ブレーン・ヤン・ミルズ理論のターゲット空間における絡み合いは、重力双対におけるバルク絡みの正確な概念を与えると示唆されている。 このような絡み合いに対応する作用素部分代数のゲージ不変性を提供することにより、この議論を拡大する。 これは対象空間領域を特徴付ける制約を課す射影演算子を見つけることによって達成される。 クーロン分岐部におけるプローブブランを考慮し, 低エネルギープローブによる測定のクラスを対応するバルク領域で記述するのに, オペレータサブ代数が適している理由を示す。 数値計算で直接利用できる経路積分の観点から,対応するレニイエントロピーの式を導出する。

It has been suggested in arXiv:2004.00613 that in Dp-brane holography, entanglement in the target space of the D-brane Yang-Mills theory provides a precise notion of bulk entanglement in the gravity dual. We expand on this discussion by providing a gauge invariant characterization of operator sub-algebras corresponding to such entanglement. This is achieved by finding a projection operator which imposes a constraint characterizing the target space region of interest. By considering probe branes in the Coulomb branch we provide motivation for why the operator sub-algebras we consider are appropriate for describing a class of measurements carried out with low-energy probes in the corresponding bulk region of interest. We derive expressions for the corresponding Renyi entropies in terms of path integrals which can be directly used in numerical calculations.
翻訳日:2023-04-22 20:29:07 公開日:2021-01-17
# STEMに基づく起業プログラムが中学生の起業意識に及ぼす影響

The Impact of a STEM-based Entrepreneurship Program on the Entrepreneurial Intention of Secondary School Female Students ( http://arxiv.org/abs/2012.03746v2 )

ライセンス: Link先を確認
Mojtaba Shahin, Olivia Ilic, Chris Gonsalvez, Jon Whittle(参考訳) 過去20年間の努力と研究にもかかわらず、起業家精神分野は、大学前のレベルの学習における学生の起業家精神に対する起業家精神プログラムの影響に関する証拠に基づく知識に制限されている。 さらに、ジェンダーエクイティは起業家セクター、特にSTEMにフォーカスした起業家業界において問題であり続けている。 本研究は,女子中学生の起業意図に対する1日のSTEMに基づく起業プログラム(略語:OzGirlsEntrepreneurship Program)の効果を検討することを目的としている。 この研究は、ozgirlsentrepreneurshipプログラムに参加した14~16歳の女子中学生193人が実施した2つの調査からデータを収集した。 このプログラムは、マイクロ:bitデバイスを使用してモノのインターネット(IoT)コンポーネントを使用して、社会的に関連する問題に対する創造的な計算ソリューションの開発と実装を女の子に促した。 この結果から,女子学生の起業態度の発達における重要な要因は,特に創造的思考,リスクテイク,問題解決,リーダーシップ開発といった分野において,ソフトスキル開発に関係していることが明らかとなった。 ポジティブな役割モデリングやピアツーピア学習を含む有意義な人間関係の重要性は、起業家の意図を育む上でも重要な要素であった。 これらの要因を念頭に置いて,ozgirlsentrepreneurshipプログラムは中学生の起業意図を大きく増加させた。 さらに,本研究は,中学生を対象とした起業教育プログラムの開発と提供に有効な意味と勧告を提供する。

Despite dedicated effort and research in the last two decades, the entrepreneurship field is still limited by little evidence-based knowledge of the impacts of entrepreneurship programs on the entrepreneurial intention of students in pre-university levels of study. Further, gender equity continues to be an issue in the entrepreneurial sector, particularly in STEM-focused entrepreneurship. In this context, this study was designed to explore the effects of a one-day female-focused STEM-based entrepreneurship program (for brevity, we call it the OzGirlsEntrepreneurship program) on the entrepreneurial intention of secondary school female students. The study collected data from two surveys completed by 193 secondary school female students, aged 14-16 years, who participated in the OzGirlsEntrepreneurship program. This program encouraged girls to develop and implement creative computational solutions to socially relevant problems, with an Internet of Things (IoT) component using the micro:bit device. The findings reveal that a key factor in the development of entrepreneurial attitudes in young female students is associated with soft-skills development, particularly in the areas of creative thinking, risk-taking, problem-solving, and leadership development. The importance of meaningful human connections, including positive role modelling and peer to peer learning were also important factors in fostering entrepreneurial intent. With these factors in mind, our findings highlight that the OzGirlsEntrepreneurship program substantially increased the entrepreneurial intention of secondary school female students. In addition, this study offers actionable implications and recommendations to develop and deliver entrepreneurship education programs for secondary school level students.
翻訳日:2023-04-22 02:46:07 公開日:2021-01-17
# 暗黒粒子のゴーストイメージング

Ghost Imaging of Dark Particles ( http://arxiv.org/abs/2012.04707v2 )

ライセンス: Link先を確認
Juan Estrada, Roni Harnik, Dario Rodrigues, Matias Senger(参考訳) 我々は、量子イメージングや量子通信といった光学ツールを標準モデルを超えた物理探索に利用する新しい方法を提案する。 自発パラメトリックダウン変換(SPDC)は、ポンプ光子が信号イドラー対に変換する絡み合った光子の源として一般的に用いられる。 我々は,新しいダークセクター粒子がアイドラーを置き換える「ダークSPDC(dSPDC)」事象を探索することを提案する。 相互作用しないが、暗黒粒子の存在は信号光子の性質によって推測できる。 暗黒状態の例としては、アクシオン様粒子やダーク光子がある。 光媒体の存在は、真空中では禁止されるダウンコンバージョン過程の位相空間または崩壊を開放することを示している。 信号光子の光学画像および/または分光を用いた探索手法を提案する。 提案手法の信号速度は, 弱結合の第2のパワーと新しい物理値にスケールするが, 信号が第4の結合にスケールする光を透過する実験とは対照的である。 我々は、dSPDCを向上させるために必要な光学媒体の特性を分析し、その速度を推定する。 走査型CCDを用いた高分解能ゴーストイメージング計測のベンチトップデモを行い、その有用性をdSPDCサーチで示す。

We propose a new way to use optical tools from quantum imaging and quantum communication to search for physics beyond the standard model. Spontaneous parametric down conversion (SPDC) is a commonly used source of entangled photons in which pump photons convert to a signal-idler pair. We propose to search for "dark SPDC" (dSPDC) events in which a new dark sector particle replaces the idler. Though it does not interact, the presence of a dark particle can be inferred by the properties of the signal photon. Examples of dark states include axion-like-particles and dark photons. We show that the presence of an optical medium opens the phase space of the down-conversion process, or decay, which would be forbidden in vacuum. Search schemes are proposed which employ optical imaging and/or spectroscopy of the signal photons. The signal rates in our proposal scales with the second power of the feeble coupling to new physics, as opposed to light-shining-through-wall experiments whose signal scales with coupling to the fourth. We analyze the characteristics of optical media needed to enhance dSPDC and estimate the rate. A bench-top demonstration of a high resolution ghost imaging measurement is performed employing a Skipper-CCD to demonstrate its utility in a dSPDC search.
翻訳日:2023-04-21 18:16:06 公開日:2021-01-17
# 量子コンピュータと脳との相互作用--心の論理を聴くためのアプローチ

On Interfacing the Brain with Quantum Computers: An Approach to Listen to the Logic of the Mind ( http://arxiv.org/abs/2101.03887v2 )

ライセンス: Link先を確認
Eduardo Reck Miranda(参考訳) 本章では,脳-コンピューターインタフェース(bci)システムの開発に向けて,神経活動の相関を研究・活用するための量子コンピューティングに基づくアプローチを提案する。 それは心の論理の概念を導入し、神経生理学的データは精神活動を表す論理表現としてコード化される。 効果的な論理式は、数十の変数を含む広範である可能性が高い。 大規模な表現は処理に相当な計算力を必要とする。 これはbciアプリケーションではコマンドのシーケンスを実行するのに速い反応時間を必要とするため問題となる。 量子コンピュータは、論理式を含むいくつかの問題に対する処理速度に関して、多くの約束を持っている。 したがって、量子コンピュータを用いて心の論理を処理することを提案する。 この章は、通常bciで使用される神経生理学的信号であるbciと脳波の紹介から始まる。 その後、脳波が精神状態とどのように対応しているかを簡潔に議論し、続いて心の論理を紹介した。 その後、量子コンピューティングの概要があり、論理式をどのように処理するかを理解するのに必要な基礎に焦点を当てている。 BCIシステムの例を示す。 簡単に言えば、システムは脳波を読み、論理式を構築し、量子コンピュータに送信してそれらを解決する。 このシステムでは, ベスポーク合成器を用いて, 結果を音に変換する。 基本的に、bciは演奏者の心によって制御される楽器である。 私たちのBCIは、量子コンピューティングが高度なBCIシステムの開発をどのようにサポートするかを示すための概念実証です。 章の残りは、現在の量子コンピューティングハードウェア技術の限界とシステムのスケーラビリティに関する技術的および実践的な考察に費やされている。

This chapter presents a quantum computing-based approach to study and harness neuronal correlates of mental activity for the development of Brain-Computer Interface (BCI) systems. It introduces the notion of a logic of the mind, where neurophysiological data are encoded as logical expressions representing mental activity. Effective logical expressions are likely to be extensive, involving dozens of variables. Large expressions require considerable computational power to be processed. This is problematic for BCI applications because they require fast reaction times to execute sequences of commands. Quantum computers hold much promise in terms of processing speed for some problems, including those involving logical expressions. Hence, we propose to use quantum computers to process the logic of the mind. The chapter begins with an introduction to BCI and the electroencephalogram, which is the neurophysiological signal that is normally used in BCI. Then, it briefly discusses how the EEG corresponds to mental states, followed by an introduction to the logic of the mind. After that, there is an overview of quantum computing, focusing on the basics deemed necessary to understand how it processes logical expressions. An example of a BCI system is presented. In a nutshell, the system reads the EEG and builds logical expressions, which are sent to a quantum computer to solve them. In turn, the system converts the results into sounds by means of a bespoke synthesiser. Essentially, the BCI here is a musical instrument controlled by the mind of the player. Our BCI is a proof-of-concept aimed at demonstrating how quantum computing may support the development of sophisticated BCI systems. The remaining of the chapter is devoted to technical and practical considerations on the limitations of current quantum computing hardware technology and scalability of the system.
翻訳日:2023-04-19 21:49:10 公開日:2021-01-17
# ブロックチェーンを用いた統一市民識別システム

Unified Citizen Identity System Using Blockchain ( http://arxiv.org/abs/2101.10085v1 )

ライセンス: Link先を確認
Sri Sai Abhishake Gopal Dasari(参考訳) 国民の国籍は、国家が不審にそれらを識別し、認証することができる。 これらの文書は、個人が自認し、議会または土地の憲法によって与えられる権利と利益から利益を得るのに役立つ。 これらのアイデンティティに反する従来の発行方法には問題があり、人々が利益を得たり権利を行使するのを妨げる多くのハードルがある。 これらの紙ベースのidは簡単に偽造することができ、様々な民間のエンドポイントで認証することは困難である。 個人情報盗難の報告がある。 本稿では,これらの問題を解決するためにブロックチェーンをどのように活用するかを議論し,これらのアイデンティティを機密化し,不変かつセキュアにする。 ブロックチェーン技術は、行政機関がこれらのアイデンティティを迅速に維持、検証し、ヒューマンエラーの機会を少なくするのに役立つ。

The citizenship identities of a nation's occupants enable the state to identify and authenticate them unquestionably. These documents help individuals in recognizing themselves and to profit from the rights and advantages given to them by the legislature or the constitution of the land. There are problems in the traditional way of issuance f these identities and many hurdles that impede people from getting their benefits or exercising their rights. These paper-based identities can be forged easily and are hard to authenticate at various civil end points. There are reports of identity thefts. In this paper, we are discussing how Blockchain can be employed to overcome these problems and makes these identities confidential, immutable, and secured. Blockchain technology can help the governing bodies in maintaining and verifying these identities in a quick manner with less chance for human errors, meaning more reach for government plans and aid
翻訳日:2023-04-14 23:14:08 公開日:2021-01-17
# 均一磁場中における自己加速電子ビームのダイナミクス

Dynamics of self-accelerating electron beams in a homogeneous magnetic field ( http://arxiv.org/abs/2101.06754v1 )

ライセンス: Link先を確認
Michael Goutsoulas and Nikolaos K. Efremidis(参考訳) 自由空間において、追加の磁場の存在下で自己加速する電子ビームのダイナミクスについて検討する。 我々は,放物線に従属するエアリービームや,パワーロー軌道に付随する一般化されたビームクラスに注目する。 ビーム自己加速と磁場による円運動の相互作用について検討した。 エアリービームの場合、積分表現を用いて電子波動関数の閉形式解を見つける。 また,空気状ビームと自己加速型パワーロービームの両方のビーム軌道の漸近式を導出する。 線光学の記述はビームダイナミクスの解釈にかなり有用である。 この結果は直接数値シミュレーションと比較して優れている。

We examine the dynamics of electron beams that, in free space, are self-accelerating, in the presence of an additional magnetic field. We focus our attention in the case of Airy beams that follow parabolic trajectories and in generalized classes of beams associated with power-law trajectories. We study the interplay between beam self-acceleration and the circular motion caused by the magnetic field. In the case of Airy beams, using an integral representation, we find closed-form solutions for the electron wavefunction. We also derive asymptotic formulas for the beam trajectories both for Airy beams and for self-accelerating power-law beams. A ray optics description is rather useful for the interpretation of the beam dynamics. Our results are in excellent comparison with direct numerical simulations.
翻訳日:2023-04-14 23:13:40 公開日:2021-01-17
# ボース・アインシュタイン凝縮体の擬金岩励起

Pseudo-Goldstone Excitations in a Striped Bose-Einstein Condensate ( http://arxiv.org/abs/2101.06752v1 )

ライセンス: Link先を確認
Guan-Qiang Li, Xi-Wang Luo, Junpeng Hou, and Chuanwei Zhang(参考訳) ボース=アインシュタイン凝縮体では、異方性相互作用によって空間的翻訳対称性が自発的に破壊され、ストライプ秩序を形成するため、長期にわたる超固体状状態の観察において、実験的に重要な進歩がなされている。 一方、超流動ストライプ基底状態は、対称性の破れを強いる弱い光学格子を適用することでも観察された。 基底状態の類似性にもかかわらず、この2つの対称性の破断機構は、それらの集団励起スペクトルによって区別できることを示した。 本研究は, <textit{spontaneous> ストライプ状態のギャップレスゴールドストーンモードとは対照的に, <textit{forced} ストライプ状態の励起スペクトルが, 長期間のギャップ付き擬ゴールドストーンモードの直接的な実験的証拠となることを示唆する。 このような格子誘起ストライプ相の擬ゴールドストーンモードを励起スペクトルと静的構造因子によって特徴づける。 我々の研究は、異なる物理系における自然および強制/近似対称性の破壊メカニズムを探求する道を開くかもしれない。

Significant experimental progress has been made recently for observing long-sought supersolid-like states in Bose-Einstein condensates, where spatial translational symmetry is spontaneously broken by anisotropic interactions to form a stripe order. Meanwhile, the superfluid stripe ground state was also observed by applying a weak optical lattice that forces the symmetry breaking. Despite of the similarity of the ground states, here we show that these two symmetry breaking mechanisms can be distinguished by their collective excitation spectra. In contrast to gapless Goldstone modes of the \textit{spontaneous} stripe state, we propose that the excitation spectra of the \textit{forced} stripe phase can provide direct experimental evidence for the long-sought gapped pseudo-Goldstone modes. We characterize the pseudo-Goldstone mode of such lattice-induced stripe phase through its excitation spectrum and static structure factor. Our work may pave the way for exploring spontaneous and forced/approximate symmetry breaking mechanisms in different physical systems.
翻訳日:2023-04-14 23:13:28 公開日:2021-01-17
# bohmポテンシャルは現実であり、その効果は測定可能である

Bohm potential is real and its effects are measurable ( http://arxiv.org/abs/2101.06738v1 )

ライセンス: Link先を確認
Sergio A. Hojman, Felipe A. Asenjo, H\'ector M. Moya-Cessa and Francisco Soto-Eguibar(参考訳) ボームのポテンシャル効果は、量子力学と光学の領域だけでなく、古典的および量子波動方程式で記述された他の物理現象の研究においても分析する。 理論的議論と実験的証拠を用いてこの問題にアプローチする。 ボームポテンシャルによって生じる効果は、原子と核の現象を正しく記述する量子力学の初期の成功に理論的に責任があること、そして最近では自由波や粒子の驚くべき加速挙動を実験的に確認することでも知られている。

We analyze Bohm's potential effects both in the realms of Quantum Mechanics and Optics, as well as in the study of other physical phenomena described in terms of classical and quantum wave equations. We approach this subject by using theoretical arguments as well as experimental evidence. We find that the effects produced by Bohm's potential are both theoretically responsible for the early success of Quantum Mechanics correctly describing atomic and nuclear phenomena and, more recently, by confirming surprising accelerating behavior of free waves and particles experimentally, for instance.
翻訳日:2023-04-14 23:13:07 公開日:2021-01-17
# BIVEEプロジェクト:方法論とツールの概要

The BIVEE Project: an overview of methodology and tools ( http://arxiv.org/abs/2101.06736v1 )

ライセンス: Link先を確認
M. Missikoff, P. Assogna(参考訳) EUは危機からの効果的な撤退戦略を必要としており、欧州生産システムで活動している企業の99%を代表する中小企業に特に注意を払っている。 この目的のために、イノベーションはEU産業システムを再起動する重要な要素であるようだ。 BIVEEプロジェクトは、ビジネスの原則、モデル、ベストプラクティスを含む方法論とクラウドベースのソフトウェア環境と、仮想エンタープライズ環境(特にエンタープライズネットワーク)における生産改善とビジネス革新を支援し促進する先進的なソフトウェアサービスを開発するために、およそ4年間開発が続けられた。

EU needs an effective exit strategy from the crisis, with a special attention to SMEs that represent the 99% of the enterprises active in the European production system. To this end, innovation appears to be a key factor to relaunch the EU industrial system. The BIVEE project proceeded for almost 4 years to develop a rich framework, i.e., a methodology and a cloud-based software environment, that includes business principles, models, and best practices, plus a number of advanced software services, to support and promote production improvement and business innovation in virtual enterprise environments (essentially, enterprise networks.)
翻訳日:2023-04-14 23:12:56 公開日:2021-01-17
# アンドレフスピン量子ビットのコヒーレント操作

Coherent manipulation of an Andreev spin qubit ( http://arxiv.org/abs/2101.06701v1 )

ライセンス: Link先を確認
M. Hays, V. Fatemi, D. Bouman, J. Cerrillo, S. Diamond, K. Serniak, T. Connolly, P. Krogstrup, J. Nyg{\aa}rd, A. Levy Yeyati, A. Geresdi, M. H. Devoret(参考訳) 固体量子情報処理のための2つの有望なアーキテクチャは、半導体量子ドット内の電子スピンと超伝導回路の集合電磁モードである。 超伝導量子ビットはより簡単に結合できるが、量子デバイスの間では比較的大きい$(\sim\mathrm{mm})$、静電的に濃縮された電子スピンは空間的にコンパクトである(\sim \mathrm{\mu m}$)が、より複雑な結合である。 ここでは、アンドレエフスピン量子ビットにおける両プラットフォームの有益な側面を組み合わせる:ジョセフソン半導体ナノワイヤの超電流輸送アンドレエフレベルに閉じ込められた電子準粒子の自由度。 単発回路qed読み出しとスピンフライングラマン遷移を組み合わせることでコヒーレントなスピン操作を示し,スピンフリップ時間 $t_s = 17~\mathrm{\mu s}$ とスピンコヒーレンス時間 $t_{2e}=52~\mathrm{ns}$ を求める。 これらの結果は、超電流ベースの回路qed統合と、半導体超導体ヘテロ構造におけるアンドレエフ準位(マヨラナゼロモードの親状態)の理解と制御に関する新たなスピン量子ビットを表わした。

Two promising architectures for solid-state quantum information processing are electron spins in semiconductor quantum dots and the collective electromagnetic modes of superconducting circuits. In some aspects, these two platforms are dual to one another: superconducting qubits are more easily coupled but are relatively large among quantum devices $(\sim\mathrm{mm})$, while electrostatically-confined electron spins are spatially compact ($\sim \mathrm{\mu m}$) but more complex to link. Here we combine beneficial aspects of both platforms in the Andreev spin qubit: the spin degree of freedom of an electronic quasiparticle trapped in the supercurrent-carrying Andreev levels of a Josephson semiconductor nanowire. We demonstrate coherent spin manipulation by combining single-shot circuit-QED readout and spin-flipping Raman transitions, finding a spin-flip time $T_S = 17~\mathrm{\mu s}$ and a spin coherence time $T_{2E}=52~\mathrm{ns}$. These results herald a new spin qubit with supercurrent-based circuit-QED integration and further our understanding and control of Andreev levels -- the parent states of Majorana zero modes -- in semiconductor-superconductor heterostructures.
翻訳日:2023-04-14 23:12:44 公開日:2021-01-17
# 高純度ベクトル構造光子のヘラルド生成

Heralded generation of vectorially structured photons with high purity ( http://arxiv.org/abs/2101.06684v1 )

ライセンス: Link先を確認
Hai-Jun Wu, Bing-Shi Yu, Zhi-Han Zhu, Carmelo Rosales-Guzm\'an, Zhi-Yuan Zhou, Dong-Sheng Ding, Wei Gao and Bao-Sen Shi(参考訳) 光子の工学的ベクトル空間モードは、様々な量子光学実験において高次元光状態を操作するための重要なアプローチである。 本研究では,空間光変調器からなる自己同期偏光干渉計を用いて,ベクトル空間モードをよく定義したヘラルド単一光子の生成を実証する。 具体的には、操作された光子の空間的振幅と時間的振幅を慎重に調整し補正することにより、超高速の単一光子を極度に高い純度で所望のスピン軌道状態に変換することができる。 このコンパクトでロバストな装置は、生成だけでなく任意のフォトニックスピン軌道状態の操作とキャラクタリゼーションのための汎用的な方法を提供する。

Engineering vector spatial modes of photons is an important approach for manipulating high-dimension photonic states in various quantum optical experiments. In this work, we demonstrate generation of heralded single photons with well-defined vector spatial modes by using a self-locking polarizing interferometer comprising a spatial light modulator. Specifically, it is shown that, by carefully tailoring and compensating spatial and temporal amplitudes of manipulated photons, one can exactly convert ultrafast single photons into desired spin-orbit states with extremely high purity. This compact and robust device provides a versatile way for not only generation, but also manipulation and characterization of arbitrary photonic spin-orbit states.
翻訳日:2023-04-14 23:12:00 公開日:2021-01-17
# テンソル代数による一般視覚情報解析

Generalized Visual Information Analysis via Tensorial Algebra ( http://arxiv.org/abs/2001.11708v2 )

ライセンス: Link先を確認
Liang Liao and Stephen John Maybank(参考訳) 高次データは、固定サイズの数値配列である行列を用いてモデル化される。 これらの配列は t-スカラーと呼ばれ、畳み込み積の下で可換環を形成する。 t-スカラー環の要素を持つ行列はt-行列と呼ばれる。 t-行列は通常の方法でスケール、加算、乗算することができる。 正行列、直交行列、エルミート対称行列の t-行列一般化がある。 t行列モデルでは、多くのよく知られた行列アルゴリズムを一般化することができる。 特に, SVD (Singular Value Decomposition), HOSVD (High Order SVD), PCA (Principal Component Analysis), 2DPCA (Two-dimensional PCA), GCA (Grassmannian Component Analysis) を一般化する。 TSVD,THOSVD,TPCA,T2DPCA,TGCAといった一般化されたt行列アルゴリズムを低階近似,再構成,画像の教師付き分類に適用する。 実験により、t行列アルゴリズムは標準行列アルゴリズムと良好に比較された。

Higher order data is modeled using matrices whose entries are numerical arrays of a fixed size. These arrays, called t-scalars, form a commutative ring under the convolution product. Matrices with elements in the ring of t-scalars are referred to as t-matrices. The t-matrices can be scaled, added and multiplied in the usual way. There are t-matrix generalizations of positive matrices, orthogonal matrices and Hermitian symmetric matrices. With the t-matrix model, it is possible to generalize many well-known matrix algorithms. In particular, the t-matrices are used to generalize the SVD (Singular Value Decomposition), HOSVD (High Order SVD), PCA (Principal Component Analysis), 2DPCA (Two Dimensional PCA) and GCA (Grassmannian Component Analysis). The generalized t-matrix algorithms, namely TSVD, THOSVD,TPCA, T2DPCA and TGCA, are applied to low-rank approximation, reconstruction,and supervised classification of images. Experiments show that the t-matrix algorithms compare favorably with standard matrix algorithms.
翻訳日:2023-01-05 06:20:15 公開日:2021-01-17
# 生眼追跡データ分割・生成・再構成のための完全畳み込みニューラルネットワーク

Fully Convolutional Neural Networks for Raw Eye Tracking Data Segmentation, Generation, and Reconstruction ( http://arxiv.org/abs/2002.10905v3 )

ライセンス: Link先を確認
Wolfgang Fuhl, Yao Rong, Enkelejda Kasneci(参考訳) 本稿では,完全な畳み込みニューラルネットワークを用いて,視線追跡データのセグメンテーションを行う。 また,これらのネットワークを再構成に利用し,変分オートエンコーダと連動して眼球運動データを生成する。 提案手法の最初の改善点は、完全な畳み込みネットワークを用いることにより、入力ウィンドウが不要になるため、任意の入力サイズを直接処理できる点である。 第2の改善点は、使用および生成されたデータは、前処理なしで生のアイトラッキングデータ(位置x、y、時間)である。 これは、第1層におけるフィルタの事前初期化と、入力テンソルをz軸に沿って構築することで達成される。 提案手法を3つの公開データセットで評価し,その結果を技術状況と比較した。

In this paper, we use fully convolutional neural networks for the semantic segmentation of eye tracking data. We also use these networks for reconstruction, and in conjunction with a variational auto-encoder to generate eye movement data. The first improvement of our approach is that no input window is necessary, due to the use of fully convolutional networks and therefore any input size can be processed directly. The second improvement is that the used and generated data is raw eye tracking data (position X, Y and time) without preprocessing. This is achieved by pre-initializing the filters in the first layer and by building the input tensor along the z axis. We evaluated our approach on three publicly available datasets and compare the results to the state of the art.
翻訳日:2022-12-31 11:49:46 公開日:2021-01-17
# セミスーパービジョントレーニングによる意味的暗黙的ニューラルシーン表現

Semantic Implicit Neural Scene Representations With Semi-Supervised Training ( http://arxiv.org/abs/2003.12673v2 )

ライセンス: Link先を確認
Amit Kohli, Vincent Sitzmann, Gordon Wetzstein(参考訳) 近年の暗黙的なニューラルシーン表現の成功は、3dシーンをキャプチャして保存する方法として有効な新しい方法を提示した。 個別の局所単位にシーン特性を明示的に格納する点雲のような従来の3D表現とは異なり、これらの暗黙の表現はニューラルネットワークの重みのシーンを符号化し、同じシーン特性を生成するために任意の座標でクエリできる。 これまでのところ、暗黙的な表現は主にシーンの外観と3dジオメトリ情報のみを推定するために最適化されている。 次のステップで、既存の暗黙表現(SRN)が実際にマルチモーダルであることを示し、外観や幾何学を表現する能力を維持しつつ、ポイントごとのセマンティックセマンティックセグメンテーションを実行するためにさらに活用することができる。 このマルチモーダルな動作を実現するために,既存の事前学習シーン表現の上に,半教師付き学習戦略を利用する。 提案手法は単純で汎用的であり,密集した3次元意味セグメンテーションを実現するために,ラベル付き2次元セグメンテーションマスクを数十枚しか必要としない。 本稿では,1つの入力RGB画像または2Dラベルマスクのみを付与する3D新規ビューとセマンティックラベル合成と,外観と意味の3D補間という2つの新しい応用を探索する。

The recent success of implicit neural scene representations has presented a viable new method for how we capture and store 3D scenes. Unlike conventional 3D representations, such as point clouds, which explicitly store scene properties in discrete, localized units, these implicit representations encode a scene in the weights of a neural network which can be queried at any coordinate to produce these same scene properties. Thus far, implicit representations have primarily been optimized to estimate only the appearance and/or 3D geometry information in a scene. We take the next step and demonstrate that an existing implicit representation (SRNs) is actually multi-modal; it can be further leveraged to perform per-point semantic segmentation while retaining its ability to represent appearance and geometry. To achieve this multi-modal behavior, we utilize a semi-supervised learning strategy atop the existing pre-trained scene representation. Our method is simple, general, and only requires a few tens of labeled 2D segmentation masks in order to achieve dense 3D semantic segmentation. We explore two novel applications for this semantically aware implicit neural scene representation: 3D novel view and semantic label synthesis given only a single input RGB image or 2D label mask, as well as 3D interpolation of appearance and semantics.
翻訳日:2022-12-18 23:47:20 公開日:2021-01-17
# マルチロス最適化における大域収束の不可能性について

On the Impossibility of Global Convergence in Multi-Loss Optimization ( http://arxiv.org/abs/2005.12649v3 )

ライセンス: Link先を確認
Alistair Letcher(参考訳) 穏やかな規則性条件下では、勾配に基づく方法は単一損失設定において臨界点にグローバルに収束する。 これは、マルチロス最適化に移行する際のバニラ勾配降下を解消することが知られているが、グローバル保証によるアルゴリズムの構築を期待できるだろうか? 我々は,任意のアルゴリズムに対して所望の収束特性が同時に保持できないことを証明し,この問題を負に解決する。 我々の結果は、それぞれのアルゴリズムよりも、満足のいく結果のないゲームの存在と関係がある。 より明確には、損失が強制的かつ分析的であるが、同時に臨界点が厳密な最大値であるゼロサム相互作用を持つ2人のプレイヤーゲームを構築する。 厳密な最大値を避けるために定義された任意の「理性」アルゴリズムは、従って収束しない。 これは、大域的最小値の存在を保っている単損失とは根本的に異なる。 さらに,学習率の小さいゼロサムゲームにおいて,既存のグラデーションベース手法がほぼ確実に有界だが非収束的なイテレートを持つことを実証する。 それにもかかわらず、そのような行動が、GANやマルチエージェントRLのようなML実践者にとって、高次元的なゲームで起こりうるかどうかには疑問が残る。

Under mild regularity conditions, gradient-based methods converge globally to a critical point in the single-loss setting. This is known to break down for vanilla gradient descent when moving to multi-loss optimization, but can we hope to build some algorithm with global guarantees? We negatively resolve this open problem by proving that desirable convergence properties cannot simultaneously hold for any algorithm. Our result has more to do with the existence of games with no satisfactory outcomes, than with algorithms per se. More explicitly we construct a two-player game with zero-sum interactions whose losses are both coercive and analytic, but whose only simultaneous critical point is a strict maximum. Any 'reasonable' algorithm, defined to avoid strict maxima, will therefore fail to converge. This is fundamentally different from single losses, where coercivity implies existence of a global minimum. Moreover, we prove that a wide range of existing gradient-based methods almost surely have bounded but non-convergent iterates in a constructed zero-sum game for suitably small learning rates. It nonetheless remains an open question whether such behavior can arise in high-dimensional games of interest to ML practitioners, such as GANs or multi-agent RL.
翻訳日:2022-11-29 00:56:45 公開日:2021-01-17
# 不確かさを伴う深部回転学習のためのSO(3)上の信念の平滑表現

A Smooth Representation of Belief over SO(3) for Deep Rotation Learning with Uncertainty ( http://arxiv.org/abs/2006.01031v4 )

ライセンス: Link先を確認
Valentin Peretroukhin, Matthew Giamou, David M. Rosen, W. Nicholas Greene, Nicholas Roy, Jonathan Kelly(参考訳) 正確な回転推定は、視覚計測やオブジェクトポーズ推定といったロボット知覚タスクの中心にある。 ディープニューラルネットワークはこれらのタスクを実行する新しい方法を提供しており、回転表現の選択はネットワーク設計の重要な部分である。 本研究では、3次元回転群の新しい対称行列表現SO(3)を学習モデルに特に適する2つの重要な特性として提示する:(1)大きな回転対象を回帰する際に収束と一般化を改善する滑らか性特性、(2)単位四元数空間上の対称ビンガムの信念を符号化し、不確実性を考慮したモデルの訓練を可能にする。 2つのデータモダリティに基づいてディープニューラルローテーションレセプタを訓練することにより,この定式化の利点を実証的に検証した。 まず, 任意の回転対象に対する既存の表現よりも予測精度が優れていることを示すために, 合成点クラウドデータを用いる。 第2に, 地上および航空機で収集した画像データを用いて, 自在な確率的損失, 確率的サンプリング, 補助分類器を使わずに, 自転推定のロバスト性を大幅に向上させ, 環境影響や破損した入力画像の再現性を高める効果的なアウト・オブ・ディストリビューション(ood)拒絶技術に, 当社の表現が適していることを示す。 この機能は、新しい入力を検出することで、学習したモデルの破滅的な失敗を防ぐ安全クリティカルなアプリケーションにとって鍵となる。

Accurate rotation estimation is at the heart of robot perception tasks such as visual odometry and object pose estimation. Deep neural networks have provided a new way to perform these tasks, and the choice of rotation representation is an important part of network design. In this work, we present a novel symmetric matrix representation of the 3D rotation group, SO(3), with two important properties that make it particularly suitable for learned models: (1) it satisfies a smoothness property that improves convergence and generalization when regressing large rotation targets, and (2) it encodes a symmetric Bingham belief over the space of unit quaternions, permitting the training of uncertainty-aware models. We empirically validate the benefits of our formulation by training deep neural rotation regressors on two data modalities. First, we use synthetic point-cloud data to show that our representation leads to superior predictive accuracy over existing representations for arbitrary rotation targets. Second, we use image data collected onboard ground and aerial vehicles to demonstrate that our representation is amenable to an effective out-of-distribution (OOD) rejection technique that significantly improves the robustness of rotation estimates to unseen environmental effects and corrupted input images, without requiring the use of an explicit likelihood loss, stochastic sampling, or an auxiliary classifier. This capability is key for safety-critical applications where detecting novel inputs can prevent catastrophic failure of learned models.
翻訳日:2022-11-26 06:31:30 公開日:2021-01-17
# AdaVol: 適応的再帰的ボラティリティ予測手法

AdaVol: An Adaptive Recursive Volatility Prediction Method ( http://arxiv.org/abs/2006.02077v4 )

ライセンス: Link先を確認
Nicklas Werge (LPSM), Olivier Wintenberger (LPSM)(参考訳) QML法は理論的に魅力的であり、統計的推測に広く用いられている。 バッチ設定でのQML推定には広範な参照があるが、ストリーミング設定では最近までほとんど注目されていない。 一般的な条件付きヘテロシダスティック時系列モデルにおけるQML手順の収束特性について検討し,ストリーミングおよび大規模問題の枠組みに拡張された古典的バッチ最適化ルーチンについて検討した。 AdaVol という名前の GARCH モデルに対する適応的再帰的推定ルーチンを示す。 AdaVolの手順は、VTE(Variance Targeting Estimation)と組み合わせた確率近似に依存している。 この再帰的手法は計算効率が良いが、VTEは凸性の欠如により通常のQML推定で発生する収束困難を緩和する。 実証的な結果は、AdaVolの安定性と実生活データに対する時間変化推定に適応する能力との良好なトレードオフを示している。

Quasi-Maximum Likelihood (QML) procedures are theoretically appealing and widely used for statistical inference. While there are extensive references on QML estimation in batch settings, it has attracted little attention in streaming settings until recently. An investigation of the convergence properties of the QML procedure in a general conditionally heteroscedastic time series model is conducted, and the classical batch optimization routines extended to the framework of streaming and large-scale problems. An adaptive recursive estimation routine for GARCH models named AdaVol is presented. The AdaVol procedure relies on stochastic approximations combined with the technique of Variance Targeting Estimation (VTE). This recursive method has computationally efficient properties, while VTE alleviates some convergence difficulties encountered by the usual QML estimation due to a lack of convexity. Empirical results demonstrate a favorable trade-off between AdaVol's stability and the ability to adapt to time-varying estimates for real-life data.
翻訳日:2022-11-25 18:39:59 公開日:2021-01-17
# プール操作の代替としての多層ニューラルネットワーク

Multi Layer Neural Networks as Replacement for Pooling Operations ( http://arxiv.org/abs/2006.06969v4 )

ライセンス: Link先を確認
Wolfgang Fuhl and Enkelejda Kasneci(参考訳) ローコストで計算でき、データ削減のための線形または非線形転送関数として機能するプーリング操作は、ほぼ全ての現代のニューラルネットワークで見られる。 現代のアプローチは、パラメータの変更によって異なる関数を選択できる関数を提供するだけでなく、一般的な最大値選択と平均値演算を置き換えることに既に取り組んでいます。 追加のニューラルネットワークは、これらのプーリング関数のパラメータを推定するために使用され、プール層はモデル全体の複雑さを高めるために補足的なパラメータを必要とする可能性がある。 本研究では,モデルの複雑さを増すことなく,プール操作として既に1つのパーセプトロンを効果的に使用できることを示す。 この種のプーリングは、データを再構成し、結果として複雑なプーリング操作を学ぶことで、複数の層ニューラルネットワークを直接プール操作としてモデルに統合することができる。 テンソル畳み込みに対する我々のアプローチとストライドをプール操作として比較し、我々のアプローチが有効であり、複雑さを減らすことを示す。 データを複数のパーセプトロンと組み合わせて再構成することで、我々のアプローチをアップスケーリングに利用し、セマンティックセグメンテーションにおける転置畳み込みに利用することができる。

Pooling operations, which can be calculated at low cost and serve as a linear or nonlinear transfer function for data reduction, are found in almost every modern neural network. Countless modern approaches have already tackled replacing the common maximum value selection and mean value operations, not to mention providing a function that allows different functions to be selected through changing parameters. Additional neural networks are used to estimate the parameters of these pooling functions.Consequently, pooling layers may require supplementary parameters to increase the complexity of the whole model. In this work, we show that one perceptron can already be used effectively as a pooling operation without increasing the complexity of the model. This kind of pooling allows for the integration of multi-layer neural networks directly into a model as a pooling operation by restructuring the data and, as a result, learnin complex pooling operations. We compare our approach to tensor convolution with strides as a pooling operation and show that our approach is both effective and reduces complexity. The restructuring of the data in combination with multiple perceptrons allows for our approach to be used for upscaling, which can then be utilized for transposed convolutions in semantic segmentation.
翻訳日:2022-11-22 03:17:57 公開日:2021-01-17
# 柔軟なポリシー反復によるループ型ロボット膝の強化学習制御

Reinforcement Learning Control of Robotic Knee with Human in the Loop by Flexible Policy Iteration ( http://arxiv.org/abs/2006.09008v2 )

ライセンス: Link先を確認
Xiang Gao, Jennie Si, Yue Wen, Minhan Li and He (Helen) Huang(参考訳) 我々は、データレベルで効率的で、システムレベルでの安定性や最適性などのパフォーマンス保証を備えた新しい設計を開発するために、人間ロボットシステムで提示される真の課題に動機づけられている。 システム性能を理論的に考慮した既存の近似/適応動的プログラミング(ADP)の結果は、この問題に対して実用的に有用な学習制御アルゴリズムを提供するには至らず、データ効率の問題に対処する強化学習(RL)アルゴリズムは通常、制御システムに性能保証を持たない。 本研究は,ポリシー反復アルゴリズムに革新的な特徴を導入することで,これらの重要な空白を埋める。 フレキシブルポリシー・イテレーション (FPI) を導入し, 前回の経験から得られる経験的リプレイと補足的価値を, 柔軟かつ有機的にRLコントローラに組み込む。 本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。 ロボットシステムの現実的なシミュレーションによりFPIの有効性を実証する。 本研究で直面する課題は、オンラインまたはオフラインのロボットシステムのカスタマイズされた数学的モデルを得ることがほぼ不可能であるため、古典的な制御理論に基づく設計手法では解決が困難である。 その結果,RL制御が高次元制御入力を用いて現実的かつ困難な問題を解く大きな可能性を示唆した。

We are motivated by the real challenges presented in a human-robot system to develop new designs that are efficient at data level and with performance guarantees such as stability and optimality at systems level. Existing approximate/adaptive dynamic programming (ADP) results that consider system performance theoretically are not readily providing practically useful learning control algorithms for this problem; and reinforcement learning (RL) algorithms that address the issue of data efficiency usually do not have performance guarantees for the controlled system. This study fills these important voids by introducing innovative features to the policy iteration algorithm. We introduce flexible policy iteration (FPI), which can flexibly and organically integrate experience replay and supplemental values from prior experience into the RL controller. We show system level performances including convergence of the approximate value function, (sub)optimality of the solution, and stability of the system. We demonstrate the effectiveness of the FPI via realistic simulations of the human-robot system. It is noted that the problem we face in this study may be difficult to address by design methods based on classical control theory as it is nearly impossible to obtain a customized mathematical model of a human-robot system either online or offline. The results we have obtained also indicate the great potential of RL control to solving realistic and challenging problems with high dimensional control inputs.
翻訳日:2022-11-20 21:51:32 公開日:2021-01-17
# 自己注意における奥行きインタラクション

The Depth-to-Width Interplay in Self-Attention ( http://arxiv.org/abs/2006.12467v3 )

ライセンス: Link先を確認
Yoav Levine, Noam Wies, Or Sharir, Hofit Bata and Amnon Shashua(参考訳) 自然言語処理のフロンティアを急速に推し進めているセルフアテンションアーキテクチャは、驚くほどの深度非効率な振る舞いを示している。以前の研究は、内部表現(ネットワーク幅)の増加は、自己アテンション層の数(ネットワーク深度)の増加と同じくらい有用であることを示している。 理論的には、自己注意における深さ効率と深さ効率との幅依存的な遷移を予測する。 理論的に予測された行動を明確に示す深度6〜48のネットワーク上で、系統的な経験的改善を行い、与えられた自己注意ネットワークサイズに対する最適深度-幅割り当てに関する明確な定量的提案を行う。 1-Trillionパラメータ言語モデルを越えたレースでは、自己注意深さとタンデムの幅を増大させるためのインフォームドガイドラインが重要な要素である。 本ガイドラインは,gpt3のスケールまでの大きさの自己追跡ネットワークにおける深さから幅へのトレードオフを解明し,さらにその先例のない幅が1次元パラメータネットワークに最適であることを示すものである。

Self-attention architectures, which are rapidly pushing the frontier in natural language processing, demonstrate a surprising depth-inefficient behavior: previous works indicate that increasing the internal representation (network width) is just as useful as increasing the number of self-attention layers (network depth). We theoretically predict a width-dependent transition between depth-efficiency and depth-inefficiency in self-attention. We conduct systematic empirical ablations on networks of depths 6 to 48 that clearly reveal the theoretically predicted behaviors, and provide explicit quantitative suggestions regarding the optimal depth-to-width allocation for a given self-attention network size. The race towards beyond 1-Trillion parameter language models renders informed guidelines for increasing self-attention depth and width in tandem an essential ingredient. Our guidelines elucidate the depth-to-width trade-off in self-attention networks of sizes up to the scale of GPT3 (which we project to be too deep for its size), and beyond, marking an unprecedented width of 30K as optimal for a 1-Trillion parameter network.
翻訳日:2022-11-18 04:17:58 公開日:2021-01-17
# 創造的実践におけるマルチモーダルな単語センスの曖昧さ

Multimodal Word Sense Disambiguation in Creative Practice ( http://arxiv.org/abs/2007.07758v2 )

ライセンス: Link先を確認
Manuel Ladron de Guevara, Christopher George, Akshat Gupta, Daragh Byrne, Ramesh Krishnamurti(参考訳) 言語は曖昧で、多くの用語や表現が同じ考えを伝えることができる。 これは特に、アイデアやデザインの意図が極めて主観的である創造的な実践において当てはまる。 本稿では,創造的実践の文脈における主観的画像記述と多モーダルな単語曖昧化の基礎となる資料を提供することを目的として,現代作品のAmbiguous Descriptions of Art Images (ADARI) を提示する。 データセットには260kの記述文でラベル付けされた240kの画像が含まれている。 さらに、建築、芸術、デザイン、ファッション、家具、製品デザイン、テクノロジーのサブドメインに編成されている。 主観的画像記述では、ラベルは決定論的ではない:例えば、あいまいなラベルダイナミックは数百の異なる画像に対応する。 この複雑さを理解するために,文分類のための最先端事前学習BERTモデルを用いて,画像に対するテキストのあいまいさと関連性を分析する。 マルチラベル分類タスクのベースラインを提供し,設計意図におけるあいまいさを理解するためのマルチモーダルアプローチの可能性を示す。 adariデータセットとベースラインが主観的なラベル分類への第一歩になることを願っている。

Language is ambiguous; many terms and expressions can convey the same idea. This is especially true in creative practice, where ideas and design intents are highly subjective. We present a dataset, Ambiguous Descriptions of Art Images (ADARI), of contemporary workpieces, which aims to provide a foundational resource for subjective image description and multimodal word disambiguation in the context of creative practice. The dataset contains a total of 240k images labeled with 260k descriptive sentences. It is additionally organized into sub-domains of architecture, art, design, fashion, furniture, product design and technology. In subjective image description, labels are not deterministic: for example, the ambiguous label dynamic might correspond to hundreds of different images. To understand this complexity, we analyze the ambiguity and relevance of text with respect to images using the state-of-the-art pre-trained BERT model for sentence classification. We provide a baseline for multi-label classification tasks and demonstrate the potential of multimodal approaches for understanding ambiguity in design intentions. We hope that ADARI dataset and baselines constitute a first step towards subjective label classification.
翻訳日:2022-11-10 04:43:00 公開日:2021-01-17
# 高エネルギー物理学における機械学習を用いた迷惑パラメータの扱い

Dealing with Nuisance Parameters using Machine Learning in High Energy Physics: a Review ( http://arxiv.org/abs/2007.09121v2 )

ライセンス: Link先を確認
Tommaso Dorigo and Pablo de Castro(参考訳) 本研究では,高エネルギー物理学問題における機械学習の有効性に対するニュアサンスパラメータの影響を考察し,それらの効果を包含し,最適な選択基準と変数変換の探索における効果を低減できる手法のレビューを行う。 ニュアンスパラメータの導入は、実データにおけるモデル性能を劣化させ、その結果の統計的推測に不確実性を加えることによる、教師付き学習課題とそのデータ解析目標との対応を複雑化する。 議論されたアプローチには、ニュアサンスパラメータモデル、修正または逆損失、半教師付き学習アプローチ、推論認識技術が含まれる。

In this work we discuss the impact of nuisance parameters on the effectiveness of machine learning in high-energy physics problems, and provide a review of techniques that allow to include their effect and reduce their impact in the search for optimal selection criteria and variable transformations. The introduction of nuisance parameters complicates the supervised learning task and its correspondence with the data analysis goal, due to their contribution degrading the model performances in real data, and the necessary addition of uncertainties in the resulting statistical inference. The approaches discussed include nuisance-parameterized models, modified or adversary losses, semi-supervised learning approaches, and inference-aware techniques.
翻訳日:2022-11-09 13:49:34 公開日:2021-01-17
# 混合密度ネットワークを用いたベイズ地音響インバージョン

Bayesian geoacoustic inversion using mixture density network ( http://arxiv.org/abs/2008.07902v3 )

ライセンス: Link先を確認
Guoli Wu and Hefeng Dong and Junqiang Song and Jingya Zhang(参考訳) ベイズ的地音響反転問題はマルコフ連鎖モンテカルロ法またはその変種によって解かれるが、これは計算に高価である。 本稿では, 混合密度ネットワーク(MDN)理論を用いて, 多次元後方確率密度(PPD)からベイズ測地音響インバージョンの重要な測地統計を導出することにより, 古典的ベイズ測地音響インバージョンフレームワークを拡張した。 これらの統計は、パラメータ空間全体に直接ネットワークをトレーニングし、モデルのパラメータの多次元PDを得るのに便利である。 このアプローチはベイズ推論フレームワークにおける測地反転問題を解くためのより効率的な方法を提供する。 ネットワークは、せん断波速度をラベルとする表面波分散曲線のシミュレーションデータセットに基づいてトレーニングされ、合成データと実データの両方でテストされる。 その結果,ネットワークは信頼性の高い予測を行い,未取得データに対して高い一般化性能を示すことがわかった。 一度訓練すると、ネットワークは(数秒で)モンテカルロ法に匹敵する完全な確率的解を与えることができる。 リアルタイムの逆転には有望なアプローチを提供する。

Bayesian geoacoustic inversion problems are conventionally solved by Markov chain Monte Carlo methods or its variants, which are computationally expensive. This paper extends the classic Bayesian geoacoustic inversion framework by deriving important geoacoustic statistics of Bayesian geoacoustic inversion from the multidimensional posterior probability density (PPD) using the mixture density network (MDN) theory. These statistics make it convenient to train the network directly on the whole parameter space and get the multidimensional PPD of model parameters. The present approach provides a much more efficient way to solve geoacoustic inversion problems in Bayesian inference framework. The network is trained on a simulated dataset of surface-wave dispersion curves with shear-wave velocities as labels and tested on both synthetic and real data cases. The results show that the network gives reliable predictions and has good generalization performance on unseen data. Once trained, the network can rapidly (within seconds) give a fully probabilistic solution which is comparable to Monte Carlo methods. It provides an promising approach for real-time inversion.
翻訳日:2022-10-27 21:12:55 公開日:2021-01-17
# ランダム森林を用いた動的サブモデル配置によるデータ支援燃焼シミュレーション

Data-assisted combustion simulations with dynamic submodel assignment using random forests ( http://arxiv.org/abs/2009.04023v3 )

ライセンス: Link先を確認
Wai Tong Chung, Aashwin Ananda Mishra, Nikolaos Perakis, Matthias Ihme(参考訳) 本研究では,乱気流シミュレーションにおける局所および動的燃焼サブモデル割り当てのためのランダムフォレスト分類器を用いたデータ支援手法について概説する。 本手法は, 単要素GOX/GCH4ロケット燃焼器のシミュレーションに適用し, 先行および後部評価を行った。 (i)異なる利得量(qois)を対象とする分類器の精度と調整性を評価する。 (ii)シミュレーション実行時の目標qois予測におけるデータ支援燃焼モデルの割り当てによる改善を評価する。 先行研究の結果, 局所流動特性を入力変数とし, 燃焼モデル誤差をトレーニングラベルとし, 有限レート化学 (FRC) , フレアレット進行変数 (FPV) モデル, 不活性混合 (IM) の3種類の燃焼モデルを, 複数のQoIを標的とした場合でも合理的な分類性能で割り当てた。 後部研究の応用は、モノリシックなFPV計算と比較して、温度とCO質量分率におけるデータアシストシミュレーションによる予測の改善を示す。 これらの結果から, 反応流シミュレーションにおける動的燃焼サブモデル割当が期待できることを示す。

In this investigation, we outline a data-assisted approach that employs random forest classifiers for local and dynamic combustion submodel assignment in turbulent-combustion simulations. This method is applied in simulations of a single-element GOX/GCH4 rocket combustor; a priori as well as a posteriori assessments are conducted to (i) evaluate the accuracy and adjustability of the classifier for targeting different quantities-of-interest (QoIs), and (ii) assess improvements, resulting from the data-assisted combustion model assignment, in predicting target QoIs during simulation runtime. Results from the a priori study show that random forests, trained with local flow properties as input variables and combustion model errors as training labels, assign three different combustion models - finite-rate chemistry (FRC), flamelet progress variable (FPV) model, and inert mixing (IM) - with reasonable classification performance even when targeting multiple QoIs. Applications in a posteriori studies demonstrate improved predictions from data-assisted simulations, in temperature and CO mass fraction, when compared with monolithic FPV calculations. These results demonstrate that this data-driven framework holds promise for the dynamic combustion submodel assignment in reacting flow simulations.
翻訳日:2022-10-20 21:45:19 公開日:2021-01-17
# 深層学習による回転コア崩壊重力波からの状態方程式の分類

Classifying the Equation of State from Rotating Core Collapse Gravitational Waves with Deep Learning ( http://arxiv.org/abs/2009.07367v3 )

ライセンス: Link先を確認
Matthew C. Edwards(参考訳) 本稿では,「回転する核崩壊重力波信号によって,その核状態方程式を決定できるのか?」という問いに答える。 この質問に答えるために、我々は深層畳み込みニューラルネットワークを用いて、核状態方程式(EOS)を予測するために、回転中核崩壊重力波(GW)信号に埋め込まれた視覚的および時間的パターンを学習する。 リチャーズらは18種類の核eosを持つ1824年回転コア崩壊gwシミュレーション(2017年)を用いて、これは古典的な多クラス画像分類とシーケンス分類問題であると考えている。 テストセットにおける最大72\%の正しい分類を達成し、最も可能性の高いラベルである「トップ5」を考えると、97\%まで上昇し、回転するコア崩壊gw信号が核eosに中程度かつ測定可能な依存性があることが示される。

In this paper, we seek to answer the question "given a rotating core collapse gravitational wave signal, can we determine its nuclear equation of state?". To answer this question, we employ deep convolutional neural networks to learn visual and temporal patterns embedded within rotating core collapse gravitational wave (GW) signals in order to predict the nuclear equation of state (EOS). Using the 1824 rotating core collapse GW simulations by Richers et al. (2017), which has 18 different nuclear EOS, we consider this to be a classic multi-class image classification and sequence classification problem. We attain up to 72\% correct classifications in the test set, and if we consider the "top 5" most probable labels, this increases to up to 97\%, demonstrating that there is a moderate and measurable dependence of the rotating core collapse GW signal on the nuclear EOS.
翻訳日:2022-10-18 06:52:45 公開日:2021-01-17
# 重み付き符号化型ニューラルインシシット3次元形状の有効性について

On the Effectiveness of Weight-Encoded Neural Implicit 3D Shapes ( http://arxiv.org/abs/2009.09808v3 )

ライセンス: Link先を確認
Thomas Davies and Derek Nowrouzezahrai and Alec Jacobson(参考訳) ニューラル暗黙は、空間内の所定のクエリポイントが内部、外部、または表面にあるかどうかを示す番号を出力する。 多くの先行研究は_latent-encoded_ Neural implicitsに焦点を当てており、特定の形状の潜在ベクトル符号化も入力として提供される。 潜在空間補間が可能ではあるが、これは任意の_single_形状の再構成精度のコストがかかる。 3d形状ごとに特定のネットワークを訓練すると、_weight-encoded_ neural implicitは潜伏ベクトルと焦点再構成精度を1つの形状の詳細に強制する。 以前は3dスキャンタスクの中間表現、あるいは潜在エンコードタスクに至るおもちゃのプロブレムと見なされていたが、重みエンコードされたニューラルネットワークの暗黙的表現は、まだ3d形状表現として真剣に捉えられていない。 本稿では,重み付きニューラルネットワークが第一級の3次元形状表現の基準を満たすことを確かめる。 我々は,ポリゴンメッシュによって誘導される符号付き距離場(_de facto_標準表現)を学ぶ際に,再現精度,収束性,堅牢性を改善するための一連の技術貢献を紹介する。 損失圧縮と見なされ、我々の変換は幾何処理の標準技術よりも優れている。 従来の潜在型および重み付きニューラルネットワークと比較して、優れた堅牢性、スケーラビリティ、パフォーマンスを示している。

A neural implicit outputs a number indicating whether the given query point in space is inside, outside, or on a surface. Many prior works have focused on _latent-encoded_ neural implicits, where a latent vector encoding of a specific shape is also fed as input. While affording latent-space interpolation, this comes at the cost of reconstruction accuracy for any _single_ shape. Training a specific network for each 3D shape, a _weight-encoded_ neural implicit may forgo the latent vector and focus reconstruction accuracy on the details of a single shape. While previously considered as an intermediary representation for 3D scanning tasks or as a toy-problem leading up to latent-encoding tasks, weight-encoded neural implicits have not yet been taken seriously as a 3D shape representation. In this paper, we establish that weight-encoded neural implicits meet the criteria of a first-class 3D shape representation. We introduce a suite of technical contributions to improve reconstruction accuracy, convergence, and robustness when learning the signed distance field induced by a polygonal mesh -- the _de facto_ standard representation. Viewed as a lossy compression, our conversion outperforms standard techniques from geometry processing. Compared to previous latent- and weight-encoded neural implicits we demonstrate superior robustness, scalability, and performance.
翻訳日:2022-10-17 12:13:49 公開日:2021-01-17
# グラフニューラルネットワークにおける知識グラフコンテキストを用いた関係抽出

RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network ( http://arxiv.org/abs/2009.08694v2 )

ライセンス: Link先を確認
Anson Bastos, Abhishek Nadgeri, Kuldeep Singh, Isaiah Onando Mulang', Saeedeh Shekarpour, Johannes Hoffart, Manohar Kaul(参考訳) 本稿では,文中の関係を自動的に識別し,知識グラフ(KG)に整合するRECONという新しい手法を提案する。 RECONはグラフニューラルネットワークを使用して、文とKGに格納された事実の両方の表現を学習し、全体的な抽出品質を向上させる。 エンティティ属性(ラベル、エイリアス、説明、インスタンス)や事実トリプルを含むこれらの事実は、アートメソッドの状態においてまとめては使われていない。 我々は,KGコンテキストの様々な形態がRECONの性能に与える影響を評価する。 2つの標準関係抽出データセットに対する実証的な評価は、RECONがNYT FreebaseとWikidataデータセットのアートメソッドのすべての状態を著しく上回っていることを示している。 RECONはWikidataデータセット上で87.23 F1スコア(Vs 82.29ベースライン)を報告しているが、NYT Freebaseでは81.3スコア(P@10)と63.1スコア(P@30)に対して87.5(P@10)と74.1(P@30)と報告されている。

In this paper, we present a novel method named RECON, that automatically identifies relations in a sentence (sentential relation extraction) and aligns to a knowledge graph (KG). RECON uses a graph neural network to learn representations of both the sentence as well as facts stored in a KG, improving the overall extraction quality. These facts, including entity attributes (label, alias, description, instance-of) and factual triples, have not been collectively used in the state of the art methods. We evaluate the effect of various forms of representing the KG context on the performance of RECON. The empirical evaluation on two standard relation extraction datasets shows that RECON significantly outperforms all state of the art methods on NYT Freebase and Wikidata datasets. RECON reports 87.23 F1 score (Vs 82.29 baseline) on Wikidata dataset whereas on NYT Freebase, reported values are 87.5(P@10) and 74.1(P@30) compared to the previous baseline scores of 81.3(P@10) and 63.1(P@30).
翻訳日:2022-10-17 02:14:43 公開日:2021-01-17
# アーケード学習環境におけるマルチプレイヤー支援

Multiplayer Support for the Arcade Learning Environment ( http://arxiv.org/abs/2009.09341v2 )

ライセンス: Link先を確認
J. K. Terry, Benjamin Black, Luis Santos(参考訳) アーケード学習環境(アーケード学習環境、英: Arcade Learning Environment、ALE)は、強化学習コミュニティで広く使われているライブラリであり、ステラエミュレータを介して、Atari 2600ゲームと簡単にプログラムで対話できる。 我々は、マルチプレイヤーゲームやゲームモードへのサポートを拡張するALEの公開拡張を導入する。 このインターフェイスはpettingzooと統合され、pythonのシンプルなジムのようなインターフェイスがこれらのゲームと対話できる。 さらに,すべての環境に対して実験ベースラインを導入する。

The Arcade Learning Environment ("ALE") is a widely used library in the reinforcement learning community that allows easy programmatic interfacing with Atari 2600 games, via the Stella emulator. We introduce a publicly available extension to the ALE that extends its support to multiplayer games and game modes. This interface is additionally integrated with PettingZoo to allow for a simple Gym-like interface in Python to interact with these games. We additionally introduce experimental baselines for all environments included.
翻訳日:2022-10-16 12:34:24 公開日:2021-01-17
# 回転リング, ラジアル, 深さワイズ分離型ラジアルコンボリューション

Rotated Ring, Radial and Depth Wise Separable Radial Convolutions ( http://arxiv.org/abs/2010.00873v3 )

ライセンス: Link先を確認
Wolfgang Fuhl, Enkelejda Kasneci(参考訳) 単純な画像回転はディープニューラルネットワークの精度を著しく低下させる。 さらに、あらゆる回転可能なトレーニングによってデータセットが増加し、トレーニング期間も増加します。 本研究では,完全連結層は1次元入力でのみ回転不変であるので,学習可能な回転不変な畳み込みとネットの構成を扱う。 一方,我々のアプローチは,異なるモデルと異なる公開データセットに対して回転不変であることを示す。 また、純粋に回転不変な特徴が精度に与える影響についても論じる。 この研究で示された回転適応畳み込みモデルは、通常の畳み込みモデルよりも計算集約的である。 したがって,放射状畳み込みによる深度賢明な分離可能なアプローチも提案する。 cuda コード https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/

Simple image rotations significantly reduce the accuracy of deep neural networks. Moreover, training with all possible rotations increases the data set, which also increases the training duration. In this work, we address trainable rotation invariant convolutions as well as the construction of nets, since fully connected layers can only be rotation invariant with a one-dimensional input. On the one hand, we show that our approach is rotationally invariant for different models and on different public data sets. We also discuss the influence of purely rotational invariant features on accuracy. The rotationally adaptive convolution models presented in this work are more computationally intensive than normal convolution models. Therefore, we also present a depth wise separable approach with radial convolution. Link to CUDA code https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/
翻訳日:2022-10-12 01:42:08 公開日:2021-01-17
# 深層ニューラルネットワークにおける重みと勾配集中化

Weight and Gradient Centralization in Deep Neural Networks ( http://arxiv.org/abs/2010.00866v3 )

ライセンス: Link先を確認
Wolfgang Fuhl, Enkelejda Kasneci(参考訳) バッチ正規化は現在、ディープニューラルネットワークの最も広く使われている内部正規化の変種である。 さらなる研究により、重みの正規化と追加条件付け、および勾配の正規化は一般化をさらに改善することが示されている。 本研究では,これらの手法を組み合わせることにより,ネットワークの一般化が促進される。 バッチ正規化と比較して新しい手法の利点は、一般化が増大するだけでなく、これらの手法は訓練中にのみ適用されなければならないため、使用中のランニング時間に影響を与えない。 cuda コード https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/

Batch normalization is currently the most widely used variant of internal normalization for deep neural networks. Additional work has shown that the normalization of weights and additional conditioning as well as the normalization of gradients further improve the generalization. In this work, we combine several of these methods and thereby increase the generalization of the networks. The advantage of the newer methods compared to the batch normalization is not only increased generalization, but also that these methods only have to be applied during training and, therefore, do not influence the running time during use. Link to CUDA code https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/
翻訳日:2022-10-12 01:25:16 公開日:2021-01-17
# 実践的応用のための機械学習モデルの説明可能なオンライン検証

Explainable Online Validation of Machine Learning Models for Practical Applications ( http://arxiv.org/abs/2010.00821v3 )

ライセンス: Link先を確認
Wolfgang Fuhl, Yao Rong, Thomas Motz, Michael Scheidt, Andreas Hartel, Andreas Koch, Enkelejda Kasneci(参考訳) 本稿では,機械学習アルゴリズムの結果を検証することを目的とした回帰と分類の再構成を提案する。 トレーニングデータを用いて,元の問題を単純化し,機械学習アルゴリズムの結果を検証した。 機械学習アルゴリズムの検証は常に説明可能である必要があるため、我々はkNNアルゴリズムと条件付き確率に基づくアルゴリズムを用いて実験を行い、本研究で提案する。 提案手法の評価には,3つの公開データセットを用い,3つの分類と2つの回帰問題を評価した。 条件付き確率に基づく提案アルゴリズムはオンラインでも利用可能であり、kNNアルゴリズムと比較してわずかにメモリを必要とする。

We present a reformulation of the regression and classification, which aims to validate the result of a machine learning algorithm. Our reformulation simplifies the original problem and validates the result of the machine learning algorithm using the training data. Since the validation of machine learning algorithms must always be explainable, we perform our experiments with the kNN algorithm as well as with an algorithm based on conditional probabilities, which is proposed in this work. For the evaluation of our approach, three publicly available data sets were used and three classification and two regression problems were evaluated. The presented algorithm based on conditional probabilities is also online capable and requires only a fraction of memory compared to the kNN algorithm.
翻訳日:2022-10-12 00:14:50 公開日:2021-01-17
# もしビームサーチが答えなら、質問は何だったのか?

If beam search is the answer, what was the question? ( http://arxiv.org/abs/2010.02650v2 )

ライセンス: Link先を確認
Clara Meister, Tim Vieira, Ryan Cotterell(参考訳) 驚くべきことに、ニューラルネットワークジェネレータの正確な最大値(MAP)復号化は、しばしば低品質な結果をもたらす。 むしろ、言語生成タスクにおける最先端の成果のほとんどは、圧倒的に高い検索エラー率にもかかわらず、ビームサーチによって達成される。 これはMAPの目的だけで私たちが望む性質をテキストで表現していないことを意味しており、ビームサーチが答えであるなら、質問は何だったのか? 異なる復号目的に対する正確な解としてビーム探索をフレーム化することで、モデル単独で高い確率が妥当性を示さない理由についての洞察を得る。 ビームサーチは認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。 この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正が不十分な言語生成モデルにおいて発生する問題を緩和する。 さらに,様々なデコーディング戦略を用いて生成されたテキストを分析し,本研究のニューラルマシン翻訳実験において,この特性がbleuと強く相関する程度について検討した。

Quite surprisingly, exact maximum a posteriori (MAP) decoding of neural language generators frequently leads to low-quality results. Rather, most state-of-the-art results on language generation tasks are attained using beam search despite its overwhelmingly high search error rate. This implies that the MAP objective alone does not express the properties we desire in text, which merits the question: if beam search is the answer, what was the question? We frame beam search as the exact solution to a different decoding objective in order to gain insights into why high probability under a model alone may not indicate adequacy. We find that beam search enforces uniform information density in text, a property motivated by cognitive science. We suggest a set of decoding objectives that explicitly enforce this property and find that exact decoding with these objectives alleviates the problems encountered when decoding poorly calibrated language generation models. Additionally, we analyze the text produced using various decoding strategies and see that, in our neural machine translation experiments, the extent to which this property is adhered to strongly correlates with BLEU.
翻訳日:2022-10-10 06:55:56 公開日:2021-01-17
# 組込み自己予測による強化学習の対照的な説明

Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions ( http://arxiv.org/abs/2010.05180v2 )

ライセンス: Link先を確認
Zhengxian Lin, Kim-Ho Lam and Alan Fern(参考訳) 本稿では,学習者が他者よりも行動を好む理由を説明するための,深層強化学習(RL)アーキテクチャについて検討する。 鍵となるアイデアは、期待される未来の人間の理解可能な特性を通じて直接表現されるアクション値を学ぶことである。 これは、人間が提供する特徴の観点からその特性を学習する組み込み自己予測(ESP)モデルによって実現される。 アクションの好みは、アクション毎に予測される将来のプロパティと対比することで説明できる。 多数の特徴があるケースに対処するため、我々は anESP から必要最小限の説明を計算するための新しい方法を開発した。 複雑な戦略ゲームを含む3つの領域におけるケーススタディは、ESPモデルを効果的に学習し、洞察に富んだ説明を支援することができることを示している。

We investigate a deep reinforcement learning (RL) architecture that supports explaining why a learned agent prefers one action over another. The key idea is to learn action-values that are directly represented via human-understandable properties of expected futures. This is realized via the embedded self-prediction (ESP)model, which learns said properties in terms of human provided features. Action preferences can then be explained by contrasting the future properties predicted for each action. To address cases where there are a large number of features, we develop a novel method for computing minimal sufficient explanations from anESP. Our case studies in three domains, including a complex strategy game, show that ESP models can be effectively learned and support insightful explanations.
翻訳日:2022-10-08 13:32:02 公開日:2021-01-17
# PreGAN:弱いペア画像スタイルの翻訳のランダム化と推定

PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style Translation ( http://arxiv.org/abs/2011.00301v2 )

ライセンス: Link先を確認
Zexi Chen, Jiaxin Guo, Xuecheng Xu, Yunkai Wang, Yue Wang, Rong Xiong(参考訳) データアノテーションのない異なる条件下でのトレーニングモデルの利用は、ロボットアプリケーションにとって魅力的である。 この目標に向けて、ある種類のメソッドは、イメージスタイルを別の環境からモデルが訓練された環境へ変換する。 本稿では,2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。 これらの画像は、晴れた日や霧の夜からLiDARやステレオカメラと重なる領域を共有する異なる条件下で異なるセンサーによって取得することができる。 この設定はもっと実用的だと思います (i) ペアデータよりもラベル付けが容易である。 (ii)未処理のデータよりも解釈性と詳細検索が優れている。 そこで本研究では,この2つの画像を無作為なポーズで故意に変換して,スタイルトランスレータを訓練するプレガンを提案し,スタイルが整うほど推定結果が良くなることを考慮し,無作為なポーズ推定器を用いて任意のポーズを推定する。 このような敵対的な訓練は、他のバリエーションと絡まらずに、スタイル翻訳を学ぶネットワークを強制する。 最後に、PreGANをシミュレーションデータと実世界のデータの両方で検証し、有効性を示す。 下流タスク、分類、道路分割、オブジェクト検出、特徴マッチングの結果は、実際のアプリケーションの可能性を示している。 https://github.com/wrld/PRoGAN

Utilizing the trained model under different conditions without data annotation is attractive for robot applications. Towards this goal, one class of methods is to translate the image style from another environment to the one on which models are trained. In this paper, we propose a weakly-paired setting for the style translation, where the content in the two images is aligned with errors in poses. These images could be acquired by different sensors in different conditions that share an overlapping region, e.g. with LiDAR or stereo cameras, from sunny days or foggy nights. We consider this setting to be more practical with: (i) easier labeling than the paired data; (ii) better interpretability and detail retrieval than the unpaired data. To translate across such images, we propose PREGAN to train a style translator by intentionally transforming the two images with a random pose, and to estimate the given random pose by differentiable non-trainable pose estimator given that the more aligned in style, the better the estimated result is. Such adversarial training enforces the network to learn the style translation, avoiding being entangled with other variations. Finally, PREGAN is validated on both simulated and real-world collected data to show the effectiveness. Results on down-stream tasks, classification, road segmentation, object detection, and feature matching show its potential for real applications. https://github.com/wrld/PRoGAN
翻訳日:2022-10-01 05:14:51 公開日:2021-01-17
# SMTによる二元化ニューラルネットワークの検証

An SMT-Based Approach for Verifying Binarized Neural Networks ( http://arxiv.org/abs/2011.02948v2 )

ライセンス: Link先を確認
Guy Amir, Haoze Wu, Clark Barrett and Guy Katz(参考訳) ディープラーニングは現代のソフトウェアシステムを作るための効果的なアプローチとして現れ、ニューラルネットワークはしばしば手作りのシステムを超えた。 残念ながら、ニューラルネットワークは様々な安全性とセキュリティの問題に悩まされている。 形式的検証は、ネットワークが正しいことを正式に証明することで、この困難に取り組むための有望な方法である。 ニューラルネットワークのメモリとエネルギー効率を向上し、より高速に評価するために、いくつかの重みが二項化されているニューラルネットワークであるバイナリ化ニューラルネットワークを検証するためのSMTベースの手法を提案する。 この手法の目新しさは、バイナリ化コンポーネントと非バイナリ化コンポーネントの両方を含むニューラルネットワークの検証を可能にすることです。 ニューラルネットワークの検証は非常に計算が難しいため,提案手法はsmt手続きに組み込んだ様々な最適化手法を提案するとともに,検証クエリの並列化手法を提案する。 この手法をmarabouフレームワークの拡張として実装し,一般的なバイナリ化ニューラルネットワークアーキテクチャ上でのアプローチ評価に使用する。

Deep learning has emerged as an effective approach for creating modern software systems, with neural networks often surpassing hand-crafted systems. Unfortunately, neural networks are known to suffer from various safety and security issues. Formal verification is a promising avenue for tackling this difficulty, by formally certifying that networks are correct. We propose an SMT-based technique for verifying Binarized Neural Networks - a popular kind of neural network, where some weights have been binarized in order to render the neural network more memory and energy efficient, and quicker to evaluate. One novelty of our technique is that it allows the verification of neural networks that include both binarized and non-binarized components. Neural network verification is computationally very difficult, and so we propose here various optimizations, integrated into our SMT procedure as deduction steps, as well as an approach for parallelizing verification queries. We implement our technique as an extension to the Marabou framework, and use it to evaluate the approach on popular binarized neural network architectures.
翻訳日:2022-09-29 12:50:46 公開日:2021-01-17
# SoMin.ai: パーソナリティ駆動のコンテンツ生成プラットフォーム

SoMin.ai: Personality-Driven Content Generation Platform ( http://arxiv.org/abs/2011.14615v2 )

ライセンス: Link先を確認
Aleksandr Farseev, Qi Yang, Andrey Filchenkov, Kirill Lepikhin, Yu-Yi Chu-Farseeva, Daron-Benjamin Loo(参考訳) この技術デモでは、世界初のパーソナリティ駆動のマーケティングコンテンツ生成プラットフォームであるSoMin.aiを紹介します。 このプラットフォームは、ディープマルチビューパーソナリティプロファイリングフレームワークと、異なる人のパーソナリティタイプにアピールするコンテンツの自動生成を容易にするスタイル生成広告ネットワークを組み合わせる。 このプラットフォームは、ソーシャルネットワークのユーザーエクスペリエンスの強化や、コンテンツマーケティングのルーチンに使用できる。 somin.aiは、ユーザのソーシャルネットワークコンテンツから自動的に派生したmbtiパーソナリティタイプに導かれ、ソーシャルネットワーク会場におけるユーザエクスペリエンスの向上と、デジタルマーケティングキャンペーンのための新しいコンテンツ作成におけるマーケターの努力の多様化を目的とした類似のパーソナリティタイプを持つ、他のユーザの好みに基づいて、新しいソーシャルメディアコンテンツを生成する。 プラットフォームGUIによるリアルタイムユーザフィードバックは、コンテンツ生成モデルと評価結果を微調整し、コンテンツ生成シナリオに適用された場合、提案したマルチビューパーソナリティプロファイリングフレームワークの有望な性能を示す。 コンテンツ生成を大規模に活用することで、マーケターはより効果的なデジタルマーケティングキャンペーンを低コストで実行できるようになる。

In this technical demonstration, we showcase the World's first personality-driven marketing content generation platform, called SoMin.ai. The platform combines deep multi-view personality profiling framework and style generative adversarial networks facilitating the automatic creation of content that appeals to different human personality types. The platform can be used for the enhancement of the social networking user experience as well as for content marketing routines. Guided by the MBTI personality type, automatically derived from a user social network content, SoMin.ai generates new social media content based on the preferences of other users with a similar personality type aiming at enhancing the user experience on social networking venues as well diversifying the efforts of marketers when crafting new content for digital marketing campaigns. The real-time user feedback to the platform via the platform's GUI fine-tunes the content generation model and the evaluation results demonstrate the promising performance of the proposed multi-view personality profiling framework when being applied in the content generation scenario. By leveraging content generation at a large scale, marketers will be able to execute more effective digital marketing campaigns at a lower cost.
翻訳日:2021-06-06 14:30:26 公開日:2021-01-17
# 各種低リソース言語における音声認識へのWav2vec2.0の適用

Applying Wav2vec2.0 to Speech Recognition in Various Low-resource Languages ( http://arxiv.org/abs/2012.12121v2 )

ライセンス: Link先を確認
Cheng Yi, Jianzhong Wang, Ning Cheng, Shiyu Zhou, Bo Xu(参考訳) ResNet、BERT、GPT-xなど、広く使われている機能抽出器を所有するドメインはいくつかある。 これらのモデルは、通常、自己スーパービジョンによって大量の未ラベルデータに対して事前訓練され、下流タスクに効果的に適用できる。 音声領域において、wav2vec2.0は、オーディオブックドメインに属するLibrispeechコーパス上で、その強力な表現能力と超低リソース音声認識の実現可能性を示す。 しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。 言語に対する普遍性を検証するため,各種音声言語における低リソース音声認識タスクの解法として,事前学習モデルを適用した。 これまでの作業と比較して、6つの言語で20%以上の相対的な改善を実現しています。 これらの言語の中で、英語は52.4%増加した。 さらに、サブワードやキャラクタなどの粗粒度モデリングユニットを使用することで、電話や文字などの細粒度モデリングユニットよりも優れた結果が得られる。

There are several domains that own corresponding widely used feature extractors, such as ResNet, BERT, and GPT-x. These models are usually pre-trained on large amounts of unlabeled data by self-supervision and can be effectively applied to downstream tasks. In the speech domain, wav2vec2.0 starts to show its powerful representation ability and feasibility of ultra-low resource speech recognition on the Librispeech corpus, which belongs to the audiobook domain. However, wav2vec2.0 has not been examined on real spoken scenarios and languages other than English. To verify its universality over languages, we apply pre-trained models to solve low-resource speech recognition tasks in various spoken languages. We achieve more than 20% relative improvements in six languages compared with previous work. Among these languages, English achieves a gain of 52.4%. Moreover, using coarse-grained modeling units, such as subword or character, achieves better results than fine-grained modeling units, such as phone or letter.
翻訳日:2021-04-26 07:34:41 公開日:2021-01-17
# 心不全患者に対する深部半監督型組込みクラスタリング(DSEC)

Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of Heart Failure Patients ( http://arxiv.org/abs/2012.13233v3 )

ライセンス: Link先を確認
Oliver Carr, Stojan Jovanovic, Luca Albergante, Fernando Andreotti, Robert D\"urichen, Nadia Lipunova, Janie Baxter, Rabia Khan, Benjamin Irving(参考訳) 疾患の表現型を決定することは、病院内患者のケアや薬物開発にかなりの利益をもたらす。 電子健康記録のような高次元データセットの構造は、しばしば類似した構造のデータをグループ化するクラスタリング法を用いて、データの埋め込みを通して表現される。 サブグループがデータの中に存在することが分かっている場合、教師付き手法が発見されるクラスタに影響を与える可能性がある。 本稿では,半教師付き深層クラスタリングアルゴリズムに深層クラスタリングを拡張して,データ中の既知のラベルを通してサブグループを階層化する手法を提案する。 本研究では,4,487人の心不全とコントロール患者の電子健康記録から,データ駆動型心不全患者サブグループを決定するために,深層半教師付き組込みクラスタリングを適用した。 ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。 提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができるため、治療の改善につながる可能性がある。

Determining phenotypes of diseases can have considerable benefits for in-hospital patient care and to drug development. The structure of high dimensional data sets such as electronic health records are often represented through an embedding of the data, with clustering methods used to group data of similar structure. If subgroups are known to exist within data, supervised methods may be used to influence the clusters discovered. We propose to extend deep embedded clustering to a semi-supervised deep embedded clustering algorithm to stratify subgroups through known labels in the data. In this work we apply deep semi-supervised embedded clustering to determine data-driven patient subgroups of heart failure from the electronic health records of 4,487 heart failure and control patients. We find clinically relevant clusters from an embedded space derived from heterogeneous data. The proposed algorithm can potentially find new undiagnosed subgroups of patients that have different outcomes, and, therefore, lead to improved treatments.
翻訳日:2021-04-25 08:11:03 公開日:2021-01-17
# (参考訳) 論理テンソルネットワーク

Logic Tensor Networks ( http://arxiv.org/abs/2012.13635v3 )

ライセンス: CC BY 4.0
Samy Badreddine and Artur d'Avila Garcez and Luciano Serafini and Michael Spranger(参考訳) 人工知能エージェントは、周囲から学び、意思決定のために学習された知識について判断することが求められる。 データからの最先端の学習は、通常、サブシンボリックな分散表現を使用するが、推論は通常、知識表現に一階述語論理言語を用いることでより高度な抽象レベルで有用である。 その結果、シンボリックAIとニューラル計算をニューラルシンボリックシステムに組み合わせようとする試みが増加している。 本稿では,多値・エンドツーエンドの微分可能一階述語論理であるreal logicをディープラーニングの表現言語として導入することにより,学習と推論を支援するニューロシンボリック形式と計算モデルである logic tensor networks (ltn) を提案する。 LTNは,データクラスタリング,マルチラベル分類,リレーショナル学習,クエリ応答,半教師付き学習,回帰学習,埋め込み学習など,いくつかのAIタスクの仕様と計算のための統一言語を提供する。 TensorFlow 2.0を使用した簡単な説明例を多数用意して,上記の各タスクの実装と説明を行う。 キーワード:Neurosymbolic AI, Deep Learning and Reasoning, Many-valued Logic。

Artificial Intelligence agents are required to learn from their surroundings and to reason about the knowledge that has been learned in order to make decisions. While state-of-the-art learning from data typically uses sub-symbolic distributed representations, reasoning is normally useful at a higher level of abstraction with the use of a first-order logic language for knowledge representation. As a result, attempts at combining symbolic AI and neural computation into neural-symbolic systems have been on the increase. In this paper, we present Logic Tensor Networks (LTN), a neurosymbolic formalism and computational model that supports learning and reasoning through the introduction of a many-valued, end-to-end differentiable first-order logic called Real Logic as a representation language for deep learning. We show that LTN provides a uniform language for the specification and the computation of several AI tasks such as data clustering, multi-label classification, relational learning, query answering, semi-supervised learning, regression and embedding learning. We implement and illustrate each of the above tasks with a number of simple explanatory examples using TensorFlow 2. Keywords: Neurosymbolic AI, Deep Learning and Reasoning, Many-valued Logic.
翻訳日:2021-04-25 04:45:36 公開日:2021-01-17
# Dual-Refinement: Unsupervised Domain Adaptive Person Re-Identificationのためのジョイントラベルと特徴リファインメント

Dual-Refinement: Joint Label and Feature Refinement for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2012.13689v2 )

ライセンス: Link先を確認
Yongxing Dai, Jun Liu, Yan Bai, Zekun Tong, Ling-Yu Duan(参考訳) unsupervised domain adaptive (uda) person re-id(re-id)は、対象ドメインデータのラベルが欠如しているため、困難なタスクである。 この問題に対処するため、最近の研究ではクラスタリングアルゴリズムを用いて擬似ラベルをオフラインで生成し、ターゲットドメインにおけるオンライン機能学習の監視信号として使用することができる。 しかし、オフラインで生成されたラベルには多くのノイズが含まれているため、オンライン学習された特徴の識別が著しく阻害され、最後のUDA再ID性能が制限される。 そこで本研究では,オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズの特徴を共同で洗練し,より信頼性の高い再識別のために,ターゲット領域におけるラベルの純度と特徴判別性を高める新しい手法であるdual-refinementを提案する。 具体的には、オフラインフェーズにおいて、粗いクラスタ毎に代表プロトタイプを選択する新しい階層的クラスタリングスキームを提案する。 これにより、人物画像の固有階層情報を用いてラベルを効果的に洗練することができる。 さらに,オンライン段階では,提案するインスタントメモリバンクを利用して,データセット全体のサンプル機能を格納し,トレーニングデータ全体のスプレッドアウト機能学習を可能にする,インスタントメモリスプレッドアウト(IM-spread-out)正規化を提案する。 我々のデュアルリファインメント法は, ノイズラベルの影響を低減し, 代替学習プロセスにおける学習特徴を洗練させる。 実験により,本手法は最先端の手法よりも高い性能を示した。

Unsupervised domain adaptive (UDA) person re-identification (re-ID) is a challenging task due to the missing of labels for the target domain data. To handle this problem, some recent works adopt clustering algorithms to off-line generate pseudo labels, which can then be used as the supervision signal for on-line feature learning in the target domain. However, the off-line generated labels often contain lots of noise that significantly hinders the discriminability of the on-line learned features, and thus limits the final UDA re-ID performance. To this end, we propose a novel approach, called Dual-Refinement, that jointly refines pseudo labels at the off-line clustering phase and features at the on-line training phase, to alternatively boost the label purity and feature discriminability in the target domain for more reliable re-ID. Specifically, at the off-line phase, a new hierarchical clustering scheme is proposed, which selects representative prototypes for every coarse cluster. Thus, labels can be effectively refined by using the inherent hierarchical information of person images. Besides, at the on-line phase, we propose an instant memory spread-out (IM-spread-out) regularization, that takes advantage of the proposed instant memory bank to store sample features of the entire dataset and enable spread-out feature learning over the entire training data instantly. Our Dual-Refinement method reduces the influence of noisy labels and refines the learned features within the alternative training process. Experiments demonstrate that our method outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-04-25 01:10:55 公開日:2021-01-17
# 訴訟ライフサイクルにおける異常請求ライン項目の検出

Detecting Anomalous Invoice Line Items in the Legal Case Lifecycle ( http://arxiv.org/abs/2012.14511v2 )

ライセンス: Link先を確認
Valentino Constantinou, Mori Kabiri(参考訳) アメリカ合衆国は世界最大の法律サービスの流通業者であり、437億ドルの市場を代表している。 このうち、法人法務部門は法律事務所に800億ドルを支払っている。 法務部門は毎月、これらの法律事務所や法務機関から請求書を受け取り処理している。 法的な請求書の審査は、企業法務部門のリーダーにとって困難である。 複雑で複雑な法的な請求書には、ハンズオン法務作業からコピー、食事、旅行などの費用まで、数百行の請求書が含まれていることが多い。 請求書審査プロセスに関わる工数や精査は圧倒的に多い。 確立された請求ガイドライン、経験豊富な請求書審査者(典型的には高給の社内弁護士)、規則に基づく電子請求ツール("e-billing")など、一般的な保護措置が設けられても、多くの不一致が検出されない。 機械学習の目標は、法律事務所が企業顧客に対して提出した請求書に対する法的請求書審査プロセスの現在の欠陥を実証し、改善を検討することです。 本研究は,訴訟のライフサイクル(一連の事例レベルと請求項レベルの特徴を用いてモデル化)の適合性に基づいて,異常な請求項を検知するために,機械学習モデルアーキテクチャを適用したアプローチを詳述する。 本稿では, モデル学習に主観的専門知識(SME)と合成データ生成を組み合わせることで, ラベル付きデータがない場合に有効な手法について述べる。 モデルアーキテクチャのセットを用いて,提案手法の性能を特徴付ける。 我々は,このプロセスが異常検出問題,特に異常の特徴がよく知られている場合の解決にどのように進展するかを実証し,実世界データへのアプローチの適用から学んだ教訓を提供する。

The United States is the largest distributor of legal services in the world, representing a \$437 billion market. Of this, corporate legal departments pay law firms \$80 billion for their services. Every month, legal departments receive and process invoices from these law firms and legal service providers. Legal invoice review is and has been a pain point for corporate legal department leaders. Complex and intricate, legal invoices often contain several hundred line-items that account for anything from tasks such as hands-on legal work to expenses such as copying, meals, and travel. The man-hours and scrutiny involved in the invoice review process can be overwhelming. Even with common safeguards in place, such as established billing guidelines, experienced invoice reviewers (typically highly paid in-house attorneys), and rule based electronic billing tools ("e-billing"), many discrepancies go undetected. Using machine learning, our goal is to demonstrate the current flaws of, and to explore improvements to, the legal invoice review process for invoices submitted by law firms to their corporate clients. In this work, we detail our approach, applying several machine learning model architectures, for detecting anomalous invoice line-items based on their suitability in the legal case's lifecycle (modeled using a set of case level and invoice line-item-level features). We illustrate our approach, which works in the absence of labeled data, by utilizing a combination of subject matter expertise ("SME") and synthetic data generation for model training. We characterize our method's performance using a set of model architectures. We demonstrate how this process advances solving anomaly detection problems, specifically when the characteristics of the anomalies are well known, and offer lessons learned from applying our approach to real-world data.
翻訳日:2021-04-19 10:59:50 公開日:2021-01-17
# 強い凸最適化のためのグラディエントDescent AveragingとPrimal-Dual Averaging

Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex Optimization ( http://arxiv.org/abs/2012.14558v2 )

ライセンス: Link先を確認
Wei Tao, Wei Li, Zhisong Pan, Qing Tao(参考訳) 平均化スキームは、従来の機械学習だけでなく、ディープラーニングにも大きな注目を集めている。 理論上最適収束を実現し、経験モデルの性能も向上する。 しかし、強い凸最適化のための十分な収束解析がまだ存在しない。 一般に、勾配降下法の最後の反復に関する収束は、個別収束と呼ばれるが、対数係数の存在によってその最適性を達成することができない。 この因子を取り除くために、まず、強凸設定において一般射影に基づく双対平均化アルゴリズムである勾配降下平均化(gda)を開発する。 さらに, 主観的および双対的平均化方式を併用した強凸症例(SC-PDA)に対する主観的双対平均化法を提案する。 GDAは平均収束率で最適収束率を示し、SC-PDAは最適個人収束率を導出する。 SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正しさとアルゴリズムの有効性を検証する。

Averaging scheme has attracted extensive attention in deep learning as well as traditional machine learning. It achieves theoretically optimal convergence and also improves the empirical model performance. However, there is still a lack of sufficient convergence analysis for strongly convex optimization. Typically, the convergence about the last iterate of gradient descent methods, which is referred to as individual convergence, fails to attain its optimality due to the existence of logarithmic factor. In order to remove this factor, we first develop gradient descent averaging (GDA), which is a general projection-based dual averaging algorithm in the strongly convex setting. We further present primal-dual averaging for strongly convex cases (SC-PDA), where primal and dual averaging schemes are simultaneously utilized. We prove that GDA yields the optimal convergence rate in terms of output averaging, while SC-PDA derives the optimal individual convergence. Several experiments on SVMs and deep learning models validate the correctness of theoretical analysis and effectiveness of algorithms.
翻訳日:2021-04-18 20:29:15 公開日:2021-01-17
# ブラウザアプリケーションにおけるユーザ指紋追加源としての視線とマウス信号

The Gaze and Mouse Signal as additional Source for User Fingerprints in Browser Applications ( http://arxiv.org/abs/2101.03793v2 )

ライセンス: Link先を確認
Wolfgang Fuhl and Nikolai Sanamrad and Enkelejda Kasneci(参考訳) 本研究ではブラウザ指紋の異なるデータソースを検査する。 ブラウザ統計ではどのような欠点と制限があり、他のデータソースではどのように回避できるかを示す。 人間の視覚行動は豊富な情報ソースであり、個人固有の情報も含むので、ブラウザの指紋の貴重な情報源である。 しかし、ウェブカメラによる不正確さや、ユーザーが最初にカメラへのアクセスを許可しなければならないという制限といった欠点もある。 しかし、マウスの動きとヒトの視線が相関していることも知られており、視線信号の代わりにマウスの動きを用いることができる。 本評価では,3つの情報ソースのすべての組み合わせがユーザ認識に与える影響を示し,簡単なアプローチを詳細に述べる。 データとmatlabコードは、https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/?p=%2fthe%20gaze%20and%20mouse%20signal%20as%20additional%20...&mode=listでダウンロードできる。

In this work we inspect different data sources for browser fingerprints. We show which disadvantages and limitations browser statistics have and how this can be avoided with other data sources. Since human visual behavior is a rich source of information and also contains person specific information, it is a valuable source for browser fingerprints. However, human gaze acquisition in the browser also has disadvantages, such as inaccuracies via webcam and the restriction that the user must first allow access to the camera. However, it is also known that the mouse movements and the human gaze correlate and therefore, the mouse movements can be used instead of the gaze signal. In our evaluation we show the influence of all possible combinations of the three information sources for user recognition and describe our simple approach in detail. The data and the Matlab code can be downloaded here https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/?p=%2FThe%20Gaze%20and%20Mouse%20Signal%20as%20additional%20Source%20...&mode=list
翻訳日:2021-04-04 14:41:52 公開日:2021-01-17
# (参考訳) 視覚的質問応答におけるシーングラフの役割の理解

Understanding the Role of Scene Graphs in Visual Question Answering ( http://arxiv.org/abs/2101.05479v2 )

ライセンス: CC BY-SA 4.0
Vinay Damodaran, Sharanya Chakravarthy, Akshay Kumar, Anjana Umapathy, Teruko Mitamura, Yuta Nakashima, Noa Garcia, Chenhui Chu(参考訳) VQA(Visual Question Answering)は、視覚障害者支援や画像検索などの重要な応用が研究コミュニティにとって大きな関心事である。 本稿では,VQAタスクの解決にシーングラフを用いる方法について検討する。 我々はGQAデータセットの実験を行い、数え上げ、構成性、高度な推論能力を必要とする問題集合を示し、多数の画像に対してシーングラフを提供する。 我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案し,複数の画像表現から学習するためのレイトフュージョンアーキテクチャを構築する。 本稿では,VQAにおけるシーングラフの利用に関する多面的研究について述べる。

Visual Question Answering (VQA) is of tremendous interest to the research community with important applications such as aiding visually impaired users and image-based search. In this work, we explore the use of scene graphs for solving the VQA task. We conduct experiments on the GQA dataset which presents a challenging set of questions requiring counting, compositionality and advanced reasoning capability, and provides scene graphs for a large number of images. We adopt image + question architectures for use with scene graphs, evaluate various scene graph generation techniques for unseen images, propose a training curriculum to leverage human-annotated and auto-generated scene graphs, and build late fusion architectures to learn from multiple image representations. We present a multi-faceted study into the use of scene graphs for VQA, making this work the first of its kind.
翻訳日:2021-03-29 08:32:44 公開日:2021-01-17
# 双曲平面における加速のノーゴー理論

No-go Theorem for Acceleration in the Hyperbolic Plane ( http://arxiv.org/abs/2101.05657v2 )

ライセンス: Link先を確認
Linus Hamilton, Ankur Moitra(参考訳) 近年、凸最適化の鍵となるツールやアイデアをリーマン集合に適応させる努力が盛んに行われている。 リーマン多様体上の測地的凸函数に対するネステロフ様加速勾配法は存在するか? 最近の研究は部分的な回答を与えており、これが可能となることを期待している。 ここでは、これらの希望を掘り下げる。 ノイズの多い環境では、双曲平面上の測地凸関数に対する加速度勾配降下の類似性がないことが証明される。 ノイズが指数関数的に小さい場合でも結果が当てはまる。 負の湾曲した空間では、ボールの体積は非常に速く成長し、過去の勾配に関する情報は将来的には役に立たない。

In recent years there has been significant effort to adapt the key tools and ideas in convex optimization to the Riemannian setting. One key challenge has remained: Is there a Nesterov-like accelerated gradient method for geodesically convex functions on a Riemannian manifold? Recent work has given partial answers and the hope was that this ought to be possible. Here we dash these hopes. We prove that in a noisy setting, there is no analogue of accelerated gradient descent for geodesically convex functions on the hyperbolic plane. Our results apply even when the noise is exponentially small. The key intuition behind our proof is short and simple: In negatively curved spaces, the volume of a ball grows so fast that information about the past gradients is not useful in the future.
翻訳日:2021-03-29 00:54:27 公開日:2021-01-17
# 連続機械学習システムにおける隠れフィードバックループの解析

Analysis of hidden feedback loops in continuous machine learning systems ( http://arxiv.org/abs/2101.05673v2 )

ライセンス: Link先を確認
Anton Khritankov(参考訳) 本稿では,持続的・生涯学習型人工知能システムの品質の特定と検証の難しさを論じ,概念の漂流を引き起こす環境に影響を及ぼす。 暗黙的なフィードバックループの問題を示し,例えば住宅価格予測システムにおいて,ユーザの行動にどのように介入するかを示す。 予備モデルに基づいて,このようなフィードバックループが発生する条件を強調し,可能な解法について論じる。

In this concept paper, we discuss intricacies of specifying and verifying the quality of continuous and lifelong learning artificial intelligence systems as they interact with and influence their environment causing a so-called concept drift. We signify a problem of implicit feedback loops, demonstrate how they intervene with user behavior on an exemplary housing prices prediction system. Based on a preliminary model, we highlight conditions when such feedback loops arise and discuss possible solution approaches.
翻訳日:2021-03-29 00:45:43 公開日:2021-01-17
# (参考訳) TrafficSim: リアルなマルチエージェント動作をシミュレートする学習

TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors ( http://arxiv.org/abs/2101.06557v1 )

ライセンス: CC BY 4.0
Simon Suo, Sebastian Regalado, Sergio Casas, Raquel Urtasun(参考訳) シミュレーションは、迅速な開発と安全な展開を可能にする自動運転システムの大規模評価の可能性を秘めている。 シミュレーションと現実世界のギャップを埋めるためには、現実的なマルチエージェントの振る舞いをシミュレートする必要がある。 既存のシミュレーション環境は、トラフィックルールを直接エンコードするヒューリスティックなモデルに依存しており、不規則な操作(例えば、ヌーディング、uターン)や複雑な相互作用(例えば、降伏、マージ)をキャプチャできない。 対照的に、実世界のデータを活用して、人間のデモから直接学び、より多様なアクターの振る舞いを捉えます。 そこで本研究では,トラヒックシミュレーションのためのマルチエージェント行動モデルtrafficsimを提案する。 特に,暗黙の潜在変数モデルを利用して,シーン内のすべてのアクターに対して,社会的に一貫性のある計画を生成する共同アクターポリシーをパラメータ化する。 ロングホライズンシミュレーションのための強固なポリシーを学習するために、トレーニングにおけるポリシーを展開し、完全に微分可能なシミュレーションを通じて最適化します。 我々の学習目的は、人間の実演と常識の両方を取り入れている。 trafficsimは、さまざまなベースラインと比べて、はるかにリアルで多様なトラフィックシナリオを生成する。 特に、trafficsimによって生成された軌道を、より良いモーションプランナーをトレーニングするための効果的なデータ拡張として活用できる。

Simulation has the potential to massively scale evaluation of self-driving systems enabling rapid development as well as safe deployment. To close the gap between simulation and the real world, we need to simulate realistic multi-agent behaviors. Existing simulation environments rely on heuristic-based models that directly encode traffic rules, which cannot capture irregular maneuvers (e.g., nudging, U-turns) and complex interactions (e.g., yielding, merging). In contrast, we leverage real-world data to learn directly from human demonstration and thus capture a more diverse set of actor behaviors. To this end, we propose TrafficSim, a multi-agent behavior model for realistic traffic simulation. In particular, we leverage an implicit latent variable model to parameterize a joint actor policy that generates socially-consistent plans for all actors in the scene jointly. To learn a robust policy amenable for long horizon simulation, we unroll the policy in training and optimize through the fully differentiable simulation across time. Our learning objective incorporates both human demonstrations as well as common sense. We show TrafficSim generates significantly more realistic and diverse traffic scenarios as compared to a diverse set of baselines. Notably, we can exploit trajectories generated by TrafficSim as effective data augmentation for training better motion planner.
翻訳日:2021-03-28 03:43:19 公開日:2021-01-17
# (参考訳) マルチエージェント通信における敵攻撃

Adversarial Attacks On Multi-Agent Communication ( http://arxiv.org/abs/2101.06560v1 )

ライセンス: CC BY 4.0
James Tu, Tsunhsuan Wang, Jingkang Wang, Sivabalan Manivasagam, Mengye Ren, Raquel Urtasun(参考訳) 非常に速いペースで成長する現代の自律システムは、すぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。 情報を共有し、ワークロードを分散することにより、自律エージェントはより優れたタスクを実行し、計算効率を向上できる。 しかし、このようなアドバンテージは、セキュリティ侵害に弱いことを示す通信チャネルに大きく依存している。 このように、現代のシステムで広く使われているディープラーニングモデルに対する敵対的攻撃を実行するために、コミュニケーションを損なうことができる。 本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。 識別不能な敵対的メッセージは、性能を著しく低下させるが、良性エージェントの数が増加するにつれて弱くなる。 さらに、通信メッセージの配信とドメイン適応を整合させる必要があるため、入力を直接摂動させるよりも、この設定では転送攻撃がより困難であることを示す。 最後に,ストリーミングセンサ入力の時間的一貫性を利用して,低予算のオンライン攻撃を実現できることを示す。

Growing at a very fast pace, modern autonomous systems will soon be deployed at scale, opening up the possibility for cooperative multi-agent systems. By sharing information and distributing workloads, autonomous agents can better perform their tasks and enjoy improved computation efficiency. However, such advantages rely heavily on communication channels which have been shown to be vulnerable to security breaches. Thus, communication can be compromised to execute adversarial attacks on deep learning models which are widely employed in modern systems. In this paper, we explore such adversarial attacks in a novel multi-agent setting where agents communicate by sharing learned intermediate representations. We observe that an indistinguishable adversarial message can severely degrade performance, but becomes weaker as the number of benign agents increase. Furthermore, we show that transfer attacks are more difficult in this setting when compared to directly perturbing the inputs, as it is necessary to align the distribution of communication messages with domain adaptation. Finally, we show that low-budget online attacks can be achieved by exploiting the temporal consistency of streaming sensory inputs.
翻訳日:2021-03-28 03:11:51 公開日:2021-01-17
# (参考訳) 交通状態推定のための物理インフォームド深層学習

Physics-Informed Deep Learning for Traffic State Estimation ( http://arxiv.org/abs/2101.06580v1 )

ライセンス: CC BY 4.0
Rongye Shi, Zhaobin Mo, Kuang Huang, Xuan Di, Qiang Du(参考訳) 道路セグメント上の交通変数(例えば密度)を部分的に観測したデータを用いて再構成する交通状態推定(TSE)は、インテリジェント交通システム(ITS)が人々に提供するべき効率的な交通制御と運用において重要な役割を果たす。 何十年もの間、TSEはモデル駆動アプローチとデータ駆動アプローチの2つの主要なカテゴリに分岐してきた。 前者はLighthill-Whitham-Richards (LWR) モデルのような既存の物理トラフィックフローモデルに強く依存しており、これは現実世界のトラフィックの限られたダイナミクスを捉えるだけで、低品質な推定が可能であり、後者は正確で一般化可能な推定を行うために大量のデータを必要とする。 そこで本研究では,物理インフォームド・ディープ・ラーニング(PIDL)フレームワークを導入し,少ないデータ量で高品質なTSEを実現する。 pidlにはモデル駆動コンポーネントとデータ駆動コンポーネントの両方が含まれており、両方のアプローチの強みを統合でき、両方の欠点を克服できる。 本稿では,交通密度を交通変数として用いて,ループ検出器からの観測データを用いた高速道路TSEに焦点を当てた。 本稿では,グリーンシールド型LWRと3パラメータ型LWRの2つの物理トラフィックフローモデル,すなわちグリーンシールド型LWRと3パラメータ型LWRの解法とモデルパラメータの探索について述べる。 次に、次世代シミュレーション(NGSIM)データセットを用いてPIDLベースのハイウェイTSEを評価する。 実験結果から, 先進ベースラインTSE法よりも推定精度とデータ効率の点でPIDLに基づくアプローチの利点が示された。

Traffic state estimation (TSE), which reconstructs the traffic variables (e.g., density) on road segments using partially observed data, plays an important role on efficient traffic control and operation that intelligent transportation systems (ITS) need to provide to people. Over decades, TSE approaches bifurcate into two main categories, model-driven approaches and data-driven approaches. However, each of them has limitations: the former highly relies on existing physical traffic flow models, such as Lighthill-Whitham-Richards (LWR) models, which may only capture limited dynamics of real-world traffic, resulting in low-quality estimation, while the latter requires massive data in order to perform accurate and generalizable estimation. To mitigate the limitations, this paper introduces a physics-informed deep learning (PIDL) framework to efficiently conduct high-quality TSE with small amounts of observed data. PIDL contains both model-driven and data-driven components, making possible the integration of the strong points of both approaches while overcoming the shortcomings of either. This paper focuses on highway TSE with observed data from loop detectors, using traffic density as the traffic variables. We demonstrate the use of PIDL to solve (with data from loop detectors) two popular physical traffic flow models, i.e., Greenshields-based LWR and three-parameter-based LWR, and discover the model parameters. We then evaluate the PIDL-based highway TSE using the Next Generation SIMulation (NGSIM) dataset. The experimental results show the advantages of the PIDL-based approach in terms of estimation accuracy and data efficiency over advanced baseline TSE methods.
翻訳日:2021-03-28 02:39:13 公開日:2021-01-17
# (参考訳) MultiBodySync:3次元スキャン同期によるマルチボディセグメンテーションと動作推定

MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan Synchronization ( http://arxiv.org/abs/2101.06605v1 )

ライセンス: CC BY 4.0
Jiahui Huang, He Wang, Tolga Birdal, Minhyuk Sung, Federica Arrigoni, Shi-Min Hu, Leonidas Guibas(参考訳) マルチボディーシンク(MultiBodySync)は、複数入力3Dポイントクラウドのための、エンドツーエンドのトレーニング可能な多体動作セグメンテーションおよび剛性登録フレームワークである。 このマルチスキャン・マルチボディ・セグメンテーションによって引き起こされる2つの非自明な課題は、 (i) 身体や身体の異なる空間配置を捉える複数の入力点雲間の対応とセグメンテーションの整合性を保証すること、 (ii) 新規な対象カテゴリーに適用可能な頑健な動きに基づく剛体セグメンテーションを得ることである。 本稿では、スペクトル同期を反復的深部宣言ネットワークに組み込んだこれらの問題に対処し、一貫した対応と動きのセグメンテーションを同時に再現する手法を提案する。 同時に、対応と動きのセグメンテーション推定モジュールを明示的に切り離すことで、異なる対象カテゴリ間で強い一般化性が得られる。 本手法は, 物体の剛性部分から, 単視点や全点雲などの3次元シーンで個別に移動する物体まで, 様々なデータセットに対して有効であることを示す。

We present MultiBodySync, a novel, end-to-end trainable multi-body motion segmentation and rigid registration framework for multiple input 3D point clouds. The two non-trivial challenges posed by this multi-scan multibody setting that we investigate are: (i) guaranteeing correspondence and segmentation consistency across multiple input point clouds capturing different spatial arrangements of bodies or body parts; and (ii) obtaining robust motion-based rigid body segmentation applicable to novel object categories. We propose an approach to address these issues that incorporates spectral synchronization into an iterative deep declarative network, so as to simultaneously recover consistent correspondences as well as motion segmentation. At the same time, by explicitly disentangling the correspondence and motion segmentation estimation modules, we achieve strong generalizability across different object categories. Our extensive evaluations demonstrate that our method is effective on various datasets ranging from rigid parts in articulated objects to individually moving objects in a 3D scene, be it single-view or full point clouds.
翻訳日:2021-03-28 02:02:41 公開日:2021-01-17
# (参考訳) Network Automatic Pruning: NAPを開始してNapを取る

Network Automatic Pruning: Start NAP and Take a Nap ( http://arxiv.org/abs/2101.06608v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Yuwen Xiong, Raquel Urtasun(参考訳) ネットワークプルーニングは、大規模ニューラルネットワークの計算量とメモリフットプリントを大幅に削減することができる。 モデルサイズと性能の良好なトレードオフを達成するために、一般的なプルーニング技術は手作りのヒューリスティックに依存し、各層に圧縮比を手動で設定する必要がある。 このプロセスは一般的に時間がかかり、優れた結果を得るためには専門家の知識が必要です。 本稿では,粒度および構造化プルーニングのための統一かつ自動プルーニングフレームワークであるNAPを提案する。 ネットワークの重要でないコンポーネントを見つけ出し、理論的に音質基準に基づいて、異なるレイヤに対する適切な圧縮比を自動的に決定する。 この目標に向けて、NAPはKronecker-factored Approximate Curvature法に基づいて、Hessianの効率的な近似を用いてコンポーネントの重要性を評価する。 使いやすさにもかかわらず、NAPは以前のプルーニング法よりも大きなマージンで優れている。 きめ細かいプルーニングのために、NAPはAlexNetとVGG16を25倍圧縮し、ResNet-50を6.7倍圧縮できる。 構造的な刈り取り(例えば vgg16のフロップを5.4倍、resnet-50を2.3倍、精度を1%低下させる。 さらに重要なことに、この方法はハイパーパラメータチューニングがほとんどなく、専門家の知識も必要ありません。 NAPを始めれば、昼寝もできます!

Network pruning can significantly reduce the computation and memory footprint of large neural networks. To achieve a good trade-off between model size and performance, popular pruning techniques usually rely on hand-crafted heuristics and require manually setting the compression ratio for each layer. This process is typically time-consuming and requires expert knowledge to achieve good results. In this paper, we propose NAP, a unified and automatic pruning framework for both fine-grained and structured pruning. It can find out unimportant components of a network and automatically decide appropriate compression ratios for different layers, based on a theoretically sound criterion. Towards this goal, NAP uses an efficient approximation of the Hessian for evaluating the importances of components, based on a Kronecker-factored Approximate Curvature method. Despite its simpleness to use, NAP outperforms previous pruning methods by large margins. For fine-grained pruning, NAP can compress AlexNet and VGG16 by 25x, and ResNet-50 by 6.7x without loss in accuracy on ImageNet. For structured pruning (e.g. channel pruning), it can reduce flops of VGG16 by 5.4x and ResNet-50 by 2.3x with only 1% accuracy drop. More importantly, this method is almost free from hyper-parameter tuning and requires no expert knowledge. You can start NAP and then take a nap!
翻訳日:2021-03-28 01:37:51 公開日:2021-01-17
# (参考訳) ニューラルMCTSを用いたQSAT問題の解法

Solving QSAT problems with neural MCTS ( http://arxiv.org/abs/2101.06619v1 )

ライセンス: CC BY 4.0
Ruiyang Xu, Karl Lieberherr(参考訳) セルフプレイによるAlphaZeroの最近の業績は、いくつかのボードゲームで顕著なパフォーマンスを示している。 知識ゼロから始まったセルフプレイは、トレーニングの後に特定の2人プレイの勝利戦略を徐々に近似することができると考えることができる。 本稿では、AlphaZeroのコアアルゴリズムであるニューラルモンテカルロ木探索(Neural MCTS)の計算能力を活用し、PSPACEを完備する量子ブール式満足度(Quantified Boolean Formula Satisfaction, QSAT)問題を解決する。 すべての QSAT 問題が QSAT ゲームと等価であることを知ると、ゲームの結果は元の QSAT 問題の解を導出するために用いられる。 本稿では,量子ブール式(QBF)をグラフとして符号化し,グラフニューラルネットワーク(GNN)を用いてQBFをニューラルネットワークに埋め込む方法を提案する。 トレーニング後、アルゴリズムの性能を評価するために、既製のQSATソルバが使用される。 この結果から,限られたサイズの問題に対して,アルゴリズムは自己プレイからのみ,正しい解法を学習することがわかった。

Recent achievements from AlphaZero using self-play has shown remarkable performance on several board games. It is plausible to think that self-play, starting from zero knowledge, can gradually approximate a winning strategy for certain two-player games after an amount of training. In this paper, we try to leverage the computational power of neural Monte Carlo Tree Search (neural MCTS), the core algorithm from AlphaZero, to solve Quantified Boolean Formula Satisfaction (QSAT) problems, which are PSPACE complete. Knowing that every QSAT problem is equivalent to a QSAT game, the game outcome can be used to derive the solutions of the original QSAT problems. We propose a way to encode Quantified Boolean Formulas (QBFs) as graphs and apply a graph neural network (GNN) to embed the QBFs into the neural MCTS. After training, an off-the-shelf QSAT solver is used to evaluate the performance of the algorithm. Our result shows that, for problems within a limited size, the algorithm learns to solve the problem correctly merely from self-play.
翻訳日:2021-03-28 01:20:35 公開日:2021-01-17
# (参考訳) きめ細かい視覚分類のためのコンテキスト認識注意プール(CAP)

Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification ( http://arxiv.org/abs/2101.06635v1 )

ライセンス: CC BY 4.0
Ardhendu Behera, Zachary Wharton, Pradeep Hewage, Asish Bera(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、識別対象のポーズと画像認識のための部分情報のマイニングにおいて強力な能力を示している。 きめ細かな認識では、コンテキスト認識によるオブジェクト/シーンのリッチな特徴表現は、同じサブカテゴリにおいて大きなばらつきと異なるサブカテゴリ間の微妙なばらつきを示すため、重要な役割を果たす。 オブジェクト/シーンを完全に特徴付ける微妙な分散を見つけるのは簡単ではありません。 そこで本研究では,サブピクセル勾配による微妙な変化を効果的に捉えた新しいコンテキスト認識型注意プーリング(cap)を提案する。 また,その意味的相関を捉えるために,積分領域の情報性とその空間構造間の本質的な整合性を考慮した新しい特徴符号化を導入する。 我々のアプローチは単純だが極めて効果的であり、標準的な分類バックボーンネットワーク上で容易に適用できる。 我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価する。 提案手法はSotAアプローチを6つのデータセットで大幅に上回り,残りの2つと非常に競合する。

Deep convolutional neural networks (CNNs) have shown a strong ability in mining discriminative object pose and parts information for image recognition. For fine-grained recognition, context-aware rich feature representation of object/scene plays a key role since it exhibits a significant variance in the same subcategory and subtle variance among different subcategories. Finding the subtle variance that fully characterizes the object/scene is not straightforward. To address this, we propose a novel context-aware attentional pooling (CAP) that effectively captures subtle changes via sub-pixel gradients, and learns to attend informative integral regions and their importance in discriminating different subcategories without requiring the bounding-box and/or distinguishable part annotations. We also introduce a novel feature encoding by considering the intrinsic consistency between the informativeness of the integral regions and their spatial structures to capture the semantic correlation among them. Our approach is simple yet extremely effective and can be easily applied on top of a standard classification backbone network. We evaluate our approach using six state-of-the-art (SotA) backbone networks and eight benchmark datasets. Our method significantly outperforms the SotA approaches on six datasets and is very competitive with the remaining two.
翻訳日:2021-03-28 01:07:24 公開日:2021-01-17
# (参考訳) LaneRCNN: グラフ中心モーション予測のための分散表現

LaneRCNN: Distributed Representations for Graph-Centric Motion Forecasting ( http://arxiv.org/abs/2101.06653v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Ming Liang, Renjie Liao, Raquel Urtasun(参考訳) ダイナミックアクタの将来的な振る舞いを予測することは、自動運転のような多くのロボットアプリケーションにおいて重要なタスクである。 俳優は遅滞した意図を持ち、その軌道は他の俳優たちと自分自身と地図の間の複雑な相互作用によって支配されるため、非常に難しい。 本稿では,グラフ中心の動き予測モデルであるLaneRCNNを提案する。 重要なことは、特別に設計されたグラフエンコーダに頼って、アクターごとの局所レーングラフ表現(LaneRoI)を学び、過去の動きと局所地図トポロジを符号化することである。 さらに,共有グローバルレーングラフ内の局所グラフ表現間の効率的なメッセージパッシングを可能にするインタラクションモジュールを開発した。 さらに、車線グラフに基づく出力トラジェクタのパラメータ化を行い、より快適な予測パラメータ化を行う。 lanercnnは、アクター対アクタとアクタ対マップの関係を、分散およびマップ認識の方法でキャプチャします。 大規模Argoverse Motion Forecasting Benchmarkにおける提案手法の有効性を示す。 私たちはリーダーボードで1位を獲得し、以前の最高の結果を大きく上回っています。

Forecasting the future behaviors of dynamic actors is an important task in many robotics applications such as self-driving. It is extremely challenging as actors have latent intentions and their trajectories are governed by complex interactions between the other actors, themselves, and the maps. In this paper, we propose LaneRCNN, a graph-centric motion forecasting model. Importantly, relying on a specially designed graph encoder, we learn a local lane graph representation per actor (LaneRoI) to encode its past motions and the local map topology. We further develop an interaction module which permits efficient message passing among local graph representations within a shared global lane graph. Moreover, we parameterize the output trajectories based on lane graphs, a more amenable prediction parameterization. Our LaneRCNN captures the actor-to-actor and the actor-to-map relations in a distributed and map-aware manner. We demonstrate the effectiveness of our approach on the large-scale Argoverse Motion Forecasting Benchmark. We achieve the 1st place on the leaderboard and significantly outperform previous best results.
翻訳日:2021-03-28 00:41:48 公開日:2021-01-17
# (参考訳) 効率的な単一画像超解像のための三レベルニューラルネットワーク探索

Trilevel Neural Architecture Search for Efficient Single Image Super-Resolution ( http://arxiv.org/abs/2101.06658v1 )

ライセンス: CC BY 4.0
Yan Wu, Zhiwu Huang, Suryansh Kumar, Rhea Sanjay Sukthanker, Radu Timofte, Luc Van Gool(参考訳) 本稿では,効率的な単一画像超解像(SR)のための3レベルニューラルネットワーク探索法を提案する。 そこで,我々はまず,ネットワークレベル,セルレベル,カーネルレベル(畳み込みカーネル)の3レベルにおいて離散探索空間を定義する。 離散探索空間をモデル化するために、離散探索空間に新たな連続緩和を適用し、ネットワークパス、セル操作、カーネル幅の階層的な混合を構築する。 後に,統合畳み込みカーネル幅プルーニング,セル構造探索,ネットワークパス最適化により,グローバルに最適化された圧縮ネットワークを提供する階層型スーパーネット方式による効率的な探索アルゴリズムを提案する。 現在のnas法とは異なり、sparsestmaxアクティベーションによって3段階の神経構造がスパースに寄与する。 したがって、NAS最適化は、これらの神経構造に徐々に収束し、スーパーネットに支配的な貢献をする。 さらに,提案手法では,単一のフェーズで同時探索とトレーニングが可能であり,従来のnasアルゴリズムに比べて検索とトレーニングの時間を劇的に短縮する。 標準ベンチマークデータセットの実験では、我々のNASアルゴリズムはパラメータの数に関して大幅に軽量なSRモデルを提供し、PSNR値のFLOPSは現在の最先端に匹敵することを示している。

This paper proposes a trilevel neural architecture search (NAS) method for efficient single image super-resolution (SR). For that, we first define the discrete search space at three-level, i.e., at network-level, cell-level, and kernel-level (convolution-kernel). For modeling the discrete search space, we apply a new continuous relaxation on the discrete search spaces to build a hierarchical mixture of network-path, cell-operations, and kernel-width. Later an efficient search algorithm is proposed to perform optimization in a hierarchical supernet manner that provides a globally optimized and compressed network via joint convolution kernel width pruning, cell structure search, and network path optimization. Unlike current NAS methods, we exploit a sorted sparsestmax activation to let the three-level neural structures contribute sparsely. Consequently, our NAS optimization progressively converges to those neural structures with dominant contributions to the supernet. Additionally, our proposed optimization construction enables a simultaneous search and training in a single phase, which dramatically reduces search and train time compared to the traditional NAS algorithms. Experiments on the standard benchmark datasets demonstrate that our NAS algorithm provides SR models that are significantly lighter in terms of the number of parameters and FLOPS with PSNR value comparable to the current state-of-the-art.
翻訳日:2021-03-28 00:23:03 公開日:2021-01-17
# (参考訳) エンドツーエンドの解釈可能なニューラルモーションプランナ

End-to-end Interpretable Neural Motion Planner ( http://arxiv.org/abs/2101.06679v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Wenjie Luo, Simon Suo, Abbas Sadat, Bin Yang, Sergio Casas, Raquel Urtasun(参考訳) 本稿では,交通信号処理,収量処理,複数の道路利用者との対話を含む複雑な都市シナリオにおいて,自律的に走行する学習のためのニューラルモーションプランナーを提案する。 この目的に向けて、入力された生のLIDARデータとHDマップを考慮し、3次元検出と将来の軌跡の形で解釈可能な中間表現を生成する包括的モデルと、自動運転車が計画地平線内で得る各位置の良さを定義するコストボリュームを設計する。 次に、様々な物理的に可能な軌道の集合をサンプリングし、最小の学習コストで選択する。 重要なのは、コストボリュームが自然にマルチモダリティをキャプチャできることです。 北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。 実験の結果,学習したコストは,すべてのベースラインよりも安全な計画を立てることができることがわかった。

In this paper, we propose a neural motion planner (NMP) for learning to drive autonomously in complex urban scenarios that include traffic-light handling, yielding, and interactions with multiple road-users. Towards this goal, we design a holistic model that takes as input raw LIDAR data and a HD map and produces interpretable intermediate representations in the form of 3D detections and their future trajectories, as well as a cost volume defining the goodness of each position that the self-driving car can take within the planning horizon. We then sample a set of diverse physically possible trajectories and choose the one with the minimum learned cost. Importantly, our cost volume is able to naturally capture multi-modality. We demonstrate the effectiveness of our approach in real-world driving data captured in several cities in North America. Our experiments show that the learned cost volume can generate safer planning than all the baselines.
翻訳日:2021-03-27 23:43:47 公開日:2021-01-17
# (参考訳) 制限ボルツマンマシンにおけるエネルギーベースのドロップアウト:なぜランダムにしないのか

Energy-based Dropout in Restricted Boltzmann Machines: Why not go random ( http://arxiv.org/abs/2101.06741v1 )

ライセンス: CC BY 4.0
Mateus Roder, Gustavo H. de Rosa, Victor Hugo C. de Albuquerque, Andr\'e L. D. Rossi, Jo\~ao P. Papa(参考訳) ディープラーニングアーキテクチャは、オブジェクト認識や画像再構成、信号処理など、幅広いアプリケーションで使用されている。 それでも、そのようなモデルはオーバーフィッティングとして知られる共通の問題に悩まされ、ネットワークが目に見えないデータを効果的に予測することを妨げる。 正規化のアプローチは、このような欠点に対処するために現れる。 中でも有名なのがドロップアウト(dropout)で、ある確率に応じて一連のニューロンとその接続をランダムにシャットダウンすることでこの問題に対処している。 したがって、このアプローチは、どのユニットを切断すべきかを決定するための追加の知識を考慮しない。 本稿では,ニューロンを落とすべきか否かを意識的に判断するエネルギーベースのDropout(E-Dropout)を提案する。 具体的には、制限ボルツマン機械(rbms)のようなエネルギーベースのモデルにさらに適用するための重要レベルとして、ニューロンとモデルエネルギーを関連付けることで、この正規化法を設計する。 複数のベンチマークデータセットに対する実験結果から,従来のDropoutや標準RBMと比較して,提案手法の適合性が確認された。

Deep learning architectures have been widely fostered throughout the last years, being used in a wide range of applications, such as object recognition, image reconstruction, and signal processing. Nevertheless, such models suffer from a common problem known as overfitting, which limits the network from predicting unseen data effectively. Regularization approaches arise in an attempt to address such a shortcoming. Among them, one can refer to the well-known Dropout, which tackles the problem by randomly shutting down a set of neurons and their connections according to a certain probability. Therefore, this approach does not consider any additional knowledge to decide which units should be disconnected. In this paper, we propose an energy-based Dropout (E-Dropout) that makes conscious decisions whether a neuron should be dropped or not. Specifically, we design this regularization method by correlating neurons and the model's energy as an importance level for further applying it to energy-based models, such as Restricted Boltzmann Machines (RBMs). The experimental results over several benchmark datasets revealed the proposed approach's suitability compared to the traditional Dropout and the standard RBMs.
翻訳日:2021-03-27 23:31:04 公開日:2021-01-17
# (参考訳) 深部パラメトリック連続畳み込みニューラルネットワーク

Deep Parametric Continuous Convolutional Neural Networks ( http://arxiv.org/abs/2101.06742v1 )

ライセンス: CC BY 4.0
Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, Raquel Urtasun(参考訳) 標準畳み込みニューラルネットワークは、グリッド構造化入力が利用可能であると仮定し、離散畳み込みを基本構成要素として利用する。 これにより、多くの現実世界のアプリケーションに適用性が制限される。 本稿では,非グリッド構造データ上で動作する新しい学習可能な演算子であるParametric Continuous Convolutionを提案する。 鍵となるアイデアは、完全な連続ベクトル空間にまたがるパラメータ化されたカーネル関数を活用することである。 この一般化により、サポート関係が計算可能である限り、任意のデータ構造について学習することができる。 実験では,室内および屋外のポイントクラウドセグメンテーションの最先端化や,運転シーンのライダーモーション推定よりも大幅に改善した。

Standard convolutional neural networks assume a grid structured input is available and exploit discrete convolutions as their fundamental building blocks. This limits their applicability to many real-world applications. In this paper we propose Parametric Continuous Convolution, a new learnable operator that operates over non-grid structured data. The key idea is to exploit parameterized kernel functions that span the full continuous vector space. This generalization allows us to learn over arbitrary data structures as long as their support relationship is computable. Our experiments show significant improvement over the state-of-the-art in point cloud segmentation of indoor and outdoor scenes, and lidar motion estimation of driving scenes.
翻訳日:2021-03-27 23:15:53 公開日:2021-01-17
# (参考訳) Deep Belief Networks を用いた腸管寄生虫の分類

Intestinal Parasites Classification Using Deep Belief Networks ( http://arxiv.org/abs/2101.06747v1 )

ライセンス: CC BY 4.0
Mateus Roder, Leandro A. Passos, Luiz Carlos Felix Ribeiro, Barbara Caroline Benato, Alexandre Xavier Falc\~ao, Jo\~ao Paulo Papa(参考訳) 現在、世界中で約4億ドルの人々が腸内寄生虫に感染している。 このような感染によって引き起こされる病気は、ほとんどの熱帯諸国で公衆衛生上の問題となり、身体的・精神的な障害を引き起こし、子供や免疫不全の人にも死に至る。 高い誤差率を受けるが、人間の視覚検査は依然として臨床診断の大半を担当している。 過去数年間では、知的コンピュータ支援の腸内寄生虫の分類に対処する研究もあるが、通常、寄生虫と糞便の不純物との類似性により、誤分類に悩まされる。 本稿では,腸内寄生虫の自動分類の文脈において,深い信念ネットワークを導入する。 卵、幼虫、原生動物からなる3つのデータセットで行われた実験は、不均衡なクラスと糞便不純物を考慮しても、有望な結果をもたらした。

Currently, approximately $4$ billion people are infected by intestinal parasites worldwide. Diseases caused by such infections constitute a public health problem in most tropical countries, leading to physical and mental disorders, and even death to children and immunodeficient individuals. Although subjected to high error rates, human visual inspection is still in charge of the vast majority of clinical diagnoses. In the past years, some works addressed intelligent computer-aided intestinal parasites classification, but they usually suffer from misclassification due to similarities between parasites and fecal impurities. In this paper, we introduce Deep Belief Networks to the context of automatic intestinal parasites classification. Experiments conducted over three datasets composed of eggs, larvae, and protozoa provided promising results, even considering unbalanced classes and also fecal impurities.
翻訳日:2021-03-27 23:03:45 公開日:2021-01-17
# (参考訳) 深層信念ネットワークにおける学習改善のための階層型情報強化手法

A Layer-Wise Information Reinforcement Approach to Improve Learning in Deep Belief Networks ( http://arxiv.org/abs/2101.06749v1 )

ライセンス: CC BY 4.0
Mateus Roder, Leandro A. Passos, Luiz Carlos Felix Ribeiro, Clayton Pereira, Jo\~ao Paulo Papa(参考訳) ディープラーニングの出現に伴い、新しい方法の提案や既存のものの改善がここ数年で指数関数的に増加している。 このシナリオでは、「非常に深い」モデルが登場し、より良いパフォーマンスをサポートしながら、より本質的で抽象的な特徴を引き出すと期待された。 しかし、そのようなモデルは勾配の消失に悩まされ、すなわち、バックプロパゲーションの値は浅い層ではゼロに近すぎるため、学習は停滞する。 このような問題は、階層間の「ショートカット接続」を作成することで、畳み込みニューラルネットワークの文脈で克服された。 それでも、deep belief networkと呼ばれる非常に人気のあるディープラーニング技術は、差別的なタスクを扱う場合の勾配の消失に苦しんでいる。 そこで本稿では,情報強化層を層単位で検討し,特徴抽出と知識保持を改善し,識別性能の向上を支援するResidual Deep Belief Networkを提案する。 3つの公開データセットで実施した実験は、バイナリイメージ分類のタスクに関する堅牢性を示している。

With the advent of deep learning, the number of works proposing new methods or improving existent ones has grown exponentially in the last years. In this scenario, "very deep" models were emerging, once they were expected to extract more intrinsic and abstract features while supporting a better performance. However, such models suffer from the gradient vanishing problem, i.e., backpropagation values become too close to zero in their shallower layers, ultimately causing learning to stagnate. Such an issue was overcome in the context of convolution neural networks by creating "shortcut connections" between layers, in a so-called deep residual learning framework. Nonetheless, a very popular deep learning technique called Deep Belief Network still suffers from gradient vanishing when dealing with discriminative tasks. Therefore, this paper proposes the Residual Deep Belief Network, which considers the information reinforcement layer-by-layer to improve the feature extraction and knowledge retaining, that support better discriminative performance. Experiments conducted over three public datasets demonstrate its robustness concerning the task of binary image classification.
翻訳日:2021-03-27 22:56:13 公開日:2021-01-17
# (参考訳) マニフォールド学習による多視点データ可視化

Multi-view Data Visualisation via Manifold Learning ( http://arxiv.org/abs/2101.06763v1 )

ライセンス: CC BY-SA 4.0
Theodoulos Rodosthenous and Vahid Shahrezaei and Marina Evangelou(参考訳) 確率的近傍埋め込み(sne)、局所線形埋め込み(lle)、等尺特徴マッピング(isomap)といった多様体学習手法が非線形次元減少のために提案されている。 これらの手法は、データを理解可能な表現で視覚化するために、2つか3つの潜在埋め込みを生成することを目的としている。 本論文は, 学生のt分散SNE(t-SNE), LLE, ISOMAPの拡張を提案する。 今日では、同じサンプルに複数のデータビューを持つことが非常に一般的です。 各データビューには、サンプルの異なる側面を記述する一連の機能が含まれている。 例えば、生物医学研究では、転写学、ゲノム学、疫学など、同一個人のために複数のOMICSデータセットを生成することができ、異なる生物学的プロセス間の関係をよりよく理解することができる。 実データとシミュレーションデータの解析を通じて,提案手法の可視化性能について述べる。 データビジュアライゼーションは、データセット内の潜在的なクラスタを特定するためにしばしば使用される。 マルチビュー多様体学習手法を用いて得られた低次元埋め込みをK-meansアルゴリズムに組み込むことで,サンプルのクラスタを正確に同定できることを示す。 提案手法は,マルチISOMAP法とマルチLLE法より優れている。 興味深いことに、マルチSNEはマルチビュークラスタリングを行うための文献で提案されている手法と同等の性能を持つ。

Manifold learning approaches, such as Stochastic Neighbour Embedding (SNE), Locally Linear Embedding (LLE) and Isometric Feature Mapping (ISOMAP) have been proposed for performing non-linear dimensionality reduction. These methods aim to produce two or three latent embeddings, in order to visualise the data in intelligible representations. This manuscript proposes extensions of Student's t-distributed SNE (t-SNE), LLE and ISOMAP, to allow for dimensionality reduction and subsequent visualisation of multi-view data. Nowadays, it is very common to have multiple data-views on the same samples. Each data-view contains a set of features describing different aspects of the samples. For example, in biomedical studies it is possible to generate multiple OMICS data sets for the same individuals, such as transcriptomics, genomics, epigenomics, enabling better understanding of the relationships between the different biological processes. Through the analysis of real and simulated datasets, the visualisation performance of the proposed methods is illustrated. Data visualisations have been often utilised for identifying any potential clusters in the data sets. We show that by incorporating the low-dimensional embeddings obtained via the multi-view manifold learning approaches into the K-means algorithm, clusters of the samples are accurately identified. Our proposed multi-SNE method outperforms the corresponding multi-ISOMAP and multi-LLE proposed methods. Interestingly, multi-SNE is found to have comparable performance with methods proposed in the literature for performing multi-view clustering.
翻訳日:2021-03-27 22:48:33 公開日:2021-01-17
# (参考訳) 多発性硬化症, ロイコ脳症, 健常患者の3次元MR脳容積に対するVAEおよびIntro-VAEの潜時空間解析

Latent Space Analysis of VAE and Intro-VAE applied to 3-dimensional MR Brain Volumes of Multiple Sclerosis, Leukoencephalopathy, and Healthy Patients ( http://arxiv.org/abs/2101.06772v1 )

ライセンス: CC BY 4.0
Christopher Vogelsanger and Christian Federau(参考訳) 多発性硬化症 (MS) と微小血管性白質脳症 (microvascular leukoencephalopathy) は、中枢神経系における局所自己免疫性炎症による2つの神経症状である。 どちらの条件もFluid Attenuated Inversion Recovery (FLAIR) MRIの信号異常を引き起こし、これは専門の神経放射線学者によって区別できるが、両疾患の初期と同様に、訓練されていない眼と非常によく似ている。 本稿では,2つの疾患の特定の特徴を教師なしの方法で学習するために,3次元深層ニューラルネットワークを訓練することを試みる。 このようにして、我々は生成ニューラルネットワークを訓練し、複数の硬化症、ロイコ脳症、および3096患者の5404巻を含む健康患者の混合データセットを用いて、ほぼ明示的な密度で、両方の条件の人工MR画像を作成する。 第2のステップでは、このネットワークの潜伏空間にある異なる病気の特徴を区別し、それらを新しいデータに分類する。

Multiple Sclerosis (MS) and microvascular leukoencephalopathy are two distinct neurological conditions, the first caused by focal autoimmune inflammation in the central nervous system, the second caused by chronic white matter damage from atherosclerotic microvascular disease. Both conditions lead to signal anomalies on Fluid Attenuated Inversion Recovery (FLAIR) magnetic resonance (MR) images, which can be distinguished by an expert neuroradiologist, but which can look very similar to the untrained eye as well as in the early stage of both diseases. In this paper, we attempt to train a 3-dimensional deep neural network to learn the specific features of both diseases in an unsupervised manner. For this manner, in a first step we train a generative neural network to create artificial MR images of both conditions with approximate explicit density, using a mixed dataset of multiple sclerosis, leukoencephalopathy and healthy patients containing in total 5404 volumes of 3096 patients. In a second step, we distinguish features between the different diseases in the latent space of this network, and use them to classify new data.
翻訳日:2021-03-27 22:30:37 公開日:2021-01-17
# (参考訳) パンデミックから学ぶ: 異常な出来事を駆使して病気の流行モデルを改善する

Learning from pandemics: using extraordinary events can improve disease now-casting models ( http://arxiv.org/abs/2101.06774v1 )

ライセンス: CC BY 4.0
Sara Mesquita, Cl\'audio Haupt Vieira, L\'ilia Perfeito and Joana Gon\c{c}alves-S\'a(参考訳) オンライン検索は、病気の発生をモニターするなど、さまざまな健康関連行動の研究に使われてきた。 明らかな欠点は、個人のモチベーションに欠けているオンライン情報やモデルを探す動機を個人が求める理由は限られており、誤解を招くこともあることである。 これは特に、パンデミックや恐怖、好奇心、その他多くの理由によって、個人が健康関連情報を検索し、疾患による検索を隠蔽する可能性がある、という異常な公衆衛生危機において、特に当てはまる。 しかし、健康危機はまた、異なるドライバーを混乱させ、人間の行動を学ぶ機会を与える。 本稿では,21世紀の2つのパンデミック(2009-H1N1fluとCovid-19)に焦点を当て,一般情報検索(メディア駆動)に関連する検索パターンと,実際の感染に関連する可能性のある検索パターンを識別する手法を提案する。 このようなパンデミック期から学ぶことで、不安感やメディアの誇大宣伝が高まり、オンライン検索を選択し、パンデミックと季節設定の両方でモデル性能を向上させることができる。 さらに、より多くのデータが常に良いという共通の主張にもかかわらず、我々の結果は、特に長期的には、明らかに類似したデータを大量に含むよりも、正しいデータのボリュームが低い方が良いことを示している。 我々の研究は、特定の事象や病気を越えて適用可能な一般的なフレームワークを提供しており、アルゴリズムは(より少ない)データを使用することで簡単に改善できると主張している。 これは例えば、機械学習の正確性-説明可能性のトレードオフを解決するために重要な結果をもたらす。

Online searches have been used to study different health-related behaviours, including monitoring disease outbreaks. An obvious caveat is that several reasons can motivate individuals to seek online information and models that are blind to people's motivations are of limited use and can even mislead. This is particularly true during extraordinary public health crisis, such as the ongoing pandemic, when fear, curiosity and many other reasons can lead individuals to search for health-related information, masking the disease-driven searches. However, health crisis can also offer an opportunity to disentangle between different drivers and learn about human behavior. Here, we focus on the two pandemics of the 21st century (2009-H1N1 flu and Covid-19) and propose a methodology to discriminate between search patterns linked to general information seeking (media driven) and search patterns possibly more associated with actual infection (disease driven). We show that by learning from such pandemic periods, with high anxiety and media hype, it is possible to select online searches and improve model performance both in pandemic and seasonal settings. Moreover, and despite the common claim that more data is always better, our results indicate that lower volume of the right data can be better than including large volumes of apparently similar data, especially in the long run. Our work provides a general framework that can be applied beyond specific events and diseases, and argues that algorithms can be improved simply by using less (better) data. This has important consequences, for example, to solve the accuracy-explainability trade-off in machine-learning.
翻訳日:2021-03-27 22:22:19 公開日:2021-01-17
# (参考訳) 腫瘍病変を有する脳MRIレジストレーションにおけるシンメトリー制約不規則構造

Symmetric-Constrained Irregular Structure Inpainting for Brain MRI Registration with Tumor Pathology ( http://arxiv.org/abs/2101.06775v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Chao Yang, C.-C. Jay Kuo, Georges ElFakhri, Jonghye Woo(参考訳) 脳腫瘍患者と健常者の磁気共鳴画像の変形性登録は、位置アライメントによって腫瘍の形状を特定する重要なツールであり、病理学的解析を容易にする。 腫瘍領域は通常の脳組織と一致しないため、患者の脳を正常な組織に変形的に登録することは困難である。 多くの患者画像は、不規則に分布した病変と関連しており、正常な組織構造のさらなる歪みと登録の類似性尺度の複雑化をもたらす。 本研究は,腫瘍領域の合成組織強度を生成するために,多段階のコンテキスト認識画像塗布フレームワークに従う。 粗い画像と画像の変換を適用して、欠落部分の粗い推測を行う。 次に,パッチ毎の機能間の意味的関連性をモデル化することにより,細部を洗練するために,機能レベルのパッチマッチリファインメントモジュールを適用する。 さらに、より優れた構造理解を実現するために、脳内の解剖学的対称性を反映する対称性制約を提案する。 塗布された患者画像と正常脳の間で変形可能な登録が適用され、最終的なアライメントのために元の患者データを変形するために結果の変形場が最終的に使用される。 この方法は、Multimodal Brain tumor Segmentation (BraTS) 2018 Challenge databaseに適用され、既存の3つの塗装法と比較された。 提案手法は,ピーク信号対雑音比,構造類似度指数,開始スコア,L1誤差を低減し,患者と正常な脳画像の登録に成功した。

Deformable registration of magnetic resonance images between patients with brain tumors and healthy subjects has been an important tool to specify tumor geometry through location alignment and facilitate pathological analysis. Since tumor region does not match with any ordinary brain tissue, it has been difficult to deformably register a patients brain to a normal one. Many patient images are associated with irregularly distributed lesions, resulting in further distortion of normal tissue structures and complicating registration's similarity measure. In this work, we follow a multi-step context-aware image inpainting framework to generate synthetic tissue intensities in the tumor region. The coarse image-to-image translation is applied to make a rough inference of the missing parts. Then, a feature-level patch-match refinement module is applied to refine the details by modeling the semantic relevance between patch-wise features. A symmetry constraint reflecting a large degree of anatomical symmetry in the brain is further proposed to achieve better structure understanding. Deformable registration is applied between inpainted patient images and normal brains, and the resulting deformation field is eventually used to deform original patient data for the final alignment. The method was applied to the Multimodal Brain Tumor Segmentation (BraTS) 2018 challenge database and compared against three existing inpainting methods. The proposed method yielded results with increased peak signal-to-noise ratio, structural similarity index, inception score, and reduced L1 error, leading to successful patient-to-normal brain image registration.
翻訳日:2021-03-27 22:04:02 公開日:2021-01-17
# (参考訳) 電子健康記録上の不均一類似性グラフニューラルネットワーク

Heterogeneous Similarity Graph Neural Network on Electronic Health Records ( http://arxiv.org/abs/2101.06800v1 )

ライセンス: CC BY 4.0
Zheng Liu, Xiaohan Li, Hao Peng, Lifang He, Philip S. Yu(参考訳) 電子健康記録(ehrs)の採掘は、情報が豊富であることから、有望な話題となっている。 ehrsから学習することで、人間の専門家が医療判断を行なえ、医療品質を改善するために機械学習モデルを構築することができる。 近年,この目的を達成するためにシーケンシャルモデルやグラフモデルに基づくモデルが多数提案されている。 EHRは複数の実体と関係を持ち、不均一グラフと見なすことができる。 しかし、以前の研究では、EHRの不均一性は無視されていた。 一方、現在の異種グラフニューラルネットワークは、ハブノードが存在するため、単にEHRグラフ上では使用できない。 この問題に対処するために,新しい異種GNNを用いた異種類似グラフニューラルネットワーク(HSGNN)を提案する。 フレームワークは2つの部分から構成される: 1つは前処理方式で、もう1つはエンドツーエンドのGNNである。 前処理法はエッジを正規化し、EHRグラフを複数の同質グラフに分割する一方、各同質グラフは元のEHRグラフの部分情報を含む。 GNNは全ての同質グラフを入力として取り、それら全てを1つのグラフに融合して予測する。 実験の結果,HSGNNは診断予測タスクにおいて,他のベースラインよりも優れていた。

Mining Electronic Health Records (EHRs) becomes a promising topic because of the rich information they contain. By learning from EHRs, machine learning models can be built to help human experts to make medical decisions and thus improve healthcare quality. Recently, many models based on sequential or graph models are proposed to achieve this goal. EHRs contain multiple entities and relations and can be viewed as a heterogeneous graph. However, previous studies ignore the heterogeneity in EHRs. On the other hand, current heterogeneous graph neural networks cannot be simply used on an EHR graph because of the existence of hub nodes in it. To address this issue, we propose Heterogeneous Similarity Graph Neural Network (HSGNN) analyze EHRs with a novel heterogeneous GNN. Our framework consists of two parts: one is a preprocessing method and the other is an end-to-end GNN. The preprocessing method normalizes edges and splits the EHR graph into multiple homogeneous graphs while each homogeneous graph contains partial information of the original EHR graph. The GNN takes all homogeneous graphs as input and fuses all of them into one graph to make a prediction. Experimental results show that HSGNN outperforms other baselines in the diagnosis prediction task.
翻訳日:2021-03-27 21:43:55 公開日:2021-01-17
# (参考訳) ganおよび統計距離サーロゲートに最適な定常性を有する測度条件判別器

Measure-conditional Discriminator with Stationary Optimum for GANs and Statistical Distance Surrogates ( http://arxiv.org/abs/2101.06802v1 )

ライセンス: CC BY 4.0
Liu Yang, Tingwei Meng, George Em Karniadakis(参考訳) 異なるGANのためのプラグ・アンド・プレイモジュールとして,識別器,すなわち測度条件判別器の簡易かつ効果的な修正を提案する。 生成した分布を入力として、識別器に最適な目標が定常となるようにすることで、提案する判別器はバニラよりも頑健である。 測度条件判別器の変種は、複数の対象分布を扱うこともでき、kl 発散のような統計距離の代理モデルとして働き、転置学習への応用も可能である。

We propose a simple but effective modification of the discriminators, namely measure-conditional discriminators, as a plug-and-play module for different GANs. By taking the generated distributions as part of input so that the target optimum for the discriminator is stationary, the proposed discriminator is more robust than the vanilla one. A variant of the measure-conditional discriminator can also handle multiple target distributions, or act as a surrogate model of statistical distances such as KL divergence with applications to transfer learning.
翻訳日:2021-03-27 21:26:09 公開日:2021-01-17
# (参考訳) free congruence:時系列データに対する拡張された類似性尺度の探索

Free congruence: an exploration of expanded similarity measures for time series data ( http://arxiv.org/abs/2101.08659v1 )

ライセンス: CC BY 4.0
Lucas Cassiel Jacaruso(参考訳) 時系列の類似度測定は、機械学習モデルのトレーニング、分類、予測モデリングなど、さまざまな新興アプリケーションで非常に関係がある。 時系列の標準類似度尺度は、しばしばユークリッド距離や動的時間ゆがみを含む点対点距離尺度を含む。 このような類似性尺度は、時系列における値の変動を基本的に必要とし、類似性を確立するための対応する順序やケイデンスに従う。 この論文は、より広い類似性の定義、すなわち、値ラベリングによらず時系列セグメントの統計特性の集合間の厳密な数値的類似性を考慮することによるものである。 さらに, 時系列区間間の共通パターン成分の存在を, 順に変化しても検討し, 従来型の点間距離測定の基準を必ずしも満たさないことを示した。 結果は、同じデータに対するDynamic Time Warpingの結果と比較された。 驚くべきことに、統計特性のセット間の数値的類似性テストは、特定のデータと使用するサンプルサイズに対する動的時間ウォーピングよりも大きな統計的重要性を持つ、減少年数のペアリングのより強い類似性を確立した。

Time series similarity measures are highly relevant in a wide range of emerging applications including training machine learning models, classification, and predictive modeling. Standard similarity measures for time series most often involve point-to-point distance measures including Euclidean distance and Dynamic Time Warping. Such similarity measures fundamentally require the fluctuation of values in the time series being compared to follow a corresponding order or cadence for similarity to be established. This paper is spurred by the exploration of a broader definition of similarity, namely one that takes into account the sheer numerical resemblance between sets of statistical properties for time series segments irrespectively of value labeling. Further, the presence of common pattern components between time series segments was examined even if they occur in a permuted order, which would not necessarily satisfy the criteria of more conventional point-to-point distance measures. Results were compared with those of Dynamic Time Warping on the same data for context. Surprisingly, the test for the numerical resemblance between sets of statistical properties established a stronger resemblance for pairings of decline years with greater statistical significance than Dynamic Time Warping on the particular data and sample size used.
翻訳日:2021-03-27 20:57:18 公開日:2021-01-17
# コスト効率の良いオンラインハイパーパラメータ最適化

Cost-Efficient Online Hyperparameter Optimization ( http://arxiv.org/abs/2101.06590v1 )

ライセンス: Link先を確認
Jingkang Wang, Mengye Ren, Ilija Bogunovic, Yuwen Xiong, Raquel Urtasun(参考訳) ハイパーパラメータ最適化(HPO)に関する最近の研究は、特定のハイパーパラメータを正規パラメータと共に訓練する可能性を示している。 しかし、これらのオンラインHPOアルゴリズムは、トレーニングの各ステップにおける検証例のセットの評価を必要とするため、トレーニングコストが大幅に増加する。 検証損失をいつ問い合わせるかを決定するために,オンラインHPOを時間変動ベイズ最適化問題としてモデル化し,その上で,クエリコストの概念を捉えた新しい‘textit{costly feedback} 設定を提案する。 この設定下では、標準アルゴリズムは各ラウンドの検証セットを評価するため、コスト非効率である。 これとは対照的に,提案したGP-UCBアルゴリズムは,モデルが現在の決定に自信がない場合にのみ,未知の関数を問合せする。 CIFAR-10 と ImageNet100 上で VGG と ResNet のハイパーパラメータをオンラインでチューニングすることで,提案アルゴリズムの評価を行った。 提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。

Recent work on hyperparameters optimization (HPO) has shown the possibility of training certain hyperparameters together with regular parameters. However, these online HPO algorithms still require running evaluation on a set of validation examples at each training step, steeply increasing the training cost. To decide when to query the validation loss, we model online HPO as a time-varying Bayesian optimization problem, on top of which we propose a novel \textit{costly feedback} setting to capture the concept of the query cost. Under this setting, standard algorithms are cost-inefficient as they evaluate on the validation set at every round. In contrast, the cost-efficient GP-UCB algorithm proposed in this paper queries the unknown function only when the model is less confident about current decisions. We evaluate our proposed algorithm by tuning hyperparameters online for VGG and ResNet on CIFAR-10 and ImageNet100. Our proposed online HPO algorithm reaches human expert-level performance within a single run of the experiment, while incurring only modest computational overhead compared to regular training.
翻訳日:2021-03-27 20:23:29 公開日:2021-01-17
# HySTER: ハイブリッド時空間イベント共振器

HySTER: A Hybrid Spatio-Temporal Event Reasoner ( http://arxiv.org/abs/2101.06644v1 )

ライセンス: Link先を確認
Theophile Sautory, Nuri Cingillioglu, Alessandra Russo(参考訳) Video Question Answering(ビデオQA)のタスクは、ビデオに関する自然言語の質問に答えることと、シーンシーケンス理解におけるモデルの性能を評価するプロキシとして機能することである。 最新のビデオQA用に設計されたほとんどの手法は、複雑な時間的および因果推論に苦労し、推論ステップにおいて限られた透明性を提供するエンドツーエンドのディープラーニングアーキテクチャである。 我々はHySTER: a Hybrid Spatio-Temporal Event Reasonerを紹介した。 本モデルでは,映像フレームから情報を取り出すための深層学習手法の強みを活用し,応答集合プログラミングフレームワークにおけるシンボル人工知能の推論能力と説明可能性について考察する。 タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。 我々は,我々のモデルをCLEVRERデータセットに適用し,質問応答精度を示す。 この研究は、ビデオQAの分野における帰納論理プログラミングの組み入れの基礎を定めている。

The task of Video Question Answering (VideoQA) consists in answering natural language questions about a video and serves as a proxy to evaluate the performance of a model in scene sequence understanding. Most methods designed for VideoQA up-to-date are end-to-end deep learning architectures which struggle at complex temporal and causal reasoning and provide limited transparency in reasoning steps. We present the HySTER: a Hybrid Spatio-Temporal Event Reasoner to reason over physical events in videos. Our model leverages the strength of deep learning methods to extract information from video frames with the reasoning capabilities and explainability of symbolic artificial intelligence in an answer set programming framework. We define a method based on general temporal, causal and physics rules which can be transferred across tasks. We apply our model to the CLEVRER dataset and demonstrate state-of-the-art results in question answering accuracy. This work sets the foundations for the incorporation of inductive logic programming in the field of VideoQA.
翻訳日:2021-03-27 20:23:09 公開日:2021-01-17
# 頭部ポーズと細粒度ジェスチャー認識のための地域注意ネットワーク(ran)

Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture Recognition ( http://arxiv.org/abs/2101.06634v1 )

ライセンス: Link先を確認
Ardhendu Behera, Zachary Wharton, Morteza Ghahremani, Swagat Kumar, Nik Bessis(参考訳) 影響はしばしば、人間の行動にとって重要な指標である行動/妊娠などの非言語体語を介して表現される。 近年,単眼画像における細粒度動作の認識に関する研究は,身体のポーズ,人間と物体の相互作用,局所的な外観の変化を表す身体部位の空間的構成のモデル化に主眼を置いている。 その結果,身体の正確な部位や物体の検出に頼っているため,これは脆いアプローチであることがわかった。 本研究は,細粒度なジェスチャーや動作を推測するための注意機構によって評価できる局所的な判別的意味領域が存在することを論じる。 そこで本研究では,あるタスクに最も関係のある画像の一部に焦点をあて,注意機構を通じて複数のコンテキスト領域を結合する,完全な畳み込みニューラルネットワーク(CNN)である,新しいエンドツーエンドの‘textbf{Regional Attention Network’を提案する。 我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。 このモデルは,1)頭部ポーズ認識,2)ドライバーの状態認識,3)人間の行動と表情認識の3つのシナリオに属する10のデータセットで広く評価されている。 提案手法は、異なる指標のかなりの差で最先端の手法より優れている。

Affect is often expressed via non-verbal body language such as actions/gestures, which are vital indicators for human behaviors. Recent studies on recognition of fine-grained actions/gestures in monocular images have mainly focused on modeling spatial configuration of body parts representing body pose, human-objects interactions and variations in local appearance. The results show that this is a brittle approach since it relies on accurate body parts/objects detection. In this work, we argue that there exist local discriminative semantic regions, whose "informativeness" can be evaluated by the attention mechanism for inferring fine-grained gestures/actions. To this end, we propose a novel end-to-end \textbf{Regional Attention Network (RAN)}, which is a fully Convolutional Neural Network (CNN) to combine multiple contextual regions through attention mechanism, focusing on parts of the images that are most relevant to a given task. Our regions consist of one or more consecutive cells and are adapted from the strategies used in computing HOG (Histogram of Oriented Gradient) descriptor. The model is extensively evaluated on ten datasets belonging to 3 different scenarios: 1) head pose recognition, 2) drivers state recognition, and 3) human action and facial expression recognition. The proposed approach outperforms the state-of-the-art by a considerable margin in different metrics.
翻訳日:2021-03-27 20:22:55 公開日:2021-01-17
# ドライバの活動認識のための粗時間注意ネットワーク(CTA-Net)

Coarse Temporal Attention Network (CTA-Net) for Driver's Activity Recognition ( http://arxiv.org/abs/2101.06636v1 )

ライセンス: Link先を確認
Zachary Wharton, Ardhendu Behera, Yonghuai Liu, Nik Bessis(参考訳) ビデオから従来の人間の活動を認識することは、差別的身体運動、身体と物体、または人間と人間の相互作用を含む非常に独特な行動に焦点を当てる。 ドライバーの活動は、類似した身体部分の動きを持つ同じ被験者によって実行されるため、微妙な変化をもたらす。 そこで本研究では,時空間的注意を生かして微妙な変化をモデル化する新しい枠組みを提案する。 我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、トレーニング可能な視線ネットワークに粗い時間枝を導入する。 目標は、ビデオの特定の部分に焦点を合わせ、'during'、'before'、'after'などのハイレベルな時間関係を可視化できるようにすることである。 これらの分枝はビデオの時間的ダイナミクスのトポロジーも尊重しており、異なる分枝が意味のある空間的変化と時間的変化を学ぶことを保証している。 このモデルは、LSTMの隠れた状態を探索することによって、アクティビティ認識のための高レベルなアクション特異的コンテキスト情報を生成するために、革新的な注意機構を使用する。 注意機構は、ビデオの表現を構築する際に、認識タスクにおける各隠れ状態の重要性を判断するのに役立つ。 提案手法は4つの公開データセットで評価され,RGB動画のみを入力として,最先端技術よりも大幅に優れていた。

There is significant progress in recognizing traditional human activities from videos focusing on highly distinctive actions involving discriminative body movements, body-object and/or human-human interactions. Driver's activities are different since they are executed by the same subject with similar body parts movements, resulting in subtle changes. To address this, we propose a novel framework by exploiting the spatiotemporal attention to model the subtle changes. Our model is named Coarse Temporal Attention Network (CTA-Net), in which coarse temporal branches are introduced in a trainable glimpse network. The goal is to allow the glimpse to capture high-level temporal relationships, such as 'during', 'before' and 'after' by focusing on a specific part of a video. These branches also respect the topology of the temporal dynamics in the video, ensuring that different branches learn meaningful spatial and temporal changes. The model then uses an innovative attention mechanism to generate high-level action specific contextual information for activity recognition by exploring the hidden states of an LSTM. The attention mechanism helps in learning to decide the importance of each hidden state for the recognition task by weighing them when constructing the representation of the video. Our approach is evaluated on four publicly accessible datasets and significantly outperforms the state-of-the-art by a considerable margin with only RGB video as input.
翻訳日:2021-03-27 20:22:31 公開日:2021-01-17
# 敵対的相互作用攻撃:人間の意図を誤解釈するAI

Adversarial Interaction Attack: Fooling AI to Misinterpret Human Intentions ( http://arxiv.org/abs/2101.06704v1 )

ライセンス: Link先を確認
Nodens Koren, Qiuhong Ke, Yisen Wang, James Bailey, Xingjun Ma(参考訳) 人間と人工知能(AI)エージェントの行動を理解することは、現代のAIシステムが私たちの日常生活に完全に統合される前に重要である。 本稿では、現在大きな成功を収めているにもかかわらず、深層学習に基づくAIシステムは、微妙な敵対的ノイズによって容易に騙され、相互作用シナリオにおけるアクションの意図を誤解釈できることを示す。 骨格に基づく人的相互作用のケーススタディに基づいて, DNNに基づく相互作用モデルを用いて, 参加者の反応を予期しない方法で予測する方法を実証し, 相互作用に対する新たな敵攻撃を提案する。 広い視点から見ると,提案手法の範囲はスケルトンデータに関わる問題に限定されるものではなく,逐次回帰を伴う任意の問題にも拡張できる。 我々の研究は、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループの潜在的なリスクを強調している。

Understanding the actions of both humans and artificial intelligence (AI) agents is important before modern AI systems can be fully integrated into our daily life. In this paper, we show that, despite their current huge success, deep learning based AI systems can be easily fooled by subtle adversarial noise to misinterpret the intention of an action in interaction scenarios. Based on a case study of skeleton-based human interactions, we propose a novel adversarial attack on interactions, and demonstrate how DNN-based interaction models can be tricked to predict the participants' reactions in unexpected ways. From a broader perspective, the scope of our proposed attack method is not confined to problems related to skeleton data but can also be extended to any type of problems involving sequential regressions. Our study highlights potential risks in the interaction loop with AI and humans, which need to be carefully addressed when deploying AI systems in safety-critical applications.
翻訳日:2021-03-27 20:22:10 公開日:2021-01-17
# GENIE:テキスト生成の人間による評価のためのリーダーボード

GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation ( http://arxiv.org/abs/2101.06561v1 )

ライセンス: Link先を確認
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A. Smith, Daniel S. Weld(参考訳) リーダボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にする。 しかし、それらの採用は、自動的な方法で確実に評価できるタスクに限定されている。 この研究は、テキスト生成タスクにリーダーボードの容易さをもたらす、拡張可能なヒューマン評価リーダーボードであるGENIEを導入している。 GENIEはリーダーボードをクラウドソーシングプラットフォームに自動的に投稿し、人間のアノテータに様々な軸(例えば、正確性、簡潔性、流布性)で評価するよう求め、答えを様々な自動メトリクスと比較する。 本稿では,機械翻訳,要約,コモンセンス推論,機械理解という,テキスト生成における4つの課題について述べる。 我々は,形式的な粒度評価指標を提供し,今後の研究分野を特定する。 私たちはgenieを一般公開し、言語生成モデルと自動および手動による評価の進展を促すことを期待しています。

Leaderboards have eased model development for many NLP datasets by standardizing their evaluation and delegating it to an independent external repository. Their adoption, however, is so far limited to tasks that can be reliably evaluated in an automatic manner. This work introduces GENIE, an extensible human evaluation leaderboard, which brings the ease of leaderboards to text generation tasks. GENIE automatically posts leaderboard submissions to crowdsourcing platforms asking human annotators to evaluate them on various axes (e.g., correctness, conciseness, fluency) and compares their answers to various automatic metrics. We introduce several datasets in English to GENIE, representing four core challenges in text generation: machine translation, summarization, commonsense reasoning, and machine comprehension. We provide formal granular evaluation metrics and identify areas for future research. We make GENIE publicly available and hope that it will spur progress in language generation models as well as their automatic and manual evaluation.
翻訳日:2021-03-27 20:21:55 公開日:2021-01-17
# Smooth Unique Information を用いたサンプルの情報性の推定

Estimating informativeness of samples with Smooth Unique Information ( http://arxiv.org/abs/2101.06640v1 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Alessandro Achille, Giovanni Paolini, Orchid Majumder, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto(参考訳) 我々は、個々のサンプルがニューラルネットワークのトレーニングに与える情報の概念を定義し、サンプルが最終的な重み付けにどの程度情報を与えるか、重みによって計算された関数にどの程度情報を与えるかを計測する。 関連があるものの、これらの量は定性的に異なる挙動を示す。 線形化ネットワークを用いてこれらの量の効率的な近似を行い、事前学習された再ネットのような実世界のアーキテクチャにおいて近似が正確であることを実証的に示す。 これらの手法を,データセットの要約,アンダーサンプリングクラスの解析,異なるデータソースのインフォメーション性の比較,逆および破損例の検出など,いくつかの問題に適用する。 我々の研究は既存のフレームワークを一般化するが、過度にパラメータ化されたモデルでより優れた計算特性を享受し、実世界のネットワークに適用することができる。

We define a notion of information that an individual sample provides to the training of a neural network, and we specialize it to measure both how much a sample informs the final weights and how much it informs the function computed by the weights. Though related, we show that these quantities have a qualitatively different behavior. We give efficient approximations of these quantities using a linearized network and demonstrate empirically that the approximation is accurate for real-world architectures, such as pre-trained ResNets. We apply these measures to several problems, such as dataset summarization, analysis of under-sampled classes, comparison of informativeness of different data sources, and detection of adversarial and corrupted examples. Our work generalizes existing frameworks but enjoys better computational properties for heavily over-parametrized models, which makes it possible to apply it to real-world networks.
翻訳日:2021-03-27 20:21:38 公開日:2021-01-17
# KCP:Dense Labeling Neural Networkのためのカーネルクラスタプルーニング

KCP: Kernel Cluster Pruning for Dense Labeling Neural Networks ( http://arxiv.org/abs/2101.06686v1 )

ライセンス: Link先を確認
Po-Hsiang Yu, Sih-Sian Wu and Liang-Gee Chen(参考訳) プルーニングはニューラルネットワークの圧縮と加速に使われる有望な技術になっている。 既存の手法は主にスペアラベリングアプリケーションで評価される。 しかし、資源制約のあるモバイルデバイス上でリアルタイム処理を必要とする現実的な問題に近づきつつある。 濃密なラベリングアプリケーションに対するプルーニングは、まだほとんど探索されていない分野である。 フィルタチャネルのプルーニング方法は、フィルタチャネル全体を除去する。 したがって、1つのフィルタチャネル内の各カーネル間の相互作用は無視される。 本研究では,高密度ラベリングネットワークに対してkcp(kernel cluster pruning)を提案する。 各層における最小表現型カーネルを識別するクラスタリング手法を開発した。 これらのカーネルを反復的に除去することにより、ネットワーク全体を表現可能なパラメータを保存し、適切なモデルサイズと計算量の削減により精度を向上する。 ステレオマッチングとセマンティックセグメンテーションニューラルネットワークを用いて評価すると,精度の1%以下でFLOPの70%以上を削減できる。 さらに, ILSVRC-2012のResNet-50では, FLOPの50%以上を削減でき, トップ1の精度が0.13%向上した。 したがって、KCPは最先端の刈り取り結果を得る。

Pruning has become a promising technique used to compress and accelerate neural networks. Existing methods are mainly evaluated on spare labeling applications. However, dense labeling applications are those closer to real world problems that require real-time processing on resource-constrained mobile devices. Pruning for dense labeling applications is still a largely unexplored field. The prevailing filter channel pruning method removes the entire filter channel. Accordingly, the interaction between each kernel in one filter channel is ignored. In this study, we proposed kernel cluster pruning (KCP) to prune dense labeling networks. We developed a clustering technique to identify the least representational kernels in each layer. By iteratively removing those kernels, the parameter that can better represent the entire network is preserved; thus, we achieve better accuracy with a decent model size and computation reduction. When evaluated on stereo matching and semantic segmentation neural networks, our method can reduce more than 70% of FLOPs with less than 1% of accuracy drop. Moreover, for ResNet-50 on ILSVRC-2012, our KCP can reduce more than 50% of FLOPs reduction with 0.13% Top-1 accuracy gain. Therefore, KCP achieves state-of-the-art pruning results.
翻訳日:2021-03-27 20:21:03 公開日:2021-01-17
# 高速かつスケーラブルなAC-OPF学習のための空間ネットワーク分解

Spatial Network Decomposition for Fast and Scalable AC-OPF Learning ( http://arxiv.org/abs/2101.06768v1 )

ライセンス: Link先を確認
Minas Chatzos and Terrence W.K. Mak and Pascal Van Hentenryck(参考訳) 本稿では、高速でスケーラブルなトレーニングを特徴とするAC-OPFソリューションを予測するための新しい機械学習手法を提案する。 1) トポロジ最適化と再生可能エネルギー源による確率性が, 基本的に異なるAC-OPFインスタンスに繋がる可能性, (2) 既存の機械学習手法によるAC-OPF予測に要する重要なトレーニング時間である。 提案手法は,領域の集合と見なされる電力ネットワークの空間分解を利用する2段階の手法である。 第1段は、各領域を結合したバスと線路の流速と電圧を予測することを学び、第2段は、各領域の機械学習モデルと並行して訓練を行う。 フランスのトランスミッションシステム(最大6,700のバスと9000の路線)の実験結果は、このアプローチの可能性を示している。 短いトレーニング時間内に、このアプローチは、非常に高い忠実度と小さな制約違反を持つAC-OPFソリューションを予測し、最先端技術よりも大幅に改善する。 また,ac-opf目標の0.03%以内で実現可能な解を返すように負荷フロー最適化を施し,実行時間を大幅に削減できることを示した。

This paper proposes a novel machine-learning approach for predicting AC-OPF solutions that features a fast and scalable training. It is motivated by the two critical considerations: (1) the fact that topology optimization and the stochasticity induced by renewable energy sources may lead to fundamentally different AC-OPF instances; and (2) the significant training time needed by existing machine-learning approaches for predicting AC-OPF. The proposed approach is a 2-stage methodology that exploits a spatial decomposition of the power network that is viewed as a set of regions. The first stage learns to predict the flows and voltages on the buses and lines coupling the regions, and the second stage trains, in parallel, the machine-learning models for each region. Experimental results on the French transmission system (up to 6,700 buses and 9,000 lines) demonstrate the potential of the approach. Within a short training time, the approach predicts AC-OPF solutions with very high fidelity and minor constraint violations, producing significant improvements over the state-of-the-art. The results also show that the predictions can seed a load flow optimization to return a feasible solution within 0.03% of the AC-OPF objective, while reducing running times significantly.
翻訳日:2021-03-27 20:20:48 公開日:2021-01-17
# MPC-MPNet:動力学的制約下での高速ニア最適計画のためのモデル予測運動計画ネットワーク

MPC-MPNet: Model-Predictive Motion Planning Networks for Fast, Near-Optimal Planning under Kinodynamic Constraints ( http://arxiv.org/abs/2101.06798v1 )

ライセンス: Link先を確認
Linjun Li, Yinglong Miao, Ahmed H. Qureshi, and Michael C. Yip(参考訳) Kinodynamic Motion Planning (KMP) とは、運動学と力学の制約を同時に受けるロボットの動きを見つけることである。 現在までに、KMP問題の解法はごく少数であり、計画空間の次元が増加するにつれて、ほぼ最適解を見つけるのに苦労し、高い計算複雑性を示す。 これらの課題に対処するために、我々はスケーラブルで模倣学習に基づくモデル予測型運動計画ネットワークフレームワークを提案し、実用的不動システムに対するキノダイナミック制約の下で最悪の理論的保証を持つ準最適経路解を迅速に見つける。 本フレームワークでは,ニューラルジェネレータ,判別器,並列化モデル予測コントローラ(mpc)の2つのアルゴリズムを導入する。 ジェネレータは、所定のターゲットに対して様々な情報状態を出力し、識別器は、拡張のためにそれらから可能な限り最良のサブセットを選択する。 mpcは、与えられた制約を満たしながら、選択されたインフォームドステートをローカルに接続し、至近の最適解へと導く。 提案アルゴリズムは,計算時間,経路特性,既存手法に対する成功率の大幅な改善を示す結果から,乱れ,キノダイナミックな制約付き,不安定な計画問題に対して評価を行う。

Kinodynamic Motion Planning (KMP) is to find a robot motion subject to concurrent kinematics and dynamics constraints. To date, quite a few methods solve KMP problems and those that exist struggle to find near-optimal solutions and exhibit high computational complexity as the planning space dimensionality increases. To address these challenges, we present a scalable, imitation learning-based, Model-Predictive Motion Planning Networks framework that quickly finds near-optimal path solutions with worst-case theoretical guarantees under kinodynamic constraints for practical underactuated systems. Our framework introduces two algorithms built on a neural generator, discriminator, and a parallelizable Model Predictive Controller (MPC). The generator outputs various informed states towards the given target, and the discriminator selects the best possible subset from them for the extension. The MPC locally connects the selected informed states while satisfying the given constraints leading to feasible, near-optimal solutions. We evaluate our algorithms on a range of cluttered, kinodynamically constrained, and underactuated planning problems with results indicating significant improvements in computation times, path qualities, and success rates over existing methods.
翻訳日:2021-03-27 20:20:24 公開日:2021-01-17
# 漫画ビデオのためのナレーション生成

Narration Generation for Cartoon Videos ( http://arxiv.org/abs/2101.06803v1 )

ライセンス: Link先を確認
Nikos Papasarantopoulos, Shay B. Cohen(参考訳) マルチモーダル入力からのテキスト生成に関する研究は、主に静的画像に焦点を当てている。 本稿では,複数箇所で解釈される動画をナレーションテキストで補完する新たな課題であるナレーション生成を提案する。 ナレーションはビデオの一部であり、その中に展開されるストーリーラインに貢献する。 さらに、それらには、カバーするビデオのタイムフレームに適した情報が含まれており、キャプションのように、入力シーンに表示される詳細をすべて含まないため、コンテキストインフォームされている。 アニメーションテレビシリーズpeppa pigから新しいデータセットを収集した。 さらに、ナレーション生成のタスクを、タイミングとコンテンツ生成という2つの異なるタスクを含むものとして定式化し、新しいタスクに一連のモデルを示す。

Research on text generation from multimodal inputs has largely focused on static images, and less on video data. In this paper, we propose a new task, narration generation, that is complementing videos with narration texts that are to be interjected in several places. The narrations are part of the video and contribute to the storyline unfolding in it. Moreover, they are context-informed, since they include information appropriate for the timeframe of video they cover, and also, do not need to include every detail shown in input scenes, as a caption would. We collect a new dataset from the animated television series Peppa Pig. Furthermore, we formalize the task of narration generation as including two separate tasks, timing and content generation, and present a set of models on the new task.
翻訳日:2021-03-27 20:19:24 公開日:2021-01-17
# gpt-$3$のよいインコンテキストの例は何でしょう?

What Makes Good In-Context Examples for GPT-$3$? ( http://arxiv.org/abs/2101.06804v1 )

ライセンス: Link先を確認
Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, Weizhu Chen(参考訳) gpt-$3$は、幅広いnlpタスクにまたがる優れたパフォーマンス、特に、強力で多彩なコンテキスト内少数ショット学習能力によって、多くの注目を集めている。 その成功にもかかわらず、GPT-$3$の実証結果は、文脈内例の選択に大きく依存していることがわかった。 本研究は,GPT-$3$の複数ショット機能を活用するために,テキスト中のサンプル(ランダムサンプリングに関連して)をより効果的に選択する戦略が存在するかを検討する。 大規模ニューラルネットワークモデルの強化に検索モジュールを活用した最近の成功に触発されて,テストサンプルと意味的に類似した例を検索し,それに対応するプロンプトを定式化する。 直感的には、そのような戦略で選択された文脈内例は、GPT-$3$の広範な知識を解き放つためのより情報的な入力として機能する。 提案手法をいくつかの自然言語理解・生成ベンチマークで評価し、検索に基づくプロンプト選択手法はランダムベースラインを一貫して上回っている。 さらに,タスク関連データセットを微調整した文エンコーダにより,より有用な検索結果が得られることがわかった。 特に、テーブル・ツー・テキスト生成(ToTToデータセットでは41.9%)やオープン・ドメインの質問応答(NQデータセットでは45.5%)といったタスクでは顕著な増加が見られる。 我々は,GPT-$3および大規模事前学習型LMの挙動を概ね理解し,その少数の機能向上に寄与することを期待している。

GPT-$3$ has attracted lots of attention due to its superior performance across a wide range of NLP tasks, especially with its powerful and versatile in-context few-shot learning ability. Despite its success, we found that the empirical results of GPT-$3$ depend heavily on the choice of in-context examples. In this work, we investigate whether there are more effective strategies for judiciously selecting in-context examples (relative to random sampling) that better leverage GPT-$3$'s few-shot capabilities. Inspired by the recent success of leveraging a retrieval module to augment large-scale neural network models, we propose to retrieve examples that are semantically-similar to a test sample to formulate its corresponding prompt. Intuitively, the in-context examples selected with such a strategy may serve as more informative inputs to unleash GPT-$3$'s extensive knowledge. We evaluate the proposed approach on several natural language understanding and generation benchmarks, where the retrieval-based prompt selection approach consistently outperforms the random baseline. Moreover, it is observed that the sentence encoders fine-tuned on task-related datasets yield even more helpful retrieval results. Notably, significant gains are observed on tasks such as table-to-text generation (41.9% on the ToTTo dataset) and open-domain question answering (45.5% on the NQ dataset). We hope our investigation could help understand the behaviors of GPT-$3$ and large-scale pre-trained LMs in general and enhance their few-shot capabilities.
翻訳日:2021-03-27 20:19:12 公開日:2021-01-17
# 人工知能の理解

Understanding in Artificial Intelligence ( http://arxiv.org/abs/2101.06573v1 )

ライセンス: Link先を確認
Stefan Maetschke and David Martinez Iraola and Pieter Barnard and Elaheh ShafieiBavani and Peter Zhong and Ying Xu and Antonio Jimeno Yepes(参考訳) 現在の人工知能(AI)手法は、主にディープラーニングに基づいており、コンピュータビジョンや自然言語理解など、いくつかの分野で進歩を促している。 これらのAI手法の進歩は、視覚的質問応答などの課題を解決するために設計されたベンチマークを用いて測定される。 これらの方法によってどの程度の理解が活用されているか、現在のベンチマークが理解能力を測定するのにどの程度適切か、といった疑問が残る。 これらの疑問に答えるために、既存のベンチマークとその理解能力を、一連の理解能力と現在の研究ストリームで定義した。 我々は、AI手法の理解能力を測定するためのベンチマーク開発における進歩と、現在の手法が理解能力をいかに発展させるかをレビューする。

Current Artificial Intelligence (AI) methods, most based on deep learning, have facilitated progress in several fields, including computer vision and natural language understanding. The progress of these AI methods is measured using benchmarks designed to solve challenging tasks, such as visual question answering. A question remains of how much understanding is leveraged by these methods and how appropriate are the current benchmarks to measure understanding capabilities. To answer these questions, we have analysed existing benchmarks and their understanding capabilities, defined by a set of understanding capabilities, and current research streams. We show how progress has been made in benchmark development to measure understanding capabilities of AI methods and we review as well how current methods develop understanding capabilities.
翻訳日:2021-03-27 20:18:31 公開日:2021-01-17
# S3:3次元人体モデリングのための神経形状,骨格およびスキニング場

S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling ( http://arxiv.org/abs/2101.06571v1 )

ライセンス: Link先を確認
Ze Yang, Shenlong Wang, Sivabalan Manivasagam, Zeng Huang, Wei-Chiu Ma, Xinchen Yan, Ersin Yumer, Raquel Urtasun(参考訳) 人間の構築とアニメーションは、シミュレーションにおけるバーチャルリアリティやロボティクステストなど、さまざまなアプリケーションで仮想世界を構築する上で重要なコンポーネントである。 形状やポーズ、服装のバリエーションは指数関数的に多いため、現実世界のデータから自動的に人間を再構築し、アニメートする手法を開発することが重要である。 この目標に向けて、歩行者の形状、ポーズ、およびスキンの重量を、データから直接学習される神経暗黙の関数として表現する。 この表現によって、人間のパラメトリックなボディモデルに明示的に適合することなく、さまざまな歩行者の形やポーズを処理でき、より広い範囲の人間のジオメトリやトポロジを処理できます。 各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。 さらに,1つのrgb画像(および/または任意のlidarスイープ)から,大規模に3dアニメーションを生成できることを示した。

Constructing and animating humans is an important component for building virtual worlds in a wide variety of applications such as virtual reality or robotics testing in simulation. As there are exponentially many variations of humans with different shape, pose and clothing, it is critical to develop methods that can automatically reconstruct and animate humans at scale from real world data. Towards this goal, we represent the pedestrian's shape, pose and skinning weights as neural implicit functions that are directly learned from data. This representation enables us to handle a wide variety of different pedestrian shapes and poses without explicitly fitting a human parametric body model, allowing us to handle a wider range of human geometries and topologies. We demonstrate the effectiveness of our approach on various datasets and show that our reconstructions outperform existing state-of-the-art methods. Furthermore, our re-animation experiments show that we can generate 3D human animations at scale from a single RGB image (and/or an optional LiDAR sweep) as input.
翻訳日:2021-03-27 20:18:19 公開日:2021-01-17
# 詳細認識型階層型深層ネットワークに基づく遺物スケッチ抽出フレームワーク

A relic sketch extraction framework based on detail-aware hierarchical deep network ( http://arxiv.org/abs/2101.06616v1 )

ライセンス: Link先を確認
Jinye Peng, Jiaxin Wang, Jun Wang, Erlei Zhang, Qunxi Zhang, Yongqin Zhang, Xianlin Peng, Kai Yu(参考訳) 絵画遺物の復元過程の第一段階として、スケッチ抽出は文化研究において重要な役割を担っている。 しかし、スケッチ抽出は深刻な疾患の腐食に悩まされ、破線やノイズが発生する。 これらの問題を克服するために,絵の遺構の深層学習に基づく階層的スケッチ抽出フレームワークを提案する。 スケッチ抽出過程を粗品抽出と細品抽出の2段階に分けて設計する。 そこで本研究では,fdog(flow-based difference-of-gaussian)エッジ検出とbdcn(bi-directional cascade network)を統合した,より詳細な双方向カスケードネットワークを開発した。 トレーニング済みの戦略を使用して、ディープネットワークトレーニングのための大規模なデータセットの要求を減らし、FDoGから事前の知識によって詳細な特性を学ぶようにネットワークに誘導する。 そこで我々は,病気のノイズを効果的に除去し,スケッチを洗練するために,新しいマルチスケールU-Net(MSU-Net)を設計する。 具体的には、MSU-Netのデコーダ内の複数の中間層から抽出された全ての特徴をスケッチ述語に融合させる。 実験の結果,提案手法は他の7つの最先端手法よりも視覚的,定量的に優れ,複雑な背景にも対処できることがわかった。

As the first step of the restoration process of painted relics, sketch extraction plays an important role in cultural research. However, sketch extraction suffers from serious disease corrosion, which results in broken lines and noise. To overcome these problems, we propose a deep learning-based hierarchical sketch extraction framework for painted cultural relics. We design the sketch extraction process into two stages: coarse extraction and fine extraction. In the coarse extraction stage, we develop a novel detail-aware bi-directional cascade network that integrates flow-based difference-of-Gaussians (FDoG) edge detection and a bi-directional cascade network (BDCN) under a transfer learning framework. It not only uses the pre-trained strategy to extenuate the requirements of large datasets for deep network training but also guides the network to learn the detail characteristics by the prior knowledge from FDoG. For the fine extraction stage, we design a new multiscale U-Net (MSU-Net) to effectively remove disease noise and refine the sketch. Specifically, all the features extracted from multiple intermediate layers in the decoder of MSU-Net are fused for sketch predication. Experimental results showed that the proposed method outperforms the other seven state-of-the-art methods in terms of visual and quantitative metrics and can also deal with complex backgrounds.
翻訳日:2021-03-27 20:17:24 公開日:2021-01-17
# クロスプロトコールネットワークトレーニングによるロバスト顔ランドマーク位置推定のための分離バッチ正規化

Separable Batch Normalization for Robust Facial Landmark Localization with Cross-protocol Network Training ( http://arxiv.org/abs/2101.06663v1 )

ライセンス: Link先を確認
Shuangping Jin, Zhenhua Feng, Wankou Yang, Josef Kittler(参考訳) 大規模で多様でバランスの取れたトレーニングデータが、ディープニューラルネットワークトレーニングの成功の鍵である。 しかしながら、顔のランドマークのローカライゼーションで使用される既存の公開データセットは通常、他のコンピュータビジョンタスクよりもはるかに小さい。 多様性とバランスの取れたトレーニングサンプルを持たない小さなデータセットは、ディープネットワークのトレーニングを効果的にサポートできない。 以上の課題に対処するため, 顔ランドマークのロバスト化のためのクロスプロトコールネットワークトレーニング(CNT)戦略を用いた, セパブルバッチ正規化(SepBN)モジュールを提案する。 すべてのトレーニングデータを使用して単一のパラメータのセットを計算する標準BNレイヤとは異なり、SepBNはトレーニングデータセットのサンプルは異なるサブドメインに属する可能性があると考えている。 そのため、提案したSepBNモジュールは複数のパラメータセットを使用し、それぞれが特定のサブドメインに対応する。 しかしながら、テストサンプルのサブドメインが不明であるため、推論段階における適切なブランチの選択は難しい課題である。 この難易度を緩和するために,各枝に異なる重みを割り当て,自動選択を効果的に行う新しい注意機構を提案する。 さらに,提案するcnt戦略は,異なる顔ランドマークアノテーションシステムを持つ複数のデータセットを用いてネットワークを訓練し,その性能を高め,ネットワークの一般化能力を高める。 いくつかのよく知られたデータセットで得られた実験結果は,提案手法の有効性を示している。

A big, diverse and balanced training data is the key to the success of deep neural network training. However, existing publicly available datasets used in facial landmark localization are usually much smaller than those for other computer vision tasks. A small dataset without diverse and balanced training samples cannot support the training of a deep network effectively. To address the above issues, this paper presents a novel Separable Batch Normalization (SepBN) module with a Cross-protocol Network Training (CNT) strategy for robust facial landmark localization. Different from the standard BN layer that uses all the training data to calculate a single set of parameters, SepBN considers that the samples of a training dataset may belong to different sub-domains. Accordingly, the proposed SepBN module uses multiple sets of parameters, each corresponding to a specific sub-domain. However, the selection of an appropriate branch in the inference stage remains a challenging task because the sub-domain of a test sample is unknown. To mitigate this difficulty, we propose a novel attention mechanism that assigns different weights to each branch for automatic selection in an effective style. As a further innovation, the proposed CNT strategy trains a network using multiple datasets having different facial landmark annotation systems, boosting the performance and enhancing the generalization capacity of the trained network. The experimental results obtained on several well-known datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-27 20:17:03 公開日:2021-01-17
# マルチチャネル畳み込みニューラルネットワークを用いたヒューマンアクティビティ認識

Human Activity Recognition Using Multichannel Convolutional Neural Network ( http://arxiv.org/abs/2101.06709v1 )

ライセンス: Link先を確認
Niloy Sikder, Md. Sanaullah Chowdhury, Abu Shamim Mohammad Arif, Abdullah-Al Nahid(参考訳) HAR(Human Activity Recognition)とは、人間の行動を認識する機械の能力のこと。 HARは、コンピュータビジョンを利用して異質な人間の行動の意味を理解する高度な機械学習と人工知能技術の顕著な応用である。 本稿では,実際の動作から収集したデータに基づいて,人間の行動を識別できる教師あり学習法について述べる。 HARで作業する際の最大の課題は、活動信号のサイクロ定常性に伴う困難を克服することである。 本研究では、収集した人間の行動信号の周波数と電力特性を利用した2チャンネル畳み込みニューラルネットワーク(CNN)に基づくHAR分類モデルを提案する。 このモデルはUCI HARデータセットでテストされ、95.25%の分類精度が得られた。 このアプローチは、バイオメディカルシグナルに基づく人間の活動の認識に関するさらなる研究に役立つだろう。

Human Activity Recognition (HAR) simply refers to the capacity of a machine to perceive human actions. HAR is a prominent application of advanced Machine Learning and Artificial Intelligence techniques that utilize computer vision to understand the semantic meanings of heterogeneous human actions. This paper describes a supervised learning method that can distinguish human actions based on data collected from practical human movements. The primary challenge while working with HAR is to overcome the difficulties that come with the cyclostationary nature of the activity signals. This study proposes a HAR classification model based on a two-channel Convolutional Neural Network (CNN) that makes use of the frequency and power features of the collected human action signals. The model was tested on the UCI HAR dataset, which resulted in a 95.25% classification accuracy. This approach will help to conduct further researches on the recognition of human activities based on their biomedical signals.
翻訳日:2021-03-27 20:16:24 公開日:2021-01-17
# マルチチャネル畳み込みニューラルネットワークを用いた表面筋電図信号に基づく不均質手振り分類

Heterogeneous Hand Guise Classification Based on Surface Electromyographic Signals Using Multichannel Convolutional Neural Network ( http://arxiv.org/abs/2101.06715v1 )

ライセンス: Link先を確認
Niloy Sikder, Abu Shamim Mohammad Arif, Abdullah-Al Nahid(参考訳) 筋電図(Electromyography、EMG)は、筋内で発生する生体電気活動を測定する方法である。 EMGは通常、標的領域の神経や筋肉の異常を検出するために行われる。 機械学習の分野での最近の進歩により、EMG信号を使って機械に人間の動作の複雑な特性を教えることができる。 現代の機械は、多数の人間の活動を検出し、それらの活動によって生成されたEMG信号のみに基づいて区別することができる。 しかし、このタスクを成功させるには、主にEMG信号を解析するために機械が使用する学習技術に依存し、最新のアルゴリズムでさえも欠陥のない分類にはならない。 本研究では,電力領域に現れる特性によって表面EMG信号を解釈する多チャンネル畳み込みニューラルネットワーク(CNN)を用いた新しい分類法について述べる。 提案手法は確立されたEMGデータセットで検証され,高い分類精度が得られた。 この学習モデルは、研究者が様々な手の動きを検知し、その後模倣する義肢を開発するのに役立つ。

Electromyography (EMG) is a way of measuring the bioelectric activities that take place inside the muscles. EMG is usually performed to detect abnormalities within the nerves or muscles of a target area. The recent developments in the field of Machine Learning allow us to use EMG signals to teach machines the complex properties of human movements. Modern machines are capable of detecting numerous human activities and distinguishing among them solely based on the EMG signals produced by those activities. However, success in accomplishing this task mostly depends on the learning technique used by the machine to analyze EMG signals; and even the latest algorithms do not result in flawless classification. In this study, a novel classification method has been described employing a multichannel Convolutional Neural Network (CNN) that interprets surface EMG signals by the properties they exhibit in the power domain. The proposed method was tested on a well-established EMG dataset, and the result yields very high classification accuracy. This learning model will help researchers to develop prosthetic arms capable of detecting various hand gestures to mimic them afterwards.
翻訳日:2021-03-27 20:16:11 公開日:2021-01-17
# カテゴリーグループ化と多粒度分岐によるアパレル検出の改善

Improving Apparel Detection with Category Grouping and Multi-grained Branches ( http://arxiv.org/abs/2101.06770v1 )

ライセンス: Link先を確認
Qing Tian, Sampath Chanda, K C Amit Kumar, Douglas Gray(参考訳) 正確な物体検出器の訓練は高価で時間を要する。 主な理由は、全ての画像の全てのインスタンスに対して、アノテートカテゴリとバウンディングボックス情報という、退屈なラベル付けプロセスにある。 本稿では,ディープオブジェクト検出器の性能向上を,余分なラベリングを伴わずに検討する。 まず、高視覚的および意味的類似性の既存のカテゴリを一つのスーパーカテゴリ(またはスーパークラス)としてまとめる。 そして,この階層的カテゴリの知識を利用して,マルチグラニュラルRCNNトップブランチを用いてオブジェクトをよりよく検出する方法について検討する。 deepfashion2とopenimagesv4-clothingの実験結果から,複数粒度の枝を持つ検出ヘッドは,openimagesv4-clothingのdeepfashion2の2.3マップと2.5マップの全体的な性能を,追加の時間を要するアノテーションなしで向上できることが分かった。 さらに重要なことは、トレーニングサンプルが少ないクラスは、スーパークラスグループによる提案されたマルチグラウンドヘッドの恩恵を受ける傾向にある。 特に,DeepFashion2とOpenImagesV4-Clothingでは,最後の30%(トレーニングサンプル数)のmAPを2.6と4.6に改善する。

Training an accurate object detector is expensive and time-consuming. One main reason lies in the laborious labeling process, i.e., annotating category and bounding box information for all instances in every image. In this paper, we examine ways to improve performance of deep object detectors without extra labeling. We first explore to group existing categories of high visual and semantic similarities together as one super category (or, a superclass). Then, we study how this knowledge of hierarchical categories can be exploited to better detect object using multi-grained RCNN top branches. Experimental results on DeepFashion2 and OpenImagesV4-Clothing reveal that the proposed detection heads with multi-grained branches can boost the overall performance by 2.3 mAP for DeepFashion2 and 2.5 mAP for OpenImagesV4-Clothing with no additional time-consuming annotations. More importantly, classes that have fewer training samples tend to benefit more from the proposed multi-grained heads with superclass grouping. In particular, we improve the mAP for last 30% categories (in terms of training sample number) by 2.6 and 4.6 for DeepFashion2 and OpenImagesV4-Clothing, respectively.
翻訳日:2021-03-27 20:15:54 公開日:2021-01-17
# 変形可能な微細化による電顕画像の時空間適応補間

Temporal Spatial-Adaptive Interpolation with Deformable Refinement for Electron Microscopic Images ( http://arxiv.org/abs/2101.06771v1 )

ライセンス: Link先を確認
Zejin Wang, Guodong Sun, Lina Zhang, Guoqing Li, Hua Han(参考訳) 近年,フローベース手法はビデオフレーム補間において有望な成功を収めている。 しかし、電子顕微鏡(EM)画像は、不安定な画質、低いPSNR、無秩序な変形に悩まされている。 既存の流れに基づく補間法は、各位置のユニークなオフセットを予測できるため、em画像の光学的流れを正確に計算することはできない。 これらの課題を克服するため,我々は,補間特徴を粗い方法で段階的に合成するem画像用補間フレームワークを提案する。 まず,時間空間適応型補間モジュール(TSA)による中間的特徴の欠落を抽出する。 TSA補間モジュールは時間的文脈を集約し、提案した空間適応ブロックを用いて空間的特徴を適応的にサンプリングする。 第2に,重畳変形可能な改良ブロック(SDRB)を導入し,入力フレームの整合位置と関連する特徴をフィードバック機構で認識し,再構成品質をさらに向上する。 実験の結果,従来の研究と比較して,定量的にも定性的にも,アプローチの優れた性能を示した。

Recently, flow-based methods have achieved promising success in video frame interpolation. However, electron microscopic (EM) images suffer from unstable image quality, low PSNR, and disorderly deformation. Existing flow-based interpolation methods cannot precisely compute optical flow for EM images since only predicting each position's unique offset. To overcome these problems, we propose a novel interpolation framework for EM images that progressively synthesizes interpolated features in a coarse-to-fine manner. First, we extract missing intermediate features by the proposed temporal spatial-adaptive (TSA) interpolation module. The TSA interpolation module aggregates temporal contexts and then adaptively samples the spatial-related features with the proposed residual spatial adaptive block. Second, we introduce a stacked deformable refinement block (SDRB) further enhance the reconstruction quality, which is aware of the matching positions and relevant features from input frames with the feedback mechanism. Experimental results demonstrate the superior performance of our approach compared to previous works, both quantitatively and qualitatively.
翻訳日:2021-03-27 20:15:27 公開日:2021-01-17
# 乱れたマスクバックプロパゲーションによる属性マップの生成

Generating Attribution Maps with Disentangled Masked Backpropagation ( http://arxiv.org/abs/2101.06773v1 )

ライセンス: Link先を確認
Adria Ruiz, Antonio Agudo and Francesc Moreno(参考訳) 帰属マップの可視化は、畳み込みニューラルネットワークの基盤となる推論プロセスを理解する最も効果的な手法の1つである。 この課題では、最終的なネットワーク出力への寄与に関連する各画像画素のスコアを計算することを目的としている。 本稿では,reluネットワークの分割線形性を利用して,モデル関数を異なる線形写像に分解する新しい勾配ベース手法であるdisentangled masked backpropagation (dmbp)を提案する。 この分解は、バックプロパゲーション中の各フィルタの寄与をマスキングする一連の変数を学習することにより、帰属写像から正、負、ニュアサンス因子を分離することを目的としている。 標準アーキテクチャ(ResNet50とVGG16)とベンチマークデータセット(PASCAL VOCとImageNet)の徹底的な評価は、DMBPが従来のアプローチよりも視覚的に解釈可能な属性マップを生成することを示している。 さらに,本手法で作成した地図は,最終的なネットワーク出力に対する各画素の真の寄与とより一致していることを示す。

Attribution map visualization has arisen as one of the most effective techniques to understand the underlying inference process of Convolutional Neural Networks. In this task, the goal is to compute an score for each image pixel related with its contribution to the final network output. In this paper, we introduce Disentangled Masked Backpropagation (DMBP), a novel gradient-based method that leverages on the piecewise linear nature of ReLU networks to decompose the model function into different linear mappings. This decomposition aims to disentangle the positive, negative and nuisance factors from the attribution maps by learning a set of variables masking the contribution of each filter during back-propagation. A thorough evaluation over standard architectures (ResNet50 and VGG16) and benchmark datasets (PASCAL VOC and ImageNet) demonstrates that DMBP generates more visually interpretable attribution maps than previous approaches. Additionally, we quantitatively show that the maps produced by our method are more consistent with the true contribution of each pixel to the final network output.
翻訳日:2021-03-27 20:15:13 公開日:2021-01-17
# モーメント法による潜在共同設立者の因果効果の解明

Disentangling Observed Causal Effects from Latent Confounders using Method of Moments ( http://arxiv.org/abs/2101.06614v1 )

ライセンス: Link先を確認
Anqi Liu, Hao Liu, Tongxin Li, Saeed Karimi-Bidhendi, Yisong Yue, Anima Anandkumar(参考訳) 変数群間の因果関係の完全な集合を発見することは、教師なし学習の問題である。 多くの場合、この課題は潜伏または隠れた共同設立者がいるという事実によって複合化される。 観測データのみが利用できる場合、問題は不適切である。 因果関係は 強いモデリングの前提がなければ 特定できない 介入が利用可能であれば、穏やかな仮定の下で、識別性と学習可能性に関する保証を提供する。 線形構造方程式モデル (SEM) と独立な潜伏因子と観測変数間の有向非巡回グラフ (DAG) の関係を仮定する。 潜在変数推論は独立成分分析(ICA)に基づいており、このモデルをSEM-ICAと呼ぶ。 我々はモーメント原理を用いてモデル識別可能性を確立する。 我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。 そこで我々は,因果発見と潜在変数推論の合同問題に取り組むための原理的アプローチを提案する。

Discovering the complete set of causal relations among a group of variables is a challenging unsupervised learning problem. Often, this challenge is compounded by the fact that there are latent or hidden confounders. When only observational data is available, the problem is ill-posed, i.e. the causal relationships are non-identifiable unless strong modeling assumptions are made. When interventions are available, we provide guarantees on identifiability and learnability under mild assumptions. We assume a linear structural equation model (SEM) with independent latent factors and directed acyclic graph (DAG) relationships among the observables. Since the latent variable inference is based on independent component analysis (ICA), we call this model SEM-ICA. We use the method of moments principle to establish model identifiability. We develop efficient algorithms based on coupled tensor decomposition with linear constraints to obtain scalable and guaranteed solutions. Thus, we provide a principled approach to tackling the joint problem of causal discovery and latent variable inference.
翻訳日:2021-03-27 20:14:55 公開日:2021-01-17
# Kubernetes指向エッジクラウドシステムのための階層型学習ベーススケジューリング

Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System ( http://arxiv.org/abs/2101.06582v1 )

ライセンス: Link先を確認
Yiwen Han and Shihao Shen and Xiaofei Wang and Shiqiang Wang and Victor C.M. Leung(参考訳) Kubernetes(k8s)は、分散エッジとクラウドをマージする可能性があるが、エッジクラウドシステムに特化したスケジューリングフレームワークがない。 さらに、ヘテロジニアスリソースの階層的な分布と要求とリソース間の複雑な依存関係により、k8s指向のエッジクラウドシステムのモデリングとスケジューリングが特に高度になる。 本稿では,このようなエッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを導入し,要求処理の長期スループットを向上させる。 まず,エッジクラスタ内での分散要求ディスパッチと動的ディスパッチ空間を実現するために,協調型マルチエージェントアクタ批判アルゴリズムを設計する。 第2に,多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込み,その埋め込み結果を複数のポリシネットワークと組み合わせることで,ステップワイズスケジューリングによるオーケストレーションの次元性を低減する。 最後に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリング機構を採用し、上記のアルゴリズムをネイティブk8sコンポーネントと互換性のある実装設計を提案する。 実際のワークロードトレースを使用した実験では,要求到着パターンやシステムスケールに関わらず,KaiSが適切なスケジューリングポリシを学習できることが示されている。 さらにkaisは、ベースラインと比較してスケジューリングコストを34.7%削減しながら、平均システムスループットを14.3%向上させることができる。

Kubernetes (k8s) has the potential to merge the distributed edge and the cloud but lacks a scheduling framework specifically for edge-cloud systems. Besides, the hierarchical distribution of heterogeneous resources and the complex dependencies among requests and resources make the modeling and scheduling of k8s-oriented edge-cloud systems particularly sophisticated. In this paper, we introduce KaiS, a learning-based scheduling framework for such edge-cloud systems to improve the long-term throughput rate of request processing. First, we design a coordinated multi-agent actor-critic algorithm to cater to decentralized request dispatch and dynamic dispatch spaces within the edge cluster. Second, for diverse system scales and structures, we use graph neural networks to embed system state information, and combine the embedding results with multiple policy networks to reduce the orchestration dimensionality by stepwise scheduling. Finally, we adopt a two-time-scale scheduling mechanism to harmonize request dispatch and service orchestration, and present the implementation design of deploying the above algorithms compatible with native k8s components. Experiments using real workload traces show that KaiS can successfully learn appropriate scheduling policies, irrespective of request arrival patterns and system scales. Moreover, KaiS can enhance the average system throughput rate by 14.3% while reducing scheduling cost by 34.7% compared to baselines.
翻訳日:2021-03-27 20:14:41 公開日:2021-01-17
# 並列微分進化の性能解析と改善

Performance Analysis and Improvement of Parallel Differential Evolution ( http://arxiv.org/abs/2101.06599v1 )

ライセンス: Link先を確認
Pan Zibin(参考訳) 微分進化 (DE) は、主に連続領域における大域的最適化問題を解くために用いられる効果的な大域的進化最適化アルゴリズムである。 この分野では、より優れたグローバルソリューションを見つけるためにDreの能力向上に研究者はより注意を払うが、Dreの計算性能は特に問題スケールがかなり大きい場合に非常に興味深い側面である。 本稿では,Math Kernel Library (MKL) とCompute Unified Device Architecture (CUDA) で容易に実行できる DE の並列計算設計について分析する。 次に、指数的クロスオーバー演算子の本質を説明し、より優れた並列計算には使用できないことを指摘した。 その後、MKL/CUDAと並列に実行できる新しい指数的クロスオーバー演算子(NEC)を提案する。 次に、拡張実験により、新しいクロスオーバー演算子がdeを大幅に高速化できることが示されている。 最後に、新しい並列de構造をテストし、前者がずっと高速であることを示します。

Differential evolution (DE) is an effective global evolutionary optimization algorithm using to solve global optimization problems mainly in a continuous domain. In this field, researchers pay more attention to improving the capability of DE to find better global solutions, however, the computational performance of DE is also a very interesting aspect especially when the problem scale is quite large. Firstly, this paper analyzes the design of parallel computation of DE which can easily be executed in Math Kernel Library (MKL) and Compute Unified Device Architecture (CUDA). Then the essence of the exponential crossover operator is described and we point out that it cannot be used for better parallel computation. Later, we propose a new exponential crossover operator (NEC) that can be executed parallelly with MKL/CUDA. Next, the extended experiments show that the new crossover operator can speed up DE greatly. In the end, we test the new parallel DE structure, illustrating that the former is much faster.
翻訳日:2021-03-27 20:14:19 公開日:2021-01-17
# 大規模MIMO CSIフィードバックのための集約ネットワーク

Aggregated Network for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2101.06618v1 )

ライセンス: Link先を確認
Zhilin Lu, Hongyi He, Zhengyang Duan, Jintao Wang, Jian Song(参考訳) 周波数分割二重化(FDD)モードでは、ユーザ機器から基地局にチャネル状態情報(CSI)を送信する必要がある。 ダウンリンクcsiは、大量多入力多重出力(mimo)システムが潜在的なゲインを取得するために必須である。 近年,MIMO CSIフィードバックタスクにはディープラーニングが広く採用されており,従来の圧縮センシング手法と比較して有効であることが証明されている。 本稿では,ネットワークアグリゲーションとパラメトリックRuLUアクティベーションによるフィードバック性能の向上を目的として,ACRNetという新しいネットワークを設計する。 さらに,CSIフィードバックタスクにおいて,ネットワークアーキテクチャを性能向上と引き換えに拡張する有効な手法について論じる。 実験の結果、ACRNetは過去の最先端フィードバックネットワークの負荷を余分な情報なしで上回ることがわかった。

In frequency division duplexing (FDD) mode, it is necessary to send the channel state information (CSI) from user equipment to base station. The downlink CSI is essential for the massive multiple-input multiple-output (MIMO) system to acquire the potential gain. Recently, deep learning is widely adopted to massive MIMO CSI feedback task and proved to be effective compared with traditional compressed sensing methods. In this paper, a novel network named ACRNet is designed to boost the feedback performance with network aggregation and parametric RuLU activation. Moreover, valid approach to expand the network architecture in exchange of better performance is first discussed in CSI feedback task. Experiments show that ACRNet outperforms loads of previous state-of-the-art feedback networks without any extra information.
翻訳日:2021-03-27 20:13:34 公開日:2021-01-17
# 強化学習に基づく複雑な運転シナリオのための安全階層計画フレームワーク

A Safe Hierarchical Planning Framework for Complex Driving Scenarios based on Reinforcement Learning ( http://arxiv.org/abs/2101.06778v1 )

ライセンス: Link先を確認
Jinning Li, Liting Sun, Masayoshi Tomizuka and Wei Zhan(参考訳) 自動運転車は様々な交通状況に対処し、安全かつ効率的な意思決定と操作を行う必要がある。 しかしながら、一つの最適化/サンプリングベースのモーションプランナーは、特に近くに多数の対話型車両がある場合、リアルタイムで安全な軌道を効率的に生成できない。 一方,エンド・ツー・エンドの学習方法は,結果の安全性を保証できない。 そこで本研究では,低レベルセーフコントローラ群と高レベル強化学習アルゴリズム(h-ctrl)を低レベルコントローラのコーディネータとして用いた階層的行動計画フレームワークを提案する。 低レベルの最適化/サンプリングベースのコントローラによって安全性が保証され、高レベルの強化学習アルゴリズムはH-CtRLを適応的で効率的な行動プランナにする。 提案アルゴリズムを訓練し,テストするために,実世界のデータセットを用いて交通シーンを再現できるシミュレータを構築した。 提案したH-CtRLは,安全性と効率の両面で性能を満足して,様々な現実的なシミュレーションシナリオにおいて有効であることが証明された。

Autonomous vehicles need to handle various traffic conditions and make safe and efficient decisions and maneuvers. However, on the one hand, a single optimization/sampling-based motion planner cannot efficiently generate safe trajectories in real time, particularly when there are many interactive vehicles near by. On the other hand, end-to-end learning methods cannot assure the safety of the outcomes. To address this challenge, we propose a hierarchical behavior planning framework with a set of low-level safe controllers and a high-level reinforcement learning algorithm (H-CtRL) as a coordinator for the low-level controllers. Safety is guaranteed by the low-level optimization/sampling-based controllers, while the high-level reinforcement learning algorithm makes H-CtRL an adaptive and efficient behavior planner. To train and test our proposed algorithm, we built a simulator that can reproduce traffic scenes using real-world datasets. The proposed H-CtRL is proved to be effective in various realistic simulation scenarios, with satisfying performance in terms of both safety and efficiency.
翻訳日:2021-03-27 20:13:22 公開日:2021-01-17
# 非同期マルチビューSLAM

Asynchronous Multi-View SLAM ( http://arxiv.org/abs/2101.06562v1 )

ライセンス: Link先を確認
Anqi Joyce Yang, Can Cui, Ioan Andrei B\^arsan, Raquel Urtasun, Shenlong Wang(参考訳) 既存のマルチカメラslamシステムは全カメラの同期シャッターを想定しており、実際にはそうではないことが多い。 本研究では,非同期センサ観測を考慮した汎用マルチカメラslam方式を提案する。 我々のフレームワークは、トラッキング、ローカルマッピング、ループクローズの間、非同期多フレーム間で情報を関連付けるために、連続時間モーションモデルを統合する。 評価のために、非同期マルチカメラロボットプラットフォームを用いて482kmの走行を記録できるSLAMデータセットであるAMV-Benchを収集した。 AMV-Benchは、以前のマルチビューHD屋外SLAMデータセットよりも桁違いに大きく、多様な、挑戦的な動きと環境をカバーする。 実験では, 非同期センサモデリングの必要性を強調し, 複数のカメラの使用が, 挑戦的な屋外シーンにおいて, 堅牢かつ正確なSLAMに対して重要であることを示す。

Existing multi-camera SLAM systems assume synchronized shutters for all cameras, which is often not the case in practice. In this work, we propose a generalized multi-camera SLAM formulation which accounts for asynchronous sensor observations. Our framework integrates a continuous-time motion model to relate information across asynchronous multi-frames during tracking, local mapping, and loop closing. For evaluation, we collected AMV-Bench, a challenging new SLAM dataset covering 482 km of driving recorded using our asynchronous multi-camera robotic platform. AMV-Bench is over an order of magnitude larger than previous multi-view HD outdoor SLAM datasets, and covers diverse and challenging motions and environments. Our experiments emphasize the necessity of asynchronous sensor modeling, and show that the use of multiple cameras is critical towards robust and accurate SLAM in challenging outdoor scenes.
翻訳日:2021-03-27 20:13:04 公開日:2021-01-17
# スマート環境における行動予測器のプライバシー保護学習

Privacy-Preserving Learning of Human Activity Predictors in Smart Environments ( http://arxiv.org/abs/2101.06564v1 )

ライセンス: Link先を確認
Sharare Zehtabian, Siavash Khodadadeh, Ladislau B\"ol\"oni and Damla Turgut(参考訳) 障害者や高齢者が行う日常活動は、スマート環境によって監視することができ、取得したデータは、ユーザの行動の予測モデルを学ぶために使用することができる。 学習を高速化するため、複数の研究者が複数のユーザーのデータを使用する協調学習システムを設計した。 しかし、高齢者や障害者の日常活動の開示はプライバシー上の懸念を生じさせる。 本稿では,最先端のディープニューラルネットワークに基づく手法を用いて,局所的,集中的,連合的な学習環境における人間の活動モデルを予測する。 我々の研究の新たな側面は、学習者が利用できるデータの時間的進化と、利用者が共有するデータを注意深く追跡することである。 ユーザがすべてのデータを集中学習者と共有する以前の作業とは対照的に,プライバシの保護を目的としたユーザも検討する。 したがって、共有データを最小化しながら予測精度の目標を達成するために、それぞれのアプローチを選択する。 ユーザがデータを開示する前に決定を下すのを助けるために、機械学習を使用して、ユーザが協調学習の恩恵を受ける程度を予測する。 実世界のデータに対するアプローチを検証する。

The daily activities performed by a disabled or elderly person can be monitored by a smart environment, and the acquired data can be used to learn a predictive model of user behavior. To speed up the learning, several researchers designed collaborative learning systems that use data from multiple users. However, disclosing the daily activities of an elderly or disabled user raises privacy concerns. In this paper, we use state-of-the-art deep neural network-based techniques to learn predictive human activity models in the local, centralized, and federated learning settings. A novel aspect of our work is that we carefully track the temporal evolution of the data available to the learner and the data shared by the user. In contrast to previous work where users shared all their data with the centralized learner, we consider users that aim to preserve their privacy. Thus, they choose between approaches in order to achieve their goals of predictive accuracy while minimizing the shared data. To help users make decisions before disclosing any data, we use machine learning to predict the degree to which a user would benefit from collaborative learning. We validate our approaches on real-world data.
翻訳日:2021-03-27 20:12:51 公開日:2021-01-17
# tsec:実験制約下におけるオンライン実験フレームワーク

TSEC: a framework for online experimentation under experimental constraints ( http://arxiv.org/abs/2101.06592v1 )

ライセンス: Link先を確認
Simon Mak, Yuanshuo Zhou, Lavonne Hoang, C. F. Jeff Wu(参考訳) トンプソンサンプリング(Thompson sample)は、多武装バンディット問題を解決するための一般的なアルゴリズムであり、ウェブサイト設計からポートフォリオ最適化まで幅広いアプリケーションに適用されている。 しかし、そのようなアプリケーションでは、選択数(または腕)$N$は大きいため、適応的な決定を行うために必要なデータは高価な実験を必要とする。 すると、各期間内で$k \ll n$ armsの小さなサブセットだけを実験するという制約に直面し、従来のトンプソンサンプリングでは問題となる。 我々は、このいわゆる「武器予算制約」に対処する実験制約(TSEC)に基づく新しいトンプソンサンプリングを提案する。 tsecは、効果階層を優先したベイズ相互作用モデルを使用して、異なる腕の報酬間の相関をモデル化する。 この適合したモデルはトンプソンサンプリングに統合され、実験用の優れたアームのサブセットを共同識別し、これらのアームにリソースを割り当てる。 我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。 ひとつはWebサイト最適化のシミュレーションで、TSECは業界ベンチマークよりも顕著な改善を示している。 2つ目は、TSECが標準投資戦略よりもより一貫性と富の蓄積を提供する業界ベースの為替取引ファンドにおけるポートフォリオ最適化アプリケーションである。

Thompson sampling is a popular algorithm for solving multi-armed bandit problems, and has been applied in a wide range of applications, from website design to portfolio optimization. In such applications, however, the number of choices (or arms) $N$ can be large, and the data needed to make adaptive decisions require expensive experimentation. One is then faced with the constraint of experimenting on only a small subset of $K \ll N$ arms within each time period, which poses a problem for traditional Thompson sampling. We propose a new Thompson Sampling under Experimental Constraints (TSEC) method, which addresses this so-called "arm budget constraint". TSEC makes use of a Bayesian interaction model with effect hierarchy priors, to model correlations between rewards on different arms. This fitted model is then integrated within Thompson sampling, to jointly identify a good subset of arms for experimentation and to allocate resources over these arms. We demonstrate the effectiveness of TSEC in two problems with arm budget constraints. The first is a simulated website optimization study, where TSEC shows noticeable improvements over industry benchmarks. The second is a portfolio optimization application on industry-based exchange-traded funds, where TSEC provides more consistent and greater wealth accumulation over standard investment strategies.
翻訳日:2021-03-27 20:12:34 公開日:2021-01-17
# 遅延補償のための誘導並列化確率勾配降下法

Guided parallelized stochastic gradient descent for delay compensation ( http://arxiv.org/abs/2101.07259v1 )

ライセンス: Link先を確認
Anuraganand Sharma(参考訳) 確率勾配勾配(SGD)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使用されている。 しかし、ビッグデータの急速な成長とディープラーニングにより、SGDはエラー関数の逐次最適化の自然な振る舞いのため、もはや最も適した選択肢ではない。 これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。 しかし、パラメータ(重み付き)更新の遅延のため、大きなばらつきが生じる。 提案アルゴリズムでは,この遅延に対処し,その影響を最小限に抑える。 我々は,遅延による予測不可能な偏差を補正することにより,一貫した例に収束を促すガイド付きSGD(gSGD)を採用した。 収束速度もA/SSGDと似ているが、遅延を補うにはいくつかの追加(並列)処理が必要である。 実験の結果,提案手法は,分類精度の向上に要する遅延の影響を軽減することができることがわかった。 SSGDによるガイド付きアプローチは、シーケンシャルSGDよりも明らかに優れており、ベンチマークデータセットのシーケンシャルSGDに近い精度も達成している。

Stochastic gradient descent (SGD) algorithm and its variations have been effectively used to optimize neural network models. However, with the rapid growth of big data and deep learning, SGD is no longer the most suitable choice due to its natural behavior of sequential optimization of the error function. This has led to the development of parallel SGD algorithms, such as asynchronous SGD (ASGD) and synchronous SGD (SSGD) to train deep neural networks. However, it introduces a high variance due to the delay in parameter (weight) update. We address this delay in our proposed algorithm and try to minimize its impact. We employed guided SGD (gSGD) that encourages consistent examples to steer the convergence by compensating the unpredictable deviation caused by the delay. Its convergence rate is also similar to A/SSGD, however, some additional (parallel) processing is required to compensate for the delay. The experimental results demonstrate that our proposed approach has been able to mitigate the impact of delay for the quality of classification accuracy. The guided approach with SSGD clearly outperforms sequential SGD and even achieves the accuracy close to sequential SGD for some benchmark datasets.
翻訳日:2021-03-27 20:12:14 公開日:2021-01-17