このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210309となっている論文です。

PDF登録状況(公開日: 20210309)

TitleAuthorsAbstract論文公表日・翻訳日
# 超小型モード容積キャビティに結合したnv中心 : 200kでの識別不能光子の高効率源

The NV centre coupled to an ultra-small mode volume cavity: a high efficiency source of indistinguishable photons at 200 K ( http://arxiv.org/abs/2005.13478v2 )

ライセンス: Link先を確認
Joe A. Smith, Chloe Clear, Krishna C. Balram, Dara P. S. McCutcheon, John G. Rarity(参考訳) 固体原子のような系は線形光量子コンピューティングと量子通信に大いに期待できるが、フォノンのサイドバンドと表面電荷による拡張によって負担を受ける。 それでも、小さなモード容積キャビティへの結合は、高度に脱相したエミッタからの高率の抽出を可能にする。 ダイヤモンド中の窒素空白中心は、高度に識別可能な光子を持つ量子光学界面が貧弱であると理解されたシステムであり、外部フィルタリングにより即効性が50%を超える200kでの光子を99 %効率良く抽出できる窒化ケイ素キャビティを設計している。 fdtdシミュレーションを用いて設計を解析し,zplの広帯域化とサイドバンドエミッションの両方を含む強いカップリングで有効なキャビティqedマスター方程式を用いて光放射を処理した。 シミュレーションされた設計はコンパクトな(<10um)であり、平面形状のため標準的なシリコンプロセスを用いて製造することができる。 そこで本研究は,非低温原子様の高効率光子源のスケーラブル化をめざす。

Solid state atom-like systems have great promise for linear optic quantum computing and quantum communication but are burdened by phonon sidebands and broadening due to surface charges. Nevertheless, coupling to a small mode volume cavity would allow high rates of extraction from even highly dephased emitters. We consider the nitrogen vacancy centre in diamond, a system understood to have a poor quantum optics interface with highly distinguishable photons, and design a silicon nitride cavity that allows 99 % efficient extraction of photons at 200 K with an indistinguishability of > 50%, improvable by external filtering. We analyse our design using FDTD simulations, and treat optical emission using a cavity QED master equation valid at and beyond strong coupling and which includes both ZPL broadening and sideband emission. The simulated design is compact (< 10 um), and owing to its planar geometry, can be fabricated using standard silicon processes. Our work therefore points towards scalable fabrication of non-cryogenic atom-like efficient sources of indistinguishable photons.
翻訳日:2023-05-18 05:13:55 公開日:2021-03-09
# スパース等長写像の量子回路

Quantum Circuits for Sparse Isometries ( http://arxiv.org/abs/2006.00016v2 )

ライセンス: Link先を確認
Emanuel Malvetti and Raban Iten and Roger Colbeck(参考訳) 我々は、C-NOTゲートの数を小さくしながら、C-NOTとシングルキュービットゲートに等尺として与えられる量子計算を分解する作業を検討する。 一般的なアイソメトリーではいくつかの分解が知られているが, スパースアイソメトリーではよく適応する家庭用反射法に着目する。 本稿では,この方法を用いて任意の等長法を分解する方法を示し,その方法がスパース等長法の場合の大幅な改善につながることを示す。 また,本手法の古典的複雑さを考察し,ランダムに選択されたスパース状態に適用することにより,スパース状態準備においてその効果を示す。

We consider the task of breaking down a quantum computation given as an isometry into C-NOTs and single-qubit gates, while keeping the number of C-NOT gates small. Although several decompositions are known for general isometries, here we focus on a method based on Householder reflections that adapts well in the case of sparse isometries. We show how to use this method to decompose an arbitrary isometry before illustrating that the method can lead to significant improvements in the case of sparse isometries. We also discuss the classical complexity of this method and illustrate its effectiveness in the case of sparse state preparation by applying it to randomly chosen sparse states.
翻訳日:2023-05-18 00:30:40 公開日:2021-03-09
# 完全1-out-of--2量子オブリバスト転送:境界、プロトコル、および実験的実装

Imperfect 1-out-of-2 quantum oblivious transfer: bounds, a protocol, and its experimental implementation ( http://arxiv.org/abs/2007.04712v2 )

ライセンス: Link先を確認
Ryan Amiri (1), Robert St\'arek (2), David Reichmuth (1), Ittoop V Puthoor (1), Michal Mi\v{c}uda (2), Ladislav Mi\v{s}ta Jr (2), Miloslav Du\v{s}ek (2), Petros Wallden (3), Erika Andersson (1) ((1) SUPA, Institute of Photonics and Quantum Sciences, Heriot-Watt University, Edinburgh, United Kingdom, (2) Department of Optics, Palacky University, Olomouc, Czech Republic, (3) LFCS, School of Informatics, University of Edinburgh, Edinburgh, United Kingdom)(参考訳) 公開転送は現代の暗号において重要なプリミティブである。 アプリケーションには、セキュアなマルチパーティ計算、不要なサンプリング、電子投票、シグネチャなどがある。 情報理論上、完全な1対2の完全転送は不可能である。 両方の参加者の不正行為能力が制限されている不完全な変種は、古典的に不可能なまま、量子的手段を用いて可能である。 正確にどのセキュリティパラメータが達成可能かは不明だ。 本稿では,半ランダム量子オブリバスト移動の理論的枠組みを紹介し,これは不正な確率で通常のオブリバスト移動と同値であることを示した。 次に、不正行為の限界を導出するために使用します。 また,従来のスキームよりも不正確率の低いプロトコルと,その光学的実現を提案する。 提案手法は,従来の手法と異なる手法を用いて,半ランダムプロトコルに対して,最小到達確率の2/3以下を直接導出可能であることを示す。 プロトコルによって出力される状態が純粋で対称であれば、下限は 2/3 から 0.749 に増加する。 本稿では、不明瞭な状態除去測定を用い、標準量子暗号と同じ技術的要件で実装することができる。 不正確率は、送信側と受信側それぞれ3/4、約0.729であり、既存のプロトコルよりも低い。 フォトニックテストベッドを用いて、我々は正直な関係者と最適な不正行為戦略でプロトコルを実装した。

Oblivious transfer is an important primitive in modern cryptography. Applications include secure multiparty computation, oblivious sampling, e-voting, and signatures. Information-theoretically secure perfect 1-out-of 2 oblivious transfer is impossible to achieve. Imperfect variants, where both participants' ability to cheat is still limited, are possible using quantum means while remaining classically impossible. Precisely what security parameters are attainable remains unknown. We introduce a theoretical framework for studying semirandom quantum oblivious transfer, which is shown to be equivalent to regular oblivious transfer in terms of cheating probabilities. We then use it to derive bounds on cheating. We also present a protocol with lower cheating probabilities than previous schemes, together with its optical realization. We show that a lower bound of 2/3 on the minimum achievable cheating probability can be directly derived for semirandom protocols using a different method and definition of cheating than used previously. The lower bound increases from 2/3 to approximately 0.749 if the states output by the protocol are pure and symmetric. The oblivious transfer scheme we present uses unambiguous state elimination measurements and can be implemented with the same technological requirements as standard quantum cryptography. The cheating probabilities are 3/4 and approximately 0.729 for sender and receiver respectively, which is lower than in existing protocols. Using a photonic test-bed, we have implemented the protocol with honest parties, as well as optimal cheating strategies.
翻訳日:2023-05-10 21:25:07 公開日:2021-03-09
# 室温6H-SiCにおけるスピン-3/2シリコン空孔中心の光スピン初期化

Optical spin initialization of spin-3/2 silicon vacancy centers in 6H-SiC at room temperature ( http://arxiv.org/abs/2007.08516v4 )

ライセンス: Link先を確認
Harpreet Singh, Andrei N. Anisimov, I. D. Breev, Pavel G. Baranov and Dieter Suter(参考訳) 炭化ケイ素のケイ素空孔は、スピントロニクスや量子技術のためのダイヤモンド中の窒素空孔中心の代替として提案されている。 これらの応用の重要な前提条件は、量子ビットを特定の量子状態に初期化することである。 本研究では,6H-SiCにおけるスピン3/2負電荷シリコン空孔の光学的配向について検討した。 時間分解型光磁気共鳴法を用いて、シリコン空孔スピンアンサンブルをコヒーレントに制御し、3つの遷移のrabi周波数およびスピン格子緩和時間を測定する。 そして、シリコン空隙スピンアンサンブルの光初期化過程を研究するために、異なる基底状態で空隙スピンアンサンブルを作成し、光学的に励起する。 観測された挙動を説明でき、関連する速度定数を決定できる単純な速度方程式モデルについて述べる。

Silicon vacancies in silicon carbide have been proposed as an alternative to nitrogen vacancy centers in diamonds for spintronics and quantum technologies. An important precondition for these applications is the initialization of the qubits into a specific quantum state. In this work, we study the optical alignment of the spin 3/2 negatively charged silicon vacancy in 6H-SiC. Using a time-resolved optically detected magnetic resonance technique, we coherently control the silicon vacancy spin ensemble and measure Rabi frequencies and spin-lattice relaxation time of all three transitions. Then to study the optical initialization process of the silicon vacancy spin ensemble, the vacancy spin ensemble is prepared in different ground states and optically excited. We describe a simple rate equation model that can explain the observed behaviour and determine the relevant rate constants.
翻訳日:2023-05-10 01:51:39 公開日:2021-03-09
# 異なる材料の幾何学的に類似した7つの真空室のガス放出速度比較と熱処理

Outgassing rate comparison of seven geometrically similar vacuum chambers of different materials and heat treatments ( http://arxiv.org/abs/2009.10560v2 )

ライセンス: Link先を確認
James A. Fedchak (1), Julia K. Scherschligt (1), Sefer Avdiaj (2), Daniel S. Barker (1), Stephen P. Eckel (1), Ben Bowers (3), Scott OConnell (3), Perry Henderson (3) ((1) National Institute of Standards and Technology (NIST), Gaithersburg, (2) University of Prishtina, Kosova, (3) Anderson Dahlen Applied Vacuum Division)(参考訳) 同一形状の真空室7室の水と水素の排ガス速度を測定したが, 異なる材料と熱処理で構成した。 304L, 316L, 316LNステンレス鋼, チタン(ASTMグレード2), 6061アルミニウムの5種類の異なる材料が試験された。 さらに、316lと316lnのステンレス鋼製チャンバーを真空燃焼処理し、真空中24時間約950"deg}cに加熱し、これら2つのチャンバーは316l-xhvと316ln-xhvに指定された。 すべてのチャンバーは同じ形状で同じ製造者によって作られており、これらのチャンバー間のガス放出率の相対比較は可能である。 スループット技術を用いて,水排出速度を時間関数として測定した。 その結果, 316L, 316LN, 316L-XHV, 316LN-XHVは, 34Lに比べて10^4sで3~5以下であった。 TiおよびAl室の水排ガスは304Lに近かったが,Tiはわずかに低かった。 水素ガス放出速度はライズ・オブ・ライズ法を用いて測定し, 低温のBake 125 {\deg}C から 150 {\deg}C を72時間以上測定した。 Ti, Al, 316L-XHV, 316LN-XHV室はいずれも1×10^-11 Pa L s^-1 cm^-2以下であり、少なくとも304L室よりも100以上大きい。 304L、316L、および316LNの真空加熱処理は、他のチャンバーよりも水素ガスの排出率が高く、特定のガスの排出率は4.0 X 10^-11 Pa L s^-1 cm^-2と8.0 X 10^-11 Pa L s^-1 cm^-2である。 以上の結果から,Ti,Al,316L-XHV,316LN-XHVの水素ガス放出速度は,超高真空 (UHV) および極高真空 (XHV) の用途に優れた選択肢であり,コストおよび他の材料特性による選択であることがわかった。

We have measured the water and hydrogen outgassing rates of seven vacuum chambers of identical geometry but constructed of different materials and heat treatments. Chambers of five different materials were tested: 304L, 316L, and 316LN stainless steels; titanium (ASTM grade 2); and 6061 aluminum. In addition, chambers constructed of 316L and 316LN stainless steel were subjected to a vacuum-fire process, where they were heated to approximately 950 {\deg}C for 24 hours while under vacuum; these two chambers are designated as 316L-XHV and 316LN-XHV. All chambers were of identical geometry and made by the same manufacturer, thus a relative comparison of the outgassing rates among these chambers can be made. Water outgassing rates were measured as a function of time using the throughput technique. The water outgassing results for the 316L, 316LN, 316L-XHV, 316LN-XHV were all similar, but lower than those of 304L by a factor of 3 to 5 lower at 10^4 s. The water outgassing results for Ti and Al chambers were close to that of 304L, Ti being slightly lower. Hydrogen outgassing rates were measured using the rate-of-rise method and performed after a low-temperature bake of 125 {\deg}C to 150 {\deg}C for a minimum of 72 hours. The Ti, Al, 316L-XHV, and 316LN-XHV chambers all have specific outgassing rates below 1 X 10^-11 Pa L s^-1 cm^-2 and are at least a factor of 100 or better than the 304L chamber. The 304L, 316L, and 316LN chambers without vacuum-fire heat treatment have larger hydrogen outgassing rates than the other chambers, with specific outgassing rates ranging between 4.0 X 10^-11 Pa L s^-1 cm^-2 and 8.0 X 10^-11 Pa L s^-1 cm^-2. We conclude that Ti, Al, 316L-XHV, and 316LN-XHV have hydrogen outgassing rates that make them excellent choices for ultra-high vacuum (UHV) and extreme-high vacuum (XHV) applications, the choice depending on cost and other material properties.
翻訳日:2023-05-01 06:56:30 公開日:2021-03-09
# 有限密度場理論における量子情報の側面

Aspects of quantum information in finite density field theory ( http://arxiv.org/abs/2011.01252v2 )

ライセンス: Link先を確認
Lucas Daguerre, Raimel Medina, Mario Solis, Gonzalo Torroba(参考訳) 量子情報理論の手法を用いて、有限密度での量子場理論の異なる側面を研究する。 単純性のために、非ゼロな化学ポテンシャルを持つ巨大なディラックフェルミオンに焦点を合わせ、1+1$の時空次元で作業する。 区間の絡み合いエントロピーを用いて、有限であるエントロピー $c$-関数を構築する。 ローレンツ不変理論と異なり、この$c$-函数はモノトニック性の強い違反を示し、フェルミ面からの長距離の絡み合いを符号化する。 格子モデルに関する以前の研究によって動機付けられ、次にRenyiエントロピーを数値的に計算し、フリーデル型振動を見つける。 さらに,各領域間の相関関数の尺度として相互情報を考察する。 カーディが以前に開発した長距離展開を用いて、この相互情報はフェルミ表面の相関を既に先行的に検出していると論じる。 また、電荷や質量の異なる状態を区別するために、相対エントロピーとそのレニイ一般化を分析する。 特に、異なる超選択セクタ内の状態が相対エントロピーにおいて超拡張的な振る舞いを生じさせることを示した。 最後に、相互作用理論の拡張の可能性について議論し、非フェルミ液体の探索におけるこれらの尺度の関連性について論じる。

We study different aspects of quantum field theory at finite density using methods from quantum information theory. For simplicity we focus on massive Dirac fermions with nonzero chemical potential, and work in $1+1$ space-time dimensions. Using the entanglement entropy on an interval, we construct an entropic $c$-function that is finite. Unlike what happens in Lorentz-invariant theories, this $c$-function exhibits a strong violation of monotonicity; it also encodes the creation of long-range entanglement from the Fermi surface. Motivated by previous works on lattice models, we next calculate numerically the Renyi entropies and find Friedel-type oscillations; these are understood in terms of a defect operator product expansion. Furthermore, we consider the mutual information as a measure of correlation functions between different regions. Using a long-distance expansion previously developed by Cardy, we argue that the mutual information detects Fermi surface correlations already at leading order in the expansion. We also analyze the relative entropy and its Renyi generalizations in order to distinguish states with different charge and/or mass. In particular, we show that states in different superselection sectors give rise to a super-extensive behavior in the relative entropy. Finally, we discuss possible extensions to interacting theories, and argue for the relevance of some of these measures for probing non-Fermi liquids.
翻訳日:2023-04-26 01:30:04 公開日:2021-03-09
# 量子アニールにおける2パラメータ反断熱駆動

Two-parameter counter-diabatic driving in quantum annealing ( http://arxiv.org/abs/2011.02691v2 )

ライセンス: Link先を確認
Luise Prielinger, Andreas Hartmann, Yu Yamashiro, Kohji Nishimura, Wolfgang Lechner, Hidetoshi Nishimori(参考訳) 量子アニーリングのための横場イジングモデルのハミルトニアンの2パラメータ近似反断熱項を導入し、解への収束を加速し、既存の単パラメータアプローチを一般化する。 このプロトコルは、横磁場イジングモデルにおける縦・横方向の非従来型ダイアバティック制御と等価であり、性能向上の目標に向かって非重合触媒のような新しい用語を導入するよりも実験的な実現が容易である。 1次量子相転移を持つ$p=3$の$p$-spinモデルのアイデアを検証し、我々の2パラメータアプローチが従来の量子アニール法や単パラメータ法よりもはるかに大きな基底状態の忠実度と低い残留エネルギーをもたらすことを示す。 また,従来の手法と比較して,特定のパラメータのシステムサイズの関数として,ソリューションまでの時間という面でのスケーリングのアドバンテージも見いだした。

We introduce a two-parameter approximate counter-diabatic term into the Hamiltonian of the transverse-field Ising model for quantum annealing to accelerate convergence to the solution, generalizing an existing single-parameter approach. The protocol is equivalent to unconventional diabatic control of the longitudinal and transverse fields in the transverse-field Ising model and thus makes it more feasible for experimental realization than an introduction of new terms such as non-stoquastic catalysts toward the same goal of performance enhancement. We test the idea for the $p$-spin model with $p=3$, which has a first-order quantum phase transition, and show that our two-parameter approach leads to significantly larger ground-state fidelity and lower residual energy than those by traditional quantum annealing as well as by the single-parameter method. We also find a scaling advantage in terms of the time to solution as a function of the system size in a certain range of parameters as compared to the traditional methods.
翻訳日:2023-04-25 05:38:10 公開日:2021-03-09
# ウィグナー3j$係数の諸性質:非自明な零点と超幾何関数との接続

Some properties of Wigner $3j$ coefficients: non-trivial zeros and connections to hypergeometric functions ( http://arxiv.org/abs/2011.05184v3 )

ライセンス: Link先を確認
Jean-Christophe Pain(参考訳) ジャック・レイナルの角運動理論への貢献は極めて重要である。 この記事では、wigner 3j$ シンボルに関する彼の仕事の主な側面を思い出すつもりです。 後者は超幾何級数で表現できることはよく知られている。 3j$係数の多項式零点は当初、係数の次数である級数マイナス1の項数によって特徴づけられた。 raynalによる$j = a + b + c \leq 240$ (a$, $b$, $c$) に対する3j$係数の零点に関する詳細な研究により、高次零点のほとんどが小さな磁気量子数を持つことが明らかになった。 この結果、彼は3j$係数の零点の分類を改善するために$m$という順序を定義した。 レイナルは次数 1 から 7 の多項式零点を探索し、次数 1 と 2 の零点の数は無限であるが、3 より大きい次数の零点の数は次数の増加とともに非常に急速に減少することを示した。 単位引数を持つ超幾何学的$_3F_2$関数のウィップル変換に基づいて、レイナルはウィグナーの3j$シンボルを任意の引数に一般化し、通常の場合と同値である10の式(120の一般化された3j$シンボルの12の集合)が存在することを指摘した。 本稿では,ダイオファンチン方程式や強数の役割,ラバーテパターンを含む代替手法など,3j$係数の零点の他の側面についても論じる。

The contribution of Jacques Raynal to angular-momentum theory is highly valuable. In the present article, I intend to recall the main aspects of his work related to Wigner $3j$ symbols. It is well known that the latter can be expressed with a hypergeometric series. The polynomial zeros of the $3j$ coefficients were initially characterized by the number of terms of the series minus one, which is the degree of the coefficient. A detailed study of the zeros of the $3j$ coefficient with respect to the degree $n$ for $J = a + b + c \leq 240$ ($a$, $b$ and $c$ being the angular momenta in the first line of the $3j$ symbol) by Raynal revealed that most zeros of high degree had small magnetic quantum numbers. This led him to define the order $m$ to improve the classification of the zeros of the $3j$ coefficient. Raynal did a search for the polynomial zeros of degree 1 to 7 and found that the number of zeros of degree 1 and 2 are infinite, though the number of zeros of degree larger than 3 decreases very quickly as the degree increases. Based on Whipple's transformations of hypergeometric $_3F_2$ functions with unit argument, Raynal generalized the Wigner $3j$ symbols to any arguments and pointed out that there are twelve sets of ten formulas (twelve sets of 120 generalized $3j$ symbols) which are equivalent in the usual case. In this paper, we also discuss other aspects of the zeros of $3j$ coefficients, such as the role of Diophantine equations and powerful numbers, or the alternative approach involving Labarthe patterns.
翻訳日:2023-04-24 19:06:15 公開日:2021-03-09
# ブラウンSYKモデルにおけるエントロピーダイナミクスについて

Note on entropy dynamics in the Brownian SYK model ( http://arxiv.org/abs/2011.08158v2 )

ライセンス: Link先を確認
Shao-Kai Jian, Brian Swingle(参考訳) 初期積状態から進化する2つの結合ブラウンSYKクラスター系におけるR'enyiエントロピーの時間発展について検討する。 1つのクラスターの R'enyi エントロピーは線形に成長し、粗い粒度のエントロピーに飽和する。 このページ曲線は経路積分鞍点解析と演算子動力学解析という2つの異なる方法によって得られる。 力学のブラウン的性質を用いて、演算子のダイナミクスを制御するマスター方程式を導出し、純粋性のページ曲線を与える。 この複雑なマスター方程式の物理学への洞察は相補的な経路積分法によって提供される: レプリカ対角サドルと非対角サドルはそれぞれR'enyiエントロピーの線形成長と飽和に寄与する。

We study the time evolution of R\'enyi entropy in a system of two coupled Brownian SYK clusters evolving from an initial product state. The R\'enyi entropy of one cluster grows linearly and then saturates to the coarse grained entropy. This Page curve is obtained by two different methods, a path integral saddle point analysis and an operator dynamics analysis. Using the Brownian character of the dynamics, we derive a master equation which controls the operator dynamics and gives the Page curve for purity. Insight into the physics of this complicated master equation is provided by a complementary path integral method: replica diagonal and non-diagonal saddles are responsible for the linear growth and saturation of R\'enyi entropy, respectively.
翻訳日:2023-04-23 23:32:49 公開日:2021-03-09
# 量子スピンチェーンにおける偽真空気泡壁の衝突

Collisions of false-vacuum bubble walls in a quantum spin chain ( http://arxiv.org/abs/2012.07243v2 )

ライセンス: Link先を確認
Ashley Milsted, Junyu Liu, John Preskill, and Guifre Vidal(参考訳) 低エネルギー物理学が相対論的(1+1)次元の量子場理論によって記述される臨界点近傍の量子スピンチェーンにおける「false vacuum」の小さな気泡のリアルタイムダイナミクスについて研究する。 そのような気泡は閉じ込められたキンク・アンチキンク対(中間子)と考えることができる。 壁が衝突するまで粒子生成が起こらないよう, 気泡を慎重に構築する。 強相関の存在下でこれを達成するために、準粒子波束 [van damme et al., arxiv: 1907.02474 (2019)] に対する行列積状態 (mps) ansatz を閉じ込められた位相準粒子の場合まで拡張する。 ウェーブパック幅と気泡径を適切に選択することにより,強い格子効果を回避し,相対論的キンク・アンチキンク衝突を観測する。 mps準粒子アンサッツを用いて散乱結果を検出する: イジングモデルでは、横および縦の場を持つ場合、非可積分性にもかかわらず粒子生成は観測されない(非熱的メソニック状態の最近の観測を支持している)。 さらなる相互作用により、閉じ込められた粒子対と密着していない粒子対の生成が見られる。 これらの低エネルギー・少粒子の事象を適度な資源でシミュレートしたが、エネルギーと衝突の数でかなりの増加が観察され、いずれの増加も最終的に我々の手法を消耗させることが示唆された。 対照的に量子デバイスは、絡み合い生成によって制限されることはなく、古典的手法をはるかに超えることを約束します。 1+1次元のkink-antikink散乱は、比較的短期的な量子デバイスに対する指導的ベンチマーク問題であると予想する。

We study the real-time dynamics of a small bubble of "false vacuum" in a quantum spin chain near criticality, where the low-energy physics is described by a relativistic (1+1)-dimensional quantum field theory. Such a bubble can be thought of as a confined kink-antikink pair (a meson). We carefully construct bubbles so that particle production does not occur until the walls collide. To achieve this in the presence of strong correlations, we extend a Matrix Product State (MPS) ansatz for quasiparticle wavepackets [Van Damme et al., arXiv:1907.02474 (2019)] to the case of confined, topological quasiparticles. By choosing the wavepacket width and the bubble size appropriately, we avoid strong lattice effects and observe relativistic kink-antikink collisions. We use the MPS quasiparticle ansatz to detect scattering outcomes: In the Ising model, with transverse and longitudinal fields, we do not observe particle production despite nonintegrability (supporting recent observations of nonthermalizing mesonic states). With additional interactions, we see production of confined and unconfined particle pairs. Although we simulated these low-energy, few-particle events with moderate resources, we observe significant growth of entanglement with energy and with the number of collisions, suggesting that increasing either will ultimately exhaust our methods. Quantum devices, in contrast, are not limited by entanglement production, and promise to allow us to go far beyond classical methods. We anticipate that kink-antikink scattering in 1+1 dimensions will be an instructive benchmark problem for relatively near-term quantum devices.
翻訳日:2023-04-20 21:31:45 公開日:2021-03-09
# 超伝導量子プロセッサにおける変分量子ファクタリングの性能解析

Analyzing the Performance of Variational Quantum Factoring on a Superconducting Quantum Processor ( http://arxiv.org/abs/2012.07825v2 )

ライセンス: Link先を確認
Amir H. Karamlou, William A. Simon, Amara Katabarwa, Travis L. Scholten, Borja Peropadre, and Yudong Cao(参考訳) 短期的には、ハイブリッド量子古典アルゴリズムは古典的アプローチを上回る大きな可能性を秘めている。 これら2つのコンピューティングパラダイムがどのように機能するかを理解することは、そのようなハイブリッドアルゴリズムが量子的優位性をもたらす領域を特定するために重要である。 本研究では,変分量子ファクタリング(VQF)アルゴリズムを実装し,QAOAに基づく量子最適化アルゴリズムを提案する。 超伝導量子プロセッサを用いて実験実験を行い、量子リソース(量子ビット数と回路深度)と与えられた二素数を分解する確率とのトレードオフを調べる。 実験では,1099551473989,3127,6557を,最大8層までのQAOAアンサッツを用いてそれぞれ3,4,5キュービットに分解し,各インスタンスに対して最適な回路層数を同定し,成功確率を最大化する。 さらに、異なるノイズ源がqaoaの性能に与える影響を実証し、超伝導量子プロセッサにおいて、量子ビット間の残差zz結合によるコヒーレントエラーを支配的エラー源として明らかにする。

In the near-term, hybrid quantum-classical algorithms hold great potential for outperforming classical approaches. Understanding how these two computing paradigms work in tandem is critical for identifying areas where such hybrid algorithms could provide a quantum advantage. In this work, we study a QAOA-based quantum optimization algorithm by implementing the Variational Quantum Factoring (VQF) algorithm. We execute experimental demonstrations using a superconducting quantum processor and investigate the trade-off between quantum resources (number of qubits and circuit depth) and the probability that a given biprime is successfully factored. In our experiments, the integers 1099551473989, 3127, and 6557 are factored with 3, 4, and 5 qubits, respectively, using a QAOA ansatz with up to 8 layers and we are able to identify the optimal number of circuit layers for a given instance to maximize success probability. Furthermore, we demonstrate the impact of different noise sources on the performance of QAOA and reveal the coherent error caused by the residual ZZ-coupling between qubits as a dominant source of error in the superconducting quantum processor.
翻訳日:2023-04-20 21:15:25 公開日:2021-03-09
# 量子暗号を用いた絡み合い対策のセキュリティ証明

Security proof for qudit-system-based quantum cryptography against entanglement-measurement attack ( http://arxiv.org/abs/2012.14275v2 )

ライセンス: Link先を確認
Zhaoxu Ji, Peiru Fan, Huanguo Zhang(参考訳) エンタングルメント測定攻撃は量子暗号におけるよく知られた攻撃である。 量子暗号プロトコルでは、盗聴チェックはこの攻撃に抵抗することができる。 盗聴検査には2つの方法がある。 ひとつは、eavesdroppingチェックにデコイフォトン技術を使うことです。 もう一つは、2つの非直交的絡み合い状態の絡み合い相関を用いて盗聴検査を行うことである。 本稿では,2つの手法による盗聴チェックを行うqudit-systemベースの量子暗号プロトコルの絡み合い測定攻撃に対するセキュリティを実証する。 我々のセキュリティ証明は、量子暗号プロトコルで使われる盗聴チェック方法を改善するのに有用である。

Entanglement-measurement attack is a well-known attack in quantum cryptography. In quantum cryptography protocols, eavesdropping checking can resist this attack. There are two known eavesdropping checking methods. One is to use decoy photon technology for eavesdropping checking. The other is to use the entanglement correlation of two groups of non-orthogonal entangled states for eavesdropping checking. In this paper, we prove the security against entanglement-measurement attack for the qudit-system-based quantum cryptography protocols which use the two methods for eavesdropping checking. Our security proof is useful to improve the eavesdropping checking method used in quantum cryptography protocols.
翻訳日:2023-04-19 11:44:41 公開日:2021-03-09
# 六角形ナノリボンの高次高調波発生

High-order harmonic generation in hexagonal nanoribbons ( http://arxiv.org/abs/2101.02961v2 )

ライセンス: Link先を確認
Christoph J\"ur{\ss} and Dieter Bauer(参考訳) 有限ヘキサゴナルナノリボンにおける高次高調波の発生をシミュレートする。 アームチェアとジグザグの縁を持つリボンについて, 隣り合うホッピングのみの密着型アプローチを用いて検討した。 交互にオンサイト電位をオフまたはオンにすることで、例えばグラフェンや六方晶窒化ホウ素などを記述する。 入射レーザパルスはリボンに沿って直線的に偏光する。 放出された光は、入射フィールドの偏光に平行な偏光成分を有する。 入射場の偏光に垂直な偏光成分の有無は、リボンの対称性によって説明できる。 有限リボンの高調波スペクトルの特徴を,対応する周期系のバンド構造の助けを借りて解析した。

The generation of high-order harmonics in finite, hexagonal nanoribbons is simulated. Ribbons with armchair and zig-zag edges are investigated by using a tight-binding approach with only nearest neighbor hopping. By turning an alternating on-site potential off or on, the system describes for example graphene or hexagonal boron nitride, respectively. The incoming laser pulse is linearly polarized along the ribbons. The emitted light has a polarization component parallel to the polarization of the incoming field. The presence or absence of a polarization component perpendicular to the polarization of the incoming field can be explained by the symmetry of the ribbons. Characteristic features in the harmonic spectra for the finite ribbons are analyzed with the help of the band structure for the corresponding periodic systems.
翻訳日:2023-04-17 08:37:05 公開日:2021-03-09
# 曲線時空におけるスカラーテンソル場からのディラック方程式のワイル不変導出

Weyl-invariant derivation of Dirac equation from scalar tensor fields in curved space-time ( http://arxiv.org/abs/2103.02312v2 )

ライセンス: Link先を確認
Enrico Santamato and Francesco De Martini(参考訳) 本研究では、4+K次元のワイル不変作用原理から始まる曲線時空におけるディラック方程式の導出を示す。 ディラックの方程式(および一般に量子力学)のワイル不変性は、計量空間におけるワイルとリーマンスカラー曲率の差がボームの量子ポテンシャルと一致することを観測することによって可能となる。 この状況により、量子力学の完全幾何学的定式化(conformal quantum geometrodynamics, cqg)が可能となり、例えば量子パラドックスのいくつかの側面を明確にし、スピン統計接続として難しい定理の証明を単純化するために有用であることが証明された。 本研究は、ディラック方程式のこれまでの導出を、平坦ミンコフスキー時空から一般曲線時空へと拡張する。 電荷とe.m.場は、余剰座標を追加し、関連する群対称性をゲージすることによって導入される。 結果として得られるディラックの方程式は、電子に対して正しいジャイロ磁性比$g_e=2$に自然に収まるが、2つの点で標準量子力学(SQM)に由来するものとは異なる。 第一に、時空リーマンスカラー曲率との結合は、SQMのように1/2ではなくCQGで1/4であり、第二に、CQGでは非常に小さな2つの追加項が粒子に作用するスカラーポテンシャルとして現れる。 1つは体テンソルの微分に依存し、もう1つはスカラー Kretschmann 項 $R_{\mu\nu\rho\sigma}R^{\mu\nu\rho\sigma}$ である。 どちらの用語も、SQMには存在しないが、電子コンプトン長のオーダーの距離でしか認識できない。 特にクレッツマン項は、アインシュタインの真空での方程式に従えば、外部重力場に生き残る唯一の項である。 これらの小さな違いは、少なくとも原理的には、非常に正確な実験によってCQG理論を混乱させる。

In this work we present a derivation of Dirac's equation in a curved space-time starting from a Weyl-invariant action principle in 4+K dimensions. The Weyl invariance of Dirac's equation (and of Quantum Mechanics in general) is made possible by observing that the difference between the Weyl and the Riemann scalar curvatures in a metric space is coincident with Bohm's Quantum potential. This circumstance allows a completely geometrical formulation of Quantum Mechanics, the Conformal Quantum Geometrodynamics (CQG), which was proved to be useful, for example, to clarify some aspects of the quantum paradoxes and to simplify the demonstration of difficult theorems as the Spin-Statistics connection. The present work extends our previous derivation of Dirac's equation from the flat Minkowski space-time to a general curved space-time. Charge and the e.m. fields are introduced by adding extra-coordinates and then gauging the associated group symmetry. The resulting Dirac's equation yields naturally to the correct gyromagnetic ratio $g_e=2$ for the electron, but differs from the one derived in the Standard Quantum Mechanics (SQM) in two respects. First, the coupling with the space-time Riemann scalar curvature is found to be about 1/4 in the CQG instead of 1/2 as in the SQM and, second, in the CQG result two very small additional terms appear as scalar potentials acting on the particle. One depends on the derivatives of the e.m. field tensor and the other is the scalar Kretschmann term $R_{\mu\nu\rho\sigma}R^{\mu\nu\rho\sigma}$. Both terms, not present in the SQM, become appreciable only at distances of the order of the electron Compton length or less. The Kretschmann term, in particular, is the only one surviving in an external gravitational field obeying Einstein's equations in vacuum. These small differences render the CQG theory confutable by very accurate experiments, at least in principle.
翻訳日:2023-04-09 08:11:24 公開日:2021-03-09
# 光ツイーザを用いたトラップイオン系のフォノン操作

Manipulating phonons of a trapped-ion system using optical tweezers ( http://arxiv.org/abs/2103.03273v3 )

ライセンス: Link先を確認
Yi Hong Teoh, Manas Sajjan, Zewen Sun, Fereshteh Rajabi, Rajibul Islam(参考訳) 従来の高周波イオントラップの集束電位に対して,光学的ツイーザのアレイがサイト依存性の制御を行う実験アーキテクチャを提案する。 サイトに依存した制御は、量子情報処理(QIP)や熱力学に多くの可能性を持つイオンのフォノンモードのプログラム可能な操作を可能にする。 本稿では,光トウィーザの配列をプログラムしてターゲットフォノンモードを高精度に実現するためのプロトコルについて述べる。 ジャジンスキーの等式を通したプログラム可能な有効質量粒子の量子熱力学をシミュレートし、異種多種イオン系における交感神経冷却と量子論理ゲートの効率を向上させるための制御の応用を提案する。 本稿では,リアルイオントラップシステムに必要な光パラメータと,QIPにおける光ツイーザの潜在的な副作用について論じる。 本手法は,量子計算とシミュレーションのためのプラットフォームとして,トラップイオンの有用性を拡張した。

We propose an experimental architecture where an array of optical tweezers affords site-dependent control over the confining potential of a conventional radio-frequency ion trap. The site-dependent control enables programmable manipulation of phonon modes of ions, with many potential applications in quantum information processing (QIP) and thermodynamics. We describe protocols for programming the array of optical tweezers to attain a set of target phonon modes with high accuracy. We propose applications of such controls in simulating quantum thermodynamics of a particle of programmable effective mass via Jarzynski's equality and improving the efficiency of sympathetic cooling and quantum logic gates in a multi-species ion system of disparate masses. We discuss the required optical parameters in a realistic ion trap system and potential adverse effects of optical tweezers in QIP. Our scheme extends the utility of trapped-ions as a platform for quantum computation and simulation.
翻訳日:2023-04-09 02:08:51 公開日:2021-03-09
# 部門・定期検査分析システムの実装

Implementation of Departmental and Periodical Examination Analyzer System ( http://arxiv.org/abs/2103.05252v1 )

ライセンス: Link先を確認
Julius G. Garcia, Connie C. Aunario(参考訳) 公立および私立の学術機関で試験を行うのは面倒で管理不能である。 試験工程の自動化により、部門や定期的な検査の実施に影響を及ぼす問題の多さを大幅に削減することができる。 本研究の目的は,検査システムを用いた検査の実施において,代替技術ソリューションを提供することである。 このソフトウェアアプリケーションは、ランダムな質問技法を実装し、項目分析とテスト結果を生成する異なる対象の試験者の満足度を促進することができる。 学部・定期試験システムは視覚基礎言語を用いて開発された。 ソフトウェアモジュールは機能テスト手法を用いてテストされた。 ISO 9126のソフトウェア品質モデルの基準と基準を用いて、このシステムは学生、教師、学校の管理者、情報技術専門家のグループによって評価され、全体的な重み付け平均は4.56585であり、優れた記述的評価を受けている。 したがって、アプリケーションソフトウェアの性能は、テスト管理や検査後の問題を克服し、目的に指定されたすべての操作を実行するソリューションを提供する。

Administering examinations both in public and private academic institutions can be tedious and unmanageable. The multiplicity of problems affecting the conduct of departmental and periodical examination can be greatly reduced by automating the examination process. The purpose of this action research is to provide an alternative technical solution in administering test through the use of Examination System. This software application can facilitate a plenitude of examinees for different subjects that implements a random questioning technique and can generate item analysis and test results. The Departmental and Periodical Examination System was developed using Visual Basic language. The software modules were tested using the functional testing method. Using the criteria and metrics of ISO 9126 software quality model, the system was evaluated by a group of students, teachers, school administrators and information technology professionals and has received an overall weighted mean of 4.56585 with an excellent descriptive rating. Therefore, the performance of the application software provides solution that can surmount the gargantuan problems of test administration and post-examination issues and performs all the operations specified in the objectives.
翻訳日:2023-04-08 16:17:38 公開日:2021-03-09
# グラフ上の移動シフトを伴う量子ウォークのための新しいタイプのスペクトルマッピング定理

A new type of spectral mapping theorem for quantum walks with a moving shift on graphs ( http://arxiv.org/abs/2103.05235v1 )

ライセンス: Link先を確認
Sho Kubota, Kei Saito, Yusuke Yoshie(参考訳) 従来の量子ウォークのスペクトルマッピング定理は、正方形が正方形であるシフト演算子を用いたウォークにのみ適用できる。 この定理は、時間発展の固有値のほとんどを複素平面上の単位円上に誘導自己随伴行列の固有値$t$ を持ち上げることによって与えられる。 我々は、有限グラフ上の恒等式であるシフト作用素を用いて、グローバーウォークの新しいスペクトル写像定理を取得する。 さらに、そのようなシフト演算子を持つ量子ウォークのグラフは三角測量によって特徴づけられる。 この論文ではこれらのグラフを三角グラフと呼ぶ。 スペクトル写像定理と従来の定理の違いの1つは、単位円上に$T-1/2$の固有値を持ち上げると、ほとんどの固有値が$U$となることである。

The conventional spectral mapping theorem for quantum walks can only be applied for walks employing a shift operator whose square is the identity. This theorem gives most of the eigenvalues of the time evolution $U$ by lifting the eigenvalues of an induced self-adjoint matrix $T$ onto the unit circle on the complex plane. We acquire a new spectral mapping theorem for the Grover walk with a shift operator whose cube is the identity on finite graphs. Moreover, graphs we can consider for a quantum walk with such a shift operator is characterized by a triangulation. We call these graphs triangulable graphs in this paper. One of the differences between our spectral mapping theorem and the conventional one is that lifting the eigenvalues of $T-1/2$ onto the unit circle gives most of the eigenvalues of $U$.
翻訳日:2023-04-08 16:16:39 公開日:2021-03-09
# 高齢者のマルチモーダルインタラクション設計におけるトレードオフ

Trade-offs in the Design of Multimodal Interaction for Older Adults ( http://arxiv.org/abs/2103.05309v1 )

ライセンス: Link先を確認
Gianluca Schiavo, Ornella Mich, Michela Ferron, Nadia Mana(参考訳) 本稿では,高齢者向けマルチモーダルインタラクションの設計において,デザイナーとヒューマン・コンピュータインタラクションの実践者が直面する重要な側面とトレードオフについて述べる。 本稿は,マルチモーダルインタラクションとアシスト技術に関する文献を収集し,高齢者に特有の設計課題について述べる。 これらの主な設計課題に基づいて,マルチモーダル技術の設計における4つのトレードオフを提示し,議論した。 高齢者向けマルチモーダル技術の設計プロセスにおけるトレードオフの関連性を強調するために,4つのトレードオフのうち2つを,空中およびタブレットデバイスとの音声ベースのインタラクションを考察した2つのユーザ研究で示す。 第1報では,高齢者,中高年者,若年者における冗長なマルチモーダルコマンドに関する設計上のトレードオフを調査し,第2報では中高年者に対する片手ジェスチャーと音声入力コマンドの定義に関する設計選択について検討した。 さらなるリフレクションは、そのような考慮がプロセスにもたらす設計上のトレードオフを強調し、関連する設計選択とその潜在的な結果の概要を示す。

This paper presents key aspects and trade-offs that designers and Human-Computer Interaction practitioners might encounter when designing multimodal interaction for older adults. The paper gathers literature on multimodal interaction and assistive technology, and describes a set of design challenges specific for older users. Building on these main design challenges, four trade-offs in the design of multimodal technology for this target group are presented and discussed. To highlight the relevance of the trade-offs in the design process of multimodal technology for older adults, two of the four reported trade-offs are illustrated with two user studies that explored mid-air and speech-based interaction with a tablet device. The first study investigates the design trade-offs related to redundant multimodal commands in older, middle-aged and younger adults, whereas the second one investigates the design choices related to the definition of a set of mid-air one-hand gestures and voice input commands. Further reflections highlight the design trade-offs that such considerations bring in the process, presenting an overview of the design choices involved and of their potential consequences.
翻訳日:2023-04-08 16:11:51 公開日:2021-03-09
# 量子力学の一貫した歴史解釈に関する短い歴史学的考察

A Brief Historical Perspective on the Consistent Histories Interpretation of Quantum Mechanics ( http://arxiv.org/abs/2103.05280v1 )

ライセンス: Link先を確認
Gustavo Rodrigues Rocha, Dean Rickles, Florian J. Boge(参考訳) この章では、第一および第二の文献に基づく量子力学の一貫した歴史解釈の歴史的説明を提示する。 まず、一貫した歴史アプローチの形式主義を概説する。 第2に、Robert Griffiths と Roland Omn\`es の著作が議論される。 グリフィスの最初の1984年の論文は、量子力学の一貫したヒストリー解釈を提唱した最初の物理学者であり、1990年のOmn\`esの論文は、ブール論理に基づく一貫したヒストリーモデルに寄与した。 第3に、マレー・ゲルマンとジェームズ・ハートルが、宇宙論的観点から動機づけられた、一貫性のある歴史のアプローチの独自のバージョンへのステップを記述し、評価する。 Gell-Mann と Hartle は、自然脱コヒーレンスによって具体的な物理的モデルへの道がグリフィスの一貫した歴史に通じることを理解した。 さらに、これらの人物の集団的伝記は、1984年にニューメキシコ州サンタフェでgell-mannが共同設立したサンタフェ研究所(santa fe institute)が担う役割の文脈に置かれる。

It will be presented in this chapter a historical account of the consistent histories interpretation of quantum mechanics based on primary and secondary literature. Firstly, the formalism of the consistent histories approach will be outlined. Secondly, the works by Robert Griffiths and Roland Omn\`es will be discussed. Griffiths' seminal 1984 paper, the first physicist to have proposed a consistent-histories interpretation of quantum mechanics, followed by Omn\`es' 1990 paper, were instrumental to the consistent-histories model based on Boolean logic. Thirdly, Murray Gell-Mann and James Hartle's steps to their own version of consistent-histories approach, motivated by a cosmological perspective, will then be described and evaluated. Gell-Mann and Hartle understood that spontaneous decoherence could path the way to a concrete physical model to Griffiths' consistent histories. Moreover, the collective biography of these figures will be put in the context of the role played by the Santa Fe Institute, co-founded by Gell-Mann in 1984 in Santa Fe, New Mexico, where Hartle is also a member of the external faculty.
翻訳日:2023-04-08 16:10:17 公開日:2021-03-09
# イオンを閉じ込めたJaynes-Cummings-Hubbardモデルにおけるポラリトン遮断

Polariton blockade in the Jaynes-Cummings-Hubbard model with trapped ions ( http://arxiv.org/abs/2103.05253v1 )

ライセンス: Link先を確認
Ryutaro Ohira, Shota Kume, Hiroki Takahashi, and Kenji Toyoda(参考訳) 我々は2イオン鎖内の1つのポラリトンと2つのポラリトンのダイナミクスを実験的に観察した。 2つの閉じ込められたイオンをブルーサイドバンド遷移で駆動することで、反ジェインズ・カンミングス・ハバードモデルを実現する。 イオン鎖に1つのポラリトンが存在する場合、ポラリトンはイオン部位の間をホップする。 一方、各イオン部位に単一のポラリトンが存在する場合、反ジャインズ-カミングス相互作用の非線形性によって引き起こされるポラリトン-ポーラリトン相互作用により、ポラリトンのホッピングが抑制され、捕獲されたイオンによる反ジャインズ-カミングス-ハバードモデルにおけるポラリトンホッピングの遮断が実現される。 我々の研究は、強く相互作用する分極性システムのための閉じ込められたイオンベースの量子シミュレータの開発に向けた一歩である。

We have experimentally observed the dynamics of a single polariton and two polaritons in a two-ion chain. By driving two trapped ions at a motional blue-sideband transition, we realize the anti-Jaynes-Cummings-Hubbard model. When a single polariton exists in a trapped-ion chain, the polariton hops between the ion sites. On the other hand, when there are single polaritons at each ion site, the hopping of the polaritons is suppressed because of the polariton-polariton interaction induced by the nonlinearity of the anti-Jaynes-Cummings interaction, thereby realizing the blockade of polariton hopping in the anti-Jaynes-Cummings-Hubbard model with trapped ions. Our work is a step towards the development of a trapped-ion based quantum simulator for strongly interacting polaritonic systems.
翻訳日:2023-04-08 16:09:37 公開日:2021-03-09
# ディジタル量子コンピュータにおけるイジングチェーンの交換に関する研究

Investigating the Exchange of Ising Chains on a Digital Quantum Computer ( http://arxiv.org/abs/2103.05502v1 )

ライセンス: Link先を確認
Bassel Heiba Elfeky, Matthieu C. Dartiailh, S. M. Farzaneh, Javad Shabani(参考訳) イジングチェーンの強磁性状態は、2次元縮退部分空間またはエネルギーギャップによって励起から保護される論理キュービットを表すことができる。 北エフ連鎖の局所化エッジモードに類似したクビット部分空間における状態の移動を通じて、ブレイディングのような交換操作を研究する。 このシステムは、基底状態の断熱時間進化を通じて操作をシミュレートする1次元幾何学における2つのイジング鎖からなる。 時間進化は、IBMのAer QASMシミュレータを用いて、基本的な1ビットと2ビットの量子ゲート上の鈴木・トロッター拡張によって実現される。 システムの忠実度を進化とシステムパラメータの関数として検討し、異なるシステムサイズに対して最適な効率と精度を得る。 実装の諸側面として,回路奥行き,トロタライズ誤差,ノイズ中規模量子(nisq)ハードウェアに関連する量子ゲート誤差などについて考察した。 我々は,ビットフリップ,位相誤差などの量子ゲート誤差が,トロッター時間ステップの質素な値であっても,トロッター誤差やアディバティック条件として系の忠実度を決定するための支配要因であることを示した。 1つのイジングチェーンあたり最大1ドルまでのシステムに対する最適な忠実度$>99\%$に達し、90\%$以上のフィデリティに対する単一のブレイディングのような操作の最も効率的な実装には、個々のゲートエラーを現在のnisqハードウェアで禁止されている$\sim 10^{-6}$未満に制限する$\sim 10^{3}$の回路深さが必要であることを見出します。

The ferromagnetic state of an Ising chain can represent a two-fold degenerate subspace or equivalently a logical qubit which is protected from excitations by an energy gap. We study a a braiding-like exchange operation through the movement of the state in the qubit subspace which resembles that of the localized edge modes in a Kitaev chain. The system consists of two Ising chains in a 1D geometry where the operation is simulated through the adiabatic time evolution of the ground state. The time evolution is implemented via the Suzuki-Trotter expansion on basic single- and two-qubit quantum gates using IBM's Aer QASM simulator. The fidelity of the system is investigated as a function of the evolution and system parameters to obtain optimum efficiency and accuracy for different system sizes. Various aspects of the implementation including the circuit depth, Trotterization error, and quantum gate errors pertaining to the Noisy Intermediate-Scale Quantum (NISQ) hardware are discussed as well. We show that the quantum gate errors, i.e. bit-flip, phase errors, are the dominating factor in determining the fidelity of the system as the Trotter error and the adiabatic condition are less restrictive even for modest values of Trotter time steps. We reach an optimum fidelity $>99\%$ on systems of up to $11$ sites per Ising chain and find that the most efficient implementation of a single braiding-like operation for a fidelity above $90\%$ requires a circuit depth of the order of $\sim 10^{3}$ restricting the individual gate errors to be less than $\sim 10^{-6}$ which is prohibited in current NISQ hardware.
翻訳日:2023-04-08 16:02:19 公開日:2021-03-09
# COVID-19パンデミック中のソフトウェア開発 - Stack OverflowとGitHubの分析

Software Development During COVID-19 Pandemic: an Analysis of Stack Overflow and GitHub ( http://arxiv.org/abs/2103.05494v1 )

ライセンス: Link先を確認
Pedro Almir Martins de Oliveira, Pedro de Alc\^antara dos Santos Neto, Gleison Silva, Irvayne Ibiapina, Werney Lira, Rossana Maria de Castro Andrade(参考訳) 新型コロナウイルスは世界中で深刻な健康問題となった。 この状況は、パンデミックと闘うために様々な地域の研究を動機付けた。 ソフトウェア工学では、疾患の進化を追従するためのデータ可視化プロジェクト、パンデミックの挙動を推定する機械学習、放射線画像のコンピュータビジョン処理を指摘する。 これらのプロジェクトのほとんどはバージョン管理システムに格納されており、Q&Aウェブサイトで議論されている。 本研究では,多くの質問やプロジェクトについてマイニングソフトウェアリポジトリを実施し,研究者や実践者が新型コロナウイルスと戦うのに役立つ傾向を探究した。 Stack OverflowとData ScienceのQ\&Aと60,352のGitHubプロジェクトから1,190の質問を分析した。 我々はパンデミックを通して質問とプロジェクトの相関関係を特定した。 新型コロナウイルスに関する主な疑問は、Webスクレイピングとデータ視覚化に関連するハウツーだ。Python、JavaScript、Rを使用する。GitHubで最も頻繁なプロジェクトは、JavaScript、Python、Javaを使用する機械学習プロジェクトである。

The new coronavirus became a severe health issue for the world. This situation has motivated studies of different areas to combat this pandemic. In software engineering, we point out data visualization projects to follow the disease evolution, machine learning to estimate the pandemic behavior, and computer vision processing radiologic images. Most of these projects are stored in version control systems, and there are discussions about them in Question & Answer websites. In this work, we conducted a Mining Software Repository on a large number of questions and projects aiming to find trends that could help researchers and practitioners to fight against the coronavirus. We analyzed 1,190 questions from Stack Overflow and Data Science Q\&A and 60,352 GitHub projects. We identified a correlation between the questions and projects throughout the pandemic. The main questions about coronavirus are how-to, related to web scraping and data visualization, using Python, JavaScript, and R. The most recurrent GitHub projects are machine learning projects, using JavaScript, Python, and Java.
翻訳日:2023-04-08 16:01:19 公開日:2021-03-09
# PEAKShift推定 : 省略試験データのランク付けを推定する新しい手法

PEAK SHIFT ESTIMATION A novel method to estimate ranking of selectively omitted examination data ( http://arxiv.org/abs/2103.05479v1 )

ライセンス: Link先を確認
Satoshi Takahashi and Masaki Kitazawa and Ryoma Aoki and Atsushi Yoshikawa(参考訳) 本稿では,検査を選択的にスキップした場合の検査結果に着目し,これらの検査の難易度を比較した。 このタイプの試験の例として,大学入試,受験,学生の就職活動の結果を「選択的に省略した試験データ」と呼ぶ。 試験・組織ごとに受講した学生の数を学習できるが、受験者の身元は把握できない。 この種のデータに注目する研究はない。 これらの試験の難易度を知ると、組織能力、学生数、試験の難易度を評価するための新しい指標を得ることができる。 この指標は、試験の観点に応じた教育の結果を反映する。 そこで我々は,選択的に省略された試験データに基づいて,試験の難易度を推定する新しい手法,ピークシフト推定法を提案する。 まず、ピークシフト推定をシミュレーションデータに適用し、ピークシフト推定が大学入試の難易度のランク順を非常に頑健に推定することを示した。 ピークシフト推定は、a、b、c、dランクの大学入試の多段階尺度を推定するのにも適している。 首都圏の実データにピークシフト推定を適用し,難易度レベルのランクと真のランクとのランク相関係数が0.844であり,大学の80%の差が25位以内であることを実証する。 このように、ピークシフト推定の精度は低く、改善されなければならないが、これは選択的に省略された検査データのランク付けに焦点を合わせる最初の研究であり、この方法に光を当てることに貢献する。

In this paper, we focus on examination results when examinees selectively skip examinations, to compare the difficulty levels of these examinations. We call the resultant data 'selectively omitted examination data' Examples of this type of examination are university entrance examinations, certification examinations, and the outcome of students' job-hunting activities. We can learn the number of students accepted for each examination and organization but not the examinees' identity. No research has focused on this type of data. When we know the difficulty level of these examinations, we can obtain a new index to assess organization ability, how many students pass, and the difficulty of the examinations. This index would reflect the outcomes of their education corresponding to perspectives on examinations. Therefore, we propose a novel method, Peak Shift Estimation, to estimate the difficulty level of an examination based on selectively omitted examination data. First, we apply Peak Shift Estimation to the simulation data and demonstrate that Peak Shift Estimation estimates the rank order of the difficulty level of university entrance examinations very robustly. Peak Shift Estimation is also suitable for estimating a multi-level scale for universities, that is, A, B, C, and D rank university entrance examinations. We apply Peak Shift Estimation to real data of the Tokyo metropolitan area and demonstrate that the rank correlation coefficient between difficulty level ranking and true ranking is 0.844 and that the difference between 80 percent of universities is within 25 ranks. The accuracy of Peak Shift Estimation is thus low and must be improved; however, this is the first study to focus on ranking selectively omitted examination data, and therefore, one of our contributions is to shed light on this method.
翻訳日:2023-04-08 16:01:01 公開日:2021-03-09
# ビジネスリスクの感度分析のための量子アルゴリズム

A Quantum Algorithm for the Sensitivity Analysis of Business Risks ( http://arxiv.org/abs/2103.05475v1 )

ライセンス: Link先を確認
M. C. Braun, T. Decker, N. Hegemann, S. F. Kerstan, C. Sch\"afer(参考訳) 本稿では,ドイツB\orseグループにおけるリスクモデルの感度解析という,量子計算の新しいユースケースを提案する。 このような解析は、古典的なコンピュータで実行するには計算コストが高すぎる。 リスクモデルとその解析が量子回路としてどのように実装できるかを詳細に示す。 我々はシミュレーションでモデルの小型バージョンを検証し、ドイツB\orse Groupの古典的な実装と比較して2次高速化が期待できることを示した。 200ビット未満の誤り修正キュービットで、フルスケールのプロダクション使用が可能となる。 我々の量子アルゴリズムは、状態の検出とマークに量子振幅推定を使用するユニタリだが不完全な神託を導入する。 この構造は一般の関心事であり,不完全オラクルを用いたGroverの探索アルゴリズムの性能に関する理論的結果を示す。

We present a novel use case for quantum computation: the sensitivity analysis for a risk model used at Deutsche B\"orse Group. Such an analysis is computationally too expensive to perform on classical computers. We show in detail how the risk model and its analysis can be implemented as a quantum circuit. We test small scale versions of the model in simulation and find that the expected quadratic speedup compared to the classical implementation used at Deutsche B\"orse Group can be realized. Full scale production usage would be possible with less than 200 error corrected qubits. Our quantum algorithm introduces unitary but imperfect oracles which use Quantum Amplitude Estimation to detect and mark states. This construction should be of general interest and we present theoretical results regarding the performance of Grover's search algorithm with imperfect oracles.
翻訳日:2023-04-08 16:00:34 公開日:2021-03-09
# ソースコード埋め込みに基づくニューラルネットワークからのプログラム特性のマイニング

Mining Program Properties From Neural Networks Trained on Source Code Embeddings ( http://arxiv.org/abs/2103.05442v1 )

ライセンス: Link先を確認
Martina Saletta, Claudio Ferretti(参考訳) 本稿では,ソースコード上で訓練された深層ニューラルネットワークの内部挙動を解析し,異なるプログラム特徴をマイニングするための新しい手法を提案する。 Javaプログラムの非ラベルデータセットとデータセット内のメソッドに対する3つの異なる埋め込み戦略を用いて、各プログラムの埋め込み毎にオートエンコーダをトレーニングし、異なるプログラム機能のための内部表現を自律的に構築する上で、内部ニューロンの出現する能力をテストする。 実際のプログラム問題に触発された3つのバイナリ分類ラベリングポリシーを定義し、これらの分類規則に従って各ニューロンのパフォーマンスを分類し、いくつかのニューロンが実際に異なるプログラム特性を検出できることを示す。 また、入力として選択したプログラム表現が、上記のタスクのパフォーマンスにどのように影響するかを分析する。 一方で、特定のタスクに関係なく、ネットワーク内の最も有益なニューロンを見つけることにも関心があります。 そこで本研究では,ニューロンのランク付けを行う2つの手法を提案し,評価する。 最後に,ソフトウェアリポジトリやコードエディタなどの環境に含まれる場合など,プログラマの作業を単純化するために,これらのアイデアをさまざまな設定で適用する方法について論じる。

In this paper, we propose a novel approach for mining different program features by analysing the internal behaviour of a deep neural network trained on source code. Using an unlabelled dataset of Java programs and three different embedding strategies for the methods in the dataset, we train an autoencoder for each program embedding and then we test the emerging ability of the internal neurons in autonomously building internal representations for different program features. We defined three binary classification labelling policies inspired by real programming issues, so to test the performance of each neuron in classifying programs accordingly to these classification rules, showing that some neurons can actually detect different program properties. We also analyse how the program representation chosen as input affects the performance on the aforementioned tasks. On the other hand, we are interested in finding the overall most informative neurons in the network regardless of a given task. To this aim, we propose and evaluate two methods for ranking neurons independently of any property. Finally, we discuss how these ideas can be applied in different settings for simplifying the programmers' work, for instance if included in environments such as software repositories or code editors.
翻訳日:2023-04-08 16:00:23 公開日:2021-03-09
# 定量化測定による非局所相関

Quantifying measurement-induced nonbilocal correlation ( http://arxiv.org/abs/2103.05381v1 )

ライセンス: Link先を確認
Ying Zhang, Kan He(参考訳) 本稿では, 絡み合いスワッピング実験における非局所相関を定量化するための利用可能な尺度を定義することに専念する。 そして、入力が純粋な状態である場合の量化子を計算する解析式を得る。 混合入力の場合、量子化器の計算特性について議論する。 最後に、非局所性定量化器に厳密な上限を導出する。

In the paper, we devote to defining an available measure to quantify the nonbilocal correlation in the entanglement-swapping experiment. Then we obtain analytical formulas to calculate the quantifier when the inputs are pure states. For the case of mixed inputs, we discuss the computational properties of the quantifier. Finally, we derive a tight upper bound to the nonbilocality quantifier.
翻訳日:2023-04-08 15:59:13 公開日:2021-03-09
# 量子論の基礎とその一般化の可能性

The foundations of quantum theory and its possible generalizations ( http://arxiv.org/abs/2103.05374v1 )

ライセンス: Link先を確認
V.A. Franke(参考訳) 量子系の発展と測定過程をユニークな方法で記述できる量子論の可能な一般化について論じる。 統計演算子に対するlindblad方程式に基づく問題へのアプローチについて概説する。 このタイプの共永シュウィンガー方程式はローレンツ不変性を確立するために導入された。 この方程式で生じる発散を克服するためのタキオン場の適用を解析した。 この問題に対する他のアプローチは、すぐに議論される。

Possible generalizations of quantum theory permitting to describe in a unique way the development of the quantum system and the measurement process are discussed. The approach to the problem based on the Lindblad's equation for the statistical operator is reviewed. The Tomonaga-Schwinger like equation of this type is introduced to establish Lorentz invariance. The application of tachyonic field to overcome divergences arising in this equation is analyzed. Other approaches to the problem are shortly discussed.
翻訳日:2023-04-08 15:59:07 公開日:2021-03-09
# トポロジカル超伝導とマヨラナゼロモードのためのエンジニアリングプラットフォーム

Engineered platforms for topological superconductivity and Majorana zero modes ( http://arxiv.org/abs/2103.05548v1 )

ライセンス: Link先を確認
Karsten Flensberg and Felix von Oppen and Ady Stern(参考訳) 量子ビットの実現のために追求されている主要なアプローチの中で、Majoranaベースのプラットフォームは最も最近ローンチされる。 量子情報を位相的に保護された方法で保存する量子ビットを実現する。 量子情報は、局所的でよく分離されたマヨラナゼロモードにおける非局所ストレージによって保護され、その非可換量子交換特性を利用して操作される。 これらのトポロジカル量子ビットを実現することは実験的に困難であり、超伝導、ヘリカル電子(スピン軌道カップリングによって作られる)、時間反転対称性の破れが不愉快なアライアンスで全ての協力を必要とする。 過去10年間、マヨラナをベースとしたトポロジカル量子ビットを実現するためのいくつかの候補物質系が研究され、まだ議論されているものの、ゼロモードが実際に実現されている証拠が蓄積されている。 本稿では,これらのアプローチの基盤となる基本的な物理原理,開発中の材料システム,現場の現状について述べる。 私たちは、達成された進歩と、克服すべき課題の両方を強調します。

Among the major approaches that are being pursued for realizing quantum bits, the Majorana-based platform has been the most recent to be launched. It attempts to realize qubits which store quantum information in a topologically-protected manner. The quantum information is protected by its nonlocal storage in localized and well-separated Majorana zero modes, and manipulated by exploiting their nonabelian quantum exchange properties. Realizing these topological qubits is experimentally challenging, requiring superconductivity, helical electrons (created by spin-orbit coupling) and breaking of time reversal symmetry to all cooperate in an uncomfortable alliance. Over the past decade, several candidate material systems for realizing Majorana-based topological qubits have been explored, and there is accumulating, though still debated, evidence that zero modes are indeed being realized. This paper reviews the basic physical principles on which these approaches are based, the material systems that are being developed, and the current state of the field. We highlight both the progress made and the challenges that still need to be overcome.
翻訳日:2023-04-08 15:52:08 公開日:2021-03-09
# peqes: プライバシエンハンスド定量的研究のためのプラットフォーム

PeQES: A Platform for Privacy-enhanced Quantitative Empirical Studies ( http://arxiv.org/abs/2103.05544v1 )

ライセンス: Link先を確認
Dominik Mei{\ss}ner, Felix Engelmann, Frank Kargl, Benjamin Erb(参考訳) 経験科学、特に心理学は、結果の不再現性、そしてまれに疑わしい研究慣行によって、方法論的な危機に陥る。 事前登録研究や生データセットの公開は効果的な対策として現れてきた。 しかし、このアプローチは概念的な手続きに過ぎず、場合によってはデータ出版に関連するプライバシー問題を悪化させる可能性がある。 我々は,事前登録研究のための新規なプライバシー保護ワークフローを確立する。 また,適切な実行を技術的に実施すると同時に,不正な使用やデータ再提出から参加者のデータを保護するプラットフォームであるpeqesについても紹介する。 当社のpeqesプロトタイプは、データ取得と実際の研究のデータ分析に無視できないパフォーマンスオーバーヘッドを導入しながら、プライバシー強化ワークフローの全体的な実現可能性を示しています。 PeQESは、信頼できるコンピューティングメカニズムを使用して、プライバシ強化された研究を可能にし、研究プロトコルの完全性を確保し、参加者のデータの機密性を同時に保護する最初のプラットフォームである。

Empirical sciences and in particular psychology suffer a methodological crisis due to the non-reproducibility of results, and in rare cases, questionable research practices. Pre-registered studies and the publication of raw data sets have emerged as effective countermeasures. However, this approach represents only a conceptual procedure and may in some cases exacerbate privacy issues associated with data publications. We establish a novel, privacy-enhanced workflow for pre-registered studies. We also introduce PeQES, a corresponding platform that technically enforces the appropriate execution while at the same time protecting the participants' data from unauthorized use or data repurposing. Our PeQES prototype proves the overall feasibility of our privacy-enhanced workflow while introducing only a negligible performance overhead for data acquisition and data analysis of an actual study. Using trusted computing mechanisms, PeQES is the first platform to enable privacy-enhanced studies, to ensure the integrity of study protocols, and to safeguard the confidentiality of participants' data at the same time.
翻訳日:2023-04-08 15:51:50 公開日:2021-03-09
# 位相空間におけるガウス関数によるボゾン量子ビットの高速シミュレーション

Fast simulation of bosonic qubits via Gaussian functions in phase space ( http://arxiv.org/abs/2103.05530v1 )

ライセンス: Link先を確認
J. Eli Bourassa, Nicol\'as Quesada, Ilan Tzitrin, Antal Sz\'ava, Theodor Isacsson, Josh Izaac, Krishna Kumar Sabapathy, Guillaume Dauphinais, Ish Dhand(参考訳) Bosonic qubitsは、さまざまな物理プラットフォーム上でフォールトトレラントな量子コンピュータを構築するための有望なルートである。 実測ゲート下でのボソニック量子ビットの性能に関する研究は,既存の解析・数値ツールでは困難である。 位相空間におけるガウス函数の線型結合として表現できる状態のクラスをシミュレートするための新しい形式主義を提案する。 この形式化によって、非ゲージ状態、変換、測定の幅広いクラスを分析し、シミュレートすることができます。 本稿では,この定式化を用いて,ゴットマン・キタエフ・プレスキル(GKP),キャット,フォック状態などのボソニック・クビットのクラスをシミュレートし,ガウス的チャネルと測定値の下でのボソニック・クビットの挙動を調べるための扉を開くこと,ゲートテレポーテーションによって達成されるような非ガウス的変換,しきい値や光子数検出などのガウス的非ガウス的測定を行うこと,などを実証する。 我々のフォーマリズムは、既存の手法では実現不可能な精度でこれらの状況をシミュレートすることができる。 最後に, ボソニック量子ビットを用いたフォールトトレラント量子コンピューティングの研究に不可欠な回路をシミュレートするために, フォーマリズムによって情報を得る手法を用いる。 具体的には,有限エネルギーGKP状態が現実的なクビット位相ゲート,CVクラスタ状態との界面,およびマジック状態を用いた非クリフォードTゲートテレポーテーションの下での変換について検討する。 我々は,オープンソースのStrawberry Fields Pythonライブラリの一部としてシミュレーション手法を実装した。

Bosonic qubits are a promising route to building fault-tolerant quantum computers on a variety of physical platforms. Studying the performance of bosonic qubits under realistic gates and measurements is challenging with existing analytical and numerical tools. We present a novel formalism for simulating classes of states that can be represented as linear combinations of Gaussian functions in phase space. This formalism allows us to analyze and simulate a wide class of non-Gaussian states, transformations and measurements. We demonstrate how useful classes of bosonic qubits -- Gottesman-Kitaev-Preskill (GKP), cat, and Fock states -- can be simulated using this formalism, opening the door to investigating the behaviour of bosonic qubits under Gaussian channels and measurements, non-Gaussian transformations such as those achieved via gate teleportation, and important non-Gaussian measurements such as threshold and photon-number detection. Our formalism enables simulating these situations with levels of accuracy that are not feasible with existing methods. Finally, we use a method informed by our formalism to simulate circuits critical to the study of fault-tolerant quantum computing with bosonic qubits but beyond the reach of existing techniques. Specifically, we examine how finite-energy GKP states transform under realistic qubit phase gates; interface with a CV cluster state; and transform under non-Clifford T gate teleportation using magic states. We implement our simulation method as a part of the open-source Strawberry Fields Python library.
翻訳日:2023-04-08 15:51:22 公開日:2021-03-09
# 量子確率を実軸から複素平面へ拡張する

Extending Quantum Probability from Real Axis to Complex Plane ( http://arxiv.org/abs/2103.05518v1 )

ライセンス: Link先を確認
Ciann-Dong Yang and Shiang-Yi Han(参考訳) 確率は量子力学のオントロジ解釈において重要な問題である。 ボヘミア力学や確率力学など、いくつかの軌道解釈で議論されている。 新しい問題は、複素軌道の生成、複素確率の定義、複素確率と量子確率の関係など、確率領域が複素空間に拡張されたときに生じる。 本論文で提案した複素処理は、最適量子誘導則を適用し、複素平面内の粒子ランダム運動を支配する確率微分方程式を導出する。 複素平面上の粒子位置の確率分布は、複素量子乱数軌道のアンサンブルによって形成され、複素確率微分方程式から解かれる。 一方、この確率分布は複素フォッカープランク方程式の解によって検証される。 量子確率と古典確率は、どちらも同じ確率分布から、異なる統計的方法で空間点を収集できるような複雑な確率の枠組みの下で統合できることが示されている。

Probability is an important question in the ontological interpretation of quantum mechanics. It has been discussed in some trajectory interpretations such as Bohmian mechanics and stochastic mechanics. New questions arise when the probability domain extends to the complex space, including the generation of complex trajectory, the definition of the complex probability, and the relation of the complex probability to the quantum probability. The complex treatment proposed in this article applies the optimal quantum guidance law to derive the stochastic differential equation governing a particle random motion in the complex plane. The probability distribution of the particle position over the complex plane is formed by an ensemble of the complex quantum random trajectories, which are solved from the complex stochastic differential equation. Meanwhile, this probability distribution is verified by the solution of the complex Fokker Planck equation. It is shown that quantum probability and classical probability can be integrated under the framework of complex probability, such that they can both be derived from the same probability distribution by different statistical ways of collecting spatial points.
翻訳日:2023-04-08 15:50:50 公開日:2021-03-09
# 有限温度多体格子モデルに対する機械学習半局所密度汎関数理論

Machine-learning semi-local density functional theory for many-body lattice models at zero and finite temperature ( http://arxiv.org/abs/2103.05510v1 )

ライセンス: Link先を確認
James Nelson, Rajarshi Tiwari, and Stefano Sanvito(参考訳) 本研究では,スピンレスハバードモデルに対して,ゼロ温度と有限温度の両方で1次元の機械学習密度関数式を導入する。 ゼロ温度の場合、サイト占有と総エネルギーの間に1対1の関係が確立され、地上占有時に最小化される。 対照的に有限温度では、ヘルムホルツ自由エネルギーと平衡点占有との間に同じ関係が定義される。 最も重要なことは、両方の関数は半局所的であるため、調査中のシステムのサイズとは独立であり、小さなシステムの正確なデータの上に構築することができることである。 これらの「実」関数はニューラルネットワークによって数値的に定義される。 また、エントロピーや熱容量などの有限温度熱力学量に対する追加のニューラルネットワークを定義する。 これらは、基底状態のサイト占有の機能または有限温度の平衡サイト占有の機能である。 第1の場合、それらの平衡値は函数の極端点と一致しないが、第2の場合では一致しない。 我々の研究により、熱力学極限における多体系の有限温度特性にアクセスできる。

We introduce a machine-learning density-functional-theory formalism for the spinless Hubbard model in one dimension at both zero and finite temperature. In the zero-temperature case this establishes a one-to-one relation between the site occupation and the total energy, which is then minimised at the ground-state occupation. In contrast, at finite temperature the same relation is defined between the Helmholtz free energy and the equilibrium site occupation. Most importantly, both functionals are semi-local, so that they are independent from the size of the system under investigation and can be constructed over exact data for small systems. These 'exact' functionals are numerically defined by neural networks. We also define additional neural networks for finite-temperature thermodynamical quantities, such as the entropy and heat capacity. These can be either a functional of the ground-state site occupation or of the finite-temperature equilibrium site occupation. In the first case their equilibrium value does not correspond to an extremal point of the functional, while it does in the second case. Our work gives us access to finite-temperature properties of many-body systems in the thermodynamic limit.
翻訳日:2023-04-08 15:50:35 公開日:2021-03-09
# 量子力学の波動関数の現状、あるいは量子力学は私たちに何を言おうとしているのか?

Status of the wave function of Quantum Mechanics, or, What is Quantum Mechanics trying to tell us? ( http://arxiv.org/abs/2103.05504v1 )

ライセンス: Link先を確認
D-M. Cabaret and T. Grandou and E. Perrier(参考訳) 量子力学の波動関数の最も議論されている状態は、認識論的対オントロジカルな対立の観点から議論される。

The most debated status of the wave function of Quantum Mechanics is discussed in the light of the epistemological vs ontological opposition.
翻訳日:2023-04-08 15:50:19 公開日:2021-03-09
# ダイナミックMRイメージングのためのディープマニフォールド学習

Deep Manifold Learning for Dynamic MR Imaging ( http://arxiv.org/abs/2104.01102v1 )

ライセンス: Link先を確認
Ziwen Ke, Zhuo-Xu Cui, Wenqi Huang, Jing Cheng, Sen Jia, Haifeng Wang, Xin Liu, Hairong Zheng, Leslie Ying, Yanjie Zhu, Dong Liang(参考訳) 目的: 動的信号の時間的冗長性を探るため, 非線形多様体上での深層学習法を開発し, 高アンサンプ測定から心臓MRIデータを再構成する。 方法:低ランクテンソル多様体に基づく汎用圧縮センシング(CS)に基づく心臓MR画像再構成をモデル化する。 非線形多様体は動的信号の時間的相関を特徴付けるように設計されている。 反復的な手順は、勾配の計算、勾配の接空間への射影、接空間の多様体への還元を含む多様体上の最適化モデルを解くことで得られる。 多様体上の反復手続きは、mandular-netと呼ばれるニューラルネットワークに展開される。 Manifold-Netは、リフレクション心電図(ECG)付きセグメンテーションbSSFPシークエンスを用いて生体データを用いて訓練される。 結果: 高速加速実験の結果, 提案手法は, 圧縮センシング(CS)法と2つの最先端深層学習法であるDC-CNN, CRNNと比較して, 再現性の向上が得られた。 結論: この研究は、多様体の最適化をニューラルネットワークに展開する最初の研究である。 特に、設計された低位多様体は、動的mrイメージングにおいて低位優先を適用するための新しい技術的経路を提供する。

Purpose: To develop a deep learning method on a nonlinear manifold to explore the temporal redundancy of dynamic signals to reconstruct cardiac MRI data from highly undersampled measurements. Methods: Cardiac MR image reconstruction is modeled as general compressed sensing (CS) based optimization on a low-rank tensor manifold. The nonlinear manifold is designed to characterize the temporal correlation of dynamic signals. Iterative procedures can be obtained by solving the optimization model on the manifold, including gradient calculation, projection of the gradient to tangent space, and retraction of the tangent space to the manifold. The iterative procedures on the manifold are unrolled to a neural network, dubbed as Manifold-Net. The Manifold-Net is trained using in vivo data with a retrospective electrocardiogram (ECG)-gated segmented bSSFP sequence. Results: Experimental results at high accelerations demonstrate that the proposed method can obtain improved reconstruction compared with a compressed sensing (CS) method k-t SLR and two state-of-the-art deep learning-based methods, DC-CNN and CRNN. Conclusion: This work represents the first study unrolling the optimization on manifolds into neural networks. Specifically, the designed low-rank manifold provides a new technical route for applying low-rank priors in dynamic MR imaging.
翻訳日:2023-04-08 15:43:40 公開日:2021-03-09
# von Weizs\"{a}cker の量子力学哲学について

On von Weizs\"{a}cker's philosophy of Quantum Mechanics ( http://arxiv.org/abs/2103.07311v1 )

ライセンス: Link先を確認
Daniel Parrochia(参考訳) ここでは、ドイツの物理学者で哲学者のカール・フリードリヒ・フォン・ヴァイツ(Carl Friedrich von Weizs)の量子力学の再構築プログラムに興味がある。 本稿の主要な部分では、純粋に認識論的、哲学的な質問に限定する。 ドイツの物理学者の理論はしばしばカントに言及して解釈されるが、ほとんどの場合、かなり曖昧な方法(理解のカテゴリ、経験の理論)で解釈される。 我々はもっと正確にする余裕がある。 まず、von Weizs\"{a}cker の根本的代替論(Ur-alternatives)の理論を、超越観念論のカント理論の系統に位置づける。 すると、物理学者は、カントが頼りにしていた古典論理に代えて、あるスピノル群と時空に関連付けられた群の間の局所同型、そして我々がアクセスできる物理的な現実全体を通して、代替物から、量子論理を生成できることを示した。 いくつかの問題を調べた後、最終的にこの視点が情報の量子論にどのようにつながるかを示す。

We are interested here in the program of reconstruction of quantum mechanics of the German physicist and philosopher Carl Friedrich von Weizs\"{a}cker, which still has some supporters today. In the major part of this article, we limit ourselves to examining purely epistemological and philosophical questions. The theory of the German physicist is often interpreted with reference to Kant, but the most of the time in a rather vague way (categories of understanding, theory of experience). We can afford to be more precise. First we situate the theory of fundamental alternatives (or Ur-alternatives) of von Weizs\"{a}cker in the lineage of the Kantian theory of the transcendental Ideal. We then show that the physicist only substitutes for the classical logic, on which Kant relied, a quantum logic allowing to generate, from the alternatives, via the local isomorphism between certain spinor groups and groups linked to space-time, the whole of physical reality to which we have access. After examining some problems, we finally show how this perspective leads to a quantum theory of information.
翻訳日:2023-04-08 15:43:19 公開日:2021-03-09
# スパイキングニューラルネットワークのニューロモルフィックハードウェアへの耐久対応マッピング

Endurance-Aware Mapping of Spiking Neural Networks to Neuromorphic Hardware ( http://arxiv.org/abs/2103.05707v1 )

ライセンス: Link先を確認
Twisha Titirsha, Shihao Song, Anup Das, Jeffrey Krichmar, Nikil Dutt, Nagarajan Kandasamy, Francky Catthoor(参考訳) ニューロモーフィックコンピューティングシステムは、ハードウェアのクロスバーアレイとして高密度かつ低消費電力のシナプスストレージを実装するために、memristorsを採用している。 これらのシステムはスパイキングニューラルネットワーク(SNN)の実行においてエネルギー効率が高い。 縦断クロスバーの長いビット線とワード線が寄生電圧降下の主な原因であり、これは電流非対称性を生じさせる。 回路シミュレーションにより、この非対称性から生じる有意なエンデュアランス変動を示す。 したがって、クリティカルなmemristor(持久力の低いもの)が過剰に利用されると、クロスバーの寿命が減少する可能性がある。 本稿では,機械学習ワークロードのマッピングにおいて,各クロスバーのエンデュアランス変動を取り入れ,高いアクティベーションを持つシナプスが常に高いエンデュアランスを持つmemristorに実装されていることを保証する新しい手法であるespinを提案する。 eSpineは2つのステップで機能します。 まず、Kernighan-Lin Graph Partitioningアルゴリズムを使用して、ワークロードをニューロンとシナプスのクラスタに分割する。 次に、クラスタをタイルにマッピングするためにParticle Swarm Optimization(PSO)のインスタンスを使用し、ワークロード内でのアクティベーションを分析することで、クラスタのシナプスをクロスバーのmemristorに配置する。 位相変化メモリ(PCM)を用いた最新型ニューロモルフィックハードウェアモデルにおけるeSpineの評価を行った。 10のSNNワークロードを使用して、有効寿命を大幅に改善する。

Neuromorphic computing systems are embracing memristors to implement high density and low power synaptic storage as crossbar arrays in hardware. These systems are energy efficient in executing Spiking Neural Networks (SNNs). We observe that long bitlines and wordlines in a memristive crossbar are a major source of parasitic voltage drops, which create current asymmetry. Through circuit simulations, we show the significant endurance variation that results from this asymmetry. Therefore, if the critical memristors (ones with lower endurance) are overutilized, they may lead to a reduction of the crossbar's lifetime. We propose eSpine, a novel technique to improve lifetime by incorporating the endurance variation within each crossbar in mapping machine learning workloads, ensuring that synapses with higher activation are always implemented on memristors with higher endurance, and vice versa. eSpine works in two steps. First, it uses the Kernighan-Lin Graph Partitioning algorithm to partition a workload into clusters of neurons and synapses, where each cluster can fit in a crossbar. Second, it uses an instance of Particle Swarm Optimization (PSO) to map clusters to tiles, where the placement of synapses of a cluster to memristors of a crossbar is performed by analyzing their activation within the workload. We evaluate eSpine for a state-of-the-art neuromorphic hardware model with phase-change memory (PCM)-based memristors. Using 10 SNN workloads, we demonstrate a significant improvement in the effective lifetime.
翻訳日:2023-04-08 15:42:23 公開日:2021-03-09
# 反応座標法による量子熱輸送における強結合効果

Strong coupling effects in quantum thermal transport with the reaction coordinate method ( http://arxiv.org/abs/2103.05670v1 )

ライセンス: Link先を確認
Nicholas Anto-Sztrikacs and Dvira Segal(参考訳) 本稿では,弱い系-バス結合状態を超えて量子熱エネルギー輸送を研究するための半解析的手法を提案する。 本処理は, 反応座標法に基づいて, 再正規化された実効ハミルトニアンモデルである。 非平衡スピン-ボソンモデルに適用した手法では,各環境から集合座標を抽出し,システムに付加して拡張システムを構築する。 追加のハミルトニアンの切断と変換を行った後、その環境に弱結合した再正規化パラメータを持つ効果的な2段階システムを実現し、摂動マルコフ量子マスター方程式を用いてシミュレートすることができる。 提案手法における熱電流特性を他の手法と比較し, 熱電流のターンオーバー挙動などの強いシステムバスシグネチャを系バス結合強度の関数として適切に捉えたことを示す。 さらに, 熱ダイオード効果について検討し, 強いカップリングが弱いカップリング限界に対する整合率を適度に向上することを示した。 ここで開発した効果的なハミルトニアン法は,強結合挙動に関する基本的な知見を提供し,計算学的に経済的である。 本手法の量子熱機械研究への応用が期待される。

We present a semi-analytical approach for studying quantum thermal energy transport beyond the weak system-bath coupling regime. Our treatment, which results in a renormalized, effective Hamiltonian model is based on the reaction coordinate method. In our technique, applied to the nonequilibrium spin-boson model, a collective coordinate is extracted from each environment and added into the system to construct an enlarged system. After performing additional Hamiltonian's truncation and transformation, we attain an effective two-level system with renormalized parameters, which is weakly coupled to its environments, thus can be simulated using a perturbative Markovian quantum master equation approach. We compare the heat current characteristics in our method to other techniques, and demonstrate that we properly capture strong system-bath signatures such as the turnover behavior of the heat current as a function of system-bath coupling strength. We further investigate the thermal diode effect and demonstrate that strong couplings moderately improve the rectification ratio relative to the weak coupling limit. The effective Hamiltonian method that we developed here offers fundamental insight into the strong coupling behavior, and is computationally economic. Applications of the method towards studying quantum thermal machines are anticipated.
翻訳日:2023-04-08 15:41:03 公開日:2021-03-09
# gambit -- バージョン管理システムのためのオープンソースの名前曖昧化ツール

gambit -- An Open Source Name Disambiguation Tool for Version Control Systems ( http://arxiv.org/abs/2103.05666v1 )

ライセンス: Link先を確認
Christoph Gote and Christian Zingg(参考訳) 名前の曖昧さは、バージョン管理システムのデータなど、現実世界のユーザデータを分析する場合、複雑だが非常に関連性の高い問題である。 我々は、名前とメール情報のみに依存するルールベースの曖昧さ回避ツールであるgambitを提案する。 gnome gtk プロジェクトから得られた手作業による地中データに対する類似特性を持つ2つのアルゴリズムの性能評価を行った。 その結果, ガンビットは両アルゴリズムより有意に優れ, F1スコアは0.985であった。

Name disambiguation is a complex but highly relevant challenge whenever analysing real-world user data, such as data from version control systems. We propose gambit, a rule-based disambiguation tool that only relies on name and email information. We evaluate its performance against two commonly used algorithms with similar characteristics on manually disambiguated ground-truth data from the Gnome GTK project. Our results show that gambit significantly outperforms both algorithms, achieving an F1 score of 0.985.
翻訳日:2023-04-08 15:40:44 公開日:2021-03-09
# A$3$DSegNet:未完成のセグメンテーション、アーティファクトリダクション、モダリティトランスフォーメーションのための解剖学的アウェアアーティファクトディコンタングルメントとセグメンテーションネットワーク

A$^3$DSegNet: Anatomy-aware artifact disentanglement and segmentation network for unpaired segmentation, artifact reduction, and modality translation ( http://arxiv.org/abs/2001.00339v3 )

ライセンス: Link先を確認
Yuanyuan Lyu, Haofu Liao, Heqin Zhu, S. Kevin Zhou(参考訳) 脊椎手術計画には椎体の自動分割が必要であり, 術中画像診断法であるコーンビームct (cbct) が広く用いられている。 しかし、cbct画像はノイズ、組織コントラストの低下、金属物の存在などにより品質が低く、人工物が不足しており、手作業で椎骨のセグメンテーションを引き起こしている。 対照的に、脊椎アノテーションを付加した人工物のない高品質なCT画像が豊富に存在する。 CBCT椎体分割モデルの構築には, アノテーションを付加した画像が有用である。 CBCTとCTの領域とアーティファクトのギャップを克服するためには, 椎骨分割, アーティファクトリダクション, モダリティトランスフォーメーションの3つの不均一な課題に対処する必要がある。 そこで本研究では,これら3つの課題の知識共有を積極的に活用し,学習を促進する新しい解剖学的アーティファクト・アンタグルメント・セグメンテーション・ネットワーク(a$^3$dsegnet)を提案する。 具体的には、cbctとct画像のランダム対を入力とし、不連続な潜在層から異なる復号の組み合わせを介して合成とセグメンテーションを操作する。 そして、合成された画像と分割された脊椎の間で様々な形式の整合性を提案することにより、ペア化された(解剖学的に同一)データなしで学習を行う。 最後に、2Dスライスを積み重ねて3Dネットワークを構築し、最終的な3Dセグメンテーション結果を得る。 多数の臨床CBCT (21,364) とCT (17,089) 画像において, 提案したA$^3$DSegNetは, 各タスクに対して独立に訓練された最先端の競合手法よりも有意に優れており, 顕著な結果として3次元CBCT椎体分節のDice係数は0.926である。

Spinal surgery planning necessitates automatic segmentation of vertebrae in cone-beam computed tomography (CBCT), an intraoperative imaging modality that is widely used in intervention. However, CBCT images are of low-quality and artifact-laden due to noise, poor tissue contrast, and the presence of metallic objects, causing vertebra segmentation, even manually, a demanding task. In contrast, there exists a wealth of artifact-free, high quality CT images with vertebra annotations. This motivates us to build a CBCT vertebra segmentation model using unpaired CT images with annotations. To overcome the domain and artifact gaps between CBCT and CT, it is a must to address the three heterogeneous tasks of vertebra segmentation, artifact reduction and modality translation all together. To this, we propose a novel anatomy-aware artifact disentanglement and segmentation network (A$^3$DSegNet) that intensively leverages knowledge sharing of these three tasks to promote learning. Specifically, it takes a random pair of CBCT and CT images as the input and manipulates the synthesis and segmentation via different decoding combinations from the disentangled latent layers. Then, by proposing various forms of consistency among the synthesized images and among segmented vertebrae, the learning is achieved without paired (i.e., anatomically identical) data. Finally, we stack 2D slices together and build 3D networks on top to obtain final 3D segmentation result. Extensive experiments on a large number of clinical CBCT (21,364) and CT (17,089) images show that the proposed A$^3$DSegNet performs significantly better than state-of-the-art competing methods trained independently for each task and, remarkably, it achieves an average Dice coefficient of 0.926 for unpaired 3D CBCT vertebra segmentation.
翻訳日:2023-01-16 04:29:41 公開日:2021-03-09
# 深層学習によるワイヤレスフィンガープリント : コンバウンディング要因の影響

Wireless Fingerprinting via Deep Learning: The Impact of Confounding Factors ( http://arxiv.org/abs/2002.10791v3 )

ライセンス: Link先を確認
Metehan Cekic, Soorya Gopalakrishnan, Upamanyu Madhow(参考訳) 同じプロトコルを使って、全く同じメッセージを送信する2つの無線送信機を区別できますか? そうする機会は、送信機間の微妙な非線形な変動によって生じる。 これらの効果は明示的にモデル化することが困難であるため、受信機で複雑なベースバンド信号を入力する複合値深層ニューラルネットワーク(dnn)を用いて学習装置の指紋を調べる。 このような指紋は、時間的変動や無線チャネルの変動により、時間と場所間での分布シフトにロバストにできるかどうかを問う。 本稿では,dnnが学習しようとする非線形デバイス固有の特徴よりも,これらの強結合特徴を積極的に学習することを避けない限り,その特徴を学習できることを指摘する。 本稿では,WiFi および ADS-B プロトコルからのデータを用いて,これらの共起要因の一般化を促進する戦略を提案し,評価する。 結論として,dnnトレーニングは明示的な信号モデルを必要としないという利点があるが,学習を捉えたい効果に集中させるためには,重要なモデリングの洞察が必要である。

Can we distinguish between two wireless transmitters sending exactly the same message, using the same protocol? The opportunity for doing so arises due to subtle nonlinear variations across transmitters, even those made by the same manufacturer. Since these effects are difficult to model explicitly, we investigate learning device fingerprints using complex-valued deep neural networks (DNNs) that take as input the complex baseband signal at the receiver. We ask whether such fingerprints can be made robust to distribution shifts across time and locations due to clock drift and variations in the wireless channel. In this paper, we point out that, unless proactively discouraged from doing so, DNNs learn these strong confounding features rather than the nonlinear device-specific characteristics that we seek to learn. We propose and evaluate strategies, based on augmentation and estimation, to promote generalization across realizations of these confounding factors, using data from WiFi and ADS-B protocols. We conclude that, while DNN training has the advantage of not requiring explicit signal models, significant modeling insights are required to focus the learning on the effects we wish to capture.
翻訳日:2022-12-28 21:10:48 公開日:2021-03-09
# ソーシャルメディアの増幅:2009-2020年におけるTwitter上の150言語以上の時間的・社会的伝染動態の測定

The growing amplification of social media: Measuring temporal and social contagion dynamics for over 150 languages on Twitter for 2009-2020 ( http://arxiv.org/abs/2003.03667v8 )

ライセンス: Link先を確認
Thayer Alshaabi, David R. Dewhurst, Joshua R. Minot, Michael V. Arnold, Jane L. Adams, Christopher M. Danforth, and Peter Sheridan Dodds(参考訳) 2009年初めから2019年末にかけての1180億以上のメッセージのデータセットから,twitter上での1日当たり150以上の言語の使用状況を特定し,調査する。 8つの言語が全ツイートの80%を占めており、英語、日本語、スペイン語、ポルトガル語が最も有力である。 各言語の社会的拡散を時間とともに定量化するために、リツイートとオーガニックメッセージのバランスである「伝染率」を計算する。 twitterの最も一般的な言語では、新しいコンテンツを共有するのではなく、リツイートする傾向が増えていることが分かっています。 2019年末までには、英語とスペイン語を含む上位30言語の半分の感染率は1言語を超えていた。 2019年、平均日数比率が最も高い上位5言語はタイ語(7.3)、ヒンディー語、タミル語、ウルドゥ語、カタルーニャ語、下位5言語はロシア語、スウェーデン語、エスペラント語、セブアーノ語、フィンランド語(0.26)であった。 さらに、時間とともに、ほとんどの共通言語における感染率は、希少言語よりも強く成長していることを示す。

Working from a dataset of 118 billion messages running from the start of 2009 to the end of 2019, we identify and explore the relative daily use of over 150 languages on Twitter. We find that eight languages comprise 80% of all tweets, with English, Japanese, Spanish, and Portuguese being the most dominant. To quantify social spreading in each language over time, we compute the 'contagion ratio': The balance of retweets to organic messages. We find that for the most common languages on Twitter there is a growing tendency, though not universal, to retweet rather than share new content. By the end of 2019, the contagion ratios for half of the top 30 languages, including English and Spanish, had reached above 1 -- the naive contagion threshold. In 2019, the top 5 languages with the highest average daily ratios were, in order, Thai (7.3), Hindi, Tamil, Urdu, and Catalan, while the bottom 5 were Russian, Swedish, Esperanto, Cebuano, and Finnish (0.26). Further, we show that over time, the contagion ratios for most common languages are growing more strongly than those of rare languages.
翻訳日:2022-12-25 19:21:39 公開日:2021-03-09
# Twitter上のアラビア語攻撃言語:分析と実験

Arabic Offensive Language on Twitter: Analysis and Experiments ( http://arxiv.org/abs/2004.02192v3 )

ライセンス: Link先を確認
Hamdy Mubarak, Ammar Rashed, Kareem Darwish, Younes Samih, Ahmed Abdelali(参考訳) twitter上の攻撃的言語の検出には、いじめの検出や予測から偏光の測定まで、多くのアプリケーションがある。 本稿では,アラビア語の攻撃的ツイートデータセットの構築に焦点をあてる。 本稿では,話題や方言,対象に偏らないデータセットを構築する手法を提案する。 これまでで最大のアラビア語データセットを、下品さと憎しみのスピーチのための特別なタグで作成しました。 我々は、データセットを徹底的に分析し、どのトピック、方言、性別が最も攻撃的ツイートに関連しているか、アラビア語話者がどのように攻撃的言語を使用しているかを決定する。 最後に、SOTA技術を用いてデータセット上で強い結果(F1 = 83.2)を生成するために多くの実験を行う。

Detecting offensive language on Twitter has many applications ranging from detecting/predicting bullying to measuring polarization. In this paper, we focus on building a large Arabic offensive tweet dataset. We introduce a method for building a dataset that is not biased by topic, dialect, or target. We produce the largest Arabic dataset to date with special tags for vulgarity and hate speech. We thoroughly analyze the dataset to determine which topics, dialects, and gender are most associated with offensive tweets and how Arabic speakers use offensive language. Lastly, we conduct many experiments to produce strong results (F1 = 83.2) on the dataset using SOTA techniques.
翻訳日:2022-12-16 12:43:26 公開日:2021-03-09
# pagerankとk-meansクラスタリングアルゴリズム

PageRank and The K-Means Clustering Algorithm ( http://arxiv.org/abs/2005.04774v3 )

ライセンス: Link先を確認
Mustafa Hajij, Eyad Said, Robert Todd(参考訳) 我々はPageRankベクトルを用いて$k$-meansクラスタリングアルゴリズムを方向グラフと非方向グラフに一般化する。 我々は、pagerankや他の集中度指標を、与えられたグラフ内のノードの集中度をロバストに計算するために使用できることを実証する。 さらに、我々の手法を計量空間に一般化し、点雲や三角メッシュなどの他の領域に適用する方法を示す。

We utilize the PageRank vector to generalize the $k$-means clustering algorithm to directed and undirected graphs. We demonstrate that PageRank and other centrality measures can be used in our setting to robustly compute centrality of nodes in a given graph. Furthermore, we show how our method can be generalized to metric spaces and apply it to other domains such as point clouds and triangulated meshes
翻訳日:2022-12-05 01:48:38 公開日:2021-03-09
# 深層生成モデルを用いたデータ駆動トポロジ設計

Data-driven topology design using a deep generative model ( http://arxiv.org/abs/2006.04559v3 )

ライセンス: Link先を確認
Shintaro Yamasaki and Kentaro Yaji and Kikuo Fujita(参考訳) 本稿では,データ駆動トポロジ設計と呼ばれる,感度のない多目的構造設計手法を提案する。 設計領域において、最初に与えられた材料分布から高性能な材料分布を得る計画である。 その基本的な考え方は、以下のプロセスを繰り返すことである。 一 エリート性に応じて材料分布のデータセットから材料分布を選択すること。 (ii)選択されたエリート物質分布を訓練した深層生成モデルを用いた新しい物質分布の生成と, (iii) 生成された材料分布をデータセットにマージすること。 深層生成モデルの性質から, 生成した物質分布は多様であり, 訓練データの特徴, すなわち, エリート物質分布を継承する。 そのため, 生成物質分布のいくつかは現在のエリート物質分布よりも優れており, 生成物質分布とデータセットを融合することにより, 新たに選択したエリート物質分布の性能が向上することが期待される。 上記のプロセスを繰り返すことでさらに性能が向上する。 データ駆動トポロジー設計の有用性を数値例で示す。

In this paper, we propose a sensitivity-free and multi-objective structural design methodology called data-driven topology design. It is schemed to obtain high-performance material distributions from initially given material distributions in a given design domain. Its basic idea is to iterate the following processes: (i) selecting material distributions from a dataset of material distributions according to eliteness, (ii) generating new material distributions using a deep generative model trained with the selected elite material distributions, and (iii) merging the generated material distributions with the dataset. Because of the nature of a deep generative model, the generated material distributions are diverse and inherit features of the training data, that is, the elite material distributions. Therefore, it is expected that some of the generated material distributions are superior to the current elite material distributions, and by merging the generated material distributions with the dataset, the performances of the newly selected elite material distributions are improved. The performances are further improved by iterating the above processes. The usefulness of data-driven topology design is demonstrated through numerical examples.
翻訳日:2022-11-24 02:38:04 公開日:2021-03-09
# reskd: 残留誘導型知識蒸留

ResKD: Residual-Guided Knowledge Distillation ( http://arxiv.org/abs/2006.04719v4 )

ライセンス: Link先を確認
Xuewei Li, Songyuan Li, Bourahla Omar, Fei Wu, and Xi Li(参考訳) 重質な教師ネットワークから軽量な学生ネットワークへ知識を伝達することを目的とした知識蒸留が,ニューラルネットワークを圧縮するための有望な手法として登場した。 しかし、重質な教師と軽質な生徒の間には容量差があるため、その間には大きな性能差がある。 本稿では,教師と学生の知識ギャップ,あるいは残余を生かし,より軽量な学生を育成するための指導として,新しい光による知識蒸留(res-student)を考察する。 我々は,学生と学生を融合して,学生の誤りを修正した新しい学生とする。 このような残留誘導プロセスは、ユーザが精度とコストのバランスをとるまで繰り返すことができる。 提案手法では,各サンプルに対してどのres-studentsが不要かを判断し,計算コストを削減できるサンプル適応戦略を提案する。 実験結果から,CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNetデータセット上での教師の計算コストの18.04$\%$, 23.14$\%$, 53.59$\%$, 56.86$\%$の競争性能が得られた。 最後に,本手法の理論的および経験的分析を徹底的に行う。

Knowledge distillation, aimed at transferring the knowledge from a heavy teacher network to a lightweight student network, has emerged as a promising technique for compressing neural networks. However, due to the capacity gap between the heavy teacher and the lightweight student, there still exists a significant performance gap between them. In this paper, we see knowledge distillation in a fresh light, using the knowledge gap, or the residual, between a teacher and a student as guidance to train a much more lightweight student, called a res-student. We combine the student and the res-student into a new student, where the res-student rectifies the errors of the former student. Such a residual-guided process can be repeated until the user strikes the balance between accuracy and cost. At inference time, we propose a sample-adaptive strategy to decide which res-students are not necessary for each sample, which can save computational cost. Experimental results show that we achieve competitive performance with 18.04$\%$, 23.14$\%$, 53.59$\%$, and 56.86$\%$ of the teachers' computational costs on the CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet datasets. Finally, we do thorough theoretical and empirical analysis for our method.
翻訳日:2022-11-24 02:11:05 公開日:2021-03-09
# グラフニューラルネットワークの基盤とその実践的意味について

On the Bottleneck of Graph Neural Networks and its Practical Implications ( http://arxiv.org/abs/2006.05205v4 )

ライセンス: Link先を確認
Uri Alon, Eran Yahav(参考訳) Gori et al. (2005) と Scarselli et al. (2008) によるグラフニューラルネットワーク (GNN) の提案以来、GNNのトレーニングにおける大きな問題の1つは、グラフ内の遠いノード間での情報伝達に苦労したことである。 我々は、gnnが長いパスでメッセージを集約する際にボトルネックになりやすいという、この問題に対する新しい説明を提案している。 このボトルネックは指数関数的に増加する情報を固定サイズのベクトルに過度に振る舞う。 その結果、GNNは遠く離れたノードから発せられるメッセージの伝播に失敗し、予測タスクが長距離通信に依存する場合、性能が低下する。 In this paper, we highlight the inherent problem of over-squashing in GNNs: we demonstrate that the bottleneck hinders popular GNNs from fitting long-range signals in the training data; we further show that GNNs that absorb incoming edges equally, such as GCN and GIN, are more susceptible to over-squashing than GAT and GGNN; finally, we show that prior work, which extensively tuned GNN models of long-range problems, suffers from over-squashing, and that breaking the bottleneck improves their state-of-the-art results without any tuning or additional weights. 私たちのコードはhttps://github.com/tech-srl/bottleneck/で入手できる。

Since the proposal of the graph neural network (GNN) by Gori et al. (2005) and Scarselli et al. (2008), one of the major problems in training GNNs was their struggle to propagate information between distant nodes in the graph. We propose a new explanation for this problem: GNNs are susceptible to a bottleneck when aggregating messages across a long path. This bottleneck causes the over-squashing of exponentially growing information into fixed-size vectors. As a result, GNNs fail to propagate messages originating from distant nodes and perform poorly when the prediction task depends on long-range interaction. In this paper, we highlight the inherent problem of over-squashing in GNNs: we demonstrate that the bottleneck hinders popular GNNs from fitting long-range signals in the training data; we further show that GNNs that absorb incoming edges equally, such as GCN and GIN, are more susceptible to over-squashing than GAT and GGNN; finally, we show that prior work, which extensively tuned GNN models of long-range problems, suffers from over-squashing, and that breaking the bottleneck improves their state-of-the-art results without any tuning or additional weights. Our code is available at https://github.com/tech-srl/bottleneck/ .
翻訳日:2022-11-23 13:51:44 公開日:2021-03-09
# ゼロショット学習のための単純かつ効果的な局所化属性表現

Simple and effective localized attribute representations for zero-shot learning ( http://arxiv.org/abs/2006.05938v3 )

ライセンス: Link先を確認
Shiqi Yang, Kai Wang, Luis Herranz, Joost van de Weijer(参考訳) Zero-shot Learning (ZSL) は、目に見えないクラスとイメージを区別することを目的としている。 最近の論文では、特徴抽出器の微調整とともに局所的特徴の重要性を示し、識別可能かつ伝達可能な特徴を得た。 しかし、これらの方法は視覚空間において明示的な局所化を行うために複雑な注意または部分検出モジュールを必要とする。 対照的に,本稿では,局所化が暗黙的に行われる単純なパイプラインを用いて,意味・属性空間における局所化表現を提案する。 属性表現に着目して,本手法はCUBおよびSUNデータセット上での最先端性能と,AWA2データセット上での競合性を実現し,視覚空間における明示的な局所化を伴うより複雑な手法よりも優れていることを示す。 本手法は,ゼロショット学習のための新しいベースラインとして使用できるため,容易に実装できる。 さらに、ローカライズされた表現は属性固有のヒートマップとして解釈可能である。

Zero-shot learning (ZSL) aims to discriminate images from unseen classes by exploiting relations to seen classes via their semantic descriptions. Some recent papers have shown the importance of localized features together with fine-tuning the feature extractor to obtain discriminative and transferable features. However, these methods require complex attention or part detection modules to perform explicit localization in the visual space. In contrast, in this paper we propose localizing representations in the semantic/attribute space, with a simple but effective pipeline where localization is implicit. Focusing on attribute representations, we show that our method obtains state-of-the-art performance on CUB and SUN datasets, and also achieves competitive results on AWA2 dataset, outperforming generally more complex methods with explicit localization in the visual space. Our method can be implemented easily, which can be used as a new baseline for zero shot-learning. In addition, our localized representations are highly interpretable as attribute-specific heatmaps.
翻訳日:2022-11-23 06:00:27 公開日:2021-03-09
# 逆景観遺伝学のためのグラフ学習

Graph Learning for Inverse Landscape Genetics ( http://arxiv.org/abs/2006.12334v3 )

ライセンス: Link先を確認
Prathamesh Dharangutte, Christopher Musco(参考訳) グラフのノードの数値データから未知のグラフエッジを推測する問題は、機械学習全体で様々な形で見られる。 本研究では,不均質な景観に生息する生物同士の遺伝的類似性を,その景観における分散の容易さをエンコードする重み付きグラフによって説明する,"emph{landscape genetics}"という分野において発生するこの問題を考察する。 我々の主な貢献は、異なる場所(グラフノード)における遺伝的類似性の測定からこのグラフを推定するタスクである「emph{inverse landscape genetics」の効率的なアルゴリズムである。 逆ランドスケープ遺伝学は生物多様性と長期的な種生存を脅かす種分散の障害を発見するのに重要である。 特に、気候変動と人間の発達の影響を研究するために広く使われている。 グラフ<emph{ effective resistances} (mcrae 2006) を用いて生物が分散する影響のある研究について考察し, 遺伝的類似性データから得られるこれらの抵抗のノイズ測定からグラフエッジを推定する手法に逆ランドスケープ遺伝的問題を還元する。 ソーシャルネットワークにおける学習エッジに関するHoskinsらによるNeurIPS 2018の成果に基づいて,この問題を解決するための効率的な一階最適化手法を開発した。 非凸性にもかかわらず、合成および実際の遺伝データに関する実験は、我々の手法が高速で信頼性の高い収束を提供し、この分野で使われている既存のヒューリスティックスを著しく上回っていることを証明している。 研究者に強力で汎用的なアルゴリズムツールを提供することで、我々の研究が景観遺伝学の研究の加速にプラスの影響を与えることを願っています。

The problem of inferring unknown graph edges from numerical data at a graph's nodes appears in many forms across machine learning. We study a version of this problem that arises in the field of \emph{landscape genetics}, where genetic similarity between organisms living in a heterogeneous landscape is explained by a weighted graph that encodes the ease of dispersal through that landscape. Our main contribution is an efficient algorithm for \emph{inverse landscape genetics}, which is the task of inferring this graph from measurements of genetic similarity at different locations (graph nodes). Inverse landscape genetics is important in discovering impediments to species dispersal that threaten biodiversity and long-term species survival. In particular, it is widely used to study the effects of climate change and human development. Drawing on influential work that models organism dispersal using graph \emph{effective resistances} (McRae 2006), we reduce the inverse landscape genetics problem to that of inferring graph edges from noisy measurements of these resistances, which can be obtained from genetic similarity data. Building on the NeurIPS 2018 work of Hoskins et al. 2018 on learning edges in social networks, we develop an efficient first-order optimization method for solving this problem. Despite its non-convex nature, experiments on synthetic and real genetic data establish that our method provides fast and reliable convergence, significantly outperforming existing heuristics used in the field. By providing researchers with a powerful, general purpose algorithmic tool, we hope our work will have a positive impact on accelerating work on landscape genetics.
翻訳日:2022-11-18 05:02:22 公開日:2021-03-09
# ベイズ加法ベクトル自己回帰木モデルにおける推論

Inference in Bayesian Additive Vector Autoregressive Tree Models ( http://arxiv.org/abs/2006.16333v2 )

ライセンス: Link先を確認
Florian Huber and Luca Rossini(参考訳) ベクトル自己回帰(VAR)モデルは内因性変数とラグの間の線形性を仮定する。 この仮定は過度に制限され、予測精度に有害な影響を与える可能性がある。 解法として、VARとベイジアン加法回帰木(BART)モデルの組み合わせを提案する。 ベイズ加法的ベクトル自己回帰木(BAVART)モデルは、内在変数と共変変数の間の任意の非線形関係を研究者から多くを入力することなく捉えることができる。 ヘテロシedasticityの制御は正確な密度予測の鍵となるため,誤差の確率的ボラティリティを許容する。 モデルは2つのデータセットに適用します。 第一の応用は、BAVARTモデルが米国の短期金利構造を高い競争力で予測することを示している。 第2のアプリケーションでは、不確実性が経済に与える影響を調べるために、適度なサイズのユーロ圏データセットを用いてモデルを推定する。

Vector autoregressive (VAR) models assume linearity between the endogenous variables and their lags. This assumption might be overly restrictive and could have a deleterious impact on forecasting accuracy. As a solution, we propose combining VAR with Bayesian additive regression tree (BART) models. The resulting Bayesian additive vector autoregressive tree (BAVART) model is capable of capturing arbitrary non-linear relations between the endogenous variables and the covariates without much input from the researcher. Since controlling for heteroscedasticity is key for producing precise density forecasts, our model allows for stochastic volatility in the errors. We apply our model to two datasets. The first application shows that the BAVART model yields highly competitive forecasts of the US term structure of interest rates. In a second application, we estimate our model using a moderately sized Eurozone dataset to investigate the dynamic effects of uncertainty on the economy.
翻訳日:2022-11-15 15:16:06 公開日:2021-03-09
# データに基づく熱力学の深層学習

Deep learning of thermodynamics-aware reduced-order models from data ( http://arxiv.org/abs/2007.03758v2 )

ライセンス: Link先を確認
Quercus Hernandez, Alberto Badias, David Gonzalez, Francisco Chinesta, Elias Cueto(参考訳) 本稿では,大規模離散物理システムの関連潜在変数を学習し,熱力学的に一貫性のある深層ニューラルネットワークを用いて時間発展を予測するアルゴリズムを提案する。 本手法はスパースオートエンコーダに依拠し, 符号化空間次元の知識を必要とせず, スパース潜在変数の集合に全順序モデルの次元を還元する。 次に、第2のニューラルネットワークをトレーニングして、削減された物理変数の経時構造を学び、その時間の進化を、いわゆる構造保存ニューラルネットワークで予測する。 このデータベースの積分器は、システムの総エネルギーとエントロピーの不等式を保存することが保証されており、保守系と散逸系の両方に適用できる。 積分されたパスは元の全次元多様体にデコードされ、基底真理解と比較することができる。 この方法は流体力学と固体力学の2つの例で検証される。

We present an algorithm to learn the relevant latent variables of a large-scale discretized physical system and predict its time evolution using thermodynamically-consistent deep neural networks. Our method relies on sparse autoencoders, which reduce the dimensionality of the full order model to a set of sparse latent variables with no prior knowledge of the coded space dimensionality. Then, a second neural network is trained to learn the metriplectic structure of those reduced physical variables and predict its time evolution with a so-called structure-preserving neural network. This data-based integrator is guaranteed to conserve the total energy of the system and the entropy inequality, and can be applied to both conservative and dissipative systems. The integrated paths can then be decoded to the original full-dimensional manifold and be compared to the ground truth solution. This method is tested with two examples applied to fluid and solid mechanics.
翻訳日:2022-11-14 05:10:49 公開日:2021-03-09
# ドメイン一般化のための新しいドメイン生成の学習

Learning to Generate Novel Domains for Domain Generalization ( http://arxiv.org/abs/2007.03304v3 )

ライセンス: Link先を確認
Kaiyang Zhou, Yongxin Yang, Timothy Hospedales, Tao Xiang(参考訳) 本稿では、複数のソースドメインから学習するタスクであるドメイン一般化(DG)に焦点を当て、未知のドメインによく一般化するモデルを提案する。 DGの主な課題は、利用可能なソースドメインがしばしば限られた多様性を示し、モデルを一般化する能力を妨げることである。 したがって,データ生成器を用いて疑似ノベル領域からのデータを合成し,ソース領域を増強する。 これにより、利用可能なトレーニングドメインの多様性が明示的に増加し、より一般化可能なモデルがもたらされる。 生成器を訓練するために、最適輸送を用いてソースと合成擬似ノーベル領域間の分布のばらつきをモデル化し、そのばらつきを最大化する。 セマンティクスが合成データに保持されることを保証するため、我々はさらに、ジェネレータにサイクル一貫性と分類損失を課す。 我々の手法であるL2A-OT(Learning to Augment by Optimal Transport)は,4つのベンチマークデータセット上で現在最先端のDG法より優れている。

This paper focuses on domain generalization (DG), the task of learning from multiple source domains a model that generalizes well to unseen domains. A main challenge for DG is that the available source domains often exhibit limited diversity, hampering the model's ability to learn to generalize. We therefore employ a data generator to synthesize data from pseudo-novel domains to augment the source domains. This explicitly increases the diversity of available training domains and leads to a more generalizable model. To train the generator, we model the distribution divergence between source and synthesized pseudo-novel domains using optimal transport, and maximize the divergence. To ensure that semantics are preserved in the synthesized data, we further impose cycle-consistency and classification losses on the generator. Our method, L2A-OT (Learning to Augment by Optimal Transport) outperforms current state-of-the-art DG methods on four benchmark datasets.
翻訳日:2022-11-12 19:59:51 公開日:2021-03-09
# 神経放射線学報告に基づく画像データセットのラベリング : 検証研究

Labelling imaging datasets on the basis of neuroradiology reports: a validation study ( http://arxiv.org/abs/2007.04226v5 )

ライセンス: Link先を確認
David A. Wood, Sina Kafiabadi, Aisha Al Busaidi, Emily Guilhem, Jeremy Lynch, Matthew Townend, Antanas Montvila, Juveria Siddiqui, Naveen Gadapa, Matthew Benger, Gareth Barker, Sebastian Ourselin, James H. Cole, Thomas C. Booth(参考訳) 自然言語処理(NLP)は、コンピュータビジョン応用のための病院規模の神経放射線学磁気共鳴画像(MRI)データセットのラベル付けを自動化する手段として、公約を示す。 しかし、これまでは、画像ラベルと比較してレポートラベルの正確性を決定することや、非スペシャリストラベルラーの性能を調べることなど、このアプローチの有効性に関する詳細な調査は行われていない。 本研究では,深層学習に基づく神経放射線学レポート分類器の開発プロジェクトの一環として,5000以上のmri神経放射線学レポートをラベル付けした神経放射線学者のチームの経験について述べる。 我々の経験では、レポートのみからのイメージにバイナリラベル(通常か異常か)を割り当てることは極めて正確である。 しかし、二項ラベルとは対照的に、より粒度の高いラベルの精度はカテゴリに依存しており、この相違の理由を強調する。 また,非専門家によるトレーニングレポートのラベル付けを行うと,下流モデルの性能が低下することを示す。 他の研究者が研究を加速するために、我々は洗練された異常定義とラベリングルールを利用可能にするとともに、このプロセスを合理化するための簡単なラジオグラフィーレポートラベリングアプリを作成しました。

Natural language processing (NLP) shows promise as a means to automate the labelling of hospital-scale neuroradiology magnetic resonance imaging (MRI) datasets for computer vision applications. To date, however, there has been no thorough investigation into the validity of this approach, including determining the accuracy of report labels compared to image labels as well as examining the performance of non-specialist labellers. In this work, we draw on the experience of a team of neuroradiologists who labelled over 5000 MRI neuroradiology reports as part of a project to build a dedicated deep learning-based neuroradiology report classifier. We show that, in our experience, assigning binary labels (i.e. normal vs abnormal) to images from reports alone is highly accurate. In contrast to the binary labels, however, the accuracy of more granular labelling is dependent on the category, and we highlight reasons for this discrepancy. We also show that downstream model performance is reduced when labelling of training reports is performed by a non-specialist. To allow other researchers to accelerate their research, we make our refined abnormality definitions and labelling rules available, as well as our easy-to-use radiology report labelling app which helps streamline this process.
翻訳日:2022-11-12 13:32:24 公開日:2021-03-09
# 離散分布の量子対古典的学習性について

On the Quantum versus Classical Learnability of Discrete Distributions ( http://arxiv.org/abs/2007.14451v2 )

ライセンス: Link先を確認
Ryan Sweke, Jean-Pierre Seifert, Dominik Hangleiter and Jens Eisert(参考訳) 本稿では,古典的および量子的学習者の生成モデルに対する比較力について,確率的近似(PAC)フレームワークを用いて検討する。 より具体的には、いくつかの未知の離散確率分布から与えられたサンプルは、高い確率で出力され、元の分布のよい近似から新しいサンプルを生成する効率的なアルゴリズムである。 我々の第一の結果は離散確率分布のクラスを明示的に構成することであり、決定的ディフィー・ヘルマン仮定の下では、古典的生成モデリングアルゴリズムによって学習できるが、効率的な量子学習器を構築することはできない。 この分布のクラスは、量子学習者が古典的な学習アルゴリズムに対して証明可能な優位性を示す生成的モデリング問題の具体例を提供する。 さらに,古典的生成モデルによるハードネス効果の証明手法と,ブール関数のpac学習可能性と離散確率分布のpac学習可能性との関係について検討した。

Here we study the comparative power of classical and quantum learners for generative modelling within the Probably Approximately Correct (PAC) framework. More specifically we consider the following task: Given samples from some unknown discrete probability distribution, output with high probability an efficient algorithm for generating new samples from a good approximation of the original distribution. Our primary result is the explicit construction of a class of discrete probability distributions which, under the decisional Diffie-Hellman assumption, is provably not efficiently PAC learnable by a classical generative modelling algorithm, but for which we construct an efficient quantum learner. This class of distributions therefore provides a concrete example of a generative modelling problem for which quantum learners exhibit a provable advantage over classical learning algorithms. In addition, we discuss techniques for proving classical generative modelling hardness results, as well as the relationship between the PAC learnability of Boolean functions and the PAC learnability of discrete probability distributions.
翻訳日:2022-11-06 03:03:26 公開日:2021-03-09
# マクロ経済データ変換が重要

Macroeconomic Data Transformations Matter ( http://arxiv.org/abs/2008.01714v2 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Maxime Leroux, Dalibor Stevanovic, St\'ephane Surprenant(参考訳) 低次元の線形回帰では、予測子の線形変換/結合を考えると予測は変化しない。 しかし、予測技術が縮小または非線形を使用する場合、そうする。 これはまさに機械学習(ML)マクロ経済予測環境のファブリックである。 データの事前処理は、MLアルゴリズムに埋め込まれた正規化(明示的または暗黙的)の変更に変換される。 古いトランスフォーメーションをレビューし、新しいものを提案し、そのメリットを実証的に評価します。 従来の因子はほとんど常に予測因子として含めるべきであり、データの移動平均回転は様々な予測対象に対して重要な利益をもたらす可能性がある。 また,olsを用いた場合,平均成長速度の予測は別個の地平線予測と等価であるが,正則化や非パラメトリック非線形性が関与する場合,後者は前者を大幅に改善することができる。

In a low-dimensional linear regression setup, considering linear transformations/combinations of predictors does not alter predictions. However, when the forecasting technology either uses shrinkage or is nonlinear, it does. This is precisely the fabric of the machine learning (ML) macroeconomic forecasting environment. Pre-processing of the data translates to an alteration of the regularization -- explicit or implicit -- embedded in ML algorithms. We review old transformations and propose new ones, then empirically evaluate their merits in a substantial pseudo-out-sample exercise. It is found that traditional factors should almost always be included as predictors and moving average rotations of the data can provide important gains for various forecasting targets. Also, we note that while predicting directly the average growth rate is equivalent to averaging separate horizon forecasts when using OLS-based techniques, the latter can substantially improve on the former when regularization and/or nonparametric nonlinearities are involved.
翻訳日:2022-11-03 01:08:06 公開日:2021-03-09
# 変分量子機械学習モデルの表現力に及ぼすデータ符号化の影響

The effect of data encoding on the expressive power of variational quantum machine learning models ( http://arxiv.org/abs/2008.08605v2 )

ライセンス: Link先を確認
Maria Schuld, Ryan Sweke, Johannes Jakob Meyer(参考訳) 量子コンピュータは、パラメトリック量子回路をデータ入力を予測にマッピングするモデルとして扱うことで教師あり学習に使用できる。 このアプローチの実際的意義を調べるために多くの研究がなされているが、これらのモデルの多くの重要な理論的性質はいまだに不明である。 本稿では,データをモデルにエンコードする手法が関数近似器としてのパラメトリス量子回路の表現力に与える影響について検討する。 本研究では,量子モデルをデータ内の部分フーリエ級数として記述し,その周波数は回路内のゲートを符号化するデータの性質によって決定されることを示す。 ゲートを複数回エンコードする単純なデータを繰り返すことで、量子モデルはよりリッチな周波数スペクトルにアクセスできるようになる。 フーリエ係数のすべての可能な集合を実現できる量子モデルが存在することを示し、従って、アクセス可能な周波数スペクトルが漸近的に十分リッチであれば、そのようなモデルは普遍関数近似器となる。

Quantum computers can be used for supervised learning by treating parametrised quantum circuits as models that map data inputs to predictions. While a lot of work has been done to investigate practical implications of this approach, many important theoretical properties of these models remain unknown. Here we investigate how the strategy with which data is encoded into the model influences the expressive power of parametrised quantum circuits as function approximators. We show that one can naturally write a quantum model as a partial Fourier series in the data, where the accessible frequencies are determined by the nature of the data encoding gates in the circuit. By repeating simple data encoding gates multiple times, quantum models can access increasingly rich frequency spectra. We show that there exist quantum models which can realise all possible sets of Fourier coefficients, and therefore, if the accessible frequency spectrum is asymptotically rich enough, such models are universal function approximators.
翻訳日:2022-10-27 12:27:42 公開日:2021-03-09
# モデルの勾配多様性を低減した半教師付き連合学習の改善

Improving Semi-supervised Federated Learning by Reducing the Gradient Diversity of Models ( http://arxiv.org/abs/2008.11364v2 )

ライセンス: Link先を確認
Zhengming Zhang, Yaoqing Yang, Zhewei Yao, Yujun Yan, Joseph E. Gonzalez, Michael W. Mahoney(参考訳) Federated Learning(FL)は、ユーザのプライバシを維持しながらモバイルデバイスのコンピューティングパワーを使用する、有望な方法である。 しかし、FLでの現在の作業は、ユーザーがデバイスに地味なラベルを持っているという非現実的な仮定と、サーバがデータもラベルも持たないことを仮定している。 本研究では,ユーザがラベル付きデータしか持たず,サーバにはラベル付きデータがあり,ラベル付きデータの量はラベル付きデータの量より小さいという,より現実的なシナリオを検討する。 我々はこの学習問題を半教師付き連合学習(SSFL)と呼ぶ。 SSFLの場合、テスト精度に影響を与える重要な問題は、異なるユーザーからのモデルの勾配の多様性であることを示す。 そこで本研究では,いくつかの設計選択について検討する。 まず, 半教師付き学習で広く用いられている一貫性正規化損失(crl)は, 適度によく機能するが, 勾配の多様性が高いことがわかった。 第二に、バッチ正規化(BN)は勾配の多様性を増大させる。 最近提案されたグループ正規化(GN)によるBNの置換は、勾配の多様性を低減し、テスト精度を向上させる。 第3に、GNと組み合わせたCRLは、ユーザ数が多い場合にも大きな勾配の多様性を持つことを示す。 そこで本研究では,fedavg平均化法に代わる新しいグループ化モデル平均化法を提案する。 全体として、GNとCRLを組み合わせたグループベース平均化は、SSFLの現在の論文(>10\%)だけでなく、4つの教師付きFLアルゴリズムよりも、テスト精度が向上する。

Federated learning (FL) is a promising way to use the computing power of mobile devices while maintaining the privacy of users. Current work in FL, however, makes the unrealistic assumption that the users have ground-truth labels on their devices, while also assuming that the server has neither data nor labels. In this work, we consider the more realistic scenario where the users have only unlabeled data, while the server has some labeled data, and where the amount of labeled data is smaller than the amount of unlabeled data. We call this learning problem semi-supervised federated learning (SSFL). For SSFL, we demonstrate that a critical issue that affects the test accuracy is the large gradient diversity of the models from different users. Based on this, we investigate several design choices. First, we find that the so-called consistency regularization loss (CRL), which is widely used in semi-supervised learning, performs reasonably well but has large gradient diversity. Second, we find that Batch Normalization (BN) increases gradient diversity. Replacing BN with the recently-proposed Group Normalization (GN) can reduce gradient diversity and improve test accuracy. Third, we show that CRL combined with GN still has a large gradient diversity when the number of users is large. Based on these results, we propose a novel grouping-based model averaging method to replace the FedAvg averaging method. Overall, our grouping-based averaging, combined with GN and CRL, achieves better test accuracy than not just a contemporary paper on SSFL in the same settings (>10\%), but also four supervised FL algorithms.
翻訳日:2022-10-24 20:53:22 公開日:2021-03-09
# 再帰的ニューラルネットワークを用いた算術語問題の解法

Solving Arithmetic Word Problems by Scoring Equations with Recursive Neural Networks ( http://arxiv.org/abs/2009.05639v2 )

ライセンス: Link先を確認
Klim Zaporojets, Giannis Bekoulis, Johannes Deleu, Thomas Demeester, Chris Develder(参考訳) 算術語問題を解くことは、NLPシステムにおける言語理解と推論能力を評価するための基礎課題である。 最近の研究は、算術語問題に対する答えを提供する候補解方程式の自動抽出とランキングを用いている。 本研究では,木構造再帰的ニューラルネットワーク(Tree-RNN)の構成を用いて,そのような候補解方程式を評価する新しい手法を提案する。 このtree-rnnアプローチのより確立されたシーケンシャル表現を用いた利点は、自然に方程式の構造を捉えることができることである。 提案手法は,方程式の数学的表現を表現木に変換することで構成する。 さらに,この木をツリー-LSTMアーキテクチャを用いてツリー-RNNにエンコードする。 実験の結果,提案手法が有効であることがわかった。 (i)従来の最先端技術に比べて3%以上の精度で全体の性能を向上し、さらに複雑な推論を必要とする問題のサブセットでは15%以上向上している。 (ii) より複雑な問題に対して, 逐次LSTMの精度を4%向上させる。

Solving arithmetic word problems is a cornerstone task in assessing language understanding and reasoning capabilities in NLP systems. Recent works use automatic extraction and ranking of candidate solution equations providing the answer to arithmetic word problems. In this work, we explore novel approaches to score such candidate solution equations using tree-structured recursive neural network (Tree-RNN) configurations. The advantage of this Tree-RNN approach over using more established sequential representations, is that it can naturally capture the structure of the equations. Our proposed method consists of transforming the mathematical expression of the equation into an expression tree. Further, we encode this tree into a Tree-RNN by using different Tree-LSTM architectures. Experimental results show that our proposed method (i) improves overall performance with more than 3% accuracy points compared to previous state-of-the-art, and with over 15% points on a subset of problems that require more complex reasoning, and (ii) outperforms sequential LSTMs by 4% accuracy points on such more complex problems.
翻訳日:2022-10-19 21:24:42 公開日:2021-03-09
# ガウス過程帯域における情報ゲインとレグレト境界について

On Information Gain and Regret Bounds in Gaussian Process Bandits ( http://arxiv.org/abs/2009.06966v3 )

ライセンス: Link先を確認
Sattar Vakili, Kia Khezeli, Victor Picheny(参考訳) 連続武装バンディット問題(continuum-armed bandit problem)と見なすことができるノイズフィードバックから、評価およびおそらく非凸目的関数 $f$ の逐次最適化を考える。 いくつかの学習アルゴリズム(GP-UCB, GP-TS, およびそれらの変種)の後悔性能に関する上限は、ベイジアン(ガウス過程(GP)のサンプルである$f$)と、再現されたカーネルヒルベルト空間における頻繁な(f$の寿命)の両方で知られている。 後悔境界はしばしば、$T$観測と基礎となるGP(代理)モデルの間の最大情報を得る$\gamma_T$に依存する。 一般的に使用されるカーネルを専門とするgpカーネルの固有値の減衰率に基づいて、$\gamma_t$の一般的な境界を提供し、その後、多数の設定下で$\gamma_t$に依存する後悔の限界を提供する。 mat\'ern(英語版) のカーネル族(英語版)では、ここでは $\gamma_t$ の下限と、頻繁な設定の下で後悔することが知られているが、この結果は、上限と下限の間の$t$ の差で巨大な多項式を閉じる($t$ の対数まで)。

Consider the sequential optimization of an expensive to evaluate and possibly non-convex objective function $f$ from noisy feedback, that can be considered as a continuum-armed bandit problem. Upper bounds on the regret performance of several learning algorithms (GP-UCB, GP-TS, and their variants) are known under both a Bayesian (when $f$ is a sample from a Gaussian process (GP)) and a frequentist (when $f$ lives in a reproducing kernel Hilbert space) setting. The regret bounds often rely on the maximal information gain $\gamma_T$ between $T$ observations and the underlying GP (surrogate) model. We provide general bounds on $\gamma_T$ based on the decay rate of the eigenvalues of the GP kernel, whose specialisation for commonly used kernels, improves the existing bounds on $\gamma_T$, and subsequently the regret bounds relying on $\gamma_T$ under numerous settings. For the Mat\'ern family of kernels, where the lower bounds on $\gamma_T$, and regret under the frequentist setting, are known, our results close a huge polynomial in $T$ gap between the upper and lower bounds (up to logarithmic in $T$ factors).
翻訳日:2022-10-18 05:49:00 公開日:2021-03-09
# 公衆衛生情報学 : ニューラルマシン翻訳による死の因果配列の提案

Public Health Informatics: Proposing Causal Sequence of Death Using Neural Machine Translation ( http://arxiv.org/abs/2009.10318v2 )

ライセンス: Link先を確認
Yuanda Zhu, Ying Sha, Hang Wu, Mai Li, Ryan A. Hoffman and May D. Wang(参考訳) 毎年、全世界で5700万人近くが死亡し、米国では270万人以上が死亡している。 タイムリーで正確で完全な死亡報告は公衆衛生にとって重要であり、機関や政府機関は死亡報告に頼って重要な統計を分析し、伝染病に対する反応を定式化している。 不正確な死亡報告は公衆衛生政策の過ちにつながる可能性がある。 死因を決定することは、経験豊富な医師にとっても困難である。 死亡原因を正確に報告するために,先天者の退院記録に基づき,死亡につながる慢性的に順序づけられた臨床症状の系列を決定するための高度なaiアプローチを提案する。 第10回国際疾病統計分類改正第10版(icd-10)に記載された死亡原因連鎖(causal chain of death)と命名され、icd-9-cmのコーディングと報告に関する公式ガイドラインに従って、退院記録上の優先順序された臨床状態がicd-9でコード化されている。 我々は、死因の因果関係を提案する上での3つの課題を、臨床コードにおけるコーディングシステムの2つのバージョン、医療領域の知識の衝突、データ相互運用性の3つに識別する。 このシーケンス対シーケンス問題における最初の課題を克服するために、ニューラルネットワーク翻訳モデルを適用し、ターゲットシーケンスを生成する。 3つの精度指標とともに、BLEU(BiLingual Evaluation Understudy)スコアを用いて生成シーケンスの品質を評価し、100点中16.04点を達成する。 第2の課題に対処するために,専門家が検証した医学領域の知識を,実行不能な因果連鎖を排除する出力シーケンス生成の制約として取り入れる。 最後に、第3の課題に対処するために、FHIR(Fast Healthcare Interoperability Resources)インターフェースで作業のユーザビリティを示します。

Each year there are nearly 57 million deaths around the world, with over 2.7 million in the United States. Timely, accurate and complete death reporting is critical in public health, as institutions and government agencies rely on death reports to analyze vital statistics and to formulate responses to communicable diseases. Inaccurate death reporting may result in potential misdirection of public health policies. Determining the causes of death is, nevertheless, challenging even for experienced physicians. To facilitate physicians in accurately reporting causes of death, we present an advanced AI approach to determine a chronically ordered sequence of clinical conditions that lead to death, based on decedent's last hospital discharge record. The sequence of clinical codes on the death report is named as causal chain of death, coded in the tenth revision of International Statistical Classification of Diseases (ICD-10); in line with the ICD-9-CM Official Guidelines for Coding and Reporting, the priority-ordered clinical conditions on the discharge record are coded in ICD-9. We identify three challenges in proposing the causal chain of death: two versions of coding system in clinical codes, medical domain knowledge conflict, and data interoperability. To overcome the first challenge in this sequence-to-sequence problem, we apply neural machine translation models to generate target sequence. Along with three accuracy metrics, we evaluate the quality of generated sequences with the BLEU (BiLingual Evaluation Understudy) score and achieve 16.04 out of 100. To address the second challenge, we incorporate expert-verified medical domain knowledge as constraint in generating output sequence to exclude infeasible causal chains. Lastly, we demonstrate the usability of our work in a Fast Healthcare Interoperability Resources (FHIR) interface to address the third challenge.
翻訳日:2022-10-15 21:40:19 公開日:2021-03-09
# DWIE:マルチタスク文書レベルの情報抽出のためのエンティティ中心データセット

DWIE: an entity-centric dataset for multi-task document-level information extraction ( http://arxiv.org/abs/2009.12626v2 )

ライセンス: Link先を確認
Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester(参考訳) 本稿では、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせたマルチタスクデータセットである「Deutsche Welle corpus for Information extract」について述べる。 (i)名前付きエンティティ認識(NER) (ii)基準分解能 (iii)関係抽出(re)及び (iv)エンティティリンク。 DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。 これは、個々の文における名前付きエンティティの言及の検出と分類から始まる、現在支配的な言及駆動アプローチとは対照的である。 さらに、DWIEはIEモデルの構築と評価において2つの大きな課題を提示した。 まず、NERおよびREタスクに対する従来の参照レベル評価メトリクスをエンティティ中心のDWIEデータセットに使用することにより、より頻繁に言及されるエンティティの予測に支配される測定結果が得られる。 我々は、予測された真理エンティティと基礎的真理エンティティのそれぞれを構成する言及の数を考慮して、新しいエンティティ駆動のメトリクスを提案することで、この問題に取り組む。 第二に、ドキュメントレベルのマルチタスクアノテーションでは、モデルがドキュメントの異なる部分にあるエンティティ参照間の情報や、異なるタスク間の情報を、共同学習環境で転送する必要がある。 これを実現するために,文書レベルの参照スパン間のグラフベースのニューラルメッセージパッシング手法を提案する。 実験の結果, 関節モデルに神経グラフの伝播を取り入れた場合, 最大5.5F1ポイントの改善が得られた。 これは、マルチタスクIEにおける表現学習のためのグラフニューラルネットワークのさらなる研究を促進するDWIEの可能性を示している。 DWIEはhttps://github.com/klimzaporojets/DWIEで公開しています。

This paper presents DWIE, the 'Deutsche Welle corpus for Information Extraction', a newly created multi-task dataset that combines four main Information Extraction (IE) annotation subtasks: (i) Named Entity Recognition (NER), (ii) Coreference Resolution, (iii) Relation Extraction (RE), and (iv) Entity Linking. DWIE is conceived as an entity-centric dataset that describes interactions and properties of conceptual entities on the level of the complete document. This contrasts with currently dominant mention-driven approaches that start from the detection and classification of named entity mentions in individual sentences. Further, DWIE presented two main challenges when building and evaluating IE models for it. First, the use of traditional mention-level evaluation metrics for NER and RE tasks on entity-centric DWIE dataset can result in measurements dominated by predictions on more frequently mentioned entities. We tackle this issue by proposing a new entity-driven metric that takes into account the number of mentions that compose each of the predicted and ground truth entities. Second, the document-level multi-task annotations require the models to transfer information between entity mentions located in different parts of the document, as well as between different tasks, in a joint learning setting. To realize this, we propose to use graph-based neural message passing techniques between document-level mention spans. Our experiments show an improvement of up to 5.5 F1 percentage points when incorporating neural graph propagation into our joint model. This demonstrates DWIE's potential to stimulate further research in graph neural networks for representation learning in multi-task IE. We make DWIE publicly available at https://github.com/klimzaporojets/DWIE.
翻訳日:2022-10-14 08:55:31 公開日:2021-03-09
# 公正なメタ学習のための2段階の予備的アプローチ

A Primal-Dual Subgradient Approachfor Fair Meta Learning ( http://arxiv.org/abs/2009.12675v3 )

ライセンス: Link先を確認
Chen Zhao, Feng Chen, Zhuoyi Wang, Latifur Khan(参考訳) 授業中に見知らぬクラスを一般化する学習の問題は、ほとんどショット分類と呼ばれており、注目されている。 グラデーションベースモデル非依存メタラーニング(maml)のような初期化ベースの手法は、"微調整への学習"によって、少数の学習問題に取り組む。 これらの手法の目標は、モデルの初期化を適切に学習することであり、新しいクラスの分類器は、少数の段階的な更新ステップを持つラベル付き例から学習することができる。 ショットのメタ学習は、その高速適応能力と、未知のタスクへの精度の一般化で有名である。 偏見のない結果で公平に学習することは、人間の知能のもう一つの重要な目印である。 そこで本研究では,関連するタスクのデータに基づいて,数例のみを用いて公正な機械学習モデルを学習する,Primal-Dual Fairメタ学習フレームワークであるPDFMを提案する。 鍵となるアイデアは、フェアモデルのプライマリパラメータとデュアルパラメータの適切な初期化を学習し、グラデーション更新ステップによって新しいフェアラーニングタスクに適応できるようにすることである。 手動でグリッドサーチによって双対パラメータをハイパーパラメータとして調整する代わりに、PDFMは、下位の原始双対アプローチによる公平なメタラーニングのために、原始パラメータと双対パラメータの初期化を最適化する。 さらに,各タスクに対する公平性制約として平均差と決定境界共分散を用いたバイアス制御の例を示す。 本手法を様々な実世界データセットに適用することにより,提案手法の汎用性を示す。 我々の実験は、この設定の最高の事前作業よりも大幅に改善されている。

The problem of learning to generalize to unseen classes during training, known as few-shot classification, has attracted considerable attention. Initialization based methods, such as the gradient-based model agnostic meta-learning (MAML), tackle the few-shot learning problem by "learning to fine-tune". The goal of these approaches is to learn proper model initialization, so that the classifiers for new classes can be learned from a few labeled examples with a small number of gradient update steps. Few shot meta-learning is well-known with its fast-adapted capability and accuracy generalization onto unseen tasks. Learning fairly with unbiased outcomes is another significant hallmark of human intelligence, which is rarely touched in few-shot meta-learning. In this work, we propose a Primal-Dual Fair Meta-learning framework, namely PDFM, which learns to train fair machine learning models using only a few examples based on data from related tasks. The key idea is to learn a good initialization of a fair model's primal and dual parameters so that it can adapt to a new fair learning task via a few gradient update steps. Instead of manually tuning the dual parameters as hyperparameters via a grid search, PDFM optimizes the initialization of the primal and dual parameters jointly for fair meta-learning via a subgradient primal-dual approach. We further instantiate examples of bias controlling using mean difference and decision boundary covariance as fairness constraints to each task for supervised regression and classification, respectively. We demonstrate the versatility of our proposed approach by applying our approach to various real-world datasets. Our experiments show substantial improvements over the best prior work for this setting.
翻訳日:2022-10-14 08:27:02 公開日:2021-03-09
# 出演者による注意の再考

Rethinking Attention with Performers ( http://arxiv.org/abs/2009.14794v3 )

ライセンス: Link先を確認
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller(参考訳) 本稿では,正規な(ソフトマックス)フルランク・トランスフォーマーを再現可能な精度で推定できるが,線形な(二次的な)空間と時間複雑性のみを使用して,スパルシリティや低ランク性といった事前条件に頼らずに推定できるトランスフォーマーアーキテクチャを紹介する。 ソフトマックスアテンションカーネルを近似するために、パフォーマーは、スケーラブルなカーネルメソッドに独立した関心を持つであろう正の直交ランダム特徴アプローチ(favor+)を介して、新しい高速アテンションを使用する。 FAVOR+は、ソフトマックスを超えて、カーネル化可能なアテンションメカニズムを効率的にモデル化するためにも使用できる。 この表現力は、大規模なタスクにおいて初めてsoftmaxと他のカーネルを正確に比較し、正規トランスフォーマーの到達範囲を超えて、最適な注意カーネルを調べるために重要である。 パフォーマーは、正規トランスフォーマーと完全に互換性があり、強い理論的保証を持つ線形アーキテクチャである: 注意行列の偏りや偏りのない推定、一様収束、そして低い推定分散。 我々は,ピクセル予測からテキストモデル,タンパク質配列モデリングまで,豊富なタスクでパフォーマーをテストした。 本研究は,実演者による新しい注意学習パラダイムの有効性を示すため,他の効率的な注意の分散・密集手法と競争結果を示す。

We introduce Performers, Transformer architectures which can estimate regular (softmax) full-rank-attention Transformers with provable accuracy, but using only linear (as opposed to quadratic) space and time complexity, without relying on any priors such as sparsity or low-rankness. To approximate softmax attention-kernels, Performers use a novel Fast Attention Via positive Orthogonal Random features approach (FAVOR+), which may be of independent interest for scalable kernel methods. FAVOR+ can be also used to efficiently model kernelizable attention mechanisms beyond softmax. This representational power is crucial to accurately compare softmax with other kernels for the first time on large-scale tasks, beyond the reach of regular Transformers, and investigate optimal attention-kernels. Performers are linear architectures fully compatible with regular Transformers and with strong theoretical guarantees: unbiased or nearly-unbiased estimation of the attention matrix, uniform convergence and low estimation variance. We tested Performers on a rich set of tasks stretching from pixel-prediction through text models to protein sequence modeling. We demonstrate competitive results with other examined efficient sparse and dense attention methods, showcasing effectiveness of the novel attention-learning paradigm leveraged by Performers.
翻訳日:2022-10-12 22:15:29 公開日:2021-03-09
# アスペクト感情三重項抽出のための位置認識タグ

Position-Aware Tagging for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2010.02609v3 )

ライセンス: Link先を確認
Lu Xu, Hao Li, Wei Lu, and Lidong Bing(参考訳) アスペクト感情トリプレット抽出(aspect sentiment triplet extraction, aste)は、対象エンティティのトリプレット、関連する感情、感情の理由を説明する意見を抽出するタスクである。 既存の研究は主にパイプラインアプローチを用いてこの問題を解決し、三重項抽出プロセスをいくつかの段階に分けている。 我々の観察では,三重項内の3つの要素は互いに強く関連しており,このことから,シーケンスタグ付け手法を用いて三重項を抽出するジョイントモデルの構築が動機となっている。 しかしながら、要素間のリッチな相互作用を捉えることができる三重項を抽出するためのタグ付けアプローチを効果的に設計する方法は、難しい研究課題である。 本研究では,トリプレットを同時抽出可能な新しい位置認識タグ方式を用いた,最初のエンドツーエンドモデルを提案する。 既存のデータセットのいくつかの実験結果から,トリプレット内の要素を同時捕捉することで,既存のアプローチよりもパフォーマンスが向上することが示された。 また,モデルの有効性とロバスト性について広範な実験を行った。

Aspect Sentiment Triplet Extraction (ASTE) is the task of extracting the triplets of target entities, their associated sentiment, and opinion spans explaining the reason for the sentiment. Existing research efforts mostly solve this problem using pipeline approaches, which break the triplet extraction process into several stages. Our observation is that the three elements within a triplet are highly related to each other, and this motivates us to build a joint model to extract such triplets using a sequence tagging approach. However, how to effectively design a tagging approach to extract the triplets that can capture the rich interactions among the elements is a challenging research question. In this work, we propose the first end-to-end model with a novel position-aware tagging scheme that is capable of jointly extracting the triplets. Our experimental results on several existing datasets show that jointly capturing elements in the triplet using our approach leads to improved performance over the existing approaches. We also conducted extensive experiments to investigate the model effectiveness and robustness.
翻訳日:2022-10-10 06:56:57 公開日:2021-03-09
# 不確実性を考慮したコンタクトセーフモデルによる強化学習

Uncertainty-aware Contact-safe Model-based Reinforcement Learning ( http://arxiv.org/abs/2010.08169v3 )

ライセンス: Link先を確認
Cheng-Yu Kuo, Andreas Schaarschmidt, Yunduan Cui, Tamim Asfour, and Takamitsu Matsubara(参考訳) 本報告では, ロボットアプリケーションにおける接触安全モデルに基づく強化学習(MBRL)について述べる。 典型的なMBRLでは、サンプル不足による学習過程において、データ駆動モデルが意図したロボットタスクに対して正確かつ信頼性の高いポリシーを生成することは期待できない。 こうした信頼できないポリシーを接点の多い環境で運用することは、ロボットとその周囲にダメージを与える可能性がある。 予期せぬ集中的な物理的接触による損傷のリスクを軽減するために,確率モデル予測制御(pmpc)の制御限界をモデル不確実性に関連付けたコンタクトセーフmbrlを提案する。 このような不確実性を考慮した制御計画は、計算効率の近似GPダイナミクスと近似推論手法を用いて決定論的MPC問題として定式化される。 提案手法の有効性は, 実物と模擬ロボットとのボウル混合作業により評価され, 接触豊富な操作スキルの例として, 実物と実物とのスクーピング作業を行う。 (ビデオ:https://youtu.be/sdhHP3NhYi0)

This letter presents contact-safe Model-based Reinforcement Learning (MBRL) for robot applications that achieves contact-safe behaviors in the learning process. In typical MBRL, we cannot expect the data-driven model to generate accurate and reliable policies to the intended robotic tasks during the learning process due to sample scarcity. Operating these unreliable policies in a contact-rich environment could cause damage to the robot and its surroundings. To alleviate the risk of causing damage through unexpected intensive physical contacts, we present the contact-safe MBRL that associates the probabilistic Model Predictive Control's (pMPC) control limits with the model uncertainty so that the allowed acceleration of controlled behavior is adjusted according to learning progress. Control planning with such uncertainty-aware control limits is formulated as a deterministic MPC problem using a computation-efficient approximated GP dynamics and an approximated inference technique. Our approach's effectiveness is evaluated through bowl mixing tasks with simulated and real robots, scooping tasks with a real robot as examples of contact-rich manipulation skills. (video: https://youtu.be/sdhHP3NhYi0)
翻訳日:2022-10-06 21:59:18 公開日:2021-03-09
# ロジスティックバンディットのインスタンスワイズミニマックス最適アルゴリズム

Instance-Wise Minimax-Optimal Algorithms for Logistic Bandits ( http://arxiv.org/abs/2010.12642v2 )

ライセンス: Link先を確認
Marc Abeille, Louis Faury and Cl\'ement Calauz\`enes(参考訳) ロジスティック・バンディットは、パラメトリッド・バンディットにおける非線形性の影響を理解するための議論の余地のない挑戦的な枠組みを提供することで、近年注目を集めている。 Faury et al. (2020) は、ロジスティック・バンドの学習理論上の困難さは、報酬の非線型性の大きさを特徴づける問題依存定数 $\kappa$ によって具体化できることを示した。 本稿では,洗練された解析を行う新しいアルゴリズムを提案する。 これにより、非線形性の影響をよりよくキャラクタリゼーションすることができ、問題依存の保証を改善することができる。 ほとんどの好例では、これは、$\tilde{\mathcal{O}}(d\sqrt{T/\kappa})$として残念な上限スケーリングをもたらし、$\tilde{\mathcal{O}}(d\sqrt{T}+\kappa)$ state-of-the-art guaranteesよりも劇的に改善される。 このレートは、$\omega(d\sqrt{t/\kappa})$問題依存低バウンドを導出することでミニマックス最適であることが証明される。 本分析では、後悔の2つのレジーム(永久的および過渡的)を特定し、最終的にfauly et al. (2020) と dong et al. (2019) のベイズ的アプローチを両立させた。 従来の研究とは対照的に、永続的な体制では、非線形性は探査・探査のトレードオフを劇的に緩和することができる。 問題依存的な方法で遷移相の長さにも影響するが、ほとんどの合理的な構成では、この影響は軽度である。

Logistic Bandits have recently attracted substantial attention, by providing an uncluttered yet challenging framework for understanding the impact of non-linearity in parametrized bandits. It was shown by Faury et al. (2020) that the learning-theoretic difficulties of Logistic Bandits can be embodied by a large (sometimes prohibitively) problem-dependent constant $\kappa$, characterizing the magnitude of the reward's non-linearity. In this paper we introduce a novel algorithm for which we provide a refined analysis. This allows for a better characterization of the effect of non-linearity and yields improved problem-dependent guarantees. In most favorable cases this leads to a regret upper-bound scaling as $\tilde{\mathcal{O}}(d\sqrt{T/\kappa})$, which dramatically improves over the $\tilde{\mathcal{O}}(d\sqrt{T}+\kappa)$ state-of-the-art guarantees. We prove that this rate is minimax-optimal by deriving a $\Omega(d\sqrt{T/\kappa})$ problem-dependent lower-bound. Our analysis identifies two regimes (permanent and transitory) of the regret, which ultimately re-conciliates Faury et al. (2020) with the Bayesian approach of Dong et al. (2019). In contrast to previous works, we find that in the permanent regime non-linearity can dramatically ease the exploration-exploitation trade-off. While it also impacts the length of the transitory phase in a problem-dependent fashion, we show that this impact is mild in most reasonable configurations.
翻訳日:2022-10-03 21:59:44 公開日:2021-03-09
# ニューラルネットワークの反応ネットワーク実装について

On reaction network implementations of neural networks ( http://arxiv.org/abs/2010.13290v3 )

ライセンス: Link先を確認
David F. Anderson, Badal Joshi, and Abhishek Deshpande(参考訳) 本稿では,(フィードフォワード)ニューラルネットワークの実装に決定論的にモデル化された化学反応ネットワークの利用について述べる。 我々は,一般数学的枠組みを開発し,ニューラルネットワークの反応ネットワーク実装に付随する常微分方程式 (odes) が望ましい性質を持つことを証明した。 (i)モデルのパラメータ(勾配降下に必要な)で滑らかな一意な正の不動点の存在、及び (ii)初期条件にかかわらず(効率的な実装に必要な)固定点への高速収束。 私たちはまず、odeのシステムのためにニューラルネットワークと固定点を接続し、その後、適切な関連するodeのセットで反応ネットワークを構築します。 本稿では,ReLU活性化関数をスムーズ化したニューラルネットワークを実装した反応ネットワークを構築することにより,その理論を実証する一方で,他の活性化関数を許容する構成を一般化する方法を実証する。 本論文では,複数種類の"ネットワーク"が使用されているため,重なり合う語彙を2つの設定で曖昧にするために,反応ネットワークとニューラルネットワークの両方に注意を払って導入し,各ネットワークの役割を明確に強調する。

This paper is concerned with the utilization of deterministically modeled chemical reaction networks for the implementation of (feed-forward) neural networks. We develop a general mathematical framework and prove that the ordinary differential equations (ODEs) associated with certain reaction network implementations of neural networks have desirable properties including (i) existence of unique positive fixed points that are smooth in the parameters of the model (necessary for gradient descent), and (ii) fast convergence to the fixed point regardless of initial condition (necessary for efficient implementation). We do so by first making a connection between neural networks and fixed points for systems of ODEs, and then by constructing reaction networks with the correct associated set of ODEs. We demonstrate the theory by constructing a reaction network that implements a neural network with a smoothed ReLU activation function, though we also demonstrate how to generalize the construction to allow for other activation functions (each with the desirable properties listed previously). As there are multiple types of "networks" utilized in this paper, we also give a careful introduction to both reaction networks and neural networks, in order to disambiguate the overlapping vocabulary in the two settings and to clearly highlight the role of each network's properties.
翻訳日:2022-10-02 18:05:16 公開日:2021-03-09
# 新しい未観測クラスを追加する際の分類精度の予測

Predicting Classification Accuracy When Adding New Unobserved Classes ( http://arxiv.org/abs/2010.15011v3 )

ライセンス: Link先を確認
Yuli Slavutsky, Yuval Benjamini(参考訳) マルチクラス分類器はしばしば設計され、最終的に適用されるクラスからのサンプルでのみ評価される。 そのため、最終的な正確性は不明である。 本研究は,初期クラスサンプルに対する分類器の性能を用いて,より大きく,観察できないクラス集合の精度を推定する方法について検討する。 そこで本研究では,クラス数に依存しない正しいクラスと間違ったクラスを分離する尺度として,共通ROCにおけるクラスとデータポイントの役割を置き換えることで得られる「逆ROC(reversed ROC)」を定義した。 分類精度はマルチクラス分類器における rROC の関数であり、新しいクラスを追加すると、初期クラス標本から得られたデータの表現が変化しないことを示す。 これらの結果を用いて,ニューラルネットワークに基づく頑健なアルゴリズム "CleaneX" を定式化し,任意のサイズのクラスに対して,そのような分類器の精度を推定する。 従来の手法とは異なり,本手法は分類器の精度と分類スコアの密度の両方を用いており,物体検出,顔認識,脳復号の実際のデータセットとシミュレーションの最先端手法よりも極めて優れた予測を行う。

Multiclass classifiers are often designed and evaluated only on a sample from the classes on which they will eventually be applied. Hence, their final accuracy remains unknown. In this work we study how a classifier's performance over the initial class sample can be used to extrapolate its expected accuracy on a larger, unobserved set of classes. For this, we define a measure of separation between correct and incorrect classes that is independent of the number of classes: the "reversed ROC" (rROC), which is obtained by replacing the roles of classes and data-points in the common ROC. We show that the classification accuracy is a function of the rROC in multiclass classifiers, for which the learned representation of data from the initial class sample remains unchanged when new classes are added. Using these results we formulate a robust neural-network-based algorithm, "CleaneX", which learns to estimate the accuracy of such classifiers on arbitrarily large sets of classes. Unlike previous methods, our method uses both the observed accuracies of the classifier and densities of classification scores, and therefore achieves remarkably better predictions than current state-of-the-art methods on both simulations and real datasets of object detection, face recognition, and brain decoding.
翻訳日:2022-10-02 04:27:35 公開日:2021-03-09
# 半パラメトリック回帰問題を暗黙的に正則化する決定点過程

Determinantal Point Processes Implicitly Regularize Semi-parametric Regression Problems ( http://arxiv.org/abs/2011.06964v2 )

ライセンス: Link先を確認
Micha\"el Fanuel, Joachim Schreurs, Johan A.K. Suykens(参考訳) 半パラメトリック回帰モデルは、精度を犠牲にすることなく理解性を必要とするいくつかのアプリケーションで使用される。 典型的な例としては、地球物理学におけるスプライン補間(英語版)(非線形時系列問題)がある。 ここでは,有限決定点過程(DPP)を用いて半パラメトリックモデルを近似する。 最近、Barthelm\'e, Tremblay, Usevich, Amblard はいくつかの有限 DPP の表現を導入した。 これらの著者は、部分射影 DPP を便利に表現できる拡張 L-アンサンブルを定式化し、最適な補間に使用することを提案した。 この形式主義の助けを借りて、半パラメトリック回帰と補間に対する行列式サンプリングの暗黙的正規化効果を示す重要なアイデンティティを導出する。 また、新しい射影nystr\"om近似が定義され、対応する半パラメトリック回帰の近似に対する期待リスクの境界を導出するために用いられる。 この研究は、カーネルリッジ回帰で得られた類似の結果を自然に拡張する。

Semi-parametric regression models are used in several applications which require comprehensibility without sacrificing accuracy. Typical examples are spline interpolation in geophysics, or non-linear time series problems, where the system includes a linear and non-linear component. We discuss here the use of a finite Determinantal Point Process (DPP) for approximating semi-parametric models. Recently, Barthelm\'e, Tremblay, Usevich, and Amblard introduced a novel representation of some finite DPPs. These authors formulated extended L-ensembles that can conveniently represent partial-projection DPPs and suggest their use for optimal interpolation. With the help of this formalism, we derive a key identity illustrating the implicit regularization effect of determinantal sampling for semi-parametric regression and interpolation. Also, a novel projected Nystr\"om approximation is defined and used to derive a bound on the expected risk for the corresponding approximation of semi-parametric regression. This work naturally extends similar results obtained for kernel ridge regression.
翻訳日:2022-09-25 23:35:17 公開日:2021-03-09
# 構造的に曖昧な確率文法の学習

Learning of Structurally Unambiguous Probabilistic Grammars ( http://arxiv.org/abs/2011.07472v2 )

ライセンス: Link先を確認
Dolav Nitay, Dana Fisman, Michal Ziv-Ukelson(参考訳) 確率的文脈自由文法を識別する問題は2つの側面がある: 1つは文法の位相(文法の規則)を決定すること、2つ目は確率的重みを各規則に対して推定することである。 文脈自由文法の学習の難しさ、特に確率文法の難しさを考えると、ほとんどの文献は第二の問題に集中している。 この作業では、最初の問題に対処します。 我々は、構造的に曖昧な文脈自由文法(SUWCFG)に注意を向け、構造的に曖昧な確率的文脈自由文法(SUPCFG)に対するクエリ学習アルゴリズムを提供する。 共線形乗数木オートマトン(CMTA)を用いてSUWCFGを表現できることを示し,CMTAを学習する多項式学習アルゴリズムを提案する。 学習したcmtaを確率的文法に変換することができ、構造的非曖昧な確率的文脈自由文法(文法トポロジーと確率的重みの両方)を構造的メンバーシップクエリと構造的等価クエリを用いて学習するための完全なアルゴリズムを提供する。 ゲノムデータを用いたPCFG学習におけるアルゴリズムの有用性を示す。

The problem of identifying a probabilistic context free grammar has two aspects: the first is determining the grammar's topology (the rules of the grammar) and the second is estimating probabilistic weights for each rule. Given the hardness results for learning context-free grammars in general, and probabilistic grammars in particular, most of the literature has concentrated on the second problem. In this work we address the first problem. We restrict attention to structurally unambiguous weighted context-free grammars (SUWCFG) and provide a query learning algorithm for structurally unambiguous probabilistic context-free grammars (SUPCFG). We show that SUWCFG can be represented using co-linear multiplicity tree automata (CMTA), and provide a polynomial learning algorithm that learns CMTAs. We show that the learned CMTA can be converted into a probabilistic grammar, thus providing a complete algorithm for learning a structurally unambiguous probabilistic context free grammar (both the grammar topology and the probabilistic weights) using structured membership queries and structured equivalence queries. We demonstrate the usefulness of our algorithm in learning PCFGs over genomic data.
翻訳日:2022-09-25 07:39:38 公開日:2021-03-09
# デプロイ時のオブジェクト検出性能のオンラインモニタリング

Online Monitoring of Object Detection Performance During Deployment ( http://arxiv.org/abs/2011.07750v2 )

ライセンス: Link先を確認
Quazi Marufur Rahman, Niko S\"underhauf, Feras Dayoub(参考訳) デプロイ中、オブジェクト検出器は、テストデータセットで報告される同様のパフォーマンスレベルで動作することが期待される。 しかし、様々な複雑な環境条件下で作動する移動ロボットに配備された場合、検出器の性能は変動し、時には警告なしで悪化することがある。 検出されないと、ロボットは低品質で信頼性の低い物体検出に基づいて安全で危険な行動をとることができる。 この問題に対処し、入力フレームのスライディングウィンドウにおける平均平均精度(mAP)の品質を予測し、対象検出器の性能を監視するカスケードニューラルネットワークを導入する。 提案したカスケードネットワークは、物体検出器のディープニューラルネットワークの内部特徴を利用する。 提案手法は,自律運転データセットと物体検出器の異なる組み合わせを用いて評価する。

During deployment, an object detector is expected to operate at a similar performance level reported on its testing dataset. However, when deployed onboard mobile robots that operate under varying and complex environmental conditions, the detector's performance can fluctuate and occasionally degrade severely without warning. Undetected, this can lead the robot to take unsafe and risky actions based on low-quality and unreliable object detections. We address this problem and introduce a cascaded neural network that monitors the performance of the object detector by predicting the quality of its mean average precision (mAP) on a sliding window of the input frames. The proposed cascaded network exploits the internal features from the deep neural network of the object detector. We evaluate our proposed approach using different combinations of autonomous driving datasets and object detectors.
翻訳日:2022-09-25 00:22:47 公開日:2021-03-09
# propagate yourself: 教師なし視覚表現学習のためのピクセルレベルの一貫性の探求

Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2011.10043v2 )

ライセンス: Link先を確認
Zhenda Xie and Yutong Lin and Zheng Zhang and Yue Cao and Stephen Lin and Han Hu(参考訳) 教師なし視覚表現学習におけるコントラスト学習法は,伝達性能の顕著なレベルに達している。 コントラスト学習のパワーは、現在の手法は、インスタンスレベルのプリテキストタスクでのみ訓練されており、密度の高いピクセル予測を必要とする下流タスクに最適化された表現につながるため、まだ完全には解明されていないと我々は主張する。 本稿では,密度の高い特徴表現を学習するためのピクセルレベルのプリテキストタスクを提案する。 最初のタスクは、ピクセルレベルで直接コントラスト学習を適用する。 また,現状のアプローチを大きなマージンで超えつつも,より優れた結果が得られる画素間整合性タスクを提案する。 具体的には、Pascal VOCオブジェクト検出(C4)、COCOオブジェクト検出(FPN/C4)、ResNet-50バックボーンネットワークを使用したCityscapesセマンティックセマンティックセグメンテーション(2.6 AP、0.8/1.0 mAP、1.0 mIoU)に移行すると、60.2 AP、41.4/40.5 mAP、77.2 mIoUを達成する。 さらに、ピクセルレベルのプリテキストタスクは、通常のバックボーンネットワークだけでなく、密集した下流タスクに使われるヘッドネットワークを事前学習するのに有効であることが判明し、インスタンスレベルのコントラスト手法を補完する。 これらの結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示し、教師なしビジュアル表現学習における新しい道を提案する。 コードは \url{https://github.com/zdaxie/PixPro} で入手できる。

Contrastive learning methods for unsupervised visual representation learning have reached remarkable levels of transfer performance. We argue that the power of contrastive learning has yet to be fully unleashed, as current methods are trained only on instance-level pretext tasks, leading to representations that may be sub-optimal for downstream tasks requiring dense pixel predictions. In this paper, we introduce pixel-level pretext tasks for learning dense feature representations. The first task directly applies contrastive learning at the pixel level. We additionally propose a pixel-to-propagation consistency task that produces better results, even surpassing the state-of-the-art approaches by a large margin. Specifically, it achieves 60.2 AP, 41.4 / 40.5 mAP and 77.2 mIoU when transferred to Pascal VOC object detection (C4), COCO object detection (FPN / C4) and Cityscapes semantic segmentation using a ResNet-50 backbone network, which are 2.6 AP, 0.8 / 1.0 mAP and 1.0 mIoU better than the previous best methods built on instance-level contrastive learning. Moreover, the pixel-level pretext tasks are found to be effective for pre-training not only regular backbone networks but also head networks used for dense downstream tasks, and are complementary to instance-level contrastive methods. These results demonstrate the strong potential of defining pretext tasks at the pixel level, and suggest a new path forward in unsupervised visual representation learning. Code is available at \url{https://github.com/zdaxie/PixPro}.
翻訳日:2022-09-23 20:32:35 公開日:2021-03-09
# 教師なし経路回帰ネットワーク

Unsupervised Path Regression Networks ( http://arxiv.org/abs/2011.14787v2 )

ライセンス: Link先を確認
Michal P\'andy, Daniel Lenton, Ronald Clark(参考訳) 最短経路問題は、教師なしの方法で訓練されたニューラルネットワークからのスプライン回帰によって解決できることを実証する。 訓練に真実の最適経路を 必要とせずに) これを実現するために、最小値が衝突のない解を保証する幾何依存の最適コスト関数を導出する。 提案手法は,最短経路計画のための教師付き学習ベースライン,よりスケーラブルなトレーニングパイプライン,推論時間の大幅な高速化を実現した。

We demonstrate that challenging shortest path problems can be solved via direct spline regression from a neural network, trained in an unsupervised manner (i.e. without requiring ground truth optimal paths for training). To achieve this, we derive a geometry-dependent optimal cost function whose minima guarantees collision-free solutions. Our method beats state-of-the-art supervised learning baselines for shortest path planning, with a much more scalable training pipeline, and a significant speedup in inference time.
翻訳日:2021-06-06 14:54:16 公開日:2021-03-09
# 無線信号分類器に対する逆攻撃のサーロゲートモデルに対するチャネル効果

Channel Effects on Surrogate Models of Adversarial Attacks against Wireless Signal Classifiers ( http://arxiv.org/abs/2012.02160v2 )

ライセンス: Link先を確認
Brian Kim and Yalin E. Sagduyu and Tugba Erpek and Kemal Davaslioglu and Sennur Ulukus(参考訳) 本稿では,バックグラウンドエミッタ,送信機,敵機で構成される無線通信システムについて考察する。 送信機は、背景エミッタからの進行中の送信を検出し、スペクトルがアイドルであれば信号を送信するディープニューラルネットワーク(DNN)分類器を備える。 同時に、スペクトルを観測して背景エミッタの進行中の送信を検知し、送信機を騙してチャネルをアイドルとして誤分類する敵攻撃を発生させ、独自のdnn分類器をサロゲートモデルとして訓練する。 このサロゲートモデルは、逆側と送信側が背景エミッタと異なるチャネルを経験しているので、送信者の分類器と大きく異なる可能性があるため、その分類器は異なる入力分布で訓練される。 このシステムモデルは、バックグラウンドエミッタがプライマリユーザであり、送信者がセカンダリユーザであり、チャネルがプライマリユーザによって占有されている場合でも、相手がセカンダリユーザを騙して送信しようとする設定を表すことができる。 本研究では,敵対者によって訓練された異なる代理モデル(相手が経験するチャネル効果の違いによる)が敵攻撃の性能に与える影響について検討する。 シミュレーションの結果,チャネル誘導入力の異なる分布で訓練されたサロゲートモデルは攻撃性能を著しく制限し,無線アプリケーション用のサロゲートモデルはチャネル効果に応じてターゲットモデルと大きく異なる可能性があるため,敵攻撃の転送性は容易にも容易にも達成できないことを示した。

We consider a wireless communication system that consists of a background emitter, a transmitter, and an adversary. The transmitter is equipped with a deep neural network (DNN) classifier for detecting the ongoing transmissions from the background emitter and transmits a signal if the spectrum is idle. Concurrently, the adversary trains its own DNN classifier as the surrogate model by observing the spectrum to detect the ongoing transmissions of the background emitter and generate adversarial attacks to fool the transmitter into misclassifying the channel as idle. This surrogate model may differ from the transmitter's classifier significantly because the adversary and the transmitter experience different channels from the background emitter and therefore their classifiers are trained with different distributions of inputs. This system model may represent a setting where the background emitter is a primary user, the transmitter is a secondary user, and the adversary is trying to fool the secondary user to transmit even though the channel is occupied by the primary user. We consider different topologies to investigate how different surrogate models that are trained by the adversary (depending on the differences in channel effects experienced by the adversary) affect the performance of the adversarial attack. The simulation results show that the surrogate models that are trained with different distributions of channel-induced inputs severely limit the attack performance and indicate that the transferability of adversarial attacks is neither readily available nor straightforward to achieve since surrogate models for wireless applications may significantly differ from the target model depending on channel effects.
翻訳日:2021-05-23 15:03:14 公開日:2021-03-09
# wilds: 野生の分布変化のベンチマーク

WILDS: A Benchmark of in-the-Wild Distribution Shifts ( http://arxiv.org/abs/2012.07421v2 )

ライセンス: Link先を確認
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang(参考訳) トレーニング分布がテスト分布と異なる分散シフトは、ワイルドにデプロイされた機械学習(ml)システムの精度を実質的に低下させることができる。 その普遍性にもかかわらず、これらの現実世界の分布シフトは、今日のMLコミュニティで広く使われているデータセットに不足している。 このギャップに対処するため、WILDSは、腫瘍識別のための病院間のシフト、野生生物監視のためのカメラトラップの横断、衛星画像と貧困マッピングにおける時間と場所の横断といった、現実の応用において自然に発生する様々な分布シフトを反映した8つのベンチマークデータセットのキュレートされたコレクションである。 各データセットにおいて、標準トレーニングは、分散性能よりもかなり低い分散アウトオブディストリビューションとなり、このギャップは、既存の分散シフトを処理する方法によってトレーニングされたモデルでも残ることを示す。 これは、実際に発生する分散シフトのタイプに対してより堅牢なモデルを生成する新しいトレーニング方法の必要性を浮き彫りにしている。 手法開発を容易にするため,データセットの読み込みを自動化し,デフォルトモデルアーキテクチャとハイパーパラメータを含むオープンソースパッケージを提供し,評価を標準化する。 コードとリーダーボードはhttps://wilds.stanford.edu.comで入手できる。

Distribution shifts -- where the training distribution differs from the test distribution -- can substantially degrade the accuracy of machine learning (ML) systems deployed in the wild. Despite their ubiquity, these real-world distribution shifts are under-represented in the datasets widely used in the ML community today. To address this gap, we present WILDS, a curated collection of 8 benchmark datasets that reflect a diverse range of distribution shifts which naturally arise in real-world applications, such as shifts across hospitals for tumor identification; across camera traps for wildlife monitoring; and across time and location in satellite imaging and poverty mapping. On each dataset, we show that standard training results in substantially lower out-of-distribution than in-distribution performance, and that this gap remains even with models trained by existing methods for handling distribution shifts. This underscores the need for new training methods that produce models which are more robust to the types of distribution shifts that arise in practice. To facilitate method development, we provide an open-source package that automates dataset loading, contains default model architectures and hyperparameters, and standardizes evaluations. Code and leaderboards are available at https://wilds.stanford.edu.
翻訳日:2021-05-08 14:26:01 公開日:2021-03-09
# アマタ:敵の訓練加速のためのアニーリング機構

Amata: An Annealing Mechanism for Adversarial Training Acceleration ( http://arxiv.org/abs/2012.08112v2 )

ライセンス: Link先を確認
Nanyang Ye, Qianxiao Li, Xiao-Yun Zhou, Zhanxing Zhu(参考訳) 様々な領域での実証的な成功にもかかわらず、ディープニューラルネットワークは、そのパフォーマンスを著しく低下させる悪意のある摂動入力データに対して脆弱であることが明らかになった。 これは敵攻撃として知られている。 敵意攻撃に対抗するために,ロバスト最適化の形式として定式化された敵意トレーニングが有効であることが示されている。 しかし, 対人訓練の実施は, 通常の訓練に比べて計算オーバーヘッドが大きい。 計算コストを削減するため、敵の訓練に伴うオーバーヘッドを低減するため、アニーリング機構であるアマタを提案する。 提案するアマタは最適制御理論のレンズから十分に動機づけられ,既存の加速度法と組み合わせることで,さらなる性能向上が期待できる。 標準的なデータセットでは、Amataは従来の手法に比べて約1/3から1/2の計算時間で同様の、あるいはより良いロバスト性を達成することができる。 加えて、アマタは他の敵の訓練加速アルゴリズム(例えば)に組み込むことができる。 YOPO, Free, Fast, ATTA) は大規模問題の計算時間を短縮する。

Despite the empirical success in various domains, it has been revealed that deep neural networks are vulnerable to maliciously perturbed input data that much degrade their performance. This is known as adversarial attacks. To counter adversarial attacks, adversarial training formulated as a form of robust optimization has been demonstrated to be effective. However, conducting adversarial training brings much computational overhead compared with standard training. In order to reduce the computational cost, we propose an annealing mechanism, Amata, to reduce the overhead associated with adversarial training. The proposed Amata is provably convergent, well-motivated from the lens of optimal control theory and can be combined with existing acceleration methods to further enhance performance. It is demonstrated that on standard datasets, Amata can achieve similar or better robustness with around 1/3 to 1/2 the computational time compared with traditional methods. In addition, Amata can be incorporated into other adversarial training acceleration algorithms (e.g. YOPO, Free, Fast, and ATTA), which leads to further reduction in computational time on large-scale problems.
翻訳日:2021-05-07 05:17:02 公開日:2021-03-09
# (参考訳) 新しいマルチウェーブレットに向けて:関連するフィルタとアルゴリズム。 バイオメディカルシグナル, 心電図, コロナウイルスの理論的枠組みと検討

Towards New Multiwavelets: Associated Filters and Algorithms. Part I: Theoretical Framework and Investigation of Biomedical Signals, ECG and Coronavirus Cases ( http://arxiv.org/abs/2103.08657v1 )

ライセンス: CC0 1.0
Malika Jallouli, Makerem Zemni, Anouar Ben Mabrouk and Mohamed Ali Mahjoub(参考訳) バイオシグナーは、特に新しいコロナウイルスのような人類を脅かす新しいパンデミックの出現と共に、理論と応用の両方から科学的研究の主題となっている。 本研究の目的は,マルチウェーブレットにウェーブレットのステップ前進拡張を適用することで,ウェーブレットがそのような現象を理解するのに成功していることを示すことである。 本研究では,マルチウェーブレット母関数とマルチウェーブレット母関数の独立成分を用いて,より一般的なファミリーを構築することにより,マルチウェーブレット概念を改善するための第一歩として提案する。 その後、特別なマルチウェーブレットが導入され、連続および離散のマルチウェーブレット変換と、新しいフィルターと分解および再構成のアルゴリズムが関連付けられる。 構築されたマルチウェーブレットフレームワークは、高速アルゴリズム、ECG信号、コロナウイルス処理の株を示すいくつかの実験に応用される。

Biosignals are nowadays important subjects for scientific researches from both theory and applications especially with the appearance of new pandemics threatening humanity such as the new Coronavirus. One aim in the present work is to prove that Wavelets may be successful machinery to understand such phenomena by applying a step forward extension of wavelets to multiwavelets. We proposed in a first step to improve the multiwavelet notion by constructing more general families using independent components for multi-scaling and multiwavelet mother functions. A special multiwavelet is then introduced, continuous and discrete multiwavelet transforms are associated, as well as new filters and algorithms of decomposition and reconstruction. The constructed multiwavelet framework is applied for some experimentations showing fast algorithms, ECG signal, and a strain of Coronavirus processing.
翻訳日:2021-04-05 04:35:47 公開日:2021-03-09
# (参考訳) オンライン討論会における議論の展開構造--合意なしブレグジットの場合

The Unfolding Structure of Arguments in Online Debates: The case of a No-Deal Brexit ( http://arxiv.org/abs/2103.16387v1 )

ライセンス: CC BY-SA 4.0
Carlo Santagiustina and Massimo Warglien(参考訳) 過去10年間で、政治的議論は徐々にソーシャルメディアに移行した。 これらの議論領域で活動するオンラインアクターや派閥が採用する修辞装置をキャプチャして分析することにより、社会的論争とその議論力学の統計的読解を行うことができる。 本稿では,オンライン討論の潜在的議論構造を抽出し,分類し,探索する5段階の方法論を提案する。 合意なし」ブレグジットに関するTwitterのデータを用いて、このイベントが実現した場合の期待される影響に焦点を当てる。 まず,生成,破壊,因果関係の動詞を利用するregeexを用いて,ツイートに含まれる原因効果クレームを抽出する。 第2に,ユニグラムとビッグラムに基づいて推定された構造的トピックモデルを用いて,"ノーディール"効果を分類した。 第三に、議論の的となっている効果トピックを選択し、自己宣言型パルチザンユーザグループ間のトピック内議論の違いを探求する。 そこで, トピック相関ネットワークを用いて, コヒーレントなトピックの星座を特定するための議論のトポロジ的構造について検討した。 最後に,議論の時間ダイナミクスを分析し,派閥間のリード・フォロー関係を推察する。 提案手法は,議論の統計的レトリック分析を行い,議論のアーキテクチャを時間をかけてマッピングするために有効であることを示す。 特に、"no-deal"ブレグジットの議論は、議論の派閥のコンステレーションと、創造と破壊に関連する動詞を通じて引き起こされる分極化された物語の枠組みによって特徴づけられる、多様な議論構造を持っていることが示されている。 本研究は,議論の分析にシステム的アプローチを導入することのメリットを強調し,オンライン討論に使用される議論間の話題的・派閥的依存関係を明らかにすることを可能にした。

In the last decade, political debates have progressively shifted to social media. Rhetorical devices employed by online actors and factions that operate in these debating arenas can be captured and analysed to conduct a statistical reading of societal controversies and their argumentation dynamics. In this paper, we propose a five-step methodology, to extract, categorize and explore the latent argumentation structures of online debates. Using Twitter data about a "no-deal" Brexit, we focus on the expected effects in case of materialisation of this event. First, we extract cause-effect claims contained in tweets using RegEx that exploit verbs related to Creation, Destruction and Causation. Second, we categorise extracted "no-deal" effects using a Structural Topic Model estimated on unigrams and bigrams. Third, we select controversial effect topics and explore within-topic argumentation differences between self-declared partisan user factions. We hence type topics using estimated covariate effects on topic propensities, then, using the topics correlation network, we study the topological structure of the debate to identify coherent topical constellations. Finally, we analyse the debate time dynamics and infer lead/follow relations among factions. Results show that the proposed methodology can be employed to perform a statistical rhetorics analysis of debates, and map the architecture of controversies across time. In particular, the "no-deal" Brexit debate is shown to have an assortative argumentation structure heavily characterized by factional constellations of arguments, as well as by polarized narrative frames invoked through verbs related to Creation and Destruction. Our findings highlight the benefits of implementing a systemic approach to the analysis of debates, which allows the unveiling of topical and factional dependencies between arguments employed in online debates.
翻訳日:2021-04-05 04:18:24 公開日:2021-03-09
# (参考訳) Wav2vec-C:音声表現学習のための自己教師型モデル

Wav2vec-C: A Self-supervised Model for Speech Representation Learning ( http://arxiv.org/abs/2103.08393v1 )

ライセンス: CC BY 4.0
Samik Sadhu, Di He, Che-Wei Huang, Sri Harish Mallidi, Minhua Wu, Ariya Rastrow, Andreas Stolcke, Jasha Droppo, Roland Maas(参考訳) Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた新しい表現学習技術を導入した。 本モデルでは,wav2vec 2.0に類似した方法を用いて,部分的にマスクされた音声符号化から量子化表現を再現することを学ぶ。 しかしながら、量子化プロセスは、VQ-VAEモデルに似た方法で量子化表現からwav2vec 2.0ネットワークへの入力特徴の再構成を学ぶ追加の整合ネットワークによって正規化される。 提案した自己教師型モデルは、10k時間のラベル付きデータに基づいてトレーニングされ、RNN-T ASRモデルの音声エンコーダとして使用され、1k時間のラベル付きデータで微調整される。 この研究は、大量の実遠距離ラベル付きデータを用いた音声タスクにおける自己教師付き学習のごく少数の研究の1つである。 Wav2vec-Cエンコード表現は平均してベースラインの2倍のエラー低減と、wav2vec 2.0と比較して高いコードブック利用を実現する

Wav2vec-C introduces a novel representation learning technique combining elements from wav2vec 2.0 and VQ-VAE. Our model learns to reproduce quantized representations from partially masked speech encoding using a contrastive loss in a way similar to Wav2vec 2.0. However, the quantization process is regularized by an additional consistency network that learns to reconstruct the input features to the wav2vec 2.0 network from the quantized representations in a way similar to a VQ-VAE model. The proposed self-supervised model is trained on 10k hours of unlabeled data and subsequently used as the speech encoder in a RNN-T ASR model and fine-tuned with 1k hours of labeled data. This work is one of only a few studies of self-supervised learning on speech tasks with a large volume of real far-field labeled data. The Wav2vec-C encoded representations achieves, on average, twice the error reduction over baseline and a higher codebook utilization in comparison to wav2vec 2.0
翻訳日:2021-04-05 04:17:12 公開日:2021-03-09
# NetVec: スケーラブルなハイパーグラフ埋め込みシステム

NetVec: A Scalable Hypergraph Embedding System ( http://arxiv.org/abs/2103.09660v1 )

ライセンス: Link先を確認
Sepideh Maleki, Dennis P. Wall, Keshav Pingali(参考訳) ネットワークデータにおける頂点分類やリンク予測といった多くの問題をグラフ埋め込みを用いて解くことができ、そのような埋め込みを構築するために多くのアルゴリズムが知られている。 しかし、頂点のコミュニティのような二項関係をつかむグラフを使うのは難しい。 このような複雑な関係はハイパーグラフとしてより自然に表現される。 ハイパーグラフはグラフの一般化である一方、最先端のグラフ埋め込み技術は、合理的な時間で大きなハイパーグラフ上の予測と分類タスクを正確に解くには不十分である。 本稿では、スケーラブルな非教師付きハイパーグラフ埋め込みのための新しいマルチレベルフレームワークであるNetVecを紹介し、グラフ埋め込みアルゴリズムと組み合わせることで、数百万のノードとハイパーエッジとのハイパーグラフの埋め込みを数分で生成する。

Many problems such as vertex classification andlink prediction in network data can be solvedusing graph embeddings, and a number of algo-rithms are known for constructing such embed-dings. However, it is difficult to use graphs tocapture non-binary relations such as communitiesof vertices. These kinds of complex relations areexpressed more naturally as hypergraphs. Whilehypergraphs are a generalization of graphs, state-of-the-art graph embedding techniques are notadequate for solving prediction and classificationtasks on large hypergraphs accurately in reason-able time. In this paper, we introduce NetVec,a novel multi-level framework for scalable un-supervised hypergraph embedding, that can becoupled with any graph embedding algorithm toproduce embeddings of hypergraphs with millionsof nodes and hyperedges in a few minutes.
翻訳日:2021-04-05 00:58:00 公開日:2021-03-09
# 非循環的過渡状態構造を有するMDPの最適政策イテレーション

Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure ( http://arxiv.org/abs/2102.00030v3 )

ライセンス: Link先を確認
Joseph Lubars, Anna Winnicki, Michael Livesay and R. Srikant(参考訳) すべての定常ポリシーが基礎となるマルコフ連鎖のグラフ構造を誘導するマルコフ決定過程(MDP)を考えると、グラフは以下の性質を持つ。 このようなMDPに対して、楽観的なポリシー反復(OPI)のバージョンに関連する確率力学の収束をTsitsiklis (2002) に提案し、OPIの各イテレーションで訪れた全てのノードに関連する値を更新する。

We consider Markov Decision Processes (MDPs) in which every stationary policy induces the same graph structure for the underlying Markov chain and further, the graph has the following property: if we replace each recurrent class by a node, then the resulting graph is acyclic. For such MDPs, we prove the convergence of the stochastic dynamics associated with a version of optimistic policy iteration (OPI), suggested in Tsitsiklis (2002), in which the values associated with all the nodes visited during each iteration of the OPI are updated.
翻訳日:2021-04-05 00:26:54 公開日:2021-03-09
# ヒンディー語テキストにおける敵意検出のためのディープラーニングモデルの評価

Evaluation of Deep Learning Models for Hostility Detection in Hindi Text ( http://arxiv.org/abs/2101.04144v3 )

ライセンス: Link先を確認
Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi(参考訳) ソーシャルメディアプラットフォームは、個人的思考を表現し、有用な情報を共有するための便利な媒体である。 速くて簡潔で、数百万人に達する能力がある。 思想のアーカイブ、芸術的内容の共有、フィードバックの受け取り、商品の宣伝などに有効な場所である。 多くの利点があるにもかかわらず、これらのプラットフォームは敵対的な投稿を後押ししている。 憎しみの言葉や軽蔑的な発言は、個人的な満足や政治的利益のために投稿されている。 敵対的な投稿は、プラットフォーム全体の敵対的な体験をもたらすいじめ効果を持つ。 したがって、ソーシャルメディア衛生を維持するためには敵対的姿勢の検出が重要である。 問題は、リソースが少ないヒンディー語のようなより発音しやすい言語である。 本研究では,ヒンディー語における敵対的テキスト検出手法を提案する。 提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。 データセットは、ソーシャルメディアプラットフォームから収集された敵対的テキストと非敵対的テキストで構成されている。 敵のポストはさらに、偽物、攻撃的、憎しみ、および非難の重なり合うクラスに分離される。 この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。 IndicNLPとFacebookによる事前訓練されたHindiの高速テキストワード埋め込みは、CNNやLSTMモデルと組み合わせて使用される。 事前訓練された多言語変換言語モデル mBERT と IndicBERT の2つのバリエーションが使用されている。 BERTをベースとしたモデルの性能が最良であることを示す。 さらに、CNNとLSTMモデルはBERTベースのモデルと競合する。

The social media platform is a convenient medium to express personal thoughts and share useful information. It is fast, concise, and has the ability to reach millions. It is an effective place to archive thoughts, share artistic content, receive feedback, promote products, etc. Despite having numerous advantages these platforms have given a boost to hostile posts. Hate speech and derogatory remarks are being posted for personal satisfaction or political gain. The hostile posts can have a bullying effect rendering the entire platform experience hostile. Therefore detection of hostile posts is important to maintain social media hygiene. The problem is more pronounced languages like Hindi which are low in resources. In this work, we present approaches for hostile text detection in the Hindi language. The proposed approaches are evaluated on the Constraint@AAAI 2021 Hindi hostility detection dataset. The dataset consists of hostile and non-hostile texts collected from social media platforms. The hostile posts are further segregated into overlapping classes of fake, offensive, hate, and defamation. We evaluate a host of deep learning approaches based on CNN, LSTM, and BERT for this multi-label classification problem. The pre-trained Hindi fast text word embeddings by IndicNLP and Facebook are used in conjunction with CNN and LSTM models. Two variations of pre-trained multilingual transformer language models mBERT and IndicBERT are used. We show that the performance of BERT based models is best. Moreover, CNN and LSTM models also perform competitively with BERT based models.
翻訳日:2021-04-04 14:49:48 公開日:2021-03-09
# (参考訳) フローベースコンシステンシーを用いた自己監督型容器の強化

Self-Supervised Vessel Enhancement Using Flow-Based Consistencies ( http://arxiv.org/abs/2101.05145v2 )

ライセンス: CC BY 4.0
Rohit Jena, Sumedha Singla, Kayhan Batmanghelich(参考訳) 血管セグメンテーションは多くの臨床応用において必須の課題である。 教師付き手法は最先端の性能を達成したが、専門家アノテーションの取得は困難であり、ほとんどはサンプルサイズが小さい2次元データセットに限られている。 それとは対照的に、教師なしの手法は管のような管状の構造を検出するために手作りの特徴に依存する。 しかし、これらのメソッドには複雑なパイプラインが必要であり、いくつかのハイパーパラメータと設計選択が、手順に敏感で、データセットに特有で、一般化できない。 本稿では,モダリティにまたがって一般化可能な超パラメータを限定した自己教師付き手法を提案する。 本手法は,学習アルゴリズムに帰納バイアスを導入するために,接続性,プロファイル整合性,分岐性などの管状構造特性を用いる。 これらの特性をモデル化するために、フローと呼ばれるベクトル場を生成する。 2次元および3次元の公開データセットを用いた実験により,ラベルなしデータから有用な特徴を学習しながら,教師なし手法よりも優れた性能を示す。 一般的な自己教師あり手法とは異なり、学習された特徴は教師付きアプローチで転送可能な容器関連特徴を学習する。

Vessel segmentation is an essential task in many clinical applications. Although supervised methods have achieved state-of-art performance, acquiring expert annotation is laborious and mostly limited for two-dimensional datasets with a small sample size. On the contrary, unsupervised methods rely on handcrafted features to detect tube-like structures such as vessels. However, those methods require complex pipelines involving several hyper-parameters and design choices rendering the procedure sensitive, dataset-specific, and not generalizable. We propose a self-supervised method with a limited number of hyper-parameters that is generalizable across modalities. Our method uses tube-like structure properties, such as connectivity, profile consistency, and bifurcation, to introduce inductive bias into a learning algorithm. To model those properties, we generate a vector field that we refer to as a flow. Our experiments on various public datasets in 2D and 3D show that our method performs better than unsupervised methods while learning useful transferable features from unlabeled data. Unlike generic self-supervised methods, the learned features learn vessel-relevant features that are transferable for supervised approaches, which is essential when the number of annotated data is limited.
翻訳日:2021-03-30 12:26:24 公開日:2021-03-09
# 深層強化学習のための異なる信頼領域層

Differentiable Trust Region Layers for Deep Reinforcement Learning ( http://arxiv.org/abs/2101.09207v2 )

ライセンス: Link先を確認
Fabian Otto, Philipp Becker, Ngo Anh Vien, Hanna Carolin Ziesche, and Gerhard Neumann(参考訳) 信頼領域メソッドは、連続的および離散的なアクションスペースにおいて堅牢なポリシー更新を提供するため、強化学習において一般的なツールである。 しかし,このような信頼領域を深層強化学習で強制することは困難である。 したがって、信頼地域政策最適化(TRPO)やPPO(Pximal Policy Optimization)といった多くのアプローチは近似に基づいている。 これらの近似により、それらは制約を破ったり、信頼領域内で最適な解を見つけられなかったりする。 さらに、それらは実装が難しく、しばしば十分な探索ができず、一見無関係な実装の選択に依存することが示されている。 本研究では,クローズド・フォーム・プロジェクションによる深いガウス政策の信頼領域を強制するニューラルネットワーク層を提案する。 既存の方法とは異なり、これらのレイヤは各状態の信頼領域を個別に形式化し、既存の強化学習アルゴリズムを補完することができる。 ガウス分布に対するkullback-leiblerの発散、wasserstein l2距離、およびフロベニウスノルムに基づく信頼領域の射影を導出する。 我々は、これらのプロジェクション層が、特定の実装選択にほとんど依存せず、既存のメソッドと類似またはより良い結果が得られることを実証的に示す。 コードはhttps://git.io/jthb0で入手できる。

Trust region methods are a popular tool in reinforcement learning as they yield robust policy updates in continuous and discrete action spaces. However, enforcing such trust regions in deep reinforcement learning is difficult. Hence, many approaches, such as Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), are based on approximations. Due to those approximations, they violate the constraints or fail to find the optimal solution within the trust region. Moreover, they are difficult to implement, often lack sufficient exploration, and have been shown to depend on seemingly unrelated implementation choices. In this work, we propose differentiable neural network layers to enforce trust regions for deep Gaussian policies via closed-form projections. Unlike existing methods, those layers formalize trust regions for each state individually and can complement existing reinforcement learning algorithms. We derive trust region projections based on the Kullback-Leibler divergence, the Wasserstein L2 distance, and the Frobenius norm for Gaussian distributions. We empirically demonstrate that those projection layers achieve similar or better results than existing methods while being almost agnostic to specific implementation choices. The code is available at https://git.io/Jthb0.
翻訳日:2021-03-20 17:12:46 公開日:2021-03-09
# (参考訳) AI Index 2021年次報告書

The AI Index 2021 Annual Report ( http://arxiv.org/abs/2103.06312v1 )

ライセンス: CC BY 4.0
Daniel Zhang, Saurabh Mishra, Erik Brynjolfsson, John Etchemendy, Deep Ganguli, Barbara Grosz, Terah Lyons, James Manyika, Juan Carlos Niebles, Michael Sellitto, Yoav Shoham, Jack Clark, Raymond Perrault(参考訳) AI Index Reportの第4版にようこそ。 今年はレポートで利用可能なデータの量を大幅に拡大し、私たちのデータを校正する外部組織と協力し、stanford institute for human-centered artificial intelligence(hai)とのつながりを深めました。 AI Index Reportは、人工知能に関連するデータを追跡、照合、蒸留、可視化する。 そのミッションは、政策立案者、研究者、幹部、ジャーナリスト、そして一般大衆にAIの複雑な分野に関する直観を開発するために、偏見のない、厳格に審査された、グローバルにソースされたデータを提供することだ。 このレポートは、世界で最も信頼できる、AIに関するデータと洞察の情報源になることを目指している。

Welcome to the fourth edition of the AI Index Report. This year we significantly expanded the amount of data available in the report, worked with a broader set of external organizations to calibrate our data, and deepened our connections with the Stanford Institute for Human-Centered Artificial Intelligence (HAI). The AI Index Report tracks, collates, distills, and visualizes data related to artificial intelligence. Its mission is to provide unbiased, rigorously vetted, and globally sourced data for policymakers, researchers, executives, journalists, and the general public to develop intuitions about the complex field of AI. The report aims to be the most credible and authoritative source for data and insights about AI in the world.
翻訳日:2021-03-13 01:19:35 公開日:2021-03-09
# (参考訳) HOT-VAE:意図に基づく変分オートエンコーダによる複数ラベル分類のための高次ラベル相関学習

HOT-VAE: Learning High-Order Label Correlation for Multi-Label Classification via Attention-Based Variational Autoencoders ( http://arxiv.org/abs/2103.06375v1 )

ライセンス: CC BY 4.0
Wenting Zhao, Shufeng Kong, Junwen Bai, Daniel Fink, and Carla Gomes(参考訳) 環境特性が生物多様性のパターンにどう影響するかを理解することは、地球規模の変化の緩和に不可欠である。 保全計画とモニタリングの中心的な目標は、種コミュニティの発生を正確に予測し、これらのコミュニティが空間と時間によってどのように変化するかを予測する能力である。 この結果、コンピュータ科学の分野では、何百ものラベルでac-curateマルチラベル分類を実行する方法 - 困難で長年にわたる問題につながりますか? この問題の鍵となる課題は、予測するラベルの数に関する指数的な出力空間であり、これまではラベル間の相関(または依存)を利用して学習プロセスを促進することが不可欠である。 以前の手法はラベルペアの相関のモデル化に主に焦点を合わせていたが、現実世界のオブジェクト間の複雑な関係はしばしば二階を越えている。 本稿では,適応型高次ラベル相関学習を行うマルチラベル分類のための新しいフレームワーク,high-order tie-in variational autoencoder (hot-vae)を提案する。 本モデルが従来のF1スコアとさまざまな生態学的指標の両方の鳥の分布データセットにおける既存の最先端のアプローチを上回っていることを実験的に検証した。 また,本手法が一般的であることを示すため,いくつかのアプリケーション領域において,他の7つの公開実世界のデータセットに対して経験的解析を行い,Hot-VAEは従来の手法よりも優れた性能を示す。

Understanding how environmental characteristics affect bio-diversity patterns, from individual species to communities of species, is critical for mitigating effects of global change. A central goal for conservation planning and monitoring is the ability to accurately predict the occurrence of species communities and how these communities change over space and time. This in turn leads to a challenging and long-standing problem in the field of computer science - how to perform ac-curate multi-label classification with hundreds of labels? The key challenge of this problem is its exponential-sized output space with regards to the number of labels to be predicted.Therefore, it is essential to facilitate the learning process by exploiting correlations (or dependency) among labels. Previous methods mostly focus on modelling the correlation on label pairs; however, complex relations between real-world objects often go beyond second order. In this paper, we pro-pose a novel framework for multi-label classification, High-order Tie-in Variational Autoencoder (HOT-VAE), which per-forms adaptive high-order label correlation learning. We experimentally verify that our model outperforms the existing state-of-the-art approaches on a bird distribution dataset on both conventional F1 scores and a variety of ecological metrics. To show our method is general, we also perform empirical analysis on seven other public real-world datasets in several application domains, and Hot-VAE exhibits superior performance to previous methods.
翻訳日:2021-03-12 19:24:59 公開日:2021-03-09
# (参考訳) 氷河のフロント検出とセグメンテーションのための画素間距離回帰

Pixel-wise Distance Regression for Glacier Calving Front Detection and Segmentation ( http://arxiv.org/abs/2103.05715v1 )

ライセンス: CC BY 4.0
Amirabbas Davari, Christoph Baller, Thorsten Seehaus, Matthias Braun, Andreas Maier, Vincent Christlein(参考訳) 氷河崩壊前位置 (CFP) は重要な氷河学的な変数である。 伝統的に、CFPの記述は手動で行われており、主観的で退屈で高価でした。 このプロセスの自動化は、氷河の進化と現状を継続的に監視するために重要である。 近年,本手法の深層学習への応用が検討されている。 しかし、現在のメソッドは厳しいクラスアンバランスの問題に直面する。 本研究では,セグメンテーション問題を画素方向回帰タスクに再構成することにより,カルビングフロントクラスと非カルビングフロントクラスとの間のクラス不均衡を軽減することを提案する。 畳み込みニューラルネットワークは、画像の各画素に対する氷河面の距離値を予測するために最適化される。 得られた距離マップはCFPをローカライズし、さらに後処理して曲線の先頭線を抽出する。 本稿では,3つの後処理手法,統計しきい値に基づく1つの方法,条件付き乱数場(CRF)に基づく2番目の方法,そして最後に第2のU-Netを使用する方法を提案する。 実験の結果,本手法は最先端手法を著しく上回っており,正確なデライン化が得られていることがわかった。 第2のU-Netは最高の性能が得られるので、平均的な21%のダイス係数向上が得られる。

Glacier calving front position (CFP) is an important glaciological variable. Traditionally, delineating the CFPs has been carried out manually, which was subjective, tedious and expensive. Automating this process is crucial for continuously monitoring the evolution and status of glaciers. Recently, deep learning approaches have been investigated for this application. However, the current methods get challenged by a severe class-imbalance problem. In this work, we propose to mitigate the class-imbalance between the calving front class and the non-calving front class by reformulating the segmentation problem into a pixel-wise regression task. A Convolutional Neural Network gets optimized to predict the distance values to the glacier front for each pixel in the image. The resulting distance map localizes the CFP and is further post-processed to extract the calving front line. We propose three post-processing methods, one method based on statistical thresholding, a second method based on conditional random fields (CRF), and finally the use of a second U-Net. The experimental results confirm that our approach significantly outperforms the state-of-the-art methods and produces accurate delineation. The Second U-Net obtains the best performance results, resulting in an average improvement of about 21% dice coefficient enhancement.
翻訳日:2021-03-12 15:18:20 公開日:2021-03-09
# (参考訳) 計画によるエンドツーエンドの人間運動予測器の補完について

On complementing end-to-end human motion predictors with planning ( http://arxiv.org/abs/2103.05661v1 )

ライセンス: CC BY 4.0
Liting Sun, Xiaogang Jia, Anca D. Dragan(参考訳) 人間の運動予測のための高容量エンドツーエンドアプローチは、人間の行動における微妙なニュアンスを表現する能力を持つが、分布入力やテールイベントから外れた頑健さに苦しむ。 一方、計画に基づく予測は、分布シフトの面においてはるかに安定しているが、誘導バイアスが高く、人間の決定を駆動する重要な側面が欠如しており、人間の振る舞いを最適にするための認知バイアスを無視している。 本研究では,両世界のベストを目指すアプローチの1つのファミリを分析する。一般的なケースでエンドツーエンドの予測器を使うが,テールイベントやアウトオブディストリビューション入力には依存しない - そこに計画ベースの予測器に切り替える。 我々は、自動運転ドメインを用いて、この切り替えをいつ行うかを検出するための、異なるアプローチの分析に寄与する。 トレーニング分布のアンサンブルや生成的モデリングに基づく有望なアプローチは信頼性が低いかも知れないが、予測された軌跡の終末問題に対処するための分類器を訓練するなど、驚くほどうまく機能する非常に単純な方法が存在する。

High capacity end-to-end approaches for human motion prediction have the ability to represent subtle nuances in human behavior, but struggle with robustness to out of distribution inputs and tail events. Planning-based prediction, on the other hand, can reliably output decent-but-not-great predictions: it is much more stable in the face of distribution shift, but it has high inductive bias, missing important aspects that drive human decisions, and ignoring cognitive biases that make human behavior suboptimal. In this work, we analyze one family of approaches that strive to get the best of both worlds: use the end-to-end predictor on common cases, but do not rely on it for tail events / out-of-distribution inputs -- switch to the planning-based predictor there. We contribute an analysis of different approaches for detecting when to make this switch, using an autonomous driving domain. We find that promising approaches based on ensembling or generative modeling of the training distribution might not be reliable, but that there very simple methods which can perform surprisingly well -- including training a classifier to pick up on tell-tale issues in predicted trajectories.
翻訳日:2021-03-12 11:48:31 公開日:2021-03-09
# (参考訳) プレイヤーモデリングのためのアクションモデル学習に向けて

Towards Action Model Learning for Player Modeling ( http://arxiv.org/abs/2103.05682v1 )

ライセンス: CC BY 4.0
Abhijeet Krishnan, Aaron Williams, Chris Martens(参考訳) プレイヤーモデリングは、ゲームにおけるプレイヤーの振る舞いを正確に近似する計算モデルを作ろうとする。 ほとんどのプレイヤーモデリング技術はドメイン知識に依存しており、ゲーム間で転送できない。 加えて、プレイヤーモデルは現在、心的モデルの作成や洗練など、プレイヤーの認知過程に関する説明的な洞察を与えていない。 本稿では、アクションモデル学習(AML)を用いて、プレイトレースの形式で与えられたデータからアクションモデルが学習され、プレイヤーモデルをドメインに依存しない方法で学習する。 プレイヤーがゲームの仕組みをいかによく理解しているかを定量的に推定する手法を導入することで,このモデルの有用性を実証する。 プレイヤーモデリングのための既存のAMLアルゴリズム(FAMA)を評価し、プレイヤー認知に触発されたBlackoutと呼ばれる新しいアルゴリズムを開発する。 我々はパズルゲームsokobanを用いてblackoutとfamaを比較し、blackoutがより良いプレイヤーモデルを生成することを示した。

Player modeling attempts to create a computational model which accurately approximates a player's behavior in a game. Most player modeling techniques rely on domain knowledge and are not transferable across games. Additionally, player models do not currently yield any explanatory insight about a player's cognitive processes, such as the creation and refinement of mental models. In this paper, we present our findings with using action model learning (AML), in which an action model is learned given data in the form of a play trace, to learn a player model in a domain-agnostic manner. We demonstrate the utility of this model by introducing a technique to quantitatively estimate how well a player understands the mechanics of a game. We evaluate an existing AML algorithm (FAMA) for player modeling and develop a novel algorithm called Blackout that is inspired by player cognition. We compare Blackout with FAMA using the puzzle game Sokoban and show that Blackout generates better player models.
翻訳日:2021-03-12 09:51:30 公開日:2021-03-09
# (参考訳) 時間探索アルゴリズムの機械学習

Machine Learning the period finding algorithm ( http://arxiv.org/abs/2103.05708v1 )

ライセンス: CC BY 4.0
John George Francis and Anil Shaji(参考訳) 我々は、微分可能プログラミングと勾配降下を用いて、オラクルの量子コンピュータのポストアプリケーションの状態から周期情報を抽出するための時間探索アルゴリズムで使用できるユニタリ行列を見つける。 標準的な手順は逆量子フーリエ変換を使うことである。 本研究では, 周期探索アルゴリズムに適した一元行列はこれが唯一のものではないことを示唆し, 同一の変換に影響を与えることができる複数の一元行列が存在し, それらも有意に異なる。 これらの一元行列はアルゴリズムによって学習することができる。 ニューラルネットワークは、そのようなユニタリ行列とランダムに生成された行列を区別するために適用することができ、これらのユニタリは容易に識別できない特徴を持っていることを示している。

We use differentiable programming and gradient descent to find unitary matrices that can be used in the period finding algorithm to extract period information from the state of a quantum computer post application of the oracle. The standard procedure is to use the inverse quantum Fourier transform. Our findings suggest that that this is not the only unitary matrix appropriate for the period finding algorithm, There exist several unitary matrices that can affect out the same transformation and they are significantly different from each other as well. These unitary matrices can be learned by an algorithm. Neural networks can be applied to differentiate such unitary matrices from randomly generated ones indicating that these unitaries do have characteristic features that cannot otherwise be discerned easily.
翻訳日:2021-03-12 09:35:19 公開日:2021-03-09
# (参考訳) 単調アルファダイバージェンス最小化

Monotonic Alpha-divergence Minimisation ( http://arxiv.org/abs/2103.05684v1 )

ライセンス: CC BY 4.0
Kam\'elia Daudel, Randal Douc and Fran\c{c}ois Roueff(参考訳) 本稿では,各ステップにおける$\alpha$-divergenceの体系的減少を保証することにより,$\alpha$-divergence最小化を行う新しい反復アルゴリズムを提案する。 最も一般的な形式で、我々のフレームワークは与えられた混合モデルの重みと成分パラメータを同時に最適化することができる。 特に,グラデーションやパワー降下スキームなどの$\alpha$-divergence最小化のために提案されている様々な手法を構築可能である。 さらに,統合期待最大化アルゴリズムに新たな光を当てた。 我々の方法論が改良された結果をもたらすという実証的な証拠を提供する一方で、$\alpha$-divergence のパラメータ $\alpha$ を通じて柔軟性を導入することの数値的な利点を示す。

In this paper, we introduce a novel iterative algorithm which carries out $\alpha$-divergence minimisation by ensuring a systematic decrease in the $\alpha$-divergence at each step. In its most general form, our framework allows us to simultaneously optimise the weights and components parameters of a given mixture model. Notably, our approach permits to build on various methods previously proposed for $\alpha$-divergence minimisation such as gradient or power descent schemes. Furthermore, we shed a new light on an integrated Expectation Maximization algorithm. We provide empirical evidence that our methodology yields improved results, all the while illustrating the numerical benefits of having introduced some flexibility through the parameter $\alpha$ of the $\alpha$-divergence.
翻訳日:2021-03-12 04:12:59 公開日:2021-03-09
# (参考訳) 感情で音楽を生成する学習

Learning to Generate Music With Sentiment ( http://arxiv.org/abs/2103.06125v1 )

ライセンス: CC BY 4.0
Lucas N. Ferreira, Jim Whitehead(参考訳) ディープラーニングモデルは、ポリフォニック音楽の自動作曲において非常に有望な結果を示している。 しかし、そのようなモデルを制御することは、構成を望ましい目標に向けて導くために非常に困難である。 私たちは、与えられた感情で自動的に音楽を生成するモデルを制御することに興味があります。 本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。 音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。 ビデオゲームのサウンドトラックの新たなデータセットを用いて,シンボリック音楽の感情を分類するモデルの精度を評価する。 その結果, 予測精度が良好であることが判明した。 ユーザー調査によると、人間の被験者は、生成された音楽が意図された感情を持っていることに合意しましたが、否定的な部分は曖昧です。

Deep Learning models have shown very promising results in automatically composing polyphonic music pieces. However, it is very hard to control such models in order to guide the compositions towards a desired goal. We are interested in controlling a model to automatically generate music with a given sentiment. This paper presents a generative Deep Learning model that can be directed to compose music with a given sentiment. Besides music generation, the same model can be used for sentiment analysis of symbolic music. We evaluate the accuracy of the model in classifying sentiment of symbolic music using a new dataset of video game soundtracks. Results show that our model is able to obtain good prediction accuracy. A user study shows that human subjects agreed that the generated music has the intended sentiment, however negative pieces can be ambiguous.
翻訳日:2021-03-12 02:09:37 公開日:2021-03-09
# (参考訳) 非線形散逸を伴う時変電気ネットワークの勾配推定器

A Gradient Estimator for Time-Varying Electrical Networks with Non-Linear Dissipation ( http://arxiv.org/abs/2103.05636v1 )

ライセンス: CC BY 4.0
Jack Kendall(参考訳) 定点ニューラルネットワークにおける勾配推定のための平衡伝搬の手法を,電気回路としてモデル化することにより,有向時間変動ニューラルネットワークのより一般的な設定に拡張する方法を提案する。 非線形キャパシタとインダクタ、線形抵抗器とソースをモデルとした深い指向型ニューラルネットワークと、分数型メmristorと呼ばれる特殊な非線形散逸要素を記述できるラグランジアンを電気回路理論を用いて構築する。 次に、任意の損失関数に関して、シナプス伝導率などのネットワークの物理パラメータの勾配の推定子を導出する。 この推定器は完全に局所的であり、各シナプスにローカルに利用可能な情報にのみ依存する。 我々は、これらの結果を生物学的に可塑性なニューロンのネットワークに拡張する方法を提案する。 Hodgkin-Huxleyニューロン。

We propose a method for extending the technique of equilibrium propagation for estimating gradients in fixed-point neural networks to the more general setting of directed, time-varying neural networks by modeling them as electrical circuits. We use electrical circuit theory to construct a Lagrangian capable of describing deep, directed neural networks modeled using nonlinear capacitors and inductors, linear resistors and sources, and a special class of nonlinear dissipative elements called fractional memristors. We then derive an estimator for the gradient of the physical parameters of the network, such as synapse conductances, with respect to an arbitrary loss function. This estimator is entirely local, in that it only depends on information locally available to each synapse. We conclude by suggesting methods for extending these results to networks of biologically plausible neurons, e.g. Hodgkin-Huxley neurons.
翻訳日:2021-03-11 22:10:12 公開日:2021-03-09
# (参考訳) AI Arena - 分散マルチエージェント強化学習のためのフレームワーク

The AI Arena: A Framework for Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2103.05737v1 )

ライセンス: CC BY 4.0
Edward W. Staley, Corban G.Rivera, Ashley J. Llorens(参考訳) 強化学習(RL)の進歩は、多くの異なるドメインにわたる人工知能(AI)の適用における最近のブレークスルーをもたらしました。 開発環境の新たな展望により、強力なrl技術が研究者のコミュニティにもっとアクセスしやすくなっている。 しかし、既存のフレームワークの多くは、分散した異質なエージェントチームを含む、密集した都市設定や防衛関連のシナリオのような複雑な運用環境での学習の問題を直接扱うものではない。 この重要なアプリケーションのAI研究を可能にするために、分散マルチエージェント強化学習のための柔軟な抽象化を備えたスケーラブルなフレームワークであるAI Arenaを紹介します。 AI ArenaはOpenAI Gymインターフェースを拡張して、異種学習戦略と環境のローカライズドビューを備えた複数のエージェントにわたるコントロールポリシの学習の柔軟性を高める。 本フレームワークの有用性を説明するために,複数の異なる学習環境において,分散マルチエージェント学習アプローチによるパフォーマンス向上を実証した実験結果を提示した。

Advances in reinforcement learning (RL) have resulted in recent breakthroughs in the application of artificial intelligence (AI) across many different domains. An emerging landscape of development environments is making powerful RL techniques more accessible for a growing community of researchers. However, most existing frameworks do not directly address the problem of learning in complex operating environments, such as dense urban settings or defense-related scenarios, that incorporate distributed, heterogeneous teams of agents. To help enable AI research for this important class of applications, we introduce the AI Arena: a scalable framework with flexible abstractions for distributed multi-agent reinforcement learning. The AI Arena extends the OpenAI Gym interface to allow greater flexibility in learning control policies across multiple agents with heterogeneous learning strategies and localized views of the environment. To illustrate the utility of our framework, we present experimental results that demonstrate performance gains due to a distributed multi-agent learning approach over commonly-used RL techniques in several different learning environments.
翻訳日:2021-03-11 21:54:13 公開日:2021-03-09
# (参考訳) 不確実性の制約ベイズ最適化のためのサンプリング基準

A sampling criterion for constrained Bayesian optimization with uncertainties ( http://arxiv.org/abs/2103.05706v1 )

ライセンス: CC BY 4.0
Reda El Amri, Rodolphe Le Riche, C\'eline Helbert, Christophette Blanchet-Scalliet(参考訳) 我々は、関数を最適化し、制約を満たすことが求められている確率制約最適化の問題を検討する。 この問題の現実世界の偏角は、固有の計算コストのために特に困難です。 そこで本研究では,ベイズ最適化手法を提案する。 これは、いくつかの入力から不確実性が生じる状況に適用され、ジョイント制御非制御入力空間における取得基準を定義することができる。 この研究の主な貢献は、客観的関数の平均的改善と制約信頼性の両方を考慮に入れた買収基準である。 基準はステップワイズ不確実性還元論理に従って導出され、その最大化は最適制御パラメータと制御不能パラメータの両方を提供する。 評価基準を効率的に計算するために分析式が与えられる。 実験関数に関する数値的研究を行う。 サンプリング基準と問題との対応が全体の最適化の効率に寄与することを示す, 代替サンプリング基準との実験的比較を行った。 その結果、改善のばらつきを表す表現が与えられる。

We consider the problem of chance constrained optimization where it is sought to optimize a function and satisfy constraints, both of which are affected by uncertainties. The real world declinations of this problem are particularly challenging because of their inherent computational cost. To tackle such problems, we propose a new Bayesian optimization method. It applies to the situation where the uncertainty comes from some of the inputs, so that it becomes possible to define an acquisition criterion in the joint controlled-uncontrolled input space. The main contribution of this work is an acquisition criterion that accounts for both the average improvement in objective function and the constraint reliability. The criterion is derived following the Stepwise Uncertainty Reduction logic and its maximization provides both optimal controlled and uncontrolled parameters. Analytical expressions are given to efficiently calculate the criterion. Numerical studies on test functions are presented. It is found through experimental comparisons with alternative sampling criteria that the adequation between the sampling criterion and the problem contributes to the efficiency of the overall optimization. As a side result, an expression for the variance of the improvement is given.
翻訳日:2021-03-11 21:07:32 公開日:2021-03-09
# (参考訳) NaroNet:高多重免疫染色画像による腫瘍微小環境の客観的学習

NaroNet: Objective-based learning of the tumor microenvironment from highly multiplexed immunostained images ( http://arxiv.org/abs/2103.05385v1 )

ライセンス: CC BY 4.0
Daniel Jim\'enez-S\'anchez, Mikel Ariz, Hang Chang, Xavier Matias-Guiu, Carlos E. de Andrea and Carlos Ortiz-de-Sol\'orzano(参考訳) NaroNetは、マルチスケール空間を統合した機械学習フレームワークであり、腫瘍微小環境(TME)と患者レベルの予測をシームレスなエンドツーエンドの学習パイプラインに統合します。 NaroNetは患者レベルのラベルだけで訓練され、予測タスクに最も影響を与える表現型、近傍、近隣の相互作用を定量化する。 異なるTMEの確率的発生を調節可能な多重免疫染色画像の合成データを用いて,NaroNetの検証を行った。 そこで本研究では,高品位子宮内膜癌12例の336個の7色多重免疫染色像と,乳癌283例の372個の35倍の集団細胞診像からなる2種類の患者腫瘍について検討した。 合成データセットと実データセットの両方において、NaroNetはこれらの予測を特定のTMEの存在に関連付けながら優れた予測を提供します。 この内在的な解釈性は、臨床場面でも、新しいバイオマーカーのシグネチャを発見するツールとしても非常に有用である。

We present NaroNet, a Machine Learning framework that integrates the multiscale spatial, in situ analysis of the tumor microenvironment (TME) with patient-level predictions into a seamless end-to-end learning pipeline. Trained only with patient-level labels, NaroNet quantifies the phenotypes, neighborhoods, and neighborhood interactions that have the highest influence on the predictive task. We validate NaroNet using synthetic data simulating multiplex-immunostained images with adjustable probabilistic incidence of different TMEs. Then we apply our model to two real sets of patient tumors, one consisting of 336 seven-color multiplex-immunostained images from 12 high-grade endometrial cancers, and the other consisting of 372 35-plex mass cytometry images from 283 breast cancer patients. In both synthetic and real datasets, NaroNet provides outstanding predictions while associating those predictions to the presence of specific TMEs. This inherent interpretability could be of great value both in a clinical setting and as a tool to discover novel biomarker signatures.
翻訳日:2021-03-11 18:24:06 公開日:2021-03-09
# (参考訳) 文の重要度を利用した文書レベル感性分類の改善

Improving Document-Level Sentiment Classification Using Importance of Sentences ( http://arxiv.org/abs/2103.05167v1 )

ライセンス: CC BY 4.0
Gihyeon Choi, Shinhyeok Oh and Harksoo Kim(参考訳) 従来の研究者は、感情分析は文書分類タスクであり、入力された文書を予め定義された感情クラスに分類する。 文書には感情分析の重要な証拠を裏付ける文とそうでない文があるが、彼らは文書を文の袋として扱っている。 言い換えれば、彼らは文書内の各文の重要性を考慮していません。 文書の極性を効果的に決定するためには、文書内の各文は異なる重要度で扱われるべきである。 この問題に対処するため,深層ニューラルネットワークに基づく文書レベルの文分類モデルを提案し,ゲート機構を用いて文書中の文の重要度を自動的に決定する。 新しい感情分析モデルを検証するために、映画レビュー、ホテルレビュー、レストランレビュー、音楽レビューなどの4つの異なるドメインの感情データセットを使用して実験を行いました。 実験では,提案手法は文書中の文の重要さを考慮しない従来の最先端モデルよりも優れていた。 実験の結果,文書レベルの感情分類タスクでは文の重要性を考慮すべきであることがわかった。

Previous researchers have considered sentiment analysis as a document classification task, in which input documents are classified into predefined sentiment classes. Although there are sentences in a document that support important evidences for sentiment analysis and sentences that do not, they have treated the document as a bag of sentences. In other words, they have not considered the importance of each sentence in the document. To effectively determine polarity of a document, each sentence in the document should be dealt with different degrees of importance. To address this problem, we propose a document-level sentence classification model based on deep neural networks, in which the importance degrees of sentences in documents are automatically determined through gate mechanisms. To verify our new sentiment analysis model, we conducted experiments using the sentiment datasets in the four different domains such as movie reviews, hotel reviews, restaurant reviews, and music reviews. In the experiments, the proposed model outperformed previous state-of-the-art models that do not consider importance differences of sentences in a document. The experimental results show that the importance of sentences should be considered in a document-level sentiment classification task.
翻訳日:2021-03-11 17:08:12 公開日:2021-03-09
# (参考訳) 古典から階層へ:国際計画コンペティションのHTNトラックのベンチマーク

From Classical to Hierarchical: benchmarks for the HTN Track of the International Planning Competition ( http://arxiv.org/abs/2103.05481v1 )

ライセンス: CC BY 4.0
Damien Pellier, Humbert Fiorino(参考訳) 本稿では,2020年の第1回国際計画コンペティションの階層的計画トラックに提出された9つの古典的ベンチマークについて概説する。 これらのベンチマークはすべてHDDL言語に基づいている。 ベンチマークの選択は、HTNコミュニティに送られたアンケートに基づいています。 バーマン、チャイルドスナック、ローバー、サテライト、ブロックワールド、デポ、グリッパー、ハイキングである。 残りの論文では、これらのベンチマークについて簡単に説明します。 すべて完全注文です。

In this short paper, we outline nine classical benchmarks submitted to the first hierarchical planning track of the International Planning competition in 2020. All of these benchmarks are based on the HDDL language. The choice of the benchmarks was based on a questionnaire sent to the HTN community. They are the following: Barman, Childsnack, Rover, Satellite, Blocksworld, Depots, Gripper, and Hiking. In the rest of the paper we give a short description of these benchmarks. All are totally ordered.
翻訳日:2021-03-11 16:57:26 公開日:2021-03-09
# (参考訳) 深層学習モデルのカスケードを用いた異常要素検出

Anomalous entities detection using a cascade of deep learning models ( http://arxiv.org/abs/2103.05164v1 )

ライセンス: CC BY 4.0
Hamza Riaz, Muhammad Uzair and Habib Ullah(参考訳) 通常の行動に従わない人間の行動は異常と見なされ、そのような行為を異常行為と呼ぶ。 視覚データを用いた異常物体の検出はコンピュータビジョンにおける課題である。 本稿では,試験ホールの複雑な状況において異常を検知する新しい手法を提案する。 提案手法は,深層畳み込みニューラルネットワークモデルのカスケードを用いる。 第1段階では,ビデオのフレーム上で人間のポーズ推定の事前学習モデルを適用し,身体の特徴点を抽出する。 各キーポイントから抽出されたパッチを第2段階で利用し、高密度に結合した深い畳み込みニューラルネットワークモデルを構築し、異常物質を検出する。 実験のために,ホールで受験した学生のビデオデータベースを収集する。 提案手法は異常な物体を検知し,異常な挙動を高精度に保証できることを示す。

Human actions that do not conform to usual behavior are considered as anomalous and such actors are called anomalous entities. Detection of anomalous entities using visual data is a challenging problem in computer vision. This paper presents a new approach to detect anomalous entities in complex situations of examination halls. The proposed method uses a cascade of deep convolutional neural network models. In the first stage, we apply a pretrained model of human pose estimation on frames of videos to extract key feature points of body. Patches extracted from each key point are utilized in the second stage to build a densely connected deep convolutional neural network model for detecting anomalous entities. For experiments we collect a video database of students undertaking examination in a hall. Our results show that the proposed method can detect anomalous entities and warrant unusual behavior with high accuracy.
翻訳日:2021-03-11 16:43:33 公開日:2021-03-09
# (参考訳) 深層強化学習による表現接地参照のための反復シュリンキング

Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.05187v1 )

ライセンス: CC BY 4.0
Mingjie Sun, Jimin Xiao, Eng Gee Lim(参考訳) 本稿では,対象オブジェクトをクエリ文に従ってローカライズすることを目的とした,提案不要な参照表現基底タスクに,既定のオブジェクト提案を頼らずに対処する。 既存の提案なしの方法は、クエリーイメージマッチングブランチを使用して、イメージ機能マップの最高スコアポイントをターゲットボックスセンターとして選択し、その幅と高さを別のブランチで予測します。 しかし、そのようなメソッドは、対象オブジェクトと参照オブジェクトの間のコンテキスト関係を利用できず、その推論手順の解釈可能性に欠けている。 そこで本研究では,既存の画像パッチ内の全ての内容を総合的に検討し,強化学習エージェントにより縮小方向を決定するターゲットを局所化する反復縮小機構を提案する。 同時に、シーケンシャルな縮小プロセスは、ターゲットを反復的に見つける方法に関する推論を実証することを可能にする。 実験では、この手法は、クエリ文が長く複雑なRefCOCOgデータセットの以前の最新(SOTA)メソッドに対して4.32%の精度を向上し、他の参照オブジェクトから多くのターゲットが参照されている。

In this paper, we are tackling the proposal-free referring expression grounding task, aiming at localizing the target object according to a query sentence, without relying on off-the-shelf object proposals. Existing proposal-free methods employ a query-image matching branch to select the highest-score point in the image feature map as the target box center, with its width and height predicted by another branch. Such methods, however, fail to utilize the contextual relation between the target and reference objects, and lack interpretability on its reasoning procedure. To solve these problems, we propose an iterative shrinking mechanism to localize the target, where the shrinking direction is decided by a reinforcement learning agent, with all contents within the current image patch comprehensively considered. Beside, the sequential shrinking process enables to demonstrate the reasoning about how to iteratively find the target. Experiments show that the proposed method boosts the accuracy by 4.32% against the previous state-of-the-art (SOTA) method on the RefCOCOg dataset, where query sentences are long and complex, with many targets referred by other reference objects.
翻訳日:2021-03-11 16:38:42 公開日:2021-03-09
# (参考訳) 視覚注意予測のためのバイオインスパイア表現学習

Bio-Inspired Representation Learning for Visual Attention Prediction ( http://arxiv.org/abs/2103.05310v1 )

ライセンス: CC BY 4.0
Yuan Yuan, Hailong Ning, and Xiaoqiang Lu(参考訳) 視覚的注意予測(VAP)は、コンピュータビジョンの分野で重要かつ不可欠な問題です。 既存のVAPメソッドのほとんどはディープラーニングに基づいている。 しかし、視覚的注意マップを生成しながら、低レベルのコントラスト特徴を完全に活用するわけではない。 本稿では,バイオインスパイアされた表現学習による視覚的注意マップ作成のための新しいVAP手法を提案する。 バイオインスパイアされた表現学習は低レベルのコントラストと高レベルのセマンティックな特徴を同時に組み合わせ、人間の目は高いコントラストを持つパッチと高いセマンティクスを持つオブジェクトに敏感であるという事実によって発展した。 提案手法は, 特徴抽出, 2) バイオインスパイアされた表現学習, 3) 視覚的注意マップ生成の3段階からなる。 まず、洗練されたvgg16から高レベル意味特徴を抽出し、深層ネットワークにおいて提案するコントラスト特徴抽出ブロックにより低レベルのコントラスト特徴を抽出する。 次に、バイオインスパイア表現学習において、抽出された低レベルコントラストと高レベルセマンティクス特徴の両方を、様々な特徴をスケールで結合するために提案される密結合ブロックによって結合する。 最後に、重み付き融合層を使用して、バイオインスパイアされた表現学習後に得られた表現に基づいて究極の視覚的注意マップを生成します。 提案手法の有効性を示すため,広範な実験を行った。

Visual Attention Prediction (VAP) is a significant and imperative issue in the field of computer vision. Most of existing VAP methods are based on deep learning. However, they do not fully take advantage of the low-level contrast features while generating the visual attention map. In this paper, a novel VAP method is proposed to generate visual attention map via bio-inspired representation learning. The bio-inspired representation learning combines both low-level contrast and high-level semantic features simultaneously, which are developed by the fact that human eye is sensitive to the patches with high contrast and objects with high semantics. The proposed method is composed of three main steps: 1) feature extraction, 2) bio-inspired representation learning and 3) visual attention map generation. Firstly, the high-level semantic feature is extracted from the refined VGG16, while the low-level contrast feature is extracted by the proposed contrast feature extraction block in a deep network. Secondly, during bio-inspired representation learning, both the extracted low-level contrast and high-level semantic features are combined by the designed densely connected block, which is proposed to concatenate various features scale by scale. Finally, the weighted-fusion layer is exploited to generate the ultimate visual attention map based on the obtained representations after bio-inspired representation learning. Extensive experiments are performed to demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-11 16:22:43 公開日:2021-03-09
# (参考訳) PointDSC: 深部空間一貫性を用いたロバストポイントクラウド登録

PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency ( http://arxiv.org/abs/2103.05465v1 )

ライセンス: CC0 1.0
Xuyang Bai, Zixin Luo, Lei Zhou, Hongkai Chen, Lei Li, Zeyu Hu, Hongbo Fu, Chiew-Lan Tai(参考訳) 外乱対応を取り除くことは、機能ベースのポイントクラウド登録を成功させるための重要なステップの1つである。 この分野では深層学習が普及しているにもかかわらず、点雲間のユークリッド変換によって本質的に確立された空間整合性は、既存の学習フレームワークでほとんど注目されていない。 本論文では,空間整合性を明示的に組み込んだ深層ニューラルネットワークであるPointDSCについて述べる。 まず,非局所的特徴集合モジュールを提案し,その特徴と空間的コヒーレンスを重み付けて,入力対応の特徴埋め込みを行う。 第二に、組込み特徴から各対応のインリエントな信頼性を推定するために、ペアワイズ空間互換性によって監視される微分可能なスペクトルマッチングモジュールを定式化する。 計算コストはささやかなため,本手法は実世界のいくつかのデータセットにおける最先端の手作りおよび学習に基づく異常な拒絶アプローチをかなりのマージンで上回っている。 また、PointDSCと異なる3Dローカルディスクリプタを組み合わせることで、その幅広い適用性を示す。

Removing outlier correspondences is one of the critical steps for successful feature-based point cloud registration. Despite the increasing popularity of introducing deep learning methods in this field, spatial consistency, which is essentially established by a Euclidean transformation between point clouds, has received almost no individual attention in existing learning frameworks. In this paper, we present PointDSC, a novel deep neural network that explicitly incorporates spatial consistency for pruning outlier correspondences. First, we propose a nonlocal feature aggregation module, weighted by both feature and spatial coherence, for feature embedding of the input correspondences. Second, we formulate a differentiable spectral matching module, supervised by pairwise spatial compatibility, to estimate the inlier confidence of each correspondence from the embedded features. With modest computation cost, our method outperforms the state-of-the-art hand-crafted and learning-based outlier rejection approaches on several real-world datasets by a significant margin. We also show its wide applicability by combining PointDSC with different 3D local descriptors.
翻訳日:2021-03-11 15:52:14 公開日:2021-03-09
# 野生における表現認識のための多解法

A Multi-resolution Approach to Expression Recognition in the Wild ( http://arxiv.org/abs/2103.05723v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Donato Cafarelli, Giuseppe Amato, Fabrizio Falchi(参考訳) 顔表現は人間のコミュニケーションにおいて基本的な役割を担います。 実際、彼らは通常、話し言葉以外の人々の真の感情状態を明らかにする。 さらに、視覚的パターンに基づく人間の感情の理解は、人間と機械の相互作用システムにとって重要な要素であり、このような理由から、表情認識(FER)の課題は科学と産業の両方の関心を惹きつける。 近年、Deep Learningの技術は、異なるアーキテクチャと学習パラダイムを利用して、FERで非常に高いパフォーマンスを達成しました。 このような状況下では、FERタスクを解決するためのマルチリゾリューションアプローチを提案する。 私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。 したがって、モデルをトレーニングしながらその特性を直接考慮することで、表情認識において高いパフォーマンスを達成することができる。 我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。 テストセットが利用できないため、データセットを構成する7つの表現の分類において90%以上の精度を達成できるバリデーションセットのみを使用して、テストとモデル選択を行います。

Facial expressions play a fundamental role in human communication. Indeed, they typically reveal the real emotional status of people beyond the spoken language. Moreover, the comprehension of human affect based on visual patterns is a key ingredient for any human-machine interaction system and, for such reasons, the task of Facial Expression Recognition (FER) draws both scientific and industrial interest. In the recent years, Deep Learning techniques reached very high performance on FER by exploiting different architectures and learning paradigms. In such a context, we propose a multi-resolution approach to solve the FER task. We ground our intuition on the observation that often faces images are acquired at different resolutions. Thus, directly considering such property while training a model can help achieve higher performance on recognizing facial expressions. To our aim, we use a ResNet-like architecture, equipped with Squeeze-and-Excitation blocks, trained on the Affect-in-the-Wild 2 dataset. Not being available a test set, we conduct tests and models selection by employing the validation set only on which we achieve more than 90\% accuracy on classifying the seven expressions that the dataset comprises.
翻訳日:2021-03-11 15:07:37 公開日:2021-03-09
# beyond nystr\"omformer --スペクトルシフトによる自己アテンションの近似

Beyond Nystr\"omformer -- Approximation of self-attention by Spectral Shifting ( http://arxiv.org/abs/2103.05638v1 )

ライセンス: Link先を確認
Madhusudan Verma(参考訳) トランスフォーマーは多くの自然言語タスクの強力なツールであり、各トークンに対する他のトークンの依存をエンコードするメカニズムであるセルフアテンションに基づいているが、自己アテンションの計算はその二次時間の複雑さのためにボトルネックとなる。 行列の時間的複雑さと近似を減少させる方法は様々である。 Nystr\"omformerでは、著者はSoftmaxの近似にNystr\"omベースの方法を使用した。 Nystr\"om 法はSPSD行列のいくつかの列のみを用いて任意の大規模対称正半定行列に対する高速近似を生成する。 しかし、SPSD行列のスペクトルがゆっくりと減衰すると、Nystr\"om近似は低ランクであるため、Nystr\"om近似は低精度である。 ここでは、nystr\"om法よりもはるかに強い誤差境界を持つ近似に対する代替法を提案する。 この時間の複雑さは Nystr\"omformer と同じで、$O\left({n}\right)$ である。

Transformer is a powerful tool for many natural language tasks which is based on self-attention, a mechanism that encodes the dependence of other tokens on each specific token, but the computation of self-attention is a bottleneck due to its quadratic time complexity. There are various approaches to reduce the time complexity and approximation of matrix is one such. In Nystr\"omformer, the authors used Nystr\"om based method for approximation of softmax. The Nystr\"om method generates a fast approximation to any large-scale symmetric positive semidefinite (SPSD) matrix using only a few columns of the SPSD matrix. However, since the Nystr\"om approximation is low-rank when the spectrum of the SPSD matrix decays slowly, the Nystr\"om approximation is of low accuracy. Here an alternative method is proposed for approximation which has a much stronger error bound than the Nystr\"om method. The time complexity of this same as Nystr\"omformer which is $O\left({n}\right)$.
翻訳日:2021-03-11 15:06:39 公開日:2021-03-09
# オフポリシー評価の非無症状的信頼のインターバル:プライマリ境界とデュアルバウンド

Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds ( http://arxiv.org/abs/2103.05741v1 )

ライセンス: Link先を確認
Yihao Feng, Ziyang Tang, Na Zhang, Qiang Liu(参考訳) オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。 したがって、OPEは、インタラクティブなデータ収集が高価または安全でない医療などの現実世界のドメインに強化学習を適用するための重要なステップです。 観測データはノイズが多く制限される傾向にあるため、高利得決定にOPEを適用する際には、点推定だけでなく厳密な不確実性定量化を提供することが不可欠である。 本研究では, 無限水平オフポリシー評価における非無症状信頼区間の構築の問題を検討する。 Fengらによるカーネルベルマン損失(KBL)を利用した,原始双対最適化に基づく実用的なアルゴリズムを開発した。 (2019)とkblの新しいマルティンゲール濃度不等式は、未知混合条件を持つ時間依存データに適用できる。 提案アルゴリズムは,Q関数のデータと関数クラスについて最小限の仮定を行い,任意の未知の動作ポリシーの混合の下でデータを収集する振る舞いに依存しない設定で機能する。 既存の手法に対するアプローチの利点を明確に示す実証的な結果を示す。

Off-policy evaluation (OPE) is the task of estimating the expected reward of a given policy based on offline data previously collected under different policies. Therefore, OPE is a key step in applying reinforcement learning to real-world domains such as medical treatment, where interactive data collection is expensive or even unsafe. As the observed data tends to be noisy and limited, it is essential to provide rigorous uncertainty quantification, not just a point estimation, when applying OPE to make high stakes decisions. This work considers the problem of constructing non-asymptotic confidence intervals in infinite-horizon off-policy evaluation, which remains a challenging open question. We develop a practical algorithm through a primal-dual optimization-based approach, which leverages the kernel Bellman loss (KBL) of Feng et al.(2019) and a new martingale concentration inequality of KBL applicable to time-dependent data with unknown mixing conditions. Our algorithm makes minimum assumptions on the data and the function class of the Q-function, and works for the behavior-agnostic settings where the data is collected under a mix of arbitrary unknown behavior policies. We present empirical results that clearly demonstrate the advantages of our approach over existing methods.
翻訳日:2021-03-11 15:06:08 公開日:2021-03-09
# パラメータドリフト下における一般線形帯域のレグレト境界

Regret Bounds for Generalized Linear Bandits under Parameter Drift ( http://arxiv.org/abs/2103.05750v1 )

ライセンス: Link先を確認
Louis Faury and Yoan Russac and Marc Abeille and Cl\'ement Calauz\`enes(参考訳) 一般化線形帯域(GLB)は線形帯域(LB)設定の強力な拡張であり、線形性を超えた報酬パラメトリゼーションの利点を拡大する。 本稿では,非定常環境におけるglbsの研究を行い,変動ブジェット(変分パラメータドリフト)と呼ばれる非定常性の一般的な指標を,$b_t$ で表した。 LBアルゴリズムをこの設定に拡張する以前の試みが行われているが、結果に欠陥があるGLBの重大な機能を見落としている。 本研究では,この難易度に対処する新たなアルゴリズムを提案する。 作用集合上の幾何学的仮定の下では、我々のアプローチは$\tilde{\mathcal{O}}(B_T^{1/3}T^{2/3})$ regret bound である。 一般の場合、それは最大$\tilde{\mathcal{O}}(B_T^{1/5}T^{4/5})$後悔に苦しむことを示しています。 私たちの貢献の核は、Filippi et alで導入された射影ステップの一般化である。 (2010) この問題の非定常性に適応した。 本分析は,学習の処理と追跡の側面を明示的に分割することで,設定から受け継いだ中心的メカニズムに光を当てる。

Generalized Linear Bandits (GLBs) are powerful extensions to the Linear Bandit (LB) setting, broadening the benefits of reward parametrization beyond linearity. In this paper we study GLBs in non-stationary environments, characterized by a general metric of non-stationarity known as the variation-budget or \emph{parameter-drift}, denoted $B_T$. While previous attempts have been made to extend LB algorithms to this setting, they overlook a salient feature of GLBs which flaws their results. In this work, we introduce a new algorithm that addresses this difficulty. We prove that under a geometric assumption on the action set, our approach enjoys a $\tilde{\mathcal{O}}(B_T^{1/3}T^{2/3})$ regret bound. In the general case, we show that it suffers at most a $\tilde{\mathcal{O}}(B_T^{1/5}T^{4/5})$ regret. At the core of our contribution is a generalization of the projection step introduced in Filippi et al. (2010), adapted to the non-stationary nature of the problem. Our analysis sheds light on central mechanisms inherited from the setting by explicitly splitting the treatment of the learning and tracking aspects of the problem.
翻訳日:2021-03-11 15:05:47 公開日:2021-03-09
# 映像中の物体発見予測による自己スーパービジョン

Self-Supervision by Prediction for Object Discovery in Videos ( http://arxiv.org/abs/2103.05669v1 )

ライセンス: Link先を確認
Beril Besbinar, Pascal Frossard(参考訳) その耐え難い成功にもかかわらず、ディープラーニングアルゴリズムはまだ注釈付きデータに大きく依存しています。 一方、監視されていない設定は、特に多様なシナリオにおける適切な誘導バイアスを決定することについて、多くの課題を引き起こします。 スケーラブルなソリューションの1つは、自己監視学習と呼ばれる入力データの一部を活用して、モデルが自身で監視を生成することです。 本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。 物体の概念と運動ダイナミクスを解き放つことに加えて、私たちの構成構造は、予測されたフレームの組成のための推測されたオブジェクトと背景の閉塞と描画を明示的に処理します。 空間的および時間的に一貫したオブジェクト表現を促進する補助的損失関数の支援により、手作業によるアノテーションや事前学習されたネットワークの助けなしに、自己教師付きフレームワークをトレーニングできる。 最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。

Despite their irresistible success, deep learning algorithms still heavily rely on annotated data. On the other hand, unsupervised settings pose many challenges, especially about determining the right inductive bias in diverse scenarios. One scalable solution is to make the model generate the supervision for itself by leveraging some part of the input data, which is known as self-supervised learning. In this paper, we use the prediction task as self-supervision and build a novel object-centric model for image sequence representation. In addition to disentangling the notion of objects and the motion dynamics, our compositional structure explicitly handles occlusion and inpaints inferred objects and background for the composition of the predicted frame. With the aid of auxiliary loss functions that promote spatially and temporally consistent object representations, our self-supervised framework can be trained without the help of any manual annotation or pretrained network. Initial experiments confirm that the proposed pipeline is a promising step towards object-centric video prediction.
翻訳日:2021-03-11 15:04:55 公開日:2021-03-09
# アラビアサルカズム検出と感情同定のためのコンテキストフリー表現とコンテキスト付き表現の組み合わせ

Combining Context-Free and Contextualized Representations for Arabic Sarcasm Detection and Sentiment Identification ( http://arxiv.org/abs/2103.05683v1 )

ライセンス: Link先を確認
Amey Hengle, Atharva Kshirsagar, Shaily Desai and Manisha Marathe(参考訳) その開始以来、トランスフォーマーベースの言語モデルは、複数の自然言語処理タスクで印象的なパフォーマンス向上をもたらした。 アラビア語の場合、ほとんどのデータセットにおける最新の結果は、AraBERT言語モデルによって達成されます。 これらの最近の進歩にもかかわらず、サルカズムと感情検出はアラビア語の豊富な形態、言語の違い、方言のバリエーションを考えると、難しい課題であり続けている。 本論文では,SPPU-AASM チームによる WANLP ArSarcasm shared-task 2021 の提出を示唆する。 この研究は、アラベルトの文表現とアラビア語のソーシャルメディアコーポラで訓練された静的ワードベクターを組み合わせたハイブリッドモデルを提案する。 提案方式は, 皮肉および感情検出タスクに対して, F1-sarcastic score の 0.62 と F-PN score の 0.715 をそれぞれ達成する。 シミュレーションの結果,提案手法は両タスクにおいて既存の複数のアプローチを上回っており,文脈非依存と文脈依存のテキスト表現の融合はアラビア語の単語意味の補完的ファセットを捉えるのに役立つことが示唆された。 システムは、sarcasm検出と感情識別のそれぞれのサブタスクで2位と10位にランクされています。

Since their inception, transformer-based language models have led to impressive performance gains across multiple natural language processing tasks. For Arabic, the current state-of-the-art results on most datasets are achieved by the AraBERT language model. Notwithstanding these recent advancements, sarcasm and sentiment detection persist to be challenging tasks in Arabic, given the language's rich morphology, linguistic disparity and dialectal variations. This paper proffers team SPPU-AASM's submission for the WANLP ArSarcasm shared-task 2021, which centers around the sarcasm and sentiment polarity detection of Arabic tweets. The study proposes a hybrid model, combining sentence representations from AraBERT with static word vectors trained on Arabic social media corpora. The proposed system achieves a F1-sarcastic score of 0.62 and a F-PN score of 0.715 for the sarcasm and sentiment detection tasks, respectively. Simulation results show that the proposed system outperforms multiple existing approaches for both the tasks, suggesting that the amalgamation of context-free and context-dependent text representations can help capture complementary facets of word meaning in Arabic. The system ranked second and tenth in the respective sub-tasks of sarcasm detection and sentiment identification.
翻訳日:2021-03-11 15:03:08 公開日:2021-03-09
# 高次元放物型ハミルトン・ヤコビ・ベルマン方程式に対するディープニューラルネットワーク近似

Deep neural network approximation for high-dimensional parabolic Hamilton-Jacobi-Bellman equations ( http://arxiv.org/abs/2103.05744v1 )

ライセンス: Link先を確認
Philipp Grohs and Lukas Herrmann(参考訳) 深層ニューラルネットワークによる第2次ハミルトン-ヤコビ-ベルマン方程式の解の近似について検討した。 特定のマルコフ過程の最適制御の文脈で生じるHJB方程式に対して、解は次元の呪いを起こさずに深いニューラルネットワークによって近似できることが示されている。 ダイナミクスは制御に親和的に依存し、コストは制御に2次に依存すると仮定される。 許容可能な制御は、有界集合の値を取る。

The approximation of solutions to second order Hamilton--Jacobi--Bellman (HJB) equations by deep neural networks is investigated. It is shown that for HJB equations that arise in the context of the optimal control of certain Markov processes the solution can be approximated by deep neural networks without incurring the curse of dimension. The dynamics is assumed to depend affinely on the controls and the cost depends quadratically on the controls. The admissible controls take values in a bounded set.
翻訳日:2021-03-11 15:01:07 公開日:2021-03-09
# 実写超音波画像からのコンテンツ保存型未ペア翻訳

Content-Preserving Unpaired Translation from Simulated to Realistic Ultrasound Images ( http://arxiv.org/abs/2103.05745v1 )

ライセンス: Link先を確認
Devavrat Tomar, Lin Zhang, Tiziano Portenier, Orcun Goksel(参考訳) 超音波画像のインタラクティブシミュレーションは超音波画像訓練を大いに促進する。 レイトレーシングに基づく手法は有望な結果を示したが、現実的な画像を得るにはかなりのモデリング作業と手動パラメータチューニングが必要である。 さらに、現在の技術では、シミュレーション画像と実際の臨床スキャンの間に大きなギャップが生じる。 本研究では,シミュレーションシーンの解剖学的レイアウトを保ちながら,この外観ギャップを橋渡しするための新しい画像翻訳フレームワークを提案する。 この目的を達成するために,シミュレートされた画像とセマンティックセグメンテーションを併用する。 本フレームワークは,近年のコントラストのない翻訳手法をベースとして,コンテンツやスタイルのゆがみを促進する補助的なセグメンテーション・トゥ・リアルな画像翻訳タスクを学習し,正規化手法を提案する。 さらに、生成装置をクラス条件に拡張することで、追加の損失、特に循環的整合性損失の取り込みを可能にし、翻訳品質をさらに向上する。 定性的・定量的に比較した結果,提案手法の優越性が示された。

Interactive simulation of ultrasound imaging greatly facilitates sonography training. Although ray-tracing based methods have shown promising results, obtaining realistic images requires substantial modeling effort and manual parameter tuning. In addition, current techniques still result in a significant appearance gap between simulated images and real clinical scans. In this work we introduce a novel image translation framework to bridge this appearance gap, while preserving the anatomical layout of the simulated scenes. We achieve this goal by leveraging both simulated images with semantic segmentations and unpaired in-vivo ultrasound scans. Our framework is based on recent contrastive unpaired translation techniques and we propose a regularization approach by learning an auxiliary segmentation-to-real image translation task, which encourages the disentanglement of content and style. In addition, we extend the generator to be class-conditional, which enables the incorporation of additional losses, in particular a cyclic consistency loss, to further improve the translation quality. Qualitative and quantitative comparisons against state-of-the-art unpaired translation methods demonstrate the superiority of our proposed framework.
翻訳日:2021-03-11 15:00:08 公開日:2021-03-09
# 解釈可能な機械:ランダム森林を用いた有効な予測間隔の構築

Interpretable Machines: Constructing Valid Prediction Intervals with Random Forests ( http://arxiv.org/abs/2103.05766v1 )

ライセンス: Link先を確認
Burim Ramosaj(参考訳) 最近の研究で機械学習アルゴリズムを使用する場合の重要な問題は、解釈能力の欠如です。 これらのアルゴリズムは様々な学習問題に対して正確な点予測を提供するが、点予測に関連する不確実性推定は比較的少ない。 Random Forest Regression Learnerのこのギャップへの貢献について紹介します。 アウト・オブ・バグ法に基づき、ランダムフォレスト点予測のためのパラメトリックおよび非パラメトリック予測間隔が複数提供され、その正確なカバレッジ確率に関する理論的保証が提供される。 第2部では,提案手法の性能を,(i)提案された予測間隔の正しいカバレッジ率の分析,(ii)間隔幅の検証,および(iii)提案された間隔の既存の手法による競争力の検証の3つの側面から,モンテカルロシミュレーションによる徹底的な検討を行う。 シミュレーションにより, 提案した予測区間は非正規残差分布に対して頑健であり, 比較可能な小サンプルであっても, 正確なカバレッジ率と比較可能な狭い間隔長を提供することで競合することがわかった。

An important issue when using Machine Learning algorithms in recent research is the lack of interpretability. Although these algorithms provide accurate point predictions for various learning problems, uncertainty estimates connected with point predictions are rather sparse. A contribution to this gap for the Random Forest Regression Learner is presented here. Based on its Out-of-Bag procedure, several parametric and non-parametric prediction intervals are provided for Random Forest point predictions and theoretical guarantees for its correct coverage probability is delivered. In a second part, a thorough investigation through Monte-Carlo simulation is conducted evaluating the performance of the proposed methods from three aspects: (i) Analyzing the correct coverage rate of the proposed prediction intervals, (ii) Inspecting interval width and (iii) Verifying the competitiveness of the proposed intervals with existing methods. The simulation yields that the proposed prediction intervals are robust towards non-normal residual distributions and are competitive by providing correct coverage rates and comparably narrow interval lengths, even for comparably small samples.
翻訳日:2021-03-11 14:59:10 公開日:2021-03-09
# SMIL: 過度にモダリティを欠くマルチモーダル学習

SMIL: Multimodal Learning with Severely Missing Modality ( http://arxiv.org/abs/2103.05677v1 )

ライセンス: Link先を確認
Mengmeng Ma, Jian Ren, Long Zhao, Sergey Tulyakov, Cathy Wu, Xi Peng(参考訳) マルチモーダル学習における一般的な仮定は、トレーニングデータの完全性である。 テストデータの不完全性に対処する新しい手法の開発には、例えば、モダリティが部分的に欠落している試験例があるが、不完全トレーニングのモダリティに対処できるものはほとんどない。 例えば、90%のトレーニング例が不完全なモダリティを持つ場合など、深刻な欠陥がある場合を考えると、この問題はさらに困難になる。 本稿は,本論文で初めて,柔軟性(トレーニング,テスト,あるいはその両方におけるモダリティの欠如)と効率(ほとんどのトレーニングデータには不完全なモダリティがある)の観点から,マルチモーダル学習を公式に研究する。 技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。 提案手法を検証するため,MM-IMDb,CMU-MOSI,avMNISTの3つのベンチマーク実験を行った。 その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。 私たちのコードはhttps://github.com/mengmenm/SMILで利用可能です。

A common assumption in multimodal learning is the completeness of training data, i.e., full modalities are available in all training examples. Although there exists research endeavor in developing novel methods to tackle the incompleteness of testing data, e.g., modalities are partially missing in testing examples, few of them can handle incomplete training modalities. The problem becomes even more challenging if considering the case of severely missing, e.g., 90% training examples may have incomplete modalities. For the first time in the literature, this paper formally studies multimodal learning with missing modality in terms of flexibility (missing modalities in training, testing, or both) and efficiency (most training data have incomplete modality). Technically, we propose a new method named SMIL that leverages Bayesian meta-learning in uniformly achieving both objectives. To validate our idea, we conduct a series of experiments on three popular benchmarks: MM-IMDb, CMU-MOSI, and avMNIST. The results prove the state-of-the-art performance of SMIL over existing methods and generative baselines including autoencoders and generative adversarial networks. Our code is available at https://github.com/mengmenm/SMIL.
翻訳日:2021-03-11 14:57:13 公開日:2021-03-09
# 物理ベースのデータ拡張を用いたマルチタスク3次元CBCT-to-CT翻訳と臓器分割

Multitask 3D CBCT-to-CT Translation and Organs-at-Risk Segmentation Using Physics-Based Data Augmentation ( http://arxiv.org/abs/2103.05690v1 )

ライセンス: Link先を確認
Navdeep Dahiya, Sadegh R Alam, Pengpeng Zhang, Si-Yuan Zhang, Anthony Yezzi, and Saad Nadeem(参考訳) 目的: 放射線治療における患者設定に限って, ノイズとアーチファクトを付加した毎週のコーンビームCT(CBCT)画像が用いられる。 治療計画には, 高画質計画ct (pct) 画像とoars ( organ-at-risk) 構造の手輪郭を用いて, 治療開始時に一度行う。 毎週のCBCT画像の品質を向上し、同時にOAR構造をセグメント化できれば、放射線治療中治療の適応や治療対応のためのバイオマーカーの導出に重要な情報を提供することができます。 方法: 新規な物理ベースのデータ拡張戦略を用いて, 局所進行肺癌患者コホートに対して, 完全かつ独立に登録されたCTと合成CBCTのペアの大規模なデータセットを合成し, マルチタスク3Dディープラーニングフレームワークで, 実際のCBCT画像を高品質なCTライクな画像に同時分割, 翻訳する。 結果:本モデルで生成された合成CTとOARセグメンテーションと実際の企画CTと手動OARセグメンテーションを比較し,有望な結果を示した。 pCT画像と比較して平均MAEが162.77HUの実際の週1(ベースライン)CBCT画像は、29.31HUの平均MAEとpCT画像と92%の平均構造類似度を劇的に改善した合成CT画像に変換される。 3d臓器分節の平均diceスコアは、肺0.96、心臓0.88、脊髄0.83、食道0.66である。 結論:人工的なCBCT画像を高品質の合成CT画像に変換し、異なる臓器のための高品質のセグメンテーションマスクを同時に生成するアプローチを示す。 このアプローチにより、臨床医は日常的な低品質CBCT画像のみを使用して治療計画を調整することができ、患者の結果を改善できる可能性がある。

Purpose: In current clinical practice, noisy and artifact-ridden weekly cone-beam computed tomography (CBCT) images are only used for patient setup during radiotherapy. Treatment planning is done once at the beginning of the treatment using high-quality planning CT (pCT) images and manual contours for organs-at-risk (OARs) structures. If the quality of the weekly CBCT images can be improved while simultaneously segmenting OAR structures, this can provide critical information for adapting radiotherapy mid-treatment as well as for deriving biomarkers for treatment response. Methods: Using a novel physics-based data augmentation strategy, we synthesize a large dataset of perfectly/inherently registered planning CT and synthetic-CBCT pairs for locally advanced lung cancer patient cohort, which are then used in a multitask 3D deep learning framework to simultaneously segment and translate real weekly CBCT images to high-quality planning CT-like images. Results: We compared the synthetic CT and OAR segmentations generated by the model to real planning CT and manual OAR segmentations and showed promising results. The real week 1 (baseline) CBCT images which had an average MAE of 162.77 HU compared to pCT images are translated to synthetic CT images that exhibit a drastically improved average MAE of 29.31 HU and average structural similarity of 92% with the pCT images. The average DICE scores of the 3D organs-at-risk segmentations are: lungs 0.96, heart 0.88, spinal cord 0.83 and esophagus 0.66. Conclusions: We demonstrate an approach to translate artifact-ridden CBCT images to high quality synthetic CT images while simultaneously generating good quality segmentation masks for different organs-at-risk. This approach could allow clinicians to adjust treatment plans using only the routine low-quality CBCT images, potentially improving patient outcomes.
翻訳日:2021-03-11 14:56:49 公開日:2021-03-09
# リーマン計量空間における構造コネクトームアトラスの構築

Structural Connectome Atlas Construction in the Space of Riemannian Metrics ( http://arxiv.org/abs/2103.05730v1 )

ライセンス: Link先を確認
Kristen M. Campbell (1), Haocheng Dai (1), Zhe Su (2), Martin Bauer (3), P. Thomas Fletcher (4), Sarang C. Joshi (1 and 5) ((1) Scientific Computing and Imaging Institute, University of Utah, (2) Department of Neurology, University of California Los Angeles, (3) Department of Mathematics, Florida State University, (4) Electrical & Computer Engineering, University of Virginia, (5) Department of Bioengineering, University of Utah)(参考訳) 構造コネクトームは、しばしば様々なタイプのトラクトグラフィーから生成された繊維束によって表される。 そこで,コネクトームをリーマン計量として解析し,無限次元多様体の点として捉える手法を提案する。 この空間に自然計量構造 ebin 計量を具備した後、アトラスをリーマン計量の集団のfr\'echet平均として定義するためにオブジェクト指向の統計解析を適用する。 我々は,Human Connectome Projectのサブセットから推定された拡散テンソルから導かれるコネクトームの登録とアトラス形成を実証した。

The structural connectome is often represented by fiber bundles generated from various types of tractography. We propose a method of analyzing connectomes by representing them as a Riemannian metric, thereby viewing them as points in an infinite-dimensional manifold. After equipping this space with a natural metric structure, the Ebin metric, we apply object-oriented statistical analysis to define an atlas as the Fr\'echet mean of a population of Riemannian metrics. We demonstrate connectome registration and atlas formation using connectomes derived from diffusion tensors estimated from a subset of subjects from the Human Connectome Project.
翻訳日:2021-03-11 14:56:13 公開日:2021-03-09
# カラム型ニューラルネットワークを用いたスケーラブルオンラインリカレント学習

Scalable Online Recurrent Learning Using Columnar Neural Networks ( http://arxiv.org/abs/2103.05787v1 )

ライセンス: Link先を確認
Khurram Javed, Martha White, Rich Sutton(参考訳) リカレント学習のための構造的クレジット割り当ては難しい。 RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。 BPTTのような代替サービスはオンラインではない。 本研究では,1ステップあたり$o(n)$演算とメモリを用いて,再帰学習の勾配を近似するクレジット割り当てアルゴリズム -\algoname{} -- を提案する。 提案手法は,スカラー状態の列からなるモジュラリカレントネットワークにおいて,パラメータが列の状態に与える影響のみを追跡するのに十分である,という考え方に基づいている。 実験により,列間の接続がスパースである限り,本手法は真の勾配を近似することを示した。 特別な場合、列間に接続がない場合、$o(n)$勾配推定は正確である。 合成テストベッド上で推定勾配と真の勾配を比較することにより, 反復状態学習とメタ学習の両方に対するアプローチの有用性を実証する。

Structural credit assignment for recurrent learning is challenging. An algorithm called RTRL can compute gradients for recurrent networks online but is computationally intractable for large networks. Alternatives, such as BPTT, are not online. In this work, we propose a credit-assignment algorithm -- \algoname{} -- that approximates the gradients for recurrent learning in real-time using $O(n)$ operations and memory per-step. Our method builds on the idea that for modular recurrent networks, composed of columns with scalar states, it is sufficient for a parameter to only track its influence on the state of its column. We empirically show that as long as connections between columns are sparse, our method approximates the true gradient well. In the special case when there are no connections between columns, the $O(n)$ gradient estimate is exact. We demonstrate the utility of the approach for both recurrent state learning and meta-learning by comparing the estimated gradient to the true gradient on a synthetic test-bed.
翻訳日:2021-03-11 14:50:06 公開日:2021-03-09
# ディープラーニングを用いたエンドユーザー開発におけるモバイルアプリケーションのスケッチからの自動コード生成

Automatic code generation from sketches of mobile applications in end-user development using Deep Learning ( http://arxiv.org/abs/2103.05704v1 )

ライセンス: Link先を確認
Daniel Baul\'e, Christiane Gresse von Wangenheim, Aldo von Wangenheim, Jean C. R. Hauck, Edson C. Vargas J\'unior(参考訳) エンドユーザやコンピューティング教育におけるモバイルアプリケーション開発の一般的なニーズは、一般的なブロックベースのプログラミング環境であるApp Inventorを使用して、ユーザインターフェースのスケッチをワイヤフレームコードに変換することである。 この作業は困難で時間を要するため、このプロセスを自動化するSketch2aiaアプローチを紹介します。 sketch2aiaはディープラーニングを使用して、最も頻度の高いユーザインターフェースコンポーネントと手描きのスケッチの位置を検出し、ユーザインターフェースの中間表現を作成し、ワイヤーフレームのアプリ発明コードを自動的に生成する。 提案手法は,平均ユーザインタフェースコンポーネント分類精度87,72%を達成し,ユーザ評価の結果から,視覚的類似性の観点からスケッチを忠実に反映したワイヤフレームを生成することを示す。 このアプローチはWebツールとして実装されており、モバイルアプリケーションのエンドユーザー開発を効果的かつ効率的に支援し、K-12でユーザインターフェース設計を教えるために使用することができる。

A common need for mobile application development by end-users or in computing education is to transform a sketch of a user interface into wireframe code using App Inventor, a popular block-based programming environment. As this task is challenging and time-consuming, we present the Sketch2aia approach that automates this process. Sketch2aia employs deep learning to detect the most frequent user interface components and their position on a hand-drawn sketch creating an intermediate representation of the user interface and then automatically generates the App Inventor code of the wireframe. The approach achieves an average user interface component classification accuracy of 87,72% and results of a preliminary user evaluation indicate that it generates wireframes that closely mirror the sketches in terms of visual similarity. The approach has been implemented as a web tool and can be used to support the end-user development of mobile applications effectively and efficiently as well as the teaching of user interface design in K-12.
翻訳日:2021-03-11 14:47:00 公開日:2021-03-09
# オンラインに適応する人間モデルの分析

Analyzing Human Models that Adapt Online ( http://arxiv.org/abs/2103.05746v1 )

ライセンス: Link先を確認
Andrea Bajcsy, Anand Siththaranjan, Claire J. Tomlin, Anca D. Dragan(参考訳) 予測する人間のモデルは、しばしば人間のデータからパラメータをオンラインに適応する必要がある。 このことは、モデルがオンラインで何を学べるか、どのくらい早く学習できるかなど、これらのモデルに依存しているロボットに対して、これまで無視されていた安全性に関する疑問を提起する。 例えば、ロボットが近くの人間の目標に自信を持って見積もるのはいつですか? あるいは、ロボットが人間の好みを有限数の観察で学習できることを保証するパラメータの初期化は? このような分析に答えるためには,ロボットの学習アルゴリズムを,現在のモデルパラメータを推定し,ロボットが観測する人間のデータを制御する動的システムとしてモデル化することが重要となる。 これにより、到達可能性分析と最適制御からツールを活用して、ロボットが有限時間で学習できる仮説の集合を計算し、学習に要する最悪かつ最良の時間を計算することができる。 我々は、自動運転と屋内ナビゲーションを含む4つのヒューマンロボットドメインにおける分析ツールの有用性を実証する。

Predictive human models often need to adapt their parameters online from human data. This raises previously ignored safety-related questions for robots relying on these models such as what the model could learn online and how quickly could it learn it. For instance, when will the robot have a confident estimate in a nearby human's goal? Or, what parameter initializations guarantee that the robot can learn the human's preferences in a finite number of observations? To answer such analysis questions, our key idea is to model the robot's learning algorithm as a dynamical system where the state is the current model parameter estimate and the control is the human data the robot observes. This enables us to leverage tools from reachability analysis and optimal control to compute the set of hypotheses the robot could learn in finite time, as well as the worst and best-case time it takes to learn them. We demonstrate the utility of our analysis tool in four human-robot domains, including autonomous driving and indoor navigation.
翻訳日:2021-03-11 14:43:12 公開日:2021-03-09
# Shapley値を用いた寸法低減結果の説明

Explaining dimensionality reduction results using Shapley values ( http://arxiv.org/abs/2103.05678v1 )

ライセンス: Link先を確認
Wilson Est\'ecio Marc\'ilio J\'unior and Danilo Medeiros Eler(参考訳) 次元還元(dr)技術は様々な応用において一貫して高次元データ分析をサポートする。 これらの手法によって発見されたパターンの他に、各特徴の低次元表現への寄与に基づくdr結果の解釈は探索分析を通じて新たな発見を支持する。 DR技法を解釈するために設計された現在の文献的アプローチは、低次元表現のみに焦点を当てたり、特徴間の関係を考慮しないため、特徴の寄与をうまく説明できない。 本稿では,これらの問題に対処するために,Shapley値を用いて次元削減手法の説明を生成し,クラスタ指向解析を用いてこれらのアルゴリズムを解釈する。 ClusterShapleyは、クラスタの形成とその関係の意味を説明し、さまざまなドメインの探索データ分析に有用である。 クラスター形成における特徴の解釈をガイドし、公開データセットのケーススタディを通じて方法論を検証するための新しい可視化技術を提案する。 その結果、DR結果を用いて病状や患者の状態に関する洞察を生成するアプローチの解釈可能性と分析力を示しています。

Dimensionality reduction (DR) techniques have been consistently supporting high-dimensional data analysis in various applications. Besides the patterns uncovered by these techniques, the interpretation of DR results based on each feature's contribution to the low-dimensional representation supports new finds through exploratory analysis. Current literature approaches designed to interpret DR techniques do not explain the features' contributions well since they focus only on the low-dimensional representation or do not consider the relationship among features. This paper presents ClusterShapley to address these problems, using Shapley values to generate explanations of dimensionality reduction techniques and interpret these algorithms using a cluster-oriented analysis. ClusterShapley explains the formation of clusters and the meaning of their relationship, which is useful for exploratory data analysis in various domains. We propose novel visualization techniques to guide the interpretation of features' contributions on clustering formation and validate our methodology through case studies of publicly available datasets. The results demonstrate our approach's interpretability and analysis power to generate insights about pathologies and patients in different conditions using DR results.
翻訳日:2021-03-11 14:42:56 公開日:2021-03-09
# 一方向セグメンテーションのためのOmni-Rangeコンテキストのキャプチャ

Capturing Omni-Range Context for Omnidirectional Segmentation ( http://arxiv.org/abs/2103.05687v1 )

ライセンス: Link先を確認
Kailun Yang, Jiaming Zhang, Simon Rei{\ss}, Xinxin Hu, Rainer Stiefelhagen(参考訳) Convolutional Networks(ConvNets)はセマンティックセグメンテーションに優れ、自動運転における認識に不可欠なコンポーネントとなっています。 ストリートシーンのオールエンパッシブビューを実現した全方位カメラは、そのようなシステムに完璧にフィットします。 都市環境解析のためのほとんどのセグメンテーションモデルは、共通して狭い視野(FoV)画像で機能する。 これらのモデルを設計したドメインから360度知覚に移行すると、既存のテストベッド上での絶対30.0%(mIoU)のパフォーマンスが劇的に低下する。 画像領域間のFoVと構造分布のギャップを埋めるために,全方向画像の固有長距離依存性を直接キャプチャする,効率的なコンカレントアテンションネットワーク(ECANets)を導入する。 360度イメージにまたがる学習された注意に基づくコンテキスト優先に加えて、マルチソースと全教師付き学習を活用することで、モデルのトレーニングをアップグレードします。 パノラマ画像のセグメンテーションの進歩を促進するために、世界中の多様なシーンをキャプチャするデータセットであるWildPASS(Wild Panoramic Semantic Segmentation)のモデルを推進し、広く評価します。 我々の新しいモデル、トレーニングレギュレン、マルチソース予測融合は、パブリックPASS (60.2%) と新しいWildPASS (69.0%) ベンチマークにおける新しい最先端結果に性能(mIoU)を上昇させる。

Convolutional Networks (ConvNets) excel at semantic segmentation and have become a vital component for perception in autonomous driving. Enabling an all-encompassing view of street-scenes, omnidirectional cameras present themselves as a perfect fit in such systems. Most segmentation models for parsing urban environments operate on common, narrow Field of View (FoV) images. Transferring these models from the domain they were designed for to 360-degree perception, their performance drops dramatically, e.g., by an absolute 30.0% (mIoU) on established test-beds. To bridge the gap in terms of FoV and structural distribution between the imaging domains, we introduce Efficient Concurrent Attention Networks (ECANets), directly capturing the inherent long-range dependencies in omnidirectional imagery. In addition to the learned attention-based contextual priors that can stretch across 360-degree images, we upgrade model training by leveraging multi-source and omni-supervised learning, taking advantage of both: Densely labeled and unlabeled data originating from multiple datasets. To foster progress in panoramic image segmentation, we put forward and extensively evaluate models on Wild PAnoramic Semantic Segmentation (WildPASS), a dataset designed to capture diverse scenes from all around the globe. Our novel model, training regimen and multi-source prediction fusion elevate the performance (mIoU) to new state-of-the-art results on the public PASS (60.2%) and the fresh WildPASS (69.0%) benchmarks.
翻訳日:2021-03-11 14:40:39 公開日:2021-03-09
# (参考訳) 深部生成モデリング入門

An Introduction to Deep Generative Modeling ( http://arxiv.org/abs/2103.05180v1 )

ライセンス: CC BY 4.0
Lars Ruthotto and Eldad Haber(参考訳) 深層生成モデル(dgm)は、多数のサンプルを用いて複雑な高次元確率分布を近似するように訓練された多くの隠れ層を持つニューラルネットワークである。 トレーニングに成功すると、DGMを使用して各観察の可能性を推定し、基礎となる分布から新しいサンプルを作成することができます。 近年、DGMの開発は人工知能における最も熱い研究分野の1つとなっている。 DGMに関する文献は広くなり、急速に成長している。 例えば、現実的に見える画像、音声、または映画を作成するという最近の成功、いわゆるディープフェイクなど、いくつかの進歩が公共の領域に到達しています。 特定のデータセットが与えられたとしても、dgmの設計とトレーニングは依然として困難であり、特定のモデルがなぜ有効であるのか、それとも効果的ではないのかを知るのはさらに困難です。 DGMの理論的理解を促進するために、我々はDGMを紹介し、フローの正規化(NF)、変分オートエンコーダ(VAE)、生成対向ネットワーク(GAN)の3つの最も一般的なアプローチをモデル化するための簡潔な数学的枠組みを提供する。 本稿では,これらの基礎的手法の利点と欠点を数値実験により示す。 私たちの目標は、読者がこの急成長する研究領域に貢献できるようにすることです。 また, 生成モデルと最適輸送の関係も強調した。

Deep generative models (DGM) are neural networks with many hidden layers trained to approximate complicated, high-dimensional probability distributions using a large number of samples. When trained successfully, we can use the DGMs to estimate the likelihood of each observation and to create new samples from the underlying distribution. Developing DGMs has become one of the most hotly researched fields in artificial intelligence in recent years. The literature on DGMs has become vast and is growing rapidly. Some advances have even reached the public sphere, for example, the recent successes in generating realistic-looking images, voices, or movies; so-called deep fakes. Despite these successes, several mathematical and practical issues limit the broader use of DGMs: given a specific dataset, it remains challenging to design and train a DGM and even more challenging to find out why a particular model is or is not effective. To help advance the theoretical understanding of DGMs, we provide an introduction to DGMs and provide a concise mathematical framework for modeling the three most popular approaches: normalizing flows (NF), variational autoencoders (VAE), and generative adversarial networks (GAN). We illustrate the advantages and disadvantages of these basic approaches using numerical experiments. Our goal is to enable and motivate the reader to contribute to this proliferating research area. Our presentation also emphasizes relations between generative modeling and optimal transport.
翻訳日:2021-03-11 13:44:21 公開日:2021-03-09
# (参考訳) Bassモデルに基づく動的価格設定と学習

Dynamic Pricing and Learning under the Bass Model ( http://arxiv.org/abs/2103.05199v1 )

ライセンス: CC BY 4.0
Shipra Agrawal, Steven Yin, Assaf Zeevi(参考訳) 本稿では, 価格変動に伴う需要の変動をパラメータ$\alpha, \beta$という, いわゆる「革新」効果と「模倣」効果に関連付けた, 一般的なバスモデルの確率的変種によって制御する, 動的価格・需要学習問題の新たな定式化について考察する。 一般的に使われる i. i. d. とは異なり そして文脈的な需要モデル、このモデルでは、掲載価格は現在のラウンドにおける需要と収益に影響を与えるだけでなく、需要の将来の進化にも影響します。 本稿では,未知のパラメータの学習とともに動的価格を適用するという,より困難な不完全情報問題について考察する。 これと同等の目標は、市場規模$m$とtime horizon $t$を持つ確率的ベースモデルで実現可能な最適な期待収益に対するアルゴリズムの収益損失を最小化することである。 私達の主な貢献は順序$\tilde O(m^{2/3})$の高い確率の後悔の保証を満たすアルゴリズムの開発です。 さらに, 一致する下限を導出することにより, 損失順序が小さくなるアルゴリズムは存在しないことを示す。 ほとんどの後悔分析の結果とは異なり、現在の問題では、市場規模$m$が複雑さの根本的な原動力である。私たちの低い境界は、任意の固定 $\alpha, \beta$ に対して、問題のほとんどの非自明なインスタンスは一定の $T$ と大きな $m$ を持つことを示しています。 この洞察は、典型的なi.i.d.とは別として、ベースモデルの下での動的価格設定の問題を引き起こすと信じている。 動的価格の設定とマルチアームのバンディットベースのモデルは、典型的にはタイムホライズン$t$の漸近性のみに焦点を当てている。

We consider a novel formulation of the dynamic pricing and demand learning problem, where the evolution of demand in response to posted prices is governed by a stochastic variant of the popular Bass model with parameters $\alpha, \beta$ that are linked to the so-called "innovation" and "imitation" effects. Unlike the more commonly used i.i.d. and contextual demand models, in this model the posted price not only affects the demand and the revenue in the current round but also the future evolution of demand, and hence the fraction of potential market size $m$ that can be ultimately captured. In this paper, we consider the more challenging incomplete information problem where dynamic pricing is applied in conjunction with learning the unknown parameters, with the objective of optimizing the cumulative revenues over a given selling horizon of length $T$. Equivalently, the goal is to minimize the regret which measures the revenue loss of the algorithm relative to the optimal expected revenue achievable under the stochastic Bass model with market size $m$ and time horizon $T$. Our main contribution is the development of an algorithm that satisfies a high probability regret guarantee of order $\tilde O(m^{2/3})$; where the market size $m$ is known a priori. Moreover, we show that no algorithm can incur smaller order of loss by deriving a matching lower bound. Unlike most regret analysis results, in the present problem the market size $m$ is the fundamental driver of the complexity; our lower bound in fact, indicates that for any fixed $\alpha, \beta$, most non-trivial instances of the problem have constant $T$ and large $m$. We believe that this insight sets the problem of dynamic pricing under the Bass model apart from the typical i.i.d. setting and multi-armed bandit based models for dynamic pricing, which typically focus only on the asymptotics with respect to time horizon $T$.
翻訳日:2021-03-11 13:12:05 公開日:2021-03-09
# (参考訳) 運動画像脳波復号のための物体間深度変換学習

Inter-subject Deep Transfer Learning for Motor Imagery EEG Decoding ( http://arxiv.org/abs/2103.05351v1 )

ライセンス: CC BY 4.0
Xiaoxi Wei, Pablo Ortega and A. Aldo Faisal(参考訳) 畳み込みニューラルネットワーク(cnns)は脳波をデコードする強力な技術となり、運動画像eegbrain-computer-interface(bci)デコードのためのベンチマークとなった。 しかし、個々のパフォーマンスを低下させることなく、複数の被験者の脳波でCNNを訓練することは依然として困難です。 これは負の転送問題、すなわちとして知られている。 異なる分布から学習すると、CNNはより豊かな表現を学ぶのではなく、それぞれを誤表現する。 その結果、cnnは複数の被験者の脳波を直接使用できないため、モデルの性能が向上する。 この問題を解決するため、深層移動学習技術をEEGマルチサブジェクトトレーニングケースに拡張します。 本稿では,ネットワークの特徴抽出器を個別に分割して分割した,分別共通分離ネットワーク(scsn)を提案する。 また,SCSN(SCSN-MMD)にMMD(Maximum-mean discrepancy)を適用し,各特徴抽出器の特徴分布の整合性を高める可能性についても検討した。 提案ネットワークは,bci competition iv 2a dataset (bciciv2a dataset) とオンライン記録データセットを用いて評価した。 その結果、提案されたSCSN (81.8%, 53.2%) とSCSN-MMD (81.8%, 54.8%) は、CNN (73.4%, 48.8%) を複数の被験者で比較した。 私たちの提案ネットワークは、より大きなマルチサブジェクトデータセットを利用して、負の転送に影響されずにEEGデコーダを訓練する可能性を示しています。

Convolutional neural networks (CNNs) have become a powerful technique to decode EEG and have become the benchmark for motor imagery EEG Brain-Computer-Interface (BCI) decoding. However, it is still challenging to train CNNs on multiple subjects' EEG without decreasing individual performance. This is known as the negative transfer problem, i.e. learning from dissimilar distributions causes CNNs to misrepresent each of them instead of learning a richer representation. As a result, CNNs cannot directly use multiple subjects' EEG to enhance model performance directly. To address this problem, we extend deep transfer learning techniques to the EEG multi-subject training case. We propose a multi-branch deep transfer network, the Separate-Common-Separate Network (SCSN) based on splitting the network's feature extractors for individual subjects. We also explore the possibility of applying Maximum-mean discrepancy (MMD) to the SCSN (SCSN-MMD) to better align distributions of features from individual feature extractors. The proposed network is evaluated on the BCI Competition IV 2a dataset (BCICIV2a dataset) and our online recorded dataset. Results show that the proposed SCSN (81.8%, 53.2%) and SCSN-MMD (81.8%, 54.8%) outperformed the benchmark CNN (73.4%, 48.8%) on both datasets using multiple subjects. Our proposed networks show the potential to utilise larger multi-subject datasets to train an EEG decoder without being influenced by negative transfer.
翻訳日:2021-03-11 13:10:45 公開日:2021-03-09
# (参考訳) 深層ニューラルネットワークにおける解析可能な推論

Analytically Tractable Inference in Deep Neural Networks ( http://arxiv.org/abs/2103.05461v1 )

ライセンス: CC BY 4.0
Luong-Ha Nguyen and James-A. Goulet(参考訳) その開始以来、ディープラーニングは、重みとバイアスパラメータ値を学ぶために、バックプロパゲーションと勾配に基づく最適化アルゴリズムに圧倒的に依存してきた。 Tractable Approximate Gaussian Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに代わる実行可能でスケーラブルな代替手段であることが示された。 本稿では、従来のディープニューラルネットワークアーキテクチャのトレーニングにおいて、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するかを示す。 TAGIの計算効率は、バックプロパゲーションに依存した決定論的アプローチのそれよりも低いが、分類タスクにそれらを上回り、生成敵対的ネットワークを最大化する情報のパフォーマンスにマッチし、より少ないエポックで訓練されたより小さなアーキテクチャを使用している。

Since its inception, deep learning has been overwhelmingly reliant on backpropagation and gradient-based optimization algorithms in order to learn weight and bias parameter values. Tractable Approximate Gaussian Inference (TAGI) algorithm was shown to be a viable and scalable alternative to backpropagation for shallow fully-connected neural networks. In this paper, we are demonstrating how TAGI matches or exceeds the performance of backpropagation, for training classic deep neural network architectures. Although TAGI's computational efficiency is still below that of deterministic approaches relying on backpropagation, it outperforms them on classification tasks and matches their performance for information maximizing generative adversarial networks while using smaller architectures trained with fewer epochs.
翻訳日:2021-03-11 13:01:59 公開日:2021-03-09
# (参考訳) Reactive Graspingのための未知オブジェクトの深層6-DoF追跡

Deep 6-DoF Tracking of Unknown Objects for Reactive Grasping ( http://arxiv.org/abs/2103.05401v1 )

ライセンス: CC BY 4.0
Marc Tuscher, Julian H\"orz, Danny Driess, Marc Toussaint(参考訳) 未知の物体のロボット操作は重要な研究分野である。 実用的応用は、ロボットが未知の環境と相互作用する必要がある多くの現実世界で起こります。 未知の物体追跡法, ポイントサンプリング法, 動的軌道計画法を提案することにより, 反応的把握の課題に取り組む。 オブジェクト追跡手法は,6-DoF未知のオブジェクト追跡手法に,Samese NetworksとIterative Closest Pointアプローチを組み合わせてポイントクラウド登録を行う。 この方法はさらなる訓練を必要とせず、騒音や咬合に頑健である。 従来は見つからなかった多種多様の物体をつかみ、物体の摂動やより低い把握点に対して堅牢なロボット操作システムを提案する。

Robotic manipulation of unknown objects is an important field of research. Practical applications occur in many real-world settings where robots need to interact with an unknown environment. We tackle the problem of reactive grasping by proposing a method for unknown object tracking, grasp point sampling and dynamic trajectory planning. Our object tracking method combines Siamese Networks with an Iterative Closest Point approach for pointcloud registration into a method for 6-DoF unknown object tracking. The method does not require further training and is robust to noise and occlusion. We propose a robotic manipulation system, which is able to grasp a wide variety of formerly unseen objects and is robust against object perturbations and inferior grasping points.
翻訳日:2021-03-11 12:01:46 公開日:2021-03-09
# (参考訳) Sinogram Extrapolation によるCT画像の一般化

Generalizable Limited-Angle CT Reconstruction via Sinogram Extrapolation ( http://arxiv.org/abs/2103.05255v1 )

ライセンス: CC BY 4.0
Ce Wang, Haimiao Zhang, Qian Li, Kun Shang, Yuanyuan Lyu, Bin Dong, S. Kevin. Zhou(参考訳) 限られた角度範囲で得られたX線投影からCTを再構成することは特に角度範囲が極端に小さい場合に困難である。 分析モデルと反復モデルの両方が効果的なモデリングのためにより多くの投影を必要とする。 ディープラーニング手法は、優れた再構成性能のために普及しているが、その成功は主に同じデータセット内で制限されており、異なる分布を持つデータセットをまたいだ一般化はしない。 本稿では, 理論的に正当化されるシンノグラム外挿モジュールの導入により, 有限角度ct再構成のための外挿ネットワークを提案する。 モジュールは余分洞図情報およびブーツのモデル一般化可能性を補足します。 大規模な実験結果から,既存手法と同様,NIH-AAPMデータセット上での最先端性能が得られた。 さらに、このようなシングラム外挿モジュールを使用することで、既存のアプローチと比較して、目に見えないデータセット(例えば、COVID-19やLIDCデータセット)におけるモデルの一般化能力が大幅に向上することを示す。

Computed tomography (CT) reconstruction from X-ray projections acquired within a limited angle range is challenging, especially when the angle range is extremely small. Both analytical and iterative models need more projections for effective modeling. Deep learning methods have gained prevalence due to their excellent reconstruction performances, but such success is mainly limited within the same dataset and does not generalize across datasets with different distributions. Hereby we propose ExtraPolationNetwork for limited-angle CT reconstruction via the introduction of a sinogram extrapolation module, which is theoretically justified. The module complements extra sinogram information and boots model generalizability. Extensive experimental results show that our reconstruction model achieves state-of-the-art performance on NIH-AAPM dataset, similar to existing approaches. More importantly, we show that using such a sinogram extrapolation module significantly improves the generalization capability of the model on unseen datasets (e.g., COVID-19 and LIDC datasets) when compared to existing approaches.
翻訳日:2021-03-11 11:30:42 公開日:2021-03-09
# (参考訳) 3D-QCNet -- 拡散MRI画像の自動アーチファクト検出パイプライン

3D-QCNet -- A Pipeline for Automated Artifact Detection in Diffusion MRI images ( http://arxiv.org/abs/2103.05285v1 )

ライセンス: CC BY 4.0
Adnan Ahmad, Drew Parker, Zahra Riahi Samani, Ragini Verma(参考訳) アーティファクトは拡散MRI(Diffusion MRI)スキャンでよく見られる。 これらのスキャンで行った後処理の正確性と有効性を保証するには、それらを特定し、取り除くことが不可欠である。 これにより、qc(quality control)はdmriデータの解析に先立って重要な第一歩となる。 アーティファクト検出のためのqcメソッドはいくつか存在するが、手作業による介入や、さまざまなアーティファクトやデータセットを汎用化できないといった問題に苦しんでいる。 本稿では,3D-Densenetアーキテクチャを利用した自動ディープラーニング(DL)パイプラインを提案する。 本手法は,7つの大規模臨床データセットから抽出した9000巻からなる膨大なデータセットに適用する。 これらのデータセットは、異なる勾配方向、高値と低値の複数のスキャナからのスキャン、シングルシェル、マルチシェル取得で構成されている。 さらに、病理の存在や欠如など、さまざまな主題の人口統計を表します。 我々のQC法は,テストセット全体で平均92%のアーティファクトを正確に検出することにより,この異種データを正確に一般化する。 多様なデータセットに対するこの一貫したパフォーマンスは、現在、自動化されたQC技術の普及を妨げる重要な障壁である私たちの方法の汎用性を強調しています。 これらの理由から、3D-QCNetを拡散パイプラインに統合して、アーティファクト検出の困難かつ時間を要するプロセスを効果的に自動化できると考えている。

Artifacts are a common occurrence in Diffusion MRI (dMRI) scans. Identifying and removing them is essential to ensure the accuracy and viability of any post processing carried out on these scans. This makes QC (quality control) a crucial first step prior to any analysis of dMRI data. Several QC methods for artifact detection exist, however they suffer from problems like requiring manual intervention and the inability to generalize across different artifacts and datasets. In this paper, we propose an automated deep learning (DL) pipeline that utilizes a 3D-Densenet architecture to train a model on diffusion volumes for automatic artifact detection. Our method is applied on a vast dataset consisting of 9000 volumes sourced from 7 large clinical datasets. These datasets comprise scans from multiple scanners with different gradient directions, high and low b values, single shell and multi shell acquisitions. Additionally, they represent diverse subject demographics like the presence or absence of pathologies. Our QC method is found to accurately generalize across this heterogenous data by correctly detecting 92% artifacts on average across our test set. This consistent performance over diverse datasets underlines the generalizability of our method, which currently is a significant barrier hindering the widespread adoption of automated QC techniques. For these reasons, we believe that 3D-QCNet can be integrated in diffusion pipelines to effectively automate the arduous and time-intensive process of artifact detection.
翻訳日:2021-03-11 11:19:48 公開日:2021-03-09
# (参考訳) ChangeSim: 産業用屋内環境におけるエンドツーエンドのオンラインシーン変化検出に向けて

ChangeSim: Towards End-to-End Online Scene Change Detection in Industrial Indoor Environments ( http://arxiv.org/abs/2103.05368v1 )

ライセンス: CC BY-SA 4.0
Jin-Man Park, Jae-Hyuk Jang, Sahng-Min Yoo, Sun-Kyung Lee, Ue-Hwan Kim, and Jong-Hwan Kim(参考訳) オンラインシーン変化検出(SCD)などを目的とした,挑戦的なデータセットであるChangeSimを提示する。 データは、大気の濁度や光条件の変化などの環境的非目標変動の存在、ならびに産業用屋内環境における対象物の変化を含む、フォトリアリズムシミュレーション環境で収集されます。 シミュレーションでデータを収集することにより、RGB画像、深度画像、セマンティックセグメンテーション、変更セグメンテーション、カメラポーズ、および3D再構成などのマルチモーダルセンサデータおよび正確な地上真実ラベルを得ることができる。 以前のオンラインSCDデータセットは、適切に整列されたイメージペアのモデルを評価する一方で、ChangeSimはペアリングと検出の両方を考慮して、オンラインSCDモデルをエンドツーエンドに開発する機会を提供する生の未ペアシーケンスも提供する。 実験により、最新のペアベースのSCDモデルでさえペアリングプロセスのボトルネックに悩まされ、環境がターゲット外のバリエーションを含むと悪化することが示された。 私たちのデータセットはhttp://sammica.github.io/ChangeSim/で入手できます。

We present a challenging dataset, ChangeSim, aimed at online scene change detection (SCD) and more. The data is collected in photo-realistic simulation environments with the presence of environmental non-targeted variations, such as air turbidity and light condition changes, as well as targeted object changes in industrial indoor environments. By collecting data in simulations, multi-modal sensor data and precise ground truth labels are obtainable such as the RGB image, depth image, semantic segmentation, change segmentation, camera poses, and 3D reconstructions. While the previous online SCD datasets evaluate models given well-aligned image pairs, ChangeSim also provides raw unpaired sequences that present an opportunity to develop an online SCD model in an end-to-end manner, considering both pairing and detection. Experiments show that even the latest pair-based SCD models suffer from the bottleneck of the pairing process, and it gets worse when the environment contains the non-targeted variations. Our dataset is available at http://sammica.github.io/ChangeSim/.
翻訳日:2021-03-11 11:07:18 公開日:2021-03-09
# (参考訳) 自動運転の解説--アンケート調査から

Explanations in Autonomous Driving: A Survey ( http://arxiv.org/abs/2103.05154v1 )

ライセンス: CC BY 4.0
Daniel Omeiza, Helena Webb, Marina Jirotka, Lars Kunze(参考訳) 過去数十年間、自動車産業は、手作業で操作する自動車の製造から、高度な自動化を備えた製造車両まで、開発水準が上昇している。 近年の人工知能(AI)の発展に伴い、自動車企業は高性能なAIモデルを採用し、自動車が環境を認識し、人間の影響をほとんどまたはまったく受けずに運転判断を下すことができます。 自動運転車(AV)を商業規模で展開しようとすると、社会によるAVの受け入れが最も重要となり、その透明性、信頼性、および規制遵守の程度に大きく依存する可能性があります。 これらの受け入れ要件の評価は、AVの行動の説明の提供によって容易に行える。 したがって、説明可能性はAVにとって重要な要件とみなされます。 AVは、彼らが「見た」ことを説明でき、実行され、動作している環境で実行できるはずです。 本稿では,説明可能な自動運転における既存作業の総合的調査について述べる。 まず、AVに関する説明と既存の基準を検討する動機を提供することで開放します。 第2に,avの開発と利用,規制に関わるさまざまな利害関係者を特定し,分類し,その説明の必要性を示す。 第三に、説明の分類を提供し、異なるAV操作の説明に関する以前の研究を見直します。 最後に、関連する課題と今後の研究方向性を指摘している。 この調査は、自律運転の説明に興味がある研究者に必要な基本的な知識を提供するのに役立つ。

The automotive industry is seen to have witnessed an increasing level of development in the past decades; from manufacturing manually operated vehicles to manufacturing vehicles with high level of automation. With the recent developments in Artificial Intelligence (AI), automotive companies now employ high performance AI models to enable vehicles to perceive their environment and make driving decisions with little or no influence from a human. With the hope to deploy autonomous vehicles (AV) on a commercial scale, the acceptance of AV by society becomes paramount and may largely depend on their degree of transparency, trustworthiness, and compliance to regulations. The assessment of these acceptance requirements can be facilitated through the provision of explanations for AVs' behaviour. Explainability is therefore seen as an important requirement for AVs. AVs should be able to explain what they have 'seen', done and might do in environments where they operate. In this paper, we provide a comprehensive survey of the existing work in explainable autonomous driving. First, we open by providing a motivation for explanations and examining existing standards related to AVs. Second, we identify and categorise the different stakeholders involved in the development, use, and regulation of AVs and show their perceived need for explanation. Third, we provide a taxonomy of explanations and reviewed previous work on explanation in the different AV operations. Finally, we draw a close by pointing out pertinent challenges and future research directions. This survey serves to provide fundamental knowledge required of researchers who are interested in explanation in autonomous driving.
翻訳日:2021-03-11 10:50:58 公開日:2021-03-09
# (参考訳) 強化学習による実世界の魚型ロボットの分散円形成制御

Decentralized Circle Formation Control for Fish-like Robots in the Real-world via Reinforcement Learning ( http://arxiv.org/abs/2103.05293v1 )

ライセンス: CC BY 4.0
Tianhao Zhang and Yueheng Li and Shuai Li and Qiwei Ye and Chen Wang and Guangming Xie(参考訳) 本稿では, 未知の非線形ダイナミクスと外乱を含む協調型魚型ロボット群に対して, 円形成制御問題に対処する。 強化学習と認知整合性理論に基づいて,魚のようなロボットの力学を知らない分散制御系を提案する。 提案するコントローラはシミュレーションから現実へ転送することができる。 既存のシミュレーション環境でのみトレーニングされており、トレーニングされたコントローラは手動チューニングなしで実際のロボットにデプロイすることができる。 シミュレーションの結果,提案手法はロボットの群の大きさに対してスケーラブルであり,他の代表的RLアルゴリズムよりも優れていることを確認した。 現実世界のいくつかの実験は、私たちのRLベースのサークル形成制御のアプローチの有効性を検証します。

In this paper, the circle formation control problem is addressed for a group of cooperative underactuated fish-like robots involving unknown nonlinear dynamics and disturbances. Based on the reinforcement learning and cognitive consistency theory, we propose a decentralized controller without the knowledge of the dynamics of the fish-like robots. The proposed controller can be transferred from simulation to reality. It is only trained in our established simulation environment, and the trained controller can be deployed to real robots without any manual tuning. Simulation results confirm that the proposed model-free robust formation control method is scalable with respect to the group size of the robots and outperforms other representative RL algorithms. Several experiments in the real world verify the effectiveness of our RL-based approach for circle formation control.
翻訳日:2021-03-11 10:02:09 公開日:2021-03-09
# (参考訳) 超次元計算を用いたメモリ効率・肢位置認識

Memory-Efficient, Limb Position-Aware Hand Gesture Recognition using Hyperdimensional Computing ( http://arxiv.org/abs/2103.05267v1 )

ライセンス: CC BY-SA 4.0
Andy Zhou, Rikky Muller, and Jan Rabaey(参考訳) 電気筋電図(EMG)パターン認識は、人間-機械インタフェースおよび義手アプリケーションの手のジェスチャーおよび動きを分類するために使用することができるが、四肢の位置変化に起因する信頼性の問題にしばしば直面する。 これに対処する1つの方法はデュアルステージ分類であり、まずは複数の位置特定ジェスチャ分類器の間で選択する追加のセンサーを使用して四肢の位置を決定する。 パフォーマンス向上と同時に、モデルの複雑さとメモリフットプリントも向上し、リソースの少ないウェアラブルデバイスでは、デュアルステージの分類器の実装が困難になる。 本稿では,超次元計算モデルを用いて,加速度計とemg信号のセンサ融合を行い,メモリ効率の高い2段分類を行う。 重ね合わせに格納された複数のモデルから位置特定パラメータを検索するためのキーとして,加速度計の特徴を符号化する2つの方法を示す。 8つの手足の位置にある13のジェスチャーのデータセットの検証により、93.34%の分類精度が得られ、17.79%の改善はEMGでのみ訓練されたモデルよりも向上した。 単一の四肢の位置モデルよりもわずかにメモリフットプリントを増加させるだけで、従来のデュアルステージ分類アーキテクチャよりも8\times$のメモリを必要とします。

Electromyogram (EMG) pattern recognition can be used to classify hand gestures and movements for human-machine interface and prosthetics applications, but it often faces reliability issues resulting from limb position change. One method to address this is dual-stage classification, in which the limb position is first determined using additional sensors to select between multiple position-specific gesture classifiers. While improving performance, this also increases model complexity and memory footprint, making a dual-stage classifier difficult to implement in a wearable device with limited resources. In this paper, we present sensor fusion of accelerometer and EMG signals using a hyperdimensional computing model to emulate dual-stage classification in a memory-efficient way. We demonstrate two methods of encoding accelerometer features to act as keys for retrieval of position-specific parameters from multiple models stored in superposition. Through validation on a dataset of 13 gestures in 8 limb positions, we obtain a classification accuracy of up to 93.34%, an improvement of 17.79% over using a model trained solely on EMG. We achieve this while only marginally increasing memory footprint over a single limb position model, requiring $8\times$ less memory than a traditional dual-stage classification architecture.
翻訳日:2021-03-11 08:59:35 公開日:2021-03-09
# (参考訳) hls4ml:科学的な低消費電力マシンラーニングデバイスを実現するオープンソースのコデザインワークフロー

hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power Machine Learning Devices ( http://arxiv.org/abs/2103.05579v1 )

ライセンス: CC BY-SA 4.0
Farah Fahim, Benjamin Hawks, Christian Herwig, James Hirschauer, Sergo Jindariani, Nhan Tran, Luca P. Carloni, Giuseppe Di Guglielmo, Philip Harris, Jeffrey Krupa, Dylan Rankin, Manuel Blanco Valentin, Josiah Hester, Yingyi Luo, John Mamish, Seda Orgrenci-Memik, Thea Aarestaad, Hamza Javed, Vladimir Loncar, Maurizio Pierini, Adrian Alan Pol, Sioni Summers, Javier Duarte, Scott Hauck, Shih-Chieh Hsu, Jennifer Ngadiuba, Mia Liu, Duc Hoang, Edward Kreinar, Zhenbin Wu(参考訳) アクセス可能な機械学習アルゴリズム、ソフトウェア、エネルギー効率のよいデバイスやシステムの診断ツールは、幅広いアプリケーションドメインにわたって非常に有用である。 科学的領域では、リアルタイム近接センサー処理は実験設計を劇的に改善し、科学的発見を加速することができる。 ドメインサイエンティストを支援するために、FPGAとASIC技術の両方で実装するための機械学習アルゴリズムを解釈および翻訳するオープンソースのソフトウェアハードウェアコード署名ワークフローであるhls4mlを開発しました。 新しいPython API、量子化対応のpruning、エンドツーエンドのFPGAワークフロー、低消費電力のための長いパイプラインカーネル、ASICワークフローを含む新しいデバイスのバックエンド。 これらとhls4mlの継続的な取り組みは、新しい世代のドメイン科学者に、機械学習が加速する発見のためのアクセス可能で効率的で強力なツールを付与する。

Accessible machine learning algorithms, software, and diagnostic tools for energy-efficient devices and systems are extremely valuable across a broad range of application domains. In scientific domains, real-time near-sensor processing can drastically improve experimental design and accelerate scientific discoveries. To support domain scientists, we have developed hls4ml, an open-source software-hardware codesign workflow to interpret and translate machine learning algorithms for implementation with both FPGA and ASIC technologies. We expand on previous hls4ml work by extending capabilities and techniques towards low-power implementations and increased usability: new Python APIs, quantization-aware pruning, end-to-end FPGA workflows, long pipeline kernels for low power, and new device backends include an ASIC workflow. Taken together, these and continued efforts in hls4ml will arm a new generation of domain scientists with accessible, efficient, and powerful tools for machine-learning-accelerated discovery.
翻訳日:2021-03-11 07:15:07 公開日:2021-03-09
# (参考訳) Dory: 永続的ホモロジーコンピューティングの障壁を克服する

Dory: Overcoming Barriers to Computing Persistent Homology ( http://arxiv.org/abs/2103.05608v1 )

ライセンス: CC BY 4.0
Manu Aggarwal and Vipul Periwal(参考訳) 永続ホモロジー (Persistent homology, PH) は、ノイズに強い高次元データの多次元位相不変性を計算するトポロジカルデータ分析 (TDA) のアプローチである。 PHは様々なアプリケーションで有用なパターンを明らかにしているが、計算要求は数千点の小さなデータセットに限られている。 大規模データセットの持続的ホモロジーを計算できる効率的でスケーラブルなアルゴリズムであるdoryを提案する。 doryは公開アルゴリズムよりもメモリ使用量が少なく、計算時間もほとんどのアルゴリズムに比べて大幅に削減できる。 数百万ポイントのデータセットを処理するためにスケールする。 応用として、ヒトゲノムのPHを高分解能で計算し、ゲノムワイドHi-Cデータセットで明らかにする。 結果は、コヘシンを分解する分子であるオーキシンによる治療によってヒトゲノムのトポロジが有意に変化し、コヘシンがDNAのループ形成において重要な役割を果たしているという仮説を裏付ける。

Persistent homology (PH) is an approach to topological data analysis (TDA) that computes multi-scale topologically invariant properties of high-dimensional data that are robust to noise. While PH has revealed useful patterns across various applications, computational requirements have limited applications to small data sets of a few thousand points. We present Dory, an efficient and scalable algorithm that can compute the persistent homology of large data sets. Dory uses significantly less memory than published algorithms and also provides significant reductions in the computation time compared to most algorithms. It scales to process data sets with millions of points. As an application, we compute the PH of the human genome at high resolution as revealed by a genome-wide Hi-C data set. Results show that the topology of the human genome changes significantly upon treatment with auxin, a molecule that degrades cohesin, corroborating the hypothesis that cohesin plays a crucial role in loop formation in DNA.
翻訳日:2021-03-11 06:52:39 公開日:2021-03-09
# (参考訳) ドラヴィダ言語識別へのアプローチの比較

Comparing Approaches to Dravidian Language Identification ( http://arxiv.org/abs/2103.05552v1 )

ライセンス: CC BY 4.0
Tommi Jauhiainen, Tharindu Ranasinghe, Marcos Zampieri(参考訳) 本稿では、VarDial 2021ワークショップにおいて、チームHWRによるDLI(Dravidian Language Identification)共有タスクへの提出について述べる。 DLIトレーニングセットには、ローマ文字で書かれた16,674のYouTubeコメントが含まれ、英語とコードミックスされたテキストと3つの南ドラヴィディアン言語(カンナダ語、マラヤラム語、タミル語)の1つです。 適応型言語モデルを用いたNaive Bayes分類器は,多くの言語・方言識別タスクにおいて競争的性能を発揮することを示し,また,多くのNLPタスクにおいて最先端のものとして広く評価されているトランスベースモデルである。 第1の提出は、共有タスクオーガナイザが提供するトレーニングセットのみを使用して、クローズドな提出トラックに送信されましたが、第2の提出は、外部データでトレーニングされた事前訓練されたモデルを使用するため、オープンであると考えられています。 私たちのチームは、Naive Bayesに基づいて提出した共有タスクで2番目のポジションを達成しました。 本結果は,他の多くのテキスト分類タスクほど,ディープラーニング手法が言語識別関連タスクと競合するものではない,という考え方を補強するものである。

This paper describes the submissions by team HWR to the Dravidian Language Identification (DLI) shared task organized at VarDial 2021 workshop. The DLI training set includes 16,674 YouTube comments written in Roman script containing code-mixed text with English and one of the three South Dravidian languages: Kannada, Malayalam, and Tamil. We submitted results generated using two models, a Naive Bayes classifier with adaptive language models, which has shown to obtain competitive performance in many language and dialect identification tasks, and a transformer-based model which is widely regarded as the state-of-the-art in a number of NLP tasks. Our first submission was sent in the closed submission track using only the training set provided by the shared task organisers, whereas the second submission is considered to be open as it used a pretrained model trained with external data. Our team attained shared second position in the shared task with the submission based on Naive Bayes. Our results reinforce the idea that deep learning methods are not as competitive in language identification related tasks as they are in many other text classification tasks.
翻訳日:2021-03-11 06:50:26 公開日:2021-03-09
# (参考訳) インターネットマーケットプレイスにおけるグローバル推論の効率的なアルゴリズム

Efficient Algorithms for Global Inference in Internet Marketplaces ( http://arxiv.org/abs/2103.05277v1 )

ライセンス: CC BY 4.0
Rohan Ramanath, Sathiya Keerthi, Yao Pan, Konstantin Salomatin, Kinjal Basu(参考訳) インターネット市場(eコマース、ライドシェアリング、フードデリバリー、プロフェッショナルサービス、広告)における需要と供給のマッチングは、(数百万の)結合制約と(最大10億の)非結合ポリトープ制約を持つリニアプログラム(lp)として定式化できるグローバルな推論問題である。 近年まで、LP定式化によるWebスケールデータにおけるそのような問題の解決は難しかった。 最近の研究(basu et al., 2020)は、ポリトープの制約が単純である場合にそのような問題を解決するために二重分解に基づくアプローチを開発した。 この研究では、これらの単純なポリトープを超えて、より複雑な構造化されたポリトープ制約を必要とする現実世界のインターネットマーケットプレイスを示す必要性を動機付けます。 我々は、グローバルな推論問題に広く適用可能な新しいアルゴリズムにより、近年の文献を拡大する。 任意のポリトープに投影するポリトープ上の解の性質に関する理論的知見を用いて,効率的なインクリメンタルアルゴリズムを導出し,性能の大幅な向上を示す。 より優れた最適化ルーチンと適応アルゴリズムを使用して、目的の滑らかさを制御し、ソリューションの速度をさらに向上させます。 Webスケールマーケットプレイスデータを用いた実験結果から,本手法の有効性について紹介する。

Matching demand to supply in internet marketplaces (e-commerce, ride-sharing, food delivery, professional services, advertising) is a global inference problem that can be formulated as a Linear Program (LP) with (millions of) coupling constraints and (up to a billion) non-coupling polytope constraints. Until recently, solving such problems on web-scale data with an LP formulation was intractable. Recent work (Basu et al., 2020) developed a dual decomposition-based approach to solve such problems when the polytope constraints are simple. In this work, we motivate the need to go beyond these simple polytopes and show real-world internet marketplaces that require more complex structured polytope constraints. We expand on the recent literature with novel algorithms that are more broadly applicable to global inference problems. We derive an efficient incremental algorithm using a theoretical insight on the nature of solutions on the polytopes to project onto any arbitrary polytope, that shows massive improvements in performance. Using better optimization routines along with an adaptive algorithm to control the smoothness of the objective, improves the speed of the solution even further. We showcase the efficacy of our approach via experimental results on web-scale marketplace data.
翻訳日:2021-03-11 06:37:30 公開日:2021-03-09
# (参考訳) Retrieve-Copy-Generate Networkによるオープンブックビデオキャプション

Open-book Video Captioning with Retrieve-Copy-Generate Network ( http://arxiv.org/abs/2103.05284v1 )

ライセンス: CC BY 4.0
Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu(参考訳) ショートビデオの急速な出現とコンテンツ理解と作成の要件のために、ビデオキャプションタスクは、近年ますます注目を集めています。 本稿では,従来の動画キャプションタスクを,映像自体に限らず,映像コンテンツ関連文のプロンプトの下で自然言語を生成する,オープンブックビデオキャプションという新しいパラダイムに転換する。 オープンブックビデオキャプション問題に対処するために,学習コーパスからヒントとして文を取り出すためのプラグイン可能なビデオからテキストへの検索器を構築し,複数の検索文から表現を動的に抽出するコピー機構生成器を提案する。 2つのモジュールはエンドツーエンドまたは個別にトレーニングすることができる。 本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。 提案手法は,映像キャプションのタスクにおいて,提案手法の有効性と有望性を示すとともに,提案手法が最先端の性能を上回ることを示す。

Due to the rapid emergence of short videos and the requirement for content understanding and creation, the video captioning task has received increasing attention in recent years. In this paper, we convert traditional video captioning task into a new paradigm, \ie, Open-book Video Captioning, which generates natural language under the prompts of video-content-relevant sentences, not limited to the video itself. To address the open-book video captioning problem, we propose a novel Retrieve-Copy-Generate network, where a pluggable video-to-text retriever is constructed to retrieve sentences as hints from the training corpus effectively, and a copy-mechanism generator is introduced to extract expressions from multi-retrieved sentences dynamically. The two modules can be trained end-to-end or separately, which is flexible and extensible. Our framework coordinates the conventional retrieval-based methods with orthodox encoder-decoder methods, which can not only draw on the diverse expressions in the retrieved sentences but also generate natural and accurate content of the video. Extensive experiments on several benchmark datasets show that our proposed approach surpasses the state-of-the-art performance, indicating the effectiveness and promising of the proposed paradigm in the task of video captioning.
翻訳日:2021-03-11 05:52:49 公開日:2021-03-09
# (参考訳) BASAR:ブラックボックス攻撃による骨格的行動認識

BASAR:Black-box Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2103.05266v1 )

ライセンス: CC BY 4.0
Yunfeng Diao and Tianjia Shao and Yong-Liang Yang and Kun Zhou and He Wang(参考訳) 骨格運動は、独立したデータソースまたは補完として人間の活動認識に重要な役割を果たします。 骨格に基づく活動認識器の堅牢性は近年疑問視されており、認識器の完全知識が攻撃者にアクセス可能な場合、敵攻撃に対して脆弱であることが示されている。 しかし、このホワイトボックス要件はたいていのシナリオでは過度に制限され、攻撃は真の脅威ではない。 本稿では,そのような脅威がブラックボックスの設定下でも存在することを示す。 そこで本研究では,最初のブラックボックス対人攻撃法BASARを提案する。 BASAR を通じて、敵対的攻撃は真に脅威であるだけでなく、非常に詐欺的であることを示す。なぜなら、対逆的サンプルは非多様体のみが存在するという共通の信念とは対照的に、オンマニホールド敵対的サンプルは骨格運動においてかなり一般的であるからである。 徹底的な評価と比較を通じて,バザールはモデル,データ,攻撃モードにまたがって攻撃を成功させることができることを示した。 過酷な知覚研究を通じて、効果的だが知覚不能な攻撃が達成できることを実証する。 異なるアクティビティ認識に対する攻撃を分析することで、BASARは脆弱性の潜在的な原因を特定し、どの分類器が攻撃に対してより堅牢になるかについての洞察を提供します。

Skeletal motion plays a vital role in human activity recognition as either an independent data source or a complement. The robustness of skeleton-based activity recognizers has been questioned recently, which shows that they are vulnerable to adversarial attacks when the full-knowledge of the recognizer is accessible to the attacker. However, this white-box requirement is overly restrictive in most scenarios and the attack is not truly threatening. In this paper, we show that such threats do exist under black-box settings too. To this end, we propose the first black-box adversarial attack method BASAR. Through BASAR, we show that adversarial attack is not only truly a threat but also can be extremely deceitful, because on-manifold adversarial samples are rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation and comparison, we show that BASAR can deliver successful attacks across models, data, and attack modes. Through harsh perceptual studies, we show that it achieves effective yet imperceptible attacks. By analyzing the attack on different activity recognizers, BASAR helps identify the potential causes of their vulnerability and provides insights on what classifiers are likely to be more robust against attack.
翻訳日:2021-03-11 05:33:13 公開日:2021-03-09
# (参考訳) テキスト分類のための自己監視正規化

Self-supervised Regularization for Text Classification ( http://arxiv.org/abs/2103.05231v1 )

ライセンス: CC BY 4.0
Meng Zhou, Zechen Li, Pengtao Xie(参考訳) テキスト分類は広く研究されている問題であり、幅広い応用がある。 多くの実世界の問題において、分類モデルの訓練用テキスト数は限られており、これらのモデルは過度に適合する傾向にある。 そこで本研究では,自己監視型学習(SSL)に基づくデータ依存型正規化手法であるSSL-Regを提案する。 SSLは、人間提供のラベルを使用せずに入力データの補助タスクを定義し、これらの補助タスクを解決することによってデータ表現を学習する教師なしの学習アプローチです。 SSL-Regでは、教師なし分類タスクと教師なしSSLタスクを同時に行う。 SSLタスクは教師なしで、人間提供のラベルを使用せずに入力テキストで純粋に定義されます。 SSLタスクを使用してモデルをトレーニングすると、分類タスクの限られた数のクラスラベルにモデルがオーバーフィットするのを防ぐことができます。 提案手法の有効性を実証する17のテキスト分類データセットの実験を行った。

Text classification is a widely studied problem and has broad applications. In many real-world problems, the number of texts for training classification models is limited, which renders these models prone to overfitting. To address this problem, we propose SSL-Reg, a data-dependent regularization approach based on self-supervised learning (SSL). SSL is an unsupervised learning approach which defines auxiliary tasks on input data without using any human-provided labels and learns data representations by solving these auxiliary tasks. In SSL-Reg, a supervised classification task and an unsupervised SSL task are performed simultaneously. The SSL task is unsupervised, which is defined purely on input texts without using any human-provided labels. Training a model using an SSL task can prevent the model from being overfitted to a limited number of class labels in the classification task. Experiments on 17 text classification datasets demonstrate the effectiveness of our proposed method.
翻訳日:2021-03-11 05:28:58 公開日:2021-03-09
# (参考訳) BERTese: BERTに話すことを学ぶ

BERTese: Learning to Speak to BERT ( http://arxiv.org/abs/2103.05327v1 )

ライセンス: CC BY 4.0
Adi Haviv, Jonathan Berant and Amir Globerson(参考訳) 大規模な事前訓練された言語モデルは、そのパラメータに大量の世界と常識の知識をエンコードすることが示されており、その知識を抽出する方法に大きな関心を寄せている。 過去の研究では、手作業によるクエリの取得と、別のパイプラインを使ったパラフレーズの収集によって知識が抽出された。 本研究では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。 意味のある書き換えを促進するために、クエリが実際の言語トークンに対応するように促す補助損失関数を追加します。 私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。 さらにBERTeseは、言語モデルが知識抽出を行うのに役立つ言語の種類に関する洞察を提供する。

Large pre-trained language models have been shown to encode large amounts of world and commonsense knowledge in their parameters, leading to substantial interest in methods for extracting that knowledge. In past work, knowledge was extracted by taking manually-authored queries and gathering paraphrases for them using a separate pipeline. In this work, we propose a method for automatically rewriting queries into "BERTese", a paraphrase query that is directly optimized towards better knowledge extraction. To encourage meaningful rewrites, we add auxiliary loss functions that encourage the query to correspond to actual language tokens. We empirically show our approach outperforms competing baselines, obviating the need for complex pipelines. Moreover, BERTese provides some insight into the type of language that helps language models perform knowledge extraction.
翻訳日:2021-03-11 05:11:40 公開日:2021-03-09
# (参考訳) 計算的インパクト時間ガイダンス:学習に基づく予測補正手法

Computational Impact Time Guidance: A Learning-Based Prediction-Correction Approach ( http://arxiv.org/abs/2103.05196v1 )

ライセンス: CC BY 4.0
Zichao Liu, Jiang Wang, Shaoming He, Hyo-Sang Shin and Antonios Tsourdos(参考訳) 本稿では,影響時間制御の問題を考察し,この問題を解決するための学習型計算指導アルゴリズムを提案する。 本提案のガイダンスアルゴリズムは,リアルな空力特性を有する比例航法誘導の下での正確な移動時刻をディープニューラルネットワークにより推定し,新たな強化学習技術を用いて影響時間誤差を緩和するバイアスコマンドを開発する,一般予測補正の概念に基づいて開発された。 ディープニューラルネットワークは強化学習ブロックに拡張され、典型的な強化学習の定式化で観測されたスパース報酬の問題を解決する。 提案アルゴリズムを支援するために, 大規模数値シミュレーションを行った。

This paper investigates the problem of impact-time-control and proposes a learning-based computational guidance algorithm to solve this problem. The proposed guidance algorithm is developed based on a general prediction-correction concept: the exact time-to-go under proportional navigation guidance with realistic aerodynamic characteristics is estimated by a deep neural network and a biased command to nullify the impact time error is developed by utilizing the emerging reinforcement learning techniques. The deep neural network is augmented into the reinforcement learning block to resolve the issue of sparse reward that has been observed in typical reinforcement learning formulation. Extensive numerical simulations are conducted to support the proposed algorithm.
翻訳日:2021-03-11 05:01:59 公開日:2021-03-09
# (参考訳) 医療における強化学習の課題

Challenges for Reinforcement Learning in Healthcare ( http://arxiv.org/abs/2103.05612v1 )

ライセンス: CC BY 4.0
Elsa Riachi, Muhammad Mamdani, Michael Fralick, Frank Rudzicz(参考訳) 多くのヘルスケアの決定は、多数の治療オプションを連続的かつ反復的にナビゲートし、最適な患者の結果を達成するために最適な治療経路を見つけます。 このような最適化問題は強化学習に有効かもしれない。 強化学習エージェントは、意思決定支援ツールとして作用し、医師に治療の推奨を提供するように訓練することができる。 しかし、報酬関数の指定、適切な状態表現の選択、学習ポリシーの評価など、ベンチマーク環境を超えてRLを使用する場合、多くの困難が発生する。

Many healthcare decisions involve navigating through a multitude of treatment options in a sequential and iterative manner to find an optimal treatment pathway with the goal of an optimal patient outcome. Such optimization problems may be amenable to reinforcement learning. A reinforcement learning agent could be trained to provide treatment recommendations for physicians, acting as a decision support tool. However, a number of difficulties arise when using RL beyond benchmark environments, such as specifying the reward function, choosing an appropriate state representation and evaluating the learned policy.
翻訳日:2021-03-11 04:42:29 公開日:2021-03-09
# (参考訳) 符号化変換による画像間変換への生成的遷移機構

Generative Transition Mechanism to Image-to-Image Translation via Encoded Transformation ( http://arxiv.org/abs/2103.05193v1 )

ライセンス: CC BY 4.0
Yaxin Shi, Xiaowei Zhou, Ping Liu, Ivor Tsang(参考訳) 本稿では,画像対画像(i2i)変換問題に遷移一貫性,すなわち各データペア間の条件付きデータマッピングで定義される一貫性について再検討する。 トランジッション変数 $t$,すなわち $x \overset{t(x,y)}{\mapsto}y$ で各データマッピングを明示的にパラメータ化することで、既存のi2i翻訳モデルは、画像再構成や属性予測といった結果整合性の維持に重点を置いていることが分かりました。 これにより、テストフェーズで見当たらない遷移を伴う満足のいく結果を生成するための一般化能力が制限される。 そこで本研究では,i2i翻訳における結果整合性とトランジッション一貫性を両立させ,入力と出力の一貫性の密接な向上を図る。 翻訳モデルの一般化能力を活かすため,この2つの<kinds>を非可視遷移上で明示的に正規化するためのトランジションエンコーディングを提案する。 さらに、これらの明示的な正規化成分を分布レベルに一般化し、I2I翻訳問題に対する全体的な一貫性を一般化する。 上述の設計により,提案モデルであるTransition Encoding GAN (TEGAN) は,テストフェーズにおける見知らぬ遷移を伴う現実的で意味的に一貫した翻訳結果を生成するために,スーパーバンの一般化能力を実現することができる。 また、既存のGANベースのI2Iトランジションモデルの統一的な理解と、データマッピング、すなわちトランジションの明示的なモデリングも提供します。 4つの異なるI2I翻訳タスクの実験は、TEGANの有効性と一般性を示しています。

In this paper, we revisit the Image-to-Image (I2I) translation problem with transition consistency, namely the consistency defined on the conditional data mapping between each data pairs. Explicitly parameterizing each data mappings with a transition variable $t$, i.e., $x \overset{t(x,y)}{\mapsto}y$, we discover that existing I2I translation models mainly focus on maintaining consistency on results, e.g., image reconstruction or attribute prediction, named result consistency in our paper. This restricts their generalization ability to generate satisfactory results with unseen transitions in the test phase. Consequently, we propose to enforce both result consistency and transition consistency for I2I translation, to benefit the problem with a closer consistency between the input and output. To benefit the generalization ability of the translation model, we propose transition encoding to facilitate explicit regularization of these two {kinds} of consistencies on unseen transitions. We further generalize such explicitly regularized consistencies to distribution-level, thus facilitating a generalized overall consistency for I2I translation problems. With the above design, our proposed model, named Transition Encoding GAN (TEGAN), can poss superb generalization ability to generate realistic and semantically consistent translation results with unseen transitions in the test phase. It also provides a unified understanding of the existing GAN-based I2I transition models with our explicitly modeling of the data mapping, i.e., transition. Experiments on four different I2I translation tasks demonstrate the efficacy and generality of TEGAN.
翻訳日:2021-03-11 02:59:33 公開日:2021-03-09
# (参考訳) センサの解像度向上により、同じパラメータ数またはFLOPSのCNN精度が向上する

Enhancing sensor resolution improves CNN accuracy given the same number of parameters or FLOPS ( http://arxiv.org/abs/2103.05251v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) 多くのコンピュータビジョンアプリケーションで優れたパフォーマンスを得るためには、高画質が不可欠です。 しかし、cnnの計算複雑性は入力画像サイズの増加とともに著しく増大する。 本稿では,同じパラメータ数やフラップ数を持ちながら,高い入力解像度で高い精度を実現するように,ネットワークを変更することはほぼ常に可能であることを示す。 efficientnetの論文と似ているが、ネットワーク幅、奥行き、解像度を同時に最適化する代わりに、ここでは入力解像度だけに焦点を当てる。 これにより探索空間はより小さくなり、低い計算予算体系に適している。 さらに重要なのは、モデルパラメータの数(およびモデル容量)を制御することによって、精度のさらなる利点は、より高い入力解像度によるものであることを示しています。 MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。

High image resolution is critical to obtain a good performance in many computer vision applications. Computational complexity of CNNs, however, grows significantly with the increase in input image size. Here, we show that it is almost always possible to modify a network such that it achieves higher accuracy at a higher input resolution while having the same number of parameters or/and FLOPS. The idea is similar to the EfficientNet paper but instead of optimizing network width, depth and resolution simultaneously, here we focus only on input resolution. This makes the search space much smaller which is more suitable for low computational budget regimes. More importantly, by controlling for the number of model parameters (and hence model capacity), we show that the additional benefit in accuracy is indeed due to the higher input resolution. Preliminary empirical investigation over MNIST, Fashion MNIST, and CIFAR10 datasets demonstrates the efficiency of the proposed approach.
翻訳日:2021-03-11 02:39:32 公開日:2021-03-09
# (参考訳) 安定化医療画像攻撃

Stabilized Medical Image Attacks ( http://arxiv.org/abs/2103.05232v1 )

ライセンス: CC BY 4.0
Gege Qi, Lijun Gong, Yibing Song, Kai Ma, Yefeng Zheng(参考訳) 畳み込みニューラルネットワーク(CNN)は、自動疾患診断のための既存の医療システムである。 しかし、これらのシステムに対する脅威は、逆襲攻撃がCNNを脆弱にすることである。 不正確な診断結果は、人間の医療に悪影響を及ぼす。 深部医療診断システムを強化するためには, 敵対的攻撃の可能性を検討する必要がある。 一方, 医療画像(CT, 眼底, 内視鏡画像など)には様々な形態があり, それぞれのタイプが他と大きく異なる。 さまざまなタイプの医療画像に対する逆の摂動を生成することはより困難です。 本稿では,医用画像に対して常に逆向きの摂動を発生させる画像ベース医療敵攻撃法を提案する。 本手法の客観的機能は、損失偏差項と損失安定化項とからなる。 損失偏差項は、逆例のCNN予測と基底真理ラベルとの間の発散を増加させる。 一方、損失安定化項は、この例と平滑化された入力の類似のcnn予測を保証する。 摂動発生の反復の全体の観点から、提案した損失安定化項は摂動空間を徹底的に探索し、局所的最適脱出のための単一スポットを滑らかにする。 さらに,提案する損失関数のkl分割を解析し,損失安定化項が基底真理から逸脱しながら,摂動を固定目的点に向けて更新することを示す。 この安定化は、小さなばらつきで摂動を発生させながら、異なる種類の医療画像に有効な医療攻撃を確実にする。 最近のCOVID-19データセットを含むいくつかの医療画像分析ベンチマークの実験は、提案手法の安定性を示している。

Convolutional Neural Networks (CNNs) have advanced existing medical systems for automatic disease diagnosis. However, a threat to these systems arises that adversarial attacks make CNNs vulnerable. Inaccurate diagnosis results make a negative influence on human healthcare. There is a need to investigate potential adversarial attacks to robustify deep medical diagnosis systems. On the other side, there are several modalities of medical images (e.g., CT, fundus, and endoscopic image) of which each type is significantly different from others. It is more challenging to generate adversarial perturbations for different types of medical images. In this paper, we propose an image-based medical adversarial attack method to consistently produce adversarial perturbations on medical images. The objective function of our method consists of a loss deviation term and a loss stabilization term. The loss deviation term increases the divergence between the CNN prediction of an adversarial example and its ground truth label. Meanwhile, the loss stabilization term ensures similar CNN predictions of this example and its smoothed input. From the perspective of the whole iterations for perturbation generation, the proposed loss stabilization term exhaustively searches the perturbation space to smooth the single spot for local optimum escape. We further analyze the KL-divergence of the proposed loss function and find that the loss stabilization term makes the perturbations updated towards a fixed objective spot while deviating from the ground truth. This stabilization ensures the proposed medical attack effective for different types of medical images while producing perturbations in small variance. Experiments on several medical image analysis benchmarks including the recent COVID-19 dataset show the stability of the proposed method.
翻訳日:2021-03-11 01:37:17 公開日:2021-03-09
# (参考訳) 選択的および特徴に基づく逆例検出

Selective and Features based Adversarial Example Detection ( http://arxiv.org/abs/2103.05354v1 )

ライセンス: CC BY 4.0
Ahmed Aldahdooh, Wassim Hamidouche, and Olivier D\'eforges(参考訳) ディープニューラルネットワーク(DNN)を中継するセキュリティに敏感なアプリケーションは、人間には受け入れられず、DNNがそれらを誤分類させる原因となる敵の例(AE)を生成するために作られた小さな摂動に対して脆弱です。 多くの防御および検出技術が提案されている。 state-of-the-art検出テクニックは、特定の攻撃や他人による破壊、攻撃に関する知識の必要、一貫性の欠如、モデルパラメータのオーバーヘッドの増大、時間消費、あるいは推論時間の遅延のために設計されている。 これらの要因をトレードオフするために,多タスク学習環境における選択予測,処理モデル層出力,知識伝達概念を用いた教師なし検出機構を提案する。 Selective and Feature based Adversarial Detection (SFAD)と呼ばれる。 実験の結果,提案手法は,ホワイトボックスシナリオにおけるテスト攻撃に対する最先端手法と同等の結果を得られ,ブラックボックスとグレーボックスシナリオの精度が向上した。 さらに,SFAD は MNIST の High Confidence Attacks (HCAs) に対して完全に堅牢であり,CIFAR-10 データセットに対して部分的に堅牢であることを示す。

Security-sensitive applications that relay on Deep Neural Networks (DNNs) are vulnerable to small perturbations crafted to generate Adversarial Examples (AEs) that are imperceptible to human and cause DNN to misclassify them. Many defense and detection techniques have been proposed. The state-of-the-art detection techniques have been designed for specific attacks or broken by others, need knowledge about the attacks, are not consistent, increase model parameters overhead, are time-consuming, or have latency in inference time. To trade off these factors, we propose a novel unsupervised detection mechanism that uses the selective prediction, processing model layers outputs, and knowledge transfer concepts in a multi-task learning setting. It is called Selective and Feature based Adversarial Detection (SFAD). Experimental results show that the proposed approach achieves comparable results to the state-of-the-art methods against tested attacks in white box scenario and better results in black and gray boxes scenarios. Moreover, results show that SFAD is fully robust against High Confidence Attacks (HCAs) for MNIST and partially robust for CIFAR-10 datasets.
翻訳日:2021-03-11 01:22:43 公開日:2021-03-09
# (参考訳) 弱ラベルランダムインデックス

The Weakly-Labeled Rand Index ( http://arxiv.org/abs/2103.04872v2 )

ライセンス: CC BY 4.0
Dylan Stewart, Anna Hampton, Alina Zare, Jeff Dale, James Keller(参考訳) 合成開口ソナー (SAS) 調査では, 海底型間の遷移領域が広い画像が得られた。 これらの領域により、画像のラベル付けと分割が困難であり、さらに画像分割を適切にスコア付けすることが困難である。 標準のクリスプセグメンテーションスキームの性能を定量化する多くのアプローチがあるが、不確かさの勾配や領域が不適切であるリモートセンシングイメージにおけるハードバウンダリの描画は困難である。 これらのケースは弱いラベルと関連する適切なスコア付けアプローチを保証します。 本稿では,弱いラベル付きデータに対するラベル付け手法とRand indexの修正版を導入し,これらの課題に対処する。 結果は新しいインデックスで評価され、従来のセグメンテーション評価方法と比較されます。 sasデータセットを用いた実験の結果,我々の弱いラベル付きrandインデックススコアは質的性能に適しており,弱いラベル付きデータをスコアする従来の量的指標よりも適していることがわかった。

Synthetic Aperture Sonar (SAS) surveys produce imagery with large regions of transition between seabed types. Due to these regions, it is difficult to label and segment the imagery and, furthermore, challenging to score the image segmentations appropriately. While there are many approaches to quantify performance in standard crisp segmentation schemes, drawing hard boundaries in remote sensing imagery where gradients and regions of uncertainty exist is inappropriate. These cases warrant weak labels and an associated appropriate scoring approach. In this paper, a labeling approach and associated modified version of the Rand index for weakly-labeled data is introduced to address these issues. Results are evaluated with the new index and compared to traditional segmentation evaluation methods. Experimental results on a SAS data set containing must-link and cannot-link labels show that our Weakly-Labeled Rand index scores segmentations appropriately in reference to qualitative performance and is more suitable than traditional quantitative metrics for scoring weakly-labeled data.
翻訳日:2021-03-11 00:39:48 公開日:2021-03-09
# (参考訳) 再生可能資源予測のための機械学習類似度指標を用いた気象アナログ

Weather Analogs with a Machine Learning Similarity Metric for Renewable Resource Forecasting ( http://arxiv.org/abs/2103.04530v2 )

ライセンス: CC BY 4.0
Weiming Hu, Guido Cervone, George Young, Luca Delle Monache(参考訳) アナログアンサンブル(AnEn)技術はいくつかの気象問題に有効であることが示されている。 大規模な空間領域と拡張時空間ウィンドウ内で検索される以前の気象アナログとは異なり、AnEnは空間と時間を厳密に制限し、短い時間ウィンドウ内で各グリッドポイントで結果を独立に生成する。 AnEnは、正確で校正されたアンサンブル予測につながる同様の予測を見つけることができる。 AnEnテクニックのコアとなるのは、新しいターゲット予測に関して、過去の予測をソートする類似度メトリックである。 一般的に用いられる計量はユークリッド距離である。 しかし、この計量を用いた大きな困難は、全てのパラメータに対する重みの定義である。 一般に、特徴選択と広範な重み検索が必要である。 本稿では、機械学習(ML)に基づく類似度指標による気象アナログの新しい定義を提案する。 類似度メトリックは、トレーニングされたニューラルネットワークを使用して、天気アナログを検索する。 この新しいメトリックは、事前の機能選択と重み付けの最適化を必要とせずに、すべての変数を組み込むことができる。 風速と太陽照度を予測するための新しい測定器の適用について実験を行った。 その結果、MLメトリックは一般的に元のメトリックよりも優れています。 MLメトリックは、より大きなエラーを修正し、より大きな検索レポジトリを活用できる優れた機能を備えている。 学習したメトリックを用いた空間予測は、他の場所に転送可能な効果的な潜在機能を定義する能力も示す。

The Analog Ensemble (AnEn) technique has been shown effective on several weather problems. Unlike previous weather analogs that are sought within a large spatial domain and an extended temporal window, AnEn strictly confines space and time, and independently generates results at each grid point within a short time window. AnEn can find similar forecasts that lead to accurate and calibrated ensemble forecasts. The central core of the AnEn technique is a similarity metric that sorts historical forecasts with respect to a new target prediction. A commonly used metric is Euclidean distance. However, a significant difficulty using this metric is the definition of the weights for all the parameters. Generally, feature selection and extensive weight search are needed. This paper proposes a novel definition of weather analogs through a Machine Learning (ML) based similarity metric. The similarity metric uses neural networks that are trained and instantiated to search for weather analogs. This new metric allows incorporating all variables without requiring a prior feature selection and weight optimization. Experiments are presented on the application of this new metric to forecast wind speed and solar irradiance. Results show that the ML metric generally outperforms the original metric. The ML metric has a better capability to correct for larger errors and to take advantage of a larger search repository. Spatial predictions using a learned metric also show the ability to define effective latent features that are transferable to other locations.
翻訳日:2021-03-11 00:32:51 公開日:2021-03-09
# (参考訳) 汎用計算エンジンとしてのプリトレーニングトランス

Pretrained Transformers as Universal Computation Engines ( http://arxiv.org/abs/2103.05247v1 )

ライセンス: CC BY 4.0
Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch(参考訳) 自然言語に事前学習されたトランスフォーマーの能力について, 最小限の微調整で他のモダリティに一般化すること, 特に, 残差ブロックの自己付着層とフィードフォワード層の微調整をせずに検討する。 我々は,FPT (Frozen Pretrained Transformer) と呼ばれる,数値計算,視覚,タンパク質の折りたたみ予測を対象とする,様々なシーケンス分類タスクを微調整するモデルについて検討する。 事前学習データセットと同じモダリティを微調整する先行研究とは対照的に,自然言語への事前学習は,非言語下流タスクにおける性能と計算効率を向上させる。 特に,このような事前学習により,fpt はこれらのモダリティに対してゼロショットで一般化でき,これらのタスクで完全に訓練されたトランスフォーマーの性能に適合することがわかった。

We investigate the capability of a transformer pretrained on natural language to generalize to other modalities with minimal finetuning -- in particular, without finetuning of the self-attention and feedforward layers of the residual blocks. We consider such a model, which we call a Frozen Pretrained Transformer (FPT), and study finetuning it on a variety of sequence classification tasks spanning numerical computation, vision, and protein fold prediction. In contrast to prior works which investigate finetuning on the same modality as the pretraining dataset, we show that pretraining on natural language improves performance and compute efficiency on non-language downstream tasks. In particular, we find that such pretraining enables FPT to generalize in zero-shot to these modalities, matching the performance of a transformer fully trained on these tasks.
翻訳日:2021-03-10 19:22:58 公開日:2021-03-09
# 強化学習のための変分量子政策

Variational quantum policies for reinforcement learning ( http://arxiv.org/abs/2103.05577v1 )

ライセンス: Link先を確認
Sofiene Jerbi, Casper Gyurik, Simon Marshall, Hans J. Briegel, Vedran Dunjko(参考訳) 変分量子回路は近年、量子機械学習モデルとして人気を集めている。 教師なしおよび教師なしの学習環境において教育訓練に多大な努力が注がれているが、強化学習における潜在的な使用には比較的注意が向けられていない。 本研究では,量子政策勾配アルゴリズムの理解を様々な方法で活用する。 まず,変動量子回路に基づく強化学習ポリシの構築と訓練について検討する。 本稿では、量子ポリシーの設計、学習アルゴリズムの提供、および古典的なベンチマーク環境での性能試験を行う。 次に,量子学習エージェントと多項式時間古典学習者との性能を分離するタスク環境の存在を,離散対数問題の解の古典的硬さを条件として示す。 また、より自然な設定も検討し、標準のニューラルネットワークポリシーよりも、量子ポリシーに実証的な量子効果を示す。 この結果は、強化学習環境における実用的短期量子優位性を確立するための第一歩となる。 さらに、変動量子ポリシーの設計選択のいくつかは、量子分類器や量子回帰モデルなどの変動量子回路に基づく他のモデルにも有益であると考えています。

Variational quantum circuits have recently gained popularity as quantum machine learning models. While considerable effort has been invested to train them in supervised and unsupervised learning settings, relatively little attention has been given to their potential use in reinforcement learning. In this work, we leverage the understanding of quantum policy gradient algorithms in a number of ways. First, we investigate how to construct and train reinforcement learning policies based on variational quantum circuits. We propose several designs for quantum policies, provide their learning algorithms, and test their performance on classical benchmarking environments. Second, we show the existence of task environments with a provable separation in performance between quantum learning agents and any polynomial-time classical learner, conditioned on the widely-believed classical hardness of the discrete logarithm problem. We also consider more natural settings, in which we show an empirical quantum advantage of our quantum policies over standard neural-network policies. Our results constitute a first step towards establishing a practical near-term quantum advantage in a reinforcement learning setting. Additionally, we believe that some of our design choices for variational quantum policies may also be beneficial to other models based on variational quantum circuits, such as quantum classifiers and quantum regression models.
翻訳日:2021-03-10 15:12:19 公開日:2021-03-09
# 学習の実証:定義と実践

Proof-of-Learning: Definitions and Practice ( http://arxiv.org/abs/2103.05633v1 )

ライセンス: Link先を確認
Hengrui Jia, Mohammad Yaghini, Christopher A. Choquette-Choo, Natalie Dullerud, Anvith Thudi, Varun Chandrasekaran, Nicolas Papernot(参考訳) トレーニングマシンラーニング(ML)モデルは通常、高価な反復最適化を伴う。 モデルの最終的なパラメータがリリースされると、モデルにこれらのパラメータが実際にこの最適化手順の結果であることを示すためにトレーニングされたエンティティのメカニズムは存在しない。 このようなメカニズムは、いくつかの方法でMLアプリケーションのセキュリティをサポートする。 たとえば、複数の当事者が特定のモデルの所有権を争う場合、所有権の解決を簡素化します。 また、Byzantineの労働者が間違ったモデル更新を返すことによってサービスの拒否をマウントする可能性がある、信頼できない労働者に分散トレーニングを容易にする。 本稿では,MLにおける学習の証明という概念を導入することで,この問題を再考する。 作業証明と検証計算の両方の研究から着想を得て,その確率性から秘密情報を蓄積する基礎的学習アルゴリズム,確率勾配降下を観察する。 これは、計算が正しいモデルパラメータの集合を得る必要があることを証明した、学習の証明のための自然な構成を生成する。 特に我々の分析と実験は、学習の証明を誤って作成しようとする敵が、勾配降下自体に必要な作業よりも、[少なくとも]多くの作業を行う必要があることを示している。 また、上記の両方のシナリオで具体的な学習証明メカニズムをインスタンス化します。 モデルオーナシップの解決では、公開されたモデルの知的財産を保護する。 分散トレーニングでは、トレーニング手順の可用性を維持する。 ハードウェア(MLアクセラレータ)とソフトウェアスタックによって引き起こされる分散に対して,我々の実証学習機構が堅牢であることを示す実験的検討を行った。

Training machine learning (ML) models typically involves expensive iterative optimization. Once the model's final parameters are released, there is currently no mechanism for the entity which trained the model to prove that these parameters were indeed the result of this optimization procedure. Such a mechanism would support security of ML applications in several ways. For instance, it would simplify ownership resolution when multiple parties contest ownership of a specific model. It would also facilitate the distributed training across untrusted workers where Byzantine workers might otherwise mount a denial-of-service by returning incorrect model updates. In this paper, we remediate this problem by introducing the concept of proof-of-learning in ML. Inspired by research on both proof-of-work and verified computations, we observe how a seminal training algorithm, stochastic gradient descent, accumulates secret information due to its stochasticity. This produces a natural construction for a proof-of-learning which demonstrates that a party has expended the compute require to obtain a set of model parameters correctly. In particular, our analyses and experiments show that an adversary seeking to illegitimately manufacture a proof-of-learning needs to perform *at least* as much work than is needed for gradient descent itself. We also instantiate a concrete proof-of-learning mechanism in both of the scenarios described above. In model ownership resolution, it protects the intellectual property of models released publicly. In distributed training, it preserves availability of the training procedure. Our empirical evaluation validates that our proof-of-learning mechanism is robust to variance induced by the hardware (ML accelerators) and software stacks.
翻訳日:2021-03-10 15:11:59 公開日:2021-03-09
# ニューラルネットワークにおける知識進化

Knowledge Evolution in Neural Networks ( http://arxiv.org/abs/2103.05152v1 )

ライセンス: Link先を確認
Ahmed Taha, Abhinav Shrivastava, Larry Davis(参考訳) ディープラーニングは、大規模なデータコーパス(ラベル付きまたはラベルなし)の可用性に依存します。 したがって、未解決の課題の1つは、比較的小さなデータセットでディープネットワークをトレーニングする方法です。 そこで本研究では,比較的小さなデータセットのパフォーマンス向上を目的とした進化型トレーニング手法を提案する。 知識進化(KE)アプローチは、深いネットワークを適合仮説とリセット仮説の2つの仮説に分割する。 複数の世代のリセット仮説を摂動させることで、フィット仮説の知識を反復的に進化させます。 このアプローチはパフォーマンスを向上させるだけでなく、より小さな推論コストでスリムなネットワークを学習する。 keはバニラと残留畳み込みネットワークの両方とシームレスに統合される。 KEはデータ収集の過度な適合と負担を軽減します。 様々なネットワークアーキテクチャと損失関数でKEを評価します。 比較的小さなデータセット(例えばCUB-200)とランダムに初期化したディープネットワークを用いてKEを評価する。 KEは最先端のベースラインで絶対21%の改善マージンを達成する。 この性能改善には、相対的に73%の推論コスト削減が伴う。 KEは分類およびメートル法学習のベンチマークの最先端の結果を達成します。 http://bit.ly/3uLgwYb

Deep learning relies on the availability of a large corpus of data (labeled or unlabeled). Thus, one challenging unsettled question is: how to train a deep network on a relatively small dataset? To tackle this question, we propose an evolution-inspired training approach to boost performance on relatively small datasets. The knowledge evolution (KE) approach splits a deep network into two hypotheses: the fit-hypothesis and the reset-hypothesis. We iteratively evolve the knowledge inside the fit-hypothesis by perturbing the reset-hypothesis for multiple generations. This approach not only boosts performance, but also learns a slim network with a smaller inference cost. KE integrates seamlessly with both vanilla and residual convolutional networks. KE reduces both overfitting and the burden for data collection. We evaluate KE on various network architectures and loss functions. We evaluate KE using relatively small datasets (e.g., CUB-200) and randomly initialized deep networks. KE achieves an absolute 21% improvement margin on a state-of-the-art baseline. This performance improvement is accompanied by a relative 73% reduction in inference cost. KE achieves state-of-the-art results on classification and metric learning benchmarks. Code available at http://bit.ly/3uLgwYb
翻訳日:2021-03-10 15:11:36 公開日:2021-03-09
# 正確な車両再同定のためのプラガブル弱めのクロスビュー学習

Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle Re-Identification ( http://arxiv.org/abs/2103.05376v1 )

ライセンス: Link先を確認
Lu Yang, Hongbang Liu, Jinghao Zhou, Lingqiao Liu, Lei Zhang, Peng Wang and Yanning Zhang(参考訳) 異なる視点で車両の視覚的外観が大きく変化するため、クロスビューの一貫した機能表現を学ぶことは、正確な車両再識別(ReID)の鍵となります。 この目的のために、既存のほとんどのアプローチでは、広範囲な視点アノテーションを用いた教師付きクロスビュー学習を採用しているが、高価なラベリングコストと、個別の視点ラベルを定義するのが難しい連続的な視点変動のため、実際のアプリケーションではデプロイが困難である。 本研究では,車両 ReID 用のプラグイン可能な Weakly-supervised Cross-View Learning (WCVL) モジュールを提案する。 クロスビューサンプルを機能ドメインで最もポジティブなサンプルとして幻覚させることで、視点アノテーションを使わずに、車両のidに基づいたクロスビュー特徴距離を最小化することで、一貫性のある特徴表現を学べる。 さらに重要なことは,提案手法を既存車両のReIDベースラインにシームレスに接続することで,ベースラインを再学習することなくクロスビュー学習を実現することである。 有効性を示すため,提案手法を市販のベースラインにプラグインし,VeRi-776,VaviID,VRIC,VRAIの4つの公開ベンチマークデータセットで大幅な性能向上を実現した。

Learning cross-view consistent feature representation is the key for accurate vehicle Re-identification (ReID), since the visual appearance of vehicles changes significantly under different viewpoints. To this end, most existing approaches resort to the supervised cross-view learning using extensive extra viewpoints annotations, which however, is difficult to deploy in real applications due to the expensive labelling cost and the continous viewpoint variation that makes it hard to define discrete viewpoint labels. In this study, we present a pluggable Weakly-supervised Cross-View Learning (WCVL) module for vehicle ReID. Through hallucinating the cross-view samples as the hardest positive counterparts in feature domain, we can learn the consistent feature representation via minimizing the cross-view feature distance based on vehicle IDs only without using any viewpoint annotation. More importantly, the proposed method can be seamlessly plugged into most existing vehicle ReID baselines for cross-view learning without re-training the baselines. To demonstrate its efficacy, we plug the proposed method into a bunch of off-the-shelf baselines and obtain significant performance improvement on four public benchmark datasets, i.e., VeRi-776, VehicleID, VRIC and VRAI.
翻訳日:2021-03-10 15:11:06 公開日:2021-03-09
# Reward Gradientsを用いたモデルフリー政策学習

Model-free Policy Learning with Reward Gradients ( http://arxiv.org/abs/2103.05147v1 )

ライセンス: Link先を確認
Qingfeng Lan, A. Rupam Mahmood(参考訳) 政策勾配法は、勾配を推定するための可能性比(LR)推定器または再パラメータ化(RP)推定器にのみ基いて政策目標の勾配を推定する。 LR推定器に基づく多くのポリシー勾配法はポリシー勾配定理の下で統一することができる(Sutton et al., 2000)。 しかし、そのような統一定理はRP推定器に基づく政策勾配法には存在しない。 さらに、既存のメソッドは、それらの間の自明な補間を超えて両方の推定器を要求し、使用することはない。 本稿では,RP推定値に基づく既存の政策勾配手法を統一する理論的枠組みを提案する。 本手法を応用して,LRとRPの両推定器を組み込んだポリシ勾配を計算し,両推定器が存在する場合にのみ非バイアス化できる新しい戦略を導入する。 この戦略に基づいて、報酬勾配を利用する最初のモデルフリーなポリシー勾配法である、Reward Policy Gradientアルゴリズムと呼ばれる新しいオンデマンドアルゴリズムを開発する。 理想化された環境を用いることで、報酬に対するrp推定値のみに基づく政策勾配が真の報酬であってもバイアスとなることを示し、我々の組み合わせ推定値がそうではないことを示す。 最後に,本手法は,LRベースのオンポリシ手法であるProximal Policy Optimizationと,複数の連続制御タスクで比較可能に,あるいは比較可能に実行できることを示した。

Policy gradient methods estimate the gradient of a policy objective solely based on either the likelihood ratio (LR) estimator or the reparameterization (RP) estimator for estimating gradients. Many policy gradient methods based on the LR estimator can be unified under the policy gradient theorem (Sutton et al., 2000). However, such a unifying theorem does not exist for policy gradient methods based on the RP estimator. Moreover, no existing method requires and uses both estimators beyond a trivial interpolation between them. In this paper, we provide a theoretical framework that unifies several existing policy gradient methods based on the RP estimator. Utilizing our framework, we introduce a novel strategy to compute the policy gradient that, for the first time, incorporates both the LR and RP estimators and can be unbiased only when both estimators are present. Based on this strategy, we develop a new on-policy algorithm called the Reward Policy Gradient algorithm, which is the first model-free policy gradient method to utilize reward gradients. Using an idealized environment, we show that policy gradient solely based on the RP estimator for rewards are biased even with true rewards whereas our combined estimator is not. Finally, we show that our method either performs comparably with or outperforms Proximal Policy Optimization -- an LR-based on-policy method -- on several continuous control tasks.
翻訳日:2021-03-10 15:09:59 公開日:2021-03-09
# オンライン設定における連続密度比の推定

Continual Density Ratio Estimation in an Online Setting ( http://arxiv.org/abs/2103.05276v1 )

ライセンス: Link先を確認
Yu Chen, Song Liu, Tom Diethe, Peter Flach(参考訳) ストリーミングデータを持つオンラインアプリケーションでは、トレーニングやテストセットが元のデータセットからどの程度離れているかを認識することが、モデルのパフォーマンスに不可欠である。 しかし、データストリームの歴史的なサンプルにアクセスできないかもしれません。 そこで本研究では,データストリームの初期分布と現在の分布($p/q_t$)の密度比を,過去のサンプルを保存せずに反復的に推定する新しい手法であるCDRE(Continual Density Ratio Estimation)を提案し,時間とともに$q_t$が$p$から$t$にシフトする。 その結果,cdreは標準dreよりも,原分布からのサンプルを必要とせずとも,分布間のばらつきを推定できることがわかった。 CDREは、重み付けされた共変量シフト、より良い意思決定のためのデータセット変更のトレースなど、オンライン学習のシナリオに適用できる。 さらに、(CDRE)は連続学習の設定の下で生成モデルの評価を可能にします。 我々の知る限りでは、元の分布からサンプルを格納せずに連続学習における生成モデルを評価する方法が存在しない。

In online applications with streaming data, awareness of how far the training or test set has shifted away from the original dataset can be crucial to the performance of the model. However, we may not have access to historical samples in the data stream. To cope with such situations, we propose a novel method, Continual Density Ratio Estimation (CDRE), for estimating density ratios between the initial and current distributions ($p/q_t$) of a data stream in an iterative fashion without the need of storing past samples, where $q_t$ is shifting away from $p$ over time $t$. We demonstrate that CDRE can be more accurate than standard DRE in terms of estimating divergences between distributions, despite not requiring samples from the original distribution. CDRE can be applied in scenarios of online learning, such as importance weighted covariate shift, tracing dataset changes for better decision making. In addition, (CDRE) enables the evaluation of generative models under the setting of continual learning. To the best of our knowledge, there is no existing method that can evaluate generative models in continual learning without storing samples from the original distribution.
翻訳日:2021-03-10 15:09:35 公開日:2021-03-09
# 先述の近似的潜在リーマン計量法

A prior-based approximate latent Riemannian metric ( http://arxiv.org/abs/2103.05290v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, Bogdan Georgiev, Bernhard Sch\"olkopf(参考訳) 確率的生成モデルは、潜在空間内のリーマン計量を通して高次元空間に横たわるデータ多様体の幾何学的構造を捉えることができる。 しかし、その実用性は必然的な複雑さによってかなり制限されている。 本研究では,単純かつ効率的かつ堅牢な生成モデルの潜在空間におけるサーロゲート共形リーマン計量を提案する。 この計量は、基礎的なエネルギーモデルを用いて学習することを提案する学習可能な事前に基づいています。 提案する計量の挙動を理論的に解析し,実際に使用することは理にかなっていることを示す。 実験では, 有効性とロバスト性, および新しい近似計量の挙動を実験的に示す。 また,提案手法を生命科学におけるデータ分析に適用する可能性を示す。

Stochastic generative models enable us to capture the geometric structure of a data manifold lying in a high dimensional space through a Riemannian metric in the latent space. However, its practical use is rather limited mainly due to inevitable complexity. In this work we propose a surrogate conformal Riemannian metric in the latent space of a generative model that is simple, efficient and robust. This metric is based on a learnable prior that we propose to learn using a basic energy-based model. We theoretically analyze the behavior of the proposed metric and show that it is sensible to use in practice. We demonstrate experimentally the efficiency and robustness, as well as the behavior of the new approximate metric. Also, we show the applicability of the proposed methodology for data analysis in the life sciences.
翻訳日:2021-03-10 15:09:16 公開日:2021-03-09
# アクティブテスト: サンプル効率モデルの評価

Active Testing: Sample-Efficient Model Evaluation ( http://arxiv.org/abs/2103.05331v1 )

ライセンス: Link先を確認
Jannik Kossen, Sebastian Farquhar, Yarin Gal, Tom Rainforth(参考訳) サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。 アクティブラーニングのようなアプローチは、モデルトレーニングに必要なラベルの数を減らすが、既存の文献はテストデータのラベル付けのコストをほとんど無視し、モデル評価のために大きなテストセットを非現実的に仮定する。 これにより、テストラベルが重要であり、同様に高価である実際のアプリケーションとの接続が切断される。 ハイパーパラメータを最適化します アクティブテストは、ラベルにテストポイントを慎重に選択し、モデル評価がサンプル効率であることを保証します。 そのために、我々は、アクティブテストの目標に合わせて特別に調整された理論的根拠と直感的な取得戦略を導き出し、これらはアクティブラーニングと異なることを指摘した。 ラベルを積極的に選択するとバイアスが発生し、同時に推定器のばらつきを減らしながらそのバイアスを除去する方法を示す。 アクティブテストは実装が簡単で、効果的であり、任意の教師付き機械学習手法に適用できる。 CIFAR-100を含むデータセット上の WideResNet および Gaussian プロセスを含むモデルでこれを実証します。

We introduce active testing: a new framework for sample-efficient model evaluation. While approaches like active learning reduce the number of labels needed for model training, existing literature largely ignores the cost of labeling test data, typically unrealistically assuming large test sets for model evaluation. This creates a disconnect to real applications where test labels are important and just as expensive, e.g. for optimizing hyperparameters. Active testing addresses this by carefully selecting the test points to label, ensuring model evaluation is sample-efficient. To this end, we derive theoretically-grounded and intuitive acquisition strategies that are specifically tailored to the goals of active testing, noting these are distinct to those of active learning. Actively selecting labels introduces a bias; we show how to remove that bias while reducing the variance of the estimator at the same time. Active testing is easy to implement, effective, and can be applied to any supervised machine learning method. We demonstrate this on models including WideResNet and Gaussian processes on datasets including CIFAR-100.
翻訳日:2021-03-10 15:09:08 公開日:2021-03-09
# DeepSeagrassデータセット

DeepSeagrass Dataset ( http://arxiv.org/abs/2103.05226v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Peyman Moghadam, Frederic Maire, Brett Kettle and Brano Kusy(参考訳) オーストラリアのクイーンズランド州モレトン湾でシュノーケリングをしている生物学者によって収集された海草画像のデータセットを紹介します。 画像は、フォルダ階層内の同じ形態型の画像を収集することにより、画像レベルでラベル付けされる。 また、パッチレベルでの海草種の検出と分類のための事前訓練されたモデルとトレーニングコードも公開しています。

We introduce a dataset of seagrass images collected by a biologist snorkelling in Moreton Bay, Queensland, Australia, as described in our publication: arXiv:2009.09924. The images are labelled at the image-level by collecting images of the same morphotype in a folder hierarchy. We also release pre-trained models and training codes for detection and classification of seagrass species at the patch level at https://github.com/csiro-robotics/deepseagrass.
翻訳日:2021-03-10 15:08:52 公開日:2021-03-09
# ST3D:3次元オブジェクト検出における教師なしドメイン適応のための自己学習

ST3D: Self-training for Unsupervised Domain Adaptation on 3D ObjectDetection ( http://arxiv.org/abs/2103.05346v1 )

ライセンス: Link先を確認
Jihan Yang, Shaoshuai Shi, Zhe Wang, Hongsheng Li, Xiaojuan Qi(参考訳) 点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。 まず、ソース領域の負の効果を緩和するランダムオブジェクトスケーリング戦略を提案し、ソース領域上の3D検出器を事前訓練する。 そして、開発した品質認識型三重項メモリバンクによる擬似ラベル更新と、カリキュラムデータ拡張によるモデルトレーニングの2つのステップを代替して、ターゲットドメイン上で反復的に改善する。 3Dオブジェクト検出のためのこれらの特定の設計により、検出器は一貫性のある高品質の擬似ラベルで訓練され、擬似ラベル付きデータにおける多数の簡単な例にオーバーフィットすることを避けることができます。 当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。 コードはhttps://github.com/CVMI-Lab/ST3Dで入手できる。

We present a new domain adaptive self-training pipeline, named ST3D, for unsupervised domain adaptation on 3D object detection from point clouds. First, we pre-train the 3D detector on the source domain with our proposed random object scaling strategy for mitigating the negative effects of source domain bias. Then, the detector is iteratively improved on the target domain by alternatively conducting two steps, which are the pseudo label updating with the developed quality-aware triplet memory bank and the model training with curriculum data augmentation. These specific designs for 3D object detection enable the detector to be trained with consistent and high-quality pseudo labels and to avoid overfitting to the large number of easy examples in pseudo labeled data. Our ST3D achieves state-of-the-art performance on all evaluated datasets and even surpasses fully supervised results on KITTI 3D object detection benchmark. Code will be available at https://github.com/CVMI-Lab/ST3D.
翻訳日:2021-03-10 15:08:45 公開日:2021-03-09
# qpic: 画像ワイドコンテキスト情報を用いた問合せに基づく対物対話検出

QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information ( http://arxiv.org/abs/2103.05399v1 )

ライセンス: Link先を確認
Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga(参考訳) ヒトと物体の相互作用(HOI)を簡易かつ直感的に検出する手法を提案する。 既存のCNNベースの手法は、CNNの局所性のために画像全体の機能を利用することができないこと、機能集約のために手動で定義された位置情報に依存していること、コンテキスト的に重要な領域をカバーできないこと、およびそれらが密接に配置されている場合、複数のHOIインスタンスの機能を混ぜることができないこと、という3つの大きな欠点に直面している。 これらの欠点を克服するために,注意機構と問合せに基づく検出が鍵となるトランス型特徴抽出器を提案する。 注意機構は、画像全体において重要な情報を集約するのに有効であるが、クエリは、各クエリが少なくとも1つの人間とオブジェクトのペアをキャプチャするように設計し、複数のインスタンスから機能を混同することを避けることができる。 このトランスベースの特徴抽出器は、後続の検出ヘッドが比較的単純で直感的なほど効果的な埋め込みを生成する。 その結果,提案手法は文脈的に重要な特徴を抽出し,既存の手法よりも大きなマージン(HICO-DETでは5.37mAP,V-COCOでは5.7mAP)を達成できた。 ソースコードは$\href{https://github.com/hitachi-rd-cv/qpic}{\text{this https URL}}$で入手できる。

We propose a simple, intuitive yet powerful method for human-object interaction (HOI) detection. HOIs are so diverse in spatial distribution in an image that existing CNN-based methods face the following three major drawbacks; they cannot leverage image-wide features due to CNN's locality, they rely on a manually defined location-of-interest for the feature aggregation, which sometimes does not cover contextually important regions, and they cannot help but mix up the features for multiple HOI instances if they are located closely. To overcome these drawbacks, we propose a transformer-based feature extractor, in which an attention mechanism and query-based detection play key roles. The attention mechanism is effective in aggregating contextually important information image-wide, while the queries, which we design in such a way that each query captures at most one human-object pair, can avoid mixing up the features from multiple instances. This transformer-based feature extractor produces so effective embeddings that the subsequent detection heads may be fairly simple and intuitive. The extensive analysis reveals that the proposed method successfully extracts contextually important features, and thus outperforms existing methods by large margins (5.37 mAP on HICO-DET, and 5.7 mAP on V-COCO). The source codes are available at $\href{https://github.com/hitachi-rd-cv/qpic}{\text{this https URL}}$.
翻訳日:2021-03-10 15:08:28 公開日:2021-03-09
# Select, Substitute, Search: 知識を付加したビジュアル質問回答の新しいベンチマーク

Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering ( http://arxiv.org/abs/2103.05568v1 )

ライセンス: Link先を確認
Aman Jain, Mayank Kothyari, Vishwajeet Kumar, Preethi Jyothi, Ganesh Ramakrishnan, Soumen Chakrabarti(参考訳) 外部知識視覚質問応答(OKVQA)と呼ばれる、テキストコーパス、知識グラフ、画像にまたがるマルチモーダルIRは、非常に最近の関心事である。 しかし、人気のデータセットには深刻な制限があります。 驚くほど多くのクエリは、クロスモーダル情報を統合する能力を評価しません。 代わりに、画像から独立しているものもあれば、推測に依存しているものもあれば、OCRを必要とするものもある。 上記の制限に加えて、列車とテストの折りたたみの間に(意図しない)広範な応答が重なり合うため、周波数ベースの推測は非常に効果的である。 全体として、最先端のシステムが実際に答えを推測するのではなく、これらの弱点をいつ悪用するかを判断するのは困難である。 同様に重要な制限は、データセットがエンドツーエンドの回答検索タスクのみの定量的評価用に設計されており、入力クエリの正しい(セマンティック)解釈を評価するための規定がないことである。 そこで我々は,okvqa,viz.,s3 (select, replacement, search) におけるキー構造イディオムを特定し,新しいデータセットを構築して挑戦する。 具体的には、画像中のエンティティを特定し、そのエンティティに言及する知識グラフやコーパスを参照することによってのみ回答できるエンティティを含む質問を行う。 i)OKVQAS3は構造イディオムに基づいて注釈付けされたOKVQAのサブセットであり、(ii)S3VQAはスクラッチから構築された新しいデータセットである。 また、私たちのチャレンジデータセットに明示的に対処し、最近の競争ベースラインを上回っている、神経的にも構造的にも透過的なOKVQAシステムS3も提示します。

Multimodal IR, spanning text corpus, knowledge graph and images, called outside knowledge visual question answering (OKVQA), is of much recent interest. However, the popular data set has serious limitations. A surprisingly large fraction of queries do not assess the ability to integrate cross-modal information. Instead, some are independent of the image, some depend on speculation, some require OCR or are otherwise answerable from the image alone. To add to the above limitations, frequency-based guessing is very effective because of (unintended) widespread answer overlaps between the train and test folds. Overall, it is hard to determine when state-of-the-art systems exploit these weaknesses rather than really infer the answers, because they are opaque and their 'reasoning' process is uninterpretable. An equally important limitation is that the dataset is designed for the quantitative assessment only of the end-to-end answer retrieval task, with no provision for assessing the correct(semantic) interpretation of the input query. In response, we identify a key structural idiom in OKVQA ,viz., S3 (select, substitute and search), and build a new data set and challenge around it. Specifically, the questioner identifies an entity in the image and asks a question involving that entity which can be answered only by consulting a knowledge graph or corpus passage mentioning the entity. Our challenge consists of (i)OKVQAS3, a subset of OKVQA annotated based on the structural idiom and (ii)S3VQA, a new dataset built from scratch. We also present a neural but structurally transparent OKVQA system, S3, that explicitly addresses our challenge dataset, and outperforms recent competitive baselines.
翻訳日:2021-03-10 15:08:01 公開日:2021-03-09
# ForgeryNet: 包括的なForgery分析のためのVersatileベンチマーク

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis ( http://arxiv.org/abs/2103.05630v1 )

ライセンス: Link先を確認
Yinan He, Bei Gan, Siyu Chen, Yichun Zhou, Guojun Yin, Luchuan Song, Lu Sheng, Jing Shao and Ziwei Liu(参考訳) フォトリアリズム合成技術の急速な進歩は、現実と操作された画像の間の境界がぼやけ始める臨界点に達しています。 このように、デジタル偽造分析のベンチマークと進歩が問題となっている。 しかし、既存の顔偽造データセットは多様性が限られているか、粗い粒度の分析しかサポートしていない。 この脅威に対処するために、私たちはForgeryNetデータセットを構築し、画像とビデオレベルのデータに統一されたアノテーションを備えた非常に大きなフォジェリーデータセットを4つのタスクで構築します。1)イメージフォジェリー分類(2つのウェイ(リアル/フェイク)、3つのウェイ(リアル/フェイク)、アイデンティティ置換フォジェリーアプローチ/フェイク(アイデンティティ残されたフォジェリーアプローチ)、nウェイ(リアルおよび15のフォージェリーアプローチ)の分類。 2)偽のイメージの操作された区域を対応する源の実質のイメージと比較する空間的偽造の局在化。 3) ランダムな位置で操作されたフレームを用いてビデオレベルの偽造分類を再定義するビデオ偽造分類。 現実世界の攻撃者は任意のターゲットフレームを自由に操作できるため、このタスクは重要です。 4) 時間的偽造の局所化, 操作される時間的セグメントの局所化。 ForgeryNetは、データスケール(2.9百万画像、221,247ビデオ)、操作(7画像レベルのアプローチ、8ビデオレベルのアプローチ)、摂動(36独立でより混合された摂動)、アノテーション(6.3百万の分類ラベル、2.9百万の操作エリアアノテーション、221,247時間フォジェリーセグメントラベル)の点で、これまでで最大の公開されているディープフェイスフォージェリーデータセットです。 我々は,既存の顔鑑識手法の広範なベンチマークと検討を行い,有意義な知見を得た。

The rapid progress of photorealistic synthesis techniques has reached at a critical point where the boundary between real and manipulated images starts to blur. Thus, benchmarking and advancing digital forgery analysis have become a pressing issue. However, existing face forgery datasets either have limited diversity or only support coarse-grained analysis. To counter this emerging threat, we construct the ForgeryNet dataset, an extremely large face forgery dataset with unified annotations in image- and video-level data across four tasks: 1) Image Forgery Classification, including two-way (real / fake), three-way (real / fake with identity-replaced forgery approaches / fake with identity-remained forgery approaches), and n-way (real and 15 respective forgery approaches) classification. 2) Spatial Forgery Localization, which segments the manipulated area of fake images compared to their corresponding source real images. 3) Video Forgery Classification, which re-defines the video-level forgery classification with manipulated frames in random positions. This task is important because attackers in real world are free to manipulate any target frame. and 4) Temporal Forgery Localization, to localize the temporal segments which are manipulated. ForgeryNet is by far the largest publicly available deep face forgery dataset in terms of data-scale (2.9 million images, 221,247 videos), manipulations (7 image-level approaches, 8 video-level approaches), perturbations (36 independent and more mixed perturbations) and annotations (6.3 million classification labels, 2.9 million manipulated area annotations and 221,247 temporal forgery segment labels). We perform extensive benchmarking and studies of existing face forensics methods and obtain several valuable observations.
翻訳日:2021-03-10 15:07:29 公開日:2021-03-09
# 360度デジタルホログラフィのための深層学習に基づく高精度深層地図の推定

Deep Learning-based High-precision Depth Map Estimation from Missing Viewpoints for 360 Degree Digital Holography ( http://arxiv.org/abs/2103.05158v1 )

ライセンス: Link先を確認
Hakdong Kim, Heonyeong Lim, Minkyu Jee, Yurim Lee, Jisoo Jeong, Kyudam Choi, MinSung Yoon, and Cheongwon Kim(参考訳) 本稿では,新しい畳み込みニューラルネットワークモデルを提案し,特にホログラフィックな3Dコンテンツの生成に適している点から,高精度な深度マップを抽出する。 深度マップは、コンピュータ生成ホログラム(CGH)の合成に必要な位相抽出の必須要素である。 hdd netと呼ばれる提案モデルでは,損失関数として深度マップ推定の性能向上にmseを用い,reluを活性化関数としてupサンプリング層におけるバイリニア補間を利用する。 深層学習のための解像度640×360の8,192枚の多視点画像を設計・作成する。 提案モデルは,特徴抽出とサンプリングにより深度マップを推定する。 定量的評価のために,PSNR,ACC,RMSEを用いて,推定深度マップと地上の真実を比較した。 また,推定深度マップから得られたCGHパターンと地上の真実から作成したCGHパターンを比較した。 さらに,CGHからホログラフィック3D画像のシーンを直接再構成することで,推定深度マップの品質を評価する実験結果を示す。

In this paper, we propose a novel, convolutional neural network model to extract highly precise depth maps from missing viewpoints, especially well applicable to generate holographic 3D contents. The depth map is an essential element for phase extraction which is required for synthesis of computer-generated hologram (CGH). The proposed model called the HDD Net uses MSE for the better performance of depth map estimation as loss function, and utilizes the bilinear interpolation in up sampling layer with the Relu as activation function. We design and prepare a total of 8,192 multi-view images, each resolution of 640 by 360 for the deep learning study. The proposed model estimates depth maps through extracting features, up sampling. For quantitative assessment, we compare the estimated depth maps with the ground truths by using the PSNR, ACC, and RMSE. We also compare the CGH patterns made from estimated depth maps with ones made from ground truths. Furthermore, we demonstrate the experimental results to test the quality of estimated depth maps through directly reconstructing holographic 3D image scenes from the CGHs.
翻訳日:2021-03-10 15:06:53 公開日:2021-03-09
# 外観調整ネットワークによる医用画像登録の強化

Enhancing Medical Image Registration via Appearance Adjustment Networks ( http://arxiv.org/abs/2103.05213v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Michael Fulham, David Dagan Feng, and Jinman Kim(参考訳) 変形可能な画像登録は多くの医用画像解析に不可欠である。 正確な画像登録のための重要な障害は、画像の外観の変化です。 近年、深層ニューラルネットワークを用いた深層学習に基づく登録手法(DLR)は、従来の最適化に基づく登録手法(OR)よりも数桁大きい計算効率を有する。 しかし、DLRの大きな欠点は、ORに固有のターゲットペア固有の最適化を無視し、より高速な登録を実現するために一連のトレーニングサンプルでトレーニングされたグローバル最適化ネットワークに依存していることである。 このように、DLRは本質的に、画像ペア(固定/移動画像)が外観に大きな違いがある場合、ORと比較して外観の変化に適応し、性能が劣っている。 そこで, 解剖学的制約のある損失関数を用いて, 解剖学的整合性ネットワーク(AAN)を提案し, 解剖学的制約のある外観変換を生成する。 我々は,固定画像と移動画像との外観差を低減するため,広範囲のDLRに容易に挿入できるようにAANを設計した。 我々のAANとDLRのネットワークは、教師なしとエンドツーエンドの方法で協調的に訓練することができる。 我々は,3次元脳磁気共鳴(MR)画像データセット(IBSR18,Mindboggle101,LPBA40)を用いて,Voxelmorph(VM)とFAst IMage registration(FAIM)の2種類のDLRを用いてAANを評価した。 その結果, AAN を用いた DLR の性能は向上し, 最先端OR よりも高い結果が得られた。

Deformable image registration is fundamental for many medical image analyses. A key obstacle for accurate image registration is the variations in image appearance. Recently, deep learning-based registration methods (DLRs), using deep neural networks, have computational efficiency that is several orders of magnitude greater than traditional optimization-based registration methods (ORs). A major drawback, however, of DLRs is a disregard for the target-pair-specific optimization that is inherent in ORs and instead they rely on a globally optimized network that is trained with a set of training samples to achieve faster registration. Thus, DLRs inherently have degraded ability to adapt to appearance variations and perform poorly, compared to ORs, when image pairs (fixed/moving images) have large differences in appearance. Hence, we propose an Appearance Adjustment Network (AAN) where we leverage anatomy edges, through an anatomy-constrained loss function, to generate an anatomy-preserving appearance transformation. We designed the AAN so that it can be readily inserted into a wide range of DLRs, to reduce the appearance differences between the fixed and moving images. Our AAN and DLR's network can be trained cooperatively in an unsupervised and end-to-end manner. We evaluated our AAN with two widely used DLRs - Voxelmorph (VM) and FAst IMage registration (FAIM) - on three public 3D brain magnetic resonance (MR) image datasets - IBSR18, Mindboggle101, and LPBA40. The results show that DLRs, using the AAN, improved performance and achieved higher results than state-of-the-art ORs.
翻訳日:2021-03-10 15:06:36 公開日:2021-03-09
# カーネルリッジ回帰における高速統計レバレッジスコア近似

Fast Statistical Leverage Score Approximation in Kernel Ridge Regression ( http://arxiv.org/abs/2103.05238v1 )

ライセンス: Link先を確認
Yifan Chen, Yun Yang(参考訳) Nystr\"om approximationは、ターゲット関数に現れるn-by-n経験的カーネル行列をサブサンプリングすることで、カーネルリッジ回帰(KRR)問題を迅速に解決する高速ランダム化手法である。 しかし,このようなサブサンプリング手法の性能は,サンプリング分布を形成するための統計的レバレッジスコアを正しく推定することに大きく依存する。 本研究では,ステーショナリーカーネルに基づくKRRにおける統計的レバレッジスコアを理論的保証で正確に近似する線形時間(モジュロポリログ項)アルゴリズムを提案する。 特に、KRR目標の第一次状態を解析することにより、統計的レバレッジスコアの不均一性を捕捉するために、静止核の入力分布とスペクトル密度の両方に依存する解析式を導出する。 数値実験により,nystr\"om近似における代表サブサンプルの選択において,同じ予測精度で既存の手法よりも桁違いに効率的であることが証明された。

Nystr\"om approximation is a fast randomized method that rapidly solves kernel ridge regression (KRR) problems through sub-sampling the n-by-n empirical kernel matrix appearing in the objective function. However, the performance of such a sub-sampling method heavily relies on correctly estimating the statistical leverage scores for forming the sampling distribution, which can be as costly as solving the original KRR. In this work, we propose a linear time (modulo poly-log terms) algorithm to accurately approximate the statistical leverage scores in the stationary-kernel-based KRR with theoretical guarantees. Particularly, by analyzing the first-order condition of the KRR objective, we derive an analytic formula, which depends on both the input distribution and the spectral density of stationary kernels, for capturing the non-uniformity of the statistical leverage scores. Numerical experiments demonstrate that with the same prediction accuracy our method is orders of magnitude more efficient than existing methods in selecting the representative sub-samples in the Nystr\"om approximation.
翻訳日:2021-03-10 15:05:20 公開日:2021-03-09
# オーバーフィッティング2層ニューラルタンジェントカーネルモデルの一般化力について

On the Generalization Power of Overfitted Two-Layer Neural Tangent Kernel Models ( http://arxiv.org/abs/2103.05243v1 )

ライセンス: Link先を確認
Peizhong Ju, Xiaojun Lin, Ness B. Shroff(参考訳) 本稿では,二層ニューラルネットワークの神経接核(ntk)モデルに対するmin$\ell_2$-normオーバーフィッティング解の一般化性能について検討する。 その結果, 接地関数により, オーバーフィットしたntkモデルの試験誤差は, 単純なフーリエあるいはガウス的特徴を持つ他の超パラメータ線形モデルと異なる特性を示すことがわかった。 具体的には、学習可能な関数のクラスに対して、ニューロン数$p$が無限大に近づく場合でも、小さな制限値に近づくような一般化誤差の新たな上限を与える。 この制限値は、トレーニングサンプル$n$の数でさらに減少します。 このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。

In this paper, we study the generalization performance of min $\ell_2$-norm overfitting solutions for the neural tangent kernel (NTK) model of a two-layer neural network. We show that, depending on the ground-truth function, the test error of overfitted NTK models exhibits characteristics that are different from the "double-descent" of other overparameterized linear models with simple Fourier or Gaussian features. Specifically, for a class of learnable functions, we provide a new upper bound of the generalization error that approaches a small limiting value, even when the number of neurons $p$ approaches infinity. This limiting value further decreases with the number of training samples $n$. For functions outside of this class, we provide a lower bound on the generalization error that does not diminish to zero even when $n$ and $p$ are both large.
翻訳日:2021-03-10 15:05:01 公開日:2021-03-09
# UnICORNN: 非常に長い時間依存を学習するための反復モデル

UnICORNN: A recurrent model for learning very long time dependencies ( http://arxiv.org/abs/2103.05487v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Siddhartha Mishra(参考訳) 長時間依存した逐次入力を正確に処理するリカレントニューラルネットワーク(RNN)の設計は、爆発的かつ消滅する勾配問題のために非常に困難である。 これを解決するために,振動子のネットワークをモデル化する二階常微分方程式のハミルトン系を離散化する構造を基盤とした新しいRNNアーキテクチャを提案する。 結果として得られるrnnは高速で可逆(時間)で、メモリ効率が良く、隠れた状態勾配の厳密な境界を導出して、爆発と消滅の勾配問題の緩和を証明する。 提案されたRNNが(非常に)長い時間の依存性を持つさまざまな学習タスクに最先端のパフォーマンスを提供することを実証するために、一連の実験が提示されます。

The design of recurrent neural networks (RNNs) to accurately process sequential inputs with long-time dependencies is very challenging on account of the exploding and vanishing gradient problem. To overcome this, we propose a novel RNN architecture which is based on a structure preserving discretization of a Hamiltonian system of second-order ordinary differential equations that models networks of oscillators. The resulting RNN is fast, invertible (in time), memory efficient and we derive rigorous bounds on the hidden state gradients to prove the mitigation of the exploding and vanishing gradient problem. A suite of experiments are presented to demonstrate that the proposed RNN provides state of the art performance on a variety of learning tasks with (very) long time-dependencies.
翻訳日:2021-03-10 15:04:46 公開日:2021-03-09
# より多くのデータか、より多くのパラメータか? データ構造が一般化に及ぼす影響の検討

More data or more parameters? Investigating the effect of data structure on generalization ( http://arxiv.org/abs/2103.05524v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Marylou Gabri\'e, Levent Sagun, Giulio Biroli(参考訳) ディープラーニングの中心的な特徴の1つは、ニューラルネットワークの一般化能力であり、過度なパラメータ化によって絶え間なく改善されているように見える。 本研究では、トレーニング例の数とトレーニングパラメータの数の関数として、データの特性がテストエラーにどのように影響するか、すなわち、データの構造が「一般化フェーズ空間」をどう形成するかを検討する。 まず,教師・生徒のシナリオで学習したランダム特徴モデルに注目した。 合成入力データは独立したブロックで構成されており、低次元構造のサリエンシーとターゲット関数に対するそれらの関連性を調整することができます。 統計物理学の手法を用いて,高次元極限における回帰および分類タスクにおける列車および試験誤差の解析式を得る。 導出は、ラベルのノイズと入力データの強い異方性がテストエラーで同様の役割を果たすことを示しています。 どちらもトレーニングサンプル数の増加がトレーニングパラメータ数の増加よりも一般化をさらに改善するフェーズスペースの非対称性を促進する。 当社の分析洞察は、MNISTおよびCIFAR10で訓練されたフルコネクテッドネットワークを含む数値実験によって確認されます。

One of the central features of deep learning is the generalization abilities of neural networks, which seem to improve relentlessly with over-parametrization. In this work, we investigate how properties of data impact the test error as a function of the number of training examples and number of training parameters; in other words, how the structure of data shapes the "generalization phase space". We first focus on the random features model trained in the teacher-student scenario. The synthetic input data is composed of independent blocks, which allow us to tune the saliency of low-dimensional structures and their relevance with respect to the target function. Using methods from statistical physics, we obtain an analytical expression for the train and test errors for both regression and classification tasks in the high-dimensional limit. The derivation allows us to show that noise in the labels and strong anisotropy of the input data play similar roles on the test error. Both promote an asymmetry of the phase space where increasing the number of training examples improves generalization further than increasing the number of training parameters. Our analytical insights are confirmed by numerical experiments involving fully-connected networks trained on MNIST and CIFAR10.
翻訳日:2021-03-10 15:04:33 公開日:2021-03-09
# 多モードディープラーニングを用いたPET/CTによる進行鼻咽頭癌の5年間生存予測

Prediction of 5-year Progression-Free Survival in Advanced Nasopharyngeal Carcinoma with Pretreatment PET/CT using Multi-Modality Deep Learning-based Radiomics ( http://arxiv.org/abs/2103.05220v1 )

ライセンス: Link先を確認
Bingxin Gu, Mingyuan Meng, Lei Bi, Jinman Kim, David Dagan Feng, and Shaoli Song(参考訳) Deep Learning-based Radiomics (DLR) は医用画像解析において大きな成功を収めている。 本研究では,NPCにおけるDLRの生存予測能力について検討する。 高度NPCにおける5年間の進行自由生存(PFS)を予測するために,前処理PET/CT画像を用いたエンドツーエンドマルチモダリティDLRモデルを開発した。 病理学的に進行性NPC(TNMステージIIIまたはIVa)を認めた患者は合計170名であった。 PETとCTを別々に処理する2つの枝を持つ3次元畳み込みニューラルネットワーク (CNN) を用いて, 処理前のPET/CT画像から深い特徴を抽出し, 得られた特徴を用いて5年間のPFSの確率を予測する。 オプションとして,高レベルな臨床的特徴であるTNMステージをDLRモデルに統合し,予後の向上を図る。 CRとDLRを比較し,1456個の手作り特徴を抽出し,54種類の特徴選択法と9種類の分類法の組み合わせから,上位CR法を3つのベンチマークとして選択した。 3つのCR法と比較して,TNMステージ(PCTまたはPCモデル)の有無にかかわらず,PETとCTの両方を用いた多モードDLRモデルが最も高い予後を示した。 さらに,マルチモダリティPCTモデルは,PETおよびTNMステージ(PTモデル)およびCTおよびTNMステージ(CTモデル)のみを用いて,単一モダリティDLRモデルよりも優れていた。 本研究は,先進npcにおける生存予測のための放射能に基づく予後予測モデルを特定し,dlrががん治療の補助となる可能性を示唆する。

Deep Learning-based Radiomics (DLR) has achieved great success on medical image analysis. In this study, we aim to explore the capability of DLR for survival prediction in NPC. We developed an end-to-end multi-modality DLR model using pretreatment PET/CT images to predict 5-year Progression-Free Survival (PFS) in advanced NPC. A total of 170 patients with pathological confirmed advanced NPC (TNM stage III or IVa) were enrolled in this study. A 3D Convolutional Neural Network (CNN), with two branches to process PET and CT separately, was optimized to extract deep features from pretreatment multi-modality PET/CT images and use the derived features to predict the probability of 5-year PFS. Optionally, TNM stage, as a high-level clinical feature, can be integrated into our DLR model to further improve prognostic performance. For a comparison between CR and DLR, 1456 handcrafted features were extracted, and three top CR methods were selected as benchmarks from 54 combinations of 6 feature selection methods and 9 classification methods. Compared to the three CR methods, our multi-modality DLR models using both PET and CT, with or without TNM stage (named PCT or PC model), resulted in the highest prognostic performance. Furthermore, the multi-modality PCT model outperformed single-modality DLR models using only PET and TNM stage (PT model) or only CT and TNM stage (CT model). Our study identified potential radiomics-based prognostic model for survival prediction in advanced NPC, and suggests that DLR could serve as a tool for aiding in cancer management.
翻訳日:2021-03-10 15:03:40 公開日:2021-03-09
# ディープランキングにおける実用的相対順序攻撃

Practical Relative Order Attack in Deep Ranking ( http://arxiv.org/abs/2103.05248v1 )

ライセンス: Link先を確認
Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Yinghui Xu, Nanning Zheng, Gang Hua(参考訳) 最近の研究では、知覚不能な摂動がランキング結果の劇的な変化を引き起こす可能性がある深層ランキングモデルの脆弱性が明らかにされている。 以前の試みでは、特定の候補者の絶対ランクの操作に焦点が当てられていたが、相対順序を調整する可能性はまだ未定のままである。 本稿では,攻撃者特定順列に従って選択された候補の相対順序を隠蔽的に変更し,他の非関連候補に限定的に干渉する,ディープランキングシステムに対する新たな敵攻撃,すなわちオーダーアタックを定式化する。 具体的には、指定された置換を反映する不等鎖を引き起こす三重項式損失として定式化される。 しかし、このようなホワイトボックスの目的の直接的最適化は、ブラックボックスの制限により、現実世界のアタックシナリオでは実現不可能である。 それらに対処するため, ホワイトボックス法を近似するブラックボックスオーダー攻撃のサーロゲート目標として, 短距離ランキング相関指標を提案する。 Order Attackは、ホワイトボックスとブラックボックスの脅威モデルの両方の下で、Fashion-MNISTとStanford-Online-Productsデータセットで評価される。 ブラックボックス攻撃は、主要なeコマースプラットフォームでもうまく実装されている。 包括的実験評価により,提案手法の有効性が示され,新しいタイプのランキングモデルの脆弱性が明らかになった。

Recent studies unveil the vulnerabilities of deep ranking models, where an imperceptible perturbation can trigger dramatic changes in the ranking result. While previous attempts focus on manipulating absolute ranks of certain candidates, the possibility of adjusting their relative order remains under-explored. In this paper, we formulate a new adversarial attack against deep ranking systems, i.e., the Order Attack, which covertly alters the relative order among a selected set of candidates according to an attacker-specified permutation, with limited interference to other unrelated candidates. Specifically, it is formulated as a triplet-style loss imposing an inequality chain reflecting the specified permutation. However, direct optimization of such white-box objective is infeasible in a real-world attack scenario due to various black-box limitations. To cope with them, we propose a Short-range Ranking Correlation metric as a surrogate objective for black-box Order Attack to approximate the white-box method. The Order Attack is evaluated on the Fashion-MNIST and Stanford-Online-Products datasets under both white-box and black-box threat models. The black-box attack is also successfully implemented on a major e-commerce platform. Comprehensive experimental evaluations demonstrate the effectiveness of the proposed methods, revealing a new type of ranking model vulnerability.
翻訳日:2021-03-10 15:03:07 公開日:2021-03-09
# Mask R-CNNによる医薬品開発における細菌コロニー形成単位のカウント

A Mask R-CNN approach to counting bacterial colony forming units in pharmaceutical development ( http://arxiv.org/abs/2103.05337v1 )

ライセンス: Link先を確認
Tanguy Naets, Maarten Huijsmans, Paul Smyth, Laurent Sorber, Ga\"el de Lannoy(参考訳) ペトリ料理で培養された異なる種類の細菌コロニー形成ユニットのカウントに、よく知られたマスクR-CNNアプローチを適用します。 我々のモデルは、現代のSPA(Single-Page Application)の研究室技術者に提供されました。 ユーザーは料理の画像をアップロードすることができ、その後、このタスクのために特別に訓練および調整されたマスクR-CNNモデルがBVGとBVG+コロニーの数を検出し、ユーザーが検証するためのインタラクティブなインターフェイスで表示します。 ユーザーはモデルの予測を確認し、必要に応じて修正し、最終的に検証することができる。 私たちの適応マスクR-CNNモデルは、50\%の交差オーバーユニオン(IoU)しきい値で94\%の平均平均精度(mAP)を達成します。 これらの奨励的な結果により、他の細菌タイプへの一般化やウイルスの病原体カウントなど、関連する問題に改善された精度と時間の利点をもたらす機会があります。

We present an application of the well-known Mask R-CNN approach to the counting of different types of bacterial colony forming units that were cultured in Petri dishes. Our model was made available to lab technicians in a modern SPA (Single-Page Application). Users can upload images of dishes, after which the Mask R-CNN model that was trained and tuned specifically for this task detects the number of BVG- and BVG+ colonies and displays these in an interactive interface for the user to verify. Users can then check the model's predictions, correct them if deemed necessary, and finally validate them. Our adapted Mask R-CNN model achieves a mean average precision (mAP) of 94\% at an intersection-over-union (IoU) threshold of 50\%. With these encouraging results, we see opportunities to bring the benefits of improved accuracy and time saved to related problems, such as generalising to other bacteria types and viral foci counting.
翻訳日:2021-03-10 15:02:45 公開日:2021-03-09
# unzipFPGA: FPGAベースのCNNエンジンをオンザフライで生成する

unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights Generation ( http://arxiv.org/abs/2103.05600v1 )

ライセンス: Link先を確認
Stylianos I. Venieris, Javier Fernandez-Marques, Nicholas D. Lane(参考訳) シングル計算エンジンはFPGAベースの畳み込みニューラルネットワーク(CNN)において、ファブリック再構成なしで多様なモデルのデプロイを可能にする一般的な設計選択となっている。 しかし、この柔軟性は、しばしば、エンジンの固定構成上の特定の層を最適にマッピングするため、メモリバウンド層のパフォーマンスが大幅に低下し、リソースの不足が伴います。 本研究では,CNNエンジン設計において,実行時の重みを圧縮する事前畳み込みステージを導入したモデル群について,その意味を考察する。 これらのアプローチをオンザフライと呼びます。 メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,オンチップオンザフライ重み生成を可能にするハードウェアコンポーネントを提案する。 さらに、サブ最適化された層上のPE間の負荷を均衡させる入力選択処理素子(PE)の設計を導入する。 最後に、UnzipFPGA、オンザフライモデルを訓練し、設計空間を横断して最高の性能のCNNエンジン構成を選択するフレームワークを紹介します。 定量的評価は、UnzipFPGAは、制限された帯域幅と最新のFPGAベースのCNNアクセラレータよりも最大3.69倍高いパフォーマンス密度の下で最適化されたステータスクォークおよびprunedCNNエンジンよりも平均2.14倍と71%のスピードアップをもたらすことを示している。

Single computation engines have become a popular design choice for FPGA-based convolutional neural networks (CNNs) enabling the deployment of diverse models without fabric reconfiguration. This flexibility, however, often comes with significantly reduced performance on memory-bound layers and resource underutilisation due to suboptimal mapping of certain layers on the engine's fixed configuration. In this work, we investigate the implications in terms of CNN engine design for a class of models that introduce a pre-convolution stage to decompress the weights at run time. We refer to these approaches as on-the-fly. To minimise the negative impact of limited bandwidth on memory-bound layers, we present a novel hardware component that enables the on-chip on-the-fly generation of weights. We further introduce an input selective processing element (PE) design that balances the load between PEs on suboptimally mapped layers. Finally, we present unzipFPGA, a framework to train on-the-fly models and traverse the design space to select the highest performing CNN engine configuration. Quantitative evaluation shows that unzipFPGA yields an average speedup of 2.14x and 71% over optimised status-quo and pruned CNN engines under constrained bandwidth and up to 3.69x higher performance density over the state-of-the-art FPGA-based CNN accelerators.
翻訳日:2021-03-10 15:02:29 公開日:2021-03-09
# NeX:Neural Basis Expansionを用いたリアルタイムビュー合成

NeX: Real-time View Synthesis with Neural Basis Expansion ( http://arxiv.org/abs/2103.05606v1 )

ライセンス: Link先を確認
Suttisak Wizadwongsa, Pakkapon Phongthawee, Jiraphon Yenphraphai, Supasorn Suwajanakorn(参考訳) 我々は,次世代のビュー依存効果をリアルタイムに再現できるマルチプレーン画像(MPI)の強化に基づく,新しいビュー合成手法NeXを提案する。 従来の単純なrgb$\alpha$平面を用いたmpiとは異なり、ニューラルネットワークから学習した基底関数の線形結合として各ピクセルをパラメータ化することで、ビュー依存効果をモデル化する。 さらに、詳細を詳細に改善し、最先端の結果を生み出すハイブリッド暗黙的モデリング戦略を提案します。 提案手法は,cd上でのレインボー反射など,かなり困難な効果を持つビュー依存モデリングの限界をテストするために新たに開発したデータセットと同様に,ベンチマークの前方向けデータセット上で評価される。 提案手法は,これらのデータセットのすべての主要な指標に対して,1000ドル以上のレンダリング時間で最高のスコアを得られる。 リアルタイムのデモはhttps://nex-mpi.github.io/を参照。

We present NeX, a new approach to novel view synthesis based on enhancements of multiplane image (MPI) that can reproduce next-level view-dependent effects -- in real time. Unlike traditional MPI that uses a set of simple RGB$\alpha$ planes, our technique models view-dependent effects by instead parameterizing each pixel as a linear combination of basis functions learned from a neural network. Moreover, we propose a hybrid implicit-explicit modeling strategy that improves upon fine detail and produces state-of-the-art results. Our method is evaluated on benchmark forward-facing datasets as well as our newly-introduced dataset designed to test the limit of view-dependent modeling with significantly more challenging effects such as rainbow reflections on a CD. Our method achieves the best overall scores across all major metrics on these datasets with more than 1000$\times$ faster rendering time than the state of the art. For real-time demos, visit https://nex-mpi.github.io/
翻訳日:2021-03-10 15:02:05 公開日:2021-03-09
# ASRのためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for ASR ( http://arxiv.org/abs/2103.05149v1 )

ライセンス: Link先を確認
Alex Xiao, Christian Fuegen, Abdelrahman Mohamed(参考訳) Pseudo-labelingは、自動音声認識(ASR)モデルを事前トレーニングする最も採用されている方法です。 しかし、そのパフォーマンスは教師モデルの低リソース設定とドメイン転送における品質の低下によって損なわれます。 コンピュータビジョンや音声アプリケーションにおけるコントラスト表現学習の成功に触発され,さらに最近では視覚オブジェクトの教師付き学習に応用され,コントラスト型半教師付き学習(csl)を提案する。 CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。 公共のソーシャルメディアビデオを翻訳する困難なタスクでは、CSLを使用することで、監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のCross-Entropy疑似ラベル(CE-PL)と比較してWERを8%削減します。 WER削減は教師の監督のために1hrラベルを使用する超低リソース条件の下で19%にジャンプします。 CSLはドメイン外の条件において、CE-PL事前訓練モデルと比較して最大17%のWER削減を示す。

Pseudo-labeling is the most adopted method for pre-training automatic speech recognition (ASR) models. However, its performance suffers from the supervised teacher model's degrading quality in low-resource setups and under domain transfer. Inspired by the successes of contrastive representation learning for computer vision and speech applications, and more recently for supervised learning of visual objects, we propose Contrastive Semi-supervised Learning (CSL). CSL eschews directly predicting teacher-generated pseudo-labels in favor of utilizing them to select positive and negative examples. In the challenging task of transcribing public social media videos, using CSL reduces the WER by 8% compared to the standard Cross-Entropy pseudo-labeling (CE-PL) when 10hr of supervised data is used to annotate 75,000hr of videos. The WER reduction jumps to 19% under the ultra low-resource condition of using 1hr labels for teacher supervision. CSL generalizes much better in out-of-domain conditions, showing up to 17% WER reduction compared to the best CE-PL pre-trained model.
翻訳日:2021-03-10 15:01:32 公開日:2021-03-09
# 企業の発言を損なう可能性のあるセンシティブトピックに関する不適切なメッセージの検出

Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company's Reputation ( http://arxiv.org/abs/2103.05345v1 )

ライセンス: Link先を確認
Nikolay Babakov, Varvara Logacheva, Olga Kozlova, Nikita Semenov and Alexander Panchenko(参考訳) カメや釣りについての冷静な議論は、政治や性マイノリティの議論よりも不適切な有害な対話を助長することが多い。 我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。 ユーザ生成データの毒性は十分に研究されているが、より詳細な不適切な概念を定義することを目指している。 不適切性の中核は、スピーカーの評判を損なう可能性があることです。 これは2つの点で毒性と異なる:(i)不適切性はトピック関連であり、(ii)不適切なメッセージは有毒ではないが、まだ受け入れられない。 ロシアの2つのデータセットを収集およびリリースします。トピックラベルデータセットと適切なラベルラベルデータセットです。 また、このデータに基づいて訓練された事前訓練された分類モデルもリリースする。

Not all topics are equally "flammable" in terms of toxicity: a calm discussion of turtles or fishing less often fuels inappropriate toxic dialogues than a discussion of politics or sexual minorities. We define a set of sensitive topics that can yield inappropriate and toxic messages and describe the methodology of collecting and labeling a dataset for appropriateness. While toxicity in user-generated data is well-studied, we aim at defining a more fine-grained notion of inappropriateness. The core of inappropriateness is that it can harm the reputation of a speaker. This is different from toxicity in two respects: (i) inappropriateness is topic-related, and (ii) inappropriate message is not toxic but still unacceptable. We collect and release two datasets for Russian: a topic-labeled dataset and an appropriateness-labeled dataset. We also release pre-trained classification models trained on this data.
翻訳日:2021-03-10 15:01:15 公開日:2021-03-09
# PROVED:不確実なイベントデータのグラフ表現と解析のためのツール

PROVED: A Tool for Graph Representation and Analysis of Uncertain Event Data ( http://arxiv.org/abs/2103.05564v1 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) プロセスマイニングの分野は、ペトリネットを用いた歴史的なプロセス実行を分析し、データ駆動方式でプロセスを研究することを目的としている。 情報システムから抽出されたイベントデータ(例) SAP)は、プロセスマイニングの出発点として機能します。 近年,不確実なイベントデータを含む新たな種類のイベントデータがプロセスマイニングコミュニティの関心を集めている。 不確定なイベント、プロセストレース、およびログには、可能な属性値のセットなど、定量化された不正確な特性が特徴の属性が含まれています。 PROVEDツールは、ペトリネットのセマンティクスを持つ行動グラフとネットを使用して不確実な情報を抽象化することにより、そのような不確実なイベントデータを探索、ナビゲート、分析するのに役立ちます。 これらの構成に基づいて、ツールは発見と適合のチェックを可能にします。

The discipline of process mining aims to study processes in a data-driven manner by analyzing historical process executions, often employing Petri nets. Event data, extracted from information systems (e.g. SAP), serve as the starting point for process mining. Recently, novel types of event data have gathered interest among the process mining community, including uncertain event data. Uncertain events, process traces and logs contain attributes that are characterized by quantified imprecisions, e.g., a set of possible attribute values. The PROVED tool helps to explore, navigate and analyze such uncertain event data by abstracting the uncertain information using behavior graphs and nets, which have Petri nets semantics. Based on these constructs, the tool enables discovery and conformance checking.
翻訳日:2021-03-10 15:00:59 公開日:2021-03-09
# 肝腫瘍境界セマンティックスと予後バイオマーカーマイニングの逐次学習

Sequential Learning on Liver Tumor Boundary Semantics and Prognostic Biomarker Mining ( http://arxiv.org/abs/2103.05170v1 )

ライセンス: Link先を確認
Jieneng Chen, Ke Yan, Yu-Dong Zhang, Youbao Tang, Xun Xu, Shuwen Sun, Qiuping Liu, Lingyun Huang, Jing Xiao, Alan L. Yuille, Ya Zhang, and Le Lu(参考訳) 腫瘍の境界(肝細胞癌、HCC)には、毛細血管浸潤、可視性、滑らかさ、折りたたみ、隆起など、豊富な意味がある。 腫瘍境界に対する毛細血管浸潤は予後指標であるmicrovascular invasion (mvi) と臨床的に相関することが証明されている。 腫瘍境界セマンティクスの検査は極めて重要な臨床的価値を持っている。 本稿では,タスクを空間頂点局在化とシーケンシャルセマンティクス分類という2つの構成要素に分離する,最初の新しい計算フレームワークを提案する。 1)HCC腫瘍セグメンタは腫瘍マスク境界抽出のために構築され,次いで半径と角度で境界を表す極変換が行われる。 頂点生成器は、対応する空間上の頂点の特徴をサンプリングする固定長境界頂点を生成するために使用される。 2) 位置埋め込みを伴う深部頂点の特徴を逐次空間にマッピングし, 意味分類のために多層パーセプトロン(MLP)で復号する。 腫瘍カプセルセマンティクスに関する広範な実験は、私たちのフレームワークの有効性を示しています。 境界セマンティクスとMVI状態の間の相関をマイニングすることは、この境界セマンティクスを有効なHCC予後バイオマーカーとして統合する可能性を証明する。

The boundary of tumors (hepatocellular carcinoma, or HCC) contains rich semantics: capsular invasion, visibility, smoothness, folding and protuberance, etc. Capsular invasion on tumor boundary has proven to be clinically correlated with the prognostic indicator, microvascular invasion (MVI). Investigating tumor boundary semantics has tremendous clinical values. In this paper, we propose the first and novel computational framework that disentangles the task into two components: spatial vertex localization and sequential semantic classification. (1) A HCC tumor segmentor is built for tumor mask boundary extraction, followed by polar transform representing the boundary with radius and angle. Vertex generator is used to produce fixed-length boundary vertices where vertex features are sampled on the corresponding spatial locations. (2) The sampled deep vertex features with positional embedding are mapped into a sequential space and decoded by a multilayer perceptron (MLP) for semantic classification. Extensive experiments on tumor capsule semantics demonstrate the effectiveness of our framework. Mining the correlation between the boundary semantics and MVI status proves the feasibility to integrate this boundary semantics as a valid HCC prognostic biomarker.
翻訳日:2021-03-10 15:00:05 公開日:2021-03-09
# ravenのプログレッシブ行列を解くための負の候補解を混合したデータ拡張法

A Data Augmentation Method by Mixing Up Negative Candidate Answers for Solving Raven's Progressive Matrices ( http://arxiv.org/abs/2103.05222v1 )

ライセンス: Link先を確認
Wentao He, Jialu Zhang, Chenglin Yao, Shihe Wang, Jianfeng Ren, Ruibin Bai(参考訳) RavenのProgressive Matrices(RPM)は、人間の視覚的推論能力のテストに頻繁に使用されます。 最近開発されたRPMライクデータセットとソリューションモデルは、この種の問題を認知科学からコンピュータ科学に転送します。 本研究では,RPMデータセットのサンプル不足による一般化性能の低さから,画像混合によるデータ拡張戦略を提案する。 負の候補解の潜在的な機能に着目して、モデルの視覚的推論能力を向上する。 提案手法を適用すれば,最先端モデルと比較して様々なrpmライクなデータセットにおいて有意かつ一貫した改善が得られる。

Raven's Progressive Matrices (RPMs) are frequently-used in testing human's visual reasoning ability. Recently developed RPM-like datasets and solution models transfer this kind of problems from cognitive science to computer science. In view of the poor generalization performance due to insufficient samples in RPM datasets, we propose a data augmentation strategy by image mix-up, which is generalizable to a variety of multiple-choice problems, especially for image-based RPM-like problems. By focusing on potential functionalities of negative candidate answers, the visual reasoning capability of the model is enhanced. By applying the proposed data augmentation method, we achieve significant and consistent improvement on various RPM-like datasets compared with the state-of-the-art models.
翻訳日:2021-03-10 14:59:41 公開日:2021-03-09
# マルチオーガンセグメンテーションのための不確実性認識インクリメンタルラーニング

Uncertainty-aware Incremental Learning for Multi-organ Segmentation ( http://arxiv.org/abs/2103.05227v1 )

ライセンス: Link先を確認
Yuhang Zhou, Xiaoman Zhang, Shixiang Feng, Ya Zhang, and Yanfeng(参考訳) 複数の単一組織データセットから統一的なマルチ組織セグメンテーションモデルをトレーニングする既存のアプローチでは、トレーニング中に複数のデータセットに同時にアクセスする必要がある。 実際のシナリオでは、プライバシーと倫理上の懸念のために、関心のある機関のトレーニングデータは公開されない場合があります。 そこで,データフリーインクリメンタル臓器セグメンテーションシナリオを調査し,それを解決するための新たなインクリメンタルトレーニングフレームワークを提案する。 プライバシー保護のために、独自のトレーニングデータの代わりに、トレーニング済みモデルを使用します。 具体的には、事前訓練された$K$オルガンセグメンテーションモデルと新しい単一臓器データセットを考えると、以前のトレーニング段階に属するデータにアクセスせずに、統一された$K+1$オルガンセグメンテーションモデルをトレーニングする。 我々のアプローチは背景ラベルアライメント戦略と不確実性認識ガイダンス戦略の2つの部分からなる。 最初の部分は、予備モデルからトレーニングモデルへの知識転送に使用されます。 第2部は、事前訓練されたモデルから不確実性情報を抽出し、知識伝達プロセス全体を導く。 これら2つの戦略を組み合わせることで、元のトレーニングデータなしで事前訓練されたモデルからより信頼性の高い情報を抽出する。 複数の公開事前学習モデルとマルチオーガニックデータセットMOBAの実験により,本フレームワークの有効性を実証した。

Most existing approaches to train a unified multi-organ segmentation model from several single-organ datasets require simultaneously access multiple datasets during training. In the real scenarios, due to privacy and ethics concerns, the training data of the organs of interest may not be publicly available. To this end, we investigate a data-free incremental organ segmentation scenario and propose a novel incremental training framework to solve it. We use the pretrained model instead of its own training data for privacy protection. Specifically, given a pretrained $K$ organ segmentation model and a new single-organ dataset, we train a unified $K+1$ organ segmentation model without accessing any data belonging to the previous training stages. Our approach consists of two parts: the background label alignment strategy and the uncertainty-aware guidance strategy. The first part is used for knowledge transfer from the pretained model to the training model. The second part is used to extract the uncertainty information from the pretrained model to guide the whole knowledge transfer process. By combing these two strategies, more reliable information is extracted from the pretrained model without original training data. Experiments on multiple publicly available pretrained models and a multi-organ dataset MOBA have demonstrated the effectiveness of our framework.
翻訳日:2021-03-10 14:59:31 公開日:2021-03-09
# MetaCorrection:セマンティックセグメンテーションにおける教師なしドメイン適応のためのドメイン認識メタロス補正

MetaCorrection: Domain-aware Meta Loss Correction for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2103.05254v1 )

ライセンス: Link先を確認
Xiaoqing Guo, Chen Yang, Baopu Li, Yixuan Yuan(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 既存のセルフトレーニングベースのUDAアプローチは、ターゲットデータに擬似ラベルを割り当て、モデル適応のためにラベルされていないターゲットデータを完全に活用するために基底真理ラベルとして扱う。 しかし、ソースドメインに最適化されたモデルから生成された擬似ラベルは、必然的にドメインギャップによるノイズを含む。 この問題に対処するため、UDAセマンティックセグメンテーションの損失補正(DMLC)のためにドメイン対応メタ学習戦略を考案したMetaCorrectionフレームワークを前進させる。 特に、ノイズ遷移行列(NTM)を導入してターゲット領域内の擬似ラベルのノイズ分布をモデル化し、ドメイン不変なソースデータを用いたメタデータセットを構築し、NTMの推定を導く。 メタデータセットのリスク最小化により、最適化されたNTMは擬似ラベルのノイズ問題を補正し、対象データに対するモデルの一般化能力を高めることができる。 さらに,浅部特徴と深部特徴の容量ギャップを考慮し,異なるレベルの特徴に対して一致した,互換性のある監視信号を提供することにより,深部適応の確保を図る。 広範な実験結果から,3つのベンチマークにおける既存手法に対する提案手法の有効性が示された。

Unsupervised domain adaptation (UDA) aims to transfer the knowledge from the labeled source domain to the unlabeled target domain. Existing self-training based UDA approaches assign pseudo labels for target data and treat them as ground truth labels to fully leverage unlabeled target data for model adaptation. However, the generated pseudo labels from the model optimized on the source domain inevitably contain noise due to the domain gap. To tackle this issue, we advance a MetaCorrection framework, where a Domain-aware Meta-learning strategy is devised to benefit Loss Correction (DMLC) for UDA semantic segmentation. In particular, we model the noise distribution of pseudo labels in target domain by introducing a noise transition matrix (NTM) and construct meta data set with domain-invariant source data to guide the estimation of NTM. Through the risk minimization on the meta data set, the optimized NTM thus can correct the noisy issues in pseudo labels and enhance the generalization ability of the model on the target data. Considering the capacity gap between shallow and deep features, we further employ the proposed DMLC strategy to provide matched and compatible supervision signals for different level features, thereby ensuring deep adaptation. Extensive experimental results highlight the effectiveness of our method against existing state-of-the-art methods on three benchmarks.
翻訳日:2021-03-10 14:59:12 公開日:2021-03-09
# PcmNet:時空間行動定位のための位置感性コンテキストモデリングネットワーク

PcmNet: Position-Sensitive Context Modeling Network for Temporal Action Localization ( http://arxiv.org/abs/2103.05270v1 )

ライセンス: Link先を確認
Xin Qin, Hanbin Zhao, Guangchen Lin, Hao Zeng, Songcen Xu, Xi Li(参考訳) 時間的アクションのローカリゼーションは、アクションが発生し、クラスを認識する実世界の未トリミングビデオ内の時間的領域を特定することを目的とした重要かつ困難なタスクです。 ビデオコンテキストはビデオ理解にとって重要な問題であると広く認識されており、コンテキストの利用はローカリゼーションのパフォーマンスを高める重要な戦略となっている。 しかし、以前の最先端の手法では、フレームや提案間の特徴の類似性を捉える意味的コンテキストの探索や、時間的ローカリゼーションに不可欠な位置コンテキストの無視に重点が置かれている。 本稿では、位置情報と意味情報の両方をより正確な行動ローカライズに組み込むための時間的位置感性コンテキストモデリング手法を提案する。 具体的には,まず,有向時間位置符号化による特徴表現を補強し,その後,フレームレベルと提案レベルの両方において注意に基づく情報伝達を行う。 その結果、生成された特徴表現は、位置認識コンテキスト情報をエンコードする識別能力によって大幅に強化され、境界検出と提案評価の恩恵を受ける。 提案手法の有効性と一般化性を実証し,2つの挑戦的データセットである thumos-14 と activitynet-1.3 で最先端の性能を実現する。

Temporal action localization is an important and challenging task that aims to locate temporal regions in real-world untrimmed videos where actions occur and recognize their classes. It is widely acknowledged that video context is a critical cue for video understanding, and exploiting the context has become an important strategy to boost localization performance. However, previous state-of-the-art methods focus more on exploring semantic context which captures the feature similarity among frames or proposals, and neglect positional context which is vital for temporal localization. In this paper, we propose a temporal-position-sensitive context modeling approach to incorporate both positional and semantic information for more precise action localization. Specifically, we first augment feature representations with directed temporal positional encoding, and then conduct attention-based information propagation, in both frame-level and proposal-level. Consequently, the generated feature representations are significantly empowered with the discriminative capability of encoding the position-aware context information, and thus benefit boundary detection and proposal evaluation. We achieve state-of-the-art performance on both two challenging datasets, THUMOS-14 and ActivityNet-1.3, demonstrating the effectiveness and generalization ability of our method.
翻訳日:2021-03-10 14:58:48 公開日:2021-03-09
# シーングラフ生成のためのセマンティックアンビジティの確率的モデル化

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation ( http://arxiv.org/abs/2103.05271v1 )

ライセンス: Link先を確認
Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang(参考訳) 正確な」シーングラフを生成するために、ほぼ全ての既存手法は決定論的にペアワイズ関係を予測している。 しかし、視覚的関係はしばしば意味的に曖昧である。 具体的には,言語知識に着想を得て,同義的曖昧性,偽性曖昧性,多視点曖昧性という3つのタイプに分類した。 あいまいさは自然に、多様な予測の必要性を動機づける、"emph{implicit multi-label}"の問題に繋がる。 本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。 各組合地域をガウス分布としてモデル化し、その分散は対応する視覚コンテンツの不確実性を測定する。 従来の決定論的手法と比較して、不確実性モデリングは特徴表現の確率性をもたらし、自然に多様な予測を可能にする。 副産物として、PUMはよりきめ細かい関係をカバーし、頻繁な関係に対する偏見の問題を軽減する。 大規模ビジュアルゲノムベンチマークに関する広範な実験は、PUMと新たに提案されたResCAGCNを組み合わせることで、特に平均リコールメトリックの下で最先端のパフォーマンスを達成できることを示しています。 さらに,既存のモデルに組み込むことで,pumの普遍的有効性を証明し,多様で多彩な視覚関係を生み出す能力について洞察的な分析を行う。

To generate "accurate" scene graphs, almost all existing methods predict pairwise relationships in a deterministic manner. However, we argue that visual relationships are often semantically ambiguous. Specifically, inspired by linguistic knowledge, we classify the ambiguity into three types: Synonymy Ambiguity, Hyponymy Ambiguity, and Multi-view Ambiguity. The ambiguity naturally leads to the issue of \emph{implicit multi-label}, motivating the need for diverse predictions. In this work, we propose a novel plug-and-play Probabilistic Uncertainty Modeling (PUM) module. It models each union region as a Gaussian distribution, whose variance measures the uncertainty of the corresponding visual content. Compared to the conventional deterministic methods, such uncertainty modeling brings stochasticity of feature representation, which naturally enables diverse predictions. As a byproduct, PUM also manages to cover more fine-grained relationships and thus alleviates the issue of bias towards frequent relationships. Extensive experiments on the large-scale Visual Genome benchmark show that combining PUM with newly proposed ResCAGCN can achieve state-of-the-art performances, especially under the mean recall metric. Furthermore, we prove the universal effectiveness of PUM by plugging it into some existing models and provide insightful analysis of its ability to generate diverse yet plausible visual relationships.
翻訳日:2021-03-10 14:58:25 公開日:2021-03-09
# Thumbnail: 畳み込みニューラルネットワークのための新しいデータ拡張

Thumbnail: A Novel Data Augmentation for Convolutional Neural Network ( http://arxiv.org/abs/2103.05342v1 )

ライセンス: Link先を確認
Tianshu Xie, Xuan Cheng, Minghui Liu, Jiali Deng, Xiaomin Wang, Ming Liu(参考訳) 本論文では、ネットワークによるグローバル機能のキャプチャを強化することを目的とした、Thumbnailという新しいデータ拡張戦略を提案する。 サムネイルと呼ばれる特定のサイズに画像を縮小し、元の画像のランダムな位置に貼り付けることで生成された画像を取得します。 生成された画像は、元の画像情報の大部分を保持するだけでなく、サムネイル内のグローバル情報も保持する。 さらに,サムネイルのアイデアはサンプルデータの混合増補と完全に統合可能であることを見出し,基底真理ラベルを一定の重みで混合した別の画像にサムネイルを貼り付けることにより,様々なコンピュータビジョンタスクにおいて大きな成果が得られた。 広範囲にわたる実験により、Thumbnailは、分類、きめ細かい画像分類、およびオブジェクト検出にまたがる最先端の増強戦略よりも優れています。 ImageNetの分類では、ResNet50アーキテクチャは79.21%の精度でベースラインを2.89%以上改善している。

In this paper, we propose a new data augmentation strategy named Thumbnail, which aims to strengthen the network's capture of global features. We get a generated image by reducing an image to a certain size, which is called as the thumbnail, and pasting it in the random position of the original image. The generated image not only retains most of the original image information but also has the global information in the thumbnail. Furthermore, we find that the idea of thumbnail can be perfectly integrated with Mixed Sample Data Augmentation, so we paste the thumbnail in another image where the ground truth labels are also mixed with a certain weight, which makes great achievements on various computer vision tasks. Extensive experiments show that Thumbnail works better than the state-of-the-art augmentation strategies across classification, fine-grained image classification, and object detection. On ImageNet classification, ResNet50 architecture with our method achieves 79.21% accuracy, which is more than 2.89% improvement on the baseline.
翻訳日:2021-03-10 14:58:01 公開日:2021-03-09
# 対向攻撃におけるスケルトンベース行動認識のロバスト性理解

Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack ( http://arxiv.org/abs/2103.05347v1 )

ライセンス: Link先を確認
He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg(参考訳) アクション認識は、その堅牢性が主な関心事である自動運転車、監視など、多くのアプリケーションに大きく採用されています。 本稿では,これまでまれに調査されていなかった敵対的攻撃に対する最先端の行動認識器の堅牢性について検討する。 そこで本研究では,3次元骨格運動に依存する行動認識を攻撃する新しい手法を提案する。 本手法は,攻撃の不可避性を保証する革新的な知覚損失を含む。 実験により,本手法はホワイトボックスとブラックボックスの両方のシナリオで有効であることが示された。 その一般化性は、様々なアクション認識とデータセットで証明されている。 その汎用性は異なる攻撃戦略で示される。 その偽りは広範な知覚研究で証明されている。 提案手法は, 時系列データの一種である3次元骨格運動に対する敵意攻撃が, 従来の敵意攻撃問題とは大きく異なることを示す。 その成功は、行動認識者の堅牢性への深刻な懸念を引き起こし、潜在的な改善に関する洞察を提供する。

Action recognition has been heavily employed in many applications such as autonomous vehicles, surveillance, etc, where its robustness is a primary concern. In this paper, we examine the robustness of state-of-the-art action recognizers against adversarial attack, which has been rarely investigated so far. To this end, we propose a new method to attack action recognizers that rely on 3D skeletal motion. Our method involves an innovative perceptual loss that ensures the imperceptibility of the attack. Empirical studies demonstrate that our method is effective in both white-box and black-box scenarios. Its generalizability is evidenced on a variety of action recognizers and datasets. Its versatility is shown in different attacking strategies. Its deceitfulness is proven in extensive perceptual studies. Our method shows that adversarial attack on 3D skeletal motions, one type of time-series data, is significantly different from traditional adversarial attack problems. Its success raises serious concern on the robustness of action recognizers and provides insights on potential improvements.
翻訳日:2021-03-10 14:57:42 公開日:2021-03-09
# 再同定のためのインスタンスとペアアウェア動的ネットワーク

Instance and Pair-Aware Dynamic Networks for Re-Identification ( http://arxiv.org/abs/2103.05395v1 )

ライセンス: Link先を確認
Bingliang Jiao and Xin Tan and Lu Yang and Yunlong Wang and Peng Wang(参考訳) Re-identification (ReID) は、異なるカメラで同じインスタンスを識別することです。 既存のReID手法は主にアライメントベースの戦略やアライメントベースの戦略を利用して効果的な特徴表現を生成する。 しかし、これらの方法のほとんどは、単一の入力画像自体を使用して一般的な特徴を抽出し、比較画像間の関連性の探索を無視するだけです。 本稿では、このギャップを埋めるために、Instance and Pair-Aware Dynamic Networksという新しいエンドツーエンドのトレーニング可能な動的畳み込みフレームワークを提案する。 提案モデルは,各画像に焦点をあて,インスタンス固有の特徴を強化するために自己誘導動的分岐を構築する3つのメインブランチで構成されている。 さらに,比較対象画像のペア認識機能を生成するための相互誘導型動的分岐も設計した。 提案アルゴリズムの有効性を検証するため,大規模な実験を行った。 cuhk03, dukemtmcreid, market-1501, veri776, vehicleidなどの主要人物および車両のreidデータセットでアルゴリズムを評価した。 いくつかのデータセットでは、我々のアルゴリズムは最先端の手法よりも優れており、また、我々のアルゴリズムは同等のパフォーマンスを達成する。

Re-identification (ReID) is to identify the same instance across different cameras. Existing ReID methods mostly utilize alignment-based or attention-based strategies to generate effective feature representations. However, most of these methods only extract general feature by employing single input image itself, overlooking the exploration of relevance between comparing images. To fill this gap, we propose a novel end-to-end trainable dynamic convolution framework named Instance and Pair-Aware Dynamic Networks in this paper. The proposed model is composed of three main branches where a self-guided dynamic branch is constructed to strengthen instance-specific features, focusing on every single image. Furthermore, we also design a mutual-guided dynamic branch to generate pair-aware features for each pair of images to be compared. Extensive experiments are conducted in order to verify the effectiveness of our proposed algorithm. We evaluate our algorithm in several mainstream person and vehicle ReID datasets including CUHK03, DukeMTMCreID, Market-1501, VeRi776 and VehicleID. In some datasets our algorithm outperforms state-of-the-art methods and in others, our algorithm achieves a comparable performance.
翻訳日:2021-03-10 14:57:29 公開日:2021-03-09
# weather gan: 生成型adversarial networkを用いたマルチドメイン気象翻訳

Weather GAN: Multi-Domain Weather Translation Using Generative Adversarial Networks ( http://arxiv.org/abs/2103.05422v1 )

ライセンス: Link先を確認
Xuelong Li, Kai Kou, and Bin Zhao(参考訳) 本論文では、画像の気象条件を1つのカテゴリから別のカテゴリに転送することを指す新しいタスク、すなわち天気翻訳を提案します。 写真スタイルの転送には重要である。 従来の画像翻訳タスクでは多くのアプローチが提案されているが、天候条件が豊富なカテゴリと非常に複雑な意味構造を持つため、多カテゴリーの気象翻訳タスクを処理できるものはほとんどない。 そこで本研究では, 日当たり, 曇り, 曇り, 曇り, 降雨, 雪の気象条件の転送を実現できる, 気象GAN(Weather GAN)と称するGAN(Genation Adversarial Network)に基づくマルチドメイン気象変換手法を開発した。 具体的には、雲、青空、湿った地面など様々な気象条件によって画像内の気象条件が決定される。 したがって、天気予報に主な注意を集中することは、天気の翻訳にとって不可欠です。 この目的のために、気象ganの生成部は、初期翻訳モジュールと、注意モジュールと、気象−キューセグメンテーションモジュールとからなる。 初期翻訳モジュールは、生成手順中にグローバル翻訳を行う。 ウェザーキューセグメンテーションモジュールは、ウェザーキューの構造と正確な分布を特定します。 attentionモジュールは、他の領域を変更せずに、画像の興味深い領域にフォーカスすることを学ぶ。 最終的な生成結果はこれら3つの部分によって合成される。 この手法は気象の変換による歪みや変形を抑制する。 我々のアプローチは最先端技術よりも優れており、多くの実験や評価によって示されている。

In this paper, a new task is proposed, namely, weather translation, which refers to transferring weather conditions of the image from one category to another. It is important for photographic style transfer. Although lots of approaches have been proposed in traditional image translation tasks, few of them can handle the multi-category weather translation task, since weather conditions have rich categories and highly complex semantic structures. To address this problem, we develop a multi-domain weather translation approach based on generative adversarial networks (GAN), denoted as Weather GAN, which can achieve the transferring of weather conditions among sunny, cloudy, foggy, rainy and snowy. Specifically, the weather conditions in the image are determined by various weather-cues, such as cloud, blue sky, wet ground, etc. Therefore, it is essential for weather translation to focus the main attention on weather-cues. To this end, the generator of Weather GAN is composed of an initial translation module, an attention module and a weather-cue segmentation module. The initial translation module performs global translation during generation procedure. The weather-cue segmentation module identifies the structure and exact distribution of weather-cues. The attention module learns to focus on the interesting areas of the image while keeping other areas unaltered. The final generated result is synthesized by these three parts. This approach suppresses the distortion and deformation caused by weather translation. our approach outperforms the state-of-the-arts has been shown by a large number of experiments and evaluations.
翻訳日:2021-03-10 14:57:12 公開日:2021-03-09
# ディープラーニングに基づく3Dセグメンテーション:調査

Deep Learning based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v1 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Yaonan Wang, Qiang Fu, Yanmei Zou and Ajmal Main(参考訳) 3Dオブジェクトセグメンテーションは、自動運転、ロボティクス、拡張現実、医療画像分析など、コンピュータビジョンの根本的かつ困難な問題です。 コンピュータビジョン、グラフィックス、機械学習コミュニティから大きな注目を集めています。 伝統的に、3dセグメンテーションは手作りの特徴と工学的手法で行われ、許容できる精度を達成できず、大規模データには一般化できなかった。 2Dコンピュータビジョンにおける大きな成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールにもなっている。 これにより、さまざまなベンチマークデータセットで評価された多くのメソッドが文献に流入しました。 本論文では,150以上の論文を対象とする深層学習に基づく3Dセグメンテーションの最近の進展を総合的に調査する。 最も一般的に使用されるパイプラインを要約し、ハイライトと欠点を説明し、これらのセグメンテーションメソッドの競合結果を分析する。 分析に基づいて、将来への有望な研究の方向性も提供する。

3D object segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving, robotics, augmented reality and medical image analysis. It has received significant attention from the computer vision, graphics and machine learning communities. Traditionally, 3D segmentation was performed with hand-crafted features and engineered methods which failed to achieve acceptable accuracy and could not generalize to large-scale data. Driven by their great success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks as well. This has led to an influx of a large number of methods in the literature that have been evaluated on different benchmark datasets. This paper provides a comprehensive survey of recent progress in deep learning based 3D segmentation covering over 150 papers. It summarizes the most commonly used pipelines, discusses their highlights and shortcomings, and analyzes the competitive results of these segmentation methods. Based on the analysis, it also provides promising research directions for the future.
翻訳日:2021-03-10 14:56:46 公開日:2021-03-09
# 複素運転場面におけるピクセル型異常検出

Pixel-wise Anomaly Detection in Complex Driving Scenes ( http://arxiv.org/abs/2103.05445v1 )

ライセンス: Link先を確認
Giancarlo Di Biase, Hermann Blum, Roland Siegwart, Cesar Cadena(参考訳) 異常なインスタンスを検知する最先端セマンティックセグメンテーション手法の欠如は、自律運転のような安全クリティカルで複雑なアプリケーションにデプロイされることを妨げている。 最近のアプローチでは、セグメント化の不確実性を利用して異常領域を識別するか、セマンティックラベルマップから画像を再合成して入力画像と相違点を見つけるかに焦点が当てられている。 本研究では,これら2つの手法が相補的な情報を含んでいることを実証し,異常セグメンテーションの堅牢な予測を行うために組み合わせることができることを示す。 入力画像と生成画像の相違点を見つけるために,不確実性マップを用いて既存の再合成法よりも優れた画素単位の異常検出フレームワークを提案する。 私たちのアプローチは、すでに訓練されたセグメンテーションネットワークに関する一般的なフレームワークとして機能し、セグメンテーションの精度を損なうことなく異常検出を保証します。 さまざまな異常データセットを対象としたトップ2パフォーマンスは、異なる異常インスタンスを扱うアプローチの堅牢性を示している。

The inability of state-of-the-art semantic segmentation methods to detect anomaly instances hinders them from being deployed in safety-critical and complex applications, such as autonomous driving. Recent approaches have focused on either leveraging segmentation uncertainty to identify anomalous areas or re-synthesizing the image from the semantic label map to find dissimilarities with the input image. In this work, we demonstrate that these two methodologies contain complementary information and can be combined to produce robust predictions for anomaly segmentation. We present a pixel-wise anomaly detection framework that uses uncertainty maps to improve over existing re-synthesis methods in finding dissimilarities between the input and generated images. Our approach works as a general framework around already trained segmentation networks, which ensures anomaly detection without compromising segmentation accuracy, while significantly outperforming all similar methods. Top-2 performance across a range of different anomaly datasets shows the robustness of our approach to handling different anomaly instances.
翻訳日:2021-03-10 14:56:32 公開日:2021-03-09
# ボックススーパービジョンセマンティックセグメンテーションのためのクラス非依存擬似マスク生成の学習

Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.05463v1 )

ライセンス: Link先を確認
Chaohao Xie, Dongwei Ren, Lei Wang, Qinghua Hu, Liang Lin, Wangmeng Zuo(参考訳) 近年,深層セマンティックセグメンテーションモデルの訓練に境界ボックス管理を利用するために,弱教師付き学習法がいくつか研究されている。 既存のほとんどの手法では、一般的な提案生成器 (\eg, dense CRF, MCG) を利用して、さらなるトレーニングセグメンテーションモデルのための強化されたセグメンテーションマスクを生成する。 しかし、これらの提案ジェネレータは汎用的であり、ボックス監視されたセマンティックセグメンテーション用に特別に設計されていないため、セグメンテーションのパフォーマンスを改善するための余地がある。 本稿では,ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースクラス非依存な擬似マスク生成器を求めることを目的とする。 この目的のために、私たちは、クラスラベルがボックス注釈データセットと重複しないピクセルレベルのアノテーション付き補助データセットを利用する。 補助データセットから擬似マスク生成法を学ぶために,二段階最適化定式化を提案する。 特に、下位のサブプロブレムはボックス教師付きセマンティクスセグメンテーションの学習に使用され、上位のサブプロブレムは最適なクラス非依存の擬似マスクジェネレータの学習に使用される。 学習した擬似セグメンテーションマスクジェネレータはボックスアノテーション付きデータセットにデプロイされ、弱教師付きセグメンテーションを改善する。 PASCAL VOC 2012データセットの実験では、学習した擬似マスクジェネレータがセグメンテーション性能を高めるのに有効であり、この方法により、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに閉じることができます。 コードはhttps://github.com/Vious/LPG_BBox_Segmentation で公開されます。

Recently, several weakly supervised learning methods have been devoted to utilize bounding box supervision for training deep semantic segmentation models. Most existing methods usually leverage the generic proposal generators (\eg, dense CRF and MCG) to produce enhanced segmentation masks for further training segmentation models. These proposal generators, however, are generic and not specifically designed for box-supervised semantic segmentation, thereby leaving some leeway for improving segmentation performance. In this paper, we aim at seeking for a more accurate learning-based class-agnostic pseudo mask generator tailored to box-supervised semantic segmentation. To this end, we resort to a pixel-level annotated auxiliary dataset where the class labels are non-overlapped with those of the box-annotated dataset. For learning pseudo mask generator from the auxiliary dataset, we present a bi-level optimization formulation. In particular, the lower subproblem is used to learn box-supervised semantic segmentation, while the upper subproblem is used to learn an optimal class-agnostic pseudo mask generator. The learned pseudo segmentation mask generator can then be deployed to the box-annotated dataset for improving weakly supervised semantic segmentation. Experiments on PASCAL VOC 2012 dataset show that the learned pseudo mask generator is effective in boosting segmentation performance, and our method can further close the performance gap between box-supervised and fully-supervised models. Our code will be made publicly available at https://github.com/Vious/LPG_BBox_Segmentation .
翻訳日:2021-03-10 14:56:13 公開日:2021-03-09
# 二重コントラスト深層クラスタリング

Doubly Contrastive Deep Clustering ( http://arxiv.org/abs/2103.05484v1 )

ライセンス: Link先を確認
Zhiyuan Dang, Cheng Deng, Xu Yang, Heng Huang(参考訳) ディープクラスタリングは、従来のものよりも効果的な機能を提供し、現在の教師なし学習において重要な技術となる。 しかし、ほとんどのディープクラスタリングメソッドは、データ増強によって導入された重要な正と負のペアを無視し、コントラスト学習の重要性をさらに高めます。 本稿では,サンプルビューとクラスビューの両ビューのコントラスト損失を構成し,より識別的特徴と競合的な結果を得る,二重対比型深層クラスタリング(dcdc)フレームワークを提案する。 具体的には、サンプルビューにおいて、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定し、他の拡張サンプルの1つを負のサンプルペアとして設定する。 その後、正のサンプルペアを一緒に引っ張り、負のサンプルペアを離れてプッシュするために、サンプルワイズコントラスト損失を採用できます。 同様に、クラスビューでは、クラスのサンプル分布から正と負のペアを構築します。 このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。 6つのベンチマークデータセットの広範な実験結果から,提案モデルの最先端手法に対する優位性が示された。 特に挑戦的なデータセットであるTiny-ImageNetでは,最新の比較手法に対して5.6\%を導いた。 コードは \url{https://github.com/ZhiyuanDang/DCDC} で入手できます。

Deep clustering successfully provides more effective features than conventional ones and thus becomes an important technique in current unsupervised learning. However, most deep clustering methods ignore the vital positive and negative pairs introduced by data augmentation and further the significance of contrastive learning, which leads to suboptimal performance. In this paper, we present a novel Doubly Contrastive Deep Clustering (DCDC) framework, which constructs contrastive loss over both sample and class views to obtain more discriminative features and competitive results. Specifically, for the sample view, we set the class distribution of the original sample and its augmented version as positive sample pairs and set one of the other augmented samples as negative sample pairs. After that, we can adopt the sample-wise contrastive loss to pull positive sample pairs together and push negative sample pairs apart. Similarly, for the class view, we build the positive and negative pairs from the sample distribution of the class. In this way, two contrastive losses successfully constrain the clustering results of mini-batch samples in both sample and class level. Extensive experimental results on six benchmark datasets demonstrate the superiority of our proposed model against state-of-the-art methods. Particularly in the challenging dataset Tiny-ImageNet, our method leads 5.6\% against the latest comparison method. Our code will be available at \url{https://github.com/ZhiyuanDang/DCDC}.
翻訳日:2021-03-10 14:55:20 公開日:2021-03-09
# TS-Net:テキスト転写スタイルを切り替えるOCRトレーニング

TS-Net: OCR Trained to Switch Between Text Transcription Styles ( http://arxiv.org/abs/2103.05489v1 )

ライセンス: Link先を確認
Jan Koh\'ut, Michal Hradi\v{s}(参考訳) 異なる機関や科学分野からのOCRシステムのユーザーは、異なる転写スタイルを好み、生成します。 これにより、実世界のデータに基づく一貫したテキスト認識ニューラルネットワークのトレーニングに問題がある。 本論文では,既存のテキスト認識ネットワークを,データから学習して複数の転写スタイルを切り替えることができる転写スタイルブロック(Transcription Style Block,TSB)で拡張することを提案する。 TSBは、一貫性のある転写文書(例えば)を表す識別子によって条件づけられた適応インスタンス正規化である。 単一の文書、単一の翻訳者による文書、または機関)。 TSBは、人工データを用いた制御実験において、全く異なる書き起こしスタイルを学習できることを示し、大規模な実世界のデータにおけるテキスト認識精度を改善し、意味的に意味のある書き起こしスタイルの埋め込みを学習する。 また、TSBは、テキスト行数行の転写から新しい文書の転写スタイルに効率的に適応する方法も示します。

Users of OCR systems, from different institutions and scientific disciplines, prefer and produce different transcription styles. This presents a problem for training of consistent text recognition neural networks on real-world data. We propose to extend existing text recognition networks with a Transcription Style Block (TSB) which can learn from data to switch between multiple transcription styles without any explicit knowledge of transcription rules. TSB is an adaptive instance normalization conditioned by identifiers representing consistently transcribed documents (e.g. single document, documents by a single transcriber, or an institution). We show that TSB is able to learn completely different transcription styles in controlled experiments on artificial data, it improves text recognition accuracy on large-scale real-world data, and it learns semantically meaningful transcription style embedding. We also show how TSB can efficiently adapt to transcription styles of new documents from transcriptions of only a few text lines.
翻訳日:2021-03-10 14:55:01 公開日:2021-03-09
# 3次元ポイントベースシーングラフ解析のためのエッジ指向推論

Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis ( http://arxiv.org/abs/2103.05558v1 )

ライセンス: Link先を確認
Chaoyi Zhang, Jianhui Yu, Yang Song, Weidong Cai(参考訳) シーン理解はコンピュータビジョンにおける重要な問題である。 本稿では,3つの段階(シーングラフ構築,推論,推論)を通してシーン理解を実現するために,知覚と推論を効果的に橋渡しする3Dポイントベースのシーングラフ生成(「\mathbf{SG_{point}}$」)フレームワークを提案する。 推論段階では、EDGE指向グラフ畳み込みネットワーク($\texttt{EdgeGCN}$)が、シーングラフ表現の独立した進化のためのノードとエッジ間の2つの関連双対相互作用メカニズムの探索とともに、明示的な関係モデリングのための多次元エッジ機能を利用するために作成される。 統合された$\mathbf{SGG_{point}}$フレームワークは、実世界と合成3Dポイントベースの両方のシーンから興味のあるシーン構造を探し出し、推測するために確立されました。 実験結果は、シーングラフ生成研究に有望なエッジ指向推論効果を示す。 また,従来のグラフ表現学習ベンチマークデータセットの利点として,引用ネットワーク上のノードワイズ分類や,分子解析のための全グラフ認識問題などを挙げる。

Scene understanding is a critical problem in computer vision. In this paper, we propose a 3D point-based scene graph generation ($\mathbf{SGG_{point}}$) framework to effectively bridge perception and reasoning to achieve scene understanding via three sequential stages, namely scene graph construction, reasoning, and inference. Within the reasoning stage, an EDGE-oriented Graph Convolutional Network ($\texttt{EdgeGCN}$) is created to exploit multi-dimensional edge features for explicit relationship modeling, together with the exploration of two associated twinning interaction mechanisms between nodes and edges for the independent evolution of scene graph representations. Overall, our integrated $\mathbf{SGG_{point}}$ framework is established to seek and infer scene structures of interest from both real-world and synthetic 3D point-based scenes. Our experimental results show promising edge-oriented reasoning effects on scene graph generation studies. We also demonstrate our method advantage on several traditional graph representation learning benchmark datasets, including the node-wise classification on citation networks and whole-graph recognition problems for molecular analysis.
翻訳日:2021-03-10 14:54:44 公開日:2021-03-09
# FAIR1M:高解像度リモートセンシング画像における微細物体認識のためのベンチマークデータセット

FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in High-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2103.05569v1 )

ライセンス: Link先を確認
Xian Sun and Peijin Wang and Zhiyuan Yan and Cheng Wang and Wenhui Diao and Jin Chen and Jihao Li and Yingchao Feng and Tao Xu and Martin Weinmann and Stefan Hinz and Kun Fu(参考訳) ディープラーニングの急速な発展に伴い、多くのディープラーニングベースのアプローチがオブジェクト検出タスクで大きな成果を上げています。 ディープラーニングがデータ駆動方式であることは一般的に知られている。 データは物体検出器の性能に直接ある程度影響する。 既存のデータセットにはリモートセンシングイメージに共通オブジェクトが含まれているが、スケール、カテゴリ、イメージにはいくつかの制限がある。 したがって、高解像度リモートセンシング画像における物体検出に関する大規模ベンチマークを確立するための強い要件がある。 本稿では,FAIR1Mと命名された高解像度リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。 FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。 Compared with existing detection datasets dedicated to object detection, the FAIR1M dataset has 4 particular characteristics: (1) it is much larger than other existing object detection datasets both in terms of the quantity of instances and the quantity of images, (2) it provides more rich fine-grained category information for objects in remote sensing images, (3) it contains geographic information such as latitude, longitude and resolution, (4) it provides better image quality owing to a careful data cleaning procedure. 本稿では,このfair1mデータセットに基づく最先端(sota)深層学習モデルを用いて,粒度物体認識のためのベースラインを確立するため,新しい評価法とベンチマークによる粒度物体検出タスクと視覚的分類タスクを提案する。 実験結果は、FAIR1Mデータセットが実用に近く、既存のデータセットよりもかなり難しいことを強く示唆している。

With the rapid development of deep learning, many deep learning based approaches have made great achievements in object detection task. It is generally known that deep learning is a data-driven method. Data directly impact the performance of object detectors to some extent. Although existing datasets have included common objects in remote sensing images, they still have some limitations in terms of scale, categories, and images. Therefore, there is a strong requirement for establishing a large-scale benchmark on object detection in high-resolution remote sensing images. In this paper, we propose a novel benchmark dataset with more than 1 million instances and more than 15,000 images for Fine-grAined object recognItion in high-Resolution remote sensing imagery which is named as FAIR1M. All objects in the FAIR1M dataset are annotated with respect to 5 categories and 37 sub-categories by oriented bounding boxes. Compared with existing detection datasets dedicated to object detection, the FAIR1M dataset has 4 particular characteristics: (1) it is much larger than other existing object detection datasets both in terms of the quantity of instances and the quantity of images, (2) it provides more rich fine-grained category information for objects in remote sensing images, (3) it contains geographic information such as latitude, longitude and resolution, (4) it provides better image quality owing to a careful data cleaning procedure. To establish a baseline for fine-grained object recognition, we propose a novel evaluation method and benchmark fine-grained object detection tasks and a visual classification task using several State-Of-The-Art (SOTA) deep learning based models on our FAIR1M dataset. Experimental results strongly indicate that the FAIR1M dataset is closer to practical application and it is considerably more challenging than existing datasets.
翻訳日:2021-03-10 14:54:23 公開日:2021-03-09
# SimTriplet:単一のGPUによるシンプルなトリプル表現学習

SimTriplet: Simple Triplet Representation Learning with a Single GPU ( http://arxiv.org/abs/2103.05585v1 )

ライセンス: Link先を確認
Quan Liu, Peter C. Louis, Yuzhe Lu, Aadarsh Jha, Mengyang Zhao, Ruining Deng, Tianyuan Yao, Joseph T. Roland, Haichun Yang, Shilin Zhao, Lee E. Wheless, Yuankai Huo(参考訳) コントラスト学習は近代的な自己監督学習の重要な技法である。 初期のアプローチの幅広いアクセシビリティは、大規模な負のサンプルや運動量に対応する重い計算リソース(例えば、8gpuまたは32tpuコア)の必要性によって妨げられている。 より最近のSimSiamアプローチは、運動量エンコーダを使わずに停止段階の制限に対処する。 医用画像解析では、同じ患者または組織から複数のインスタンスを達成できる。 これらの進歩に触発されて,病理画像に対する単純な三重項表現学習(SimTriplet)アプローチを提案する。 本論文の貢献は,(1)シムトリプレット法は,自己提示以外の医用画像の多視点性を活用すること,(2)負のサンプルを用いることなく,正のペアからのトリプレットによるサンプル内およびサンプル間類似性を最大化すること,(3)最近のmix精度トレーニングを用いて,16gbメモリのシングルgpuのみを用いてトレーニングを進めること,の3つである。 79,000個のラベルなしの病理パッチ画像から学習することで、simtripletは教師付き学習に比べて10.58%の優れたパフォーマンスを達成した。 また、SimSiamに比べて2.13%パフォーマンスが向上した。 提案したSimTripletは,1%のラベル付きデータで十分な性能が得られる。 コードとデータはhttps://github.com/hrlblab/SimTriple.comで入手できる。

Contrastive learning is a key technique of modern self-supervised learning. The broader accessibility of earlier approaches is hindered by the need of heavy computational resources (e.g., at least 8 GPUs or 32 TPU cores), which accommodate for large-scale negative samples or momentum. The more recent SimSiam approach addresses such key limitations via stop-gradient without momentum encoders. In medical image analysis, multiple instances can be achieved from the same patient or tissue. Inspired by these advances, we propose a simple triplet representation learning (SimTriplet) approach on pathological images. The contribution of the paper is three-fold: (1) The proposed SimTriplet method takes advantage of the multi-view nature of medical images beyond self-augmentation; (2) The method maximizes both intra-sample and inter-sample similarities via triplets from positive pairs, without using negative samples; and (3) The recent mix precision training is employed to advance the training by only using a single GPU with 16GB memory. By learning from 79,000 unlabeled pathological patch images, SimTriplet achieved 10.58% better performance compared with supervised learning. It also achieved 2.13% better performance compared with SimSiam. Our proposed SimTriplet can achieve decent performance using only 1% labeled data. The code and data are available at https://github.com/hrlblab/SimTriple.
翻訳日:2021-03-10 14:53:56 公開日:2021-03-09
# 物性正規化による顕微鏡像と体積の点監督セグメンテーション

Point-supervised Segmentation of Microscopy Images and Volumes via Objectness Regularization ( http://arxiv.org/abs/2103.05617v1 )

ライセンス: Link先を確認
Shijie Li, Neel Dey, Katharina Bermond, Leon von der Emde, Christine A. Curcio, Thomas Ach, Guido Gerig(参考訳) アノテーションは、顕微鏡画像とボリュームのセマンティックセグメンテーションにおいて、必要な専門知識と労力のために大きなハードルとなる。 この作業は、画像上のセマンティックセグメンテーションネットワークのトレーニングを、1インスタンスあたりのトレーニングポイントのみで行うことが可能であり、アノテーションの負担を大幅に軽減する、弱い監督の極端なケースである。 本手法は,(1)学習中に個々の種子を正規化器内で使用するグラフ理論的ソフトセグメンテーションを構築し,(2)構築したソフトラベルから学習可能な客観的関数を用いる。 デジタル病理学における挑戦的なデータセットにおけるポイント・スーパーバイザーのセマンティクス・セグメンテーションの最先端に対する競争結果を達成します。 最後に,本手法を3次元蛍光顕微鏡ボリュームの点監督セグメンテーションに拡張し,手動ボリュームデライン化の必要性を排除した。 私たちのコードは自由に利用できる。

Annotation is a major hurdle in the semantic segmentation of microscopy images and volumes due to its prerequisite expertise and effort. This work enables the training of semantic segmentation networks on images with only a single point for training per instance, an extreme case of weak supervision which drastically reduces the burden of annotation. Our approach has two key aspects: (1) we construct a graph-theoretic soft-segmentation using individual seeds to be used within a regularizer during training and (2) we use an objective function that enables learning from the constructed soft-labels. We achieve competitive results against the state-of-the-art in point-supervised semantic segmentation on challenging datasets in digital pathology. Finally, we scale our methodology to point-supervised segmentation in 3D fluorescence microscopy volumes, obviating the need for arduous manual volumetric delineation. Our code is freely available.
翻訳日:2021-03-10 14:53:31 公開日:2021-03-09
# 非定常線形バンドの再訪

Non-stationary Linear Bandits Revisited ( http://arxiv.org/abs/2103.05324v1 )

ライセンス: Link先を確認
Peng Zhao and Lijun Zhang(参考訳) 本稿では,時間変化に基づく回帰パラメータを持つ確率線形帯域の変種である非定常線形帯域を再検討する。 既存の研究は様々なアルゴリズムを開発し、進化した未知のパラメータの変動を測定するパス長である$T$(T^{2/3)(1+P_T)^{1/3})$ dynamic regret(英語版)を楽しんでいることを示す。 しかし、深刻な技術的欠陥が議論を根拠にしていることに気付く。 分析を再検討し、修正を加えます。 元のアルゴリズムを変更することなく、予想された速度よりもわずかに劣る$\widetilde{O}(T^{3/4)(1+P_T)^{1/4})$ dynamic regretを証明できる。 また,後悔分析の鍵となる量について,いくつかの予測不能な結果を示す。 上記の動的後悔の保証は、パス長$P_T$のオラクル知識を必要とすることに注意。 bandit-over-bandit機構を組み合わせることで、パラメータフリーな方法で同じ保証を実現できる。

In this note, we revisit non-stationary linear bandits, a variant of stochastic linear bandits with a time-varying underlying regression parameter. Existing studies develop various algorithms and show that they enjoy an $\widetilde{O}(T^{2/3}(1+P_T)^{1/3})$ dynamic regret, where $T$ is the time horizon and $P_T$ is the path-length that measures the fluctuation of the evolving unknown parameter. However, we discover that a serious technical flaw makes the argument ungrounded. We revisit the analysis and present a fix. Without modifying original algorithms, we can prove an $\widetilde{O}(T^{3/4}(1+P_T)^{1/4})$ dynamic regret for these algorithms, slightly worse than the rate as was anticipated. We also show some impossibility results for the key quantity concerned in the regret analysis. Note that the above dynamic regret guarantee requires an oracle knowledge of the path-length $P_T$. Combining the bandit-over-bandit mechanism, we can also achieve the same guarantee in a parameter-free way.
翻訳日:2021-03-10 14:53:16 公開日:2021-03-09
# 脳波及びfNIRSからの両手グリップ力の深部リアルタイム復号化

Deep Real-Time Decoding of bimanual grip force from EEG & fNIRS ( http://arxiv.org/abs/2103.05334v1 )

ライセンス: Link先を確認
Pablo Ortega, Tong Zhao and Aldo Faisal(参考訳) 非侵襲的脳-コンピューターインターフェイスは、侵襲的脳-コンピューターインターフェイス(bcis)と比較して、四肢運動とその力の皮質デコードにおいて、わずかに性能が向上しただけである。 非侵襲的手法はより安全で安価でアクセスしやすい技術であるが、信号は宇宙領域(EEG)または時間領域(機能的近赤外分光のBOLD信号、fNIRS)の低解像度に苦しむ。 両手力発生の非侵襲的BCIデコードと連続的な力信号は,これまで実現されていないので,このデコードを評価するため,等尺的グリップ力追跡タスクを導入する。 深層ニューラルネットワークを用いた脳波とfNIRSの組み合わせは, 左手と右手の連続グリップ力変調をデコードするために線形モデルよりも有効であることがわかった。 マルチモーダル深層学習デコーダは,55.2fvaf[%]の強制再構成を達成し,各モードに対するデコード性能を少なくとも15%向上させる。 以上の結果から,非侵襲的移動脳イメージングにより得られた皮質信号を用いた連続的な手力復号は,リハビリテーション,修復,消費者応用に直ちに影響を与えることが示唆された。

Non-invasive cortical neural interfaces have only achieved modest performance in cortical decoding of limb movements and their forces, compared to invasive brain-computer interfaces (BCIs). While non-invasive methodologies are safer, cheaper and vastly more accessible technologies, signals suffer from either poor resolution in the space domain (EEG) or the temporal domain (BOLD signal of functional Near Infrared Spectroscopy, fNIRS). The non-invasive BCI decoding of bimanual force generation and the continuous force signal has not been realised before and so we introduce an isometric grip force tracking task to evaluate the decoding. We find that combining EEG and fNIRS using deep neural networks works better than linear models to decode continuous grip force modulations produced by the left and the right hand. Our multi-modal deep learning decoder achieves 55.2 FVAF[%] in force reconstruction and improves the decoding performance by at least 15% over each individual modality. Our results show a way to achieve continuous hand force decoding using cortical signals obtained with non-invasive mobile brain imaging has immediate impact for rehabilitation, restoration and consumer applications.
翻訳日:2021-03-10 14:52:56 公開日:2021-03-09
# HemCNN:Deep LearningはハンドグリップモータータスクにおけるfNIRS皮質信号の復号を可能にする

HemCNN: Deep Learning enables decoding of fNIRS cortical signals in hand grip motor tasks ( http://arxiv.org/abs/2103.05338v1 )

ライセンス: Link先を確認
Pablo Ortega and Aldo Faisal(参考訳) 我々は、畳み込みニューラルネットワークアーキテクチャであるHemCNNを用いて、データ駆動アプローチを用いて、fNIRSの左/右辺のデコード問題を解く。 We test HemCNN's decoding capabilities to decode in a streaming way, left or right, from fNIRS data。 HemCNNは、どの手が$~1\,$Hzの自然主義的なハンドアクション速度で把握を実行し、標準の方法よりも優れたものを検出することを学びました。 HemCNNはベースラインの修正を必要としないため、畳み込み操作は時間翻訳に不変であるため、私たちの方法は様々なリアルタイムタスクのfNIRSのロック解除に役立ちます。 移動脳画像と移動脳マシンの対面は、実世界の神経科学と実践的な人間の神経インターフェースをBOLDのような信号に基づいて開発することで、fNIRSと脳波信号の融合などの力発生の評価、支援、リハビリを行うことができる。

We solve the fNIRS left/right hand force decoding problem using a data-driven approach by using a convolutional neural network architecture, the HemCNN. We test HemCNN's decoding capabilities to decode in a streaming way the hand, left or right, from fNIRS data. HemCNN learned to detect which hand executed a grasp at a naturalistic hand action speed of $~1\,$Hz, outperforming standard methods. Since HemCNN does not require baseline correction and the convolution operation is invariant to time translations, our method can help to unlock fNIRS for a variety of real-time tasks. Mobile brain imaging and mobile brain machine interfacing can benefit from this to develop real-world neuroscience and practical human neural interfacing based on BOLD-like signals for the evaluation, assistance and rehabilitation of force generation, such as fusion of fNIRS with EEG signals.
翻訳日:2021-03-10 14:52:34 公開日:2021-03-09
# ニューラルネットワークに基づく信頼できるプロセスイベントストリームと時系列データの生成

Generating Reliable Process Event Streams and Time Series Data based on Neural Networks ( http://arxiv.org/abs/2103.05462v1 )

ライセンス: Link先を確認
Tobias Herbert, Juergen Mangler, Stefanie Rinderle-Ma(参考訳) 製造や医療などの領域は、特にセンサーが生成する時系列と組み合わせて、プロセスの継続的な監視と分析に役立っている。 時系列データは、例えば、実行中のコンセプトドリフトの説明と予測に利用することができる。 一般に、意味のある分析結果を得るためには、あるデータボリュームが必要である。 しかし、新しいプロセスの場合、イベントストリームと時系列データが別々に収集されている場合、または十分なデータ量を得るために高価すぎる場合など、信頼できるデータセットが欠落していることが多い。 複数のイベントソースからの時系列データの作成、データ収集頻度の変動、コンセプトドリフトなど、新たな課題が発生します。 本稿では,基礎となる入力データセットの分布に従う信頼性のあるイベントおよび時系列データを生成するためのGENLOG手法を提案する。 GENLOGはデータ再サンプリングを採用し、ユーザはログデータのさまざまな部分を選択して、ストリーム生成のためにリカレントニューラルネットワークのトレーニングをオーケストレーションすることができる。 生成されたデータは、元のサンプルレートにサンプリングされ、元のログデータフォーマットを表すテンプレートに埋め込まれます。 全体として、genlogは小さなデータセットを増加させ、結果としてオンラインプロセスマイニングを応用できる。

Domains such as manufacturing and medicine crave for continuous monitoring and analysis of their processes, especially in combination with time series as produced by sensors. Time series data can be exploited to, for example, explain and predict concept drifts during runtime. Generally, a certain data volume is required in order to produce meaningful analysis results. However, reliable data sets are often missing, for example, if event streams and times series data are collected separately, in case of a new process, or if it is too expensive to obtain a sufficient data volume. Additional challenges arise with preparing time series data from multiple event sources, variations in data collection frequency, and concept drift. This paper proposes the GENLOG approach to generate reliable event and time series data that follows the distribution of the underlying input data set. GENLOG employs data resampling and enables the user to select different parts of the log data to orchestrate the training of a recurrent neural network for stream generation. The generated data is sampled back to its original sample rate and is embedded into a template representing the log data format it originated from. Overall, GENLOG can boost small data sets and consequently the application of online process mining.
翻訳日:2021-03-10 14:52:15 公開日:2021-03-09
# マルチモーダル特徴表現のための識別ベクトル枠組み

A Discriminative Vectorial Framework for Multi-modal Feature Representation ( http://arxiv.org/abs/2103.05597v1 )

ライセンス: Link先を確認
Lei Gao, and Ling Guan(参考訳) 感覚とコンピューティング技術の急速な進歩により、同じパターンや現象を表すマルチモーダルデータソースが注目を集めています。 その結果、これらのマルチモーダルデータソースから有用な情報を探索する手段が急速に求められている。 本稿では、マルチモーダルハッシュ(MH)と識別相関最大化(DCM)解析を用いて、知識発見におけるマルチモーダル特徴表現のための識別ベクトルフレームワークを提案する。 具体的には、MHにより異なるモダリティ間の意味的類似性を最小化し、DCM分析により複数のデータソースにまたがる固有識別表現を精度よく同定し、マルチモーダル特徴表現の新たなベクトル的フレームワークを実現する。 さらに,提案する特徴表現戦略を解析し,標準ケースと非標準ケースに基づいてさらに最適化する。 その結果、生成した特徴表現は、高品質な入力データソースを効果的に利用し、様々なアプリケーションで改善され、時には非常に印象的な結果をもたらす。 提案フレームワークの有効性と汎用性は,古典的特徴とディープニューラルネットワーク(DNN)に基づく特徴と,データ可視化,顔認識,オブジェクト認識,クロスモーダル(テキストイメージ)認識,音声感情認識など,画像およびマルチメディア分析および認識タスクへの応用によって実証される。 実験の結果,提案手法は最先端統計機械学習(SML)やDNNアルゴリズムよりも優れていることがわかった。

Due to the rapid advancements of sensory and computing technology, multi-modal data sources that represent the same pattern or phenomenon have attracted growing attention. As a result, finding means to explore useful information from these multi-modal data sources has quickly become a necessity. In this paper, a discriminative vectorial framework is proposed for multi-modal feature representation in knowledge discovery by employing multi-modal hashing (MH) and discriminative correlation maximization (DCM) analysis. Specifically, the proposed framework is capable of minimizing the semantic similarity among different modalities by MH and exacting intrinsic discriminative representations across multiple data sources by DCM analysis jointly, enabling a novel vectorial framework of multi-modal feature representation. Moreover, the proposed feature representation strategy is analyzed and further optimized based on canonical and non-canonical cases, respectively. Consequently, the generated feature representation leads to effective utilization of the input data sources of high quality, producing improved, sometimes quite impressive, results in various applications. The effectiveness and generality of the proposed framework are demonstrated by utilizing classical features and deep neural network (DNN) based features with applications to image and multimedia analysis and recognition tasks, including data visualization, face recognition, object recognition; cross-modal (text-image) recognition and audio emotion recognition. Experimental results show that the proposed solutions are superior to state-of-the-art statistical machine learning (SML) and DNN algorithms.
翻訳日:2021-03-10 14:51:56 公開日:2021-03-09
# 転送学習は二重日射正則化における真の優先度を上回る

Transfer Learning Can Outperform the True Prior in Double Descent Regularization ( http://arxiv.org/abs/2103.05621v1 )

ライセンス: Link先を確認
Yehuda Dar, Richard G. Baraniuk(参考訳) データサンプルよりも学習パラメータが多いオーバーパラメータ設定を含む、ソースからターゲットの線形回帰タスクへの基本的な転送学習プロセスを研究します。 目標タスク学習は、そのトレーニングデータと、ソースタスクのために予め計算されたパラメータを用いて対処される。 対象タスクを, to-be-learnedターゲットパラメータと既に学習済みソースパラメータ間の距離を正規化した線形回帰最適化として定義する。 このアプローチは、対象タスクの目的のために学習したソースパラメータを調整したものと解釈することもでき、十分に関連するタスクの場合、このプロセスは微調整と見なすことができる。 転送学習手法の一般化性能を解析的に解析し、最小二乗回帰に対するマイナスノルム解の二重降下現象における一般化誤差のピークを解く能力を示す。 さらに、十分関連するタスクに対して、真のパラメータベクトルが等方的ガウス分布に適合する場合でも、最適に調整された転送学習アプローチが最適に調整されたリッジ回帰法より優れていることを示す。 すなわち、転送学習が個々のターゲットタスクの最小平均平方誤差(MMSE)ソリューションを破ることができることを実証する。

We study a fundamental transfer learning process from source to target linear regression tasks, including overparameterized settings where there are more learned parameters than data samples. The target task learning is addressed by using its training data together with the parameters previously computed for the source task. We define the target task as a linear regression optimization with a regularization on the distance between the to-be-learned target parameters and the already-learned source parameters. This approach can be also interpreted as adjusting the previously learned source parameters for the purpose of the target task, and in the case of sufficiently related tasks this process can be perceived as fine tuning. We analytically characterize the generalization performance of our transfer learning approach and demonstrate its ability to resolve the peak in generalization errors in double descent phenomena of min-norm solutions to ordinary least squares regression. Moreover, we show that for sufficiently related tasks the optimally tuned transfer learning approach can outperform the optimally tuned ridge regression method, even when the true parameter vector conforms with isotropic Gaussian prior distribution. Namely, we demonstrate that transfer learning can beat the minimum mean square error (MMSE) solution of the individual target task.
翻訳日:2021-03-10 14:51:31 公開日:2021-03-09
# サービスロボットのためのスカベンジャーハント

A Scavenger Hunt for Service Robots ( http://arxiv.org/abs/2103.05225v1 )

ライセンス: Link先を確認
Harel Yedidsion, Jennifer Suriadinata, Zifan Xu, Stefan Debruyn, Peter Stone(参考訳) 人間人口の多い環境で汎用的なサービスタスクをこなせるロボットを作ることは、AIとロボティクス研究にとって長年大きな課題だった。 さまざまなタスクに関連する特に貴重なスキルの1つは、リクエストに応じてオブジェクトを見つけて取得する機能です。 本稿では,このスキルをScavenger Hunt (SH)ゲームとしてモデル化し,NP型確率的旅行購入問題の変種として定式化する。 この問題では、目的は、発見される可能性のある確率分布を考えると、できるだけ迅速にオブジェクトの集合を見つけることである。 シミュレーションと実際の移動ロボットにおけるSH問題に対するいくつかの解法アルゴリズムの性能について検討する。 Reinforcement Learning(RL)を使用してエージェントをトレーニングして最小限のコストパスを計画し、RLエージェントがさまざまなヒューリスティックアルゴリズムを上回り、最適なパフォーマンスを達成できることを示します。 そこで,本研究では,ロボットがダウンロードし,実行し,そこから学び,将来的なハントにおけるパフォーマンスを継続的に向上させることのできる,スキャベンジャーハントをアップロード可能な,公開可能なソフトウェアスタックと関連Webサイトを紹介した。

Creating robots that can perform general-purpose service tasks in a human-populated environment has been a longstanding grand challenge for AI and Robotics research. One particularly valuable skill that is relevant to a wide variety of tasks is the ability to locate and retrieve objects upon request. This paper models this skill as a Scavenger Hunt (SH) game, which we formulate as a variation of the NP-hard stochastic traveling purchaser problem. In this problem, the goal is to find a set of objects as quickly as possible, given probability distributions of where they may be found. We investigate the performance of several solution algorithms for the SH problem, both in simulation and on a real mobile robot. We use Reinforcement Learning (RL) to train an agent to plan a minimal cost path, and show that the RL agent can outperform a range of heuristic algorithms, achieving near optimal performance. In order to stimulate research on this problem, we introduce a publicly available software stack and associated website that enable users to upload scavenger hunts which robots can download, perform, and learn from to continually improve their performance on future hunts.
翻訳日:2021-03-10 14:51:09 公開日:2021-03-09
# 透過的なSwarm行動学習のためのモデルベースフレームワーク

A model-based framework for learning transparent swarm behaviors ( http://arxiv.org/abs/2103.05343v1 )

ライセンス: Link先を確認
Mario Coppola, Jian Guo, Eberhard Gill, Guido C. H. E. de Croon(参考訳) 本稿では,ロボット群に対する理解可能かつ検証可能な行動を自動的に設計するモデルベースフレームワークを提案する。 このフレームワークは、2つの異なるモデルの自動抽出に基づいている: 1) ロボットのセンサ読み込みとスワムのグローバルパフォーマンスの関係を推定するために訓練されたニューラルネットワークモデル、2) ポリシーが与えられたとき、局所状態遷移を明示的にモデル化する確率的状態遷移モデル(すなわち、swarm内の1つのロボットの観点から観察中の遷移)である。 モデルは、ランダムポリシーを特徴とするシミュレーション実行のデータセットからトレーニングすることができる。 第1のモデルは、グローバルパフォーマンスを最大化することが期待される一連のローカル状態を自動的に抽出するために使用される。 これらの地方州は所望の地方州と呼ばれる。 第2のモデルは、群れ内のロボットが所望の局所状態の1つを観察する確率を高めるために確率的政策を最適化するために使用されます。 これらの手順に従って,本論文で提案するフレームワークは,効率的なコントローラの実現に有効である。 これは4つのケーススタディでテストされ、アグリゲーションとフォージングタスクが特徴である。 重要なことに、このフレームワークはモデルのおかげで、Swarmの振る舞いを理解し、検査することができます。 そこで本研究では,swarmが望ましいグローバル目標を達成するのを妨げる可能性のある問題を特定するための検証チェックを提案する。 さらに、このフレームワークが「標準的な」進化型ロボティクス戦略(例えば、シミュレーションによってパフォーマンスを計測する)やオンライン学習と組み合わせてどのように使用できるかを検討する。

This paper proposes a model-based framework to automatically and efficiently design understandable and verifiable behaviors for swarms of robots. The framework is based on the automatic extraction of two distinct models: 1) a neural network model trained to estimate the relationship between the robots' sensor readings and the global performance of the swarm, and 2) a probabilistic state transition model that explicitly models the local state transitions (i.e., transitions in observations from the perspective of a single robot in the swarm) given a policy. The models can be trained from a data set of simulated runs featuring random policies. The first model is used to automatically extract a set of local states that are expected to maximize the global performance. These local states are referred to as desired local states. The second model is used to optimize a stochastic policy so as to increase the probability that the robots in the swarm observe one of the desired local states. Following these steps, the framework proposed in this paper can efficiently lead to effective controllers. This is tested on four case studies, featuring aggregation and foraging tasks. Importantly, thanks to the models, the framework allows us to understand and inspect a swarm's behavior. To this end, we propose verification checks to identify some potential issues that may prevent the swarm from achieving the desired global objective. In addition, we explore how the framework can be used in combination with a "standard" evolutionary robotics strategy (i.e., where performance is measured via simulation), or with online learning.
翻訳日:2021-03-10 14:50:49 公開日:2021-03-09
# I am Robot:機能的電気刺激によるヒト肢の活性化のための神経筋強化学習

I am Robot: Neuromuscular Reinforcement Learning to Actuate Human Limbs through Functional Electrical Stimulation ( http://arxiv.org/abs/2103.05349v1 )

ライセンス: Link先を確認
Nat Wannawas, Ali Shafti, A. Aldo Faisal(参考訳) 人間の運動障害や麻痺は、筋肉の活性化と運動制御の制御の喪失につながります。 機能電気刺激(FES)は筋肉の上の皮を刺激することによって筋肉を収縮させる確立された、安全な技術です。 しかし、FESを介して運動能力を人間の手足に復元する方法に関するオープンな課題は未だに残っており、刺激を制御する問題は不明である。 究極のヒューマノイドロボットである人体を電気筋肉刺激で制御するロボット学習アルゴリズムを開発することで、この問題をロボティクスの視点から捉えています。 人間の筋肉は疲労および他の内部状態の変更の結果として非定常である力の生産が原因でアクチュエーターとして制御することは自明ではないです広い操作範囲上のよく理解され、定常であるロボットアクチュエーターとは対照的に。 本研究では, 動的状態表現のための繰り返しニューラルネットワークを用いて, 外部刺激下でのヒト筋の挙動の観察不能な要素を克服するために, 筋のfes制御に対する深層強化学習アプローチを提案する。 本技術は神経筋シミュレーションでも人体でも実験的に実証する。 以上の結果から,本制御器は筋力操作を学習でき,与えられた課題を達成するために適切なレベルの刺激を施し,作業中に生じる筋疲労の進行を補償できることがわかった。 さらに、私たちのテクニックは、実世界のヒューマンインザループ設定で実装できるほど迅速に学習できます。

Human movement disorders or paralysis lead to the loss of control of muscle activation and thus motor control. Functional Electrical Stimulation (FES) is an established and safe technique for contracting muscles by stimulating the skin above a muscle to induce its contraction. However, an open challenge remains on how to restore motor abilities to human limbs through FES, as the problem of controlling the stimulation is unclear. We are taking a robotics perspective on this problem, by developing robot learning algorithms that control the ultimate humanoid robot, the human body, through electrical muscle stimulation. Human muscles are not trivial to control as actuators due to their force production being non-stationary as a result of fatigue and other internal state changes, in contrast to robot actuators which are well-understood and stationary over broad operation ranges. We present our Deep Reinforcement Learning approach to the control of human muscles with FES, using a recurrent neural network for dynamic state representation, to overcome the unobserved elements of the behaviour of human muscles under external stimulation. We demonstrate our technique both in neuromuscular simulations but also experimentally on a human. Our results show that our controller can learn to manipulate human muscles, applying appropriate levels of stimulation to achieve the given tasks while compensating for advancing muscle fatigue which arises throughout the tasks. Additionally, our technique can learn quickly enough to be implemented in real-world human-in-the-loop settings.
翻訳日:2021-03-10 14:50:24 公開日:2021-03-09
# 人工知能が嘘をつくのはいつですか? 信頼に基づくアプローチ

When is it permissible for artificial intelligence to lie? A trust-based approach ( http://arxiv.org/abs/2103.05434v1 )

ライセンス: Link先を確認
Tae Wan Kim, Tong (Joy) Lu, Kyusong Lee, Zhaoqi Cheng, Yanhan Tang, and John Hooker(参考訳) 産業環境で使用される会話人工知能(AI)は、嘘や騙しなど人間の振る舞いを忠実に模倣するように訓練することができる。 しかし、しばしば嘘は交渉の必要不可欠な部分である。 これを解決するために、特定のシナリオに「信頼の招待」と呼ばれるものが存在するかどうかに基づいて、会話型AIが人間に嘘をつくことが倫理的または非倫理的である場合の規範的枠組みを開発する。 重要なことは、文化規範は交渉設定に信頼の招待があるかどうかを決定する上で重要な役割を果たすため、ある文化で訓練されたAIは、他の文化に一般化できないかもしれない。 さらに、個人は、人間とAI交渉者に嘘をつくための信頼と傾向の招待に関して異なる期待を持っている可能性があり、これらの期待は文化にも異なる可能性があります。 最後に、対話型チャットボットを大規模ダイアログや交渉データセットに自動回帰モデルを適用することで、倫理的に交渉できるようにトレーニングする方法を概説します。

Conversational Artificial Intelligence (AI) used in industry settings can be trained to closely mimic human behaviors, including lying and deception. However, lying is often a necessary part of negotiation. To address this, we develop a normative framework for when it is ethical or unethical for a conversational AI to lie to humans, based on whether there is what we call "invitation of trust" in a particular scenario. Importantly, cultural norms play an important role in determining whether there is invitation of trust across negotiation settings, and thus an AI trained in one culture may not be generalizable to others. Moreover, individuals may have different expectations regarding the invitation of trust and propensity to lie for human vs. AI negotiators, and these expectations may vary across cultures as well. Finally, we outline how a conversational chatbot can be trained to negotiate ethically by applying autoregressive models to large dialog and negotiations datasets.
翻訳日:2021-03-10 14:50:01 公開日:2021-03-09
# 確率非線形モデル予測制御のためのガウス過程と多項式カオス展開の組み合わせ

Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control ( http://arxiv.org/abs/2103.05441v1 )

ライセンス: Link先を確認
E. Bradford and L. Imsland(参考訳) モデル予測制御は、制約のある多変数システムに対する高度な制御アプローチであり、正確な動的モデルに依存する。 しかし、ほとんどの実際の動的モデルは不確実性に影響され、クローズドループのパフォーマンス低下と制約違反につながる可能性がある。 本稿では,最適制御問題の時間不変確率的不確かさを明示的に考慮する新しいアルゴリズムを提案する。 非線形関数による確率変数の伝播の難しさは、ガウス過程と多項式カオス展開を組み合わせることで解決される。 本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。 このアルゴリズムを用いて、最適制御問題に対する確率制約と確率的目的の両方を定式化する方法を示す。 バッチリアクターケーススタディでは、まず、必要な確率分布を正確に近似する新しいアプローチの能力を検証します。 次に,モンテカルロシミュレーションによる閉ループ性能を実証する経済的な目的から,確率的非線形モデル予測制御手法を定式化した。

Model predictive control is an advanced control approach for multivariable systems with constraints, which is reliant on an accurate dynamic model. Most real dynamic models are however affected by uncertainties, which can lead to closed-loop performance deterioration and constraint violations. In this paper we introduce a new algorithm to explicitly consider time-invariant stochastic uncertainties in optimal control problems. The difficulty of propagating stochastic variables through nonlinear functions is dealt with by combining Gaussian processes with polynomial chaos expansions. The main novelty in this paper is to use this combination in an efficient fashion to obtain mean and variance estimates of nonlinear transformations. Using this algorithm, it is shown how to formulate both chance-constraints and a probabilistic objective for the optimal control problem. On a batch reactor case study we firstly verify the ability of the new approach to accurately approximate the probability distributions required. Secondly, a tractable stochastic nonlinear model predictive control approach is formulated with an economic objective to demonstrate the closed-loop performance of the method via Monte Carlo simulations.
翻訳日:2021-03-10 14:48:59 公開日:2021-03-09
# ユニバーサルアンダーサンプルMRI再構成

Universal Undersampled MRI Reconstruction ( http://arxiv.org/abs/2103.05214v1 )

ライセンス: Link先を確認
Xinwen Liu, Jing Wang, Feng Liu, and S.Kevin Zhou(参考訳) 深部ニューラルネットワークは、下検体MRI再建のために広く研究されている。 最先端のパフォーマンスを達成する一方で、特定の解剖学を訓練し、他の解剖学に限定した一般化能力を持つ解剖学に展開する。 複数のモデルを構築するのではなく、異なる解剖学の画像を再構築する普遍的なモデルは、効率的な展開とより良い一般化のために非常に望ましいです。 単一のネットワークをトレーニングするための複数の解剖学からの画像を単純に混合することは、さまざまな解剖学のデータセット間の統計的シフト、新しいデータセットの追加によるすべてのデータセットのスクラッチから再トレーニングの必要性、新しいデータセットがさらに小さなサイズである場合に不均衡なサンプリングを扱うことの難しさによる理想的な普遍モデルにつながることはない。 本論文では,下検体MRI再構成のための普遍的深部ニューラルネットワークを学習する枠組みを初めて提案する。 具体的には、統計シフトを補償し、新しいデータセットに容易に一般化できる解剖学的特異なインスタンス正規化を提案する。 さらに、普遍モデルは、利用可能な独立したモデルから知識を蒸留し、解剖学的にまたがる表現をさらに活用することで訓練される。 実験の結果, 提案するユニバーサルモデルは, 高画質で脳と膝の画像を再構成できることがわかった。 また、トレーニングされたモデルをより小さなサイズ、すなわち腹部、心臓、前立腺といった新しいデータセットに、少ない努力と優れたパフォーマンスで適応することは容易である。

Deep neural networks have been extensively studied for undersampled MRI reconstruction. While achieving state-of-the-art performance, they are trained and deployed specifically for one anatomy with limited generalization ability to another anatomy. Rather than building multiple models, a universal model that reconstructs images across different anatomies is highly desirable for efficient deployment and better generalization. Simply mixing images from multiple anatomies for training a single network does not lead to an ideal universal model due to the statistical shift among datasets of various anatomies, the need to retrain from scratch on all datasets with the addition of a new dataset, and the difficulty in dealing with imbalanced sampling when the new dataset is further of a smaller size. In this paper, for the first time, we propose a framework to learn a universal deep neural network for undersampled MRI reconstruction. Specifically, anatomy-specific instance normalization is proposed to compensate for statistical shift and allow easy generalization to new datasets. Moreover, the universal model is trained by distilling knowledge from available independent models to further exploit representations across anatomies. Experimental results show the proposed universal model can reconstruct both brain and knee images with high image quality. Also, it is easy to adapt the trained model to new datasets of smaller size, i.e., abdomen, cardiac and prostate, with little effort and superior performance.
翻訳日:2021-03-10 14:48:14 公開日:2021-03-09
# 2Dヒストロジーと3Dトポロジー--グラフニューラルネットワークを用いた細胞構造的脳マッピング

2D histology meets 3D topology: Cytoarchitectonic brain mapping with Graph Neural Networks ( http://arxiv.org/abs/2103.05259v1 )

ライセンス: Link先を確認
Christian Schiffer, Stefan Harmeling, Katrin Amunts, Timo Dickscheid(参考訳) 細胞アーキテクチャ(Cytoarchitecture)は、脳内の神経細胞の空間構成を記述し、細胞密度、オリエンテーション、または特定の細胞型の存在に関する層および列の配置を含む。 これは、脳を皮質領域および皮質核に分離し、構造を接続性と機能と結びつけ、人間の脳のアトラスの微細構造参照を提供する。 領域間の領域のマッピングは、顕微鏡で組織学的領域をスキャンする必要がある。 最近の高スループットスキャナは人間の脳全体を1年単位でスキャンできるが、確立された金標準法を用いて同じペースで領域を並べ替えることは事実上不可能である。 研究者は最近、個々の2Dセクションのイメージパッチに頼って、深層ニューラルネットワークを用いた皮質領域の細胞構造的マッピングに取り組みました。 しかし、複雑または斜めに切断された脳領域を曖昧にするために必要な3Dコンテキストは考慮されません。 本研究では,2次元ヒストロジーと3次元トポロジーを結合し,等角線を経由する近似3次元中面メッシュ上のノード分類問題としてマッピングタスクを再構成する。 細胞構造を記述した2次元組織学セクションの皮質パッチから深い特徴を抽出し,それを3次元メッシュ上の対応するノードに割り当て,大きな帰結グラフを構築する。 このグラフ上の脳マッピング問題をグラフニューラルネットワークで解くことで、分類結果を大幅に改善しました。 提案されたフレームワークは、マッピングのための追加の神経解剖学の優先順位の統合にうまく機能する。

Cytoarchitecture describes the spatial organization of neuronal cells in the brain, including their arrangement into layers and columns with respect to cell density, orientation, or presence of certain cell types. It allows to segregate the brain into cortical areas and subcortical nuclei, links structure with connectivity and function, and provides a microstructural reference for human brain atlases. Mapping boundaries between areas requires to scan histological sections at microscopic resolution. While recent high-throughput scanners allow to scan a complete human brain in the order of a year, it is practically impossible to delineate regions at the same pace using the established gold standard method. Researchers have recently addressed cytoarchitectonic mapping of cortical regions with deep neural networks, relying on image patches from individual 2D sections for classification. However, the 3D context, which is needed to disambiguate complex or obliquely cut brain regions, is not taken into account. In this work, we combine 2D histology with 3D topology by reformulating the mapping task as a node classification problem on an approximate 3D midsurface mesh through the isocortex. We extract deep features from cortical patches in 2D histological sections which are descriptive of cytoarchitecture, and assign them to the corresponding nodes on the 3D mesh to construct a large attributed graph. By solving the brain mapping problem on this graph using graph neural networks, we obtain significantly improved classification results. The proposed framework lends itself nicely to integration of additional neuroanatomical priors for mapping.
翻訳日:2021-03-10 14:47:52 公開日:2021-03-09
# MWQ:マルチスケールウェーブレット量子化ニューラルネットワーク

MWQ: Multiscale Wavelet Quantized Neural Networks ( http://arxiv.org/abs/2103.05363v1 )

ライセンス: Link先を確認
Qigong Sun, Yan Ren, Licheng Jiao, Xiufang Li, Fanhua Shang, Fang Liu(参考訳) モデル量子化はモデルサイズと計算遅延を低減し、リソース制約のあるハードウェア(携帯電話や組み込みデバイスなど)にディープニューラルネットワークを配置する上で重要な技術となっている。 既存の量子化法は主に重みとアクティベーション値の数値要素を考慮し、要素間の関係を無視している。 表現能力の低下と情報損失は通常、パフォーマンスの低下につながります。 周波数領域における画像の特性にインスパイアされた,新しいマルチスケールウェーブレット量子化(MWQ)法を提案する。 この方法はウェーブレット変換により元のデータをマルチスケールの周波数成分に分解し,それぞれ異なるスケールの成分を定量化する。 空間領域における量子化による情報損失を軽減するために、マルチスケールの周波数と空間情報を利用する。 MWQの柔軟性により、ImageNetおよびCOCOデータセットの3つのアプリケーション(モデル圧縮、量子化されたネットワーク最適化、情報強化など)を実証しています。 実験の結果,提案手法は表現能力が強く,量子化ニューラルネットワークにおいて有効に機能することが示された。

Model quantization can reduce the model size and computational latency, it has become an essential technique for the deployment of deep neural networks on resourceconstrained hardware (e.g., mobile phones and embedded devices). The existing quantization methods mainly consider the numerical elements of the weights and activation values, ignoring the relationship between elements. The decline of representation ability and information loss usually lead to the performance degradation. Inspired by the characteristics of images in the frequency domain, we propose a novel multiscale wavelet quantization (MWQ) method. This method decomposes original data into multiscale frequency components by wavelet transform, and then quantizes the components of different scales, respectively. It exploits the multiscale frequency and spatial information to alleviate the information loss caused by quantization in the spatial domain. Because of the flexibility of MWQ, we demonstrate three applications (e.g., model compression, quantized network optimization, and information enhancement) on the ImageNet and COCO datasets. Experimental results show that our method has stronger representation ability and can play an effective role in quantized neural networks.
翻訳日:2021-03-10 14:47:26 公開日:2021-03-09
# バイオメディカルイメージングにおける深部・統計的学習 : 3次元MRI脳腫瘍分離術の現状

Deep and Statistical Learning in Biomedical Imaging: State of the Art in 3D MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2103.05529v1 )

ライセンス: Link先を確認
K. Ruwani M. Fernando and Chris P. Tsokos(参考訳) 臨床診断と治療の決定は、患者固有のデータと臨床推論の統合に依存する。 がんは、疾患の進化の多様な形態を考えると、治療決定に影響を与える独自の文脈を示す。 バイオメディカルイメージングは、より良い臨床結果予測と治療計画につながる視覚評価に基づく疾患の非侵襲的評価を可能にする。 初期の脳癌の診断方法は、主に神経画像データの統計モデルに依存していた。 コンピュータビジョンのブレークスルーによって駆動されるディープラーニングは、医療画像の領域における事実上の標準となった。 近年,医学・統計・人工知能における多分野の知識を統一する医療実践の自動化の新たな方向として,総合統計・深層学習法が登場している。 本研究では,MRIを用いた脳腫瘍のセグメント化に着目し,統計・深層学習モデルとその脳画像研究への応用を批判的にレビューする。 その結果、モデル駆動の古典統計とデータ駆動のディープラーニングは、臨床腫瘍学における自動化システムを開発するための強力な組み合わせであることを強調した。

Clinical diagnostic and treatment decisions rely upon the integration of patient-specific data with clinical reasoning. Cancer presents a unique context that influence treatment decisions, given its diverse forms of disease evolution. Biomedical imaging allows noninvasive assessment of disease based on visual evaluations leading to better clinical outcome prediction and therapeutic planning. Early methods of brain cancer characterization predominantly relied upon statistical modeling of neuroimaging data. Driven by the breakthroughs in computer vision, deep learning became the de facto standard in the domain of medical imaging. Integrated statistical and deep learning methods have recently emerged as a new direction in the automation of the medical practice unifying multi-disciplinary knowledge in medicine, statistics, and artificial intelligence. In this study, we critically review major statistical and deep learning models and their applications in brain imaging research with a focus on MRI-based brain tumor segmentation. The results do highlight that model-driven classical statistics and data-driven deep learning is a potent combination for developing automated systems in clinical oncology.
翻訳日:2021-03-10 14:46:41 公開日:2021-03-09
# CTによるマルチクラスCOVID-19セグメンテーションのための4重強化ピラミッドネットワーク

Quadruple Augmented Pyramid Network for Multi-class COVID-19 Segmentation via CT ( http://arxiv.org/abs/2103.05546v1 )

ライセンス: Link先を確認
Ziyang Wang(参考訳) 新型コロナウイルス(COVID-19)は、世界で最も深刻な感染症の1つとなっています。 胸部CTは予後, この疾患の診断, 合併症の診断に必須である。 本稿では,放射線科医が肺の容積を推定するためのマルチクラスctセグメンテーションを提案する。 4つのピラミッドネットワークをエンコーダデコーダセグメンテーションフレームワークで利用した。 QAP-Net(Quadruple Augmented Pyramid Network)は、CT画像の変動サイズからCNNをキャプチャできるだけでなく、空間的相互接続やダウンサンプリングとして機能し、セマンティックセグメンテーションに十分な特徴情報を伝達する。 実験結果から,他の最先端手法よりも優れたDice 0.8163のセグメンテーションの競争性能が得られ,このフレームワークは,ガラスや接地部などのセグメンテーションのセグメンテーションを効率よく精度良く行うことができることを示した。

COVID-19, a new strain of coronavirus disease, has been one of the most serious and infectious disease in the world. Chest CT is essential in prognostication, diagnosing this disease, and assessing the complication. In this paper, a multi-class COVID-19 CT segmentation is proposed aiming at helping radiologists estimate the extent of effected lung volume. We utilized four augmented pyramid networks on an encoder-decoder segmentation framework. Quadruple Augmented Pyramid Network (QAP-Net) not only enable CNN capture features from variation size of CT images, but also act as spatial interconnections and down-sampling to transfer sufficient feature information for semantic segmentation. Experimental results achieve competitive performance in segmentation with the Dice of 0.8163, which outperforms other state-of-the-art methods, demonstrating the proposed framework can segments of consolidation as well as glass, ground area via COVID-19 chest CT efficiently and accurately.
翻訳日:2021-03-10 14:46:28 公開日:2021-03-09
# スクラッチからサッカーを学ぶ:カリキュラム学習と競争による有効創発的コーディネーション

Learning to Play Soccer From Scratch: Sample-Efficient Emergent Coordination through Curriculum-Learning and Competition ( http://arxiv.org/abs/2103.05174v1 )

ライセンス: Link先を確認
Pavan Samtani, Francisco Leiva, Javier Ruiz-del-Solar(参考訳) 本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。 この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。 各プレイヤーのポリシーを分散的に学習するためのTD3の基本的なマルチエージェント拡張を提案する。 学習を容易にするため、2v2サッカーの課題は1v0、1v1、2v2の3段階に分けられる。 多エージェント段階(1v1と2v2)での学習プロセスでは、前段階で訓練されたエージェントを固定的な相手として使用する。 また,現在学習中のエージェントをトレーニングするために,前段階からトレーニングを受けた固定相手からの体験を共有する方法であるexperience sharingと,フレームスキップ方式を用いることにより,パフォーマンスを著しく向上させる。 この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。 ゲームプレイの要約ビデオはhttps://youtu.be/f25l1j1U9RMで見ることができる。

This work proposes a scheme that allows learning complex multi-agent behaviors in a sample efficient manner, applied to 2v2 soccer. The problem is formulated as a Markov game, and solved using deep reinforcement learning. We propose a basic multi-agent extension of TD3 for learning the policy of each player, in a decentralized manner. To ease learning, the task of 2v2 soccer is divided in three stages: 1v0, 1v1 and 2v2. The process of learning in multi-agent stages (1v1 and 2v2) uses agents trained on a previous stage as fixed opponents. In addition, we propose using experience sharing, a method that shares experience from a fixed opponent, trained in a previous stage, for training the agent currently learning, and a form of frame-skipping, to raise performance significantly. Our results show that high quality soccer play can be obtained with our approach in just under 40M interactions. A summarized video of the resulting game play can be found in https://youtu.be/f25l1j1U9RM.
翻訳日:2021-03-10 14:45:30 公開日:2021-03-09
# 分散クラウドアプリケーションにおける依存関係の学習と異常の特定とローカライズ

Learning Dependencies in Distributed Cloud Applications to Identify and Localize Anomalies ( http://arxiv.org/abs/2103.05245v1 )

ライセンス: Link先を確認
Dominik Scheinert, Alexander Acker, Lauritz Thamsen, Morgan K. Geldenhuys, Odej Kao(参考訳) 大規模な分散クラウドアプリケーションの運用とメンテナンスは、すぐに管理不能に複雑になり、問題が発生したときに人間のオペレータが大きなストレスにさらされます。 このようなシステムにおける異常の識別と局在化に機械学習を利用することは、人間の専門家をサポートし、迅速な緩和を可能にします。 しかしながら、システムコンポーネントのさまざまな相互依存のため、異常はその起源に影響を与えるだけでなく、分散システムを通じて伝播する。 そこで本研究では,システムコンポーネントをノードとしてモデル化し,その依存関係と配置をエッジとしてモデル化し,異常の識別と局在性を改善するニューラルネットワーク変換手法であるArvalusとその変種であるD-Arvalusを提案する。 一連のメトリクスKPIを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。 実験では、分散クラウドアプリケーションのデプロイをシミュレートし、異常を合成的に注入する。 この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。

Operation and maintenance of large distributed cloud applications can quickly become unmanageably complex, putting human operators under immense stress when problems occur. Utilizing machine learning for identification and localization of anomalies in such systems supports human experts and enables fast mitigation. However, due to the various inter-dependencies of system components, anomalies do not only affect their origin but propagate through the distributed system. Taking this into account, we present Arvalus and its variant D-Arvalus, a neural graph transformation method that models system components as nodes and their dependencies and placement as edges to improve the identification and localization of anomalies. Given a series of metric KPIs, our method predicts the most likely system state - either normal or an anomaly class - and performs localization when an anomaly is detected. During our experiments, we simulate a distributed cloud application deployment and synthetically inject anomalies. The evaluation shows the generally good prediction performance of Arvalus and reveals the advantage of D-Arvalus which incorporates information about system component dependencies.
翻訳日:2021-03-10 14:45:12 公開日:2021-03-09
# 長軸ロボットマニピュレーションの延長課題と運動計画

Extended Task and Motion Planning of Long-horizon Robot Manipulation ( http://arxiv.org/abs/2103.05456v1 )

ライセンス: Link先を確認
Tianyu Ren, Georgia Chalvatzaki, Jan Peters(参考訳) タスク・アンド・モーション・プランニング(TAMP)は、ロボットの行動の幾何学的実現可能性を説明するメートル法運動計画とシンボリック・推論の統合を必要とする。 この階層構造は必然的に象徴的なプランナーが環境の低レベルの幾何学的記述にアクセスすることを防ぎ、問題の解決に不可欠である。 ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。 代替のハイレベルなプランを考案できないことは、既存のプランナーを行き詰まりに導く。 本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。 我々は,骨格計画立案者が様々な候補骨格計画を生成する明示的な骨格空間を構築するためのトップk計画を統合する。 さらに、このスケルトン空間と結果の運動パラメータ空間を1つの拡張決定空間に効果的に結合する。 そこで我々はモンテカルロ木探索 (mcts) を用いて各決定ノードの探索・探索バランスを確保し, 最小コストのソリューションをグローバルに最適化する。 シンボリックトップk計画とストリームのシームレスな組み合わせは、mctsの最適性が証明され、長いホリゾン操作タスクの組合せ複雑性を処理できる強力な計画アルゴリズムへと導かれる。 複数段階の意思決定を必要とする異なる領域の操作タスクに挑戦するアルゴリズムを実証的に評価し、最も競争の激しいベースライン手法と比較して、効果的な代替計画によってデッドエンドを克服する方法を示します。

Task and Motion Planning (TAMP) requires the integration of symbolic reasoning with metric motion planning that accounts for the robot's actions' geometric feasibility. This hierarchical structure inevitably prevents the symbolic planners from accessing the environment's low-level geometric description, vital to the problem's solution. Most TAMP approaches fail to provide feasible solutions when there is missing knowledge about the environment at the symbolic level. The incapability of devising alternative high-level plans leads existing planners to a dead end. We propose a novel approach for decision-making on extended decision spaces over plan skeletons and action parameters. We integrate top-k planning for constructing an explicit skeleton space, where a skeleton planner generates a variety of candidate skeleton plans. Moreover, we effectively combine this skeleton space with the resultant motion parameter spaces into a single extended decision space. Accordingly, we use Monte-Carlo Tree Search (MCTS) to ensure an exploration-exploitation balance at each decision node and optimize globally to produce minimum-cost solutions. The proposed seamless combination of symbolic top-k planning with streams, with the proved optimality of MCTS, leads to a powerful planning algorithm that can handle the combinatorial complexity of long-horizon manipulation tasks. We empirically evaluate our proposed algorithm in challenging manipulation tasks with different domains that require multi-stage decisions and show how our method can overcome dead-ends through its effective alternate plans compared to its most competitive baseline method.
翻訳日:2021-03-10 14:44:54 公開日:2021-03-09
# 強みと弱みの異なる学習モデルの統合による記号統合

Symbolic integration by integrating learning models with different strengths and weaknesses ( http://arxiv.org/abs/2103.05497v1 )

ライセンス: Link先を確認
Hazumi Kubota, Yuta Tokuoka, Takahiro G. Yamada and Akira Funahashi(参考訳) 積分は、数学だけでなく、他の幅広い分野においても不可欠である。 深層学習法が最近開発され,これまでコンピュータに組み込まれていなかった数学的関数を統合できることが示されている。 しかし、この方法は統合を自然言語翻訳と同等のものとして扱い、数学的情報を反映しない。 本研究では,数理情報を考慮した学習モデルを調整し,数値演算の順序をより堅牢に学習する幅広い学習モデルを開発した。 この方法では、98.80%の正答率とシンボリック統合を達成し、既存の方法よりも高い率できました。 プリミティブ関数の微分が積分と一致しているかに基づいて積分の正しさを判定した。 この戦略に基づく統合モデルを構築することで、シンボリック統合による正解率99.79%を達成した。

Integration is indispensable, not only in mathematics, but also in a wide range of other fields. A deep learning method has recently been developed and shown to be capable of integrating mathematical functions that could not previously be integrated on a computer. However, that method treats integration as equivalent to natural language translation and does not reflect mathematical information. In this study, we adjusted the learning model to take mathematical information into account and developed a wide range of learning models that learn the order of numerical operations more robustly. In this way, we achieved a 98.80% correct answer rate with symbolic integration, a higher rate than that of any existing method. We judged the correctness of the integration based on whether the derivative of the primitive function was consistent with the integrand. By building an integrated model based on this strategy, we achieved a 99.79% rate of correct answers with symbolic integration.
翻訳日:2021-03-10 14:44:26 公開日:2021-03-09
# 効率的な収縮経路:最小MSEリスクの最大可能性

The Efficient Shrinkage Path: Maximum Likelihood of Minimum MSE Risk ( http://arxiv.org/abs/2103.05161v1 )

ライセンス: Link先を確認
Robert L. Obenchain(参考訳) 正規分布理論の下での最適分散バイアストレードオフとなる回帰係数推定器のベクトルを通らなければならないという制限の下で可能な限り短い新しい一般化リッジ回帰収縮経路を提案する。 この効率的な経路のための5つの異なるリッジTRACEディスプレイと他のグラフィックがモチベーションされ、ここで説明されている。 これらの視覚化は、不適切なデータに線形モデルを適用する研究者やデータサイエンティストに、貴重なデータ分析の洞察を与え、自信を高める。

A new generalized ridge regression shrinkage path is proposed that is as short as possible under the restriction that it must pass through the vector of regression coefficient estimators that make the overall Optimal Variance-Bias Trade-Off under Normal distribution-theory. Five distinct types of ridge TRACE displays and other graphics for this efficient path are motivated and illustrated here. These visualizations provide invaluable data-analytic insights and improved self-confidence to researchers and data scientists fitting linear models to ill-conditioned (confounded) data.
翻訳日:2021-03-10 14:44:13 公開日:2021-03-09
# 自励・抑制を伴うホークス過程の最大確率推定

Maximum Likelihood Estimation for Hawkes Processes with self-excitation or inhibition ( http://arxiv.org/abs/2103.05299v1 )

ライセンス: Link先を確認
Anna Bonnet (LPSM), Miguel Herrera (LPSM), Maxime Sangnier (LPSM)(参考訳) 本稿では,単変量ホークス過程のパラメータを自己励磁や抑制によって推定する最大推定法を提案する。 我々の研究は、自己励ましのシナリオに制限されたテクニックと結果を一般化する。 提案手法は,古典的指数関数カーネルに対して実装され,抑制条件下では,現在の代替手法よりも高精度な推定が可能であることを示す。

In this paper, we present a maximum likelihood method for estimating the parameters of a univariate Hawkes process with self-excitation or inhibition. Our work generalizes techniques and results that were restricted to the self-exciting scenario. The proposed estimator is implemented for the classical exponential kernel and we show that, in the inhibition context, our procedure provides more accurate estimations than current alternative approaches.
翻訳日:2021-03-10 14:44:04 公開日:2021-03-09
# 教師なし機械学習によるコロナ加熱の探索

Exploring Coronal Heating Using Unsupervised Machine-Learning ( http://arxiv.org/abs/2103.05371v1 )

ライセンス: Link先を確認
Shabbir Bawaji, Ujjaini Alam, Surajit Mondal and Divya Oberoi(参考訳) 太陽の可視円盤がわずか5800 Kである一方で、太陽の冠状温度を約100万Kに保つかという複雑な謎は、太陽物理学において長年の課題となっています。 モンダル(2020)による最近の研究は、この謎を解決するための鍵を握ることができる静かな太陽地域からの低い無線周波数で多数のユビキタス衝動放射の存在の最初の証拠を提供しました。 これらの特徴は、毎分約500イベントの割合で発生し、その強度はバックグラウンドの安定した放出のわずか数パーセントです。 冠状加熱問題に対するこの解決の可能性を探る次のステップの1つは、これらの放出の形態を理解することです。 この目的を達成するため,我々は,これらの衝撃的排出の形態を特徴付けるための教師なし機械学習手法に基づく手法を開発した。 そこで本研究では,70分間のデータにまたがる8000以上の画像に対して,約34,500個の特徴を2次元楕円ガウスとしてロバストに表現した。

The perplexing mystery of what maintains the solar coronal temperature at about a million K, while the visible disc of the Sun is only at 5800 K, has been a long standing problem in solar physics. A recent study by Mondal(2020) has provided the first evidence for the presence of numerous ubiquitous impulsive emissions at low radio frequencies from the quiet sun regions, which could hold the key to solving this mystery. These features occur at rates of about five hundred events per minute, and their strength is only a few percent of the background steady emission. One of the next steps for exploring the feasibility of this resolution to the coronal heating problem is to understand the morphology of these emissions. To meet this objective we have developed a technique based on an unsupervised machine learning approach for characterising the morphology of these impulsive emissions. Here we present the results of application of this technique to over 8000 images spanning 70 minutes of data in which about 34,500 features could robustly be characterised as 2D elliptical Gaussians.
翻訳日:2021-03-10 14:43:57 公開日:2021-03-09
# GAN Vocoder: マルチリゾリューション判別器は必要なすべてです。

GAN Vocoder: Multi-Resolution Discriminator Is All You Need ( http://arxiv.org/abs/2103.05236v1 )

ライセンス: Link先を確認
Jaeseong You, Dalhyun Kim, Gyuhyeon Nam, Geumbyeol Hwang, Gyeongsu Chae(参考訳) 最新のGANベースのボコーダのいくつかは、高速なオーダーを合成しながら、定性的かつ定量的に自己回帰的かつフローベースの競合よりも優れたパフォーマンスを発揮している。 本研究では, アーキテクチャ, 損失関数, トレーニング戦略の微妙な詳細ではなく, マルチレゾリューション・差別化フレームワークが成功の根底にある共通の要因である,という仮説を立てる。 1つの共有マルチレゾリューション識別フレームワークとペアリングした6つの異なるジェネレータを評価して仮説を実験的に検証した。 テキスト音声合成およびすべての知覚的指標に関するすべての評価尺度において、それらの性能は、我々の仮説を支持する互いに区別できない。

Several of the latest GAN-based vocoders show remarkable achievements, outperforming autoregressive and flow-based competitors in both qualitative and quantitative measures while synthesizing orders of magnitude faster. In this work, we hypothesize that the common factor underlying their success is the multi-resolution discriminating framework, not the minute details in architecture, loss function, or training strategy. We experimentally test the hypothesis by evaluating six different generators paired with one shared multi-resolution discriminating framework. For all evaluative measures with respect to text-to-speech syntheses and for all perceptual metrics, their performances are not distinguishable from one another, which supports our hypothesis.
翻訳日:2021-03-10 14:43:22 公開日:2021-03-09
# Androidマルウェア防御のためのディープラーニング:システム文学のレビュー

Deep Learning for Android Malware Defenses: a Systematic Literature Review ( http://arxiv.org/abs/2103.05292v1 )

ライセンス: Link先を確認
Yue Liu, Chakkrit Tantithamthavorn, Li Li and Yepang Liu(参考訳) 悪意のあるアプリケーション(特にAndroidプラットフォーム)は、開発者やエンドユーザにとって深刻な脅威です。 そのため、多くの研究がAndroidマルウェアを保護する効果的なアプローチの開発に費やされている。 しかし、Androidマルウェアの爆発的な成長と難読化やリフレクションのような悪意ある回避技術の継続的な進歩により、手動のルールや従来の機械学習に基づくアンドロイドマルウェアの防御は、アプリオリの知識が限られているため効果がない可能性がある。 近年,強力な機能抽象化能力を持つディープラーニング(DL)の研究分野が,自然言語処理や画像処理など,様々な分野で有望かつ有望なパフォーマンスを示している。 この目的のために,Androidマルウェアの攻撃を防ぐためのディープラーニング技術が最近注目されている。 しかし、Androidマルウェア防御のためのディープラーニングアプローチに焦点を当てた体系的な文献レビューはありません。 本稿では,android環境におけるマルウェア防衛の文脈において,ディープラーニングアプローチがどのように適用されてきたのかを探索し,分析するための体系的文献レビューを行った。 その結果、2014-2020年の期間に合計104の研究が特定された。 調査の結果,これらの研究の多くはAndroidのマルウェア検出に基づくDLを主に検討しているが,35の初等研究 (33.7 %) は,他のシナリオに基づく防御アプローチを設計している。 本レビューでは,dlベースのandroidマルウェア防御における研究動向,研究焦点,課題,今後の研究方向についても述べる。

Malicious applications (especially in the Android platform) are a serious threat to developers and end-users. Many research efforts have hence been devoted to developing effective approaches to defend Android malware. However, with the explosive growth of Android malware and the continuous advancement of malicious evasion technologies like obfuscation and reflection, android malware defenses based on manual rules or traditional machine learning may not be effective due to limited apriori knowledge. In recent years, a dominant research field of deep learning (DL) with the powerful feature abstraction ability has demonstrated a compelling and promising performance in various fields, like Nature Language processing and image processing. To this end, employing deep learning techniques to thwart the attack of Android malware has recently gained considerable research attention. Yet, there exists no systematic literature review that focuses on deep learning approaches for Android Malware defenses. In this paper, we conducted a systematic literature review to search and analyze how deep learning approaches have been applied in the context of malware defenses in the Android environment. As a result, a total of 104 studies were identified over the period 2014-2020. The results of our investigation show that even though most of these studies still mainly consider DL-based on Android malware detection, 35 primary studies (33.7\%) design the defenses approaches based on other scenarios. This review also describes research trends, research focuses, challenges, and future research directions in DL-based Android malware defenses.
翻訳日:2021-03-10 14:43:09 公開日:2021-03-09
# スパースCCAを用いた乳癌生存予測のためのマルチモーダル融合

Multimodal fusion using sparse CCA for breast cancer survival prediction ( http://arxiv.org/abs/2103.05432v1 )

ライセンス: Link先を確認
Vaishnavi Subramanian, Tanveer Syeda-Mahmood, Minh N. Do(参考訳) がんなどの疾患を効果的に理解するには、マルチモーダルデータによって物理的スケールで取得された複数の情報ソースを融合する必要がある。 本研究では,モダリティ内およびモダリティ間相関を考慮に入れた標準相関解析から導出した新しい特徴埋め込みモジュールを提案する。 シミュレーションおよび実データを用いた実験は,提案モジュールがよく相関した多次元埋め込みを学習できることを示す。 これらの埋め込みは、TCGA-BRCA乳がん患者の1年間の生存率の分類において競合的に働き、平均F1スコアは5倍のクロスバリデーションで58.69%に達する。

Effective understanding of a disease such as cancer requires fusing multiple sources of information captured across physical scales by multimodal data. In this work, we propose a novel feature embedding module that derives from canonical correlation analyses to account for intra-modality and inter-modality correlations. Experiments on simulated and real data demonstrate how our proposed module can learn well-correlated multi-dimensional embeddings. These embeddings perform competitively on one-year survival classification of TCGA-BRCA breast cancer patients, yielding average F1 scores up to 58.69% under 5-fold cross-validation.
翻訳日:2021-03-10 14:42:44 公開日:2021-03-09
# 線形ガウス時間不変系に対する近似最適フィルタ

Approximate Optimal Filter for Linear Gaussian Time-invariant Systems ( http://arxiv.org/abs/2103.05505v1 )

ライセンス: Link先を確認
Kaiming Tang, Shengbo Eben Li, Yuming Yin, Yang Guan, Jingliang Duan, Wenhan Cao, Jie Li(参考訳) 状態推定は制御システムにとって、特に状態を直接測定できない場合に重要である。 本稿では,線形ガウス時間不変系における定常ゲインを得るために,ポリシー反復手法を用いた近似最適フィルタを提案する。 この設計は、最小平均二乗誤差の最適フィルタリング問題を近似最適フィルタリング(AOF)問題と呼ばれる最適制御問題に変換します。 この等価性は、システム状態が推定誤差、制御入力がフィルタゲイン、制御対象関数が累積推定誤差である初期状態分布とポリシー形式に関する特定の条件を保持する。 定常状態におけるAOF問題を解決するためのポリシー反復アルゴリズムを提案する。 古典的な車両状態推定問題は、最終的に近似フィルタを評価する。 その結果, 政策は定常カルマン利得に収束し, 精度は2 %以内であることが判明した。

State estimation is critical to control systems, especially when the states cannot be directly measured. This paper presents an approximate optimal filter, which enables to use policy iteration technique to obtain the steady-state gain in linear Gaussian time-invariant systems. This design transforms the optimal filtering problem with minimum mean square error into an optimal control problem, called Approximate Optimal Filtering (AOF) problem. The equivalence holds given certain conditions about initial state distributions and policy formats, in which the system state is the estimation error, control input is the filter gain, and control objective function is the accumulated estimation error. We present a policy iteration algorithm to solve the AOF problem in steady-state. A classic vehicle state estimation problem finally evaluates the approximate filter. The results show that the policy converges to the steady-state Kalman gain, and its accuracy is within 2 %.
翻訳日:2021-03-10 14:42:21 公開日:2021-03-09
# 適応レーダ波形選択のための制約付きコンテキストバンディット学習

Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection ( http://arxiv.org/abs/2103.05541v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 適応レーダシステムが有限状態目標チャネルと繰り返し相互作用する逐次決定過程について検討する。 レーダーは受動的に波形の選択プロセスに側面情報を提供する規則的な間隔でスペクトルを感知できます。 レーダ送信機は、スペクトル観測のシーケンスと、コロケーション受信機からのフィードバックを用いて、ターゲットパラメータを正確に推定する波形を選択する。 波形選択問題は,線形文脈バンディット定式化を用いて,計算可能かつサンプル効率の良い方法で効果的に解決できることを示す。 確率的および逆転的な線形文脈的バンディットモデルが導入され、レーダーは幅広い物理環境で効果的なパフォーマンスを達成できます。 レーダ通信共存シナリオと対向レーダジャマーシナリオのシミュレーションでは、トンプソンサンプリングとEXP3アルゴリズムが波形選択プロセスの駆動に使用される場合、提案された定式化が目標検出性能を大幅に改善することを示した。 さらに,レーダーの波形カタログに時間変動制約を適用することで,コヒーレントに処理されたレーダデータに対するパルス・アジャイル行動の有害な影響を軽減できることを示した。

A sequential decision process in which an adaptive radar system repeatedly interacts with a finite-state target channel is studied. The radar is capable of passively sensing the spectrum at regular intervals, which provides side information for the waveform selection process. The radar transmitter uses the sequence of spectrum observations as well as feedback from a collocated receiver to select waveforms which accurately estimate target parameters. It is shown that the waveform selection problem can be effectively addressed using a linear contextual bandit formulation in a manner that is both computationally feasible and sample efficient. Stochastic and adversarial linear contextual bandit models are introduced, allowing the radar to achieve effective performance in broad classes of physical environments. Simulations in a radar-communication coexistence scenario, as well as in an adversarial radar-jammer scenario, demonstrate that the proposed formulation provides a substantial improvement in target detection performance when Thompson Sampling and EXP3 algorithms are used to drive the waveform selection process. Further, it is shown that the harmful impacts of pulse-agile behavior on coherently processed radar data can be mitigated by adopting a time-varying constraint on the radar's waveform catalog.
翻訳日:2021-03-10 14:42:07 公開日:2021-03-09
# 逆文書周波数を用いたディープニューラルネットワークのためのロバストブラックボックス透かし

Robust Black-box Watermarking for Deep NeuralNetwork using Inverse Document Frequency ( http://arxiv.org/abs/2103.05590v1 )

ライセンス: Link先を確認
Mohammad Mehdi Yadollahi, Farzaneh Shoeleh, Sajjad Dadkhah, Ali A. Ghorbani(参考訳) ディープラーニング技術は、あらゆる人工知能(AI)サービスの最も重要な要素の1つである。 近年,Deep Neural Networks(DNN)などの機械学習(ML)手法は,自然言語(NLP)や音声認識,画像処理など,さまざまな障害に対して人間レベルの能力を実装する上で,極めて優れた成果を上げている。 これらのモデルのトレーニングは、計算能力と十分なラベル付きデータの存在の観点から高価です。 このように、DNNのようなMLベースのモデルは、所有者にとって真のビジネス価値と知的財産権(IP)を確立する。 したがって、訓練されたモデルは違法な再分配、再現、派生といった敵対的な攻撃から保護される必要がある。 透かしはDNNモデルの確保に有効な手法であると考えられる。 しかし、これまでのウォーターマーキングアルゴリズムのほとんどは、画像にノイズを加えることでDNNをウォーターマーキングすることに焦点を当てている。 そこで本研究では,テキストドメイン用に設計されたDNNモデルの透かしを行うフレームワークを提案する。 この透かし生成方式は、特定の単語の項周波数(TF)と逆文書周波数(IDF)を組み合わせたセキュアな透かし方式を提供する。 提案した埋め込み手順はモデルのトレーニング時間内に行われ、透かしによる文書をトレーニングされたモデルに送信することで、透かし検証ステージが簡単になる。 実験の結果, 透かし付きモデルでは, 元のモデルと同じ精度を示した。 提案フレームワークは,性能を損なうことなく,すべてのサロゲートモデルのオーナシップを正確に検証する。 提案アルゴリズムは,パラメータプルーニングやブルートフォースアタックなど,よく知られた攻撃に対して堅牢である。

Deep learning techniques are one of the most significant elements of any Artificial Intelligence (AI) services. Recently, these Machine Learning (ML) methods, such as Deep Neural Networks (DNNs), presented exceptional achievement in implementing human-level capabilities for various predicaments, such as Natural Processing Language (NLP), voice recognition, and image processing, etc. Training these models are expensive in terms of computational power and the existence of enough labelled data. Thus, ML-based models such as DNNs establish genuine business value and intellectual property (IP) for their owners. Therefore the trained models need to be protected from any adversary attacks such as illegal redistribution, reproducing, and derivation. Watermarking can be considered as an effective technique for securing a DNN model. However, so far, most of the watermarking algorithm focuses on watermarking the DNN by adding noise to an image. To this end, we propose a framework for watermarking a DNN model designed for a textual domain. The watermark generation scheme provides a secure watermarking method by combining Term Frequency (TF) and Inverse Document Frequency (IDF) of a particular word. The proposed embedding procedure takes place in the model's training time, making the watermark verification stage straightforward by sending the watermarked document to the trained model. The experimental results show that watermarked models have the same accuracy as the original ones. The proposed framework accurately verifies the ownership of all surrogate models without impairing the performance. The proposed algorithm is robust against well-known attacks such as parameter pruning and brute force attack.
翻訳日:2021-03-10 14:41:45 公開日:2021-03-09
# 離散関数ベースと畳み込みニューラルネットワーク

Discrete Function Bases and Convolutional Neural Networks ( http://arxiv.org/abs/2103.05609v1 )

ライセンス: Link先を確認
Andreas St\"ockel(参考訳) レジェンド遅延ネットワーク(LDN)から派生した離散基底に特に焦点をあてた「離散関数ベース」の概念について議論する。 遅延計算タスクにおけるこれらのベースの性能と,ニューラルネットワークにおける定時的畳み込みを特徴づける。 定時的畳み込みを用いたネットワークは概念的に単純であり、psMNISTのようなタスクで最先端の結果をもたらす。 主な結果(1) O(qN) において DLOPs L の行列を構成するための数値的に安定なアルゴリズムを提案する(2) 伝説遅延ネットワーク (LDN) は O(qN) において基底変換行列 H を用いて離散関数基底を形成することができる。 (3) q < 300 が LDN ベースとオンラインに結びつく場合、任意の FIR フィルタと結びつくよりもランタイムの複雑さが低い。 (4) いくつかの基底(Haar, cosine, Fourier)に対してスライディングウィンドウ変換が存在し、サンプル当たりのO(q)演算とO(N)メモリを必要とする。 (5) LDNに類似したLTI系は、多くの離散関数基底に対して構築できるが、LDN系は有限インパルス応答の点で優れている。 (6)これらのベースに対して表現された信号から遅延を線形に復号して離散関数ベースを比較する。 結果は図20に示します。 全体として、デコードエラーは似ている。 LDNベースは最高であり、フーリエベースとコサインベースは最小の誤差を有する。 (7) フーリエおよびコサインベースは、すべての遅延に対して均一な復号誤差を特徴とする。 これらのベースは、信号がフーリエ領域でうまく表現できれば使用するべきです。 (8) ニューラルネットワーク実験は、時間的畳み込みが学習された畳み込みよりも優れることを示唆している。 基本的な選択は重要ではありません。遅延タスクと同じパフォーマンストレンドを概観しています。 (9)LDNは小さい q に対して正しい選択であり、O(q) Euler の更新が実現可能であり、低い O(q) メモリ要求が重要である場合である。

We discuss the notion of "discrete function bases" with a particular focus on the discrete basis derived from the Legendre Delay Network (LDN). We characterize the performance of these bases in a delay computation task, and as fixed temporal convolutions in neural networks. Networks using fixed temporal convolutions are conceptually simple and yield state-of-the-art results in tasks such as psMNIST. Main Results (1) We present a numerically stable algorithm for constructing a matrix of DLOPs L in O(qN) (2) The Legendre Delay Network (LDN) can be used to form a discrete function basis with a basis transformation matrix H in O(qN). (3) If q < 300, convolving with the LDN basis online has a lower run-time complexity than convolving with arbitrary FIR filters. (4) Sliding window transformations exist for some bases (Haar, cosine, Fourier) and require O(q) operations per sample and O(N) memory. (5) LTI systems similar to the LDN can be constructed for many discrete function bases; the LDN system is superior in terms of having a finite impulse response. (6) We compare discrete function bases by linearly decoding delays from signals represented with respect to these bases. Results are depicted in Figure 20. Overall, decoding errors are similar. The LDN basis has the highest and the Fourier and cosine bases have the smallest errors. (7) The Fourier and cosine bases feature a uniform decoding error for all delays. These bases should be used if the signal can be represented well in the Fourier domain. (8) Neural network experiments suggest that fixed temporal convolutions can outperform learned convolutions. The basis choice is not critical; we roughly observe the same performance trends as in the delay task. (9) The LDN is the right choice for small q, if the O(q) Euler update is feasible, and if the low O(q) memory requirement is of importance.
翻訳日:2021-03-10 14:41:18 公開日:2021-03-09
# 完全シンプレクティックマップによる一般ハミルトン力学のデータ駆動予測

Data-driven Prediction of General Hamiltonian Dynamics via Learning Exactly-Symplectic Maps ( http://arxiv.org/abs/2103.05632v1 )

ライセンス: Link先を確認
Renyi Chen and Molei Tao(参考訳) 我々は、潜時シンプレクティックマップによって生成される非線形時系列の学習と予測について考察する。 特別なケースは(必ずしも分離できない)ハミルトン系であり、その解流はそのようなシンプレクティック写像を与える。 この特別な場合、潜在ODEのベクトル場を学習する一般的なアプローチと、ベクトル場を生成するハミルトニアンを学習する専門的なアプローチの両方が存在する。 しかし、この方法はベクトル場に依存しず、その存在を仮定しないため、異なるものであり、代わりに離散時間においてシンプレクティック進化写像を直接学習する。 さらに、生成関数を介してシンプレクティックマップを表現することで、ニューラルネットワーク(GFNN)で近似します。 この方法では、進化写像の近似は常に \emph{exactly} シンプレクティックである。 この追加的な幾何学的構造により、各ステップにおける局所的予測誤差が制御された方法で蓄積され、合理的な仮定の下では、大域的予測誤差は長い予測時間で最大で 'emph{linearly} で成長し、それ以外は指数的成長が著しく向上することを示す。 さらに、写像に基づく純粋データ駆動手法として、GFNNはベクトル場ベースのアプローチで一般的な2つの不正確なソース、すなわちデータの有限差によるベクトル場近似の誤差と予測を行うためのベクトル場の数値積分における誤差を回避する。 数値実験は我々の主張をさらに実証する。

We consider the learning and prediction of nonlinear time series generated by a latent symplectic map. A special case is (not necessarily separable) Hamiltonian systems, whose solution flows give such symplectic maps. For this special case, both generic approaches based on learning the vector field of the latent ODE and specialized approaches based on learning the Hamiltonian that generates the vector field exist. Our method, however, is different as it does not rely on the vector field nor assume its existence; instead, it directly learns the symplectic evolution map in discrete time. Moreover, we do so by representing the symplectic map via a generating function, which we approximate by a neural network (hence the name GFNN). This way, our approximation of the evolution map is always \emph{exactly} symplectic. This additional geometric structure allows the local prediction error at each step to accumulate in a controlled fashion, and we will prove, under reasonable assumptions, that the global prediction error grows at most \emph{linearly} with long prediction time, which significantly improves an otherwise exponential growth. In addition, as a map-based and thus purely data-driven method, GFNN avoids two additional sources of inaccuracies common in vector-field based approaches, namely the error in approximating the vector field by finite difference of the data, and the error in numerical integration of the vector field for making predictions. Numerical experiments further demonstrate our claims.
翻訳日:2021-03-10 14:40:49 公開日:2021-03-09
# Unseen の翻訳? Yor\`ub\'a $\rightarrow$ English MT in Low-Resource, Morphologically-unmarked settingss

Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in Low-Resource, Morphologically-Unmarked Settings ( http://arxiv.org/abs/2103.04225v2 )

ライセンス: Link先を確認
Ife Adebara, Muhammad Abdul-Mageed, Miikka Silfverberg(参考訳) 特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。 定型性(in)を形態的にマークする英語に翻訳する場合、Yor\`ub\'a は素名詞を用いるが、これらの特徴を文脈的にマークする。 本研究では、Yor\`ub\'a の素名詞を英語に翻訳する際に、SMT システムが 2 つの NMT システム (BiLSTM と Transformer) とどのように比較するかを細かく分析する。 システムがどのようにBNを識別し、正しく翻訳し、人間の翻訳パターンと比較するかを検討する。 また,各モデルが犯す誤りの種類を分析し,それらの誤りを言語的に記述する。 低リソース設定でモデルパフォーマンスを評価するための洞察を得る。 素名詞の翻訳では, トランスフォーマーモデルは4つのカテゴリでSMT, BiLSTMモデルより優れ, BiLSTMは3つのカテゴリでSMTモデルより優れ, SMTは1つのカテゴリでNMTモデルより優れていた。

Translating between languages where certain features are marked morphologically in one but absent or marked contextually in the other is an important test case for machine translation. When translating into English which marks (in)definiteness morphologically, from Yor\`ub\'a which uses bare nouns but marks these features contextually, ambiguities arise. In this work, we perform fine-grained analysis on how an SMT system compares with two NMT systems (BiLSTM and Transformer) when translating bare nouns in Yor\`ub\'a into English. We investigate how the systems what extent they identify BNs, correctly translate them, and compare with human translation patterns. We also analyze the type of errors each model makes and provide a linguistic description of these errors. We glean insights for evaluating model performance in low-resource settings. In translating bare nouns, our results show the transformer model outperforms the SMT and BiLSTM models for 4 categories, the BiLSTM outperforms the SMT model for 3 categories while the SMT outperforms the NMT models for 1 category.
翻訳日:2021-03-10 12:26:12 公開日:2021-03-09
# 単純複素表現学習

Simplicial Complex Representation Learning ( http://arxiv.org/abs/2103.04046v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Xuanting Cai(参考訳) 単純複素体は、コンピュータ支援設計、コンピュータグラフィックス、シミュレーションなどの多くのアプリケーション分野で頻繁に使用される位相空間の重要なクラスを形成します。 グラフ上の表現学習は、たった1-dの単純な複合体であり、ここ数年で大きな注目と成功を目撃しています。 複雑さが増すため、より高次元の簡素なホールドがあるため、表現学習をこれらのオブジェクトに拡張するには十分な労力がなかった。 本研究では, 複素-複素近接性を保存する方法として, 単純複体を普遍的な埋め込み空間に埋め込む簡易複体表現学習法を提案する。 本手法は,事前学習した簡易オートエンコーダによって誘導される単純xレベル埋め込みを用いて,単純化された複合表現全体を学習する。 我々の知る限りでは、この研究は単純な複素レベル表現を学習する最初の方法である。

Simplicial complexes form an important class of topological spaces that are frequently used to in many applications areas such as computer-aided design, computer graphics, and simulation. The representation learning on graphs, which are just 1-d simplicial complexes, has witnessed a great attention and success in the past few years. Due to the additional complexity higher dimensional simplicial hold, there has not been enough effort to extend representation learning to these objects especially when it comes to learn entire-simplicial complex representation. In this work, we propose a method for simplicial complex-level representation learning that embeds a simplicial complex to a universal embedding space in a way that complex-to-complex proximity is preserved. Our method utilizes a simplex-level embedding induced by a pre-trained simplicial autoencoder to learn an entire simplicial complex representation. To the best of our knowledge, this work presents the first method for learning simplicial complex-level representation.
翻訳日:2021-03-10 12:25:50 公開日:2021-03-09
# 体操AIに関する調査:シミュレータから研究課題まで

A Survey Of Embodied AI: From Simulator To Research Tasks ( http://arxiv.org/abs/2103.04918v2 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Tan Hui Li, Hongyuan Zhu and Cheston Tan(参考訳) ネットAI」の時代から「具体化AI」の時代へとパラダイムが変化し、AIアルゴリズムやエージェントは、インターネットから主に収集された画像、ビデオ、テキストのデータセットから学習しなくなりました。 その代わり、実物でもシミュレートであれ、環境との身体的相互作用を通じて学習する。 その結果、インボディードAI研究タスクの多様性をサポートするために、インボディードAIシミュレーターの需要が大幅に増加した。 このインボディードAIへの関心の高まりは、人工知能のさらなる追求に有益であるが、この分野に関する現代的で包括的な調査は行われていない。 本稿では、最先端のAIシミュレータと、それらの間の接続をマッピングする研究を包括的に調査する。 本論文では,9つの最先端のAIシミュレータを7つの特徴からベンチマークすることにより,AI研究におけるシミュレータの利用状況を把握することを目的とする。 最後に、AI研究課題のシミュレータとピラミッド階層に基づいて、AI-視覚探索、視覚ナビゲーション、および具体的質問応答(QA)における主要な研究課題を調査し、最先端のアプローチ、評価、データセットについて述べる。

There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", whereby AI algorithms and agents no longer simply learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through embodied physical interactions with their environments, whether real or simulated. Consequently, there has been substantial growth in the demand for embodied AI simulators to support a diversity of embodied AI research tasks. This growing interest in embodied AI is beneficial to the greater pursuit of artificial general intelligence, but there is no contemporary and comprehensive survey of this field. This paper comprehensively surveys state-of-the-art embodied AI simulators and research, mapping connections between these. By benchmarking nine state-of-the-art embodied AI simulators in terms of seven features, this paper aims to understand the simulators in their provision for use in embodied AI research. Finally, based upon the simulators and a pyramidal hierarchy of embodied AI research tasks, this paper surveys the main research tasks in embodied AI -- visual exploration, visual navigation and embodied question answering (QA), covering the state-of-the-art approaches, evaluation and datasets.
翻訳日:2021-03-10 12:25:25 公開日:2021-03-09
# 単発セマンティック部品セグメンテーションのためのGANの再利用

Repurposing GANs for One-shot Semantic Part Segmentation ( http://arxiv.org/abs/2103.04379v2 )

ライセンス: Link先を確認
Nontawat Tritrong, Pitchaporn Rewatbowornwong, Supasorn Suwajanakorn(参考訳) GANは現実的な画像生成に成功したが、合成とは無関係な他のタスクにGANを使用することのアイデアは明らかにされていない。 GANは、それらのオブジェクトを再生する過程で、オブジェクトの有意義な構造的部分を学ぶか? そこで本研究では,この仮説を検証し,ラベルなしデータセットとともにラベルを1つも必要としない,意味部分セグメンテーションのためのgansに基づく単純かつ効果的なアプローチを提案する。 我々のキーとなるアイデアは、訓練されたGANを利用して、入力画像からピクセルワイズ表現を抽出し、セグメンテーションネットワークのための特徴ベクトルとして利用することです。 我々の実験は、GANの表現が「可読的に差別的」であり、かなり多くのラベルで訓練された教師付きベースラインと同等の驚くほど良い結果をもたらすことを示した。 我々は、gansのこの新しい再提案は、他の多くのタスクに適用可能な教師なし表現学習の新たなクラスであると信じている。 詳細は https://repurposegans.github.io/ をご覧ください。

While GANs have shown success in realistic image generation, the idea of using GANs for other tasks unrelated to synthesis is underexplored. Do GANs learn meaningful structural parts of objects during their attempt to reproduce those objects? In this work, we test this hypothesis and propose a simple and effective approach based on GANs for semantic part segmentation that requires as few as one label example along with an unlabeled dataset. Our key idea is to leverage a trained GAN to extract pixel-wise representation from the input image and use it as feature vectors for a segmentation network. Our experiments demonstrate that GANs representation is "readily discriminative" and produces surprisingly good results that are comparable to those from supervised baselines trained with significantly more labels. We believe this novel repurposing of GANs underlies a new class of unsupervised representation learning that is applicable to many other tasks. More results are available at https://repurposegans.github.io/.
翻訳日:2021-03-10 12:25:05 公開日:2021-03-09
# Monte Carlo Tree Search:最近の改良と応用のレビュー

Monte Carlo Tree Search: A Review of Recent Modifications and Applications ( http://arxiv.org/abs/2103.04931v2 )

ライセンス: Link先を確認
Maciej \'Swiechowski, Konrad Godlewski, Bartosz Sawicki, Jacek Ma\'ndziuk(参考訳) モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。 この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。 MCTSはシミュレーションの形式でランダムサンプリングを行い、その後のイテレーションごとにより教育的な選択を行うためにアクションの統計を格納する。 しかし、この手法はコンビネータゲーム(例えば、より複雑なゲーム)では最先端の技術となっている。 高分岐係数またはリアルタイムの要素を持つもの、および様々な実践的領域(例えば、)において 輸送、スケジューリング、セキュリティ) 効率的なMCTSアプリケーションは、しばしば問題に依存した修正や他の技術との統合を必要とします。 このようなドメイン固有の修正とハイブリッドアプローチがこの調査の主な焦点である。 最後の主要なMCTS調査は2012年に出版されました。 このレビューでは、リリース以来のコントリビューションが特に関心を集めています。

Monte Carlo Tree Search (MCTS) is a powerful approach to designing game-playing bots or solving sequential decision problems. The method relies on intelligent tree search that balances exploration and exploitation. MCTS performs random sampling in the form of simulations and stores statistics of actions to make more educated choices in each subsequent iteration. The method has become a state-of-the-art technique for combinatorial games, however, in more complex games (e.g. those with high branching factor or real-time ones), as well as in various practical domains (e.g. transportation, scheduling or security) an efficient MCTS application often requires its problem-dependent modification or integration with other techniques. Such domain-specific modifications and hybrid approaches are the main focus of this survey. The last major MCTS survey has been published in 2012. Contributions that appeared since its release are of particular interest for this review.
翻訳日:2021-03-10 12:24:51 公開日:2021-03-09
# Plug & Play 優先度を用いたベイズイメージング: Langevin が Tweedie に出会うとき

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie ( http://arxiv.org/abs/2103.04715v2 )

ライセンス: Link先を確認
R\'emi Laumont, Valentin de Bortoli, Andr\'es Almansa, Julie Delon, Alain Durmus and Marcelo Pereyra(参考訳) Venkatakrishnan et al の独創的な作品以来。 (2013)、プラグ&プレイ(PnP)法は、ベイズイメージングにおいてユビキタスになっています。 これらの手法は、画像復調アルゴリズムによって暗黙的に定義される事前の公約関数と組み合わせることで、画像の逆問題に対する最小平均角誤差(MMSE)または最大Aポストエリオリ(MAP)推定器を導出する。 文献で提案されたPnPアルゴリズムは主に最適化やサンプリングに使用する反復的なスキームが異なる。 最適化スキームの場合、いくつかの最近の研究は固定点への収束を保証するが、必ずしもMAP推定ではない。 サンプリングスキームの場合、私たちの知識の最大限に、収束の既知の証拠はありません。 また、基礎となるベイズモデルと推定器が十分に定義され、適切に配置され、これらの数値スキームをサポートするために必要な基本的な正則性を持つかどうかに関する重要なオープンな疑問も残っている。 これらの制約に対処するために、PnP の先行したベイズ推定を行うための理論、手法、および証明可能な収束アルゴリズムを開発する。 モンテカルロサンプリングとMMSE推論のためのPnP-ULA(Unadjusted Langevin Algorithm)とMAP推論のためのPnP-SGD(Stochastic Gradient Descent)の2つのアルゴリズムを紹介します。 マルコフ連鎖の定量的収束に関する最近の結果を用いて,これら2つのアルゴリズムの詳細な収束保証を,ニューラルネットに基づくデノイザに特に注目しながら,使用中のデノイザ演算子の現実的な仮定の下で確立する。 また,これらのアルゴリズムが決定論的に最適なベイズモデルに近似することを示す。 提案アルゴリズムは, 点推定や不確実性可視化, 定量化など, 画像の劣化, 塗装, 装飾などの標準的な問題に対して実証される。

Since the seminal work of Venkatakrishnan et al. (2013), Plug & Play (PnP) methods have become ubiquitous in Bayesian imaging. These methods derive Minimum Mean Square Error (MMSE) or Maximum A Posteriori (MAP) estimators for inverse problems in imaging by combining an explicit likelihood function with a prior that is implicitly defined by an image denoising algorithm. The PnP algorithms proposed in the literature mainly differ in the iterative schemes they use for optimisation or for sampling. In the case of optimisation schemes, some recent works guarantee the convergence to a fixed point, albeit not necessarily a MAP estimate. In the case of sampling schemes, to the best of our knowledge, there is no known proof of convergence. There also remain important open questions regarding whether the underlying Bayesian models and estimators are well defined, well-posed, and have the basic regularity properties required to support these numerical schemes. To address these limitations, this paper develops theory, methods, and provably convergent algorithms for performing Bayesian inference with PnP priors. We introduce two algorithms: 1) PnP-ULA (Unadjusted Langevin Algorithm) for Monte Carlo sampling and MMSE inference; and 2) PnP-SGD (Stochastic Gradient Descent) for MAP inference. Using recent results on the quantitative convergence of Markov chains, we establish detailed convergence guarantees for these two algorithms under realistic assumptions on the denoising operators used, with special attention to denoisers based on deep neural networks. We also show that these algorithms approximately target a decision-theoretically optimal Bayesian model that is well-posed. The proposed algorithms are demonstrated on several canonical problems such as image deblurring, inpainting, and denoising, where they are used for point estimation as well as for uncertainty visualisation and quantification.
翻訳日:2021-03-10 12:24:39 公開日:2021-03-09
# 自己監督型縦横型埋め込み

Self-Supervised Longitudinal Neighbourhood Embedding ( http://arxiv.org/abs/2103.03840v2 )

ライセンス: Link先を確認
Jiahong Ouyang and Qingyu Zhao and Ehsan Adeli and Edith V Sullivan and Adolf Pfefferbaum and Greg Zaharchuk and Kilian M Pohl(参考訳) 経時的MRIは、老化や神経疾患によって引き起こされる脳構造と機能の段階的な劣化を捉えるためにしばしば用いられる。 このデータを機械学習で分析するには、多くの場合、大量の基幹ラベルを必要とする。 ラベルの必要性を低減し,LNE(Longitudinal Neighborhood Embedding)と呼ばれる表現学習のための自己監督型戦略を提案する。 コントラスト学習の概念に動機づけられたLNEは、異なる対象の軌道ベクトル間の類似性を明示的にモデル化する。 我々は、各トレーニング反復において、被写体の進行方向が隣人の方向に従うように、潜在空間内の近傍を定義するグラフを構築する。 これにより、局所的な連続性を維持しながら、脳のグローバルな形態変化を捉えるスムーズな軌道場が得られる。 健常者274名からなるデータセットとアルツハイマー病神経画像イニシアチブ(ADNI, N=632)の2種類の縦断的T1wMRIにLNEを適用した。 滑らかな軌道ベクトル場の可視化と下流課題における優れた性能は, 正常な加齢に伴う情報抽出と神経変性障害の影響を明らかにする上で, 既存の自己教師あり手法よりも, 提案手法の強みを示す。 コードは \url{https://github.com/ouyangjiahong/longitudinal-neighbourhood-embedding.git}で入手できる。

Longitudinal MRIs are often used to capture the gradual deterioration of brain structure and function caused by aging or neurological diseases. Analyzing this data via machine learning generally requires a large number of ground-truth labels, which are often missing or expensive to obtain. Reducing the need for labels, we propose a self-supervised strategy for representation learning named Longitudinal Neighborhood Embedding (LNE). Motivated by concepts in contrastive learning, LNE explicitly models the similarity between trajectory vectors across different subjects. We do so by building a graph in each training iteration defining neighborhoods in the latent space so that the progression direction of a subject follows the direction of its neighbors. This results in a smooth trajectory field that captures the global morphological change of the brain while maintaining the local continuity. We apply LNE to longitudinal T1w MRIs of two neuroimaging studies: a dataset composed of 274 healthy subjects, and Alzheimer's Disease Neuroimaging Initiative (ADNI, N=632). The visualization of the smooth trajectory vector field and superior performance on downstream tasks demonstrate the strength of the proposed method over existing self-supervised methods in extracting information associated with normal aging and in revealing the impact of neurodegenerative disorders. The code is available at \url{https://github.com/ouyangjiahong/longitudinal-neighbourhood-embedding.git}.
翻訳日:2021-03-10 12:24:04 公開日:2021-03-09
# virtual normal: 高精度かつロバストな深さ予測のための幾何学的制約を強制する

Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction ( http://arxiv.org/abs/2103.04216v2 )

ライセンス: Link先を確認
Wei Yin and Yifan Liu and Chunhua Shen(参考訳) 単眼深度予測は3次元シーン形状の理解において重要な役割を担っている。 近年の手法は画素単位の相対誤差などの評価指標で顕著な進歩を遂げているが、ほとんどの手法は3次元空間における幾何的制約を無視している。 本研究では,深度予測のための高次3次元幾何学的制約の重要性を示す。 再構成された3次元空間でランダムにサンプリングされた3点によって決定される仮想正規方向という単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に向上させる。 重要なことは、仮想正規損失は、学習メートル法深度の性能を向上するだけでなく、スケール情報を解き、より優れた形状情報でモデルを豊かにする。 したがって、絶対距離深度トレーニングデータにアクセスできない場合、仮想正規法を用いて多様なシーンで生成される強固なアフィン不変深さを学ぶことができる。 実験では,NYU Depth-V2 と KITTI の学習深度について,最先端の学習結果を示す。 高品質の予測深度から、ポイント雲や表面の正常といったシーンの優れた3次元構造を復元することが可能となり、これまでやってきたような追加モデルに頼る必要がなくなる。 仮想正規損失による多様なデータに対するアフィン不変深度学習の汎用性を示すために、アフィン不変深度トレーニングのための大規模かつ多様なデータセット、いわゆるDiverse Scene Depthデータセット(DiverseDepth)を構築し、ゼロショットテスト設定で5つのデータセットをテストする。 コードはhttps://git.io/Depthで入手できます。

Monocular depth prediction plays a crucial role in understanding 3D scene geometry. Although recent methods have achieved impressive progress in terms of evaluation metrics such as the pixel-wise relative error, most methods neglect the geometric constraints in the 3D space. In this work, we show the importance of the high-order 3D geometric constraints for depth prediction. By designing a loss term that enforces a simple geometric constraint, namely, virtual normal directions determined by randomly sampled three points in the reconstructed 3D space, we significantly improve the accuracy and robustness of monocular depth estimation. Significantly, the virtual normal loss can not only improve the performance of learning metric depth, but also disentangle the scale information and enrich the model with better shape information. Therefore, when not having access to absolute metric depth training data, we can use virtual normal to learn a robust affine-invariant depth generated on diverse scenes. In experiments, We show state-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI. From the high-quality predicted depth, we are now able to recover good 3D structures of the scene such as the point cloud and surface normal directly, eliminating the necessity of relying on additional models as was previously done. To demonstrate the excellent generalizability of learning affine-invariant depth on diverse data with the virtual normal loss, we construct a large-scale and diverse dataset for training affine-invariant depth, termed Diverse Scene Depth dataset (DiverseDepth), and test on five datasets with the zero-shot test setting. Code is available at: https://git.io/Depth
翻訳日:2021-03-10 12:23:38 公開日:2021-03-09
# 蒸留外観流によるパーサーフリー仮想試行

Parser-Free Virtual Try-on via Distilling Appearance Flows ( http://arxiv.org/abs/2103.04559v2 )

ライセンス: Link先を確認
Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、衣料品画像(ターゲット服)を人物画像に合わせることを目的としている。 以前の手法は人間の解析に基づいている。 しかし、わずかに短いセグメンテーションの結果は、大きなアーティファクトを持つ非現実的な試行画像に繋がる。 不正確な解析ミスリードは、アーティファクトが通常発生する視覚的に非現実的な結果を生成するパーサベースの方法である。 近年の先駆的な研究は、知識蒸留を人間のパーシングの依存性を減らし、パーサーベースの手法による試行画像は、セグメンテーションに頼らずに「学生」ネットワークを訓練する監督役として使われ、パーサーベースのモデルの試行能力を模倣するものである。 しかし、学生の画質はパーサーベースのモデルによって制限されます。 そこで本研究では,人間による解析を伴わずに高度に写真実写的な画像を生成することが可能な「教師-教師-学生」知識蒸留法を提案する。 1)既存の研究とは違って,本手法では,実物は実物から自己管理的に抽出した「教師の知識」によって修正できる「教師の知識」として,パーザベースの手法で作成した偽画像を扱う。 2) 実像を監督対象として使用する以外に, 被写体画像と衣服画像の出現フローを蒸留する手段として, 試行問題における知識蒸留を定式化し, それらの間の正確な密接な対応を見つけ, 高品質な結果が得られるようにした。 (3)広範囲な評価は,本手法の優位性が高い(図参照)。 1).

Image virtual try-on aims to fit a garment image (target clothes) to a person image. Prior methods are heavily based on human parsing. However, slightly-wrong segmentation results would lead to unrealistic try-on images with large artifacts. Inaccurate parsing misleads parser-based methods to produce visually unrealistic results where artifacts usually occur. A recent pioneering work employed knowledge distillation to reduce the dependency of human parsing, where the try-on images produced by a parser-based method are used as supervisions to train a "student" network without relying on segmentation, making the student mimic the try-on ability of the parser-based model. However, the image quality of the student is bounded by the parser-based model. To address this problem, we propose a novel approach, "teacher-tutor-student" knowledge distillation, which is able to produce highly photo-realistic images without human parsing, possessing several appealing advantages compared to prior arts. (1) Unlike existing work, our approach treats the fake images produced by the parser-based method as "tutor knowledge", where the artifacts can be corrected by real "teacher knowledge", which is extracted from the real person images in a self-supervised way. (2) Other than using real images as supervisions, we formulate knowledge distillation in the try-on problem as distilling the appearance flows between the person image and the garment image, enabling us to find accurate dense correspondences between them to produce high-quality results. (3) Extensive evaluations show large superiority of our method (see Fig. 1).
翻訳日:2021-03-10 12:23:09 公開日:2021-03-09
# 微粒な視覚分類のための解釈型注意誘導ネットワーク

Interpretable Attention Guided Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2103.04701v2 )

ライセンス: Link先を確認
Zhenhuan Huang, Xiaoyue Duan, Bo Zhao, Jinhu L\"u, Baochang Zhang(参考訳) 細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。 固有の微妙なクラス内オブジェクトのバリエーションで異なるサブカテゴリを区別する必要がある。 前回の研究では,注意戦略やバウンディングボックスに基づいて,複数の粒度と識別領域を用いた特徴表現能力の向上に重点を置いていた。 しかし、これらの手法は解釈性に欠ける深層ニューラルネットワークに大きく依存している。 細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。 本手法のコントリビューションは,ネットワークが解釈可能な方法で識別領域を抽出するための注意喚起フレームワークと,様々な粒度の特徴を融合させるための段階的に知識段階を抽出する段階的学習機構と,いくつかの標準FGVCベンチマークデータセット上での競合性能を有する最初の解釈可能なFGVC手法である。

Fine-grained visual classification (FGVC) is challenging but more critical than traditional classification tasks. It requires distinguishing different subcategories with the inherently subtle intra-class object variations. Previous works focus on enhancing the feature representation ability using multiple granularities and discriminative regions based on the attention strategy or bounding boxes. However, these methods highly rely on deep neural networks which lack interpretability. We propose an Interpretable Attention Guided Network (IAGN) for fine-grained visual classification. The contributions of our method include: i) an attention guided framework which can guide the network to extract discriminitive regions in an interpretable way; ii) a progressive training mechanism obtained to distill knowledge stage by stage to fuse features of various granularities; iii) the first interpretable FGVC method with a competitive performance on several standard FGVC benchmark datasets.
翻訳日:2021-03-10 12:22:41 公開日:2021-03-09
# 無線エッジネットワークを用いた分散学習のための共同符号化とスケジューリング最適化

Joint Coding and Scheduling Optimization for Distributed Learning over Wireless Edge Networks ( http://arxiv.org/abs/2103.04303v2 )

ライセンス: Link先を確認
Nguyen Van Huynh, Dinh Thai Hoang, Diep N. Nguyen, and Eryk Dutkiewicz(参考訳) 理論的分散学習(DL)とは異なり、無線エッジネットワーク上のDLは、無線接続とエッジノードの固有のダイナミクス/不確実性に直面しており、非常にダイナミックな無線エッジネットワーク(例えばmmWインターフェースを使用して)下でDLを効率性や適用性が低下させる。 本稿では,近年のコーデックコンピューティングとディープデューリングニューラルネットワークアーキテクチャを活用し,これらの問題に対処する。 コード化された構造/冗長性を導入することで、ノードをつまずくのを待つことなく、分散学習タスクを完了することができる。 コード構造のみを最適化する従来のコードドコンピューティングとは異なり、ワイヤレスエッジ上のコードド分散学習では、異種接続によるワイヤレスエッジノードの選択/スケジュール、計算能力、ストラグリング効果も最適化する必要がある。 しかし、前述のダイナミクス/未知性を無視しても、分散学習時間を最小化するためのコーディングとスケジューリングの協調最適化はnpハードであることが判明した。 そこで我々は,無線接続とエッジノードのダイナミクスと不確実性を考慮し,問題をマルコフ決定プロセスとして再構成し,ディープ・デュリングニューラルネットワークアーキテクチャを用いた新しい深層強化学習アルゴリズムを設計し,無線環境とエッジノードのストラグリングパラメータに関する情報を明示することなく,異なる学習タスクのための最適な符号化方式と最良エッジノードを探索する。 シミュレーションでは、提案されたフレームワークは、他のDLアプローチと比較して、無線エッジコンピューティングの平均学習遅延を最大66%削減する。 本記事での共同最適フレームワークは、異種および不確実な計算ノードを持つ任意の分散学習スキームにも適用可能である。

Unlike theoretical distributed learning (DL), DL over wireless edge networks faces the inherent dynamics/uncertainty of wireless connections and edge nodes, making DL less efficient or even inapplicable under the highly dynamic wireless edge networks (e.g., using mmW interfaces). This article addresses these problems by leveraging recent advances in coded computing and the deep dueling neural network architecture. By introducing coded structures/redundancy, a distributed learning task can be completed without waiting for straggling nodes. Unlike conventional coded computing that only optimizes the code structure, coded distributed learning over the wireless edge also requires to optimize the selection/scheduling of wireless edge nodes with heterogeneous connections, computing capability, and straggling effects. However, even neglecting the aforementioned dynamics/uncertainty, the resulting joint optimization of coding and scheduling to minimize the distributed learning time turns out to be NP-hard. To tackle this and to account for the dynamics and uncertainty of wireless connections and edge nodes, we reformulate the problem as a Markov Decision Process and then design a novel deep reinforcement learning algorithm that employs the deep dueling neural network architecture to find the jointly optimal coding scheme and the best set of edge nodes for different learning tasks without explicit information about the wireless environment and edge nodes' straggling parameters. Simulations show that the proposed framework reduces the average learning delay in wireless edge computing up to 66% compared with other DL approaches. The jointly optimal framework in this article is also applicable to any distributed learning scheme with heterogeneous and uncertain computing nodes.
翻訳日:2021-03-10 12:22:26 公開日:2021-03-09
# 複数のディープラーニングモデルの比較テストを促進するための識別測定

Measuring Discrimination to Boost Comparative Testing for Multiple Deep Learning Models ( http://arxiv.org/abs/2103.04333v2 )

ライセンス: Link先を確認
Linghan Meng, Yanhui Li, Lin Chen, Zhi Wang, Di Wu, Yuming Zhou, Baowen Xu(参考訳) DL技術のブームは巨大なDLモデルの構築と共有をもたらし、DLモデルの取得と再利用を促進する。 与えられたタスクに対して、同じ機能で利用可能な複数のDLモデルに遭遇する。 テスターは複数のDLモデルを比較し、より適したものを選択することが期待される。 テストのコンテキスト全体。 分類の努力の限界のために、テスターはこれらのモデルのためにできるだけ正確なランクの推定をするサンプルの有効なサブセットを選ぶことを目標にします。 この問題に対処するために,複数のモデルを識別可能な効率的なサンプルを選択するために,サンプル識別に基づく選択(SDS)を提案する。 SDSを評価するために,広範に利用されている3つの画像データセットと80個の実世界DLモデルを用いて広範な実験研究を行った。 実験の結果,SDSは最先端のベースライン法と比較して,複数のDLモデルのランク付けに有効で効率的なサンプル選択法であることがわかった。

The boom of DL technology leads to massive DL models built and shared, which facilitates the acquisition and reuse of DL models. For a given task, we encounter multiple DL models available with the same functionality, which are considered as candidates to achieve this task. Testers are expected to compare multiple DL models and select the more suitable ones w.r.t. the whole testing context. Due to the limitation of labeling effort, testers aim to select an efficient subset of samples to make an as precise rank estimation as possible for these models. To tackle this problem, we propose Sample Discrimination based Selection (SDS) to select efficient samples that could discriminate multiple models, i.e., the prediction behaviors (right/wrong) of these samples would be helpful to indicate the trend of model performance. To evaluate SDS, we conduct an extensive empirical study with three widely-used image datasets and 80 real world DL models. The experimental results show that, compared with state-of-the-art baseline methods, SDS is an effective and efficient sample selection method to rank multiple DL models.
翻訳日:2021-03-10 12:21:58 公開日:2021-03-09