このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210725となっている論文です。

PDF登録状況(公開日: 20210725)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般量子力学のためのテンソルネットワーク影響関数の構成

Constructing Tensor Network Influence Functionals for General Quantum Dynamics ( http://arxiv.org/abs/2101.05466v3 )

ライセンス: Link先を確認
Erika Ye and Garnet Kin-Lic Chan(参考訳) 二次浴への線形結合の仮定を超えた部分系の一般的な量子力学を記述した影響関数を計算する反復形式について述べる。 本研究では,影響関数の時空テンソルネットワーク表現を用い,その近似性をテンソルネットワーク記述における結合次元と時間的絡み合いの観点から検討する。 1次元高調波トラップにおけるスピンボーソンモデルと相互作用するハードコアボーソンモデルという2つの数値モデルについて検討した。 その結果, 量子力学が直接時間発展法よりも長く正確に計算できるような, 低結合次元テンソルネットワークによって, 機能的およびその構成に関わる中間体の影響を効率的に近似できることがわかった。 しかし, 浴槽を反復的に統合すると, 影響関数の相関は減少する前に増大し, 非自明なキャンセルによって影響関数の最終的な圧縮性が達成されることを示す。

We describe an iterative formalism to compute influence functionals that describe the general quantum dynamics of a subsystem beyond the assumption of linear coupling to a quadratic bath. We use a space-time tensor network representation of the influence functional and investigate its approximability in terms of the bond dimensions and time-like entanglement in the tensor network description. We study two numerical models, the spin-boson model and a model of interacting hard-core bosons in a 1D harmonic trap. We find that the influence functional and the intermediates involved in its construction can be efficiently approximated by low bond dimension tensor networks in certain dynamical regimes, which allows the quantum dynamics to be accurately computed for longer times than with direct time evolution methods. However, as one iteratively integrates out the bath, the correlations in the influence functional can first increase before decreasing, indicating that the final compressibility of the influence functional is achieved via non-trivial cancellation.
翻訳日:2023-04-15 05:23:31 公開日:2021-07-25
# 世俗近似を超えた統一ゴリーニ・コサコフスキー・リンドブラッド・スダルシャン量子マスター方程式

Unified Gorini-Kossakowski-Lindblad-Sudarshan quantum master equation beyond the secular approximation ( http://arxiv.org/abs/2103.12042v3 )

ライセンス: Link先を確認
Anton Trushechkin(参考訳) 非正則効果を考慮した浴槽に弱結合した系の量子マスター方程式を導出するが、数学的に正しいゴリニ・コサコフスキ・リンドブラド・スダールシャン形式(特に密度作用素の正則性を保持する)を持ち、また標準熱力学的性質はオープン量子システムの理論における既知の長期的問題である。 非分子項は、系のエネルギーレベルやその差(ボーア周波数)がほぼ退化しているときに重要である。 このような方程式の完全厳密な導出を一般の場合の弱結合極限の形式化に基づく。

Derivation of a quantum master equation for a system weakly coupled to a bath which takes into account nonsecular effects, but nevertheless has the mathematically correct Gorini-Kossakowski-Lindblad-Sudarshan form (in particular, it preserves positivity of the density operator) and also satisfies the standard thermodynamic properties is a known long-standing problem in theory of open quantum systems. The nonsecular terms are important when some energy levels of the system or their differences (Bohr frequencies) are nearly degenerate. We provide a fully rigorous derivation of such equation based on a formalization of the weak-coupling limit for the general case.
翻訳日:2023-04-07 04:28:35 公開日:2021-07-25
# 恒星間量子通信の探索

Searching for interstellar quantum communications ( http://arxiv.org/abs/2104.06446v2 )

ライセンス: Link先を確認
Michael Hippke(参考訳) 現代の地球外インテリジェンス(SETI)の探索は、ココニ・アンド・モリソン(1959年)とシュワルツ・アンド・タウンズ(1961年)のセミナーで始まり、電波スペクトルにおける狭帯域信号の探索と光レーザーパルスの探索を提案した。 過去60年間に、数百以上の専用検索プログラムがこれらの波長をターゲットにしてきた。 これらすべてのキャンペーンは古典的な通信、すなわちノイズ閾値を超えるかなりの数の光子を探索し、時間や周波数空間で符号化されたパターンを仮定した。 将来の検索は量子通信も対象とするべきだと私は主張する。 それらはセキュリティと情報効率に関して古典的な通信よりも好まれており、以前の全ての検索で検出を免れただろう。 フォック状態光子や励起光の測定は、信号の人工性を示す。 私は、恒星間距離で量子コヒーレンスが実現可能であることを示し、天文学者が商業的に利用可能な望遠鏡と受信機を使用して、etiが地球に送信する量子送信を探索する方法を初めて説明した。

The modern search for extraterrestrial intelligence (SETI) began with the seminal publications of Cocconi & Morrison (1959) and Schwartz & Townes (1961), who proposed to search for narrow-band signals in the radio spectrum, and for optical laser pulses. Over the last six decades, more than one hundred dedicated search programs have targeted these wavelengths; all with null results. All of these campaigns searched for classical communications, that is, for a significant number of photons above a noise threshold; with the assumption of a pattern encoded in time and/or frequency space. I argue that future searches should also target quantum communications. They are preferred over classical communications with regards to security and information efficiency, and they would have escaped detection in all previous searches. The measurement of Fock state photons or squeezed light would indicate the artificiality of a signal. I show that quantum coherence is feasible over interstellar distances, and explain for the first time how astronomers can search for quantum transmissions sent by ETI to Earth, using commercially available telescopes and receiver equipment.
翻訳日:2023-04-03 23:24:10 公開日:2021-07-25
# 極小ランクの多量子シンプレクティック極空間の極小部分空間の分類法

Taxonomy of Polar Subspaces of Multi-Qubit Symplectic Polar Spaces of Small Rank ( http://arxiv.org/abs/2105.03635v2 )

ライセンス: Link先を確認
Metod Saniga, Henri de Boutray, Frederic Holweck and Alain Giorgetti(参考訳) 二つのシンプレクティック極空間$W(2N-1,2)$の小さな階数$N$の物理関連部分幾何学を、これらの空間の点が$N$-qubit観測可能点を正にエンコードするときに研究する。 そのような空間 $w(2n-1,2)$ の部分空間の鍵となる特徴は、その負の直線の数、観測可能な種類の分布、その部分空間が共有する幾何学的超平面の性格、w(2n-1,2)$ の区別された(非特異な)四次数、そしてそのベルトカンプ空間の構造である。 特に、位数が$N-1$である$W(2N-1,2)$の極部分空間を分類して数える。 w(3,2)$ は同じ型の負の行が3つあり、その$w(1,2)$' は5つの異なる型からなる。 W(5,2)$は2つの型の90の負の行が与えられ、その$W(3,2)$は13の型に分けられる。 480$w(3,2)$の3つの負の線のうち279は合成である。 である。 これらはすべて2ビットの$W(3,2)$に由来する。 3ビットの$W(3,2)$と幾何超平面のいずれかが与えられたとき、同じ超平面を持つ他の3つの$W(3,2)$'が存在する。 同じことは、幾何学的超平面が「平面」三心三元数に置き換えられるときにも成り立つ。 W(5,2)$ の双曲的二次体は 7 つの $W(3,2)$'s の特定の集合をホストしていることが示され、それぞれが二次体に関してコンウェル・ヘプタッドに一意に結びついている。 w(3,2)$'s の特定の型もあり、その代表は各行が負である点を特徴としている。 最後に、$w(7,2)$は1908年の5つの型の負の行を持ち、その$w(5,2)$は最大29の型に分類される。 1560$w(5,2)$の90の負の行のうち、1524は3量子ビット$w(5,2)$に由来する。 注目すべきは、4-qubit $W(5,2)$'sの2つの異なるタイプの負の線数の違いは、4の倍数である。

We study certain physically-relevant subgeometries of binary symplectic polar spaces $W(2N-1,2)$ of small rank $N$, when the points of these spaces canonically encode $N$-qubit observables. Key characteristics of a subspace of such a space $W(2N-1,2)$ are: the number of its negative lines, the distribution of types of observables, the character of the geometric hyperplane the subspace shares with the distinguished (non-singular) quadric of $W(2N-1,2)$ and the structure of its Veldkamp space. In particular, we classify and count polar subspaces of $W(2N-1,2)$ whose rank is $N-1$. $W(3,2)$ features three negative lines of the same type and its $W(1,2)$'s are of five different types. $W(5,2)$ is endowed with 90 negative lines of two types and its $W(3,2)$'s split into 13 types. 279 out of 480 $W(3,2)$'s with three negative lines are composite, i.\,e. they all originate from the two-qubit $W(3,2)$. Given a three-qubit $W(3,2)$ and any of its geometric hyperplanes, there are three other $W(3,2)$'s possessing the same hyperplane. The same holds if a geometric hyperplane is replaced by a `planar' tricentric triad. A hyperbolic quadric of $W(5,2)$ is found to host particular sets of seven $W(3,2)$'s, each of them being uniquely tied to a Conwell heptad with respect to the quadric. There is also a particular type of $W(3,2)$'s, a representative of which features a point each line through which is negative. Finally, $W(7,2)$ is found to possess 1908 negative lines of five types and its $W(5,2)$'s fall into as many as 29 types. 1524 out of 1560 $W(5,2)$'s with 90 negative lines originate from the three-qubit $W(5,2)$. Remarkably, the difference in the number of negative lines for any two distinct types of four-qubit $W(5,2)$'s is a multiple of four.
翻訳日:2023-04-01 03:27:54 公開日:2021-07-25
# 8PSK変調CV-QKDの高セキュリティ鍵レート

Tight Secure Key Rates for CV-QKD with 8PSK Modulation ( http://arxiv.org/abs/2107.06110v2 )

ライセンス: Link先を確認
Florian Kanitschar and Christoph Pacher(参考訳) 我々は最近の数値セキュリティ証明手法を用いて、漸近的極限におけるヘテロダイン検出を伴う連続可変8状態位相シフト鍵(8PSK)プロトコルに対する集団攻撃の存在下での厳密な鍵レートを計算する。 同一のセキュリティ証明技術で得られたqpskプロトコルの達成可能なセキュアキーレートと比較する。 さらに,4状態位相シフト鍵プロトコルの誤り訂正フェーズにおける計算要求を減らし,安全性の高い鍵レートに対するラジアルポストセレクションの影響について検討した。 本研究は,8PSKプロトコルの生鍵を大幅に削減するための異なる戦略を提案する。 これは、多くの実用的な実装において既知のボトルネックであるエラー訂正フェーズの計算労力をかなり削減するために使用できる。

We use a recent numerical security proof approach to calculate tight secure key rates in the presence of collective attacks for a continuous-variable (CV) eight-state phase-shift keying (8PSK) protocol with heterodyne detection in the asymptotic limit. The results are compared to achievable secure key rates of a QPSK protocol obtained with the same security proof technique. Furthermore, we investigate the influence of radial postselection on the secure key rate and examine a recently suggested strategy to reduce the computational requirements on the error-correction phase for four-state phase-shift-keying protocols. Based on our investigations, we suggest different strategies to reduce the raw key of 8PSK protocols significantly, only on the cost of a slightly lower secure key rate. This can be used to lower the computational effort of the error-correction phase, a known bottleneck in many practical implementations, considerably.
翻訳日:2023-03-22 11:35:47 公開日:2021-07-25
# 量子場理論から量子力学へ

From Quantum Field Theory to Quantum Mechanics ( http://arxiv.org/abs/2107.11724v1 )

ライセンス: Link先を確認
Nuno Barros e S\'a, Cl\'audio Gomes(参考訳) 我々は、量子力学のヒルベルト空間に作用する作用素の代数を、量子場理論のフォック空間に作用する場作用素と、前空間に作用する運動量作用素と後者に作用する場作用素との明示的な関係を提供することにより構成する。 これは相互作用しないklein-gordon体(英語版)の文脈で行われる。 粒子数保存に大きく依存するため、相互作用する場の理論への手続きを拡張することはできないかもしれない。 にもかかわらず、そのような明示的な関係が少なくとも自由体に対して発見できることは重要である。 また、場作用素が従うどんな統計(可換あるいは反可換)においても、位置演算子と運動量演算子は可換関係に従うことが分かる。 位置演算子の構築は、一粒子の位置演算子がニュートン・ウィグナー位置演算子であることが判明したため、相対論的量子力学における粒子の局所化可能性の問題を引き起こす。 我々はニュートン・ウィグナー局所化状態の解釈についていくつかの説明を行い、ローレンツ変換の下での位置作用素の変換特性を考察し、それらがテンソルとして変換されないことを示す。

We construct the algebra of operators acting on the Hilbert spaces of Quantum Mechanics for systems of $N$ identical particles from the field operators acting in the Fock space of Quantum Field Theory by providing the explicit relation between the position and momentum operators acting in the former spaces and the field operators acting on the latter. This is done in the context of the non-interacting Klein-Gordon field. It may not be possible to extend the procedure to interacting field theories since it relies crucially on particle number conservation. We find it nevertheless important that such an explicit relation can be found at least for free fields. It also comes out that whatever statistics the field operators obey (either commuting or anticommuting), the position and momentum operators obey commutation relations. The construction of position operators raises the issue of localizability of particles in Relativistic Quantum Mechanics, as the position operator for a single particle turns out to be the Newton-Wigner position operator. We make some clarifications on the interpretation of Newton-Wigner localized states and we consider the transformation properties of position operators under Lorentz transformations, showing that they do not transform as tensors, rather in a manner that preserves the canonical commutation relations.
翻訳日:2023-03-20 23:40:15 公開日:2021-07-25
# 誤りの少ない等式ランダム化・量子通信複雑性のためのタイト境界

Tight Bounds for the Randomized and Quantum Communication Complexities of Equality with Small Error ( http://arxiv.org/abs/2107.11806v1 )

ライセンス: Link先を確認
Nikhil S. Mande, Ronald de Wolf(参考訳) 誤差確率$\epsilon$ の十分に研究された等式関数のランダム化と量子コミュニケーションの複雑さを調べ、多くの異なるモデルにおいて先頭項における最適な定数係数を得る。 ランダム化モデルでは,(1)小さな乗算誤差を伴って,公開coinプロトコルをプライベートcoinプロトコルに変換する一般的な手法を,添加コストで提供する。 これは、ニューマンの定理 [Inf. Proc. Let.'91] の誤差パラメータへの依存性の改善である。 2) これを用いて$(\log(n/\epsilon^2)+4)$コストのプライベートコイン通信プロトコルを取得し、$n$-bit Equality関数を計算し、$\epsilon$をエラーする。 これは、ニューマンの定理に示唆される$\log(n/\epsilon^3)+o(1)$の上界を改良し、アロン [comb. prob. comput.'09] から$\log\log(1/\epsilon)+o(1)$ まで続く最もよく知られた下界に一致する。 量子モデルでは、1)コスト$\log(n/\epsilon)+4$の一方のプロトコルを示し、純粋な状態のみを使用し、$n$-bit Equality関数を計算してエラー$\epsilon$とする。 この境界はすでに Nayak [PhDthesis'99] によって暗黙的に示されていた。 2) 純状態のみを使用するn$-bit平等のための$\epsilon$-error one-wayプロトコルは、少なくとも$\log(n/\epsilon)-\log\log(1/\epsilon)-o(1)$ qubits と通信する。 3)$\log(\sqrt{n}/\epsilon)+3$の一方通行プロトコルを示し,混合状態を使い,$n$-bit等式関数を計算して$\epsilon$をエラーする。 これは加法 $\log\log(1/\epsilon)+O(1)$ にも強くなり、これはアロンの結果に従う。 我々の上界もまた、等式行列の近似階数と関連する測度について上界を得る。 これはまた、ログランク予想のランダム化および量子化バージョンを反論するために最近使われた分散シンク関数のこれらの測度の上界の改善も含んでいる。

We investigate the randomized and quantum communication complexities of the well-studied Equality function with small error probability $\epsilon$, getting the optimal constant factors in the leading terms in a number of different models. In the randomized model, 1) we give a general technique to convert public-coin protocols to private-coin protocols by incurring a small multiplicative error, at a small additive cost. This is an improvement over Newman's theorem [Inf. Proc. Let.'91] in the dependence on the error parameter. 2) Using this we obtain a $(\log(n/\epsilon^2)+4)$-cost private-coin communication protocol that computes the $n$-bit Equality function, to error $\epsilon$. This improves upon the $\log(n/\epsilon^3)+O(1)$ upper bound implied by Newman's theorem, and matches the best known lower bound, which follows from Alon [Comb. Prob. Comput.'09], up to an additive $\log\log(1/\epsilon)+O(1)$. In the quantum model, 1) we exhibit a one-way protocol of cost $\log(n/\epsilon)+4$, that uses only pure states and computes the $n$-bit Equality function to error $\epsilon$. This bound was implicitly already shown by Nayak [PhD thesis'99]. 2) We show that any $\epsilon$-error one-way protocol for $n$-bit Equality that uses only pure states communicates at least $\log(n/\epsilon)-\log\log(1/\epsilon)-O(1)$ qubits. 3) We exhibit a one-way protocol of cost $\log(\sqrt{n}/\epsilon)+3$, that uses mixed states and computes the $n$-bit Equality function to error $\epsilon$. This is also tight up to an additive $\log\log(1/\epsilon)+O(1)$, which follows from Alon's result. Our upper bounds also yield upper bounds on the approximate rank and related measures of the Identity matrix. This also implies improved upper bounds on these measures for the distributed SINK function, which was recently used to refute the randomized and quantum versions of the log-rank conjecture.
翻訳日:2023-03-20 23:39:17 公開日:2021-07-25
# adiabatic dynamics and shortcuts to adiabaticity: fundamentals and applications

Adiabatic Dynamics and Shortcuts to Adiabaticity: Fundamentals and Applications ( http://arxiv.org/abs/2107.11798v1 )

ライセンス: Link先を確認
Alan C. Santos(参考訳) 本論文では, 量子制御とハミルトニアン逆工学に関する我々の理解の進展を促進する, 断熱力学(閉・開システム)とトランジッションレス量子駆動に関する一連の結果を提示した。 閉システムにおける断熱力学の文脈では、非慣性参照フレームから系のダイナミクスをスタブすることで断熱条件の検証機構を導入する。 デコヒーレンスシナリオを考えることで、断熱近似の有効性条件も研究されている。 潜在的な応用の新たな結果として、デコヒーレンスの下では、閉系の場合のように、初期量子状態のクラスに対して、断熱性は無限の時間限内でも起こりうることが示されている。 結論として、この理論の近道性に対する理論への元々の貢献は、遷移のない量子駆動の一般化されたアプローチを指し、そこでは、断熱軌道を伴う量子位相因子のゲージ自由を探求する。 この論文で示された理論的な予測は、イッテルビウムトラップイオンのエネルギー超微細構造にエンコードされた量子ビットと核スピン量子ビットとの核磁気共鳴という2つの異なる実験的な設定で実験的に検証される。

In this thesis, it is presented a set of results in adiabatic dynamics (closed and open system) and transitionless quantum driving that promote some advances in our understanding on quantum control and Hamiltonian inverse engineering. In the context of adiabatic dynamics in closed systems, it is introduced a validation mechanism for the adiabaticity conditions by studing the system dynamics from a non-inertial reference frame. By considering a decohering scenario, validity conditions of the adiabatic approximation are also studied. As a fresh general result with potential applications, it is shown that under decoherence the adiabaticity may still occur in the infinite time limit, as it happens for closed systems, for a class of initial quantum states. To end, the original contributions of this thesis to the theory of shortcuts to adiabaticity refers to a generalized approach of transitionless quantum driving, where one explores the gauge freedom of the quantal phase factors accompanying adiabatic trajectories. A number of theoretical applications are studied, where some theoretical prediction presented in this thesis are experimentally verified through two different experimental setups, namely a qubit encoded in the energy hyperfine structure of a Ytterbium trapped ion, and in nuclear magnetic resonance with a nuclear spin qubit.
翻訳日:2023-03-20 23:38:14 公開日:2021-07-25
# レーザー支援カオン崩壊とCPT対称性違反

Laser-assisted kaon decay and CPT symmetry violation ( http://arxiv.org/abs/2107.11788v1 )

ライセンス: Link先を確認
M. Baouahi, M. Ouali, M. Jakha, S. Mouslih, Y. Attaourti, B. Manaut and S. Taj(参考訳) 本研究では, 円偏波レーザー場が存在する場合, 荷電カオンの崩壊を最低次で検討した。 より正確には、w$ボソンの交換によって弱く崩壊する正(物質)と負(反物質)のカオンのレプトン崩壊を調査した。 実際、崩壊行列アプローチを用いて、レプトニック崩壊幅、レプトニック分岐比、レプトニック比および荷電カオン寿命の式を導出した。 さらに, 数値計算を用いて, レーザー場が物理量に与える影響を考察した。 さらに,レーザ場がCPT対称性に関連するパラメータに与える影響を解析した。 そして、電磁場の存在下で、このCPT対称性パラメータに基づいて、外部磁場をCPT対称性に違反したり保存したりすることで、反物質や逆転に対する物質の優位性を制御することができると結論づけた。

In this paper, we have investigated the charged kaons decay at the lowest order in the presence of a circularly polarized laser field. To be more precise, we have examined the leptonic decay of both positive (matter) and negative (antimatter) kaon which weakly decay via the exchange of $W$ boson. Indeed, we have derived the expression of the leptonic decay width, the leptonic branching ratio, the leptonic ratio and the charged kaon lifetime by using the decay matrix approach. In addition, by using numerical computation, we have presented and discussed how the laser field influences these physical quantities. Moreover, we have analyzed the effect of the laser field on the parameter associated with the CPT symmetry. Then, we have concluded that, in the presence of an electromagnetic field and based on this CPT symmetry parameter, it is possible to control the dominance of matter over antimatter or vice-versa by applying an external field to either violate or conserve the CPT symmetry.
翻訳日:2023-03-20 23:37:50 公開日:2021-07-25
# 量子テレポーテーションによる多粒子量子波動関数の直接測定

Directly Measuring a Multiparticle Quantum Wave Function via Quantum Teleportation ( http://arxiv.org/abs/2107.11754v1 )

ライセンス: Link先を確認
Ming-Cheng Chen, Yuan Li, Run-Ze Liu, Dian Wu, Zu-En Su, Xi-Lin Wang, Li Li, Nai-Le Liu, Chao-Yang Lu, Jian-Wei Pan(参考訳) 本稿では,多粒子密度行列内の単一行列要素である一般多粒子量子波動関数を量子テレポーテーションにより直接測定する方法を提案する。 密度行列要素は仮想論理キュービットに埋め込まれ、読み取りのために単一の物理キュービットに非破壊的にテレポートされる。 本研究では、光子混合量子状態の波動関数を単一観測器を用いて単一光子を超えて直接測定する手法を実験的に実装した。 また, 標準量子状態トモグラフィーよりも, 測定の複雑さが小さいマルチ粒子量子状態を完全に特徴付けるという指数関数的な利点を与える。

We propose a new method to directly measure a general multi-particle quantum wave function, a single matrix element in a multi-particle density matrix, by quantum teleportation. The density matrix element is embedded in a virtual logical qubit and is nondestructively teleported to a single physical qubit for readout. We experimentally implement this method to directly measure the wavefunction of a photonic mixed quantum state beyond a single photon using a single observable for the first time. Our method also provides an exponential advantage over the standard quantum state tomography in measurement complexity to fully characterize a sparse multi-particle quantum state.
翻訳日:2023-03-20 23:37:10 公開日:2021-07-25
# 均衡から遠い普遍的スケーリングのための次元交叉

Dimensional crossover for universal scaling far from equilibrium ( http://arxiv.org/abs/2107.11749v1 )

ライセンス: Link先を確認
Lasse Gresista, Torsten V. Zache, J\"urgen Berges(参考訳) 横面に閉じ込められた非平衡ボース気体の動的有限サイズスケーリング解析を行う。 横サイズを変数として、平衡から離れた普遍的スケーリング特性の次元的交叉を確立する。 この結果は, 異方性系の動的普遍挙動のいくつかの側面が, 分数空間次元の観点で分類できることを示唆している。 本研究では,極低温量子気体の準一次元配置による最近の実験結果について考察する。

We perform a dynamical finite-size scaling analysis of a nonequilibrium Bose gas which is confined in the transverse plane. Varying the transverse size, we establish a dimensional crossover for universal scaling properties far from equilibrium. Our results suggest that some aspects of the dynamical universal behavior of anisotropic systems can be classified in terms of fractional spatial dimensions. We discuss our findings in view of recent experimental results with quasi one-dimensional setups of quenched ultracold quantum gases.
翻訳日:2023-03-20 23:36:59 公開日:2021-07-25
# 非相互作用スピン系におけるアンシラ支援離散時間結晶

Ancilla assisted Discrete Time Crystals in Non-interacting Spin Systems ( http://arxiv.org/abs/2107.11748v1 )

ライセンス: Link先を確認
Jianpei Geng, Vadim Vorobyov, Durga Dasari and Joerg Wrachtrup(参考訳) ここでは,非相互作用系における離散時間変換対称性の破れの出現を実験と解析モデルを用いて示す。 これらの周期構造は、アシラリー量子系との相互作用が存在する場合にのみ摂動に対して安定になり、回転角誤差の範囲で低調波応答を示す。 スピン間相互作用がスピンダイナミクスを有限誤差に対して安定化させる中心スピン系とスピン機械系に対して,この効果を実証する。 さらに,これらの研究を拡張し,フロッケ結晶の非局所的(遠隔的)同期を実現する可能性を示した。

We show here through experiments and exact analytical models the emergence of discrete time translation symmetry breaking in non-interacting systems. These time-periodic structures become stable against perturbations only in the presence of their interaction with the ancillary quantum system and display subharmonic response over a range of rotation angle errors. We demonstrate this effect for central spin and spin-mechanical systems, where the ancillary induced interaction among the spins stabilizes the spin dynamics against finite errors. Further, we extend these studies and show the possibility to even achieve non-local (remote) synchronization of such Floquet crystals.
翻訳日:2023-03-20 23:36:51 公開日:2021-07-25
# h2learn: 高精度スパイクニューラルネットワークのための高効率学習アクセラレータ

H2Learn: High-Efficiency Learning Accelerator for High-Accuracy Spiking Neural Networks ( http://arxiv.org/abs/2107.11746v1 )

ライセンス: Link先を確認
Ling Liang, Zheng Qu, Zhaodong Chen, Fengbin Tu, Yujie Wu, Lei Deng, Guoqi Li, Peng Li, Yuan Xie(参考訳) spiking neural networks (snns) は、バイオ・プラウズブル・ニューラル・モデリングの利点を享受しているが、局所的なシナプス可塑性学習規則の下での精度が低いことで、多くの実用的なタスクでの応用が制限されている。 近年,人工ニューラルネットワーク(ANN)の領域からのバックプロパゲーション(BPTT)にインスパイアされた新しいSNN教師付き学習アルゴリズムが,SNNの精度を高め,SNNの実践性の向上に寄与している。 しかし、現在の汎用プロセッサは、ANNに最適化された最適化のため、SNN向けにBPTTを実行する際に、低効率に悩まされている。 一方,現在のニューロモルフィックチップは,局所的なシナプス可塑性規則を主に採用しているため,bpttをサポートできない。 本研究では,BPTTに基づくSNN学習において,高速なSNN学習を実現する新しいアーキテクチャであるH2Learnを提案する。 まず,BPTTに基づくSNN学習の動作を特徴付ける。 フォワードパスにおける二進スパイクベースの計算とウェイト更新の恩恵を受け、我々は最初にルックアップテーブル(lut)ベースの処理要素をフォワードエンジンとウェイト更新エンジンで設計し、蓄積を暗黙的にし、複数の入力ポイントの計算を融合させた。 第2に、後方パスの豊富なスパース性から恩恵を受け、入力と出力の両方のスパース性を利用するデュアルスパース性対応の後方エンジンを設計した。 最後に、BPTTベースのSNN学習のためのエンドツーエンドソリューションを構築するために、異なるエンジン間のパイプライン最適化を適用する。 最新のNVIDIA V100 GPUと比較して、H2Learnは7.38倍の領域節約、5.74-10.20倍のスピードアップ、5.25-7.12倍の省エネを実現している。

Although spiking neural networks (SNNs) take benefits from the bio-plausible neural modeling, the low accuracy under the common local synaptic plasticity learning rules limits their application in many practical tasks. Recently, an emerging SNN supervised learning algorithm inspired by backpropagation through time (BPTT) from the domain of artificial neural networks (ANNs) has successfully boosted the accuracy of SNNs and helped improve the practicability of SNNs. However, current general-purpose processors suffer from low efficiency when performing BPTT for SNNs due to the ANN-tailored optimization. On the other hand, current neuromorphic chips cannot support BPTT because they mainly adopt local synaptic plasticity rules for simplified implementation. In this work, we propose H2Learn, a novel architecture that can achieve high efficiency for BPTT-based SNN learning which ensures high accuracy of SNNs. At the beginning, we characterized the behaviors of BPTT-based SNN learning. Benefited from the binary spike-based computation in the forward pass and the weight update, we first design lookup table (LUT) based processing elements in Forward Engine and Weight Update Engine to make accumulations implicit and to fuse the computations of multiple input points. Second, benefited from the rich sparsity in the backward pass, we design a dual-sparsity-aware Backward Engine which exploits both input and output sparsity. Finally, we apply a pipeline optimization between different engines to build an end-to-end solution for the BPTT-based SNN learning. Compared with the modern NVIDIA V100 GPU, H2Learn achieves 7.38x area saving, 5.74-10.20x speedup, and 5.25-7.12x energy saving on several benchmark datasets.
翻訳日:2023-03-20 23:36:40 公開日:2021-07-25
# ホテル・レストランにおけるジョブスケジューリング問題に対するbatアルゴリズムの改良

An Improved BAT Algorithm for Solving Job Scheduling Problems in Hotels and Restaurants ( http://arxiv.org/abs/2109.14441v1 )

ライセンス: Link先を確認
Tarik A. Rashid, Chra I. Shekho Toghramchi, Heja Sindi, Abeer Alsadoon, Nebojsa Bacanin, Shahla U. Umar, A.S. Shamsaldin, Mokhtar Mohammadi(参考訳) swarm intelligenceファミリからのメタヒューリスティックアルゴリズムの一般的な例は、batアルゴリズム(ba)である。 このアルゴリズムは2010年にYangによって初めて発表され、他の一般的なアルゴリズムと比較してすぐにその効率を実証した。 BAはコウモリのエコーロケーションに基づいている。 BAは自動ズームを使用して、コウモリのパルス放出率と獲物探索時の音の大きさのずれを模倣することにより、探索と搾取のバランスを取る。 BAは周波数調整技術を用いて解の多様性を維持する。 このようにして、BAは探索から搾取へ迅速かつ効率的に切り替えることができる。 したがって、クイックソリューションが必要な場合、どんなアプリケーションでも効率的に最適化できる。 本稿では, 収束を高速化し, 大規模アプリケーションにおいてより実用的な手法を実現するため, オリジナルbaの改良を行った。 本論文で提案する修正baと,他の最先端バイオインスパイアされたメタヒューリスティックスとの包括的比較解析を行うため,23の標準ベンチマーク関数(ユニモーダル,マルチモーダル,固定ディメンションマルチモーダル)の性能評価を行った。 その後,ホテルやレストランの業務スケジューリング問題に改良BAを適用した。 達成された性能指標に基づいて,提案したMBAは,元のBAや他のアプローチよりも優れたグローバル検索能力と収束性を確立する。

One popular example of metaheuristic algorithms from the swarm intelligence family is the Bat algorithm (BA). The algorithm was first presented in 2010 by Yang and quickly demonstrated its efficiency in comparison with other common algorithms. The BA is based on echolocation in bats. The BA uses automatic zooming to strike a balance between exploration and exploitation by imitating the deviations of the bat's pulse emission rate and loudness as it searches for prey. The BA maintains solution diversity using the frequency-tuning technique. In this way, the BA can quickly and efficiently switch from exploration to exploitation. Therefore, it becomes an efficient optimizer for any application when a quick solution is needed. In this paper, an improvement on the original BA has been made to speed up convergence and make the method more practical for large applications. To conduct a comprehensive comparative analysis between the original BA, the modified BA proposed in this paper, and other state-of-the-art bio-inspired metaheuristics, the performance of both approaches is evaluated on a standard set of 23 (unimodal, multimodal, and fixed-dimension multimodal) benchmark functions. Afterward, the modified BA was applied to solve a real-world job scheduling problem in hotels and restaurants. Based on the achieved performance metrics, the proposed MBA establishes better global search ability and convergence than the original BA and other approaches.
翻訳日:2023-03-20 23:28:34 公開日:2021-07-25
# 量子速度制限は絡み合いの幾何学的測度を解釈するのに役立つ

Quantum speed limit helps interpret geometric measure of entanglement ( http://arxiv.org/abs/2107.11877v1 )

ライセンス: Link先を確認
{\L}ukasz Rudnicki(参考訳) 量子速度制限によって提供されるアプローチを用いて、純状態の多粒子絡み合いの幾何学的測度(Phys. A 68, 042307(2003))は、与えられた量子状態から分離可能な状態へ一元的に進化するために必要な最小時間として解釈できることを示す。

Using the approach offered by quantum speed limit, we show that geometric measure of multipartite entanglement for pure states [Phys. Rev. A 68, 042307(2003)] can be interpreted as the minimal time necessary to unitarily evolve a given quantum state to a separable one.
翻訳日:2023-03-20 23:27:03 公開日:2021-07-25
# 共鳴周波数シフトの臨界性向上による非ニュートン重力のnm領域での制約法の提案

Proposal for constraining non-Newtonian gravity at nm range via criticality enhanced measurement of resonance frequency shift ( http://arxiv.org/abs/2107.11807v1 )

ライセンス: Link先を確認
Lei Chen, Jian Liu, and Ka-di Zhu(参考訳) ナノメートルの範囲で非ニュートン重力を拘束する量子力学的手法を提案する。 この方法では、ハイブリッド電気光学システムを用いる。 強い駆動場を適用することで、機械発振器の共振周波数に関連する電気機械サブシステムの正常モード分割を得ることができる。 さらに, 本システムが臨界点で動作していることから, 正規モード分割のばらつきとエキゾチックな力の勾配による共鳴周波数シフトとの関係について検討した。 さらに, カシミール背景の抑制により, 非ニュートン重力の制約を課し, 1ナノメートルの範囲で約7倍の速度で, 従来の境界を改良した。 以上の結果から,本手法が関連する実験検索において考慮される可能性が示唆された。

We propose a quantum mechanical method of constraining non-Newtonian gravity at the nanometer range. In this method, a hybrid electro-optomechanical system is employed. Applying a strong driving field, we can obtain normal mode splitting of the electromechanical subsystem which is related to the resonance frequency of the mechanical oscillator. Moreover, we investigate the relationship between the variance of normal mode splitting and the resonance frequency shift induced by the gradient of exotic forces provided that our system is operated at critical points. Furthermore, via suppressing the Casimir background, we set a constraint on the non-Newtonian gravity which improves the previous bounds by about a factor of 7 at 1 nanometer range. Our results indicate that our method could be put into consideration in relevant experimental searches.
翻訳日:2023-03-20 23:26:13 公開日:2021-07-25
# 画像デノイジングのためのマルチスケールスパルサライジング変換学習

Multiscale Sparsifying Transform Learning for Image Denoising ( http://arxiv.org/abs/2003.11265v5 )

ライセンス: Link先を確認
Ashkan Abbasi, Amirhassan Monadjemi, Leyuan Fang, Hossein Rabbani, Neda Noormohammadi, Yi Zhang(参考訳) 合成辞書学習(K-SVDなど)やスパース変換学習などのデータ駆動スパース法は,画像復調に有効であることが証明されている。 しかし、それらは本質的に単一スケールであり、最適以下の結果をもたらす可能性がある。 本稿では,ウェーブレットサブバンドミキシングに基づく2つの手法を提案し,シングルとマルチスケールの手法の利点を効率的に組み合わせた。 マルチスケールの効率的な手法は,ディテールサブバンドを記述することなく実現可能であり,実行時間を大幅に削減できることを示す。 提案手法は,まずsparsifying transform learning denoising の枠組みで導出され,その後,よく知られた k-svd および saist image denoising 法に対するマルチスケール拡張を提案する。 研究手法を網羅的に分析・評価し、よく知られた最先端の手法と比較する。 実験の結果,本手法は性能と複雑性のトレードオフを良好に実現できることがわかった。

The data-driven sparse methods such as synthesis dictionary learning (e.g., K-SVD) and sparsifying transform learning have been proven effective in image denoising. However, they are intrinsically single-scale which can lead to suboptimal results. We propose two methods developed based on wavelet subbands mixing to efficiently combine the merits of both single and multiscale methods. We show that an efficient multiscale method can be devised without the need for denoising detail subbands which substantially reduces the runtime. The proposed methods are initially derived within the framework of sparsifying transform learning denoising, and then, they are generalized to propose our multiscale extensions for the well-known K-SVD and SAIST image denoising methods. We analyze and assess the studied methods thoroughly and compare them with the well-known and state-of-the-art methods. The experiments show that our methods are able to offer good trade-offs between performance and complexity.
翻訳日:2022-12-20 03:41:13 公開日:2021-07-25
# ニューラルネットワークを用いた平均二乗誤差回帰に対する勾配勾配勾配の入射バイアス

Implicit bias of gradient descent for mean squared error regression with wide neural networks ( http://arxiv.org/abs/2006.07356v2 )

ライセンス: Link先を確認
Hui Jin, Guido Mont\'ufar(参考訳) 広帯域ニューラルネットワークの勾配降下訓練とそれに対応する関数空間の暗黙バイアスについて検討する。 不定回帰の場合、幅=n$の浅いreluネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n^{- 1/2}$以内であり、その初期関数との差は、ネットワークパラメータの初期化に使用される確率分布に依存する曲率ペナルティによって重み付けられた第2導関数の最小の2-ノルムである。 様々な共通初期化手順の曲率ペナルティ関数を明示的に計算する。 例えば、一様分布を持つ非対称初期化は一定曲率のペナルティをもたらし、従って解関数は訓練データの自然な立方体スプライン補間である。 異なるアクティベーション関数に対して同様の結果が得られる。 多変量回帰に対しては類似の結果を示し、第二微分は分数ラプラシアンのラドン変換に置き換えられる。 一定のペナルティ関数をもたらす初期化スキームに対して、解は多調和スプラインである。 また, トレーニングトラジェクタを平滑化スプラインの軌道に捕捉し, 正則化強度を低下させることを示した。

We investigate gradient descent training of wide neural networks and the corresponding implicit bias in function space. For univariate regression, we show that the solution of training a width-$n$ shallow ReLU network is within $n^{- 1/2}$ of the function which fits the training data and whose difference from the initial function has the smallest 2-norm of the second derivative weighted by a curvature penalty that depends on the probability distribution that is used to initialize the network parameters. We compute the curvature penalty function explicitly for various common initialization procedures. For instance, asymmetric initialization with a uniform distribution yields a constant curvature penalty, and thence the solution function is the natural cubic spline interpolation of the training data. We obtain a similar result for different activation functions. For multivariate regression we show an analogous result, whereby the second derivative is replaced by the Radon transform of a fractional Laplacian. For initialization schemes that yield a constant penalty function, the solutions are polyharmonic splines. Moreover, we show that the training trajectories are captured by trajectories of smoothing splines with decreasing regularization strength.
翻訳日:2022-11-22 02:58:05 公開日:2021-07-25
# P-KDGAN:一級ノベルティ検出のためのGANを用いたプログレッシブ知識蒸留

P-KDGAN: Progressive Knowledge Distillation with GANs for One-class Novelty Detection ( http://arxiv.org/abs/2007.06963v2 )

ライセンス: Link先を確認
Zhiwei Zhang, Shifeng Chen and Lei Sun(参考訳) 一級の新規性検出は、期待される正常なインスタンスに適合しない異常なインスタンスを特定することである。 本稿では,エンコーダ・デコーダ・エンコーダ・パイプラインに基づくGANを用いて,最先端性能の検出と達成を行う。 しかし、ディープニューラルネットワークは過剰パラメータであり、リソース制限されたデバイスにデプロイできない。 そこで,GANを用いたPKDGAN(Progressive Knowledge Distillation with GAN)を提案する。 P-KDGANは、教師から学生に知識を伝達するための蒸留損失を設計して、2つの標準GANを接続する新しい試みである。 知識蒸留の進歩的な学習は、学生のGANの性能を継続的に改善し、シングルステップ法よりも優れたパフォーマンスを達成する2段階のアプローチである。 第1ステップでは、学生GANは、予め訓練された教師GANを固定重量で指導することにより、教師から基本知識を完全に学習する。 第2のステップでは、知識のある教師と学生のGANに対して共同ファイントレーニングを採用し、パフォーマンスと安定性をさらに向上させる。 CIFAR-10, MNIST, FMNISTによる実験結果から, 計算を24.45:1, 311.11:1, 700:1の比で圧縮すると, 学生GANの2.44%, 1.77%, 1.73%の性能向上が得られた。

One-class novelty detection is to identify anomalous instances that do not conform to the expected normal instances. In this paper, the Generative Adversarial Networks (GANs) based on encoder-decoder-encoder pipeline are used for detection and achieve state-of-the-art performance. However, deep neural networks are too over-parameterized to deploy on resource-limited devices. Therefore, Progressive Knowledge Distillation with GANs (PKDGAN) is proposed to learn compact and fast novelty detection networks. The P-KDGAN is a novel attempt to connect two standard GANs by the designed distillation loss for transferring knowledge from the teacher to the student. The progressive learning of knowledge distillation is a two-step approach that continuously improves the performance of the student GAN and achieves better performance than single step methods. In the first step, the student GAN learns the basic knowledge totally from the teacher via guiding of the pretrained teacher GAN with fixed weights. In the second step, joint fine-training is adopted for the knowledgeable teacher and student GANs to further improve the performance and stability. The experimental results on CIFAR-10, MNIST, and FMNIST show that our method improves the performance of the student GAN by 2.44%, 1.77%, and 1.73% when compressing the computation at ratios of 24.45:1, 311.11:1, and 700:1, respectively.
翻訳日:2022-11-10 14:07:58 公開日:2021-07-25
# 層状分解による障害物の観察

Learning to See Through Obstructions with Layered Decomposition ( http://arxiv.org/abs/2008.04902v3 )

ライセンス: Link先を確認
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 本稿では,移動カメラで撮影した短い画像から,窓反射,フェンス閉塞,付着雨滴などの不要な障害物を除去するための学習に基づくアプローチを提案する。 本手法は背景と閉塞要素の運動差を利用して両層を復元する。 具体的には, 深い畳み込みニューラルネットワークを用いて, 2層の密集した光学的流れ場を推定し, 画像から各層を再構成する手法を交互に提案する。 この学習ベースの層再構築モジュールは、流動推定における潜在的なエラーや明るさの整合性などの不安定な仮定の調整を容易にする。 合成データから得られた提案手法は実画像に対して良好に動作することを示す。 反射とフェンス除去の難解なシナリオに対する実験結果から,提案手法の有効性が示された。

We present a learning-based approach for removing unwanted obstructions, such as window reflections, fence occlusions, or adherent raindrops, from a short sequence of images captured by a moving camera. Our method leverages motion differences between the background and obstructing elements to recover both layers. Specifically, we alternate between estimating dense optical flow fields of the two layers and reconstructing each layer from the flow-warped images via a deep convolutional neural network. This learning-based layer reconstruction module facilitates accommodating potential errors in the flow estimation and brittle assumptions, such as brightness consistency. We show that the proposed approach learned from synthetically generated data performs well to real images. Experimental results on numerous challenging scenarios of reflection and fence removal demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-31 12:19:37 公開日:2021-07-25
# sparse experience replayを用いた生涯言語学習のためのメタラーニング

Meta-Learning with Sparse Experience Replay for Lifelong Language Learning ( http://arxiv.org/abs/2009.04891v2 )

ライセンス: Link先を確認
Nithin Holla, Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova(参考訳) 生涯学習には、データ分散の変化による破滅的な忘れ込みに苦しむことなく、シーケンシャルなデータストリームから継続的に学習できるモデルが必要である。 ディープラーニングモデルは、非シーケンシャルな学習パラダイムの中で成長してきたが、タスクのシーケンスを学習する際には、過去の知識を保持して徐々に学習することができない。 本稿では,言語タスクを生涯学習するための新しいアプローチとして,スパース・エクスペリエンス・リプレイを用いたメタラーニングを提案する。 本研究では,タスクのストリーム上で1回のパスを実行し,タスク識別子を一切持たない現実的な設定で,生涯のテキスト分類と関係抽出に関する最先端結果を得る。 提案手法の有効性を解析し,その計算量および空間の複雑さの低減を実証する。

Lifelong learning requires models that can continuously learn from sequential streams of data without suffering catastrophic forgetting due to shifts in data distributions. Deep learning models have thrived in the non-sequential learning paradigm; however, when used to learn a sequence of tasks, they fail to retain past knowledge and learn incrementally. We propose a novel approach to lifelong learning of language tasks based on meta-learning with sparse experience replay that directly optimizes to prevent forgetting. We show that under the realistic setting of performing a single pass on a stream of tasks and without any task identifiers, our method obtains state-of-the-art results on lifelong text classification and relation extraction. We analyze the effectiveness of our approach and further demonstrate its low computational and space complexity.
翻訳日:2022-10-20 02:43:19 公開日:2021-07-25
# IoTの暗い(そして明るい)側面:スマートホームデバイスとサービスを識別するための攻撃と対策

The Dark (and Bright) Side of IoT: Attacks and Countermeasures for Identifying Smart Home Devices and Services ( http://arxiv.org/abs/2009.07672v4 )

ライセンス: Link先を確認
Ahmed Mohamed Hussain, Gabriele Oligeri, and Thiemo Voigt(参考訳) 我々は、ネットワークパターンを利用してスマートIoTデバイスの存在を検出し、WiFi電波スペクトルでサービスを実行する、機械学習ベースの新たな攻撃を提案する。 データ収集の広範な計測キャンペーンを実施し、Google Nest Mini、Amazon Echo、Amazon Echo Dotという3つの一般的なIoTスマートホームデバイスを特徴付けるトラフィックパターンを記述するモデルを構築しました。 本研究は、上記デバイスが動作しているサービスを、混み合ったWiFiシナリオにおいて、圧倒的な確率で検出および識別することが可能であることを実証する。 この研究は、ネットワークトラフィック自体がデバイスと関連するサービスの両方の存在を公開するため、標準暗号化技術だけではエンドユーザのプライバシを保護するには不十分であることを証明している。 信頼されていないサードパーティがユーザのデバイスを検出して識別するのを防ぐために、より多くの作業が必要となる一方で、このようなタイプの攻撃を緩和するテクニックであるeclipseを紹介します。

We present a new machine learning-based attack that exploits network patterns to detect the presence of smart IoT devices and running services in the WiFi radio spectrum. We perform an extensive measurement campaign of data collection, and we build up a model describing the traffic patterns characterizing three popular IoT smart home devices, i.e., Google Nest Mini, Amazon Echo, and Amazon Echo Dot. We prove that it is possible to detect and identify with overwhelming probability their presence and the services running by the aforementioned devices in a crowded WiFi scenario. This work proves that standard encryption techniques alone are not sufficient to protect the privacy of the end-user, since the network traffic itself exposes the presence of both the device and the associated service. While more work is required to prevent non-trusted third parties to detect and identify the user's devices, we introduce Eclipse, a technique to mitigate these types of attacks, which reshapes the traffic making the identification of the devices and the associated services similar to the random classification baseline.
翻訳日:2022-10-18 00:57:15 公開日:2021-07-25
# 深層ニューラルネットワークにおける学習の異常拡散ダイナミクス

Anomalous diffusion dynamics of learning in deep neural networks ( http://arxiv.org/abs/2009.10588v2 )

ライセンス: Link先を確認
Guozhang Chen, Cheng Kevin Qu, Pulin Gong(参考訳) ディープニューラルネットワーク(DNN)の学習は、通常、確率勾配降下(SGD)法によって、非凸損失関数を最小化することによって実施される。 この学習プロセスは、貧しい地元のものに閉じ込められることなく、効果的に良い幅のミニマムを見つけることができる。 本稿では,SGDと損失景観の幾何学的構造との相互作用を通じて,このような効果的な深層学習が出現することを示す。 通常の拡散過程(すなわちブラウン運動)ではなく、損失ランドスケープをナビゲートする際にSGDはリッチで複雑なダイナミクスを示し、最初はSGDは異常な過拡散を示し、解が到達した時に徐々に減衰し、亜拡散に変化する。 このような学習ダイナミクスは、ResNetやVGGのようなネットワークなど、さまざまなDNNでユビキタスに行われ、バッチサイズや学習速度に敏感である。 初期学習段階における異常な過拡散過程は、損失ランドスケープに沿ったSGDの運動が断続的で大きなジャンプを持つことを示している。 複雑な物理系のエネルギー景観を研究するために開発された手法を適用することで、そのような超拡散学習のダイナミクスは、SGDと損失景観のフラクタル様構造との相互作用によるものであることが分かる。 さらに,フラクタルロスランドスケープの機構的役割を,sgdがグローバルミニマを効果的に発見できるようにするための簡単なモデルを開発した。 その結果,新しい視点からの深層学習の有効性が明らかとなり,効率的な深層ニューラルネットワークの設計に寄与した。

Learning in deep neural networks (DNNs) is implemented through minimizing a highly non-convex loss function, typically by a stochastic gradient descent (SGD) method. This learning process can effectively find good wide minima without being trapped in poor local ones. We present a novel account of how such effective deep learning emerges through the interactions of the SGD and the geometrical structure of the loss landscape. Rather than being a normal diffusion process (i.e. Brownian motion) as often assumed, we find that the SGD exhibits rich, complex dynamics when navigating through the loss landscape; initially, the SGD exhibits anomalous superdiffusion, which attenuates gradually and changes to subdiffusion at long times when the solution is reached. Such learning dynamics happen ubiquitously in different DNNs such as ResNet and VGG-like networks and are insensitive to batch size and learning rate. The anomalous superdiffusion process during the initial learning phase indicates that the motion of SGD along the loss landscape possesses intermittent, big jumps; this non-equilibrium property enables the SGD to escape from sharp local minima. By adapting the methods developed for studying energy landscapes in complex physical systems, we find that such superdiffusive learning dynamics are due to the interactions of the SGD and the fractal-like structure of the loss landscape. We further develop a simple model to demonstrate the mechanistic role of the fractal loss landscape in enabling the SGD to effectively find global minima. Our results thus reveal the effectiveness of deep learning from a novel perspective and have implications for designing efficient deep neural networks.
翻訳日:2022-10-15 21:51:06 公開日:2021-07-25
# 需要学習によるプライバシ保護型動的パーソナライズ価格

Privacy-Preserving Dynamic Personalized Pricing with Demand Learning ( http://arxiv.org/abs/2009.12920v2 )

ライセンス: Link先を確認
Xi Chen and David Simchi-Levi and Yining Wang(参考訳) eコマースの普及により、詳細な顧客の個人情報は小売業者に容易にアクセス可能となり、この情報は価格決定に広く使われている。 パーソナライズされた情報を巻き込む場合、そのような情報のプライバシーを守る方法が現実的に重要な問題となる。 本稿では,ポスト価格とパーソナライズされた情報の要求関数であるemph{unknown}要求関数を用いて,T$以上の動的価格問題を考察する。 t$のたびに、店主は到着した顧客の個人情報を観察し、価格を提示する。 顧客は購入決定を行い、その決定は小売業者が基礎となる需要関数を学ぶために利用する。 第三者エージェントは、価格体系からの価格変更からパーソナライズされた情報と購入決定を推論する可能性がある。 コンピュータ科学からのディファレンシャルプライバシの基本的な枠組みを用いて,個々の顧客の情報漏洩や購入決定を回避しつつ,小売業者の収益を最大化しようとするプライバシ保存動的価格ポリシーを開発した。 この目的のために、我々はまず、動的な価格問題に合わせた、" \emph{anticipating} $(\varepsilon, \delta)$-differential privacy"の概念を導入する。 我々の政策は、後悔の観点からプライバシー保証とパフォーマンス保証の両方を達成する。 大まかに言えば、$d$のパーソナライズされた情報に対して、我々のアルゴリズムは、顧客情報が逆選択されたときに、$\tilde{O}(\varepsilon^{-1} \sqrt{d^3 T})$の順序で、期待された後悔を達成する。 確率的パーソナライズされた情報では、後悔の境界はさらに$\tilde{o}(\sqrt{d^2t} + \varepsilon^{-2} d^2)$に改善される。

The prevalence of e-commerce has made detailed customers' personal information readily accessible to retailers, and this information has been widely used in pricing decisions. When involving personalized information, how to protect the privacy of such information becomes a critical issue in practice. In this paper, we consider a dynamic pricing problem over $T$ time periods with an \emph{unknown} demand function of posted price and personalized information. At each time $t$, the retailer observes an arriving customer's personal information and offers a price. The customer then makes the purchase decision, which will be utilized by the retailer to learn the underlying demand function. There is potentially a serious privacy concern during this process: a third party agent might infer the personalized information and purchase decisions from price changes from the pricing system. Using the fundamental framework of differential privacy from computer science, we develop a privacy-preserving dynamic pricing policy, which tries to maximize the retailer revenue while avoiding information leakage of individual customer's information and purchasing decisions. To this end, we first introduce a notion of \emph{anticipating} $(\varepsilon, \delta)$-differential privacy that is tailored to dynamic pricing problem. Our policy achieves both the privacy guarantee and the performance guarantee in terms of regret. Roughly speaking, for $d$-dimensional personalized information, our algorithm achieves the expected regret at the order of $\tilde{O}(\varepsilon^{-1} \sqrt{d^3 T})$, when the customers' information is adversarially chosen. For stochastic personalized information, the regret bound can be further improved to $\tilde{O}(\sqrt{d^2T} + \varepsilon^{-2} d^2)$
翻訳日:2022-10-14 03:25:33 公開日:2021-07-25
# PlenoptiCam v1.0:光フィールドイメージングフレームワーク

PlenoptiCam v1.0: A light-field imaging framework ( http://arxiv.org/abs/2010.11687v5 )

ライセンス: Link先を確認
Christopher Hahne and Amar Aggoun(参考訳) 光フィールドカメラは、狭域深度センシングアプリケーションにおいて、リッチな3次元情報検索に重要な役割を果たす。 光フィールドを構成する重要な障害は、4次元画像データを計算的に校正し、調整し、再配置することである。 特定のplenopticカメラ専用のパイプラインを調整し、高い計算負荷を犠牲にして視点間の一貫性を改善することで、全体的な画質を向上させるためのいくつかの試みが提案されている。 この枠組みは、レンズ仕様に依存しない汎用カメラキャリブレーションのための新しいマイクロ画像スケール空間解析と、最適輸送理論からのパララックス不変で費用対効果の高い視点色均等化により、先行結果を得る。 センサとマイクロレンズグリッドのアーチファクトは、サブアパーチャ画像抽出、計算リフォーカス、サブサンプリング機能を備えたSchimpflugレンダリングにおいて優れた品質を実現するために、革新的な方法で補償される。 確立されたイメージメトリクスを用いたベンチマーク比較は,提案するパイプラインが大部分のケースで最先端ツールチェーンを上回っていることを示唆している。 ワッサーシュタイン距離から得られた結果は、我々の色移動が既存の輸送方法を上回ることを示している。 当社のアルゴリズムはオープンソースライセンスでリリースされており、少数の依存関係と異なるユーザインターフェースでクロスプラットフォームの互換性を提供します。 これにより、plenopticカメラ技術による結果の再現と実験が、この分野で働くピア研究者、開発者、写真家、データサイエンティストなどにとって便利なものになる。

Light-field cameras play a vital role for rich 3-D information retrieval in narrow range depth sensing applications. The key obstacle in composing light-fields from exposures taken by a plenoptic camera is to computationally calibrate, align and rearrange four-dimensional image data. Several attempts have been proposed to enhance the overall image quality by tailoring pipelines dedicated to particular plenoptic cameras and improving the consistency across viewpoints at the expense of high computational loads. The framework presented herein advances prior outcomes thanks to its novel micro image scale-space analysis for generic camera calibration independent of the lens specifications and its parallax-invariant, cost-effective viewpoint color equalization from optimal transport theory. Artifacts from the sensor and micro lens grid are compensated in an innovative way to enable superior quality in sub-aperture image extraction, computational refocusing and Scheimpflug rendering with sub-sampling capabilities. Benchmark comparisons using established image metrics suggest that our proposed pipeline outperforms state-of-the-art tool chains in the majority of cases. Results from a Wasserstein distance further show that our color transfer outdoes the existing transport methods. Our algorithms are released under an open-source license, offer cross-platform compatibility with few dependencies and different user interfaces. This makes the reproduction of results and experimentation with plenoptic camera technology convenient for peer researchers, developers, photographers, data scientists and others working in this field.
翻訳日:2022-10-07 14:24:00 公開日:2021-07-25
# スパースガウス過程における誘導点の確率的選択

Probabilistic selection of inducing points in sparse Gaussian processes ( http://arxiv.org/abs/2010.09370v4 )

ライセンス: Link先を確認
Anders Kirk Uhrenholt, Valentin Charvet, Bj{\o}rn Sand Jensen(参考訳) スパースガウス過程とその拡張は、予測能力を同時にボトルネックし、モデルの複雑さへの主要な貢献者となる点を誘導することで実現される。 しかし、誘導点数は一般に不確実性と関連付けられておらず、適切なトレードオフを特定するためのベイズ推論装置の適用を妨げている。 この研究では、誘導点に先立って点過程を設定し、確率的変動推論を通じて関連する後部を近似する。 事前に適度な数の誘導ポイントを奨励させることで、モデルがどの点と何点を利用するかを学ぶことができる。 実験により, モデルが情報量が少なくなるにつれて誘導点が少なくなり, 深いガウス過程や潜在変数モデリングにおいてどのように用いられるかを示す。

Sparse Gaussian processes and various extensions thereof are enabled through inducing points, that simultaneously bottleneck the predictive capacity and act as the main contributor towards model complexity. However, the number of inducing points is generally not associated with uncertainty which prevents us from applying the apparatus of Bayesian reasoning for identifying an appropriate trade-off. In this work we place a point process prior on the inducing points and approximate the associated posterior through stochastic variational inference. By letting the prior encourage a moderate number of inducing points, we enable the model to learn which and how many points to utilise. We experimentally show that fewer inducing points are preferred by the model as the points become less informative, and further demonstrate how the method can be employed in deep Gaussian processes and latent variable modelling.
翻訳日:2022-10-05 20:55:21 公開日:2021-07-25
# テキストデータにおけるLIMEの分析

An Analysis of LIME for Text Data ( http://arxiv.org/abs/2010.12487v2 )

ライセンス: Link先を確認
Dina Mardaoui and Damien Garreau(参考訳) テキストデータは機械学習アルゴリズムによって自動的に処理されるようになっている。 しかし、これらのデータを扱うモデルは複雑さのために必ずしもよく理解されておらず、より頻繁に「ブラックボックス」と呼ばれる。 解釈可能性法は、これらのモデルがどのように動作するかを説明することを目的としている。 中でも近年、LIMEは最も人気がある1つとなっている。 単純なモデルであっても、LIMEが正確に振る舞うかどうかはわかりません。 本稿では,テキストデータに対するLIMEの理論的解析について述べる。 その結果,LIMEは決定木や線形モデルといった単純なモデルに対して有意義な説明を提供することがわかった。

Text data are increasingly handled in an automated fashion by machine learning algorithms. But the models handling these data are not always well-understood due to their complexity and are more and more often referred to as "black-boxes." Interpretability methods aim to explain how these models operate. Among them, LIME has become one of the most popular in recent years. However, it comes without theoretical guarantees: even for simple models, we are not sure that LIME behaves accurately. In this paper, we provide a first theoretical analysis of LIME for text data. As a consequence of our theoretical findings, we show that LIME indeed provides meaningful explanations for simple models, namely decision trees and linear models.
翻訳日:2022-10-03 21:22:46 公開日:2021-07-25
# 全スライス画像から喉頭組織と前立腺癌を抽出するための拡張的階層的階層分割フレームワーク

A Dilated Residual Hierarchically Fashioned Segmentation Framework for Extracting Gleason Tissues and Grading Prostate Cancer from Whole Slide Images ( http://arxiv.org/abs/2011.00527v5 )

ライセンス: Link先を確認
Taimur Hassan and Bilal Hassan and Ayman El-Baz and Naoufel Werghi(参考訳) 前立腺癌(PCa)は、男性で2番目に致命的ながんであり、グリーソン組織の構造的表現を調べることで臨床的に評価できる。 本稿では、スライド画像全体(WSI)からPCaをグレードするために、Gleason の組織を RV{(patch-wise) に分割する新しい方法を提案する。 また、提案されたアプローチには2つの大きな貢献がある。 1) グリソン組織抽出のためのハイブリッド拡張因子の相乗効果と潜在空間表現の階層的分解 2)異なる意味セグメンテーションモデルをペナライズして高い相関パターンを正確に抽出できる3層損失関数。 さらに,10,516個のスライドスキャン(約71.7Mパッチ)を含む大規模PCaデータセットを用いて,Gleason組織抽出のための最先端スキームを3.22%(平均交叉結合),PCaの進行度を6.91%(F1スコア)で上回った。

Prostate cancer (PCa) is the second deadliest form of cancer in males, and it can be clinically graded by examining the structural representations of Gleason tissues. This paper proposes \RV{a new method} for segmenting the Gleason tissues \RV{(patch-wise) in order to grade PCa from the whole slide images (WSI).} Also, the proposed approach encompasses two main contributions: 1) A synergy of hybrid dilation factors and hierarchical decomposition of latent space representation for effective Gleason tissues extraction, and 2) A three-tiered loss function which can penalize different semantic segmentation models for accurately extracting the highly correlated patterns. In addition to this, the proposed framework has been extensively evaluated on a large-scale PCa dataset containing 10,516 whole slide scans (with around 71.7M patches), where it outperforms state-of-the-art schemes by 3.22% (in terms of mean intersection-over-union) for extracting the Gleason tissues and 6.91% (in terms of F1 score) for grading the progression of PCa.
翻訳日:2022-09-30 23:47:05 公開日:2021-07-25
# ガウス混合系のロバスト学習性の設定

Settling the Robust Learnability of Mixtures of Gaussians ( http://arxiv.org/abs/2011.03622v3 )

ライセンス: Link先を確認
Allen Liu, Ankur Moitra(参考訳) この研究は、ガウスの混合の学習とアルゴリズム的ロバストな統計の2つの重要な作業の自然な合体を示している。 特に、一定の数のガウスの混合を学習するための証明可能な最初のアルゴリズムを与える。 混合重み(有界分数性)について軽度な仮定しか必要とせず、成分間の総変分距離はゼロから遠ざかっている。 我々のアルゴリズムの核心は、私たちが学びたいパラメータをエンコードするだけでなく、解決したい多項式方程式の体系に、慎重に選択された微分演算の列を適用することで、次元非依存多項式識別性を証明する新しい方法である。 自然2乗の和緩和を解析するために、我々が導出する記号的同一性が直接どのように用いられるかを示す。

This work represents a natural coalescence of two important lines of work: learning mixtures of Gaussians and algorithmic robust statistics. In particular we give the first provably robust algorithm for learning mixtures of any constant number of Gaussians. We require only mild assumptions on the mixing weights (bounded fractionality) and that the total variation distance between components is bounded away from zero. At the heart of our algorithm is a new method for proving dimension-independent polynomial identifiability through applying a carefully chosen sequence of differential operations to certain generating functions that not only encode the parameters we would like to learn but also the system of polynomial equations we would like to solve. We show how the symbolic identities we derive can be directly used to analyze a natural sum-of-squares relaxation.
翻訳日:2022-09-29 04:50:49 公開日:2021-07-25
# テキストマイニングにおける潜在意味分析と対応分析の比較

A Comparison of Latent Semantic Analysis and Correspondence Analysis for Text Mining ( http://arxiv.org/abs/2108.06197v1 )

ライセンス: Link先を確認
Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden(参考訳) 潜在意味分析(LSA)と対応解析(CA)は、次元の減少に特異値分解(SVD)を用いる。 本稿では、LAAとCAを理論的観点から比較し、おもちゃの例と著者帰属の例の両方に適用する。 テキストマイニングにおいて、興味は文書と用語の間の関係に向けられる:例えば、どの用語がどの文書でより頻繁に使われるか。 しかし、LSA溶液は限界効果とこれらの関係の混合を示す。 CA は LSA よりも魅力的な性質を持つ。 そのような性質の1つは、CAではマージンの効果を効果的に排除し、CA解は文書と用語間の関係に集中するのに最適であるということである。 3つのメカニズムは文書と用語の重み付けと区別され,これら3つのメカニズムを含む統一フレームワークが提案されている。 著者帰属の例では、オランダの国歌において、議論された方法の適用について説明する。

Both latent semantic analysis (LSA) and correspondence analysis (CA) use a singular value decomposition (SVD) for dimensionality reduction. In this article, LSA and CA are compared from a theoretical point of view and applied in both a toy example and an authorship attribution example. In text mining interest goes out to the relationships among documents and terms: for example, what terms are more often used in what documents. However, the LSA solution displays a mix of marginal effects and these relationships. It appears that CA has more attractive properties than LSA. One such property is that, in CA, the effect of the margins is effectively eliminated, so that the CA solution is optimally suited to focus on the relationships among documents and terms. Three mechanisms are distinguished to weight documents and terms, and a unifying framework is proposed that includes these three mechanisms and includes both CA and LSA as special cases. In the authorship attribution example, the national anthem of the Netherlands, the application of the discussed methods is illustrated.
翻訳日:2021-08-22 14:35:26 公開日:2021-07-25
# 画像によるcovid-19の検出と診断のための機械学習技術に関する調査

A Survey of Machine Learning Techniques for Detecting and Diagnosing COVID-19 from Imaging ( http://arxiv.org/abs/2108.04344v1 )

ライセンス: Link先を確認
Aishwarza Panday, Muhammad Ashad Kabir, Nihad Karim Chowdhury(参考訳) 逆転写-ポリメラーゼ連鎖反応(RT-PCR)の高可用性と高コストのため、医療画像からCOVID-19を検出するための機械学習技術が提案されている。 本研究の目的は、異なる機械学習技術を用いて胸部X線およびCTスキャン画像から新型コロナウイルスを検出し診断した研究論文を体系的にレビューし、評価し、合成することである。 関連文献データベースで構造化された文献検索を行い,再現性,高品質な研究のみに焦点を当てた調査を行った。 包含基準に基づいて論文を選定した。 本調査では,包括的基準を満たす980ドルの項目をレビューした。 データ収集,前処理,特徴抽出,分類,可視化など,covid-19に関連する胸部画像解析技術の全パイプラインを調査した。 我々は、医療画像の最新の進歩を描写するために、CTスキャンとX線が広く使われていると考えている。 今回の調査は、さまざまな機械学習技術と、胸部画像からのCOVID-19の検出と診断におけるパフォーマンスに関する貴重な洞察を提供する。 最後に、機械学習技術を用いたcovid-19検出の課題と限界、研究の今後の方向性について論じる。

Due to the limited availability and high cost of the reverse transcription-polymerase chain reaction (RT-PCR) test, many studies have proposed machine learning techniques for detecting COVID-19 from medical imaging. The purpose of this study is to systematically review, assess, and synthesize research articles that have used different machine learning techniques to detect and diagnose COVID-19 from chest X-ray and CT scan images. A structured literature search was conducted in the relevant bibliographic databases to ensure that the survey solely centered on reproducible and high-quality research. We selected papers based on our inclusion criteria. In this survey, we reviewed $98$ articles that fulfilled our inclusion criteria. We have surveyed a complete pipeline of chest imaging analysis techniques related to COVID-19, including data collection, pre-processing, feature extraction, classification, and visualization. We have considered CT scans and X-rays as both are widely used to describe the latest developments in medical imaging to detect COVID-19. This survey provides researchers with valuable insights into different machine learning techniques and their performance in the detection and diagnosis of COVID-19 from chest imaging. At the end, the challenges and limitations in detecting COVID-19 using machine learning techniques and the future direction of research are discussed.
翻訳日:2021-08-15 11:30:25 公開日:2021-07-25
# (参考訳) 地球規模における水温時系列予測可能性の説明と予測のための大規模特徴抽出

Massive feature extraction for explaining and foretelling hydroclimatic time series forecastability at the global scale ( http://arxiv.org/abs/2108.00846v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis, Ilias G. Pechlivanidis, Salvatore Grimaldi, Elena Volpi(参考訳) 統計分析や記述的特徴付けは、時系列の予測可能性に関する情報を提供すると考えられている。 このような仮定によって示唆される科学的関心にもかかわらず、記述的時系列特徴(時間的依存、エントロピー、季節性、傾向、非線形性特徴など)と実際の時系列予測可能性(過去の予測の発行と評価によって定量化)の関係は文献でほとんど研究されていない。 本研究では,このような関係を解明し,水環境予測可能性の理解に活用することで,このギャップを埋めることを目的としている。 この目的のために、57の記述的特徴を含むさまざまな(主に水文学の新しい)概念とメソッドをまとめて、体系的なフレームワークに従います。 このフレームワークを3つのグローバルデータセットに適用する。 これらのデータセットは, 月間気温, 降水量, 河川流量の時系列で構成されているため, 地球規模での温暖化予測可能性について, 信頼性の高いキャラクタリゼーションと解釈を行うことができる。 Nash-Sutcliffe効率のこの予測可能性は、いくつかの記述的特徴と強く関連している。 さらに,このような記述的情報が時系列で利用可能であれば,その将来予測の品質をある程度の信頼性で予見することができ,かつ (ii) 予測可能性の推測と予測の効率に応じて特徴をランク付けすることができることを示す。 空間予測可能性パターンも実験によって明らかにされる。 大量の特徴抽出と特徴に基づく時系列クラスタリングにより、このようなパターの包括的解釈が可能であることが示されている。

Statistical analyses and descriptive characterizations are sometimes assumed to be offering information on time series forecastability. Despite the scientific interest suggested by such assumptions, the relationships between descriptive time series features (e.g., temporal dependence, entropy, seasonality, trend and nonlinearity features) and actual time series forecastability (quantified by issuing and assessing forecasts for the past) are scarcely studied and quantified in the literature. In this work, we aim to fill in this gap by investigating such relationships, and the way that they can be exploited for understanding hydroclimatic forecastability. To this end, we follow a systematic framework bringing together a variety of -- mostly new for hydrology -- concepts and methods, including 57 descriptive features. We apply this framework to three global datasets. As these datasets comprise over 13 000 monthly temperature, precipitation and river flow time series from several continents and hydroclimatic regimes, they allow us to provide trustable characterizations and interpretations of 12-month ahead hydroclimatic forecastability at the global scale. We find that this forecastability in terms of Nash-Sutcliffe efficiency is strongly related to several descriptive features. We further (i) show that, if such descriptive information is available for a time series, we can even foretell the quality of its future forecasts with a considerable degree of confidence, and (ii) rank the features according to their efficiency in inferring and foretelling forecastability. Spatial forecastability patterns are also revealed through our experiments. A comprehensive interpretation of such patters through massive feature extraction and feature-based time series clustering is shown to be possible.
翻訳日:2021-08-08 11:19:32 公開日:2021-07-25
# 知っておくべきこと - 離散イベントシステムにおける知識と行動の結合

Do What You Know: Coupling Knowledge with Action in Discrete-Event Systems ( http://arxiv.org/abs/2108.02000v1 )

ライセンス: Link先を確認
Richard Ean (1), Karen Rudie (1) ((1) Queen's University, Kingston, Canada)(参考訳) 非バイナリ制御を伴う分散離散イベントシステムの疫学モデルを示す。 このフレームワークは、条件制御決定に関する既存の作業と、離散イベントシステムにおける知識に関する正式な推論に関する既存の作業を組み合わせる。 提示されたモデルの新規性は、問題解決可能性に必要な必要十分条件が、監督者が取るべき行動をカプセル化することである。 この知識と行動の直接的な結合 -- 自然言語を模倣した形式的構造 -- により、問題条件が失敗した場合、問題要件の修正方法を決定するのが容易になります。

An epistemic model for decentralized discrete-event systems with non-binary control is presented. This framework combines existing work on conditional control decisions with existing work on formal reasoning about knowledge in discrete-event systems. The novelty in the model presented is that the necessary and sufficient conditions for problem solvability encapsulate the actions that supervisors must take. This direct coupling between knowledge and action -- in a formalism that mimics natural language -- makes it easier, when the problem conditions fail, to determine how the problem requirements should be revised.
翻訳日:2021-08-08 11:04:00 公開日:2021-07-25
# オンラインソーシャルネットワークにおける感情分析を用いた群集行動に関する研究

A Study on Herd Behavior Using Sentiment Analysis in Online Social Network ( http://arxiv.org/abs/2108.01728v1 )

ライセンス: Link先を確認
Suchandra Dutta, Dhrubasish Sarkar, Sohom Roy, Dipak K. Kole, Premananda Jana(参考訳) ソーシャルメディアプラットフォームは最近盛んなので、大量のデータが生成される。 簡潔で明確な声明が含まれているため、何百万人もの人々が毎日マイクロブログサイトで自分の考えを投稿している。 本稿では,オンラインソーシャルネットワーキングサイトからの批判的意見を予測するために,ボリューム,デリケート,ソーシャルネットワークに対する多様な戦略の能力を表現し,分析する。 特定の検索の探索において、人々の思考は重要な役割を担っている。 ソーシャルメディアはここ数十年で良いメディアとなり、世界中の意見を共有している。 感情分析や意見マイニングは、一般大衆の意見や考えを抽出するためのツールである。 経済、政治、社会といった一つの場所で起こることは、ますます相互に繋がる世界において、他の多くのサイトで大規模なチェーンの公開反応を引き起こす可能性がある。 本研究は,ソーシャルメディアコンテンツを用いた感情分析手法の評価と,主観性と集団行動とクラスタリング係数との関連性,ならびに選挙結果の予測を試みるものである(西ベンガルにおける2021年の選挙)。 これは、ソーシャルメディア全体の世論を評価することによって、次期選挙の結果を推定することを目的とした感情分析の実装である。 本論文は,他の分野におけるアイデアの有用性に関する簡単な議論セクションも設けた。

Social media platforms are thriving nowadays, so a huge volume of data is produced. As it includes brief and clear statements, millions of people post their thoughts on microblogging sites every day. This paper represents and analyze the capacity of diverse strategies to volumetric, delicate, and social networks to predict critical opinions from online social networking sites. In the exploration of certain searching for relevant, the thoughts of people play a crucial role. Social media becomes a good outlet since the last decades to share the opinions globally. Sentiment analysis as well as opinion mining is a tool that is used to extract the opinions or thoughts of the common public. An occurrence in one place, be it economic, political, or social, may trigger large-scale chain public reaction across many other sites in an increasingly interconnected world. This study demonstrates the evaluation of sentiment analysis techniques using social media contents and creating the association between subjectivity with herd behavior and clustering coefficient as well as tries to predict the election result (2021 election in West Bengal). This is an implementation of sentiment analysis targeted at estimating the results of an upcoming election by assessing the public's opinion across social media. This paper also has a short discussion section on the usefulness of the idea in other fields.
翻訳日:2021-08-08 11:03:51 公開日:2021-07-25
# リレーショナルブースト回帰木

Relational Boosted Regression Trees ( http://arxiv.org/abs/2107.12373v1 )

ライセンス: Link先を確認
Sonia Cromp, Alireza Samadian, Kirk Pruhs(参考訳) 多くのタスクはリレーショナルデータベースに格納されたデータを使用して、強化された回帰ツリーモデルをトレーニングする。 本稿では,強化回帰木を訓練するためのgreedyアルゴリズムのリレーショナル適応について述べる。 ブースティングアルゴリズムのランタイムを支配しているデータセットの平方残差の和を計算するサブプロブレムに対して、テンソルスケッチ手法を用いて$(1 + \epsilon)$-approximationを提供する。 この近似をリレーショナル強化回帰木アルゴリズムに組み込むことで、同様のモデルパラメータを学習するが、漸近的に優れたランタイムを持つ。

Many tasks use data housed in relational databases to train boosted regression tree models. In this paper, we give a relational adaptation of the greedy algorithm for training boosted regression trees. For the subproblem of calculating the sum of squared residuals of the dataset, which dominates the runtime of the boosting algorithm, we provide a $(1 + \epsilon)$-approximation using the tensor sketch technique. Employing this approximation within the relational boosted regression trees algorithm leads to learning similar model parameters, but with asymptotically better runtime.
翻訳日:2021-07-28 14:28:36 公開日:2021-07-25
# (参考訳) ダイナミックロスネットワークによるビデオキャプションの高速化

Boosting Video Captioning with Dynamic Loss Network ( http://arxiv.org/abs/2107.11707v1 )

ライセンス: CC BY 4.0
Nasibullah, Partha Pratim Mohanta(参考訳) ビデオキャプションは、映像検索、ビデオ監視、視覚障害者支援、人間と機械のインターフェイスなど、多くの現実のアプリケーションを持つビジョンと言語の交差点における困難な問題の1つだ。 近年の深層学習に基づく手法は有望な結果を示しているが、他の視覚タスク(画像分類、物体検出など)よりもまだ下位にある。 既存のビデオキャプション手法の重大な欠点は、デファクト評価指標(BLEU, METEOR, CIDER, ROUGE)とは無関係なクロスエントロピー損失関数に最適化されることである。 本稿では,評価指標を直接反映したフィードバック信号を提供する動的損失ネットワーク(DLN)を導入することで,その欠点に対処する。 Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSRVTT) のデータセットは,従来の手法よりも優れていた。

Video captioning is one of the challenging problems at the intersection of vision and language, having many real-life applications in video retrieval, video surveillance, assisting visually challenged people, Human-machine interface, and many more. Recent deep learning-based methods have shown promising results but are still on the lower side than other vision tasks (such as image classification, object detection). A significant drawback with existing video captioning methods is that they are optimized over cross-entropy loss function, which is uncorrelated to the de facto evaluation metrics (BLEU, METEOR, CIDER, ROUGE).In other words, cross-entropy is not a proper surrogate of the true loss function for video captioning. This paper addresses the drawback by introducing a dynamic loss network (DLN), which provides an additional feedback signal that directly reflects the evaluation metrics. Our results on Microsoft Research Video Description Corpus (MSVD) and MSR-Video to Text (MSRVTT) datasets outperform previous methods.
翻訳日:2021-07-28 02:59:50 公開日:2021-07-25
# (参考訳) 介入分布の効率的な推定

Efficient inference of interventional distributions ( http://arxiv.org/abs/2107.11712v1 )

ライセンス: CC BY 4.0
Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, Vedant Raval, N. V. Vinodchandran(参考訳) 有限個の観測値から因果ベイズネットワーク内の干渉分布を効率的に推定する問題を考察する。 与えられた因果グラフ上の可観測変数のセット $\mathbf{v}$ 上の因果モデルとして $\mathcal{p}$ とする。 集合 $\mathbf{x},\mathbf{y}\subseteq \mathbf{v}$, and set ${\bf x}$ to $\mathbf{x}$, let $p_{\bf x}(\mathbf{y})$ は変数 ${\bf x}$ に対する介入${\bf x}$ に関して$\mathbf{y}$ 上の介入分布を表す。 Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), given a exact Characterization of the class of causal graphs that the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined。 shpitser-pearlアルゴリズムの最初の効率的なバージョンを与える。 特に、自然仮定の下では、可観測変数 $\mathbf{v}$, a set $\mathbf{x} \subseteq \mathbf{v}$ of bounded size, outputs succinct descriptions of a evaluator and a distribution $\hat{p}$ that is $\varepsilon$-close (in total variation distance) to $p_{\bf x}({\mathbf{y}})$ where $y=\mathbf{v}\setminus \mathbf{x}$, if $p_{\bf x}(\mathbf{y})$, if $p_{\bf x}(\mathbf{y})$ の因果グラフを入力する多項式時間アルゴリズムを与える。 また、$\mathbf{y}$ が任意の集合である場合、グラフ同型問題を含む統計的ゼロ知識証明を持つすべての問題が効率的なランダム化アルゴリズムを持つ場合を除き、$\varepsilon$-closeから$p_{\bf x}({\mathbf{y}})$となる分布の蒸発器を出力する効率的なアルゴリズムは存在しないことを示した。

We consider the problem of efficiently inferring interventional distributions in a causal Bayesian network from a finite number of observations. Let $\mathcal{P}$ be a causal model on a set $\mathbf{V}$ of observable variables on a given causal graph $G$. For sets $\mathbf{X},\mathbf{Y}\subseteq \mathbf{V}$, and setting ${\bf x}$ to $\mathbf{X}$, let $P_{\bf x}(\mathbf{Y})$ denote the interventional distribution on $\mathbf{Y}$ with respect to an intervention ${\bf x}$ to variables ${\bf x}$. Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), gave an exact characterization of the class of causal graphs for which the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined. We give the first efficient version of the Shpitser-Pearl algorithm. In particular, under natural assumptions, we give a polynomial-time algorithm that on input a causal graph $G$ on observable variables $\mathbf{V}$, a setting ${\bf x}$ of a set $\mathbf{X} \subseteq \mathbf{V}$ of bounded size, outputs succinct descriptions of both an evaluator and a generator for a distribution $\hat{P}$ that is $\varepsilon$-close (in total variation distance) to $P_{\bf x}({\mathbf{Y}})$ where $Y=\mathbf{V}\setminus \mathbf{X}$, if $P_{\bf x}(\mathbf{Y})$ is identifiable. We also show that when $\mathbf{Y}$ is an arbitrary set, there is no efficient algorithm that outputs an evaluator of a distribution that is $\varepsilon$-close to $P_{\bf x}({\mathbf{Y}})$ unless all problems that have statistical zero-knowledge proofs, including the Graph Isomorphism problem, have efficient randomized algorithms.
翻訳日:2021-07-28 02:52:04 公開日:2021-07-25
# (参考訳) 音声言語理解のための統合的・ドメイン適応的アプローチ

A Joint and Domain-Adaptive Approach to Spoken Language Understanding ( http://arxiv.org/abs/2107.11768v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Yu Shi, Linjun Shou, Ming Gong, Houfeng Wang, Michael Zeng(参考訳) Spoken Language Understanding (SLU)は、インテント検出(ID)とスロットフィリング(SF)の2つのサブタスクで構成されている。 SLUには2つの研究線がある。 1つはこれら2つのサブタスクに共同で取り組み、予測精度を向上させ、もう1つはサブタスクのドメイン適応能力に焦点を当てている。 本稿では,これら2つの研究ラインを橋渡しし,SLUに対する共同およびドメイン適応アプローチを提案する。 制約付き生成タスクとしてSLUを定式化し、ドメイン固有オントロジーに基づく動的語彙を利用する。 ASMixed と MTOD のデータセット上で実験を行い、従来の最先端関節モデルと競合する性能を実現する。 また,共同モデルが新しい領域に効果的に適応できることを示した。

Spoken Language Understanding (SLU) is composed of two subtasks: intent detection (ID) and slot filling (SF). There are two lines of research on SLU. One jointly tackles these two subtasks to improve their prediction accuracy, and the other focuses on the domain-adaptation ability of one of the subtasks. In this paper, we attempt to bridge these two lines of research and propose a joint and domain adaptive approach to SLU. We formulate SLU as a constrained generation task and utilize a dynamic vocabulary based on domain-specific ontology. We conduct experiments on the ASMixed and MTOD datasets and achieve competitive performance with previous state-of-the-art joint models. Besides, results show that our joint model can be effectively adapted to a new domain.
翻訳日:2021-07-28 02:31:36 公開日:2021-07-25
# (参考訳) 集中学習:対話状態追跡のための階層型動的コピーネットワーク

Learn to Focus: Hierarchical Dynamic Copy Network for Dialogue State Tracking ( http://arxiv.org/abs/2107.11778v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Houfeng Wang(参考訳) 近年,タスク指向対話システムの主要なコンポーネントである対話状態追跡(dst)に取り組むために,エンコーダ・デコーダフレームワークの利用が研究されている。 しかし、彼らはマルチターン対話をフラットなシーケンスとみなし、シーケンスが長い場合に有用な情報に集中できない。 本稿では,最も有益なターンに着目し,対話コンテキストからスロット値を抽出することを容易にする階層型動的コピーネットワーク(hdcn)を提案する。 エンコーダ・デコーダ・フレームワークに基づいて,ワード・ターンレベルで2つの注意レベルを計算し,最後にコピー分布を得るために再正規化する階層的コピー・アプローチを採用する。 フォーカス損失項は、最も情報性の高いターンに最も高いターンレベルの注意重みを割り当てるようモデルに促すために使用される。 実験の結果,MultiWOZ 2.1データセットでは46.76%のジョイント精度が得られた。

Recently, researchers have explored using the encoder-decoder framework to tackle dialogue state tracking (DST), which is a key component of task-oriented dialogue systems. However, they regard a multi-turn dialogue as a flat sequence, failing to focus on useful information when the sequence is long. In this paper, we propose a Hierarchical Dynamic Copy Network (HDCN) to facilitate focusing on the most informative turn, making it easier to extract slot values from the dialogue context. Based on the encoder-decoder framework, we adopt a hierarchical copy approach that calculates two levels of attention at the word- and turn-level, which are then renormalized to obtain the final copy distribution. A focus loss term is employed to encourage the model to assign the highest turn-level attention weight to the most informative turn. Experimental results show that our model achieves 46.76% joint accuracy on the MultiWOZ 2.1 dataset.
翻訳日:2021-07-28 02:18:06 公開日:2021-07-25
# (参考訳) コメントの制御と多角的生成に向けて

Towards Controlled and Diverse Generation of Article Comments ( http://arxiv.org/abs/2107.11781v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Houfeng Wang(参考訳) 近年、多くの研究が記事の自動コメントに注目している。 しかし、以前の研究のほとんどがコメントの制御可能な生成に焦点を当てている。 さらに、鈍いコメントや一般的なコメントも生成する傾向があり、実用的なアプリケーションはさらに制限される。 本稿では、生成したコメントの感情を明示的に制御できるシステムを構築することにより、コメントの制御可能な生成に向けて第一歩を踏み出す。 これを実現するために,各感情カテゴリを組込みと関連付け,動的融合機構を採用し,これをデコーダに融合する。 さらに、文レベルの感情分類器を用いて、モデルに望ましい感情を表現するコメントを生成するよう誘導する。 生成したコメントの多様性を高めるために,モデルが入力記事からの単語を直接コピーできる階層的コピー機構を提案する。 また,sentenceの多様性を高めるために,制限ビーム探索 (rbs) アルゴリズムを提案する。 実験結果から,本モデルは所望の感情を高精度に表現する情報的・多様なコメントを生成できることがわかった。

Much research in recent years has focused on automatic article commenting. However, few of previous studies focus on the controllable generation of comments. Besides, they tend to generate dull and commonplace comments, which further limits their practical application. In this paper, we make the first step towards controllable generation of comments, by building a system that can explicitly control the emotion of the generated comments. To achieve this, we associate each kind of emotion category with an embedding and adopt a dynamic fusion mechanism to fuse this embedding into the decoder. A sentence-level emotion classifier is further employed to better guide the model to generate comments expressing the desired emotion. To increase the diversity of the generated comments, we propose a hierarchical copy mechanism that allows our model to directly copy words from the input articles. We also propose a restricted beam search (RBS) algorithm to increase intra-sentence diversity. Experimental results show that our model can generate informative and diverse comments that express the desired emotions with high accuracy.
翻訳日:2021-07-28 02:07:08 公開日:2021-07-25
# (参考訳) 組合せ最適化問題の解法における人間-アルゴリズム協調の力

Power of human-algorithm collaboration in solving combinatorial optimization problems ( http://arxiv.org/abs/2107.11784v1 )

ライセンス: CC BY 4.0
Tapani Toivonen(参考訳) 多くの組合せ最適化問題は、正確にあるいは近似によって解くには難解であると考えられている。 そのような問題の例として、複雑性理論の標準的な仮定の下では、最小指数時間で解くことも多項式係数内で効率的に近似することもできない最大クランクがある。 多項式時間アルゴリズムが専門家の $poly(n)$ から有意なガウス前処理を問い合わせることができれば、乗算係数 $\epsilon$ まで期待して組合せ最適化問題のクラスを効率的に解くことができ、ここで $\epsilon$ は任意の定数である。 提案手法は理論的なものに過ぎないが,通常難解であると考えられるこれらの問題を解決する方法に新たな光を当てた。

Many combinatorial optimization problems are often considered intractable to solve exactly or by approximation. An example of such problem is maximum clique which -- under standard assumptions in complexity theory -- cannot be solved in sub-exponential time or be approximated within polynomial factor efficiently. We show that if a polynomial time algorithm can query informative Gaussian priors from an expert $poly(n)$ times, then a class of combinatorial optimization problems can be solved efficiently in expectation up to a multiplicative factor $\epsilon$ where $\epsilon$ is arbitrary constant. While our proposed methods are merely theoretical, they cast new light on how to approach solving these problems that have been usually considered intractable.
翻訳日:2021-07-28 01:53:25 公開日:2021-07-25
# (参考訳) bnmonitor Rパッケージを用いたベイズネットワークの感度とロバスト性解析

Sensitivity and robustness analysis in Bayesian networks with the bnmonitor R package ( http://arxiv.org/abs/2107.11785v1 )

ライセンス: CC BY 4.0
Manuele Leonelli, Ramsiya Ramanathan, Rachel L. Wilkerson(参考訳) ベイズネットワーク(英: Bayesian network)は、複雑な運用システムのリスクアセスメントに広く用いられているモデルである。 今では複数のアプローチと実装済みのソフトウェアがあり、データ学習やエキスパートの理解を通じて構築を導く。 しかし、構築されたベイズネットワークは、実用的なリスク評価に使用できる前に検証する必要がある。 ここでは、bnmonitor rパッケージ(ベイズネットワークの検証のための最初の包括的なソフトウェア)の使用例を示す。 医療データセット上でbnmonitorを用いた応用データ分析を行い、その広範囲な機能の利用を図示する。

Bayesian networks are a class of models that are widely used for risk assessment of complex operational systems. There are now multiple approaches, as well as implemented software, that guide their construction via data learning or expert elicitation. However, a constructed Bayesian network needs to be validated before it can be used for practical risk assessment. Here, we illustrate the usage of the bnmonitor R package: the first comprehensive software for the validation of a Bayesian network. An applied data analysis using bnmonitor is carried out over a medical dataset to illustrate the use of its wide array of functions.
翻訳日:2021-07-28 01:41:07 公開日:2021-07-25
# (参考訳) 深層学習に基づく凍結部からFFPE翻訳

Deep Learning-based Frozen Section to FFPE Translation ( http://arxiv.org/abs/2107.11786v1 )

ライセンス: CC BY 4.0
Kutsev Bengisu Ozyoruk, Sermet Can, Guliz Irem Gokceler, Kayhan Basak, Derya Demir, Gurdeniz Serin, Uguray Payam Hacisalihoglu, Berkan Darbaz, Ming Y. Lu, Tiffany Y. Chen, Drew F. K. Williamson, Funda Yilmaz, Faisal Mahmood, Mehmet Turan(参考訳) 凍結切片 (FS) は外科手術中の組織を顕微鏡的に評価する方法である。 手術の高速化により、病理医は腫瘍のマージンや悪性度などの重要な顕微鏡的特徴を迅速に評価し、外科的意思決定をガイドし、手術の経過を最小化することができる。 しかし、FSは核氷結晶、圧縮、切削人工物など多くの誤解を招く人工構造物(考古学的人工物)を導入する傾向があり、病理学者のタイムリーかつ正確な診断を妨げている。 一方, ホルマリン固定法とパラフィン埋め込み法(FFPE)の金標準組織調製法は画像品質を著しく向上させるが, 非常に時間を要する(12~48時間)であり, 術中使用には適さない。 本稿では,凍結切断された全スライディング画像(FS-WSI)を全スライディングFFPE画像に数分で変換することにより,FS画質を向上させる人工知能(AI)手法を提案する。 AI-FFPEは、FS入力画像と臨床的に関係のある特徴を保存したFFPEスタイルの画像との間に確立された自己規則化メカニズムを活用しながら、アーティファクトに特に重点を置く注目機構のガイダンスでFSアーティファクトを修正する。 その結果, 組織処理時間を著しく延長することなく, ffpe型画像の生成に成功し, 診断精度が向上した。

Frozen sectioning (FS) is the preparation method of choice for microscopic evaluation of tissues during surgical operations. The high speed of procedure allows pathologists to rapidly assess the key microscopic features, such as tumor margins and malignant status to guide surgical decision-making and minimise disruptions to the course of the operation. However, FS is prone to introducing many misleading artificial structures (histological artefacts), such as nuclear ice crystals, compression, and cutting artefacts, hindering timely and accurate diagnostic judgement of the pathologist. On the other hand, the gold standard tissue preparation technique of formalin-fixation and paraffin-embedding (FFPE) provides significantly superior image quality, but is a very time-consuming process (12-48 hours), making it unsuitable for intra-operative use. In this paper, we propose an artificial intelligence (AI) method that improves FS image quality by computationally transforming frozen-sectioned whole-slide images (FS-WSIs) into whole-slide FFPE-style images in minutes. AI-FFPE rectifies FS artefacts with the guidance of an attention-mechanism that puts a particular emphasis on artefacts while utilising a self-regularization mechanism established between FS input image and synthesized FFPE-style image that preserves clinically relevant features. As a result, AI-FFPE method successfully generates FFPE-style images without significantly extending tissue processing time and consequently improves diagnostic accuracy.
翻訳日:2021-07-28 01:28:06 公開日:2021-07-25
# (参考訳) 機械学習を用いた文字スポッティング

Character Spotting Using Machine Learning Techniques ( http://arxiv.org/abs/2107.11795v1 )

ライセンス: CC0 1.0
P Preethi and Hrishikesh Viswanath(参考訳) 本研究は、画像として提示されるテキストの文字を分割するために実装された機械学習アルゴリズムの比較を示す。 アルゴリズムは、整列していないテキストで劣化した文書を扱うよう設計されている。 本稿では,文字スポッティングを行うための支援ベクトルマシン,K-Nearest Neighborアルゴリズム,エンコーダネットワークの利用について検討する。 文字スポッティングは、ホワイトスペースで区切られた領域を選択することによって、テキストストリームから潜在的文字を抽出する。

This work presents a comparison of machine learning algorithms that are implemented to segment the characters of text presented as an image. The algorithms are designed to work on degraded documents with text that is not aligned in an organized fashion. The paper investigates the use of Support Vector Machines, K-Nearest Neighbor algorithm and an Encoder Network to perform the operation of character spotting. Character Spotting involves extracting potential characters from a stream of text by selecting regions bound by white space.
翻訳日:2021-07-28 01:14:23 公開日:2021-07-25
# (参考訳) 任意形状のシーンテキスト検出のための総合的研究

Comprehensive Studies for Arbitrary-shape Scene Text Detection ( http://arxiv.org/abs/2107.11800v1 )

ライセンス: CC BY 4.0
Pengwen Dai, Xiaochun Cao(参考訳) 近年,シーンテキスト検出手法が数多く提案されている。 その多くは、最先端のパフォーマンスを達成したと宣言している。 しかしながら、一貫性のない設定(トレーニングデータ、バックボーンネットワーク、マルチスケール機能融合、評価プロトコルなど)が多いため、パフォーマンス比較は不公平である。 これらの様々な設定は、提案されたコアテクニックの長所と短所を分解する。 本稿では,一貫性のない設定を慎重に検討・分析し,ボトムアップに基づくシーンテキスト検出のための統一フレームワークを提案する。 統一されたフレームワークの下では,非コアモジュールの一貫した設定を保証し,テキスト輪郭上の回帰点,予測補助情報によるクラスタリング画素,学習したリンク付き接続コンポーネントのグループ化など,任意の形式のシーンテキストを記述する表現を主に検討する。 包括的調査と精巧な分析により、既存の手法間の性能差を理解することの障害を解消するだけでなく、公正な比較で過去のモデルの利点と欠点を明らかにする。

Numerous scene text detection methods have been proposed in recent years. Most of them declare they have achieved state-of-the-art performances. However, the performance comparison is unfair, due to lots of inconsistent settings (e.g., training data, backbone network, multi-scale feature fusion, evaluation protocols, etc.). These various settings would dissemble the pros and cons of the proposed core techniques. In this paper, we carefully examine and analyze the inconsistent settings, and propose a unified framework for the bottom-up based scene text detection methods. Under the unified framework, we ensure the consistent settings for non-core modules, and mainly investigate the representations of describing arbitrary-shape scene texts, e.g., regressing points on text contours, clustering pixels with predicted auxiliary information, grouping connected components with learned linkages, etc. With the comprehensive investigations and elaborate analyses, it not only cleans up the obstacle of understanding the performance differences between existing methods but also reveals the advantages and disadvantages of previous models under fair comparisons.
翻訳日:2021-07-28 01:10:42 公開日:2021-07-25
# (参考訳) エピグラフィカルスクリプトのデノジングとセグメンテーション

Denoising and Segmentation of Epigraphical Scripts ( http://arxiv.org/abs/2107.11801v1 )

ライセンス: CC0 1.0
P Preethi and Hrishikesh Viswanath(参考訳) 本稿では,ハラリック特徴を用いた画像の切り出しと,さらに人工ニューラルネットワークを用いた文字分割手法を提案する。 画像はカーネルに分割され、それぞれがハラリック特徴生成関数が呼ばれるglcm(gray level co-occurrence matrix)に変換され、14の要素に対応する14の要素からなる配列がハラリック値と対応するノイズ/テキスト分類が辞書を形成し、カーネル比較により画像の非ノイズ化に使用される。 セグメンテーションはドキュメントから文字を抽出するプロセスであり、明示的な境界マーカーであるホワイトスペースによって文字が分離されたときに使用できる。 セグメンテーションは多くの自然言語処理問題の第一段階である。 本稿ではニューラルネットワークを用いたセグメンテーションのプロセスについて述べる。 文書の文字を分割する手法は数多く存在するが,本論文はニューラルネットワークを用いて文字を分割する精度にのみ関係している。 文字を正しく分割することは必須であり、それができないと自然言語処理ツールによる誤認識につながる。 ニューラルネットワークは、最大89%の精度を達成するために使用された。 この方法は文字が白文字で区切られた言語に適している。 しかし、この方法は、言語が接続された文字を多用する場合、受け入れられる結果を与えることができない。 例として、インド北部で主に使われているデヴァナガリ文字がある。

This paper is a presentation of a new method for denoising images using Haralick features and further segmenting the characters using artificial neural networks. The image is divided into kernels, each of which is converted to a GLCM (Gray Level Co-Occurrence Matrix) on which a Haralick Feature generation function is called, the result of which is an array with fourteen elements corresponding to fourteen features The Haralick values and the corresponding noise/text classification form a dictionary, which is then used to de-noise the image through kernel comparison. Segmentation is the process of extracting characters from a document and can be used when letters are separated by white space, which is an explicit boundary marker. Segmentation is the first step in many Natural Language Processing problems. This paper explores the process of segmentation using Neural Networks. While there have been numerous methods to segment characters of a document, this paper is only concerned with the accuracy of doing so using neural networks. It is imperative that the characters be segmented correctly, for failing to do so will lead to incorrect recognition by Natural language processing tools. Artificial Neural Networks was used to attain accuracy of upto 89%. This method is suitable for languages where the characters are delimited by white space. However, this method will fail to provide acceptable results when the language heavily uses connected letters. An example would be the Devanagari script, which is predominantly used in northern India.
翻訳日:2021-07-28 00:55:09 公開日:2021-07-25
# (参考訳) 自由エネルギー原理による強化模倣学習

Reinforced Imitation Learning by Free Energy Principle ( http://arxiv.org/abs/2107.11811v1 )

ライセンス: CC BY 4.0
Ryoya Ogishima, Izumi Karino, Yasuo Kuniyoshi(参考訳) 強化学習(rl)は、特にスパースワード設定において、大量の探索を必要とする。 シミュレーション学習(IL)は、専門家のデモンストレーションから探究なしで学ぶことができるが、専門家のパフォーマンスを超えず、デモンストレーションと実行の間の分散シフトにも脆弱である。 本稿では,自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する。 FEPは、認知、行動、モデル学習を共通の原理で説明する、脳のベイズ理論である。 本稿では,fepの理論的拡張と,エージェントがエキスパートデモを内部化する世界モデルを学ぶアルゴリズムの導出と,そのモデルを用いて報酬を最大化する現在の状態と将来の状態と行動を推測する手法を提案する。 したがって、このアルゴリズムは、専門家を部分的に模倣し、そのリターンをシームレスに最大化することで探索コストを削減し、その結果、準最適専門家よりも高いパフォーマンスをもたらす。 実験の結果,このアプローチは視覚制御タスク,特にスパースワード環境において有望であることがわかった。

Reinforcement Learning (RL) requires a large amount of exploration especially in sparse-reward settings. Imitation Learning (IL) can learn from expert demonstrations without exploration, but it never exceeds the expert's performance and is also vulnerable to distributional shift between demonstration and execution. In this paper, we radically unify RL and IL based on Free Energy Principle (FEP). FEP is a unified Bayesian theory of the brain that explains perception, action and model learning by a common fundamental principle. We present a theoretical extension of FEP and derive an algorithm in which an agent learns the world model that internalizes expert demonstrations and at the same time uses the model to infer the current and future states and actions that maximize rewards. The algorithm thus reduces exploration costs by partially imitating experts as well as maximizing its return in a seamless way, resulting in a higher performance than the suboptimal expert. Our experimental results show that this approach is promising in visual control tasks especially in sparse-reward environments.
翻訳日:2021-07-28 00:51:34 公開日:2021-07-25
# (参考訳) 連結BdSLネットワークを用いたバングラ手話認識

Bangla sign language recognition using concatenated BdSL network ( http://arxiv.org/abs/2107.11818v1 )

ライセンス: CC BY 4.0
Thasin Abedin, Khondokar S. S. Prottoy, Ayana Moshruba and Safayat Bin Hakim(参考訳) 手話は聴覚障害者と聴覚障害者と無口なコミュニティにとって唯一のコミュニケーション手段である。 したがって、一般大衆とのコミュニケーションは、この少数派グループにとって常に困難である。 特にバングラ手話(BdSL)では、38のアルファベットがあり、いくつかはほぼ同じ記号を持つ。 その結果、BdSL認識においては、手の位置は従来の畳み込みニューラルネットワーク(CNN)から抽出された視覚的特徴に加えて重要な要素である。 本稿では,CNNに基づく画像ネットワークとポーズ推定ネットワークを組み合わせた,新しいアーキテクチャ"Concatenated BdSL Network"を提案する。 画像ネットワークは視覚的特徴を得る一方、ポーズ推定ネットワークによって手指キーポイントの相対位置を捉え、BdSLシンボルの複雑さに対処する付加的な特徴を得る。 実験結果から, テストセットにおける新たなアプローチにより91.51%のスコアが得られ, 追加ポーズ推定ネットワークの有効性が示唆された。

Sign language is the only medium of communication for the hearing impaired and the deaf and dumb community. Communication with the general mass is thus always a challenge for this minority group. Especially in Bangla sign language (BdSL), there are 38 alphabets with some having nearly identical symbols. As a result, in BdSL recognition, the posture of hand is an important factor in addition to visual features extracted from traditional Convolutional Neural Network (CNN). In this paper, a novel architecture "Concatenated BdSL Network" is proposed which consists of a CNN based image network and a pose estimation network. While the image network gets the visual features, the relative positions of hand keypoints are taken by the pose estimation network to obtain the additional features to deal with the complexity of the BdSL symbols. A score of 91.51% was achieved by this novel approach in test set and the effectiveness of the additional pose estimation network is suggested by the experimental results.
翻訳日:2021-07-28 00:44:03 公開日:2021-07-25
# (参考訳) 糖尿病網膜症自動スクリーニングにおける分布変化

Distributional Shifts in Automated Diabetic Retinopathy Screening ( http://arxiv.org/abs/2107.11822v1 )

ライセンス: CC BY 4.0
Jay Nandy and Wynne Hsu and Mong Li Lee(参考訳) 深層学習に基づくモデルは、糖尿病網膜症(DR)スクリーニングにおいて網膜像が「参照可能」かどうかを自動的に検出するために開発された。 しかし、入力画像がトレーニング分布から分散的にシフトするにつれて、分類精度は低下する。 さらに、入力が網膜画像でない場合でも、標準DR分類器は画像が「参照可能」であることを高い信頼度で予測する。 本稿では,この問題に対処するためにdirichlet prior network-based frameworkを提案する。 オフ・オブ・ディストリビューション(OOD)検出器モデルとDR分類モデルを用いて、OOD画像の識別により一般化性を向上させる。 実世界のデータセットに関する実験は、提案されたフレームワークが未知の非網膜画像を排除し、人間の介入のために分布シフトした網膜画像を識別できることを示している。

Deep learning-based models are developed to automatically detect if a retina image is `referable' in diabetic retinopathy (DR) screening. However, their classification accuracy degrades as the input images distributionally shift from their training distribution. Further, even if the input is not a retina image, a standard DR classifier produces a high confident prediction that the image is `referable'. Our paper presents a Dirichlet Prior Network-based framework to address this issue. It utilizes an out-of-distribution (OOD) detector model and a DR classification model to improve generalizability by identifying OOD images. Experiments on real-world datasets indicate that the proposed framework can eliminate the unknown non-retina images and identify the distributionally shifted retina images for human intervention.
翻訳日:2021-07-28 00:37:39 公開日:2021-07-25
# (参考訳) 組織特異的マルチオミクスによるグラフ表現学習

Graph Representation Learning on Tissue-Specific Multi-Omics ( http://arxiv.org/abs/2107.11856v1 )

ライセンス: CC BY 4.0
Amine Amor (1), Pietro Lio' (1), Vikash Singh (1), Ramon Vi\~nas Torn\'e (1), Helena Andres Terre (1)(参考訳) 生体医学研究とパーソナライズド医療の推進に、ヒト組織からのさまざまなデータモダリティを組み合わせることが重要である。 本研究では,組織特異的遺伝子間相互作用(ggi)ネットワーク上でのリンク予測を行うために,グラフ埋め込みモデル(vgae)を利用する。 アブレーション実験により,複数の生物学的モダリティ(すなわちマルチオミクス)の組み合わせが強力な埋め込みとより良いリンク予測性能をもたらすことを証明した。 遺伝子メチル化プロファイルとrnaシークエンシングデータの統合によりリンク予測性能が著しく向上することを示す。 RNAシークエンシングと遺伝子メチル化のデータの組み合わせにより、GGIネットワーク上でのリンク予測精度は71%になる。 マルチオミクスデータを用いたグラフ表現学習を活用し,バイオインフォマティクスにおけるマルチオミクス統合に関する最近の文献に新たな知見を与える。

Combining different modalities of data from human tissues has been critical in advancing biomedical research and personalised medical care. In this study, we leverage a graph embedding model (i.e VGAE) to perform link prediction on tissue-specific Gene-Gene Interaction (GGI) networks. Through ablation experiments, we prove that the combination of multiple biological modalities (i.e multi-omics) leads to powerful embeddings and better link prediction performances. Our evaluation shows that the integration of gene methylation profiles and RNA-sequencing data significantly improves the link prediction performance. Overall, the combination of RNA-sequencing and gene methylation data leads to a link prediction accuracy of 71% on GGI networks. By harnessing graph representation learning on multi-omics data, our work brings novel insights to the current literature on multi-omics integration in bioinformatics.
翻訳日:2021-07-28 00:30:22 公開日:2021-07-25
# (参考訳) 映像ベース人物再同定のための時空間表現因子化

Spatio-Temporal Representation Factorization for Video-based Person Re-Identification ( http://arxiv.org/abs/2107.11878v1 )

ライセンス: CC BY 4.0
Abhishek Aich, Meng Zheng, Srikrishna Karanam, Terrence Chen, Amit K. Roy-Chowdhury, Ziyan Wu(参考訳) ビデオベースの人物再同定(re-id)の進歩にもかかわらず、現在の最先端技術は、様々な人々の間での外観の類似性、オクルージョン、フレームの誤認といった一般的な現実世界の課題に苦しめられている。 これらの問題を緩和するために,既存の3次元畳み込みニューラルネットワークアーキテクチャと組み合わせてre-IDのためのフレキシブルな新しい計算ユニットであるspatio-Temporal Representation Factorization Module (STRF)を提案する。 先行研究におけるstrfの重要な革新は、識別的時間的特徴と空間的特徴を学習するための明示的な経路であり、各要素は補足的な人物特有の外観と動き情報を捉えるためにさらに分解される。 具体的には、時間分解は、時間とともに大きく変化しない静的特徴(例えば、服の色)と、時間とともに変化する動的特徴(例えば、歩行パターン)の2つの枝からなる。 さらに、空間因子分解は、グローバル(コアセグメンテーション)とローカル(フィンガーセグメント)の外観特徴の両方を学ぶ2つの分枝を含み、その局所的特徴は、特に咬合や空間的不均衡の場合に有用である。 これら2つの分解処理は、パラメータワイド経済STRFユニットのモジュラーアーキテクチャとなり、任意の2つの3次元畳み込み層の間に接続可能となり、エンドツーエンドの学習フレームワークとなる。 実験により,STRFは,3つのベンチマーク上での標準人物識別評価プロトコルを用いて,様々なベースラインアーキテクチャの性能を向上することを示す。

Despite much recent progress in video-based person re-identification (re-ID), the current state-of-the-art still suffers from common real-world challenges such as appearance similarity among various people, occlusions, and frame misalignment. To alleviate these problems, we propose Spatio-Temporal Representation Factorization module (STRF), a flexible new computational unit that can be used in conjunction with most existing 3D convolutional neural network architectures for re-ID. The key innovations of STRF over prior work include explicit pathways for learning discriminative temporal and spatial features, with each component further factorized to capture complementary person-specific appearance and motion information. Specifically, temporal factorization comprises two branches, one each for static features (e.g., the color of clothes) that do not change much over time, and dynamic features (e.g., walking patterns) that change over time. Further, spatial factorization also comprises two branches to learn both global (coarse segments) as well as local (finer segments) appearance features, with the local features particularly useful in cases of occlusion or spatial misalignment. These two factorization operations taken together result in a modular architecture for our parameter-wise economic STRF unit that can be plugged in between any two 3D convolutional layers, resulting in an end-to-end learning framework. We empirically show that STRF improves performance of various existing baseline architectures while demonstrating new state-of-the-art results using standard person re-identification evaluation protocols on three benchmarks.
翻訳日:2021-07-28 00:23:24 公開日:2021-07-25
# (参考訳) 不完全データを用いた肺癌リスク推定:統合的インプテーション視点の欠如

Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing Imputation Perspective ( http://arxiv.org/abs/2107.11882v1 )

ライセンス: CC BY 4.0
Riqiang Gao, Yucheng Tang, Kaiwen Xu, Ho Hin Lee, Steve Deppen, Kim Sandler, Pierre Massion, Thomas A. Lasko, Yuankai Huo, Bennett A. Landman(参考訳) 多様性からのデータは臨床予測において相補的な情報を提供するが、臨床コホートにおける欠落したデータは、多様学習コンテキストにおける被験者数を制限する。 マルチモーダル欠落インプテーションは、1)不均一なモダリティ(画像対非画像)にまたがるデータの欠如、または2)1つのモダリティが欠如している場合、既存の手法では困難である。 本稿では,マルチモーダルデータの統合分布をモデル化し,欠落データのインプテーションに対処する。 そこで本研究では, 条件付き PBiGAN (C-PBiGAN) 法を新たに提案し, 条件付き知識を他のモードから組み合わせた条件付き PBiGAN (C-PBiGAN) 法を提案する。 具体的には、C-PBiGANは、利用可能なマルチモーダルデータを共同で符号化する欠落した計算フレームワークに条件付き潜伏空間を導入し、不特定データをクラス正規化して識別情報を復元する。 画像と非画像データの連成分布をモデル化することにより,マルチモーダルな欠落インプテーションに対処した最初の生成的逆向モデルである。 我々は,国立肺検診試験(NLST)データセットと外部臨床検査コホートを用いて本モデルを検証した。 提案するc-pbiganは、代表的インプテーション法(例えば、nlst (+2.9\%) と社内データセット (+4.3\%) の両方において、pbigan (p$<0.05) と比較してauc値が増加する)と比較して、肺がんリスク推定の大幅な改善を達成している。

Data from multi-modality provide complementary information in clinical prediction, but missing data in clinical cohorts limits the number of subjects in multi-modal learning context. Multi-modal missing imputation is challenging with existing methods when 1) the missing data span across heterogeneous modalities (e.g., image vs. non-image); or 2) one modality is largely missing. In this paper, we address imputation of missing data by modeling the joint distribution of multi-modal data. Motivated by partial bidirectional generative adversarial net (PBiGAN), we propose a new Conditional PBiGAN (C-PBiGAN) method that imputes one modality combining the conditional knowledge from another modality. Specifically, C-PBiGAN introduces a conditional latent space in a missing imputation framework that jointly encodes the available multi-modal data, along with a class regularization loss on imputed data to recover discriminative information. To our knowledge, it is the first generative adversarial model that addresses multi-modal missing imputation by modeling the joint distribution of image and non-image data. We validate our model with both the national lung screening trial (NLST) dataset and an external clinical validation cohort. The proposed C-PBiGAN achieves significant improvements in lung cancer risk estimation compared with representative imputation methods (e.g., AUC values increase in both NLST (+2.9\%) and in-house dataset (+4.3\%) compared with PBiGAN, p$<$0.05).
翻訳日:2021-07-28 00:00:05 公開日:2021-07-25
# (参考訳) H-Transformer-1D:高速1次元階層型シーケンス注意

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences ( http://arxiv.org/abs/2107.11906v1 )

ライセンス: CC BY 4.0
Zhenhai Zhu and Radu Soricut(参考訳) 本稿では,トランスフォーマーアーキテクチャにおける注意力を計算するための効率的な階層的手法について述べる。 提案手法は,数値解析コミュニティが開発した階層行列(h行列)に似た行列構造を利用し,線形実行時間とメモリ複雑性を有する。 階層的注意によって具現化された帰納的バイアスが,自然言語や視覚タスクに典型的なシーケンスの階層構造を捉える上で有効であることを示すために,広範な実験を行った。 提案手法は,arenaベンチマークにおいて,平均で+6点以上の精度で代替サブクアドラティック提案法よりも優れている。 また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。

We describe an efficient hierarchical method to compute attention in the Transformer architecture. The proposed attention mechanism exploits a matrix structure similar to the Hierarchical Matrix (H-Matrix) developed by the numerical analysis community, and has linear run time and memory complexity. We perform extensive experiments to show that the inductive bias embodied by our hierarchical attention is effective in capturing the hierarchical structure in the sequences typical for natural language and vision tasks. Our method is superior to alternative sub-quadratic proposals by over +6 points on average on the Long Range Arena benchmark. It also sets a new SOTA test perplexity on One-Billion Word dataset with 5x fewer model parameters than that of the previous-best Transformer-based models.
翻訳日:2021-07-27 23:47:32 公開日:2021-07-25
# (参考訳) 多くの腕を持つレストなしバンディット:中央極限定理を破る

Restless Bandits with Many Arms: Beating the Central Limit Theorem ( http://arxiv.org/abs/2107.11911v1 )

ライセンス: CC BY 4.0
Xiangyu Zhang, Peter I. Frazier(参考訳) 我々は,レコメンダシステム,アクティブラーニング,収益管理,その他多くの分野において重要な役割を担っている,周期毎に複数のプルを持つ有限ホリゾンレストレスバンディットを考える。 最適ポリシーは、原理的には動的プログラミングを用いて計算できるが、計算に必要なスケールは腕数$N$で指数関数的にスケールする。 したがって、大規模な$N$で効率的に計算できるインデックスポリシーやその他のポリシーのパフォーマンスを理解することにはかなり価値がある。 ホイットルが提唱した古典的漸近的体制において, 最適性ギャップの増大,すなわち, 最適政策と比較して期待性能の損失について検討し, 周期ごとに引き出すことのできるアームの比率を一定に保ちながら, n$ を増加させる。 中心極限定理と最も厳密な前の理論境界からの直観は、この最適性ギャップは$o(\sqrt{n})$ のように成長することを示唆する。 驚くべきことに、我々はこの限界を上回ることができることを示す。 我々は,非退化条件と,その最適性差が $o(1)$ である流体優先性ポリシーと呼ばれる,新しい実用計算可能な政策の幅広いクラスを特徴付ける。 これらは最も広く使われているインデックスポリシーを含んでいる。 この非退化条件が成立しない場合、流体優先性ポリシーは、しかしながら、o(\sqrt{n})$である最適性ギャップを持ち、収束率が知られているポリシーのクラスを著しく一般化する。 数値実験において,流体プライオリティポリシはレストレスバンディット問題の集合に対して最先端の性能を提供することを示した。

We consider finite-horizon restless bandits with multiple pulls per period, which play an important role in recommender systems, active learning, revenue management, and many other areas. While an optimal policy can be computed, in principle, using dynamic programming, the computation required scales exponentially in the number of arms $N$. Thus, there is substantial value in understanding the performance of index policies and other policies that can be computed efficiently for large $N$. We study the growth of the optimality gap, i.e., the loss in expected performance compared to an optimal policy, for such policies in a classical asymptotic regime proposed by Whittle in which $N$ grows while holding constant the fraction of arms that can be pulled per period. Intuition from the Central Limit Theorem and the tightest previous theoretical bounds suggest that this optimality gap should grow like $O(\sqrt{N})$. Surprisingly, we show that it is possible to outperform this bound. We characterize a non-degeneracy condition and a wide class of novel practically-computable policies, called fluid-priority policies, in which the optimality gap is $O(1)$. These include most widely-used index policies. When this non-degeneracy condition does not hold, we show that fluid-priority policies nevertheless have an optimality gap that is $O(\sqrt{N})$, significantly generalizing the class of policies for which convergence rates are known. We demonstrate that fluid-priority policies offer state-of-the-art performance on a collection of restless bandit problems in numerical experiments.
翻訳日:2021-07-27 23:27:48 公開日:2021-07-25
# より深くではなくより広く行く

Go Wider Instead of Deeper ( http://arxiv.org/abs/2107.11817v1 )

ライセンス: Link先を確認
Fuzhao Xue, Ziji Shi, Yuxuan Lou, Yong Liu, Yang You(参考訳) トランスフォーマーは最近、様々なタスクで素晴らしい成果を上げています。 変圧器の有効性と効率をさらに向上させるため,(1)より訓練可能なパラメータに拡大し,(2)パラメータ共有によりより浅く,あるいは深度とともにモデルを圧縮する,という2つの既存の作業が検討されている。 しかし、大きなモデルは、訓練に利用可能なトークンが少ない場合、よくスケールせず、モデルが非常に大きい場合は高度な並列性が必要となる。 小型モデルは通常、表現力の喪失によりオリジナルのトランスモデルに比べて性能が劣る。 本稿では,トレーニング可能なパラメータの少ない性能を実現するために,より深く学習可能なパラメータを効率的にデプロイするフレームワークを提案する。 特に,フィードフォワードネットワーク(FFN)をMixix-of-experts(MoE)に置き換えることで,モデル幅を拡大する。 次に、各層正規化を用いて変換器ブロック間でMoE層を共有します。 このような配置は、様々な意味表現を変換する役割を担い、モデルをよりパラメータ効率よく効果的にする。 このフレームワークを評価するために、WideNetを設計し、ImageNet-1K上で評価する。 私たちの最良のモデルはViT(Vision Transformer)を1.46\%$、0.72 \times$トレーニング可能なパラメータで上回る。 0.46 \times$と0.13 \times$パラメータを使って、WideNetはViTとViT-MoEをそれぞれ0.83\%$と2.08\%$で上回ることができる。

The transformer has recently achieved impressive results on various tasks. To further improve the effectiveness and efficiency of the transformer, there are two trains of thought among existing works: (1) going wider by scaling to more trainable parameters; (2) going shallower by parameter sharing or model compressing along with the depth. However, larger models usually do not scale well when fewer tokens are available to train, and advanced parallelisms are required when the model is extremely large. Smaller models usually achieve inferior performance compared to the original transformer model due to the loss of representation power. In this paper, to achieve better performance with fewer trainable parameters, we propose a framework to deploy trainable parameters efficiently, by going wider instead of deeper. Specially, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). We then share the MoE layers across transformer blocks using individual layer normalization. Such deployment plays the role to transform various semantic representations, which makes the model more parameter-efficient and effective. To evaluate our framework, we design WideNet and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer (ViT) by $1.46\%$ with $0.72 \times$ trainable parameters. Using $0.46 \times$ and $0.13 \times$ parameters, our WideNet can still surpass ViT and ViT-MoE by $0.83\%$ and $2.08\%$, respectively.
翻訳日:2021-07-27 16:27:41 公開日:2021-07-25
# 転送可能な対話システムとユーザシミュレータ

Transferable Dialogue Systems and User Simulators ( http://arxiv.org/abs/2107.11904v1 )

ライセンス: Link先を確認
Bo-Hsiang Tseng, Yinpei Dai, Florian Kreyssig, Bill Byrne(参考訳) 対話システムの訓練の難しさの1つは、訓練データの欠如である。 対話システムとユーザシミュレータとのインタラクションを通じて対話データを作成する可能性を検討する。 私たちの目標は、2つのエージェント間の自己再生を通じて、新しい対話シナリオを組み込むことができるモデリングフレームワークの開発です。 このフレームワークでは、まず2つのエージェントをソースドメインの対話の集まりで事前トレーニングし、エージェントが自然言語を介して互いに会話するようにします。 少量のターゲットドメインデータに対するさらなる微調整により、エージェントは構造化報酬関数を用いた強化学習を用いて、彼らの行動を改善する目的と対話し続けます。 マルチウォズデータセットを用いた実験では,1)ドメイン適応と2)1対複数ドメイン転送という2つの実用的なトランスファー学習問題について検討した。 提案手法は,転送学習における2つのエージェントの性能のブートストラップに極めて有効であることを示す。 また,本手法が完全なデータセット上での対話システム性能の向上につながることを示す。

One of the difficulties in training dialogue systems is the lack of training data. We explore the possibility of creating dialogue data through the interaction between a dialogue system and a user simulator. Our goal is to develop a modelling framework that can incorporate new dialogue scenarios through self-play between the two agents. In this framework, we first pre-train the two agents on a collection of source domain dialogues, which equips the agents to converse with each other via natural language. With further fine-tuning on a small amount of target domain data, the agents continue to interact with the aim of improving their behaviors using reinforcement learning with structured reward functions. In experiments on the MultiWOZ dataset, two practical transfer learning problems are investigated: 1) domain adaptation and 2) single-to-multiple domain transfer. We demonstrate that the proposed framework is highly effective in bootstrapping the performance of the two agents in transfer learning. We also show that our method leads to improvements in dialogue system performance on complete datasets.
翻訳日:2021-07-27 16:25:57 公開日:2021-07-25
# オンデバイスコンテンツモデレーション

On-Device Content Moderation ( http://arxiv.org/abs/2107.11845v1 )

ライセンス: Link先を確認
Anchal Pandey, Sukumar Moharana, Debi Prasanna Mohanty, Archit Panwar, Dewang Agarwal, Siva Prasad Thota(参考訳) インターネットの出現に伴い、nsfw(safe for work)コンテンツのモデレーションは、今日では大きな問題となっている。 スマートフォンは今や何十億という人々の日常生活の一部になっているので、スマートフォン上のnsfwコンテンツの可能性をユーザから検出し、示唆するソリューションを持つことは、さらに重要だ。 本稿では,NSFW画像検出のための新しいオンデバイスソリューションを提案する。 従来のポルノグラフィックコンテンツモデレーションに加えて,大規模なデモグラフィではnsfwのままであるセミヌードコンテンツモデレーションも取り入れており,ヌード,セミヌード,セーフイメージの3つの主要カテゴリからなるデータセットを収集した。 我々は,ヌードとセミヌードのフィルタリングを行うためのオブジェクト検出器と分類器のanensembleを開発した。 このソリューションは、セミヌード画像の識別とともに、安全でないボディ部分アノテーションを提供する。 weextensiveは、提案するソリューションをいくつかのパブリックデータセットとカスタムデータセット上でテストしました。 このモデルは、カスタムNSFW16kデータセットで95%精度でF1スコア0.91、NPDIデータセットで0.92MAPをリコールする。 さらに、itachievesはsafeimage open datasetのコレクションで平均0.002偽陽性率を示している。

With the advent of internet, not safe for work(NSFW) content moderation is a major problem today. Since,smartphones are now part of daily life of billions of people,it becomes even more important to have a solution which coulddetect and suggest user about potential NSFW content present ontheir phone. In this paper we present a novel on-device solutionfor detecting NSFW images. In addition to conventional porno-graphic content moderation, we have also included semi-nudecontent moderation as it is still NSFW in a large demography.We have curated a dataset comprising of three major categories,namely nude, semi-nude and safe images. We have created anensemble of object detector and classifier for filtering of nudeand semi-nude contents. The solution provides unsafe body partannotations along with identification of semi-nude images. Weextensively tested our proposed solution on several public datasetand also on our custom dataset. The model achieves F1 scoreof 0.91 with 95% precision and 88% recall on our customNSFW16k dataset and 0.92 MAP on NPDI dataset. Moreover itachieves average 0.002 false positive rate on a collection of safeimage open datasets.
翻訳日:2021-07-27 16:24:33 公開日:2021-07-25
# スケーラブルな帰納的自然言語推論のためのハイブリッド自己回帰解法

Hybrid Autoregressive Solver for Scalable Abductive Natural Language Inference ( http://arxiv.org/abs/2107.11879v1 )

ライセンス: Link先を確認
Marco Valentino, Mokanarangan Thayaparan, Deborah Ferreira, Andr\'e Freitas(参考訳) 科学的な質問に対する自然言語説明の再生は、複雑なマルチホップと帰納的推論能力を評価する上で難しい課題である。 この設定では、ヒューマンアノテートされた説明に基づいて訓練されたトランスフォーマーは、クロスエンコーダアーキテクチャとして採用される場合、最先端のパフォーマンスを達成する。 しかしながら、構築された説明の質に多くの注意が向けられているが、大規模に推論を行うという問題はいまだに未検討である。 本質的にスケーラブルではないため、クロスエンコーダアーキテクチャパラダイムは巨大なファクトバンクの効率的なマルチホップ推論には適していない。 精度と推論時間の両方を最大化するために,高密度な双エンコーダと説明力のスパースモデルとを自己回帰的に結合し,説明文中の明示的なパターンを活用するハイブリッド誘導解法を提案する。 実験の結果,提案フレームワークは最先端のクロスエンコーダに匹敵する性能を達成でき,しかも,数百万の事実をコーパスするために,50ドルの高速かつスケーラブルであることがわかった。 さらに,ハイブリダイゼーションがセマンティックドリフトおよび科学質問応答に与える影響について,追加のトレーニングを伴わずに検討し,説明の質を高め,下流推論性能の向上に寄与することを示した。

Regenerating natural language explanations for science questions is a challenging task for evaluating complex multi-hop and abductive inference capabilities. In this setting, Transformers trained on human-annotated explanations achieve state-of-the-art performance when adopted as cross-encoder architectures. However, while much attention has been devoted to the quality of the constructed explanations, the problem of performing abductive inference at scale is still under-studied. As intrinsically not scalable, the cross-encoder architectural paradigm is not suitable for efficient multi-hop inference on massive facts banks. To maximise both accuracy and inference time, we propose a hybrid abductive solver that autoregressively combines a dense bi-encoder with a sparse model of explanatory power, computed leveraging explicit patterns in the explanations. Our experiments demonstrate that the proposed framework can achieve performance comparable with the state-of-the-art cross-encoder while being $\approx 50$ times faster and scalable to corpora of millions of facts. Moreover, we study the impact of the hybridisation on semantic drift and science question answering without additional training, showing that it boosts the quality of the explanations and contributes to improved downstream inference performance.
翻訳日:2021-07-27 16:22:37 公開日:2021-07-25
# ROD: スパースグラフのためのレセプション対応オンライン蒸留

ROD: Reception-aware Online Distillation for Sparse Graphs ( http://arxiv.org/abs/2107.11789v1 )

ライセンス: Link先を確認
Wentao Zhang, Yuezihan Jiang, Yang Li, Zeang Sheng, Yu Shen, Xupeng Miao, Liang Wang, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、リンク予測、ノードクラスタリングなど、多くのグラフベースのタスクで広く使用されている。 しかし、GNNは、主に機能伝搬を実行し、グラフのエッジをスムーズにすることで、十分な接続性とラベル情報を必要とし、効果的な伝搬を行う。 残念なことに、多くの現実世界のネットワークはエッジとラベルの両面で疎結合であり、GNNの準最適性能に繋がる。 このスパース問題に対する近年の関心は、擬似ラベルで教師付き信号を拡張する自己学習アプローチに焦点を当てている。 にもかかわらず、自己学習アプローチは本質的には、疑似ラベルの品質と量のためにスパースグラフ上の学習性能を改善できる可能性を完全には認識できない。 本稿では,疎グラフ学習のための新しいレセプション対応オンライン知識蒸留手法 ROD を提案する。 我々は,マルチスケール・レセプション・アウェアグラフ知識,タスクベース・スーパービジョン,リッチ・蒸留知識の3つの監督信号を設計し,ピアティーチング方式でオンライン知識の伝達を可能にした。 マルチスケール・レセプション・フィールドに隠された知識を抽出するためには、RODは個別の学生モデルに異なるレベルの局所性情報を保存するよう明示的に要求する。 与えられた課題に対して、各生徒は、その受動的知識に基づいて予測し、同時にマルチスケールの知識を組み合わせることで、強力な教師をオンザフライで確立する。 提案手法は,ノード分類,リンク予測,ノードクラスタリングなど,9つのデータセットとグラフベースのタスクに対して広く評価されている。 その結果、RODは最先端の性能を達成し、グラフの空間性に対してより堅牢であることを示す。

Graph neural networks (GNNs) have been widely used in many graph-based tasks such as node classification, link prediction, and node clustering. However, GNNs gain their performance benefits mainly from performing the feature propagation and smoothing across the edges of the graph, thus requiring sufficient connectivity and label information for effective propagation. Unfortunately, many real-world networks are sparse in terms of both edges and labels, leading to sub-optimal performance of GNNs. Recent interest in this sparse problem has focused on the self-training approach, which expands supervised signals with pseudo labels. Nevertheless, the self-training approach inherently cannot realize the full potential of refining the learning performance on sparse graphs due to the unsatisfactory quality and quantity of pseudo labels. In this paper, we propose ROD, a novel reception-aware online knowledge distillation approach for sparse graph learning. We design three supervision signals for ROD: multi-scale reception-aware graph knowledge, task-based supervision, and rich distilled knowledge, allowing online knowledge transfer in a peer-teaching manner. To extract knowledge concealed in the multi-scale reception fields, ROD explicitly requires individual student models to preserve different levels of locality information. For a given task, each student would predict based on its reception-scale knowledge, while simultaneously a strong teacher is established on-the-fly by combining multi-scale knowledge. Our approach has been extensively evaluated on 9 datasets and a variety of graph-based tasks, including node classification, link prediction, and node clustering. The result demonstrates that ROD achieves state-of-art performance and is more robust for the graph sparsity.
翻訳日:2021-07-27 16:22:15 公開日:2021-07-25
# 等価学習のための潜在空間埋め込みの不変性に基づくマルチクラスタ化

Invariance-based Multi-Clustering of Latent Space Embeddings for Equivariant Learning ( http://arxiv.org/abs/2107.11717v1 )

ライセンス: Link先を確認
Chandrajit Bajaj, Avik Roy, Haoran Zhang(参考訳) 可変オートエンコーダ(VAE)は、複数のコンピュータビジョンタスクのためのモデル潜在空間の復元に極めて有効であることが示されている。 しかしながら、現在訓練されているVAEは、いくつかの理由により、潜在空間における不変および同変クラスタの学習に不足しているようである。 本研究は,この問題に対する解の提供に焦点をあて,リー群多様体内の等分散特徴写像を深く,グループ不変な学習を強制する手法を提案する。 潜在空間表現の意味的および同変変数の新たな分離を同時に実装し、より優れた教師なし変分クラスタリングを可能にする不変クラスタ埋め込みのためのガウス混合のような混合モデルpdfを用いて、改良されたエビデンス下界 (elbo) を定式化する。 実験により,本モデルは,現在最良なディープラーニングモデルと比較して,学習率と可観測的に優れた画像認識と正準状態再構成により,不変表現と同変表現を効果的に分離することを示す。

Variational Autoencoders (VAEs) have been shown to be remarkably effective in recovering model latent spaces for several computer vision tasks. However, currently trained VAEs, for a number of reasons, seem to fall short in learning invariant and equivariant clusters in latent space. Our work focuses on providing solutions to this problem and presents an approach to disentangle equivariance feature maps in a Lie group manifold by enforcing deep, group-invariant learning. Simultaneously implementing a novel separation of semantic and equivariant variables of the latent space representation, we formulate a modified Evidence Lower BOund (ELBO) by using a mixture model pdf like Gaussian mixtures for invariant cluster embeddings that allows superior unsupervised variational clustering. Our experiments show that this model effectively learns to disentangle the invariant and equivariant representations with significant improvements in the learning rate and an observably superior image recognition and canonical state reconstruction compared to the currently best deep learning models.
翻訳日:2021-07-27 16:21:06 公開日:2021-07-25
# 組込みリアルタイムアプリケーションのための変分オートエンコーダに基づく分散検出の改善

Improving Variational Autoencoder based Out-of-Distribution Detection for Embedded Real-time Applications ( http://arxiv.org/abs/2107.11750v1 )

ライセンス: Link先を確認
Yeli Feng, Daniel Jun Xian Ng, Arvind Easwaran(参考訳) 機械学習の不確実性は、安全クリティカルなサイバー物理システム(CPS)に適用するための重要な障害である。 不確実性の1つの源は、トレーニングとテストシナリオの間の入力データの分布シフトから生じる。 このような分散シフトをリアルタイムに検出することは、課題に対処するための新たなアプローチだ。 画像を含むCPSアプリケーションにおける高次元入力空間は、タスクに余分な困難をもたらす。 このタスクには生成学習モデル(out-of-distribution (ood) detection)が広く採用されている。 現状を改善するため,機械学習とCPSの両方の分野からの既存提案について検討した。 後者では、自動運転エージェントのリアルタイムの安全性モニタリングが注目されている。 ビデオ中の動きの時空間的相関を利用して、自律運転エージェント周辺の危険な動きをロバストに検出する。 変分オートエンコーダ(VAE)理論と実践の最近の進歩に触発されて、我々はOoD検出の堅牢性をさらに向上するために、データの事前の知識を取り入れた。 nuScenesとSynthiaデータセットの比較研究により,本手法は運転シナリオ固有のOoD因子の検出能力を大幅に向上し,最先端手法よりも42%向上した。 また,実世界の最先端技術やシミュレーション駆動データセットよりも,ほぼ完ぺきに97%向上した。 最後に,提案手法をtwin-encoderモデルにカスタマイズし,実時間ood検出のためのリソース制限組込みデバイスにデプロイする。 その実行時間は低精度の8ビット整数推論で4倍に短縮され、検出能力は対応する浮動小数点モデルに匹敵する。

Uncertainties in machine learning are a significant roadblock for its application in safety-critical cyber-physical systems (CPS). One source of uncertainty arises from distribution shifts in the input data between training and test scenarios. Detecting such distribution shifts in real-time is an emerging approach to address the challenge. The high dimensional input space in CPS applications involving imaging adds extra difficulty to the task. Generative learning models are widely adopted for the task, namely out-of-distribution (OoD) detection. To improve the state-of-the-art, we studied existing proposals from both machine learning and CPS fields. In the latter, safety monitoring in real-time for autonomous driving agents has been a focus. Exploiting the spatiotemporal correlation of motion in videos, we can robustly detect hazardous motion around autonomous driving agents. Inspired by the latest advances in the Variational Autoencoder (VAE) theory and practice, we tapped into the prior knowledge in data to further boost OoD detection's robustness. Comparison studies over nuScenes and Synthia data sets show our methods significantly improve detection capabilities of OoD factors unique to driving scenarios, 42% better than state-of-the-art approaches. Our model also generalized near-perfectly, 97% better than the state-of-the-art across the real-world and simulation driving data sets experimented. Finally, we customized one proposed method into a twin-encoder model that can be deployed to resource limited embedded devices for real-time OoD detection. Its execution time was reduced over four times in low-precision 8-bit integer inference, while detection capability is comparable to its corresponding floating-point model.
翻訳日:2021-07-27 16:19:49 公開日:2021-07-25
# ReDAL: ポイントクラウドセマンティックセグメンテーションのための領域ベースおよび多様性を考慮したアクティブラーニング

ReDAL: Region-based and Diversity-aware Active Learning for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2107.11769v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Yueh-Cheng Liu, Yu-Kai Huang, Hsin-Ying Lee, Hung-Ting Su, Ping-Chia Huang, Winston H. Hsu(参考訳) 教師付きポイントクラウドセマンティクスセグメンテーションにおけるディープラーニングの成功にもかかわらず、大規模なポイントバイポイント手動アノテーションの取得は依然として大きな課題である。 そこで本研究では,多くの深層学習アプローチのための汎用フレームワークであるReDAL(Regional-based and Diversity-Aware Active Learning)を提案する。 注記領域のごく一部だけが深層学習による3次元シーン理解に十分であることを示すため, ソフトマックスエントロピー, 色の不連続性, 構造的複雑さを用いて, サブシーン領域の情報を測定する。 また,クエリバッチにおける情報的,類似の領域の選択による冗長アノテーションを回避するために,多様性を考慮した選択アルゴリズムを開発した。 また,s3disとsemantickittiデータセットには15%,5%のアノテーションがそれぞれ必要とされているが,90%の完全教師付き学習性能を達成することができた。

Despite the success of deep learning on supervised point cloud semantic segmentation, obtaining large-scale point-by-point manual annotations is still a significant challenge. To reduce the huge annotation burden, we propose a Region-based and Diversity-aware Active Learning (ReDAL), a general framework for many deep learning approaches, aiming to automatically select only informative and diverse sub-scene regions for label acquisition. Observing that only a small portion of annotated regions are sufficient for 3D scene understanding with deep learning, we use softmax entropy, color discontinuity, and structural complexity to measure the information of sub-scene regions. A diversity-aware selection algorithm is also developed to avoid redundant annotations resulting from selecting informative but similar regions in a querying batch. Extensive experiments show that our method highly outperforms previous active learning strategies, and we achieve the performance of 90% fully supervised learning, while less than 15% and 5% annotations are required on S3DIS and SemanticKITTI datasets, respectively.
翻訳日:2021-07-27 16:19:15 公開日:2021-07-25
# 困難環境におけるトラバーサビリティのためのリスクアウェアコストマップの学習

Learning Risk-aware Costmaps for Traversability in Challenging Environments ( http://arxiv.org/abs/2107.11722v1 )

ライセンス: Link先を確認
David D. Fan, Ali-akbar Agha-mohammadi, Evangelos A. Theodorou(参考訳) 未知の環境と非構造環境における自律型ロボット探査とナビゲーションの主な課題の1つは、ロボットが安全な移動が可能な場所を決定することである。 この決定の重大な困難の原因は、局所化誤差、センサーの間隔とノイズ、ロボットと地上の相互作用の難しさ、車両の動きの妨害などによる確率性と不確実性である。 この問題の古典的なアプローチは周囲の地形の幾何学的解析に依存しており、エラーをモデル化しやすく、計算コストも高い。 さらに, 不確実なトラバーサビリティコストの分布をモデル化することは, 上記のような様々な誤差源が組み合わさって難しい課題である。 本研究では,この問題に対して原則的学習アプローチを採る。 トラバーサビリティコストの分散を堅牢に学習するためのニューラルネットワークアーキテクチャを導入する。 ロボットの生活を守ることによる動機付けのため,我々は尾のリスクを学習する観点から,この学習問題に取り組む。 Conditional Value-at-Risk (CVaR)。 提案手法は,確率リスク閾値が0から1の間にある場合,予測されたテールリスクを確実に学習し,異常値に対してより頑健で,テールリスクをより正確に捉え,ベースラインと比較した場合に計算効率が高いトラバーサビリティコストマップを生成する。 本研究では, 廃地下鉄, 石灰岩洞, 溶岩洞洞など, 難易度の高い非構造環境をナビゲートする脚付きロボットのデータを用いて, 評価を行った。

One of the main challenges in autonomous robotic exploration and navigation in unknown and unstructured environments is determining where the robot can or cannot safely move. A significant source of difficulty in this determination arises from stochasticity and uncertainty, coming from localization error, sensor sparsity and noise, difficult-to-model robot-ground interactions, and disturbances to the motion of the vehicle. Classical approaches to this problem rely on geometric analysis of the surrounding terrain, which can be prone to modeling errors and can be computationally expensive. Moreover, modeling the distribution of uncertain traversability costs is a difficult task, compounded by the various error sources mentioned above. In this work, we take a principled learning approach to this problem. We introduce a neural network architecture for robustly learning the distribution of traversability costs. Because we are motivated by preserving the life of the robot, we tackle this learning problem from the perspective of learning tail-risks, i.e. the Conditional Value-at-Risk (CVaR). We show that this approach reliably learns the expected tail risk given a desired probability risk threshold between 0 and 1, producing a traversability costmap which is more robust to outliers, more accurately captures tail risks, and is more computationally efficient, when compared against baselines. We validate our method on data collected a legged robot navigating challenging, unstructured environments including an abandoned subway, limestone caves, and lava tube caves.
翻訳日:2021-07-27 16:17:33 公開日:2021-07-25
# DR2L:ドメインランダム化強化学習による自律運転のロバスティフィケーション

DR2L: Surfacing Corner Cases to Robustify Autonomous Driving via Domain Randomization Reinforcement Learning ( http://arxiv.org/abs/2107.11762v1 )

ライセンス: Link先を確認
Haoyi Niu, Jianming Hu, Zheyu Cui and Yi Zhang(参考訳) コーナーケースをできるだけ効率的にかつ徹底的に探索する方法は、ディープ強化学習(DeepRL)自動運転の文脈における主要な関心事の1つである。 シミュレーションデータによるトレーニングは、実世界のデータを利用するよりもコストと危険性が低いが、パラメータ分布の不整合とシミュレータ内の不正確なシステムモデリングは、必然的にsim2現実的ギャップをもたらす。 ドメインランダム化(DR)は、このギャップを現実世界のデータで埋めることのできる方法論である。 そこで本研究では,DeepRLをベースとした自動運転車をシミュレーションで強化し,より困難な事象を徐々に克服し,現実の世界へ容易に移行できるようにする。

How to explore corner cases as efficiently and thoroughly as possible has long been one of the top concerns in the context of deep reinforcement learning (DeepRL) autonomous driving. Training with simulated data is less costly and dangerous than utilizing real-world data, but the inconsistency of parameter distribution and the incorrect system modeling in simulators always lead to an inevitable Sim2real gap, which probably accounts for the underperformance in novel, anomalous and risky cases that simulators can hardly generate. Domain Randomization(DR) is a methodology that can bridge this gap with little or no real-world data. Consequently, in this research, an adversarial model is put forward to robustify DeepRL-based autonomous vehicles trained in simulation to gradually surfacing harder events, so that the models could readily transfer to the real world.
翻訳日:2021-07-27 16:17:06 公開日:2021-07-25
# 重力探索アルゴリズムの2値変種とそのウィンドファーム配置最適化問題への応用

A binary variant of gravitational search algorithm and its application to windfarm layout optimization problem ( http://arxiv.org/abs/2107.11844v1 )

ライセンス: Link先を確認
Susheel Kumar Joshi, Jagdish Chand Bansal(参考訳) 二元探索の分野では、GSAフレームワークは停滞、多様性の喪失、早めの収束、および高速複雑性の欠点に直面する。 これらの問題に対処するため,新たな二分法である「二分法探索空間(BNAGGSA)のためのGSAにGSAを埋め込んだ新しい近傍アーカイブ」を提案する。 BNAGGSAでは、新しいフィットネス依存型ソーシャルインタラクション戦略により、エージェントが現在の検索要件に従って最適なステップサイズで最適な方向に移動する自己適応的なステップサイズメカニズムが生成される。 提案アルゴリズムの性能は,よく知られた23以上のベンチマークテスト問題に対して,gsaの2つのバイナリ変種と比較した。 実験結果と統計的解析により,比較アルゴリズムよりもBNAGGSAの優位性が証明された。 さらに,実世界のアプリケーション解決における提案アルゴリズムの適用性を確認するため,ウィンドファームレイアウト最適化問題を考える。 2つの異なる風場の2つの異なる風データを用いた2つのケーススタディが実験として検討されている。

In the binary search space, GSA framework encounters the shortcomings of stagnation, diversity loss, premature convergence and high time complexity. To address these issues, a novel binary variant of GSA called `A novel neighbourhood archives embedded gravitational constant in GSA for binary search space (BNAGGSA)' is proposed in this paper. In BNAGGSA, the novel fitness-distance based social interaction strategy produces a self-adaptive step size mechanism through which the agent moves towards the optimal direction with the optimal step size, as per its current search requirement. The performance of the proposed algorithm is compared with the two binary variants of GSA over 23 well-known benchmark test problems. The experimental results and statistical analyses prove the supremacy of BNAGGSA over the compared algorithms. Furthermore, to check the applicability of the proposed algorithm in solving real-world applications, a windfarm layout optimization problem is considered. Two case studies with two different wind data sets of two different wind sites is considered for experiments.
翻訳日:2021-07-27 16:16:48 公開日:2021-07-25
# SGDはサドルポイントを抜け出さないかもしれない

SGD May Never Escape Saddle Points ( http://arxiv.org/abs/2107.11774v1 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Masahito Ueda(参考訳) 確率勾配降下(SGD)は、ディープニューラルネットワークのトレーニングなど、高度に非線形で非凸な機械学習問題を解決するために展開されている。 しかしながら、SGDに関する以前の研究は、しばしばSGDのノイズの性質に関する非常に制限的で非現実的な仮定に依存している。 本研究では,従来のSGDの理解に反する例を数学的に構築する。 例えば,(1) SGD は局所的な最大値に収束し,(2) SGD は緩やかにサドル点を脱出し,(3) SGD は平坦な点よりも鋭い最小値を好む,(4) AMSGrad は局所的な最大値に収束する。 その結果,sgdのノイズ構造はニューラルネットワークトレーニングのロスランドスケープよりも重要である可能性が示唆され,今後の研究は深層学習における実際のノイズ構造を導出することに焦点を当てるべきである。

Stochastic gradient descent (SGD) has been deployed to solve highly non-linear and non-convex machine learning problems such as the training of deep neural networks. However, previous works on SGD often rely on highly restrictive and unrealistic assumptions about the nature of noise in SGD. In this work, we mathematically construct examples that defy previous understandings of SGD. For example, our constructions show that: (1) SGD may converge to a local maximum; (2) SGD may escape a saddle point arbitrarily slowly; (3) SGD may prefer sharp minima over the flat ones; and (4) AMSGrad may converge to a local maximum. Our result suggests that the noise structure of SGD might be more important than the loss landscape in neural network training and that future research should focus on deriving the actual noise structure in deep learning.
翻訳日:2021-07-27 16:14:52 公開日:2021-07-25
# ガウス過程としてのニューラルネットワークの理解について

A brief note on understanding neural networks as Gaussian processes ( http://arxiv.org/abs/2107.11892v1 )

ライセンス: Link先を確認
Mengwu Guo(参考訳) The generalization of the work in [Lee et al., 2017], this note discuss the prior of a neural network output after a Gaussian process, and how the neural-network-induced Gaussian process are formulated。 このようなガウス過程回帰の後方平均関数は、ニューラルネットワークによって定義される再生核ヒルベルト空間にある。 二層ニューラルネットワークの場合、誘導されたガウス過程は、結合がバロン空間を形成する再生核ヒルベルト空間の解釈を提供する。

As a generalization of the work in [Lee et al., 2017], this note briefly discusses when the prior of a neural network output follows a Gaussian process, and how a neural-network-induced Gaussian process is formulated. The posterior mean functions of such a Gaussian process regression lie in the reproducing kernel Hilbert space defined by the neural-network-induced kernel. In the case of two-layer neural networks, the induced Gaussian processes provide an interpretation of the reproducing kernel Hilbert spaces whose union forms a Barron space.
翻訳日:2021-07-27 16:14:35 公開日:2021-07-25
# MuSe-Toolbox: Multimodal Sentiment Analysis Continuous Annotation Fusion and Discrete Class Transformation Toolbox

MuSe-Toolbox: The Multimodal Sentiment Analysis Continuous Annotation Fusion and Discrete Class Transformation Toolbox ( http://arxiv.org/abs/2107.11757v1 )

ライセンス: Link先を確認
Lukas Stappen and Lea Schumann and Benjamin Sertolli and Alice Baird and Benjamin Weigel and Erik Cambria and Bj\"orn W. Schuller(参考訳) 私たちはPythonベースのオープンソースツールキットであるMuSe-Toolboxを紹介します。 一つのフレームワークにおいて、我々は幅広い融合手法を統一し、アノテーション間のラター間の合意に基づいてアノテーションを重み付け・融合する前に、翻訳不変の方法でアノテーションを整列する新しいRAAW(Rater Aligned Anightation Weighting)を提案する。 さらに、離散圏は連続的な信号よりも人間が解釈しやすい傾向にある。 これを考慮して、MuSe-Toolboxは、連続したゴールド標準で意味のあるクラスクラスタを徹底的に検索する機能を提供する。 私たちの知る限りでは、これは最先端の感情的ゴールド標準メソッドの幅広い選択と、それらの離散クラスへの変換を提供する最初のツールキットです。 実験結果から, MuSe-Toolboxは人間の介入を最小限に抑えたハードコードクラス境界よりも予測可能な,有望で斬新なクラス形成を実現できることが示唆された。 実装(1)は、dockerコンテナを使用するすべての依存関係が最初から利用可能である(2)。

We introduce the MuSe-Toolbox - a Python-based open-source toolkit for creating a variety of continuous and discrete emotion gold standards. In a single framework, we unify a wide range of fusion methods and propose the novel Rater Aligned Annotation Weighting (RAAW), which aligns the annotations in a translation-invariant way before weighting and fusing them based on the inter-rater agreements between the annotations. Furthermore, discrete categories tend to be easier for humans to interpret than continuous signals. With this in mind, the MuSe-Toolbox provides the functionality to run exhaustive searches for meaningful class clusters in the continuous gold standards. To our knowledge, this is the first toolkit that provides a wide selection of state-of-the-art emotional gold standard methods and their transformation to discrete classes. Experimental results indicate that MuSe-Toolbox can provide promising and novel class formations which can be better predicted than hard-coded classes boundaries with minimal human intervention. The implementation (1) is out-of-the-box available with all dependencies using a Docker container (2).
翻訳日:2021-07-27 16:12:37 公開日:2021-07-25
# グラフなしマルチホップ読解:選択ガイド戦略

Graph-free Multi-hop Reading Comprehension: A Select-to-Guide Strategy ( http://arxiv.org/abs/2107.11823v1 )

ライセンス: Link先を確認
Bohong Wu, Zhuosheng Zhang, Hai Zhao(参考訳) MHRC(Multi-hop reading comprehension)は、与えられた文節の正しい解答範囲を予測するだけでなく、解釈可能性の推論を裏付ける証拠の連鎖を提供する必要がある。 このようなプロセスを、エンティティノードを飛び越えるマルチホップ推論を理解することによってグラフ構造にモデル化するのは自然なことだ。 近年,グラフ構築の不便さのため,グラフモデリングが不可欠であるかどうかに不満の声が上がっているが,既存の最先端のグラフフリーの試みは,グラフベースのものに比べて大きなパフォーマンスギャップに悩まされている。 この研究は、まず、MHRC上の全てのグラフモデルを上回る新しいグラフのない代替案を示す。 具体的には,s2g(select-to-guide)戦略を生かして,エビデンス段落を粗大から細かな方法で正確に検索し,マルチホップ推論の性質に驚くほど適合する2つの新しい注意機構を組み込んだ。 当社のグラフフリーモデルでは,強力なベースラインよりも大幅なパフォーマンス向上と,mhrcベンチマークのhotpotqaでの最新技術であるhotpotqaが実現されています。

Multi-hop reading comprehension (MHRC) requires not only to predict the correct answer span in the given passage, but also to provide a chain of supporting evidences for reasoning interpretability. It is natural to model such a process into graph structure by understanding multi-hop reasoning as jumping over entity nodes, which has made graph modelling dominant on this task. Recently, there have been dissenting voices about whether graph modelling is indispensable due to the inconvenience of the graph building, however existing state-of-the-art graph-free attempts suffer from huge performance gap compared to graph-based ones. This work presents a novel graph-free alternative which firstly outperform all graph models on MHRC. In detail, we exploit a select-to-guide (S2G) strategy to accurately retrieve evidence paragraphs in a coarse-to-fine manner, incorporated with two novel attention mechanisms, which surprisingly shows conforming to the nature of multi-hop reasoning. Our graph-free model achieves significant and consistent performance gain over strong baselines and the current new state-of-the-art on the MHRC benchmark, HotpotQA, among all the published works.
翻訳日:2021-07-27 16:12:19 公開日:2021-07-25
# ロジキーフレームワークにおける倫理的・法的推論のための新しい代数的規範理論

New Algebraic Normative Theories for Ethical and Legal Reasoning in the LogiKEy Framework ( http://arxiv.org/abs/2107.11838v1 )

ライセンス: Link先を確認
Ali Farjami(参考訳) Benzm\"{u}ller, Parent and van der Torre は、倫理的および法的推論と責任あるシステムを設計・設計するために、古典的な高階論理へのデオン論理のセマンティックな埋め込みに基づく LogiKEy 方法論を導入している。 本稿では代数的アプローチを用いて,LogiKEyデオン論理とデータセットを大幅に拡張する。 ブール代数上の規範的推論のための入出力演算の理論を開発する。

To design and engineer ethical and legal reasoners and responsible systems, Benzm\"{u}ller, Parent and van der Torre introduce LogiKEy methodology based on the semantical embedding of deontic logics into classic higher-order logic. In this paper, we considerably extend the LogiKEy deontic logics and dataset using an algebraic approach. We develop theory of input/output operations for normative reasoning on top of Boolean algebras.
翻訳日:2021-07-27 16:11:17 公開日:2021-07-25
# イベントストリーム分類のための時間的注意スパイクニューラルネットワーク

Temporal-wise Attention Spiking Neural Networks for Event Streams Classification ( http://arxiv.org/abs/2107.11711v1 )

ライセンス: Link先を確認
Man Yao, Huanhuan Gao, Guangshe Zhao, Dingheng Wang, Yihan Lin, Zhaoxu Yang, Guoqi Li(参考訳) イベントは一般にスパースで非均一であり、マイクロ秒の時間分解能を持ち、非常に価値があり、様々な現実の応用がある時空間のイベントストリームを効果的かつ効率的に処理する方法。 スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたイベントトリガーコンピューティングモデルの一つであり、イベントストリームから効果的な時空間的特徴を抽出する可能性がある。 しかし、新しい高時間分解能のフレームに個別のイベントを集約する場合、既存のSNNモデルは、イベントストリームがスパースで非均一であるため、シリアルフレームが信号と雑音の比率が異なることには重要でない。 この状況は既存のSNNの性能を阻害する。 本研究では,イベントストリーム処理のためのフレームベース表現を学習するための時間的注意SNN(TA-SNN)モデルを提案する。 具体的には,注意概念を時間的入力に拡張し,最終決定におけるフレームの重要性を判断し,無関係なフレームを推論段階で破棄する。 TA-SNNモデルはイベントストリーム分類タスクの精度を向上させることを実証する。 また,フレームベース表現における多重時間分解能の影響についても検討した。 本手法は,ジェスチャ認識,画像分類,音声指認識の3つのタスクでテストを行った。 本報告では,これらの課題について最先端の結果を報告し,60msのジェスチャ認識において,精度(約 19 %)が本質的に向上することを示す。

How to effectively and efficiently deal with spatio-temporal event streams, where the events are generally sparse and non-uniform and have the microsecond temporal resolution, is of great value and has various real-life applications. Spiking neural network (SNN), as one of the brain-inspired event-triggered computing models, has the potential to extract effective spatio-temporal features from the event streams. However, when aggregating individual events into frames with a new higher temporal resolution, existing SNN models do not attach importance to that the serial frames have different signal-to-noise ratios since event streams are sparse and non-uniform. This situation interferes with the performance of existing SNNs. In this work, we propose a temporal-wise attention SNN (TA-SNN) model to learn frame-based representation for processing event streams. Concretely, we extend the attention concept to temporal-wise input to judge the significance of frames for the final decision at the training stage, and discard the irrelevant frames at the inference stage. We demonstrate that TA-SNN models improve the accuracy of event streams classification tasks. We also study the impact of multiple-scale temporal resolutions for frame-based representation. Our approach is tested on three different classification tasks: gesture recognition, image classification, and spoken digit recognition. We report the state-of-the-art results on these tasks, and get the essential improvement of accuracy (almost 19\%) for gesture recognition with only 60 ms.
翻訳日:2021-07-27 16:07:44 公開日:2021-07-25
# PoseFace:Pose-invariant機能とPose-Adaptive Loss for Face Recognition

PoseFace: Pose-Invariant Features and Pose-Adaptive Loss for Face Recognition ( http://arxiv.org/abs/2107.11721v1 )

ライセンス: Link先を確認
Qiang Meng, Xiaqing Xu, Xiaobo Wang, Yang Qian, Yunxiao Qin, Zezheng Wang, Chenxu Zhao, Feng Zhou, Zhen Lei(参考訳) 顔認識におけるディープラーニング手法による大きな成功にもかかわらず、制約のない環境(例えば、監視や写真タグ付けの場合)における大きなポーズの変化に対して、厳しいパフォーマンス低下が観察される。 これに対処するため、現在のメソッドでは、ポーズ特化モデルをデプロイするか、追加モジュールで顔を前面に配置する。 それでも彼らは、アイデンティティ情報はポーズ間で一貫性があり、トレーニング中に前面画像と顔画像の間のデータ不均衡を認識していないという事実を無視している。 本稿では,顔のランドマークを利用してポーズ不変の特徴を解消し,不均衡問題に適応的に対処するためにポーズ適応的損失を利用する,効率的なPoseFaceフレームワークを提案する。 また,Multi-PIE,CFP,CPLFW,IJBのベンチマーク実験により,本手法が最先端技術よりも優れていることを示した。

Despite the great success achieved by deep learning methods in face recognition, severe performance drops are observed for large pose variations in unconstrained environments (e.g., in cases of surveillance and photo-tagging). To address it, current methods either deploy pose-specific models or frontalize faces by additional modules. Still, they ignore the fact that identity information should be consistent across poses and are not realizing the data imbalance between frontal and profile face images during training. In this paper, we propose an efficient PoseFace framework which utilizes the facial landmarks to disentangle the pose-invariant features and exploits a pose-adaptive loss to handle the imbalance issue adaptively. Extensive experimental results on the benchmarks of Multi-PIE, CFP, CPLFW and IJB have demonstrated the superiority of our method over the state-of-the-arts.
翻訳日:2021-07-27 16:07:19 公開日:2021-07-25
# リモートセンシング画像におけるセグメンテーションにおける意味的注意とスケール補完ネットワーク

Semantic Attention and Scale Complementary Network for Instance Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2107.11758v1 )

ライセンス: Link先を確認
Tianyang Zhang, Xiangrong Zhang, Peng Zhu, Xu Tang, Chen Li, Licheng Jiao, and Huiyu Zhou(参考訳) 本稿では,全インスタンスのカテゴリを予測し,ピクセルレベルマスクを用いてローカライズすることを目的とした,リモートセンシング画像(rsis)における,課題の多いマルチカテゴリインスタンスセグメンテーション問題に焦点を当てる。 多くの画期的なフレームワークは、インスタンスのセグメンテーションにおいて有望なパフォーマンスを示しているが、背景の複雑さとスケールの可変性インスタンスは、rsisのセグメンテーションでは依然として困難である。 上記の問題に対処するため,主にセマンティック・アテンション(SEA)モジュールとスケール・コンプリメント・マスク・ブランチ(SCMB)で構成されるセマンティック・アテンションとスケール・コンプリメント・ネットワークという,エンドツーエンドのマルチカテゴリ・インスタンスセグメンテーションモデルを提案する。 SEAモジュールには単純な完全な畳み込みセマンティックセマンティクスブランチが含まれており、フィーチャマップ上の関心インスタンスのアクティベーションを強化し、バックグラウンドノイズの干渉を減らすために追加の監督を行う。 そこで本稿では,従来のシングルマスク分枝をトリデントマスク分枝に拡張したscmbの設計を行い,マルチスケール情報を十分に活用するために,異なるスケールで補完マスクの監督を導入する。 提案手法の有効性をiSAIDデータセットとNWPUインスタンスセグメンテーションデータセットで評価し,有望な性能を実現するための総合実験を行った。

In this paper, we focus on the challenging multicategory instance segmentation problem in remote sensing images (RSIs), which aims at predicting the categories of all instances and localizing them with pixel-level masks. Although many landmark frameworks have demonstrated promising performance in instance segmentation, the complexity in the background and scale variability instances still remain challenging for instance segmentation of RSIs. To address the above problems, we propose an end-to-end multi-category instance segmentation model, namely Semantic Attention and Scale Complementary Network, which mainly consists of a Semantic Attention (SEA) module and a Scale Complementary Mask Branch (SCMB). The SEA module contains a simple fully convolutional semantic segmentation branch with extra supervision to strengthen the activation of interest instances on the feature map and reduce the background noise's interference. To handle the under-segmentation of geospatial instances with large varying scales, we design the SCMB that extends the original single mask branch to trident mask branches and introduces complementary mask supervision at different scales to sufficiently leverage the multi-scale information. We conduct comprehensive experiments to evaluate the effectiveness of our proposed method on the iSAID dataset and the NWPU Instance Segmentation dataset and achieve promising performance.
翻訳日:2021-07-27 16:07:05 公開日:2021-07-25
# 弱教師付き意味セグメンテーションのための親和性学習による補助タスクの活用

Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2107.11787v1 )

ライセンス: Link先を確認
Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu(参考訳) セマンティックセグメンテーションは、密にラベル付けされたデータがない場合に難しいタスクである。 画像レベルのラベルを持つクラスアクティベーションマップ(CAM)のみに依存すると、セグメンテーションの監督が不十分になる。 したがって、事前訓練されたモデルを用いて、擬似セグメンテーションラベルの生成を誘導する粗いサリエンシマップを作成する。 しかし、一般的に使われるオフラインヒューリスティック生成プロセスは、これらの粗いサリエンシマップの利点を完全に活用することはできない。 そこで本研究では,auxsegnetと呼ばれる弱教師付きマルチタスクフレームワークを提案する。サリエンシー検出とマルチラベル画像分類を補助タスクとして活用し,画像レベルの接地ラベルのみを用いた意味セグメンテーションの一次タスクを改善する。 同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーション表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。 学習されたクロスタスクアフィニティは、給与予測を洗練し、カムマップを伝播させ、両方のタスクに擬似ラベルを改善するために使用できる。 擬似ラベル更新とクロスタスクアフィニティ学習の相互強化により、セグメンテーション性能が反復的に向上する。 提案する補助学習ネットワーク構造とクロスタスク親和性学習手法の有効性を示す。 提案手法は,PASCAL VOC 2012とMS COCOベンチマークを用いて,最先端の教師付きセグメンテーション性能を実現する。

Semantic segmentation is a challenging task in the absence of densely labelled data. Only relying on class activation maps (CAM) with image-level labels provides deficient segmentation supervision. Prior works thus consider pre-trained models to produce coarse saliency maps to guide the generation of pseudo segmentation labels. However, the commonly used off-line heuristic generation process cannot fully exploit the benefits of these coarse saliency maps. Motivated by the significant inter-task correlation, we propose a novel weakly supervised multi-task framework termed as AuxSegNet, to leverage saliency detection and multi-label image classification as auxiliary tasks to improve the primary task of semantic segmentation using only image-level ground-truth labels. Inspired by their similar structured semantics, we also propose to learn a cross-task global pixel-level affinity map from the saliency and segmentation representations. The learned cross-task affinity can be used to refine saliency predictions and propagate CAM maps to provide improved pseudo labels for both tasks. The mutual boost between pseudo label updating and cross-task affinity learning enables iterative improvements on segmentation performance. Extensive experiments demonstrate the effectiveness of the proposed auxiliary learning network structure and the cross-task affinity learning method. The proposed approach achieves state-of-the-art weakly supervised segmentation performance on the challenging PASCAL VOC 2012 and MS COCO benchmarks.
翻訳日:2021-07-27 16:06:38 公開日:2021-07-25
# 幾何学的視覚問題に対する大規模不整形投票の効率化

Efficient Large Scale Inlier Voting for Geometric Vision Problems ( http://arxiv.org/abs/2107.11810v1 )

ライセンス: Link先を確認
Dror Aiger, Simon Lynen, Jan Hosang, Bernhard Zeisl(参考訳) カメラポーズ推定や平面における点マッチングのフィルタリングや、点雲における正規推定など、コンピュータビジョンにおける多くの応用において、アウター・リジェクションや等価不整集合最適化は重要な要素である。 いくつかのアプローチが存在するが、大規模には可能な解の組合せ的爆発に直面し、RANSAC、Hough transform、Branch\&Boundのような最先端の手法は、実用的であり続けるためには最小のインリエ比または事前知識を必要とする。 実際、非常に大きなシーンでのカメラポーズのような問題に対して、これらの条件が満たされない場合、これらのアプローチは指数関数的なランタイム成長を持つため、役に立たない。 この問題にアプローチするために, $r^d$ において "intersecting" $k$-dimensional surface に基づいた異常拒絶の効率的で一般的なアルゴリズムを提案する。 R^d$ の点を求めることで、近傍の曲面の数(したがって不等式)を最大化する様々な幾何学的問題を鋳造するレシピを提供する。 結果として得られるアルゴリズムは、ドメイン固有の境界を必要とせず、競合アルゴリズムよりも近似係数のランタイム依存性をより良く、線形な最悪のケース複雑性を持つ。 これは、連続的な丸めとサンプルのグループ化によって計算回数を制限した空間分解スキームを導入することによって達成される。 私たちのレシピ(とオープンソースコード)は、さまざまなドメインにまたがる新しい問題に対する、このような高速なアプローチを誰でも引き出すことができます。 本手法は,処理時間を大幅に下げた場合,低収率のマッチ数の多い複数のカメラフォーミング問題に対して,汎用性を示す。

Outlier rejection and equivalently inlier set optimization is a key ingredient in numerous applications in computer vision such as filtering point-matches in camera pose estimation or plane and normal estimation in point clouds. Several approaches exist, yet at large scale we face a combinatorial explosion of possible solutions and state-of-the-art methods like RANSAC, Hough transform or Branch\&Bound require a minimum inlier ratio or prior knowledge to remain practical. In fact, for problems such as camera posing in very large scenes these approaches become useless as they have exponential runtime growth if these conditions aren't met. To approach the problem we present a efficient and general algorithm for outlier rejection based on "intersecting" $k$-dimensional surfaces in $R^d$. We provide a recipe for casting a variety of geometric problems as finding a point in $R^d$ which maximizes the number of nearby surfaces (and thus inliers). The resulting algorithm has linear worst-case complexity with a better runtime dependency in the approximation factor than competing algorithms while not requiring domain specific bounds. This is achieved by introducing a space decomposition scheme that bounds the number of computations by successively rounding and grouping samples. Our recipe (and open-source code) enables anybody to derive such fast approaches to new problems across a wide range of domains. We demonstrate the versatility of the approach on several camera posing problems with a high number of matches at low inlier ratio achieving state-of-the-art results at significantly lower processing times.
翻訳日:2021-07-27 16:06:14 公開日:2021-07-25
# 細粒度動作認識のための適応再帰的サークルフレームワーク

Adaptive Recursive Circle Framework for Fine-grained Action Recognition ( http://arxiv.org/abs/2107.11813v1 )

ライセンス: Link先を確認
Hanxi Lin, Xinxiao Wu, Jiebo Luo(参考訳) ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。 微妙で抽象的な動きに対して優れた特徴を持つ深遠で豊かな特徴を学ぶ必要がある。 ほとんどの既存手法は、情報を入力から出力へと一方向に移動する純粋なフィードフォワード方式で層の特徴を生成する。 さらに、より強力な機能を得るために、より多くのレイヤを積み重ねることに依存しています。 本稿では、純粋なフィードフォワード層のためのきめ細かいデコレータである適応再帰循環(ARC)フレームワークを提案する。 元の層の演算子とパラメータを継承するが、それらの演算子とパラメータの使用ではわずかに異なる。 具体的には、レイヤの入力を進化状態として処理し、その更新を機能生成と交互に行う。 各再帰ステップにおいて、予め生成された特徴により入力状態を豊かにし、新たに更新された入力状態を特徴生成する。 ARCフレームワークは,高精細な特徴とマルチスケールの受容場を低コストで導入することにより,よりきめ細かな動作認識を容易にすることを期待する。 いくつかのベンチマークではフィードフォワードベースラインに対する重要な改善が観察されている。 例えば、arc搭載のtsm-resnet18は、48%のフロップと52%のモデルパラメータを持つtsm-resnet50よりも優れている。

How to model fine-grained spatial-temporal dynamics in videos has been a challenging problem for action recognition. It requires learning deep and rich features with superior distinctiveness for the subtle and abstract motions. Most existing methods generate features of a layer in a pure feedforward manner, where the information moves in one direction from inputs to outputs. And they rely on stacking more layers to obtain more powerful features, bringing extra non-negligible overheads. In this paper, we propose an Adaptive Recursive Circle (ARC) framework, a fine-grained decorator for pure feedforward layers. It inherits the operators and parameters of the original layer but is slightly different in the use of those operators and parameters. Specifically, the input of the layer is treated as an evolving state, and its update is alternated with the feature generation. At each recursive step, the input state is enriched by the previously generated features and the feature generation is made with the newly updated input state. We hope the ARC framework can facilitate fine-grained action recognition by introducing deeply refined features and multi-scale receptive fields at a low cost. Significant improvements over feedforward baselines are observed on several benchmarks. For example, an ARC-equipped TSM-ResNet18 outperforms TSM-ResNet50 with 48% fewer FLOPs and 52% model parameters on Something-Something V1 and Diving48.
翻訳日:2021-07-27 16:05:47 公開日:2021-07-25
# Transcript to Video: テキストからの効率的なクリップシークエンシング

Transcript to Video: Efficient Clip Sequencing from Texts ( http://arxiv.org/abs/2107.11851v1 )

ライセンス: Link先を確認
Yu Xiong, Fabian Caba Heilbron, Dahua Lin(参考訳) Web上で共有される多くのビデオの中で、よく編集されたビデオが常に注目を集めている。 しかし、専門知識と膨大な手作業を必要とするため、未熟な利用者がうまく編集された動画を作成することは困難である。 非専門家の要求を満たすために、私たちはTranscript-to-Videoという、テキストを入力として使用する弱い教師付きフレームワークを紹介します。 具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。 高速推定のために,リアルタイムビデオクリップシーケンシングのための効率的な検索戦略を提案する。 定量的な結果とユーザスタディにより,提案する学習フレームワークが,スタイルの観点でもっともらしい映像シーケンスを作成しながら,コンテンツ関連ショットを検索できることが実証された。 さらに、ランタイムパフォーマンス分析によって、フレームワークが現実世界のアプリケーションをサポートできることが分かりました。

Among numerous videos shared on the web, well-edited ones always attract more attention. However, it is difficult for inexperienced users to make well-edited videos because it requires professional expertise and immense manual labor. To meet the demands for non-experts, we present Transcript-to-Video -- a weakly-supervised framework that uses texts as input to automatically create video sequences from an extensive collection of shots. Specifically, we propose a Content Retrieval Module and a Temporal Coherent Module to learn visual-language representations and model shot sequencing styles, respectively. For fast inference, we introduce an efficient search strategy for real-time video clip sequencing. Quantitative results and user studies demonstrate empirically that the proposed learning framework can retrieve content-relevant shots while creating plausible video sequences in terms of style. Besides, the run-time performance analysis shows that our framework can support real-world applications.
翻訳日:2021-07-27 16:05:27 公開日:2021-07-25
# マルチモーダルデータによるショット学習は改善されるか?

Will Multi-modal Data Improves Few-shot Learning? ( http://arxiv.org/abs/2107.11853v1 )

ライセンス: Link先を確認
Zilun Zhang, Shihao Ma, Yichun Zhang(参考訳) ほとんどの少数ショット学習モデルはデータの1つのモダリティのみを使用する。 余剰モダリティ(つまり余剰モダリティ)を加えると、モデルがどのように改善するかを質的かつ定量的に調べたい。 画像のテキスト記述)とそれが学習手順にどのように影響するか。 この目的を達成するために,画像特徴とテキスト特徴を組み合わせた4種類の融合法を提案する。 改良の有効性を検証するため,2つの古典的数ショット学習モデルであるProtoNetとMAMLと,ConvNetやResNet12などの画像特徴抽出器を用いた融合手法を検証した。 注意に基づく融合法が最もよく機能し, 基準値と比較した場合, 分類精度を約30%向上させる。

Most few-shot learning models utilize only one modality of data. We would like to investigate qualitatively and quantitatively how much will the model improve if we add an extra modality (i.e. text description of the image), and how it affects the learning procedure. To achieve this goal, we propose four types of fusion method to combine the image feature and text feature. To verify the effectiveness of improvement, we test the fusion methods with two classical few-shot learning models - ProtoNet and MAML, with image feature extractors such as ConvNet and ResNet12. The attention-based fusion method works best, which improves the classification accuracy by a large margin around 30% comparing to the baseline result.
翻訳日:2021-07-27 16:05:14 公開日:2021-07-25
# wip abstract : 自律型cpsにおけるロバストな分布外運動検出と局在

WiP Abstract : Robust Out-of-distribution Motion Detection and Localization in Autonomous CPS ( http://arxiv.org/abs/2107.11736v1 )

ライセンス: Link先を確認
Yeli Feng, Arvind Easwaran(参考訳) 高度に複雑なディープラーニングモデルは、現代のサイバーフィジカルシステム(cps)に統合され、その多くが厳格な安全性要件を持っている。 これに起因する問題のひとつは、深層学習にはブラックボックスとして動作する解釈性がないことだ。 深層学習の信頼性は、特に入力空間次元が自然画像として高い場合、モデルトレーニングデータが実行時テストデータをどのように表現するかに大きく影響する。 そこで本研究では,ロバストなアウト・オブ・ディストリビューション(OOD)検出フレームワークを提案する。 提案手法は,従来の光フロー操作と可変オートエンコーダ(VAE)を用いた表現学習を組み合わせることで,リアルタイムに動画から異常な動きを検出する。 また、画像中のOOD因子を特定する方法も設計する。 運転シミュレーションデータセットの評価は,本手法が関連する作業よりも統計的に頑健であることを示す。

Highly complex deep learning models are increasingly integrated into modern cyber-physical systems (CPS), many of which have strict safety requirements. One problem arising from this is that deep learning lacks interpretability, operating as a black box. The reliability of deep learning is heavily impacted by how well the model training data represents runtime test data, especially when the input space dimension is high as natural images. In response, we propose a robust out-of-distribution (OOD) detection framework. Our approach detects unusual movements from driving video in real-time by combining classical optic flow operation with representation learning via variational autoencoder (VAE). We also design a method to locate OOD factors in images. Evaluation on a driving simulation data set shows that our approach is statistically more robust than related works.
翻訳日:2021-07-27 15:58:40 公開日:2021-07-25
# ネットワーク侵入検知におけるレアクラス分類のための意思決定-フォレスト投票方式

Decision-forest voting scheme for classification of rare classes in network intrusion detection ( http://arxiv.org/abs/2107.11862v1 )

ライセンス: Link先を確認
Jan Brabec, Lukas Machlica(参考訳) 本稿では,アンサンブル(決定林)における決定木の集合をベイズ系で検討する。 焦点は多クラス分類であり、サンプルの数はクラスの1つにかなり偏っている。 このアルゴリズムは、バッグ外データセットを利用して個々の木の予測誤差を推定し、ベイズ則に従ってアンサンブルの決定を洗練するために使用される。 このアルゴリズムは個々のクラスの流行を考慮に入れ、クラス重みや決定スコアしきい値に関連する追加パラメータの設定を必要としない。 評価は、公開されているデータセットと、総ユーザ数が100万を超える数百の企業ネットワークからのネットワークトラフィックテレメトリで構成されるプロプライエタリなデータセットに基づいている。 本研究の目的は,オペレーティングマルウェア検出システムの検出能力を向上することである。 ネットワーク管理者に提示された100件中6件が誤報であり,94\%以上の精度を維持することができたが,検出回数が約7\%増加した。 このアルゴリズムは、大量のデータを効果的に処理し、意思決定林の訓練に使用される最先端のアルゴリズムのほとんどと併用することができる。

In this paper, Bayesian based aggregation of decision trees in an ensemble (decision forest) is investigated. The focus is laid on multi-class classification with number of samples significantly skewed toward one of the classes. The algorithm leverages out-of-bag datasets to estimate prediction errors of individual trees, which are then used in accordance with the Bayes rule to refine the decision of the ensemble. The algorithm takes prevalence of individual classes into account and does not require setting of any additional parameters related to class weights or decision-score thresholds. Evaluation is based on publicly available datasets as well as on an proprietary dataset comprising network traffic telemetry from hundreds of enterprise networks with over a million of users overall. The aim is to increase the detection capabilities of an operating malware detection system. While we were able to keep precision of the system higher than 94\%, that is only 6 out of 100 detections shown to the network administrator are false alarms, we were able to achieve increase of approximately 7\% in the number of detections. The algorithm effectively handles large amounts of data, and can be used in conjunction with most of the state-of-the-art algorithms used to train decision forests.
翻訳日:2021-07-27 15:58:25 公開日:2021-07-25
# gcexplainer: グラフニューラルネットワークのためのヒューマン・イン・ザ・ループ概念に基づく説明

GCExplainer: Human-in-the-Loop Concept-based Explanations for Graph Neural Networks ( http://arxiv.org/abs/2107.11889v1 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Dmitry Kazhdan, Vikash Singh, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野のグラフベースのデータでよく機能することが示されているが、それらは透明性と説明責任の欠如に悩まされており、信頼性を損なうため、そのようなモデルがハイテイクで安全クリティカルなシナリオにデプロイされる。 近年、GNNの説明方法が研究されているが、これらの手法は局所的な説明として知られる単一インスタンスの説明に限られている。 グローバルな説明の提供を目的として,GNNノードとグラフ分類に有名なAutomated Concept-based Explanationアプローチ(Ghorbani et al., 2019)を適用し,GCExplainerを提案する。 GCExplainerは、GNNのグローバルな概念に基づく説明のポストホック発見と抽出のための教師なしのアプローチである。 提案手法は5つのノード分類データセットと2つのグラフ分類データセット上で成功し,人間をループに配置することで高品質な概念表現を発見し,抽出できることを実証した。 データセットの平均完全度スコアは1で、平均完全度スコアは0.753である。 最後に、概念に基づく説明は、GNNExplainer(Ying et al., 2019)が作成した最先端の説明と比較して、データセットとGNNモデルに関する洞察が向上していることを示す。

While graph neural networks (GNNs) have been shown to perform well on graph-based data from a variety of fields, they suffer from a lack of transparency and accountability, which hinders trust and consequently the deployment of such models in high-stake and safety-critical scenarios. Even though recent research has investigated methods for explaining GNNs, these methods are limited to single-instance explanations, also known as local explanations. Motivated by the aim of providing global explanations, we adapt the well-known Automated Concept-based Explanation approach (Ghorbani et al., 2019) to GNN node and graph classification, and propose GCExplainer. GCExplainer is an unsupervised approach for post-hoc discovery and extraction of global concept-based explanations for GNNs, which puts the human in the loop. We demonstrate the success of our technique on five node classification datasets and two graph classification datasets, showing that we are able to discover and extract high-quality concept representations by putting the human in the loop. We achieve a maximum completeness score of 1 and an average completeness score of 0.753 across the datasets. Finally, we show that the concept-based explanations provide an improved insight into the datasets and GNN models compared to the state-of-the-art explanations produced by GNNExplainer (Ying et al., 2019).
翻訳日:2021-07-27 15:58:11 公開日:2021-07-25
# 行動は模倣できるのか? ビデオからヒューマンダイナミクスの再構築と伝達を学ぶ

Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos ( http://arxiv.org/abs/2107.11756v1 )

ライセンス: Link先を確認
Yuqian Fu, Yanwei Fu, Yu-Gang Jiang(参考訳) デモビデオを見ると、このビデオに含まれるアクションを模倣できるだろうか? 本稿では,メッシュ型行動模倣と呼ばれる新しいタスクを提案する。 このタスクの目的は、任意のターゲットのヒューマンメッシュが、ビデオデモで示すのと同じアクションを実行できるようにすることです。 これを実現するために,M-VAI (Mesh-based Video Action Imitation) 法を提案する。 M-VAIはまず、与えられたソースイメージフレームからメッシュを再構築し、最初に回復したメッシュシーケンスを、私たちによって提案されたメッシュシーケンススムーズなモジュールである Mesh2meshに入力し、時間的一貫性を改善する。 最後に、構築された人体から対象のアイデンティティメッシュにポーズを移すことで、アクションを模倣します。 高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。 広範な実験により,提案手法の有効性と課題の有効性が実証された。

Given a video demonstration, can we imitate the action contained in this video? In this paper, we introduce a novel task, dubbed mesh-based action imitation. The goal of this task is to enable an arbitrary target human mesh to perform the same action shown on the video demonstration. To achieve this, a novel Mesh-based Video Action Imitation (M-VAI) method is proposed by us. M-VAI first learns to reconstruct the meshes from the given source image frames, then the initial recovered mesh sequence is fed into mesh2mesh, a mesh sequence smooth module proposed by us, to improve the temporal consistency. Finally, we imitate the actions by transferring the pose from the constructed human body to our target identity mesh. High-quality and detailed human body meshes can be generated by using our M-VAI. Extensive experiments demonstrate the feasibility of our task and the effectiveness of our proposed method.
翻訳日:2021-07-27 15:54:19 公開日:2021-07-25
# 視覚障害を無視するロボットの局所化

Improving Robot Localisation by Ignoring Visual Distraction ( http://arxiv.org/abs/2107.11857v1 )

ライセンス: Link先を確認
Oscar Mendez, Matthew Vowels, Richard Bowden(参考訳) 注意は現代のディープラーニングの重要な要素である。 しかし、その逆についてあまり強調されていない。 日々の生活では、達成しようとしているタスクを混乱させるような、健全な視覚的特徴への注意を明示的に避ける必要があります。 この視覚的な優先順位付けは、視覚障害を無視しながら重要なタスクに集中できる。 そこで本研究では,ニューラルブラインドネス(neural blindness)を導入し,エージェントが不注意と考えられるオブジェクトやクラスを完全に無視する能力を与える。 より明確には、ニューラルネットワークが潜在空間内で特定の選択されたクラスを完全に表現できないようにすることを目指している。 非常に現実的な意味で、これはネットワークを特定のクラスに"盲目"させ、与えられたタスクにとって重要なものに集中させ、それがローカライゼーションを改善するためにどのように使用できるかを示す。

Attention is an important component of modern deep learning. However, less emphasis has been put on its inverse: ignoring distraction. Our daily lives require us to explicitly avoid giving attention to salient visual features that confound the task we are trying to accomplish. This visual prioritisation allows us to concentrate on important tasks while ignoring visual distractors. In this work, we introduce Neural Blindness, which gives an agent the ability to completely ignore objects or classes that are deemed distractors. More explicitly, we aim to render a neural network completely incapable of representing specific chosen classes in its latent space. In a very real sense, this makes the network "blind" to certain classes, allowing and agent to focus on what is important for a given task, and demonstrates how this can be used to improve localisation.
翻訳日:2021-07-27 15:54:05 公開日:2021-07-25
# パラメータ推定のためのモンテカルロ法の検討

A Survey of Monte Carlo Methods for Parameter Estimation ( http://arxiv.org/abs/2107.11820v1 )

ライセンス: Link先を確認
D. Luengo, L. Martino, M. Bugallo, V. Elvira, S. S\"arkk\"a(参考訳) 統計信号処理の応用は通常、観測されたデータの集合から興味のあるパラメータを推定する必要がある。 これらの推定は通常、最大確率(ML)や最大値(MAP)推定器のように多変量最適化問題を解くか、最小平均二乗誤差(MMSE)推定器のように多次元積分を行うことによって得られる。 残念ながら、これらの推定器の分析式は現実世界のほとんどのアプリケーションでは見つからず、モンテカルロ法(MC)は実現可能なアプローチである。 MC法は、所望の分布またはより単純な分布からランダムなサンプルを描画し、一貫性のある推定器を計算する。 MCアルゴリズムの最も重要なファミリーはマルコフ連鎖MC(MCMC)と重要サンプリング(IS)である。 一方、mcmc法は提案密度からサンプルを抽出し、それらの候補サンプルを新しい状態として受け入れまたは拒否することで、定常分布が所望の分布であるエルゴードマルコフ連鎖を構築する。 一方、IS手法は単純な提案密度からサンプルを抽出し、適切な方法でそれらの品質を測定するための適切な重量を割り当てる。 本稿では,信号処理アプリケーションにおける静的パラメータ推定のためのMC手法の徹底的なレビューを行う。 MCスキームの開発に関する歴史的ノートも提供され、その後に基本MC法とレジェクションサンプリング(RS)アルゴリズムの簡潔な記述、そして最も関係の深いMCMCとISのアルゴリズムの多くとそれらの組み合わせを記述した3つのセクションが提供されている。

Statistical signal processing applications usually require the estimation of some parameters of interest given a set of observed data. These estimates are typically obtained either by solving a multi-variate optimization problem, as in the maximum likelihood (ML) or maximum a posteriori (MAP) estimators, or by performing a multi-dimensional integration, as in the minimum mean squared error (MMSE) estimators. Unfortunately, analytical expressions for these estimators cannot be found in most real-world applications, and the Monte Carlo (MC) methodology is one feasible approach. MC methods proceed by drawing random samples, either from the desired distribution or from a simpler one, and using them to compute consistent estimators. The most important families of MC algorithms are Markov chain MC (MCMC) and importance sampling (IS). On the one hand, MCMC methods draw samples from a proposal density, building then an ergodic Markov chain whose stationary distribution is the desired distribution by accepting or rejecting those candidate samples as the new state of the chain. On the other hand, IS techniques draw samples from a simple proposal density, and then assign them suitable weights that measure their quality in some appropriate way. In this paper, we perform a thorough review of MC methods for the estimation of static parameters in signal processing applications. A historical note on the development of MC schemes is also provided, followed by the basic MC method and a brief description of the rejection sampling (RS) algorithm, as well as three sections describing many of the most relevant MCMC and IS algorithms, and their combined use.
翻訳日:2021-07-27 15:52:33 公開日:2021-07-25
# 静止最適輸送計画の推定

Estimation of Stationary Optimal Transport Plans ( http://arxiv.org/abs/2107.11858v1 )

ライセンス: Link先を確認
Kevin O'Connor, Kevin McGoff, Andrew B Nobel(参考訳) 有限値の興味が定常的に時間とともに動的に進化する最適輸送問題について検討する。 数学的には、これは、研究中の分布が定常過程を表し、コストが有限個の時間点に依存する一般的な最適輸送問題の特別な場合である。 この環境では、長い平均コストと密接なつながりを持つ固定結合(結合とも呼ばれる)に注意を向けるべきである。 最適接合と最適接合コストの両方の推定器を導入し, 穏やかな条件下での一貫性を確立する。 強い混合仮定の下では、iid の場合で最もよく知られた結果を拡張する同じ推定器に対して有限サンプル誤差率を確立する。 最後に, 最適結合問題のエントロピーペナライズバージョンに, 一貫性とレート解析を拡張した。

We study optimal transport problems in which finite-valued quantities of interest evolve dynamically over time in a stationary fashion. Mathematically, this is a special case of the general optimal transport problem in which the distributions under study represent stationary processes and the cost depends on a finite number of time points. In this setting, we argue that one should restrict attention to stationary couplings, also known as joinings, which have close connections with long run average cost. We introduce estimators of both optimal joinings and the optimal joining cost, and we establish their consistency under mild conditions. Under stronger mixing assumptions we establish finite-sample error rates for the same estimators that extend the best known results in the iid case. Finally, we extend the consistency and rate analysis to an entropy-penalized version of the optimal joining problem.
翻訳日:2021-07-27 15:52:08 公開日:2021-07-25
# 非パラメトリックIVにおける適応推定と均一信頼帯域

Adaptive Estimation and Uniform Confidence Bands for Nonparametric IV ( http://arxiv.org/abs/2107.11869v1 )

ライセンス: Link先を確認
Xiaohong Chen, Timothy Christensen, Sid Kankanala(参考訳) 本稿では,非パラメトリックモデルにおける構造関数 $h_0$ とその導関数の推定と推論のための計算的単純データ駆動手法を提案する。 最初の手順はブートストラップに基づく非パラメトリック楽器変数(NPIV)推定器のシーブ次元の選択である。 このデータ駆動選択によって実装されると、$h_0$のniv推定器とその導関数は適応的であり、それらは$h_0$の滑らかさ、レセプタの自己発生度、楽器強度を知ることなく、可能な限り(すなわちミニマックス)の超ノルムレートで収束する。 第2の手順は、真正かつ適応的な均一信頼バンド(UCB)を$h_0$で構築するためのデータ駆動型アプローチである。 データ駆動型UPBは、データ生成プロセス(正直な)の一般的なクラスと、最小極超ノルムレート(適応性)の対数係数内における契約に対して、$h_0$とそのデリバティブのカバレッジを保証します。 このように、我々のデータ駆動型UCBは、通常のアンダースムーシング手法によって構築されたUCBと比較して漸近効率が向上する。 さらに、この2つの手順は特別な場合として非パラメトリック回帰に適用される。 本手法は,非パラメトリック重力方程式を用いたファクト輸出の集中的マージンの推定と推論を行い,非オブザーブドファクト生産性分布の共通パラメータ化に対する証拠を求める。

We introduce computationally simple, data-driven procedures for estimation and inference on a structural function $h_0$ and its derivatives in nonparametric models using instrumental variables. Our first procedure is a bootstrap-based, data-driven choice of sieve dimension for sieve nonparametric instrumental variables (NPIV) estimators. When implemented with this data-driven choice, sieve NPIV estimators of $h_0$ and its derivatives are adaptive: they converge at the best possible (i.e., minimax) sup-norm rate, without having to know the smoothness of $h_0$, degree of endogeneity of the regressors, or instrument strength. Our second procedure is a data-driven approach for constructing honest and adaptive uniform confidence bands (UCBs) for $h_0$ and its derivatives. Our data-driven UCBs guarantee coverage for $h_0$ and its derivatives uniformly over a generic class of data-generating processes (honesty) and contract at, or within a logarithmic factor of, the minimax sup-norm rate (adaptivity). As such, our data-driven UCBs deliver asymptotic efficiency gains relative to UCBs constructed via the usual approach of undersmoothing. In addition, both our procedures apply to nonparametric regression as a special case. We use our procedures to estimate and perform inference on a nonparametric gravity equation for the intensive margin of firm exports and find evidence against common parameterizations of the distribution of unobserved firm productivity.
翻訳日:2021-07-27 15:51:56 公開日:2021-07-25
# NMRデータの深部学習による有機化合物のフラグメント構造同定

Identifying the fragment structure of the organic compounds by deeply learning the original NMR data ( http://arxiv.org/abs/2107.11740v1 )

ライセンス: Link先を確認
Chongcan Li, Yong Cong, and Weihua Deng(参考訳) 我々は, 生のnmrスペクトルを前処理し, 等値サンプリングとピークサンプリングという2つの異なる手法を用いて特徴特性を抽出し, その後のサブストラクチャーパターン認識を行う。一方, 統計モデリングのデータセットで頻繁に発生するnmrデータセットの不均衡問題に対処するための代替戦略を提供し, 2つの特徴選択の能力を評価するために, 従来のsvmとknモデルを構築した。 本研究は,ピークサンプリングの抽出した特徴を用いたモデルが,他方を用いたモデルよりも優れていることを示す。 次に,ピークサンプリングから収集したデータbで学習したリカレントニューラルネットワーク(rnn)モデルを構築する。 さらに,従来の機械学習SVMおよびKNNモデルとの比較により,ハイパーパラメータの簡易な最適化と,RNN深層学習モデルのより優れた一般化能力について述べる。

We preprocess the raw NMR spectrum and extract key characteristic features by using two different methodologies, called equidistant sampling and peak sampling for subsequent substructure pattern recognition; meanwhile may provide the alternative strategy to address the imbalance issue of the NMR dataset frequently encountered in dataset collection of statistical modeling and establish two conventional SVM and KNN models to assess the capability of two feature selection, respectively. Our results in this study show that the models using the selected features of peak sampling outperform the ones using the other. Then we build the Recurrent Neural Network (RNN) model trained by Data B collected from peak sampling. Furthermore, we illustrate the easier optimization of hyper parameters and the better generalization ability of the RNN deep learning model by comparison with traditional machine learning SVM and KNN models in detail.
翻訳日:2021-07-27 15:50:22 公開日:2021-07-25
# 仕様パターンからのニューラル回路合成

Neural Circuit Synthesis from Specification Patterns ( http://arxiv.org/abs/2107.11864v1 )

ライセンス: Link先を確認
Frederik Schmitt, Christopher Hahn, Markus N. Rabe and Bernd Finkbeiner(参考訳) 線形時間時間論理(LTL)の高レベル論理仕様から直接ハードウェア回路を合成するタスクにおいて階層変換器を訓練する。 LTL合成問題は、長い歴史を持つよく知られたアルゴリズム上の課題であり、アルゴリズムとツールの改善を追跡するために毎年のコンペが開催されている。 機械学習を使った新しいアプローチはこの領域で多くの可能性を開くかもしれないが、十分な量のトレーニングデータが不足している。 本稿では,追加のトレーニングデータ(仕様と回路のペア)を大量に生成する手法について検討する。 合成コンペティションで使用される仕様から共通パターンをマイニングすることで、この合成データが人手による仕様に十分近いことを保証します。 この合成データに基づいてトレーニングされた階層的トランスフォーマは、合成コンペティションから生じる問題の大部分を解決し、また、最近のケーススタディからの分散の例さえも解決している。

We train hierarchical Transformers on the task of synthesizing hardware circuits directly out of high-level logical specifications in linear-time temporal logic (LTL). The LTL synthesis problem is a well-known algorithmic challenge with a long history and an annual competition is organized to track the improvement of algorithms and tooling over time. New approaches using machine learning might open a lot of possibilities in this area, but suffer from the lack of sufficient amounts of training data. In this paper, we consider a method to generate large amounts of additional training data, i.e., pairs of specifications and circuits implementing them. We ensure that this synthetic data is sufficiently close to human-written specifications by mining common patterns from the specifications used in the synthesis competitions. We show that hierarchical Transformers trained on this synthetic data solve a significant portion of problems from the synthesis competitions, and even out-of-distribution examples from a recent case study.
翻訳日:2021-07-27 15:50:06 公開日:2021-07-25
# 公正な作業者選択によるフェデレーションラーニング:マルチラウンドサブモジュールの最大化アプローチ

Federated Learning with Fair Worker Selection: A Multi-Round Submodular Maximization Approach ( http://arxiv.org/abs/2107.11728v1 )

ライセンス: Link先を確認
Fengjiao Li, Jia Liu, and Bo Ji(参考訳) 本稿では,フェデレーション学習システムにおけるフェアワーカー選択の問題について検討し,フェアネスは,フェデレーションへの参加を促すインセンティブメカニズムとして機能する。 選択された労働者の効用としてグローバルモデルの訓練精度が得られたことを考慮し, 労働者選択問題を, 濃度と公平性制約を伴い, 新たな多ラウンドモノトンサブモジュラー最大化問題として定式化する。 目的は、各作業者が一定時間だけ選択されなければならない追加の公平性要件の下で、複数のラウンドで平均的なユーティリティを最大化することである。 濃度制約を伴う伝統的な部分モジュラー最大化は、既によく知られたNP-ハード問題であるが、マルチラウンド設定におけるフェアネス制約は、余分な困難を伴う。 この新たな課題に対処するために,fair continuous greedy (faircg1 と faircg2) と fair discrete greedy (fairdg) の3つのアルゴリズムを提案する。 さらに,FairCG1およびFairCG2において達成された時間平均ユーティリティの非自明な下限を証明した。 さらに、フェアネスよりも高い優先順位を与えることで、FairDGはラウンド毎に保持されるより強力な短期フェアネス保証を保証します。 最後に,提案アルゴリズムの有効性を,時間平均ユーティリティと公平性満足度の観点から検証するために,広範囲なシミュレーションを行った。

In this paper, we study the problem of fair worker selection in Federated Learning systems, where fairness serves as an incentive mechanism that encourages more workers to participate in the federation. Considering the achieved training accuracy of the global model as the utility of the selected workers, which is typically a monotone submodular function, we formulate the worker selection problem as a new multi-round monotone submodular maximization problem with cardinality and fairness constraints. The objective is to maximize the time-average utility over multiple rounds subject to an additional fairness requirement that each worker must be selected for a certain fraction of time. While the traditional submodular maximization with a cardinality constraint is already a well-known NP-Hard problem, the fairness constraint in the multi-round setting adds an extra layer of difficulty. To address this novel challenge, we propose three algorithms: Fair Continuous Greedy (FairCG1 and FairCG2) and Fair Discrete Greedy (FairDG), all of which satisfy the fairness requirement whenever feasible. Moreover, we prove nontrivial lower bounds on the achieved time-average utility under FairCG1 and FairCG2. In addition, by giving a higher priority to fairness, FairDG ensures a stronger short-term fairness guarantee, which holds in every round. Finally, we perform extensive simulations to verify the effectiveness of the proposed algorithms in terms of the time-average utility and fairness satisfaction.
翻訳日:2021-07-27 15:45:53 公開日:2021-07-25
# 不均一観測データにおける連関因果推論

Federated Causal Inference in Heterogeneous Observational Data ( http://arxiv.org/abs/2107.11732v1 )

ライセンス: Link先を確認
Ruoxuan Xiong, Allison Koenecke, Michael Powell, Zhu Shen, Joshua T. Vogelstein, Susan Athey(参考訳) 複数のソースからの観測データの解析は、治療効果を検出するための統計力の増大に有用であるが、プライバシの考慮のような実用的な制約は、データセット間での個人レベルの情報共有を制限する可能性がある。 本稿では,異種データセットからの要約レベル情報のみを利用するフェデレーション手法を提案する。 フェデレート法は治療効果の2倍ロバスト点推定と分散推定を提供する。 本研究は,連合型推定器の漸近分布を導出し,各レベルのデータから対応する推定器と漸近的に等価であることを示す。 これらの特性を達成するためには,モデルが正しく指定されているか,不均質なデータセット間で安定であるかといった条件に基づいて,フェデレーション法を調整する必要がある。

Analyzing observational data from multiple sources can be useful for increasing statistical power to detect a treatment effect; however, practical constraints such as privacy considerations may restrict individual-level information sharing across data sets. This paper develops federated methods that only utilize summary-level information from heterogeneous data sets. Our federated methods provide doubly-robust point estimates of treatment effects as well as variance estimates. We derive the asymptotic distributions of our federated estimators, which are shown to be asymptotically equivalent to the corresponding estimators from the combined, individual-level data. We show that to achieve these properties, federated methods should be adjusted based on conditions such as whether models are correctly specified and stable across heterogeneous data sets.
翻訳日:2021-07-27 15:45:27 公開日:2021-07-25
# 建物におけるDeep Learning Explicit Differentiable Predictive Control Laws

Deep Learning Explicit Differentiable Predictive Control Laws for Buildings ( http://arxiv.org/abs/2107.11843v1 )

ライセンス: Link先を確認
Jan Drgona, Aaron Tuor, Soumya Vasisht, Elliott Skomski and Draguna Vrabie(参考訳) 未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。 dpcは、明示的な非線形モデル予測制御(mpc)から生じるマルチパラメトリックプログラミング問題に対する近似解である。 MPCの近似とは対照的に、DPCは専門家の監督を必要としない。 代わりに、観測されたシステムのダイナミクスからシステムダイナミクスモデルを学び、微分可能なクローズドループシステムモデルを利用して、神経制御法則をオフラインで最適化する。 システム出力と入力の制約処理のための識別可能な閉ループシステムとペナルティ手法を組み合わせることで、学習システムモデルを通して経済的なMPC損失をバックプロパゲートすることで、制御則のパラメータを直接最適化することができる。 提案手法の制御性能は, マルチゾーン建築熱力学の学習モデルを用いてシミュレーションした。

We present a differentiable predictive control (DPC) methodology for learning constrained control laws for unknown nonlinear systems. DPC poses an approximate solution to multiparametric programming problems emerging from explicit nonlinear model predictive control (MPC). Contrary to approximate MPC, DPC does not require supervision by an expert controller. Instead, a system dynamics model is learned from the observed system's dynamics, and the neural control law is optimized offline by leveraging the differentiable closed-loop system model. The combination of a differentiable closed-loop system and penalty methods for constraint handling of system outputs and inputs allows us to optimize the control law's parameters directly by backpropagating economic MPC loss through the learned system model. The control performance of the proposed DPC method is demonstrated in simulation using learned model of multi-zone building thermal dynamics.
翻訳日:2021-07-27 15:45:16 公開日:2021-07-25
# 拡散確率モデルに基づく音声強調の検討

A Study on Speech Enhancement Based on Diffusion Probabilistic Model ( http://arxiv.org/abs/2107.11876v1 )

ライセンス: Link先を確認
Yen-Ju Lu, Yu Tsao and Shinji Watanabe(参考訳) 拡散確率モデルは、対の拡散と逆過程を通じて自然画像と生音声波形をモデル化する優れた能力を示した。 逆過程のユニークな特性(すなわちガウスノイズと雑音信号から非ターゲット信号を排除する)は、クリーン信号の復元に利用することができる。 この特性に基づいて,ノイズ信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調(DiffuSE)モデルを提案する。 提案したDiffuSEモデルの基本構造は、比較的計算コストとフットプリントの低い高品質なオーディオ波形生成モデルであるDiffWaveと似ている。 改良性能を向上させるために,予測音声に各時間ステップに雑音を付加する逆処理を,支援的逆処理と呼ぶ先進的な逆処理法を考案した。 実験の結果、ディフュージョンは音声バンクコーパスseタスクにおける関連する音声生成モデルに匹敵する性能をもたらすことがわかった。 さらに, 提案した全サンプリングスケジュールに対して, 提案した支持逆プロセスは, 特に高速サンプリングを改良し, 従来の全ステップ推論プロセスよりも改善結果を得るために, 数ステップを要した。

Diffusion probabilistic models have demonstrated an outstanding capability to model natural images and raw audio waveforms through a paired diffusion and reverse processes. The unique property of the reverse process (namely, eliminating non-target signals from the Gaussian noise and noisy signals) could be utilized to restore clean signals. Based on this property, we propose a diffusion probabilistic model-based speech enhancement (DiffuSE) model that aims to recover clean speech signals from noisy signals. The fundamental architecture of the proposed DiffuSE model is similar to that of DiffWave--a high-quality audio waveform generation model that has a relatively low computational cost and footprint. To attain better enhancement performance, we designed an advanced reverse process, termed the supportive reverse process, which adds noisy speech in each time-step to the predicted speech. The experimental results show that DiffuSE yields performance that is comparable to related audio generative models on the standardized Voice Bank corpus SE task. Moreover, relative to the generally suggested full sampling schedule, the proposed supportive reverse process especially improved the fast sampling, taking few steps to yield better enhancement results over the conventional full step inference process.
翻訳日:2021-07-27 15:45:02 公開日:2021-07-25
# シークレットリークプラントによるログスペースの低減

Logspace Reducibility From Secret Leakage Planted Clique ( http://arxiv.org/abs/2107.11886v1 )

ライセンス: Link先を確認
Jay Mardia(参考訳) 植えられたクランク問題は、統計的問題に関連する興味深い計算現象を観察、説明、予測するという文脈でよく研究されている。 計算効率を多項式時間アルゴリズムの存在と同一視する場合、(いくつかの変種)植込みクリッド問題の計算硬度は、他の統計問題のホストの計算硬度を推測するために用いられる。 この能力は、計算効率の概念を宇宙効率に変化させるのに頑健な他の統計問題に(ある変種)植民された斜め問題から移すことができるだろうか? 我々は,スパースPCA,サブマトリクス検出,ほぼk-wise独立性テストという,3つの異なる統計問題に対して肯定的に回答する。 鍵となる課題は、空間効率のよいランダム化還元は、使用するランダム性に繰り返しアクセスする必要があることである。 これらの問題の既知の還元はすべてランダム化され、実装には多項式的に多くのランダムビットが必要である。 多項式的に多くのランダムビットをメモリに格納できないため、既存の還元空間を効率的に実装する方法は不明である。 この問題を回避し、これらの問題に対する既知の削減を実装するには、2つの考えがある。 1. 統計的問題を解くとき、入力自体をランダム性として使うことができる。 2. 入力の一部をランダム性として使用したい場合、適切な秘密漏洩を伴う植込みクランク問題の秘密漏洩変種は、通常の植込みクランク問題よりも有用である。 (arxiv制約により短縮)

The planted clique problem is well-studied in the context of observing, explaining, and predicting interesting computational phenomena associated with statistical problems. When equating computational efficiency with the existence of polynomial time algorithms, the computational hardness of (some variant of) the planted clique problem can be used to infer the computational hardness of a host of other statistical problems. Is this ability to transfer computational hardness from (some variant of) the planted clique problem to other statistical problems robust to changing our notion of computational efficiency to space efficiency? We answer this question affirmatively for three different statistical problems, namely Sparse PCA, submatrix detection, and testing almost k-wise independence. The key challenge is that space efficient randomized reductions need to repeatedly access the randomness they use. Known reductions to these problems are all randomized and need polynomially many random bits to implement. Since we can not store polynomially many random bits in memory, it is unclear how to implement these existing reductions space efficiently. There are two ideas involved in circumventing this issue and implementing known reductions to these problems space efficiently. 1. When solving statistical problems, we can use parts of the input itself as randomness. 2. Secret leakage variants of the planted clique problem with appropriate secret leakage can be more useful than the standard planted clique problem when we want to use parts of the input as randomness. (abstract shortened due to arxiv constraints)
翻訳日:2021-07-27 15:42:39 公開日:2021-07-25