このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220809となっている論文です。

PDF登録状況(公開日: 20220809)

TitleAuthorsAbstract論文公表日・翻訳日
# ISDA共通ドメインモデルを用いた権威データストアの産業採用シナリオ

Industry Adoption Scenarios for Authoritative Data Stores using the ISDA Common Domain Model ( http://arxiv.org/abs/2007.06507v2 )

ライセンス: Link先を確認
Aishwarya Nair, Lee Braine(参考訳) 本稿では,ポストトレード産業における効率向上とコスト削減に向けて,標準化と単純化の機会を探る。 まず、関連する業界問題(一貫性のないプロセス、一貫性のないデータ、重複したデータ)を要約し、対応する業界ソリューション(プロセス標準化、データ標準化、権威のあるデータストア)を提示します。 これは、取引のライフサイクルを通して、ビジネスイベントとプロセスのためのデジタル表現の標準セットとして、国際スワップ・デリバティブ・アソシエーション・コモン・ドメイン・モデル(cdm)に移行することを含む。 次に、従来の集中型モデルと潜在的分散型モデルの両方を考慮して、金融市場のインフラがCDMビジネスイベントをブローカーディーラーに提供する権威的なデータストアを運用する方法について検討する。 どちらのモデルにも、採用シナリオが多数あり(各ブローカ-ディーラーが権威データストアと統合し、CDMを使用する程度に依存している)、主要なシナリオをいくつか特定します。

In this paper we explore opportunities for the post-trade industry to standardize and simplify in order to significantly increase efficiency and reduce costs. We start by summarizing relevant industry problems (inconsistent processes, inconsistent data and duplicated data) and then present the corresponding potential industry solutions (process standardization, data standardization and authoritative data stores). This includes transitioning to the International Swaps and Derivatives Association Common Domain Model (CDM) as a standard set of digital representations for the business events and processes throughout the life cycle of a trade. We then explore how financial market infrastructures could operate authoritative data stores that make CDM business events available to broker-dealers, considering both traditional centralized models and potential decentralized models. For both types of model, there are many possible adoption scenarios (depending on each broker-dealer's degree of integration with the authoritative data store and usage of the CDM), and we identify some of the key scenarios.
翻訳日:2023-05-10 04:28:37 公開日:2022-08-09
# 状態変化のない量子外乱:外乱対策の健全性と局所性

Quantum Disturbance without State Change: Soundness and Locality of Disturbance Measures ( http://arxiv.org/abs/2104.11909v2 )

ライセンス: Link先を確認
Masanao Ozawa(参考訳) 量子系は状態変化なしに乱されることはないとしばしば考えられている。 近年の議論において、この仮定は、広く用いられる外乱測度である作用素に基づく外乱測度が非物理的性質を持つと主張するために用いられる。 ここでは,量子系が状態変化を伴わずに動作的に検出可能な障害を引き起こす可能性があることを示す。 また,その確率分布が変化しない場合においても,時間的相関に現れる観測器上の外乱を定量化する,操作者に基づく外乱測度の健全性と局所性として定式化した信頼性を確立する。

It is often supposed that a quantum system is not disturbed without state change. In a recent debate, this assumption is used to claim that the operator-based disturbance measure, a broadly used disturbance measure, has an unphysical property. Here, we show that a quantum system possibly incurs an operationally detectable disturbance without state change to rebut the claim. Moreover, we establish the reliability, formulated as soundness and locality, of the operator-based disturbance measure, which, we show, quantifies the disturbance on an observable that manifests in the time-like correlation even in the case where its probability distribution does not change.
翻訳日:2023-04-02 13:05:27 公開日:2022-08-09
# 高エネルギー衝突器における$\Lambda$-hyperonスピン相関によるベル型不等式と量子絡み合いの測定

Measurement of Bell-type inequalities and quantum entanglement from $\Lambda$-hyperon spin correlations at high energy colliders ( http://arxiv.org/abs/2107.13007v3 )

ライセンス: Link先を確認
Wenjie Gong, Ganesh Parida, Zhoudunming Tu, Raju Venugopalan(参考訳) 高エネルギーコライダー実験で形成されたQCD文字列に埋め込まれた$\Lambda$-hyperonのスピン相関は、その局所性と絡み合いの特徴に関するユニークな洞察を与える。 一般的な考察から、クレーバー-ホーン-シモニー-ホルトの不等式はそのような状態に対してより強固であるが、変化によって引き起こされる量子-古典遷移のベンチマークを提供する。 一 関連するハドロン乗数 ii) ヌクレオンのスピン 三 対間の迅速性の分離、及び iv) キネマティックレジームがアクセスされる。 これらの研究は、量子絡み合いの定量的尺度の抽出を可能にする。 まず,2つの部分識別可能なフェルミオンフレーバーからなる一重項からなるqcd文字列の単純なモデルを用いて,量子ハードウェア上で得られたものとの比較を行った。 さらに、$\lambda$スピン相関のダイナミクスをモデル化するスピンハミルトンのクラスについても論じる。 ハイパーオン測定からqcd弦の量子特性を抽出するための展望と今後の展望について概説する。

Spin correlations of $\Lambda$-hyperons embedded in the QCD strings formed in high energy collider experiments provide unique insight into their locality and entanglement features. We show from general considerations that while the Clauser-Horne-Shimony-Holt inequality is less stringent for such states, they provide a benchmark for quantum-to-classical transitions induced by varying i) the associated hadron multiplicity, ii) the spin of nucleons, iii) the separation in rapidity between pairs, and iv) the kinematic regimes accessed. These studies also enable the extraction of quantitative measures of quantum entanglement. We first explore such questions within a simple model of a QCD string composed of singlets of two partial distinguishable fermion flavors and compare analytical results to those obtained on quantum hardware. We further discuss a class of spin Hamiltonians that model the dynamics of $\Lambda$ spin correlations. Prospects for extracting quantum features of QCD strings from hyperon measurements at current and future colliders are outlined.
翻訳日:2023-03-20 19:10:55 公開日:2022-08-09
# 量子チャネルのシャドープロセストモグラフィ

Shadow process tomography of quantum channels ( http://arxiv.org/abs/2110.03629v3 )

ライセンス: Link先を確認
Jonathan Kunjummen, Minh C. Tran, Daniel Carney, Jacob M. Taylor(参考訳) 量子プロセストモグラフィーは、量子コンピュータの構築、量子ネットワークの実現、量子センサーの理解において重要な機能である。 量子状態トモグラフィーと同様に、任意の量子チャネルのプロセストモグラフィーは、影響を受ける量子ビット数に指数関数的にスケールする多くの測定を必要とする。 しかし、近年のシャドウトモグラフィーの分野は量子状態に適用され、多項式的に多くの測定しか行わない状態に関する鍵情報を抽出できることを実証している。 本研究では,影状態トモグラフィの概念を量子過程のキャラクタリゼーションの課題に適用する。 シャドウ状態トモグラフィからシャドウプロセストモグラフィへの厳密な境界を直接適用するためにchoi同型を用い、プロセストモグラフィに特有の測定値の数にさらなる境界を見つける。 シャドウプロセストモグラフィーを実装するアルゴリズムにより,チャネル結合の評価や,量子状態のシャドウへのチャネルの適用など,新たな手法が実現された。 これは大規模量子システムを理解するための劇的な改善をもたらす。

Quantum process tomography is a critical capability for building quantum computers, enabling quantum networks, and understanding quantum sensors. Like quantum state tomography, the process tomography of an arbitrary quantum channel requires a number of measurements that scale exponentially in the number of quantum bits affected. However, the recent field of shadow tomography, applied to quantum states, has demonstrated the ability to extract key information about a state with only polynomially many measurements. In this work, we apply the concepts of shadow state tomography to the challenge of characterizing quantum processes. We make use of the Choi isomorphism to directly apply rigorous bounds from shadow state tomography to shadow process tomography, and we find additional bounds on the number of measurements that are unique to process tomography. Our results, which include algorithms for implementing shadow process tomography enable new techniques including evaluation of channel concatenation and the application of channels to shadows of quantum states. This provides a dramatic improvement for understanding large-scale quantum systems.
翻訳日:2023-03-12 05:43:04 公開日:2022-08-09
# 光系における単一光子吸収とエネルギー輸送の量子軌道像II

A Quantum trajectory picture of single photon absorption and energy transport in photosystem II ( http://arxiv.org/abs/2110.13811v3 )

ライセンス: Link先を確認
Robert L. Cook, Liwen Ko, K. Birgitta Whaley(参考訳) 本研究は,光系II(PSII)と相互作用する単一光子の制限症例に対する光合成の最初のステップを研究する。 我々は、平均的な進化だけでなく、吸収された後に蛍光として放出された光子の理想化された測定の個々の実現を与えられたシステムの条件進化も考慮できる量子軌道理論を用いて、我々のシステムをモデル化する。 単一光子入力の量子性は、入力と出力の両方の光場の完全な量子モデルを必要とする。 その結果、psiiは3つの集合「ブライト状態」を介して場と結合し、その方向と分布は自然幾何学と強く相関することを示した。 送信されたビームの測定は、放出光子の(ヌル)検出が、システムが電子的(励起された)基底状態であることを確認するため、システム状態に大きく影響する。 数値的および解析的な計算により、ヌル結果の観測は、励起率の低い状態の人口 $o(10^{-5} )$ を持つ状態から、励起状態に含まれる人口のほぼ全てを含む状態へと変換する。 これは単に単一の光子入力の特性であり、より小さな5つのサイト ``pentamer'' システムを用いて、平均1つの光子を持つコヒーレント状態による励起の挙動と比較することによって確認する。 また, 消音音環境が条件付励起状態ダイナミクスに及ぼす影響についても検討した。 我々は,この環境が蛍光の観測速度に強い影響を与え,励起コヒーレンスを示す新しい光子計数証として機能することを示した。 フォノンモデルの長期進化は、実験的に一貫した量子効率を92%と予測する。

In this work we study the first step in photosynthesis for the limiting case of a single photon interacting with photosystem II (PSII). We model our system using quantum trajectory theory, which allows us to consider not only the average evolution, but also the conditional evolution of the system given individual realizations of idealized measurements of photons that have been absorbed and subsequently emitted as fluorescence. The quantum nature of the single photon input requires a fully quantum model of both the input and output light fields. We show that PSII coupled to the field via three collective ``bright states'', whose orientation and distribution correlate strongly with its natural geometry. Measurements of the transmitted beam strongly affects the system state, since a (null) detection of the outgoing photon confirms that the system must be in the electronic (excited) ground state. Using numerical and analytical calculations we show that observing the null result transforms a state with a low excited state population $O( 10^{-5} )$ to a state with nearly all population contained in the excited states. This is solely a property of the single photon input, as we confirm by comparing this behavior with that for excitation by a coherent state possessing an average of one photon, using a smaller five site ``pentamer'' system. We also examine the effect of a dissipative phononic environment on the conditional excited state dynamics. We show that the environment has a strong effect on the observed rates of fluorescence, which could act as a new photon-counting witness of excitonic coherence. The long time evolution of the phononic model predicts an experimentally consistent quantum efficiency of 92%.
翻訳日:2023-03-10 07:34:54 公開日:2022-08-09
# 振幅符号化量子レジスタの決定論的および絡み合い効率

Deterministic and Entanglement-Efficient Preparation of Amplitude-Encoded Quantum Registers ( http://arxiv.org/abs/2110.13454v2 )

ライセンス: Link先を確認
Prithvi Gundlapalli and Junyi Lee(参考訳) 量子コンピューティングは、ある種の問題に対して指数的なスピードアップを提供する。 そのようなアルゴリズムの多くにおいて、古典ベクトル $\mathbf{b}$ は量子状態 $\left |b \right >$ の振幅で符号化される。 しかしながら、$\left |b \right >$を効率的に作成することは、通常、$Q$ qubitsの任意の状態はおよそ2^Q$のエンタングゲートを必要とするため、難しい問題であることが知られている。 本稿では,状態生成に必要な量子資源を柔軟にエンタングルメント効率良く削減できる決定論的(非変量的)アルゴリズムを提案する。 これは理論的忠実度を下げることによるものであるが、現在のNISQコンピュータの実際の忠実度はデコヒーレンスを減らしたために実際より高くなる可能性がある。 これは正規分布や対数正規分布のような様々な利害関係の場合に当てはまる。 低絡み状態の場合、等尺分解と比較して、我々のアルゴリズムは桁違いに少ない絡み合うゲートを持つ状態を作成することができる。

Quantum computing promises to provide exponential speed-ups to certain classes of problems. In many such algorithms, a classical vector $\mathbf{b}$ is encoded in the amplitudes of a quantum state $\left |b \right >$. However, efficiently preparing $\left |b \right >$ is known to be a difficult problem because an arbitrary state of $Q$ qubits generally requires approximately $2^Q$ entangling gates, which results in significant decoherence on today's Noisy Intermediate Scale Quantum (NISQ) computers. We present a deterministic (nonvariational) algorithm that allows one to flexibly reduce the quantum resources required for state preparation in an entanglement efficient manner. Although this comes at the expense of reduced theoretical fidelity, actual fidelities on current NISQ computers might actually be higher due to reduced decoherence. We show this to be true for various cases of interest such as the normal and log-normal distributions. For low entanglement states, our algorithm can prepare states with more than an order of magnitude fewer entangling gates as compared to isometric decomposition.
翻訳日:2023-03-10 05:52:20 公開日:2022-08-09
# 非逆格子上のサイクロトロン量子化とミラー時間遷移

Cyclotron quantization and mirror-time transition on nonreciprocal lattices ( http://arxiv.org/abs/2111.04412v3 )

ライセンス: Link先を確認
Kai Shao, Zhuo-Ting Cai, Hao Geng, Wei Chen, and D. Y. Xing(参考訳) 一方向輸送と局所シクロトロン運動は2つの反対の物理現象である。 本稿では、磁場を受ける非相互格子上での相互作用効果について検討する。 長波長の極限において、波束の軌道は常に4次元(4d)複素空間内の閉軌道を形成する。 したがって、半古典的量子化規則は、実際のランダウ準位を保つ非相反性にもかかわらず継続する。 このような系において一般的に存在する鏡時間反転(\mathcal{mt}$)対称性の自発的破れによって引き起こされる異なるタイプの非エルミートスペクトル遷移を予測する。 次数パラメータは、$\mathcal{MT}$相転移を記述するために提案され、$\mathcal{MT}$相境界を決定するだけでなく、$\mathcal{MT}$対称性の破れの度合いを定量化する。 そのような順序パラメータは一般に非エルミート相転移のすべてのタイプに適用できる。

Unidirectional transport and localized cyclotron motion are two opposite physical phenomena. Here, we study the interplay effects between them on nonreciprocal lattices subject to a magnetic field. We show that, in the long-wavelength limit, the trajectories of the wave packets always form closed orbits in four-dimensional (4D) complex space. Therefore, the semiclassical quantization rules persist despite the nonreciprocity, which preserves real Landau levels. We predict a different type of non-Hermitian spectral transition induced by the spontaneous breaking of the combined mirror-time reversal ($\mathcal{MT}$) symmetry, which generally exists in such systems. An order parameter is proposed to describe the $\mathcal{MT}$ phase transition, not only to determine the $\mathcal{MT}$ phase boundary but also to quantify the degree of $\mathcal{MT}$-symmetry breaking. Such an order parameter can be generally applied to all types of non-Hermitian phase transitions.
翻訳日:2023-03-08 20:22:33 公開日:2022-08-09
# 一階交叉作用素による磁場をもつグラフェン様系のリタス関数

Ritus functions for graphene-like systems with magnetic fields generated by first-order intertwining operators ( http://arxiv.org/abs/2201.03690v2 )

ライセンス: Link先を確認
Yajaira Concha-S\'anchez, Erik D\'iaz-Bautista, Alfredo Raya(参考訳) 本研究では,非自明な空間依存性を持つ外部静磁場に浸漬したグラフェン系におけるディラックフェルミオンの正確なプロパゲータを構築する。 このような磁場プロファイルは、より単純な(シード)磁場の例から外れた一階超対称フレームワーク内で生成される。 プロパゲータは、運動量空間において単純な対角形を持つ非自明な磁場背景におけるディラックフェルミオン漸近状態に対応するリタス固有関数に基づいて展開される。 この戦略はフェルミオンプロパゲータを閉じた形で表現できる磁場プロファイルの数を拡大する。 電荷と電流密度は対応するプロパゲータから直接見つけられ、他の方法から得られた同様の結果と比較される。

In this work, we construct the exact propagator for Dirac fermions in graphene-like systems immersed in external static magnetic fields with non-trivial spatial dependence. Such field profiles are generated within a first-order supersymmetric framework departing from much simpler (seed) magnetic field examples. The propagator is spanned on the basis of the Ritus eigenfunctions, corresponding to the Dirac fermion asymptotic states in the non-trivial magnetic field background which nevertheless admits a simple diagonal form in momentum space. This strategy enlarges the number of magnetic field profiles in which the fermion propagator can be expressed in a closed-form. Electric charge and current densities are found directly from the corresponding propagator and compared against similar findings derived from other methods.
翻訳日:2023-03-01 19:25:57 公開日:2022-08-09
# 色-表面符号の復号化と解法を用いたフォールトトレラントクリフォード回路の同定

Decoding Merged Color-Surface Codes and Finding Fault-Tolerant Clifford Circuits Using Solvers for Satisfiability Modulo Theories ( http://arxiv.org/abs/2201.12450v5 )

ライセンス: Link先を確認
Noah Shutty and Christopher Chamberland(参考訳) ユニバーサルフォールトトレラント量子コンピュータは、アルゴリズムの実行に必要なエンコードされた操作を実装するために効率的なプロトコルを使用する必要がある。 本稿では,ある種のフォールトトレランス特性を持つクリフォード回路の構成を自動化するために,smtソルバを用いた充足性モジュラー理論(smtソルバ)の解法を,フォールトトレラントなマジック状態準備プロトコルに適用する。 プロトコルの一部では、カラーコードでエンコードされたマジックステートを、表面コードでエンコードされたマジックステートに変換する必要がある。 テレポーテーションステップは、表面コードとマージされた色コードをデコードするので、このようなコードに適用可能なデコードアルゴリズムを開発する。

Universal fault-tolerant quantum computers will require the use of efficient protocols to implement encoded operations necessary in the execution of algorithms. In this work, we show how solvers for satisfiability modulo theories (SMT solvers) can be used to automate the construction of Clifford circuits with certain fault-tolerance properties and we apply our techniques to a fault-tolerant magic-state-preparation protocol. Part of the protocol requires converting magic states encoded in the color code to magic states encoded in the surface code. Since the teleportation step involves decoding a color code merged with a surface code, we develop a decoding algorithm that is applicable to such codes.
翻訳日:2023-02-27 15:55:15 公開日:2022-08-09
# 非平衡量子力学における初期条件と普遍性の空間

Space of initial conditions and universality in nonequilibrium quantum dynamics ( http://arxiv.org/abs/2202.12608v2 )

ライセンス: Link先を確認
Gesualdo Delfino and Marianna Sorba(参考訳) 非平衡量子力学における初期条件の役割を解析的に研究し、自発的破壊対称性の制御における一次元強磁性を考慮した。 2つの異なる基底状態の間を空間的に補間する初期条件として一般に意図された領域壁型の初期条件の無限次元空間に対する局所作用素の期待値を分析する。 多くの場合、初期状態の空間的不均一性によって生じる光円錐の内部で単位時間進化が起こる。 光円錐の最内側では、時空依存の形式は、平衡普遍性クラスのデータによって指定されるという意味で普遍的である。 変数 $x/t$ のグローバルリミット形状は初期条件で変化する。 2つ以上の基底状態を持つ系では、相互作用パラメータのチューニングは、平衡状態の古典系で起こる界面ウェッティング遷移の非平衡量子アナログである遷移を誘導することができる。 一般的な結果はIsing, Potts, Ashkin-Teller 鎖の例を通して説明する。

We study analytically the role of initial conditions in nonequilibrium quantum dynamics considering the one-dimensional ferromagnets in the regime of spontaneously broken symmetry. We analyze the expectation value of local operators for the infinite-dimensional space of initial conditions of domain wall type, generally intended as initial conditions spatially interpolating between two different ground states. At large times the unitary time evolution takes place inside a light cone produced by the spatial inhomogeneity of the initial condition. In the innermost part of the light cone the form of the space-time dependence is universal, in the sense that it is specified by data of the equilibrium universality class. The global limit shape in the variable $x/t$ changes with the initial condition. In systems with more than two ground states the tuning of an interaction parameter can induce a transition which is the nonequilibrium quantum analog of the interfacial wetting transition occurring in classical systems at equilibrium. We illustrate the general results through the examples of the Ising, Potts and Ashkin-Teller chains.
翻訳日:2023-02-23 23:45:08 公開日:2022-08-09
# クォーコニウムにおける絡み合いエントロピーの急速な進化:パートンと弦の双対性

Rapidity evolution of the entanglement entropy in quarkonium: parton and string duality ( http://arxiv.org/abs/2203.00739v3 )

ライセンス: Link先を確認
Yizhuang Liu, Maciej A. Nowak, Ismail Zahed(参考訳) クォーコニウムのソフトグルーオン波動関数の速さ空間における量子の絡み合いを、非自明な速さ発展の理論で研究する。 摂動理論の任意の順序で、急激な進化が絡み合いエントロピーの挙動を劇的に変化させることを発見した。 大きな$n_c$ では、主要なラピシティ・ログを「再開」する縮小密度行列を明示的に構成することができ、バリツキー・コブチェゴフ(bk)のような進化方程式を満たすことが示されている。 その絡み合いエントロピーを、単純な1+1ドルの玩具モデルと3d qcdで研究した。 これらの場合の絡み合いエントロピーは再積の後、コルモゴロフ-シナイ境界の 1 の飽和を示す。 注目すべきは、3D QCDにおいて、エンタングルメントエントロピーの本質的な成長速度は、横方向空間における運動力学的な「クエンチング」の結果、大きな速さで消えることである。 絡み合った密度行列の1体還元は、BFKL進化方程式に従い、大きな衝撃パラメータと大きな速さで、創発的なAdS空間の進化として再キャストすることができる。 この観測により、低 x における摂動Wee Parton の進化が、曲線 AdS$_5$ 空間における弦ビットの2つの摂動的進化に拡張され、収束状態における絡み合いのエントロピーが表される。

We investigate the quantum entanglement in rapidity space of the soft gluon wave function of a quarkonium, in theories with non-trivial rapidity evolutions. We found that the rapidity evolution drastically changes the behavior of the entanglement entropy, at any given order in perturbation theory. At large $N_c$, the reduced density matrices that "resum" the leading rapidity-logs can be explicitly constructed, and shown to satisfy Balitsky-Kovchegov (BK)-like evolution equations. We study their entanglement entropy in a simplified $1+1$ toy model, and in 3D QCD. The entanglement entropy in these cases, after re-summation, is shown to saturate the Kolmogorov-Sinai bound of 1. Remarkably, in 3D QCD the essential growth rate of the entanglement entropy is found to vanish at large rapidities, a result of kinematical "quenching" in transverse space. The one-body reduction of the entangled density matrix obeys a BFKL evolution equation, which can be recast as an evolution in an emergent AdS space, at large impact-parameter and large rapidity. This observation allows the extension of the perturbative wee parton evolution at low-x, to a dual non-perturbative evolution of string bits in curved AdS$_5$ space, with manifest entanglement entropy in the confining regime.
翻訳日:2023-02-23 09:54:30 公開日:2022-08-09
# ベル不等式を用いた相互バイアスのない基底を求める3つの数値解法

Three numerical approaches to find mutually unbiased bases using Bell inequalities ( http://arxiv.org/abs/2203.09429v3 )

ライセンス: Link先を確認
Maria Prat Colomer, Luke Mortimer, Ir\'en\'ee Fr\'erot, M\'at\'e Farkas, Antonio Ac\'in(参考訳) 相互に偏りのない基底は、量子情報理論における非常に有用な測定対に対応する。 最小の合成次元 6 では、3 から 7 までの互いに偏りのない基底が存在し、ザウナー予想(英語版)として知られる数十年前の予想で、少なくとも 3 つの基底が存在することが知られている。 ここで、ザイナーの予想を数値的に解いて、その次元に$n$ mubsが存在することと、その次元に$n$ mubが存在する場合に限り、最大に違反できる整数の対に対してベル不等式を構成できる。 したがって、ザウナー予想を最適化問題に転換し、シーソー最適化、非線形半定値計画法、モンテカルロ法という3つの数値手法を用いて解決する。 3つの方法はいずれも低次元の既知のケースを正しく同定し、全ては6次元の互いに偏りのない基底が4つも存在せず、それぞれが対応するベルの不等式を数値的に最適化する同じ基底を見つけることを示唆している。 さらに、これらの数値オプティマイザは、[p] における距離測度を数値的に最適化することで、次元 6 における「最も遠い4つの基底」と一致するように見える。 Raynal, X. L\"u, B。 -G。 エングルト、フィス。 a, 83 062303 (2011) 最後にモンテカルロの結果は、最大3つのモブが10次元に存在することを示唆している。

Mutually unbiased bases correspond to highly useful pairs of measurements in quantum information theory. In the smallest composite dimension, six, it is known that between three and seven mutually unbiased bases exist, with a decades-old conjecture, known as Zauner's conjecture, stating that there exist at most three. Here we tackle Zauner's conjecture numerically through the construction of Bell inequalities for every pair of integers $n,d \ge 2$ that can be maximally violated in dimension $d$ if and only if $n$ MUBs exist in that dimension. Hence we turn Zauner's conjecture into an optimisation problem, which we address by means of three numerical methods: see-saw optimisation, non-linear semidefinite programming and Monte Carlo techniques. All three methods correctly identify the known cases in low dimensions and all suggest that there do not exist four mutually unbiased bases in dimension six, with all finding the same bases that numerically optimise the corresponding Bell inequality. Moreover, these numerical optimisers appear to coincide with the "four most distant bases" in dimension six, found through numerically optimising a distance measure in [P. Raynal, X. L\"u, B.-G. Englert, Phys. Rev. A, 83 062303 (2011)]. Finally, the Monte Carlo results suggest that at most three MUBs exist in dimension ten.
翻訳日:2023-02-21 20:42:46 公開日:2022-08-09
# 「海の真ん中で軍事基地を見つけたと思う」-ヌル島-架空の場所の中で最も現実的

'I think I discovered a military base in the middle of the ocean' -- Null Island, the most real of fictional places ( http://arxiv.org/abs/2204.08383v3 )

ライセンス: Link先を確認
Levente Juhasz and Peter Mooney(参考訳) 本稿では,wgs84地理座標系において,0$^\circ$ latitude と 0$^\circ$ longitude に位置する架空の場所である null island を探索する。 Null Islandは、さまざまな位置情報ベースのサービス、場所データベース、ソーシャルメディア、およびWebベースのマップにおいて、大量の地理的データと誤って関連付けられている。 元々は地理空間社会におけるジョークと考えられていたが、本記事では、自然界における技術と社会的両方の存在を示唆し、より広範な認識を必要とする地理情報の根本的な問題としてヌル島を奨励する。 この記事では、Null Islandに関連するデータにつながるエラーソースを要約する。 我々は、この架空の場所がどのように発展し、視覚芸術と一般大衆によって発見される地点まで地理空間的な職業を超えた存在として確立したかを説明するのに役立つ4つの進化段階を同定する。 0, 0)で得られるデータの正確な説明を提供した後、ヌルアイランドの地理空間的、技術的、社会的意味合いについて論じる。 null islandへのデータ流用を避けるためのガイドラインが提供されている。 データは今後もこの場所に現れる可能性が高いので、当社の貢献はGIScientistと一般大衆の両方を対象としており、このエラーソースの認識を促進することを目的としています。

This paper explores Null Island, a fictional place located at 0$^\circ$ latitude and 0$^\circ$ longitude in the WGS84 geographic coordinate system. Null Island is erroneously associated with large amounts of geographic data in a wide variety of location-based services, place databases, social media and web-based maps. While it was originally considered a joke within the geospatial community, this article will demonstrate implications of its existence, both technological and social in nature, promoting Null Island as a fundamental issue of geographic information that requires more widespread awareness. The article summarizes error sources that lead to data being associated with Null Island. We identify four evolutionary phases which help explain how this fictional place evolved and established itself as an entity reaching beyond the geospatial profession to the point of being discovered by the visual arts and the general population. After providing an accurate account of data that can be found at (0, 0), geospatial, technological and social implications of Null Island are discussed. Guidelines to avoid misplacing data to Null Island are provided. Since data will likely continue to appear at this location, our contribution is aimed at both GIScientists and the general population to promote awareness of this error source.
翻訳日:2023-02-19 16:19:15 公開日:2022-08-09
# 信号とユーザ側対話による同意問題解決の提案

Proposals for Resolving Consenting Issues with Signals and User-side Dialogues ( http://arxiv.org/abs/2208.05786v1 )

ライセンス: Link先を確認
Harshvardhan J. Pandit(参考訳) 同意の対話は、不快感、悪意のある意図、暗いパターン、違法な慣行、その他多くの問題の原因である。 本研究は、GDPR要求に基づく既知の問題を2つのカテゴリに分類する。 (i)承諾のためのUI/UX、及び (二)同意の表明における権力の不均衡 まず、同意プロセスをよりよく統制するために、プライバシー信号による自動化を使用すること、そして 'consent-fatigue' を減らすことである。 第2に、ユーザ側における同意対話の生成と、Webサイトおよびユーザおよびエージェント(例えば、Webブラウザ)の実用性についてである。 どちらの提案も、実装可能性と利害関係者への適合性の観点から議論されている。 この記事は、「Web-enablers」と「Web-consumers」の利害対立による解決の難しさと、EUが将来の法律でこれらに対処するための直接的なスタンスを取る必要があることによる議論で締めくくられている。

Consent dialogues are a source of annoyance, malicious intent, dark patterns, illegal practices and a plethora of other issues. This work presents known problems based on GDPR requirements grouped into two categories: (i) UI/UX for consenting; and (ii) power imbalance in expressing consent. To resolve this, it presents two proposals: First, the use of automation through privacy signals to better govern consenting processes and to reduce `consent-fatigue'. Second, as generation of consent dialogues on the user side and its practicalities for both websites as well as users and agents (e.g. web browsers). Both proposals are discussed in terms of possibilities for implementation and suitability for stakeholders. The article concludes with a discussion on the difficulties in achieving such solutions owing to the conflicts of interest between `web-enablers' and `web-consumers', and the necessity for the EU to take a direct stance in addressing these in their future laws.
翻訳日:2023-02-19 10:31:38 公開日:2022-08-09
# 一分間のモバイルアプリ利用」からユーザ情報を抽出できる

Information We Can Extract About a User From 'One Minute Mobile Application Usage' ( http://arxiv.org/abs/2207.13222v2 )

ライセンス: Link先を確認
Sarwan Ali(参考訳) 人間の行動を理解することは重要なタスクであり、ターゲット広告、健康分析、セキュリティ、エンタテイメントなど多くの分野に応用されている。 この目的のために,活動認識システム(AR)の設計が重要である。 しかし、人間はみな異なる行動をとることができるため、共通パターンの理解と分析は難しい課題となる。 スマートフォンは現代社会のすべての人間に容易に利用でき、それらを使って人間の活動を追跡することができる。 本稿では,android スマートフォンの加速度センサ,磁力計,ジャイロスコープセンサを用いて,android モバイルアプリケーションの構築により,さまざまな動作を抽出した。 facebook、instagram、whatsapp、twitterといった異なるソーシャルメディアアプリケーションを使用して、29ドルのサブジェクトの属性と年齢、性別、左/右/両手のアプリケーション利用といった属性(クラスラベル)とともに、生のセンサー値を取り出しました。 生信号から特徴を抽出し、異なる機械学習(ML)アルゴリズムを用いて分類を行う。 統計的分析を用いて,クラスラベルの予測における異なる特徴の重要性を示す。 最終的に、トレーニングされたMLモデルを使用して、UCIリポジトリからよく知られたアクティビティ認識データから未知の特徴を抽出し、MLモデルを使用したプライバシー侵害の可能性を強調します。 このセキュリティ分析は、将来の研究者が人間のプライバシーを守るための適切な手順を取るのに役立つかもしれない。

Understanding human behavior is an important task and has applications in many domains such as targeted advertisement, health analytics, security, and entertainment, etc. For this purpose, designing a system for activity recognition (AR) is important. However, since every human can have different behaviors, understanding and analyzing common patterns become a challenging task. Since smartphones are easily available to every human being in the modern world, using them to track the human activities becomes possible. In this paper, we extracted different human activities using accelerometer, magnetometer, and gyroscope sensors of android smartphones by building an android mobile applications. Using different social media applications, such as Facebook, Instagram, Whatsapp, and Twitter, we extracted the raw sensor values along with the attributes of $29$ subjects along with their attributes (class labels) such as age, gender, and left/right/both hands application usage. We extract features from the raw signals and use them to perform classification using different machine learning (ML) algorithms. Using statistical analysis, we show the importance of different features towards the prediction of class labels. In the end, we use the trained ML model on our data to extract unknown features from a well known activity recognition data from UCI repository, which highlights the potential of privacy breach using ML models. This security analysis could help researchers in future to take appropriate steps to preserve the privacy of human subjects.
翻訳日:2023-02-19 10:10:06 公開日:2022-08-09
# データ生産プロセスの文書化:データ作業への参加的アプローチ

Documenting Data Production Processes: A Participatory Approach for Data Work ( http://arxiv.org/abs/2207.04958v2 )

ライセンス: Link先を確認
Milagros Miceli, Tianling Yang, Adriana Alvarado Garcia, Julian Posada, Sonja Mei Wang, Marc Pohl, Alex Hanna(参考訳) 機械学習データの不透明さは、倫理的データワークと知性のあるシステムにとって大きな脅威である。 従来の研究は、標準化されたチェックリストをドキュメントデータセットに提案することでこの問題に対処してきた。 本稿では、データセットのドキュメンテーションからデータ生成のドキュメンテーションへという視点の転換を提案する。 我々は参加型設計を取り上げ,ブルガリアとアルゼンチンの2つの企業において,機械学習のためのデータの収集と注釈がアウトソースされている2つの企業のデータワーカーとコラボレーションする。 調査には,33の半構造化インタビュー,5つの共同設計ワークショップ,プロトタイプの開発,参加者とのフィードバックインスタンスなど,2.5年間の研究が含まれている。 実世界のデータ運用シナリオにおけるドキュメントプラクティスの統合に関する重要な課題と要件を特定します。 本研究は,データワーカのニーズに基づいて,データドキュメンテーションを設計することの価値を明らかにする。 ドキュメントをバウンダリオブジェクト、すなわち組織やチーム間で異なる方法で使用できるが、完全性を維持するのに十分な不変コンテンツを持つオブジェクトとして見ることは、データプロダクションの異種、しばしば分散したコンテキストを取得するためにドキュメントを設計する際に有用であると主張する。

The opacity of machine learning data is a significant threat to ethical data work and intelligible systems. Previous research has addressed this issue by proposing standardized checklists to document datasets. This paper expands that field of inquiry by proposing a shift of perspective: from documenting datasets toward documenting data production. We draw on participatory design and collaborate with data workers at two companies located in Bulgaria and Argentina, where the collection and annotation of data for machine learning are outsourced. Our investigation comprises 2.5 years of research, including 33 semi-structured interviews, five co-design workshops, the development of prototypes, and several feedback instances with participants. We identify key challenges and requirements related to the integration of documentation practices in real-world data production scenarios. Our findings comprise important design considerations and highlight the value of designing data documentation based on the needs of data workers. We argue that a view of documentation as a boundary object, i.e., an object that can be used differently across organizations and teams but holds enough immutable content to maintain integrity, can be useful when designing documentation to retrieve heterogeneous, often distributed, contexts of data production.
翻訳日:2023-02-19 09:49:40 公開日:2022-08-09
# 計測専用xzzx量子コードにおける位相秩序と絡み合いダイナミクス

Topological order and entanglement dynamics in the measurement-only XZZX quantum code ( http://arxiv.org/abs/2204.08489v3 )

ライセンス: Link先を確認
Kai Klocke, Michael Buchhold(参考訳) 我々は,[[5,1,3]]量子誤差補正符号の安定化器によって定義される[(1+1)$次元の計測専用回路のダイナミクスについて検討する。 符号は任意の単一ビット誤差を補正し、D_2 = \mathbb{Z}_2 \times \mathbb{Z}_2$対称性保護トポロジカル(SPT)順序と2倍のバルク縮退から対称性破壊(SB)順序で領域法が絡み合った状態を安定化する。 パウリの測定は位相秩序を壊し、自明な領域ローフェーズに位相遷移を誘導する。 複数の種類のpauli測定を許容することで、測定によるフラストレーションが増大し、sptとsbの順を同時に、または非ゼロの測定速度で分離することができる。 これにより、豊富な相図が得られ、相転移における予期せぬ臨界挙動が生じる。 相関長指数 $\nu=\tfrac43$ と動的臨界指数 $z=1$ は結合のパーコレーションと一致するが、対数絡み合い成長の前因子は非整数倍のパーコレーション値を取ることができる。 驚くべきことに、我々は$l$ qubitsの精製ダイナミクスのためのロバストな過渡的スケーリングレジームを特定する。 修正された動的臨界指数 $z^*\neq z$ は、最大で $t\sim L^{z^*}$ で観測でき、臨界系が予熱状態に緩和されることを思い出させる。

We examine the dynamics of a $(1+1)$-dimensional measurement-only circuit defined by the stabilizers of the [[5,1,3]] quantum error correcting code interrupted by single-qubit Pauli measurements. The code corrects arbitrary single-qubit errors and it stabilizes an area law entangled state with a $D_2 = \mathbb{Z}_2 \times \mathbb{Z}_2$ symmetry protected topological (SPT) order, as well as a symmetry breaking (SB) order from a two-fold bulk degeneracy. The Pauli measurements break the topological order and induce a phase transition into a trivial area law phase. Allowing more than one type of Pauli measurement increases the measurement-induced frustration, and the SPT and SB order can be broken either simultaneously or separately at nonzero measurement rate. This yields a rich phase diagram and unanticipated critical behavior at the phase transitions. Although the correlation length exponent $\nu=\tfrac43$ and the dynamical critical exponent $z=1$ are consistent with bond percolation, the prefactor of the logarithmic entanglement growth may take non-integer multiples of the percolation value. Remarkably, we identify a robust transient scaling regime for the purification dynamics of $L$ qubits. It reveals a modified dynamical critical exponent $z^*\neq z$, which is observable up to times $t\sim L^{z^*}$ and is reminiscent of the relaxation of critical systems into a prethermal state.
翻訳日:2023-02-16 11:44:37 公開日:2022-08-09
# 量子圧縮センシング:数学的機械、量子アルゴリズム、量子回路

Quantum Compressive Sensing: Mathematical Machinery, Quantum Algorithms, and Quantum Circuitry ( http://arxiv.org/abs/2204.13035v2 )

ライセンス: Link先を確認
Kyle Sherbert, Naveed Naimipour, Haleh Safavi, Harry Shaw, Mojtaba Soltanalian(参考訳) 圧縮センシング(Compressive Sensor)は、興味のある信号の既知の構造を利用して、比較的少数の測定値から大きな信号の再構成を容易にするセンシングプロトコルである。 圧縮センシングによる通信や画像再構成などの分野の応用の膨大なレパートリーは、すべての取得した測定値と一致した最下級(最大空間)信号を選択することで、非線形最適化を利用して空間性仮定を利用する従来のアプローチに由来する。 近年の研究では、興味のある信号の構造を学ぶためにテンソルネットワークを訓練するデータ駆動型アプローチが検討されている。 トレーニングされたテンソルネットワークは、測定値と整合した状態に"プロジェクト"するように更新され、元の信号を"ゲーム"するためにサイトごとにサンプリングされる。 本稿では,テンソルネットワークの状態が絡み合った量子ビットの集合上の量子状態である「量子」プロトコルを定式化することにより,この計算プロトコルを利用する。 そこで本研究では,量子コンピュータ上での学習,投影,サンプリングを行うために必要なアルゴリズムと量子回路を提案する。 提案する回路を,地球森林のLIDAR画像の小型定性的モデルでシミュレーションすることで,理論結果を補足する。 我々の結果は、量子技術が新たな飛躍を続けるにつれて、圧縮センシングに対する量子的データ駆動アプローチが大きな可能性を示唆している。

Compressive sensing is a sensing protocol that facilitates reconstruction of large signals from relatively few measurements by exploiting known structures of signals of interest, typically manifested as signal sparsity. Compressive sensing's vast repertoire of applications in areas such as communications and image reconstruction stems from the traditional approach of utilizing non-linear optimization to exploit the sparsity assumption by selecting the lowest-weight (i.e. maximum sparsity) signal consistent with all acquired measurements. Recent efforts in the literature consider instead a data-driven approach, training tensor networks to learn the structure of signals of interest. The trained tensor network is updated to "project" its state onto one consistent with the measurements taken, and is then sampled site by site to "guess" the original signal. In this paper, we take advantage of this computing protocol by formulating an alternative "quantum" protocol, in which the state of the tensor network is a quantum state over a set of entangled qubits. Accordingly, we present the associated algorithms and quantum circuits required to implement the training, projection, and sampling steps on a quantum computer. We supplement our theoretical results by simulating the proposed circuits with a small, qualitative model of LIDAR imaging of earth forests. Our results indicate that a quantum, data-driven approach to compressive sensing, may have significant promise as quantum technology continues to make new leaps.
翻訳日:2023-02-15 09:08:01 公開日:2022-08-09
# 時間依存的逆場イジングモデルにおける量子誤差補正

Quantum error correction in a time-dependent transverse field Ising model ( http://arxiv.org/abs/2205.12998v2 )

ライセンス: Link先を確認
Yifan Hong, Jeremy T. Young, Adam M. Kaufman, Andrew Lucas(参考訳) 時間依存の逆場イジングモデルから構築した単純な量子誤り訂正符号について述べる。 コードは繰り返しコードに似ているが、2つの利点がある:$N$-qubitコードは有限深度空間的に局所的なユニタリ回路で実装でき、その後、$N\ge 10$が偶数であれば$X$と$Z$のエラーから保護できる。 我々は,超低温ライドバーグ原子10個を光学トワイザーに組み込んだこのコードの実装と,さらなる一般化を提案する。

We describe a simple quantum error correcting code built out of a time-dependent transverse field Ising model. The code is similar to a repetition code, but has two advantages: an $N$-qubit code can be implemented with a finite-depth spatially local unitary circuit, and it can subsequently protect against both $X$ and $Z$ errors if $N\ge 10$ is even. We propose an implementation of this code with 10 ultracold Rydberg atoms in optical tweezers, along with further generalizations of the code.
翻訳日:2023-02-11 19:07:21 公開日:2022-08-09
# 量子力学による自然波動関数崩壊の試験

Testing spontaneous wavefunction collapse with quantum electromechanics ( http://arxiv.org/abs/2206.14531v3 )

ライセンス: Link先を確認
Germain Tobar, Stefan Forstner, Arkady Fedorov and Warwick P. Bowen(参考訳) 自然波動関数崩壊の理論は、マクロ系の量子力学の崩壊の可能性を説明する。 しかし、背景雑音上における予測崩壊信号の解消という課題は、決定的な試験を妨げている。 本稿では, 超伝導量子ビットを用いて機械共振器の破壊誘起加熱を正確に読み取ることを提案する。 本研究では, 量子ビットを共振器に強く結合させることにより, 基底状態に近い量子ビットの高速測定と初期化を両立させることができることを示す。 これを組み合わせることで、クビットの準粒子加熱の影響が大幅に抑制され、これが支配的なノイズ源であると予測される。 バルク音響波共鳴は, 超低散逸による崩壊誘起加熱を増幅できることがわかった。 これにより、崩壊モデルの決定的なテストが可能になる。

Theories of spontaneous wavefunction collapse offer an explanation of the possible breakdown of quantum mechanics for macroscopic systems. However, the challenge of resolving predicted collapse signatures above background noise has precluded conclusive tests. Here, we propose to overcome this challenge using a superconducting qubit to precisely readout the collapse-induced heating of a mechanical resonator. We show that the ability to strongly couple the qubit to the resonator can enable both fast measurements and initialization of the qubit close to its ground state. Combined this greatly suppresses the influence of quasiparticle heating of the qubit, which we predict to be the dominant noise source. We find that bulk acoustic wave resonances can amplify the collapse induced heating due to their ultra-low dissipation. Together, this could enable a conclusive test of collapse models.
翻訳日:2023-02-07 07:37:53 公開日:2022-08-09
# アンシリーガウスモードは非マルコビアン性を見極めるポテンシャルを活性化する

Ancillary Gaussian modes activate the potential to witness non-Markovianity ( http://arxiv.org/abs/2207.01649v2 )

ライセンス: Link先を確認
Dario De Santis, Donato Farina, Mohammad Mehboudi and Antonio Ac\'in(参考訳) 連続変数量子力学における相関バックフローによって非マルコフ進化を目撃する能力に雇用モードの数が与える影響について検討する。 まず,非マルコフガウス進化の存在を証明し,ダイナミックスを通じて進化するモードと1つのアンシラリーモードとの相関関係において,いかなる復活も示さない。 次に,2つの補助モードを考慮した場合,このシナリオが根本的に変化することを示す。 実際、同じ進化は、3モード状態が採用されたとき、特定の二分割に沿って相関の逆流を示し、その進化に1つのモードしか従わないことを示す。 これらの結果は非マルコフ性検出における活性化現象の一形態として解釈され、絡み合いとステアリングの2種類の相関関係とガウス進化の2つのクラス、古典的なノイズモデルと量子ブラウン運動モデルで証明される。

We study how the number of employed modes impacts the ability to witness non-Markovian evolutions via correlation backflows in continuous-variable quantum dynamics. We first prove the existence of non-Markovian Gaussian evolutions that do not show any revivals in the correlations between the mode evolving through the dynamics and a single ancillary mode. We then demonstrate how this scenario radically changes when two ancillary modes are considered. Indeed, we show that the same evolutions can show correlation backflows along a specific bipartition when three-mode states are employed, and where only one mode is subjected to the evolution. These results can be interpreted as a form of activation phenomenon in non-Markovianity detection and are proven for two types of correlations, entanglement and steering, and two classes of Gaussian evolutions, a classical noise model and the quantum Brownian motion model.
翻訳日:2023-02-06 18:52:40 公開日:2022-08-09
# 線形深さ量子回路を用いた電子相関エネルギーの計算

Computing Electronic Correlation Energies using Linear Depth Quantum Circuits ( http://arxiv.org/abs/2207.03949v2 )

ライセンス: Link先を確認
Chong Hian Chee, Adrian M. Mak, Daniel Leykam, Panagiotis Kl. Barkoutsos, Dimitris G. Angelakis(参考訳) 分子エネルギーの効率的な計算は量子化学における量子コンピューティングのエキサイティングな応用であるが、現在のノイズの多い中間スケール量子(NISQ)デバイスは浅い回路しか実行できず、量子回路の深いアンサーゼを必要とする既存の変分量子アルゴリズムを制限している。 本稿では,量子ビット数の深さ線形な複数の浅回路を用いて平均場hartree-fock(hf)アンサtzeを生成し,摂動理論による電子相関エネルギーを2次まで推定する変分型nisq親和性アルゴリズムを示す。 このアルゴリズムを、ノイズモデルやクラウド量子プロセッサなどの古典的なシミュレーションとともに、いくつかの小さな分子でテストし、平衡分子エネルギーを再現するだけでなく、より長い結合距離で摂動的電子相関効果を捉えることを示した。 量子プロセッサの忠実度が向上し続ければ、高次多項式回路深度を必要とする他のアプローチに比べて大きな分子の研究が可能になる。

Efficient computation of molecular energies is an exciting application of quantum computing for quantum chemistry, but current noisy intermediate-scale quantum (NISQ) devices can only execute shallow circuits, limiting existing variational quantum algorithms, which require deep entangling quantum circuit ansatzes to capture correlations, to small molecules. Here we demonstrate a variational NISQ-friendly algorithm that generates a set of mean-field Hartree-Fock (HF) ansatzes using multiple shallow circuits with depth linear in the number of qubits to estimate electronic correlation energies via perturbation theory up to the second order. We tested the algorithm on several small molecules, both with classical simulations including noise models and on cloud quantum processors, showing that it not only reproduces the equilibrium molecular energies but it also captures the perturbative electronic correlation effects at longer bond distances. As fidelities of quantum processors continue to improve our algorithm will enable the study of larger molecules compared to other approaches requiring higher-order polynomial circuit depth.
翻訳日:2023-02-06 04:36:49 公開日:2022-08-09
# レジスタバイコンスタント加算のための量子フーリエ変換に基づく量子アルゴリズム

Quantum Algorithm based on Quantum Fourier Transform for Register-by-Constant Addition ( http://arxiv.org/abs/2207.05309v4 )

ライセンス: Link先を確認
Filipe Chagas Ferraz(参考訳) 量子コンピューティングを用いて素数の積を分解する方法に関するショアの提案以来、効率的な量子演算アルゴリズムの実装が求められてきた。 これらのアルゴリズムは、量子並列性を用いて大きな値集合に算術演算を同時に適用することができる。 Draper氏は2つの量子レジスタを持つ量子フーリエ変換に基づく加算アルゴリズムを提案しました。 しかし、対象レジスタに一定の値を追加する必要がある場合、ドレイパーのアルゴリズムは、操作数と使用されるキュービット数の観点から、必要以上に複雑である。 本稿では,対象レジスタに定数を追加する必要のある場合に対して,ドレイパーよりも効率的な加算アルゴリズムを提案する。

Since Shor's proposition of the method for factoring products of prime numbers using quantum computing, there has been a quest to implement efficient quantum arithmetic algorithms. These algorithms are capable of applying arithmetic operations simultaneously on large sets of values using quantum parallelism. Draper proposed an addition algorithm based on the quantum Fourier transform whose operands are two quantum registers, which I refer to as register-by-register addition. However, for cases where there is the need to be added a constant value to a target register, Draper's algorithm is more complex than necessary in terms of number of operations and number of qubits used. In this paper, I present a more efficient addition algorithm than Draper's for cases where there needs to be added just a constant to a target register.
翻訳日:2023-02-05 09:51:38 公開日:2022-08-09
# カットオフをもつ等質リピータ鎖の最適絡み合い分布ポリシ

Optimal entanglement distribution policies in homogeneous repeater chains with cutoffs ( http://arxiv.org/abs/2207.06533v2 )

ライセンス: Link先を確認
\'Alvaro G. I\~nesta, Gayane Vardoyan, Lara Scavuzzo, Stephanie Wehner(参考訳) 量子リピータチェーンは、2つの終端ノード間で二部交絡を分配するのに使うことができる。 量子メモリを持つ量子リピータの連鎖を用いた絡み合い分布の限界について検討する。 最大記憶時間はカットオフと呼ばれ、高品質なエンドツーエンドの絡み合いを確保するためにこれらの記憶に強制される。 エンド・ツー・エンドの絡み合いを生成するために、ノードは次の操作を実行することができる:待ち、隣人との絡み合いリンクの生成を試みる、または絡み合い交換測定を行う。 ノードは、各タイムステップで実行しなければならない操作を決定するポリシーに従う。 グローバル知識政策は、既に生み出された絡み合いに関する情報をすべて考慮に入れている。 ここでは、エンドツーエンドの絡み合いを生み出すのに期待できる時間を最小化するグローバル知識ポリシーを見つける。 我々は,このシステムの進化をマルコフ決定プロセスとしてモデル化し,価値と政策の反復を用いた最適方針を求める。 最適なグローバル知識ポリシーを,ノードがローカル情報のみを使用するポリシと比較する。 最適グローバルナレッジポリシーによって提供される期待配送時間の利点は、ノード数の増加と絡み合いスワップの成功確率の低下によって増加する。 この利点は、切断時間および初等リンクレベルでの絡み合い発生を成功させる確率に関して、非自明な挙動を示す。 我々の研究は、カットオフを伴う中間リピータの連鎖を用いて、大きな量子ネットワークで絡み合ったペアを分配する方法に光を当てています。

Quantum repeater chains can be used to distribute bipartite entanglement among two end nodes. We study the limits of entanglement distribution using a chain of quantum repeaters that have quantum memories. A maximum storage time, known as cutoff, is enforced on these memories to ensure high-quality end-to-end entanglement. To generate end-to-end entanglement, the nodes can perform the following operations: wait, attempt the generation of an elementary entangled link with its neighbor(s), or perform an entanglement swapping measurement. Nodes follow a policy that determines what operation they must perform in each time step. Global-knowledge policies take into account all the information about the entanglement already produced. Here, we find global-knowledge policies that minimize the expected time to produce end-to-end entanglement. We model the evolution of this system as a Markov decision process, and find optimal policies using value and policy iteration. We compare optimal global-knowledge policies to a policy in which nodes only use local information. The advantage in expected delivery time provided by an optimal global-knowledge policy increases with increasing number of nodes and decreasing probability of successful entanglement swap. The advantage displays a non-trivial behavior with respect to the cutoff time and the probability of successful entanglement generation at the elementary link level. Our work sheds light on how to distribute entangled pairs in large quantum networks using a chain of intermediate repeaters with cutoffs.
翻訳日:2023-02-05 06:40:23 公開日:2022-08-09
# 普遍ゲート集合のスケーラブルランダム化ベンチマークの実証

Demonstrating scalable randomized benchmarking of universal gate sets ( http://arxiv.org/abs/2207.07272v2 )

ライセンス: Link先を確認
Jordan Hines, Marie Lu, Ravi K. Naik, Akel Hashim, Jean-Loup Ville, Brad Mitchell, John Mark Kriekebaum, David I. Santiago, Stefan Seritan, Erik Nielsen, Robin Blume-Kohout, Kevin Young, Irfan Siddiqi, Birgitta Whaley, and Timothy Proctor(参考訳) ランダム化ベンチマーク(RB)プロトコルは、量子ゲートの性能を評価する最も広く使われている手法である。 しかし、既存のRB法は多くの量子ビットにスケールしないか、普遍ゲートセットをベンチマークできない。 本稿では、ランダム化ミラー回路と呼ばれる一連の回路を用いて、多くの普遍的かつ連続的なパラメータ化ゲートセットのスケーラブルRB技術を紹介し、実証する。 本手法は,絡み合うクリフォードゲートと任意の単一キュービットゲートの集合を含むゲートセットと,パウリ軸に関する制御された回転を含むゲートセットに適用することができる。 我々は,制御されたSゲートを含むゲートセットとその逆数を含む4つの量子テストベッド上の普遍ゲートセットをベンチマークするために,本手法を用いて,非クリフォードゲートの挿入による観測誤差率の影響について検討する。 最後に,27量子ビットibm qプロセッサを用いた実験により,この手法が多くの量子ビットに拡張できることを実証する。 我々は,この27量子ビットデバイスにおけるクロストークの影響を定量化するため,ランダム多ビット回路層におけるゲート毎の総誤差の約2/3に寄与することが判明した。

Randomized benchmarking (RB) protocols are the most widely used methods for assessing the performance of quantum gates. However, the existing RB methods either do not scale to many qubits or cannot benchmark a universal gate set. Here, we introduce and demonstrate a technique for scalable RB of many universal and continuously parameterized gate sets, using a class of circuits called randomized mirror circuits. Our technique can be applied to a gate set containing an entangling Clifford gate and the set of arbitrary single-qubit gates, as well as gate sets containing controlled rotations about the Pauli axes. We use our technique to benchmark universal gate sets on four qubits of the Advanced Quantum Testbed, including a gate set containing a controlled-S gate and its inverse, and we investigate how the observed error rate is impacted by the inclusion of non-Clifford gates. Finally, we demonstrate that our technique scales to many qubits with experiments on a 27-qubit IBM Q processor. We use our technique to quantify the impact of crosstalk on this 27-qubit device, and we find that it contributes approximately 2/3 of the total error per gate in random many-qubit circuit layers.
翻訳日:2023-02-04 22:58:19 公開日:2022-08-09
# 双曲ブロッホ変換について

On the hyperbolic Bloch transform ( http://arxiv.org/abs/2208.02749v2 )

ライセンス: Link先を確認
\'Akos Nagy and Steven Rayan(参考訳) 双曲結晶の物理学における最近の理論的および実験的発展に動機付けられ、双曲的ブロッホ変換と呼ばれるフクシアン群の非可換ブロッホ変換を研究する。 まず、双曲型ブロッホ変換が射影的かつ「漸近的ユニタリ」であることを証明し、これはヒルベルト空間がフフシアン群の正規表現であるときに、$\Gamma$である。 第二に、$\Gamma \subset \mathrm{PSU} (1, 1)$ が双曲平面上で等尺的に作用すると、ヒルベルト空間は$L^2 \left( \mathbb{H} \right)$ とすると、修正された幾何学的ブロッホ変換が定義され、この変換は、波動関数を $\Sigma = \mathbb{H} / \Gamma$ 上の安定で平坦なバンドルの切断に送信し、双曲ラプラシアンを共変ラプラシアンに変換する。

Motivated by recent theoretical and experimental developments in the physics of hyperbolic crystals, we study the noncommutative Bloch transform of Fuchsian groups that we call the hyperbolic Bloch transform. First, we prove that the hyperbolic Bloch transform is injective and "asymptotically unitary" already in the simplest case, that is when the Hilbert space is the regular representation of the Fuchsian group, $\Gamma$. Second, when $\Gamma \subset \mathrm{PSU} (1, 1)$ acts isometrically on the hyperbolic plane, $\mathbb{H}$, and the Hilbert space is $L^2 \left( \mathbb{H} \right)$, then we define a modified, geometric Bloch transform, that sends wave functions to sections of stable, flat bundles over $\Sigma = \mathbb{H} / \Gamma$ and transforms the hyperbolic Laplacian into the covariant Laplacian.
翻訳日:2023-02-02 07:24:09 公開日:2022-08-09
# キャビティ誘起動的ゲージ場を有する超低温ボソンの非平衡相

Nonequilibrium phases of ultracold bosons with cavity-induced dynamic gauge fields ( http://arxiv.org/abs/2208.04602v1 )

ライセンス: Link先を確認
Arkadiusz Kosior and Helmut Ritsch and Farokh Mivehvar(参考訳) ゲージ場は物理学の基本理論の中心的な概念であり、素粒子間の長距離相互作用を媒介する。 近年,原子-光子相互作用を利用した合成中性量子ガス-キャビティ系において,動的ゲージ場を光子によって自然に設計することが提案されている。 ここでは,2光子ラマン過程を介し,脚依存の動的複素トンネルを有する2脚ボソニック格子モデルに現れる非平衡動的相を包括的に検討する。 このシステムは最小限の動的フラックス格子モデルを構成する。 運動方程式の固定点とその安定性,結果の動的相図,および対応する相転移と分岐について検討する。 特に、位相図は極限サイクルやカオス相を含む非平衡動的相の多相を特徴とする。 最後に、システムの正則周期ダイナミクス(すなわちリミットサイクル位相)を時間結晶に関連付ける。

Gauge fields are a central concept in fundamental theories of physics, and responsible for mediating long-range interactions between elementary particles. Recently, it has been proposed that dynamical gauge fields can be naturally engineered by photons in composite, neutral quantum gas--cavity systems using suitable atom-photon interactions. Here we comprehensively investigate nonequilibrium dynamical phases appearing in a two-leg bosonic lattice model with leg-dependent, dynamical complex tunnelings mediated by cavity-assisted two-photon Raman processes. The system constitutes a minimal dynamical flux-lattice model. We study fixed points of the equations of motion and their stability, the resultant dynamical phase diagram, and the corresponding phase transitions and bifurcations. Notably, the phase diagram features a plethora of nonequilibrium dynamical phases including limit-cycle and chaotic phases. In the end, we relate regular periodic dynamics (i.e., limit-cycle phases) of the system to time crystals.
翻訳日:2023-02-01 19:20:26 公開日:2022-08-09
# 投射d波超伝導状態:フェルミイオン投射エンタングル対状態の研究

Projected d-wave superconducting state: a fermionic projected entangled pair state study ( http://arxiv.org/abs/2208.04566v1 )

ライセンス: Link先を確認
Qi Yang, Xing-Yu Zhang, Hai-Jun Liao, Hong-Hao Tu, Lei Wang(参考訳) フェルミオン射影エンタングル対状態 (fpeps) 表現を用いて, 投影d波対状態の物理について検討した。 まず、ガウス fPEPS を用いた d-wave Bardeen-Cooper-Schrieffer 状態の近似を行う。 次に、得られた状態をfPEPSテンソルに変換し、局所テンソル要素を変更することによって二重占有を除去するGutzwillerプロジェクションを実装する。 投影されたd波対状態のテンソルネットワーク表現は、ガッツウィラー近似を用いることなく、熱力学的極限の物理量を評価することができる。 変分パラメータが非常に少ないにもかかわらず、物理的に動機付けられたテンソルネットワーク状態は、ドープされたt-Jモデルに対する競合エネルギーを示す。 このような構造は、変分テンソルネットワーク計算のための有用な初期状態とガイダンスを提供することを期待している。

We investigate the physics of projected d-wave pairing states using their fermionic projected entangled pair state (fPEPS) representation. First, we approximate a d-wave Bardeen-Cooper-Schrieffer state using the Gaussian fPEPS. Next, we translate the resulting state into fPEPS tensors and implement the Gutzwiller projection which removes double occupancy by modifying the local tensor elements. The tensor network representation of the projected d-wave pairing state allows us to evaluate physical quantities in the thermodynamic limit without employing the Gutzwiller approximation. Despite having very few variational parameters, such physically motivated tensor network states are shown to exhibit competitive energies for the doped t-J model. We expect that such construction offers useful initial states and guidance for variational tensor network calculations.
翻訳日:2023-02-01 19:20:13 公開日:2022-08-09
# 量子エラーの圧縮:統合的アプローチ

Combating quantum errors: an integrated approach ( http://arxiv.org/abs/2208.04555v1 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana, V. Ravishankar(参考訳) 短期的な量子通信プロトコルはチャネルノイズに必然的に悩まされ、その緩和は多党間の絡み合いや高度な実験技術といったリソースによって試みられている。 多次元高次元エンタングルメントの生成は容易ではない。 これにより、現在のデバイスで実装可能な現実的なソリューションの探求が求められる。 特に多人数の絡み合った状態の生成が困難であることに動機づけられ,本論文では誤りのない情報転送を最小限の要件で検討した。 そこで我々は,コミュニケーションのための新しい情報符号化方式を提案する。 符号化方式は、ほとんどのノイズチャネルが数量不変であるという事実に基づいている。 この事実に則って、これらの不変量に情報をエンコードする。 これらの不変量は作用素の期待値の関数である。 この情報は、ノイズチャンネルを経由しない。 いずれにせよ、この手法は他の既存の誤り訂正方式と矛盾しない。 実際、論理基底状態の選択に適切な制限が課された場合、標準量子誤り訂正符号がどのように現れるかを示した。 応用例として、量子鍵分布プロトコルとエラー免疫情報伝達プロトコルを提案する。

Near-term quantum communication protocols suffer inevitably from channel noises, whose alleviation has been mostly attempted with resources such as multiparty entanglement or sophisticated experimental techniques. Generation of multiparty higher dimensional entanglement is not easy. This calls for exploring realistic solutions which are implementable with current devices. Motivated particularly by the difficulty in generation of multiparty entangled states, in this paper, we have investigated error-free information transfer with minimal requirements. For this, we have proposed a new information encoding scheme for communication purposes. The encoding scheme is based on the fact that most noisy channels leave some quantities invariant. Armed with this fact, we encode information in these invariants. These invariants are functions of expectation values of operators. This information passes through the noisy channel unchanged. Pertinently, this approach is not in conflict with other existing error correction schemes. In fact, we have shown how standard quantum error-correcting codes emerge if suitable restrictions are imposed on the choices of logical basis states. As applications, for illustration, we propose a quantum key distribution protocol and an error-immune information transfer protocol.
翻訳日:2023-02-01 19:20:01 公開日:2022-08-09
# Kerrパラメトリック発振器の計測に基づく状態調整

Measurement-based state preparation of Kerr parametric oscillators ( http://arxiv.org/abs/2208.04542v1 )

ライセンス: Link先を確認
Yuta Suzuki, Shohei Watabe, Shiro Kawabata and Shumpei Masuda(参考訳) カーパラメトリック発振器(KPO)は、量子情報処理や量子シミュレーションへの応用において注目されている。 KPOの調製と測定は、キュービットとして使用される場合の典型的な要件である。 これまで提案したKPOの状態調整法は,ポンプフィールドや補助駆動フィールドの変調を利用する。 ポンプ場や補助駆動場を変調する必要のないホモダイン検出に基づくkpoの確率的状態形成について検討し,これらの分野の制御における不完全性が望ましくない効果を排除できることを示した。 本研究は, 測定ノイズの影響を減少させるために, 適切な時間で平均値が測定された場合, KPOの状態と強い相関関係があることを定量的に示し, KPOの状態(確率的状態準備)を推定できることを示す。 測定ノイズとビットフリップの影響を考慮した状態推定の成功確率について検討する。 さらに,KPOの確率的ダイナミクスをホモダイン検出下で記述した二項コヒーレント状態モデルを開発することにより,高い成功確率を実現するための平均時間の範囲を求める。

Kerr parametric oscillators (KPOs) have attracted increasing attention in terms of their application to quantum information processing and quantum simulations. The state preparation and measurement of KPOs are typical requirements when they are used as qubits. The methods previously proposed for state preparations of KPOs utilize modulation of a pump field or an auxiliary drive field. We study the stochastic state preparation of a KPO based on homodyne detection, which does not require modulation of a pump field nor an auxiliary drive field, and thus can exclude unwanted effects of possible imperfection in control of these fields. We quantitatively show that the detection data, if averaged over a proper time to decrease the effect of measurement noise, has a strong correlation with the state of the KPO, and therefore can be used to estimate the state of the KPO (stochastic state preparation). We examine the success probability of the state estimation taking into account the effect of the measurement noise and bit flips. Moreover, the proper range of the averaging time to realize a high success probability is obtained by developing a binomial-coherent-state model, which describes the stochastic dynamics of the KPO under homodyne detection.
翻訳日:2023-02-01 19:19:46 公開日:2022-08-09
# ナノ電気機械システムに基づくユニバーサル量子計算

Universal quantum computation based on Nano-Electro-Mechanical Systems ( http://arxiv.org/abs/2208.04528v1 )

ライセンス: Link先を確認
Motohiko Ezawa, Shun Yasunaga, Akio Higo, Tetuya Iizuka, Yoshio Mita(参考訳) そこで我々は,両面からプレートを押して二重井戸電位を機械的に生成する,座屈板をキュービットとして用いることを提案する。 プレートの左右の位置は、量子状態 $|0\rangle $ と $|1\rangle $ に割り当てられる。 量子効果は、変位がピコメーターのオーダーであるときに現れるが、バックプレートのサイズは1\mu m$である。 プレートに作用する座屈力を変化させてNOTゲートを実行し、電場を適用してパウリZゲートと位相シフトゲートを実行する。 2量子位相シフトゲートは静電電位を用いて実現される。 これらは普遍量子ゲートの集合を構成する。 材料パラメータの検証は、NEMS(Nano-Electro-Mechanical System)ベースの量子コンピュータの実現性につながる。

We propose to use a buckled plate as a qubit, where a double-well potential is mechanically produced by pushing the plate from both the sides. The right and left positions of the plate are assigned to be quantum states $|0\rangle $ and $|1\rangle $. Quantum effects emerge when the displacement is of the order of picometers, although the size of a buckled plate is of the order of $1\mu m$. The NOT gate is executed by changing the buckling force acting on the plate, while the Pauli-Z gate and the phase-shift gate are executed by applying electric field. A two-qubit phase shift gate is materialized with the use of an electrostatic potential. They constitute a set of universal quantum gates. An examination of material parameters leads to a feasibility of a NEMS(Nano-Electro-Mechanical System)-based quantum computer.
翻訳日:2023-02-01 19:19:29 公開日:2022-08-09
# ランダムウォークを用いた反復位相推定

Using Random Walks for Iterative Phase Estimation ( http://arxiv.org/abs/2208.04526v1 )

ライセンス: Link先を確認
Cassandra Granade, Nathan Wiebe(参考訳) 近年,量子位相推定のためのアルゴリズムが開発されている。 本研究では,従来のベイズ法に比べて遅延許容度が望ましい古典的処理時間を指数関数的に少なくするハイゼンベルク限定スケーリングを実現する,オンラインベイズ位相推定への新たなアプローチを提案する。 これは、既存の粒子フィルタ法ではミリ秒ではなく、CPU上でマイクロ秒で更新できることを意味している。 提案手法では, 先行分布がガウス分布であると仮定し, 最適実験が選択された場合, 移動が測定結果によって決定されるランダムウォーカーの位置によって, 先行分布の平均が与えられる。 次に,フィッシャー情報に基づく議論から,本アルゴリズムがデータの最適に近い解析を提供するという議論を行う。 この研究は、オンラインベイズ推論が実用的で効率的であり、現代のfpga駆動適応実験で展開できることを示した。

In recent years there has been substantial development in algorithms for quantum phase estimation. In this work we provide a new approach to online Bayesian phase estimation that achieves Heisenberg limited scaling that requires exponentially less classical processing time with the desired error tolerance than existing Bayesian methods. This practically means that we can perform an update in microseconds on a CPU as opposed to milliseconds for existing particle filter methods. Our approach assumes that the prior distribution is Gaussian and exploits the fact, when optimal experiments are chosen, the mean of the prior distribution is given by the position of a random walker whose moves are dictated by the measurement outcomes. We then argue from arguments based on the Fisher information that our algorithm provides a near-optimal analysis of the data. This work shows that online Bayesian inference is practical, efficient and ready for deployment in modern FPGA driven adaptive experiments.
翻訳日:2023-02-01 19:19:15 公開日:2022-08-09
# 時空間変調原子感受性による光モード変換

Optical mode conversion via spatiotemporally modulated atomic susceptibility ( http://arxiv.org/abs/2208.04478v1 )

ライセンス: Link先を確認
Claire Baum, Matt Jaffe, Lukas Palm, Aishwarya Kumar, Jonathan Simon(参考訳) 光は、その速度、マニピュラビリティ、そして情報をエンコードする豊富な自由度のために、古典的および量子的な情報伝達に優れた媒体である。 近年、空間分割多重化は、ラゲール・ガウシアン・ドーナツモードのような無限次元伝播固有モードの集合を利用することにより、情報転送速度を実質的に増加させる手段として注目されている。 これらの高次元空間におけるエンコーディングは、高効率でフォトニック自由度を操作できる装置を必要とする。 本研究では, 試料を透過する光の自由度を操作するための強力なツールとして, 原子試料の光感受性を制御できることを実証する。 このツールを用いて, ツイスト光キャビティの2つのラゲア・ガウシアンモード間のフォトニックモード変換を高効率に行う。 補助スタークシフトビームを用いてキャビティウエストに位置する原子試料の光感受性を時空間的に変調し、軌道角運動量 $l=3\rightarrow l=0$ のモードを変換するモード結合光学を生成する。 内部変換効率は、原子数と変調ビーム強度の関数として単位付近で飽和し、トポロジカルな小体状態の準備、量子通信、フレキシブルなテーブルトップデバイスとしての可能性を探究する。

Light is an excellent medium for both classical and quantum information transmission due to its speed, manipulability, and abundant degrees of freedom into which to encode information. Recently, space-division multiplexing has gained attention as a means to substantially increase the rate of information transfer by utilizing sets of infinite-dimensional propagation eigenmodes such as the Laguerre-Gaussian 'donut' modes. Encoding in these high-dimensional spaces necessitates devices capable of manipulating photonic degrees of freedom with high efficiency. In this work, we demonstrate controlling the optical susceptibility of an atomic sample can be used as powerful tool for manipulating the degrees of freedom of light that passes through the sample. Utilizing this tool, we demonstrate photonic mode conversion between two Laguerre-Gaussian modes of a twisted optical cavity with high efficiency. We spatiotemporally modulate the optical susceptibility of an atomic sample that sits at the cavity waist using an auxiliary Stark-shifting beam, in effect creating a mode-coupling optic that converts modes of orbital angular momentum $l=3\rightarrow l=0$. The internal conversion efficiency saturates near unity as a function of the atom number and modulation beam intensity, finding application in topological few-body state preparation, quantum communication, and potential development as a flexible tabletop device.
翻訳日:2023-02-01 19:18:59 公開日:2022-08-09
# リニアセグメンテーションイオントラップ量子コンピュータにおけるシャットリングシーケンスの自動生成

Automated Generation of Shuttling Sequences for a Linear Segmented Ion Trap Quantum Computer ( http://arxiv.org/abs/2208.04881v1 )

ライセンス: Link先を確認
Jonathan Durandau and Janis Wagner and Fr\'ed\'eric Mailhot and Charles-Antoine Brunet and Ferdinand Schmidt-Kaler and Ulrich Poschinger and Yves B\'erub\'e-Lauzi\`ere(参考訳) 閉じ込められたイオン量子コンピュータプラットフォームをスケールアップするための有望なアプローチは、複数の閉じ込められたイオン量子ビットセット(イオン結晶)をセグメント化されたマイクロチップトラップに格納し、イオンの物理的移動(シャットリング)を介してそれらを相互接続することである。 量子回路を適度な複雑さで実現するには、適切な量子ビット割り当てとシャットリングスケジュールの設計が自動化を必要とする。 ここでは、これらのタスクを正確に扱うアルゴリズムを記述し、テストする。 本稿では,与えられたトラップ構造によって課される制約に従って,スケジュールのシャットリングを完全自動生成するアルゴリズムについて述べる。 さらに、初期量子ビット割り当てのための異なる手法を導入し、これをランダム回路(最大20量子ビット)と量子フーリエ変換様回路で比較し、最大40量子ビットのトッフォリゲートを一般化した。 固定構造を含む量子回路では、高度な割当てアルゴリズムにより、シャットリングのオーバーヘッドを低減することができる。

A promising approach for scaling-up trapped-ion quantum computer platforms is by storing multiple trapped-ion qubit sets ('ion crystals') in segmented microchip traps and to interconnect these via physical movement of the ions ('shuttling'). Already for realizing quantum circuits with moderate complexity, the design of suitable qubit assignments and shuttling schedules require automation. Here, we describe and test algorithms which address exactly these tasks. We describe an algorithm for fully automated generation of shuttling schedules, complying to constraints imposed by a given trap structure. Furthermore, we introduce different methods for initial qubit assignment and compare these for random circuit (of up to 20 qubits) and quantum Fourier transform-like circuits, and generalized Toffoli gates of up to 40 qubits each. We find that for quantum circuits which contain a fixed structure, advanced assignment algorithms can serve to reduce the shuttling overhead.
翻訳日:2023-02-01 19:14:09 公開日:2022-08-09
# Lipkin-Meshkov-Glick量子電池の充電特性

Charging advantages of Lipkin-Meshkov-Glick quantum battery ( http://arxiv.org/abs/2208.04831v1 )

ライセンス: Link先を確認
Fu-Quan Dou, Yuan-Jin Wang, Jian-An Sun(参考訳) リプキン-メシコフ-グリック量子電池の性能について, adiabaticity (sta) への近道に着目して検討した。 量子バッテリ内の任意の2点の結合強度が時間に関する正弦波関数である場合を主に考慮する。 量子電池の充電効率は、STAを介して大幅に向上できる。 また, 粒子数, 異方性パラメータ, 振幅, 駆動磁場の周波数などのパラメータの影響も解析した。 これらのパラメータを適切に調整することにより、効率的な充電プロセスと高い充電性を実現することができる。 さらに, 帯電時のエネルギー変動, フォン・ノイマンエントロピー, エネルギーコストを計算した。 STAは、充電過程中に貯蔵されたエネルギーとフォン・ノイマンエントロピーを周期的に変化させ、エネルギー変動を減少させ、フォン・ノイマンエントロピーのミニマ付近で最小のエネルギー変動が常に起こる。

We investigate the performance of the Lipkin-Meshkov-Glick quantum battery based on shortcuts to adiabaticity (STA). We mainly consider the situation where the coupling strength of any two sites in the quantum battery is a sinusoidal function with respect to time. The charging efficiency of the quantum battery can be greatly enhanced via STA. We also analyze the influences of parameters, including particle number, anisotropic parameter, the amplitude and frequency of the driving fields. It is found that an efficient charging process and thus high charging advantages can be achieved by adjusting these parameters properly. Moreover, we calculate the energy fluctuation, von Neumann entropy and energy cost during charging. The STA can make the stored energy and the von Neumann entropy change periodically during the charging process and reduce the energy fluctuation, and the minimal energy fluctuation always occurs in the proximity of minima of the von Neumann entropy.
翻訳日:2023-02-01 19:13:35 公開日:2022-08-09
# 異方性ラシュバ効果を実時間光電流とスピン分極に応用した過渡対称性破砕

Exploiting anisotropic Rashba effects on real-time photocurrents and spin polarization for transient symmetry breaking ( http://arxiv.org/abs/2208.04805v1 )

ライセンス: Link先を確認
Matisse Wei-Yuan Tu, Jyh-Pin Chou and Chih-Wei Luo(参考訳) レーザーパルスに対する異方性rashbaスピン軌道結合(soc)を用いた2次元(2d)電子ガスの実時間過渡応答を理論的に検討した。 レーザーパルスの異なる線形偏光下での時間依存性光電流とスピン偏光を明示的に監視することにより、ラシュバSOCの異方性と組み合わせたミラー対称性の過渡的破壊が、電荷媒介とスピン媒介の光電流への寄与を著しく区別することを発見した。 このような区別は、光電流の対称性破壊誘起(遷移)成分がレーザーパルスの線形偏光角に依存することを解析することによって得られる。 これは、円偏光光を使わずに光電流中のスピンを媒介する過程を推測する可能性を示唆する。 さらに、過渡対称性の破れとrashba socの異方性との間の相互作用は、定常限界と線形応答レジームにおいてゼロである過渡的に非零スピン分極成分につながる。 特に、2次元電子系の対称性軸に対する線形偏光の相対方向を制御することにより、材料固有の磁化効果を伴わずに、外面スピン偏光成分を誘導またはオフすることができる。 本研究は,超高速レーザーパルスの偏光と電子材料の空間対称性との協調が,固体状態における超高速スピントロニクスの発展の基礎となる実時間電荷とスピン応答の誘導に有効であることを示す。

We theoretically investigate the real-time transient responses of a two-dimensional (2D) electron gas with anisotropic Rashba spin-orbit coupling (SOC) to laser pulses. Through explicitly monitoring the time-dependent photocurrents and spin polarization under different linear polarizations of the laser pulse, we find that the transient breaking of the mirror symmetry in combination with the anisotropy of the Rashba SOC results in significant distinction between the charge-mediated and the spin-mediated contributions to the photocurrents. Such distinction is obtained by analyzing the dependence of the symmetry-breaking induced (transverse) components of the photocurrents on the linear polarization angle of the laser pulse. This suggests a possibility of inferring spin-mediated processes in photocurrents without the use of circularly polarized lights. Moreover, the interplay between transient symmetry breaking and the anisotropy of the Rashba SOC also leads to transiently nonzero spin polarization components that are otherwise zero in the steady-state limit and the linear response regime. Especially, the out-of-plane spin polarization component can be induced or turned off by controlling the relative orientation of the linear polarization with respect to the symmetry axis of the 2D electronic system, without involving material-intrinsic magnetization effects. Our findings demonstrate the efficacy of a particular coordination between the polarization of the ultrafast laser pulses and the spatial symmetry of the electronic materials in directing the real-time charge and the spin responses that are fundamental to the development of ultrafast spintronics in solid states.
翻訳日:2023-02-01 19:13:19 公開日:2022-08-09
# 電場及び磁場中における平面ゲルマニウムホール量子ビットのモデリング

Modelling of planar germanium hole qubits in electric and magnetic fields ( http://arxiv.org/abs/2208.04795v1 )

ライセンス: Link先を確認
Chien-An Wang and Giordano Scappucci and Menno Veldhorst and Maximilian Russ(参考訳) 歪んだ平面ゲルマニウム量子井戸のホールベースのスピン量子ビットは、その好ましい性質と顕著な実験的進歩のためにかなりの注目を集めている。 この構造における大きなスピン軌道相互作用は、効率的な電気量子ビット演算を可能にする。 しかし、量子ビットを電気的ノイズに結びつけることもできる。 本研究では,これらのホールスピン量子ビットをホストするヘテロ構造のシミュレーションを行う。 実効的なヘテロ構造に対する有効質量方程式を解き、解析基底波関数のセットを提供し、重孔基底状態の有効g因子を計算する。 我々の研究では、量子井戸の外側にある高励起光ホール状態がg因子に強い影響があることが判明した。 その結果,近年の予測とは対照的に,面外磁場の甘味点が非実用的に大きな電界に移動することがわかった。 しかし、平面内アライメントに近い磁場では、低電界のスイートスポットが回収される。 この研究はゲルマニウムホールスピン量子ビットのコヒーレンスの理解と改善に役立つだろう。

Hole-based spin qubits in strained planar germanium quantum wells have received considerable attention due to their favourable properties and remarkable experimental progress. The sizeable spin-orbit interaction in this structure allows for efficient electric qubit operations. However, it also couples the qubit to electrical noise. In this work we perform simulations of a heterostructure hosting these hole spin qubits. We solve the effective mass equations for a realistic heterostructure, provide a set of analytical basis wave functions, and compute the effective g-factor of the heavy-hole ground-state. Our investigations reveal a strong impact of highly excited light hole states located outside the quantum well on the g-factor. Consequently, contrary to recent predictions, we find that sweet spots in out-of-plane magnetic fields are shifted to impractically large electric fields. However, for magnetic fields close to in-plane alignment, sweet spots at low electric fields are recovered. This work will be helpful in understanding and improving coherence of germanium hole spin qubits.
翻訳日:2023-02-01 19:12:51 公開日:2022-08-09
# ワイル作用素に基づく分離性基準

Separability criteria based on the Weyl operators ( http://arxiv.org/abs/2208.04789v1 )

ライセンス: Link先を確認
Xiaofen Huang, Tinggui Zhang, Ming-Jing Zhao, Naihuan Jing(参考訳) 情報処理の重要な資源としての絡み合いは、量子状態の特別な性質によって説明できる。 既知のワイル基底を用いて、量子状態の新しいブロッホ分解を提案し、分離可能性問題の研究を行う。 この分解により,相関行列に基づく分離性の代替的特徴を見出すことができる。 我々は、この基準が等方性状態、ベル対角状態、およびいくつかのppt絡み合い状態の絡み合い検出に有効であることを示した。 また、ワイル作用素を用いて量子テレポーテーションの検知演算子を構築する。

Entanglement as a vital resource for information processing can be described by special properties of the quantum state. Using the well-known Weyl basis we propose a new Bloch decomposition of the quantum state and study its separability problem. This decomposition enables us to find an alternative characterization of the separability based on the correlation matrix. We shaw that the criterion is effective in detecting entanglement for the isotropic states, Bell-diagonal states and some PPT entangled states. We also use the Weyl operators to construct an detecting operator for quantum teleportation.
翻訳日:2023-02-01 19:12:37 公開日:2022-08-09
# 強相関材料のサブサイクル多次元分光

Sub-cycle multidimensional spectroscopy of strongly correlated materials ( http://arxiv.org/abs/2208.04647v1 )

ライセンス: Link先を確認
V. Valmispild, E. Gorelov, M. Eckstein, A. Lichtenstein, H. Aoki, M. Katsnelson, M. Ivanov, O. Smirnova(参考訳) 強い相関を持つ固体は、非常に複雑で魅力的な量子系であり、新しい状態が出現し続け、光との相互作用が相互作用を引き起こす可能性がある。 この相互作用において、サブレーザーサイクルの電子応答は、特にPHzスケールでの物質の超高速操作のためのツールとして魅力的である。 本稿では,非線形多次元分光法を新たに導入し,数サイクル赤外線パルスと相互作用する強相関系のサブサイクルダイナミクスと,サブフェムト秒時間スケールで進化する異なる相関状態間の複雑な相互作用を解明する。 超短電界過渡現象の影響下での2次元ハバードモデルでは, サブサイクル時間スケールにおける局所化および非局在化多体状態間の電荷とエネルギーの流れの経路を解くことができ, レーザーパルスの終了後に残存する高相関状態の生成に追従できることを示す。 本研究は, 量子システムのフローケット工学における多サイクルアプローチを超越した, 強い相関材料を光学速度で解析・操作する手法である。

Strongly correlated solids are extremely complex and fascinating quantum systems, where new states continue to emerge and where interaction with light may trigger interplay between them. In this interplay, sub-laser-cycle electron response is particularly attractive as a tool for ultrafast manipulation of matter at PHz scale. Here we introduce a new type of non-linear multidimensional spectroscopy, which allows us to unravel the sub-cycle dynamics of strongly correlated systems interacting with few-cycle infrared pulses and the complex interplay between different correlated states evolving on the sub-femtosecond time-scale. For the two-dimensional Hubbard model under the influence of ultra-short, intense electric field transients, we demonstrate that our approach can resolve pathways of charge and energy flow between localized and delocalized many-body states on the sub-cycle timescale and follow the creation of a highly correlated state surviving after the end of the laser pulse. Our findings open a way to a regime of imaging and manipulating strongly correlated materials at optical rates, beyond the multi-cycle approach employed in Floquet engineering of quantum systems.
翻訳日:2023-02-01 19:12:06 公開日:2022-08-09
# u(1)対称ガウス型フェルミオン射影エンタングル対状態とそのグッツウィラー射影

U(1)-symmetric Gaussian fermionic projected entangled paired states and their Gutzwiller projection ( http://arxiv.org/abs/2208.04623v1 )

ライセンス: Link先を確認
Jheng-Wei Li, Jan von Delft, Hong-Hao Tu(参考訳) 粒子数保存型ガウス型フェルミオン射影アンタングルペア状態[U(1)-GfPEPS]を構築するためのフォーマリズムを開発し,これらの状態がバンド接触点を持つバンド絶縁体およびギャップレスフェルミオンの基底状態を記述することを示す。 2つのディラックフェルミオン系の変分Ans\"{a}tze(正方格子上の\pi$-fluxモデルと加護目格子上の$[0,\pi]$-fluxモデル)として使用すると、U(1)-GfPEPSは比較的小さな結合次元であっても、ディラックフェルミ海面状態を正確に近似することができる。 これらのU(1)-GfPEPS上にグッツウィラープロジェクターを適用することにより、スピン-1/2系に対するU(1)-ディラックスピン液体状態のPEPS表現が得られる。 最先端テンソルネットワークでは、グッツウィラー予想の$\pi$-flux状態のスピンスピン相関関数における臨界指数は$\eta \approx 1.7$と推定される。

We develop a formalism for constructing particle-number-conserving Gaussian fermionic projected entangled pair states [U(1)-GfPEPS] and show that these states can describe ground states of band insulators and gapless fermions with band touching points. When using them as variational Ans\"{a}tze for two Dirac fermion systems ($\pi$-flux model on the square lattice and $[0,\pi]$-flux model on the kagome lattice), we find that the U(1)-GfPEPS, even with a relatively small bond dimension, can accurately approximate the Dirac Fermi sea ground states. By applying Gutzwiller projectors on top of these U(1)-GfPEPS, we obtain PEPS representation of U(1)-Dirac spin liquid states for spin-1/2 systems. With state-of-the-art tensor network numerics, the critical exponent in the spin-spin correlation function of the Gutzwiller-projected $\pi$-flux state is estimated to be $\eta \approx 1.7$.
翻訳日:2023-02-01 19:11:46 公開日:2022-08-09
# なぜ多世界解釈なのか?

Why the Many-Worlds Interpretation? ( http://arxiv.org/abs/2208.04618v1 )

ライセンス: Link先を確認
Lev Vaidman(参考訳) 量子力学の多世界解釈(mwi)の技術状態に関する簡単な(主観的な)記述が提示されている。 MWIは、量子論から距離とランダム性で作用を除去する唯一の解釈である、と論じられている。 正当に問うことができる確率の質問に関するMWIの制限が指定される。 世界波動関数の重ね合わせに分解された普遍波動関数の理論としてのMWIのオントロジー図は、その重要な部分は3次元空間で定義され、我々の特定の分岐の視点から示される。 MWIが合意に達するのを妨げていると思われる誤解についての憶測が述べられている。

A brief (subjective) description of the state of the art of the many-worlds interpretation of quantum mechanics (MWI) is presented. It is argued that the MWI is the only interpretation which removes action at a distance and randomness from quantum theory. Limitations of the MWI regarding questions of probability which can be legitimately asked are specified. The ontological picture of the MWI as a theory of the universal wave function decomposed into a superposition of world wave functions, the important parts of which are defined in three-dimensional space, is presented from the point of view of our particular branch. Some speculations about misconceptions, which apparently prevent the MWI to be in the consensus, are mentioned.
翻訳日:2023-02-01 19:11:22 公開日:2022-08-09
# 量子古典ハイブリッド系とその準自由変換

Quantum-Classical Hybrid Systems and their Quasifree Transformations ( http://arxiv.org/abs/2208.05020v1 )

ライセンス: Link先を確認
Lars Dammeier, Reinhard F. Werner(参考訳) 量子および古典自由度が結合され、同じ基底上で扱われる連続変数系について研究する。 したがって、入力やチャネルへの出力を含む全てのシステムは、量子古典ハイブリッドである。 これにより、測定や古典パラメータへの依存を含む様々な量子演算を統一的に扱うことができる。 基本変数はスカラー変換子を持つ標準演算子によって与えられる。 一部の変数は他の変数と交換でき、従って古典的なサブシステムを生成する。 位相空間変換の中間条件か、ハイゼンベルク図において、ワイル作用素はワイル作用素の倍数に写像されるという条件によって同等に特徴づけられる「準自由」演算のクラスを体系的に研究する。 これには、よく知られたガウス演算、二次ハミルトニアンによる進化、および「線形ボソニックチャネル」が含まれるが、より一般的なノイズを許容する。 例えば、全ての状態は準自由である。 我々は,準自由準備,測定,反復観測,クローン,テレポーテーション,高密度符号化,古典的極限の設定,および不可逆力学のいくつかの側面の解析と,不確実性,誤り,乱れの厳密なトレードオフをスケッチする。 観測可能な状態と状態の空間は、我々が考慮するすべての非自明なシステムに対して無限次元であるが、これに関連する技術を一様かつ決定的な方法で扱い、使いやすく、完全に厳密な計算を提供する。

We study continuous variable systems, in which quantum and classical degrees of freedom are combined and treated on the same footing. Thus all systems, including the inputs or outputs to a channel, may be quantum-classical hybrids. This allows a unified treatment of a large variety of quantum operations involving measurements or dependence on classical parameters. The basic variables are given by canonical operators with scalar commutators. Some variables may commute with all others and hence generate a classical subsystem. We systematically study the class of "quasifree" operations, which are characterized equivalently either by an intertwining condition for phase-space translations or by the requirement that, in the Heisenberg picture, Weyl operators are mapped to multiples of Weyl operators. This includes the well-known Gaussian operations, evolutions with quadratic Hamiltonians, and "linear Bosonic channels", but allows for much more general kinds of noise. For example, all states are quasifree. We sketch the analysis of quasifree preparation, measurement, repeated observation, cloning, teleportation, dense coding, the setup for the classical limit, and some aspects of irreversible dynamics, together with the precise salient tradeoffs of uncertainty, error, and disturbance. Although the spaces of observables and states are infinite dimensional for every non-trivial system that we consider, we treat the technicalities related to this in a uniform and conclusive way, providing a calculus that is both easy to use and fully rigorous.
翻訳日:2023-02-01 19:05:40 公開日:2022-08-09
# 単純量子重力の光線ゆらぎと格子微細化

Light ray fluctuation and lattice refinement of simplicial quantum gravity ( http://arxiv.org/abs/2208.04982v1 )

ライセンス: Link先を確認
Ding Jia(参考訳) 非摂動量子重力のいくつかのアプローチにおいて、主要な課題は無限格子精製極限で有効な結果を得ることである。 ローレンツのsimplicial quantum gravityを用いて、3次元および4次元の格子上の光線ゆらぎ確率を計算する。 アインシュタイン・ヒルベルト作用を伴う単純化された箱モデルにおいて、格子の精細化は単に光線のゆらぎを抑制または強化するだけでなく、実際には非常に広く、非常に狭い光確率分布を中間体に向かって駆動することを示した。 格子間および結合間の比較は、結合の普遍性クラスに付随する格子精製固定点における数値的なヒントを明らかにする。 この結果は、光線ゆらぎによって反射される量子時空ゆらぎが、顕微鏡的に自然に始まり、巨視的に穏やかになるという直観に合致する。 洗練されたボックスモデルは、あらゆるスケールの剛体フレームの仮定によって制限される。 本結果は,モデルの単純化仮定を緩和するゼロカップリング限界に関するさらなる研究を示唆する。

In several approaches of non-perturbative quantum gravity, a major outstanding problem is to obtain results valid at the infinite lattice refinement limit. Working with Lorentzian simplicial quantum gravity, we compute light ray fluctuation probabilities in 3D and 4D across different lattices. In a simplified refined box model with the Einstein-Hilbert action, numerical results show that lattice refinement does not simply suppress or simply enhance light ray fluctuations, but actually drives very wide and very narrow light probability distributions towards intermediate ones. A comparison across lattices and across couplings reveals numerical hints at a lattice refinement fixed point associated with a universality class of couplings. The results fit the intuition that quantum spacetime fluctuations reflected by light ray fluctuations start wild microscopically and become mild macroscopically. The refined box model is limited by the assumption of a rigid frame at all scales. The present results suggest further studies around the zero-coupling limit to relax the simplifying assumptions of the model.
翻訳日:2023-02-01 19:04:47 公開日:2022-08-09
# 有限状態空間に対するリンドブラッド方程式の定常状態に対する明示的表現

Explicit expressions for stationary states of the Lindblad equation for a finite state space ( http://arxiv.org/abs/2208.04954v1 )

ライセンス: Link先を確認
Bernd Michael Fernengel, Barbara Drossel(参考訳) リンドブラッド方程式は、量子力学系の密度行列の時間発展を記述する。 定常解は解の時間平均化によって得られるが、これは一般に初期状態に依存する。 量子ジャンプアンレーブリング(quantum jump unraveling)、エルゴード定理(ergodic theorem)のバージョン、対応する離散時間マルコフ連鎖の定常確率を用いたリンドブラッド方程式の定常状態の解析式を提供する。 我々の結果は、量子軌道に現れる状態の数が有限であるときに有効である。 マルコフジャンプ過程の古典的ケースは特別なケースとして回収され、2つの違いが議論される。

The Lindblad equation describes the time evolution of a density matrix of a quantum mechanical system. Stationary solutions are obtained by time-averaging the solution, which will in general depend on the initial state. We provide an analytical expression for the steady states of the Lindblad equation using the quantum jump unraveling, a version of an ergodic theorem, and the stationary probabilities of the corresponding discret-time Markov chains. Our result is valid when the number of states appearing the in quantum trajectory is finite. The classical case of a Markov jump-process is recovered as a special case, and differences between the two are discussed.
翻訳日:2023-02-01 19:04:29 公開日:2022-08-09
# 均一磁場下における2次元クライン・ゴルドン方程式上のスピンゼロ境界状態

Spin-zero bound states on the 2D Klein-Gordon equation under uniform magnetic field ( http://arxiv.org/abs/2208.04953v1 )

ライセンス: Link先を確認
Sami Ortakaya(参考訳) 一様磁場中を移動する相対論的スピン-0荷電粒子の相互作用モデルを提案する。 改良された摂動法がなければ、主量子数を含むKummer\rq{}の微分方程式を直接解く。 核相互作用に対する機能的アプローチとして、反粒子状態のない粒子境界状態を考える。 近似値の1/r^4$では、スカラーと質量相互作用に関連する$v(r)$$$\neq$$0$と$s(r)$$$$$$$$0$の考慮も改善しました。 さらに、0.5$および$1.0$$\mathrm {fm}$に対する近似スキームの導入の密接性を確立した。 このようにして、最小結合は分析エネルギースペクトルをもたらす。 スピンゼロ相対論的体制の中で、均一磁場下での逆二乗相互作用を考察し、相互作用エネルギーの増加に伴ってエネルギー準位が増加することを確立した(すなわち、与えられた値に対して量子井戸幅が減少する)。 さらに、均一磁場の値が大きいほどエネルギー準位が増加する。 電荷分布は中心相互作用-結合空間に対しても有効である。 v(r)$$\neq$$0$ と $s(r)$$$$$0$ のスピンゼロ運動の近似を考えると、2次元極空間に可解モデルを導入することができる。

We present an interaction modeling for the relativistic spin-0 charged particles moving in a uniform magnetic field. In the absence of an improved perturbative way, we solve directly Kummer\rq{}s differential equation including principal quantum numbers. As a functional approach to the nuclear interaction, we consider particle bound states without antiparticle regime. Within the approximation line to $1/r^4$, we have also improved the considerations of the $V(r)$$\neq$$0$ and $S(r)$$=$$0$ related to scalar and mass interactions. Moreover, we have founded a closeness for introduced approximation scheme for range of $0.5$ and $1.0$ $\mathrm {fm}$. In this way, minimal coupling might also yields analytically energy spectra. Within the spin-zero relativistic regime, we have considered the inverse-square interaction under uniform magnetic field and founded that the energy levels increase with increasing interaction energy (i.e, quantum well width decreases for given values). Additionally, energy levels increase with larger values of the uniform magnetic fields. The charge distributions is also valid for the central interaction-confinement space. Putting the approximation to spin-zero motion with $V(r)$$\neq$$0$ and $S(r)$$=$$0$, one can introduced solvable model in the 2D polar space.
翻訳日:2023-02-01 19:04:17 公開日:2022-08-09
# くさび偏光を伴うグラフェン量子ドットの零エネルギー状態

Zero-energy states in graphene quantum dot with wedge disclination ( http://arxiv.org/abs/2208.04920v1 )

ライセンス: Link先を確認
Ahmed Bouhlal, Ahmed Jellal, Nurisya Mohd Shah(参考訳) 磁束を受ける円形グラフェン量子ドットにおける電荷キャリアに対するウェッジ判別の影響について検討した。 エネルギースペクトルの漸近解を大きな議論に用い、散乱行列要素を近似し、状態密度の研究を行う。 状態密度は様々な条件下で複数の共鳴ピークを示すことが判明した。 特に、くさびの識別は共鳴ピークの振幅、幅、位置を変えることができることが示されている。

We investigate the effects of wedge disclination on charge carriers in circular graphene quantum dots subjected to a magnetic flux. Using the asymptotic solutions of the energy spectrum for large arguments, we approximate the scattering matrix elements, and then study the density of states. It is found that the density of states shows several resonance peaks under various conditions. In particular, it is shown that the wedge disclination is able to change the amplitude, width, and positions of resonance peaks.
翻訳日:2023-02-01 19:03:04 公開日:2022-08-09
# 単一光子感度T=20Kの2次元銅酸化物ナノ検出器

Two-dimensional cuprate nanodetector with single photon sensitivity at T = 20 K ( http://arxiv.org/abs/2208.05044v1 )

ライセンス: Link先を確認
Rafael Luque Merino, Paul Seifert, Jose Duran Retamal, Roop Mech, Takashi Taniguchi, Kenji Watanabe, Kazuo Kadowaki, Robert H. Hadfield, Dmitri K. Efetov(参考訳) 単光子レベルの光を検出することは、創発的なフォトニクス技術の柱の1つである。 これは、効率的で広帯域で高速な応答を提供する最先端の超伝導検出器によって実現される。 しかし, 超伝導薄膜を用いた場合, 動作温度は4K以下であった。 本研究では, 2次元銅酸化物超伝導体Bi2Sr2CaCu2O8-{\delta} (BSCCO) をT=20Kの温度で, テレコム波長で単一光子感度を示す概念ナノ検出器の実証実験を行った。 これらの非最適化デバイスは、遅い(ms)リセット時間と低い検出効率(10^(-4))を示す。 我々は、ファンデルワールス製造技術と光イオン照射に基づく非侵襲ナノパターン法を組み合わせた新しいアプローチにより、高TCナノ検出器の単一光子感度の解明の可能性を実現する。 この結果は、単一光子技術の幅広い応用の道を開くこととなり、単一光子検出の極低温制約をテレコム波長で緩和する。

Detecting light at the single-photon level is one of the pillars of emergent photonic technologies. This is realized through state-of-the-art superconducting detectors that offer efficient, broadband and fast response. However, the use of superconducting thin films with low TC limits their operation temperature below 4K. In this work, we demonstrate proof-of-concept nanodetectors based on exfoliated, two-dimensional cuprate superconductor Bi2Sr2CaCu2O8-{\delta} (BSCCO) that exhibit single-photon sensitivity at telecom wavelength at a record temperature of T = 20K. These non-optimized devices exhibit a slow (ms) reset time and a low detection efficiency (10^(-4)). We realize the elusive prospect of single-photon sensitivity on a high-TC nanodetector thanks to a novel approach, combining van der Waals fabrication techniques and a non-invasive nanopatterning based on light ion irradiation. This result paves the way for broader application of single-photon technologies, relaxing the cryogenic constraints for single-photon detection at telecom wavelength.
翻訳日:2023-02-01 18:53:25 公開日:2022-08-09
# JPD-SE:画像圧縮における関節知覚歪改善のための高レベルセマンティクス

JPD-SE: High-Level Semantics for Joint Perception-Distortion Enhancement in Image Compression ( http://arxiv.org/abs/2005.12810v3 )

ライセンス: Link先を確認
Shiyu Duan, Huaijin Chen, Jinwei Gu(参考訳) 人間は、複雑な視覚シーンを、コンテンツに対する高レベルな理解を活用することで、簡単には単純な言葉に変換することができるが、従来の画像圧縮コーデックは、視覚コンテンツの意味を最大限に活用していないようだ。 さらに、主にレート歪みに着目し、特にビットレートの低い環境では知覚品質が劣る傾向にあり、人間の視聴者に加えて、急速に成長する圧縮画像群である下流コンピュータビジョンアルゴリズムの性能を無視する傾向にある。 本稿では,(1)画像コーデックが高レベルなセマンティクスを活用できる汎用フレームワークを提案し,(2)知覚品質と歪みの協調最適化について検討する。 我々の考えは、どんなコーデックであっても、我々はハイレベルなセマンティックスを利用して、それによって抽出された低レベルな視覚的特徴を強化し、本質的に新しいセマンティックなコーデックを生成するというものである。 本稿では,意味認識コーデックに意味の力を活用してR-PD性能を最適化する3段階学習手法を提案する。 追加の利点として、セマンティックアウェアコーデックは下流のコンピュータビジョンアルゴリズムのパフォーマンスを高める。 当社の主張を検証するために,広範な実証的評価を行い,定量的・質的結果を提供する。

While humans can effortlessly transform complex visual scenes into simple words and the other way around by leveraging their high-level understanding of the content, conventional or the more recent learned image compression codecs do not seem to utilize the semantic meanings of visual content to their full potential. Moreover, they focus mostly on rate-distortion and tend to underperform in perception quality especially in low bitrate regime, and often disregard the performance of downstream computer vision algorithms, which is a fast-growing consumer group of compressed images in addition to human viewers. In this paper, we (1) present a generic framework that can enable any image codec to leverage high-level semantics and (2) study the joint optimization of perception quality and distortion. Our idea is that given any codec, we utilize high-level semantics to augment the low-level visual features extracted by it and produce essentially a new, semantic-aware codec. We propose a three-phase training scheme that teaches semantic-aware codecs to leverage the power of semantic to jointly optimize rate-perception-distortion (R-PD) performance. As an additional benefit, semantic-aware codecs also boost the performance of downstream computer vision algorithms. To validate our claim, we perform extensive empirical evaluations and provide both quantitative and qualitative results.
翻訳日:2022-11-29 14:00:06 公開日:2022-08-09
# イベントトリガー制御における機械学習:最近の進歩と課題

Machine Learning in Event-Triggered Control: Recent Advances and Open Issues ( http://arxiv.org/abs/2009.12783v2 )

ライセンス: Link先を確認
Leila Sedghi, Zohaib Ijaz, Md. Noor-A-Rahim, Kritchai Witheephanich, Dirk Pesch(参考訳) ネットワーク制御システムは、分散制御アプリケーションへのトレンドとサイバー物理システム応用の出現により、過去10年間でかなりの注目を集めている。 しかし、現実世界の無線ネットワーク制御システムは、通信帯域幅の制限、信頼性の問題、無線ネットワークの複雑な性質によるネットワークダイナミクスの認識の欠如に苦しむ。 機械学習とイベントトリガー制御を組み合わせることで、これらの問題を緩和する可能性がある。 例えば、機械学習は、システムの振る舞いを学習することでネットワークモデルの欠如を克服したり、モデルのダイナミクスを継続的に学習することで動的に変化するモデルに適応したりすることができる。 イベントトリガー制御は、必要な時やリソースが利用可能な時のみ制御情報を送信することで、通信帯域幅の節約に役立つ。 本論文の目的は、イベントトリガー制御と組み合わせて機械学習の利用に関する文献をレビューすることである。 統計学習,ニューラルネットワーク,深層強化学習などの強化学習に基づく学習手法とイベントトリガ制御を組み合わせた機械学習手法が検討されている。 機械学習の利用目的に応じて、これらの学習アルゴリズムが異なるアプリケーションにどのように使用できるかについて論じる。 文献のレビューと議論の後、機械学習に基づくイベントトリガード制御に関連するオープンリサーチの疑問と課題を取り上げ、潜在的な解決策を提案する。

Networked control systems have gained considerable attention over the last decade as a result of the trend towards decentralised control applications and the emergence of cyber-physical system applications. However, real-world wireless networked control systems suffer from limited communication bandwidths, reliability issues, and a lack of awareness of network dynamics due to the complex nature of wireless networks. Combining machine learning and event-triggered control has the potential to alleviate some of these issues. For example, machine learning can be used to overcome the problem of a lack of network models by learning system behavior or adapting to dynamically changing models by continuously learning model dynamics. Event-triggered control can help to conserve communication bandwidth by transmitting control information only when necessary or when resources are available. The purpose of this article is to conduct a review of the literature on the use of machine learning in combination with event-triggered control. Machine learning techniques such as statistical learning, neural networks, and reinforcement learning-based approaches such as deep reinforcement learning are being investigated in combination with event-triggered control. We discuss how these learning algorithms can be used for different applications depending on the purpose of the machine learning use. Following the review and discussion of the literature, we highlight open research questions and challenges associated with machine learning-based event-triggered control and suggest potential solutions.
翻訳日:2022-10-14 04:00:56 公開日:2022-08-09
# タスクランドスケープはMAMLのパフォーマンスにどのように影響するか?

How Does the Task Landscape Affect MAML Performance? ( http://arxiv.org/abs/2010.14672v5 )

ライセンス: Link先を確認
Liam Collins, Aryan Mokhtari, Sanjay Shakkottai(参考訳) Model-Agnostic Meta-Learning (MAML) は、確率勾配勾配の1歩または数歩のステップを通じて、新しいタスクに迅速に適応できるトレーニングモデルで人気が高まっている。 しかし、MAMLの目的は標準的な非適応学習(NAL)に比べて最適化が著しく困難であり、様々なシナリオにおけるソリューションの迅速な適応性の観点からは、MAMLがNALよりもどれだけ改善されているかはほとんど分かっていない。 我々は,この問題を,勾配降下がタスクに収束する速度と,難易度と難易度を混合した線形回帰条件で解析的に解決する。 具体的には,MAML が NAL よりも大幅に向上することを示す。 (i)作業の難易度に多少の相違がある必要がある。 (ii)ハードタスクの最適解は、簡単なタスクの最適解の中心から遠く離れた中心と密に密接していなければならない。 また,これらの知見が2層ニューラルネットワークに適用できることを示す数値的,解析的な結果を与える。 最後に,MAMLをいつ使用するべきかについての洞察を裏付ける画像分類実験を行い,実際に難しいタスクでMAMLを訓練することの重要性を強調した。

Model-Agnostic Meta-Learning (MAML) has become increasingly popular for training models that can quickly adapt to new tasks via one or few stochastic gradient descent steps. However, the MAML objective is significantly more difficult to optimize compared to standard non-adaptive learning (NAL), and little is understood about how much MAML improves over NAL in terms of the fast adaptability of their solutions in various scenarios. We analytically address this issue in a linear regression setting consisting of a mixture of easy and hard tasks, where hardness is related to the rate that gradient descent converges on the task. Specifically, we prove that in order for MAML to achieve substantial gain over NAL, (i) there must be some discrepancy in hardness among the tasks, and (ii) the optimal solutions of the hard tasks must be closely packed with the center far from the center of the easy tasks optimal solutions. We also give numerical and analytical results suggesting that these insights apply to two-layer neural networks. Finally, we provide few-shot image classification experiments that support our insights for when MAML should be used and emphasize the importance of training MAML on hard tasks in practice.
翻訳日:2022-10-02 11:50:10 公開日:2022-08-09
# 個人化音声強調のためのコントラスト混合からの自己教師付き学習

Self-Supervised Learning from Contrastive Mixtures for Personalized Speech Enhancement ( http://arxiv.org/abs/2011.03426v2 )

ライセンス: Link先を確認
Aswin Sivaraman and Minje Kim(参考訳) 本研究は,個人化音声強調モデルの実現に向けて,話者特有の特徴を発見するために,自己教師付き学習を普遍的に活用する方法について検討する。 具体的には、テストタイムスピーカーのクリーニング記録へのアクセスが数秒に制限されているが、ノイズの多いスピーカーの録音が豊富である、という、数ショットの学習シナリオに対処する。 提案手法は,同一発話の異なる対間の一致を最大化し,類似した非同一発話の対間の一致を最小化するために事前学習される。 提案手法は, 話者非依存型完全教師付き事前訓練と, 話者固有の自己教師付き事前訓練の2つのベースラインとを比較した。 これら3つの手法のうち, コントラスト混合を用いた提案手法は, モデル圧縮(パラメータの85%削減)とクリーン音声(3秒のみ要求)の低減に最も頑健であることがわかった。

This work explores how self-supervised learning can be universally used to discover speaker-specific features towards enabling personalized speech enhancement models. We specifically address the few-shot learning scenario where access to cleaning recordings of a test-time speaker is limited to a few seconds, but noisy recordings of the speaker are abundant. We develop a simple contrastive learning procedure which treats the abundant noisy data as makeshift training targets through pairwise noise injection: the model is pretrained to maximize agreement between pairs of differently deformed identical utterances and to minimize agreement between pairs of similarly deformed nonidentical utterances. Our experiments compare the proposed pretraining approach with two baseline alternatives: speaker-agnostic fully-supervised pretraining, and speaker-specific self-supervised pretraining without contrastive loss terms. Of all three approaches, the proposed method using contrastive mixtures is found to be most robust to model compression (using 85% fewer parameters) and reduced clean speech (requiring only 3 seconds).
翻訳日:2022-09-29 05:52:42 公開日:2022-08-09
# マルチモーダル変圧器:構造付きHRデータを用いた臨床ノートの解釈型院内死亡予測

A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data for Interpretable In-Hospital Mortality Prediction ( http://arxiv.org/abs/2208.10240v1 )

ライセンス: Link先を確認
Weimin Lyu, Xinyu Dong, Rachel Wong, Songzhu Zheng, Kayley Abell-Hart, Fusheng Wang, Chao Chen(参考訳) 構造化電子健康記録(EHR)を用いた深層学習に基づく臨床意思決定支援は、死亡率と疾患のリスクを予測するための活発な研究領域である。 一方、大量の物語的臨床ノートは相補的な情報を提供するが、しばしば予測モデルに統合されない。 本稿では, 臨床ノートを融合するマルチモーダルトランスフォーマーとehrデータを構造化し, 病院内死亡率の予測を改善する。 そこで本研究では,臨床ノートから重要な単語を抽出し,シャプリー値による重要な構造的EHR特徴を発見するための統合的勾配(IG)手法を提案する。 これらの重要な単語と臨床特徴を可視化し、予測結果の解釈を支援する。 また,臨床ノートの表現を学習するための領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。 aucpr: 0.538, aucroc: 0.877, f1:0.490)。

Deep-learning-based clinical decision support using structured electronic health records (EHR) has been an active research area for predicting risks of mortality and diseases. Meanwhile, large amounts of narrative clinical notes provide complementary information, but are often not integrated into predictive models. In this paper, we provide a novel multimodal transformer to fuse clinical notes and structured EHR data for better prediction of in-hospital mortality. To improve interpretability, we propose an integrated gradients (IG) method to select important words in clinical notes and discover the critical structured EHR features with Shapley values. These important words and clinical features are visualized to assist with interpretation of the prediction outcomes. We also investigate the significance of domain adaptive pretraining and task adaptive fine-tuning on the Clinical BERT, which is used to learn the representations of clinical notes. Experiments demonstrated that our model outperforms other methods (AUCPR: 0.538, AUCROC: 0.877, F1:0.490).
翻訳日:2022-08-28 22:24:19 公開日:2022-08-09
# 軽度認知障害分析のための構造的脳ネットワーク生成モデルに基づくadversarial learning

Adversarial Learning Based Structural Brain-network Generative Model for Analyzing Mild Cognitive Impairment ( http://arxiv.org/abs/2208.08896v1 )

ライセンス: Link先を確認
Heng Kong and Shuqiang Wang(参考訳) 軽度認知障害(MCI)はアルツハイマー病(AD)の前駆体であり,MCIの検出は臨床的に極めて重要である。 mciの認識には患者の脳構造ネットワークの解析が不可欠である。 しかし、構造脳ネットワークに関する現在の研究は、時間と主観的な特定のツールボックスに完全に依存している。 脳拡散テンソル画像から構造的脳ネットワークを得るツールはほとんどない。 本研究では,脳拡散テンソル画像から構造接続を直接学習するために,逆学習に基づく構造的脳ネットワーク生成モデル(sbgm)を提案する。 対象者間の構造的脳ネットワークの違いを分析することで,高齢者の正常制御(nc)から早期軽度認知障害(emci),後期軽度認知障害(lmci)に至るまで,対象者の構造的脳ネットワークが一貫した傾向を示した。 さらに,本モデルでは,アルツハイマー病神経画像イニシアチブ(ADNI)データベースを用いて,EMCI,LMCI,NC被験者を3分類し,その分類精度を83.33\%とした。

Mild cognitive impairment(MCI) is a precursor of Alzheimer's disease(AD), and the detection of MCI is of great clinical significance. Analyzing the structural brain networks of patients is vital for the recognition of MCI. However, the current studies on structural brain networks are totally dependent on specific toolboxes, which is time-consuming and subjective. Few tools can obtain the structural brain networks from brain diffusion tensor images. In this work, an adversarial learning-based structural brain-network generative model(SBGM) is proposed to directly learn the structural connections from brain diffusion tensor images. By analyzing the differences in structural brain networks across subjects, we found that the structural brain networks of subjects showed a consistent trend from elderly normal controls(NC) to early mild cognitive impairment(EMCI) to late mild cognitive impairment(LMCI): structural connectivity progressed in a progressively weaker direction as the condition worsened. In addition, our proposed model tri-classifies EMCI, LMCI, and NC subjects, achieving a classification accuracy of 83.33\% on the Alzheimer's Disease Neuroimaging Initiative(ADNI) database.
翻訳日:2022-08-28 22:22:19 公開日:2022-08-09
# 双方向LSTM風力予測を用いた再生可能な交流マイクログリッドのAIに基づく最適スケジューリング

AI-based Optimal scheduling of Renewable AC Microgrids with bidirectional LSTM-Based Wind Power Forecasting ( http://arxiv.org/abs/2208.04156v2 )

ライセンス: Link先を確認
Hossein Mohammadi, Shiva Jokar, Mojtaba Mohammadi, Abdollah Kavousifard, Morteza Dabbaghjamanesh(参考訳) マイクログリッドの運用に関して、最適なスケジューリングは考慮すべき重要な問題である。 本稿では, エネルギー貯蔵装置, 風力タービン, マイクロタービンを考慮した再生可能マイクログリッドの最適スケジューリング手法を提案する。 マイクログリッドにおける操作問題の非線形性と複雑さのため,高精度で堅牢な最適化手法を用いることが不可欠である。 この目的のために,提案フレームワークでは,教師の学習に基づく最適化を利用してスケジューリング問題を効率的に解く。 さらに, 短期風力予測問題に対処するために, 双方向長期記憶に基づくディープラーニングモデルを提案する。 IEEE 33-busテストシステムを用いて,提案手法の有効性と性能,および風力予測が運転効率に及ぼす影響について検討した。 また、オーストラリアのウール北風観測所データを実世界のデータセットとして利用して予測モデルの性能を評価する。 その結果,マイクログリッドの最適スケジューリングにおいて,提案手法の有効性と効率性を示した。

In terms of the operation of microgrids, optimal scheduling is a vital issue that must be taken into account. In this regard, this paper proposes an effective framework for optimal scheduling of renewable microgrids considering energy storage devices, wind turbines, micro turbines. Due to the nonlinearity and complexity of operation problems in microgrids, it is vital to use an accurate and robust optimization technique to efficiently solve this problem. To this end, in the proposed framework, the teacher learning-based optimization is utilized to efficiently solve the scheduling problem in the system. Moreover, a deep learning model based on bidirectional long short-term memory is proposed to address the short-term wind power forecasting problem. The feasibility and performance of the proposed framework as well as the effect of wind power forecasting on the operation efficiency are examined using IEEE 33-bus test system. Also, the Australian Wool north wind site data is utilized as a real-world dataset to evaluate the performance of the forecasting model. Results show the effective and efficient performance of the proposed framework in the optimal scheduling of microgrids.
翻訳日:2022-08-14 18:22:54 公開日:2022-08-09
# PEPPER:ゴシップ学習よりもユーザ中心のレコメンダシステムを活用する

PEPPER: Empowering User-Centric Recommender Systems over Gossip Learning ( http://arxiv.org/abs/2208.05320v1 )

ライセンス: Link先を確認
Yacine Belal and Aur\'elien Bellet and Sonia Ben Mokhtar and Vlad Nitu(参考訳) レコメンダシステムは、ユーザーが日々のアクティビティ(訪問する場所、消費するコンテンツ、購入するアイテムなど)に役立つユーザ関連コンテンツを抽出するための、貴重なツールであることが証明されている。 しかし、効果的にするためには、これらのシステムは大量の個人情報(例えば、位置情報のチェックイン、映画の評価、クリック率など)を収集し、分析する必要がある。 この文脈では、フェデレーション学習(fl)に基づくレコメンダシステムは、ユーザーのデバイスに個人データを保存しながら正確なレコメンデーションを計算しながら、プライバシーを強制するための有望なソリューションであるように見える。 しかし、FL、すなわちFLベースのレコメンダシステムは、攻撃に弱いこと以外にスケーラビリティ上の問題を経験できる中央サーバーに依存している。 そこで本稿では,ゴシップ学習原則に基づく分散型推薦システムであるPEPPERを提案する。 PEPPERでは、ユーザーはモデルの更新をゴシップして非同期に集約する。 PEPPERの中心には、2つの重要なコンポーネントがある: 各ノードの近傍にパーソナライズされたピアサンプリングプロトコル、前者と同様の関心を持つノードの割合、そして各ユーザに適したモデルを構築する単純なモデル集約関数である。 ロケーションチェックインのレコメンデーションと映画のレコメンデーションの2つのユースケースを実装した3つの実際のデータセットの実験を通じて、当ソリューションが他の分散ソリューションよりも最大42%高速に収束することを示し、ヒット率やロングテールパフォーマンスの最大21%の改善といった平均パフォーマンス指標を最大9%改善できることを示した。

Recommender systems are proving to be an invaluable tool for extracting user-relevant content helping users in their daily activities (e.g., finding relevant places to visit, content to consume, items to purchase). However, to be effective, these systems need to collect and analyze large volumes of personal data (e.g., location check-ins, movie ratings, click rates .. etc.), which exposes users to numerous privacy threats. In this context, recommender systems based on Federated Learning (FL) appear to be a promising solution for enforcing privacy as they compute accurate recommendations while keeping personal data on the users' devices. However, FL, and therefore FL-based recommender systems, rely on a central server that can experience scalability issues besides being vulnerable to attacks. To remedy this, we propose PEPPER, a decentralized recommender system based on gossip learning principles. In PEPPER, users gossip model updates and aggregate them asynchronously. At the heart of PEPPER reside two key components: a personalized peer-sampling protocol that keeps in the neighborhood of each node, a proportion of nodes that have similar interests to the former and a simple yet effective model aggregation function that builds a model that is better suited to each user. Through experiments on three real datasets implementing two use cases: a location check-in recommendation and a movie recommendation, we demonstrate that our solution converges up to 42% faster than with other decentralized solutions providing up to 9% improvement on average performance metric such as hit ratio and up to 21% improvement on long tail performance compared to decentralized competitors.
翻訳日:2022-08-11 13:29:17 公開日:2022-08-09
# 高分子分子の1電子及び2電子還元密度行列の機械学習

Machine Learning 1- and 2-electron reduced density matrices of polymeric molecules ( http://arxiv.org/abs/2208.04976v1 )

ライセンス: Link先を確認
David Pekker, Chungwen Liang, Sankha Pattanayak, Swagatam Mukhopadhyay(参考訳) 多体波動関数とは対照的に2電子還元密度行列 (2rdm) を用いて分子の電子構造を符号化することは、分子エネルギーを計算するのに十分な情報を持っているが、多項式保存のみを必要とするため、数十年にわたる探求であった。 本研究では, モノマーの配座や数が異なるリニアポリマーに着目し, 1電子および2電子還元密度行列の両方を機械学習で予測できることを示す。 さらに、予測された還元密度行列にハミルトン作用素を適用することにより、分子エネルギーを回復できることを示す。 そこで我々は,新しい配座と新しい分子の両方に一般化可能な電子構造を予測できる機械学習手法の実現可能性を示した。 同時に,2RDM手法の適応を阻害したN表現可能性問題を,直接機械学習による有効密度行列の学習により回避する。

Encoding the electronic structure of molecules using 2-electron reduced density matrices (2RDMs) as opposed to many-body wave functions has been a decades-long quest as the 2RDM contains sufficient information to compute the exact molecular energy but requires only polynomial storage. We focus on linear polymers with varying conformations and numbers of monomers and show that we can use machine learning to predict both the 1-electron and the 2-electron reduced density matrices. Moreover, by applying the Hamiltonian operator to the predicted reduced density matrices we show that we can recover the molecular energy. Thus, we demonstrate the feasibility of a machine learning approach to predicting electronic structure that is generalizable both to new conformations as well as new molecules. At the same time our work circumvents the N-representability problem that has stymied the adaption of 2RDM methods, by directly machine-learning valid Reduced Density Matrices.
翻訳日:2022-08-11 13:24:04 公開日:2022-08-09
# 製造における欠陥検出のための量子人工ビジョン

Quantum artificial vision for defect detection in manufacturing ( http://arxiv.org/abs/2208.04988v1 )

ライセンス: Link先を確認
Daniel Guijo, Victor Onofre, Gianni Del Bimbo, Samuel Mugel, Daniel Estepa, Xabier De Carlos, Ana Adell, Aizea Lojo, Josu Bilbao, Roman Orus(参考訳) 本稿では、NISQ(Noisy Intermediate-Scale Quantum)デバイスを用いた量子コンピュータビジョンのためのいくつかのアルゴリズムについて検討し、それらを従来のコンピュータビジョンと比較した。 具体的には、普遍ゲートベースの量子コンピュータ上での量子支援ベクトルマシン(QSVM)と量子アニール上でのQBoostの2つのアプローチを検討する。 量子ビジョンシステムは、製造された車の欠陥を検出することを目的として、バランスの取れていない画像のデータセットに対してベンチマークされる。 量子アルゴリズムは古典的アルゴリズムよりもいくつかの点で優れており、QBoostは現在の量子アニールを用いてより大きな問題を解析することができる。 また、QBoostにおける超パラメータチューニングと同様に、次元削減やコントラスト強化を含むデータ前処理についても論じている。 私たちの知る限りでは、これは製造ラインにおける産業的関連性の問題に対する量子コンピュータビジョンシステムの最初の実装である。

In this paper we consider several algorithms for quantum computer vision using Noisy Intermediate-Scale Quantum (NISQ) devices, and benchmark them for a real problem against their classical counterparts. Specifically, we consider two approaches: a quantum Support Vector Machine (QSVM) on a universal gate-based quantum computer, and QBoost on a quantum annealer. The quantum vision systems are benchmarked for an unbalanced dataset of images where the aim is to detect defects in manufactured car pieces. We see that the quantum algorithms outperform their classical counterparts in several ways, with QBoost allowing for larger problems to be analyzed with present-day quantum annealers. Data preprocessing, including dimensionality reduction and contrast enhancement, is also discussed, as well as hyperparameter tuning in QBoost. To the best of our knowledge, this is the first implementation of quantum computer vision systems for a problem of industrial relevance in a manufacturing production line.
翻訳日:2022-08-11 13:23:48 公開日:2022-08-09
# 人間移動予測におけるプライバシ・アウェア・アドバイザラル・ネットワーク

Privacy-Aware Adversarial Network in Human Mobility Prediction ( http://arxiv.org/abs/2208.05009v1 )

ライセンス: Link先を確認
Yuting Zhan, Hamed Haddadi, Afra Mashhadi(参考訳) モバイルデバイスやロケーションベースのサービスが,さまざまなスマートシティシナリオやアプリケーションで開発されるようになってきており,位置情報収集や共有によって,予期せぬプライバシリークが数多く発生している。 ユーザの再識別やその他の機密性の高い推論は、位置情報データがクラウド支援アプリケーションと共有される場合、主要なプライバシー上の脅威である。 重要なことに、4つの時空間ポイントは、個人情報漏洩を悪化させる95%の個人をユニークに識別するのに十分である。 ユーザ再識別などの悪質な目的に対処するため,LSTMに基づく表現学習機構を提案し,共有目的のために,元の位置情報データ(モビリティデータ)のプライバシ保護特徴表現を実現する。 これらの表現は、最小限の実用予算(すなわち損失)でユーザ再識別と完全なデータ再構成の可能性を最大限に削減することを目的としている。 モビリティデータセットのプライバシ利用性トレードオフを、軌道復元リスク、ユーザ再識別リスク、モビリティ予測可能性の観点から定量化することで、メカニズムをトレーニングする。 我々は,このトレードオフを特定の損失関数とその重みパラメータで評価できる探索分析を報告する。 4つの代表的モビリティデータセットの比較結果から,提案するモビリティプライバシ保護におけるアーキテクチャの優位性と,提案するプライバシ保存機能抽出器の効率性が示された。 モビリティトレースのプライバシは、限界モビリティユーティリティーのコストで適切な保護を達成できることを示す。 また,paretoの最適設定を探索することで,プライバシ(45%)とユーティリティ(32%)を同時に向上できることを示した。

As mobile devices and location-based services are increasingly developed in different smart city scenarios and applications, many unexpected privacy leakages have arisen due to geolocated data collection and sharing. User re-identification and other sensitive inferences are major privacy threats when geolocated data are shared with cloud-assisted applications. Significantly, four spatio-temporal points are enough to uniquely identify 95\% of the individuals, which exacerbates personal information leakages. To tackle malicious purposes such as user re-identification, we propose an LSTM-based adversarial mechanism with representation learning to attain a privacy-preserving feature representation of the original geolocated data (i.e., mobility data) for a sharing purpose. These representations aim to maximally reduce the chance of user re-identification and full data reconstruction with a minimal utility budget (i.e., loss). We train the mechanism by quantifying privacy-utility trade-off of mobility datasets in terms of trajectory reconstruction risk, user re-identification risk, and mobility predictability. We report an exploratory analysis that enables the user to assess this trade-off with a specific loss function and its weight parameters. The extensive comparison results on four representative mobility datasets demonstrate the superiority of our proposed architecture in mobility privacy protection and the efficiency of the proposed privacy-preserving features extractor. We show that the privacy of mobility traces attains decent protection at the cost of marginal mobility utility. Our results also show that by exploring the Pareto optimal setting, we can simultaneously increase both privacy (45%) and utility (32%).
翻訳日:2022-08-11 13:23:35 公開日:2022-08-09
# Adaptive Target-Condition Neural Network: ハイブリッドLiFiとWiFiネットワークのためのDNN支援ロードバランシング

Adaptive Target-Condition Neural Network: DNN-Aided Load Balancing for Hybrid LiFi and WiFi Networks ( http://arxiv.org/abs/2208.05035v1 )

ライセンス: Link先を確認
Han Ji, Qiang Wang, Stephen J. Redmond, Iman Tavakkolnia, Xiping Wu(参考訳) ロードバランシング(lb)は、異種アクセスポイント(aps)の性質上、ハイブリッド光忠実度(lifi)と無線忠実度(hlwnets)ネットワーク(hlwnets)において難しい問題である。 マシンラーニングは、トレーニングプロセスのコストで、ほぼ最適なネットワークパフォーマンスを備えた、複雑性に優しいLBソリューションを提供する可能性がある。 しかし、最新技術(SOTA)学習支援のLB手法は、ネットワーク環境(特にユーザ数)が変化すると再訓練を必要とし、その実践性を大幅に制限する。 本稿では,適応型ターゲット条件ニューラルネットワーク(A-TCNN)と呼ばれる新しいディープニューラルネットワーク(DNN)構造を提案する。 また、ターゲットユーザに対するAP選択結果に影響を与えることなく、データレート要求を分割することで、少数のユーザをより大きなユーザへマッピングする適応機構を開発する。 これにより,再トレーニングを必要とせず,異なるユーザ数を処理することができる。 その結果、A-TCNNはテストデータセットに非常に近いネットワークスループットを実現し、ギャップは3%未満であることがわかった。 また、A-TCNNは2つのSOTAベンチマークに匹敵するネットワークスループットを得ることができ、ランタイムを最大3桁まで削減することができる。

Load balancing (LB) is a challenging issue in the hybrid light fidelity (LiFi) and wireless fidelity (WiFi) networks (HLWNets), due to the nature of heterogeneous access points (APs). Machine learning has the potential to provide a complexity-friendly LB solution with near-optimal network performance, at the cost of a training process. The state-of-the-art (SOTA) learning-aided LB methods, however, need retraining when the network environment (especially the number of users) changes, significantly limiting its practicability. In this paper, a novel deep neural network (DNN) structure named adaptive target-condition neural network (A-TCNN) is proposed, which conducts AP selection for one target user upon the condition of other users. Also, an adaptive mechanism is developed to map a smaller number of users to a larger number through splitting their data rate requirements, without affecting the AP selection result for the target user. This enables the proposed method to handle different numbers of users without the need for retraining. Results show that A-TCNN achieves a network throughput very close to that of the testing dataset, with a gap less than 3%. It is also proven that A-TCNN can obtain a network throughput comparable to two SOTA benchmarks, while reducing the runtime by up to three orders of magnitude.
翻訳日:2022-08-11 13:23:04 公開日:2022-08-09
# バイナリカウントデータモニタリングのための適応リソース割り当てCUSUMとCOVID-19ホットスポット検出への応用

Adaptive Resources Allocation CUSUM for Binomial Count Data Monitoring with Application to COVID-19 Hotspot Detection ( http://arxiv.org/abs/2208.05045v1 )

ライセンス: Link先を確認
Jiuyun Hu, Yajun Mei, Sarah Holte, Hao Yan(参考訳) 本稿では,限られたサンプリング資源でホットスポットを頑健かつ効率的に検出する,効率的な統計手法(適応資源割当CUSUM)を提案する。 本研究の目的は,マルチアームバンディット(MAB)と変更点検出法を組み合わせて,ホットスポット検出のための資源割り当ての探索と活用のバランスをとることである。 さらに、感染率の後方分布を更新するために、ベイズ重み付き更新を用いる。 次に、リソース割り当てと計画に上位信頼境界(UCB)を用いる。 最後に、CUSUMモニタリング統計により、変更点と変更位置を検出する。 性能評価のために,提案手法といくつかのベンチマーク手法を比較し,提案手法が検出遅延の低減と検出精度の向上を実現可能であることを示した。 最後に,ワシントン州における郡レベルの1日当たり陽性感染者の実態調査においてホットスポット検出に適用し,極めて限定的な分散サンプルによる有効性を示した。

In this paper, we present an efficient statistical method (denoted as "Adaptive Resources Allocation CUSUM") to robustly and efficiently detect the hotspot with limited sampling resources. Our main idea is to combine the multi-arm bandit (MAB) and change-point detection methods to balance the exploration and exploitation of resource allocation for hotspot detection. Further, a Bayesian weighted update is used to update the posterior distribution of the infection rate. Then, the upper confidence bound (UCB) is used for resource allocation and planning. Finally, CUSUM monitoring statistics to detect the change point as well as the change location. For performance evaluation, we compare the performance of the proposed method with several benchmark methods in the literature and showed the proposed algorithm is able to achieve a lower detection delay and higher detection precision. Finally, this method is applied to hotspot detection in a real case study of county-level daily positive COVID-19 cases in Washington State WA) and demonstrates the effectiveness with very limited distributed samples.
翻訳日:2022-08-11 13:22:39 公開日:2022-08-09
# CoViT:視覚変換器を用いたSARS-CoV-2パンデミックのリアルタイム系統解析

CoViT: Real-time phylogenetics for the SARS-CoV-2 pandemic using Vision Transformers ( http://arxiv.org/abs/2208.05004v1 )

ライセンス: Link先を確認
Zuher Jahshan and Leonid Yavits(参考訳) リアルタイムウイルスゲノム検出、分類分類、系統解析は、Covid-19のようなウイルスパンデミックの効率的な追跡と制御に重要である。 しかし、前例がなく、いまだに増加するウイルスゲノムデータによって計算ボトルネックが発生し、リアルタイムのパンデミック追跡を効果的に防いでいる。 画像認識のためのニューラルネットワークモデルであるvision transformerをsars-cov-2などのウイルスゲノムの分類学的分類と配置に適用し,このボトルネックを緩和しようとしている。 我々のソリューションであるCoViTはSARS-CoV-2系統の樹上に新たに取得したサンプルを配置する。 CoVitによって返される2つの潜在的な配置のうちの1つは、99.0%の確率を持つ真のものである。 CoViTによって生成される5つの潜在的配置のうち、正しい配置の確率は99.8%である。 配置時間はNVIDIAのGeForce RTX 2080 Ti GPU上で動作するゲノムあたり1.45msである。 CoViTをGitHubを通じて研究コミュニティに提供します。

Real-time viral genome detection, taxonomic classification and phylogenetic analysis are critical for efficient tracking and control of viral pandemics such as Covid-19. However, the unprecedented and still growing amounts of viral genome data create a computational bottleneck, which effectively prevents the real-time pandemic tracking. We are attempting to alleviate this bottleneck by modifying and applying Vision Transformer, a recently developed neural network model for image recognition, to taxonomic classification and placement of viral genomes, such as SARS-CoV-2. Our solution, CoViT, places newly acquired samples onto the tree of SARS-CoV-2 lineages. One of the two potential placements returned by CoVit is the true one with the probability of 99.0%. The probability of the correct placement to be found among five potential placements generated by CoViT is 99.8%. The placement time is 1.45ms per individual genome running on NVIDIAs GeForce RTX 2080 Ti GPU. We make CoViT available to research community through GitHub: https://github.com/zuherJahshan/covit.
翻訳日:2022-08-11 13:19:25 公開日:2022-08-09
# データインタラクション予測と探索バイアス検出のためのユーザモデリング手法の統一比較

A Unified Comparison of User Modeling Techniques for Predicting Data Interaction and Detecting Exploration Bias ( http://arxiv.org/abs/2208.05021v1 )

ライセンス: Link先を確認
Sunwoo Ha, Shayan Monadjemi, Roman Garnett, and Alvitta Ottley(参考訳) visual analyticsコミュニティは、ユーザによるデータ探索とインサイト生成を支援するために、ユーザのインタラクション動作をキャプチャし、分析するためのいくつかのユーザーモデリングアルゴリズムを提案している。 例えば、探索バイアスを検出できるものや、そのインタラクションが起こる前にユーザが対話するデータポイントを予測できるものもある。 研究者たちは、このアルゴリズムがよりインテリジェントなビジュアル分析ツールを作るのに役立つと考えている。 しかし、コミュニティにはこれらの既存の技術に対する厳密な評価と比較が欠けている。 その結果、どの方法を使うか、いつ使うかのガイダンスは限られている。 本稿は,8つのユーザモデリングアルゴリズムを,多様な4つのユーザ学習データセット上で性能に基づいて比較・ランク付けすることで,不足したギャップを埋めようとしている。 本研究では,探索バイアス検出,データインタラクション予測,アルゴリズム複雑性などを分析する。 本研究は,ユーザインタラクションの分析と可視化のためのオープンな課題と新たな方向性を明らかにする。

The visual analytics community has proposed several user modeling algorithms to capture and analyze users' interaction behavior in order to assist users in data exploration and insight generation. For example, some can detect exploration biases while others can predict data points that the user will interact with before that interaction occurs. Researchers believe this collection of algorithms can help create more intelligent visual analytics tools. However, the community lacks a rigorous evaluation and comparison of these existing techniques. As a result, there is limited guidance on which method to use and when. Our paper seeks to fill in this missing gap by comparing and ranking eight user modeling algorithms based on their performance on a diverse set of four user study datasets. We analyze exploration bias detection, data interaction prediction, and algorithmic complexity, among other measures. Based on our findings, we highlight open challenges and new directions for analyzing user interactions and visualization provenance.
翻訳日:2022-08-11 13:19:09 公開日:2022-08-09
# コード効率を改善するための学習

Learning to Improve Code Efficiency ( http://arxiv.org/abs/2208.05297v1 )

ライセンス: Link先を確認
Binghong Chen, Daniel Tarlow, Kevin Swersky, Martin Maas, Pablo Heiber, Ashish Naik, Milad Hashemi, Parthasarathy Ranganathan(参考訳) ムーアの法則によって推進されたコンピュータシステムの性能改善は、社会を変えてきた。 このようなハードウェア駆動の進歩が遅くなると、ソフトウェア開発者が開発中のパフォーマンスと効率に集中することがさらに重要になる。 このような改善されたコード効率(例えば、ハードウェアの2倍の世代改良)の可能性を実証する研究がいくつかあるが、実際にはこれらの利点を解き放つことは困難である。 アルゴリズムの複雑さとハードウェア上のコーディングパターンの相互作用に関する推論は、平均的なプログラマにとって、特に開発速度とマルチパーソン開発に関する実用的な制約と組み合わせると、難しい。 本稿ではこの問題に対処する。 私たちは、google code jamコンペティションの大規模な競合プログラムデータセットを分析して、効率的なコードは非常に稀であり、中央値と90%のソリューションの2倍のランタイム差があることを確認しました。 我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。 これらのヒントをデータセットから自動学習するために,我々は,各離散的潜在変数が異なる学習されたコード編集カテゴリを表す,新しい離散的変分オートエンコーダを提案する。 本手法は,コード効率のマルチモーダルな空間を,シーケンス・ツー・シーケンスベースラインよりもよく編集し,より効率的な解の分布を生成する。

Improvements in the performance of computing systems, driven by Moore's Law, have transformed society. As such hardware-driven gains slow down, it becomes even more important for software developers to focus on performance and efficiency during development. While several studies have demonstrated the potential from such improved code efficiency (e.g., 2x better generational improvements compared to hardware), unlocking these gains in practice has been challenging. Reasoning about algorithmic complexity and the interaction of coding patterns on hardware can be challenging for the average programmer, especially when combined with pragmatic constraints around development velocity and multi-person development. This paper seeks to address this problem. We analyze a large competitive programming dataset from the Google Code Jam competition and find that efficient code is indeed rare, with a 2x runtime difference between the median and the 90th percentile of solutions. We propose using machine learning to automatically provide prescriptive feedback in the form of hints, to guide programmers towards writing high-performance code. To automatically learn these hints from the dataset, we propose a novel discrete variational auto-encoder, where each discrete latent variable represents a different learned category of code-edit that increases performance. We show that this method represents the multi-modal space of code efficiency edits better than a sequence-to-sequence baseline and generates a distribution of more efficient solutions.
翻訳日:2022-08-11 13:16:28 公開日:2022-08-09
# 分光反射率を用いたRGB顔画像からの心拍数推定

Visual Heart Rate Estimation from RGB Facial Video using Spectral Reflectance ( http://arxiv.org/abs/2208.04947v1 )

ライセンス: Link先を確認
Bharath Ramakrishnan, Ruijia Deng, Hassan Ali(参考訳) 顔面ビデオからの心拍数の推定は、医療やフィットネス業界に多くの応用がある。 加えて、ゲームの分野でも有用である。 顔の映像から心拍数をシームレスに得るためのいくつかのアプローチが提案されているが、これらのアプローチは動きや照明のアーティファクトを扱う上で問題があった。 本研究では,ユーザのスペクトル反射率を用いた信頼性の高いHR推定フレームワークを提案する。 我々は、Viola Jonesアルゴリズムとは対照的に、Faster RCNNのようなディープラーニングベースのフレームワークを用いて顔検出を行う。 本手法をMAHNOB HCIデータセット上で評価した結果,提案手法は従来手法よりも優れていることがわかった。 加えて、ゲームの分野でも有用である。 顔の映像から心拍数をシームレスに得るためのいくつかのアプローチが提案されているが、これらのアプローチは動きや照明のアーティファクトを扱う上で問題があった。 本研究では,ユーザのスペクトル反射率を用いた信頼性の高いHR推定フレームワークを提案する。 我々は,従来のViola-Jonesアルゴリズムとは対照的に,より高速なRCNNなどのディープラーニングベースのフレームワークを用いて顔検出を行う。 提案手法をMAHNOB HCIデータセット上で評価した結果,提案手法は従来の手法よりも優れていることがわかった。

Estimation of the Heart rate from the facial video has a number of applications in the medical and fitness industries. Additionally, it has become useful in the field of gaming as well. Several approaches have been proposed to seamlessly obtain the Heart rate from the facial video, but these approaches have had issues in dealing with motion and illumination artifacts. In this work, we propose a reliable HR estimation framework using the spectral reflectance of the user, which makes it robust to motion and illumination disturbances. We employ deep learning-based frameworks such as Faster RCNNs to perform face detection as opposed to the Viola Jones algorithm employed by previous approaches. We evaluate our method on the MAHNOB HCI dataset and found that the proposed method is able to outperform previous approaches.Estimation of the Heart rate from facial video has a number of applications in the medical and the fitness industries. Additionally, it has become useful in the field of gaming as well. Several approaches have been proposed to seamlessly obtain the Heart rate from the facial video, but these approaches have had issues in dealing with motion and illumination artifacts. In this work, we propose a reliable HR estimation framework using the spectral reflectance of the user, which makes it robust to motion and illumination disturbances. We employ deep learning-based frameworks such as Faster RCNNs to perform face detection as opposed to the Viola-Jones algorithm employed by previous approaches. We evaluate our method on the MAHNOB HCI dataset and found that the proposed method is able to outperform previous approaches.
翻訳日:2022-08-11 13:13:10 公開日:2022-08-09
# 動的シーンにおけるオブジェクトレベルのマッピングのための完全なオブジェクト形状の学習

Learning to Complete Object Shapes for Object-level Mapping in Dynamic Scenes ( http://arxiv.org/abs/2208.05067v1 )

ライセンス: Link先を確認
Binbin Xu, Andrew J. Davison, Stefan Leutenegger(参考訳) 本稿では,動的シーンにおけるオブジェクトの分割,追跡,再構築を同時に行うオブジェクトレベルのマッピングシステムを提案する。 深度入力とカテゴリレベルの形状からの復元を条件付けして、さらに完全なジオメトリを予測し、完成させることで、オブジェクトの形状がより良くなり、追跡精度が向上する。 各RGB-Dフレームに対して、オブジェクトを検出し、検出と既存のオブジェクトマップの間のデータ関連を構築するインスタンスセグメンテーションを実行する。 一致しない検出毎に新しいオブジェクトマップが作成される。 各マッチング対象について,その形状および完成形状に対して幾何学的残差および微分的レンダリング残差を用いて,そのポーズと潜在幾何表現を共同で最適化する。 本手法は,従来のボリュームマッピングや学習形状先行手法と比較して,追跡および再構成性能が向上することを示す。 合成と実世界の双方で定量的かつ定性的にテストすることにより,その有効性を評価する。

In this paper, we propose a novel object-level mapping system that can simultaneously segment, track, and reconstruct objects in dynamic scenes. It can further predict and complete their full geometries by conditioning on reconstructions from depth inputs and a category-level shape prior with the aim that completed object geometry leads to better object reconstruction and tracking accuracy. For each incoming RGB-D frame, we perform instance segmentation to detect objects and build data associations between the detection and the existing object maps. A new object map will be created for each unmatched detection. For each matched object, we jointly optimise its pose and latent geometry representations using geometric residual and differential rendering residual towards its shape prior and completed geometry. Our approach shows better tracking and reconstruction performance compared to methods using traditional volumetric mapping or learned shape prior approaches. We evaluate its effectiveness by quantitatively and qualitatively testing it in both synthetic and real-world sequences.
翻訳日:2022-08-11 13:12:47 公開日:2022-08-09
# グラフ生成マルチタスクモデルによるターゲットベースと細胞ベースの薬物発見のギャップを埋める

Bridging the gap between target-based and cell-based drug discovery with a graph generative multi-task model ( http://arxiv.org/abs/2208.04944v1 )

ライセンス: Link先を確認
Fan Hu, Dongqi Wang, Huazhen Huang, Yishen Hu and Peng Yin(参考訳) 薬物発見は人間を病気から守る上で極めて重要である。 ターゲットベースのスクリーニングは、過去数十年で最も人気のある新薬開発方法の1つである。 この方法は、標的タンパク質を阻害する候補薬物をin vitroで効率よくスクリーニングするが、選択された薬物のin vivoにおける不適切な活性のためにしばしば失敗する。 このギャップを埋めるために正確な計算方法が必要である。 本稿では,標的阻害特性と細胞活性(MATIC)特性の両方を有する化合物を同定するグラフ多タスク深層学習モデルを提案する。 慎重に計算したSARS-CoV-2データセットにおいて, 提案したMATICモデルは, 生体内で有効な化合物をスクリーニングする従来の手法と比較して優位性を示す。 次に, モデル解釈可能性を検討した結果, 標的阻害(in vitro) や細胞活性(in vivo) タスクの学習特徴は分子特性相関や原子機能的注意と異なることがわかった。 これらの知見に基づき,モンテカルロを用いた強化学習生成モデルを用いて,in vitroおよびin vivoで新規な多価化合物を生産し,ターゲットベースと細胞ベースの薬物発見のギャップを埋めた。

Drug discovery is vitally important for protecting human against disease. Target-based screening is one of the most popular methods to develop new drugs in the past several decades. This method efficiently screens candidate drugs inhibiting target protein in vitro, but it often fails due to inadequate activity of the selected drugs in vivo. Accurate computational methods are needed to bridge this gap. Here, we propose a novel graph multi task deep learning model to identify compounds carrying both target inhibitory and cell active (MATIC) properties. On a carefully curated SARS-CoV-2 dataset, the proposed MATIC model shows advantages comparing with traditional method in screening effective compounds in vivo. Next, we explored the model interpretability and found that the learned features for target inhibition (in vitro) or cell active (in vivo) tasks are different with molecular property correlations and atom functional attentions. Based on these findings, we utilized a monte carlo based reinforcement learning generative model to generate novel multi-property compounds with both in vitro and in vivo efficacy, thus bridging the gap between target-based and cell-based drug discovery.
翻訳日:2022-08-11 13:10:44 公開日:2022-08-09
# テネシー州シェルビー郡における近隣要因と成人肥満 : 地理空間機械学習アプローチ

Association Between Neighborhood Factors and Adult Obesity in Shelby County, Tennessee: Geospatial Machine Learning Approach ( http://arxiv.org/abs/2208.05335v1 )

ライセンス: Link先を確認
Whitney S Brakefield, Olufunto A Olusanya, Arash Shaban-Nejad(参考訳) 肥満は、毎年少なくとも280万人が死亡する世界的な疫病である。 この複雑な病気は社会経済的負担、労働生産性の低下、失業率、健康の社会的決定要因(sdoh)に関係している。 目的: 本研究の目的は, テネシー州シェルビー郡の成人の肥満率に及ぼすSDoHの影響を地理空間機械学習アプローチを用いて調査することであった。 肥満の傾向はcdc 500 citiesのデータベースから得られたが、sdohの指標はアメリカ合衆国国勢調査とアメリカ合衆国農務省から抽出された。 本研究は,getis-ord gi*統計を用いた肥満流行パターンの地理的分布を調査し,sdohと成人肥満との関連について検討した。 また、教師なし機械学習を用いて、肥満の頻度と関連するSDoH指標の分布を調査するグループ分析を行った。 その結果、シェルビー郡では成人の肥満率が高い地区が多かった。 国勢調査では、世帯収入の中央値は、黒人、家賃、貧困水準以下、55歳以上、未婚、未保険の者の割合と同様に、成人肥満の有病率と大きく関連していた。 群集分析の結果, 肥満有病率の差がみられた。 地理的な位置、SDoH、慢性疾患の関連を調べるためのさらなる研究が必要である。 これらの発見は、不利益な近隣地域における肥満の有病率を著しく高めており、他の地理空間情報は、肥満の有病率を増加させる危険因子を緩和する健康意思決定と介入に有用な洞察を提供するために活用することができる。

Obesity is a global epidemic causing at least 2.8 million deaths per year. This complex disease is associated with significant socioeconomic burden, reduced work productivity, unemployment, and other social determinants of Health (SDoH) disparities. Objective: The objective of this study was to investigate the effects of SDoH on obesity prevalence among adults in Shelby County, Tennessee, USA using a geospatial machine-learning approach. Obesity prevalence was obtained from publicly available CDC 500 cities database while SDoH indicators were extracted from the U.S. Census and USDA. We examined the geographic distributions of obesity prevalence patterns using Getis-Ord Gi* statistics and calibrated multiple models to study the association between SDoH and adult obesity. Also, unsupervised machine learning was used to conduct grouping analysis to investigate the distribution of obesity prevalence and associated SDoH indicators. Results depicted a high percentage of neighborhoods experiencing high adult obesity prevalence within Shelby County. In the census tract, median household income, as well as the percentage of individuals who were black, home renters, living below the poverty level, fifty-five years or older, unmarried, and uninsured, had a significant association with adult obesity prevalence. The grouping analysis revealed disparities in obesity prevalence amongst disadvantaged neighborhoods. More research is needed that examines linkages between geographical location, SDoH, and chronic diseases. These findings, which depict a significantly higher prevalence of obesity within disadvantaged neighborhoods, and other geospatial information can be leveraged to offer valuable insights informing health decision-making and interventions that mitigate risk factors for increasing obesity prevalence.
翻訳日:2022-08-11 13:06:48 公開日:2022-08-09
# Aesthetic Bot:Twitterでゲームマップをインタラクティブに進化させる

Aesthetic Bot: Interactively Evolving Game Maps on Twitter ( http://arxiv.org/abs/2208.05017v1 )

ライセンス: Link先を確認
M Charity, Julian Togelius(参考訳) 本稿では,ユーザ生成または進化システムから生成された小さなゲームマップの画像をポストする自動TwitterアカウントであるAesthetic Botの実装について述べる。 このボットは、画像のスレッドに投稿された世論調査を通じて、最も美しい地図に投票するようユーザーに促す。 これは、ユーザーの定期的に更新されたtwitterコンテンツフィードにシームレスに統合される方法で、ボットと直接対話できるレーティングシステムを作成する。 各投票ラウンドが終了すると、ボットは各マップに対する投票の分布から学び、デザインと視覚的美学のユーザの好みをエミュレートし、将来の投票ペアリングに勝つマップを生成する。 ロボットのゲームマップと参加するTwitterユーザの両方から,本システムのリリース以降に起こった,進行中の結果と新たな行動について論じる。

This paper describes the implementation of the Aesthetic Bot, an automated Twitter account that posts images of small game maps that are either user-made or generated from an evolutionary system. The bot then prompts users to vote via a poll posted in the image's thread for the most aesthetically pleasing map. This creates a rating system that allows for direct interaction with the bot in a way that is integrated seamlessly into a user's regularly updated Twitter content feed. Upon conclusion of the each voting round, the bot learns from the distribution of votes for each map to emulate user preferences for design and visual aesthetic in order to generate maps that would win future vote pairings. We discuss the ongoing results and emerging behaviors that have occurred since the release of this system from both the bot's generation of game maps and the participating Twitter users.
翻訳日:2022-08-11 13:06:10 公開日:2022-08-09
# 敵の存在下でのアドホックなチームワーク

Ad Hoc Teamwork in the Presence of Adversaries ( http://arxiv.org/abs/2208.05071v1 )

ライセンス: Link先を確認
Ted Fujimoto, Samrat Chatterjee, Auroop Ganguly(参考訳) アドホックなチームワークの進歩は、現実世界のアプリケーションでしっかりと協力するエージェントを作る可能性がある。 しかし、現実世界に展開されるエージェントは、それらを覆そうとする敵に対して脆弱である。 敵の存在を前提とするアドホックなチームワークについてはほとんど研究されていない。 敵の存在を包含するアドホックチームワークの拡張の重要性を説明し、なぜこの問題が難しいのかを明らかにする。 次に、より堅牢なマルチエージェントサイバー物理インフラシステムを実現するアドホックチームワークにおける新たな研究機会を提案する。

Advances in ad hoc teamwork have the potential to create agents that collaborate robustly in real-world applications. Agents deployed in the real world, however, are vulnerable to adversaries with the intent to subvert them. There has been little research in ad hoc teamwork that assumes the presence of adversaries. We explain the importance of extending ad hoc teamwork to include the presence of adversaries and clarify why this problem is difficult. We then propose some directions for new research opportunities in ad hoc teamwork that leads to more robust multi-agent cyber-physical infrastructure systems.
翻訳日:2022-08-11 13:05:55 公開日:2022-08-09
# 対向機械学習による車両対マイクログリッドサービスに対する脅威予測

Adversarial Machine Learning-Based Anticipation of Threats Against Vehicle-to-Microgrid Services ( http://arxiv.org/abs/2208.05073v1 )

ライセンス: Link先を確認
Ahmed Omara and Burak Kantarci(参考訳) 本稿では,adversarial machine learning (aml) の拡張攻撃面と,車両間マイクログリッド (v2m) サービスに対する潜在的な攻撃について検討する。 本稿では,ホワイトボックス攻撃と同等の結果が得られるマルチステージグレイボックス攻撃の予測実験について述べる。 敵は、ターゲット機械学習(ML)分類器をネットワークエッジで欺いて、マイクログリッドからの入ってくるエネルギー要求を誤分類することを目指している。 推論攻撃により、敵はスマートマイクログリッドと5g gnodeb間の通信からリアルタイムデータを収集して、エッジでターゲットの分類器のサロゲート(シャドー)モデルをトレーニングすることができる。 リアルタイムデータインスタンスを収集する敵の能力が関連する影響を予測するために,敵が収集するリアルタイムデータインスタンスの量を表す5つのケースを調査した。 完全なデータセットに基づいてトレーニングされた6つのMLモデルのうち、K-Nearest Neighbour(K-NN)がサロゲートモデルとして選択され、シミュレーションにより、マルチステージのグレーボックス攻撃がML分類器を誤解させ、ホワイトボックス攻撃が同様のEIRを達成するために必要なデータよりも最大40%少ないデータを用いて、EIR(Evasion increase Rate)を最大73.2%まで高めることを示した。

In this paper, we study the expanding attack surface of Adversarial Machine Learning (AML) and the potential attacks against Vehicle-to-Microgrid (V2M) services. We present an anticipatory study of a multi-stage gray-box attack that can achieve a comparable result to a white-box attack. Adversaries aim to deceive the targeted Machine Learning (ML) classifier at the network edge to misclassify the incoming energy requests from microgrids. With an inference attack, an adversary can collect real-time data from the communication between smart microgrids and a 5G gNodeB to train a surrogate (i.e., shadow) model of the targeted classifier at the edge. To anticipate the associated impact of an adversary's capability to collect real-time data instances, we study five different cases, each representing different amounts of real-time data instances collected by an adversary. Out of six ML models trained on the complete dataset, K-Nearest Neighbour (K-NN) is selected as the surrogate model, and through simulations, we demonstrate that the multi-stage gray-box attack is able to mislead the ML classifier and cause an Evasion Increase Rate (EIR) up to 73.2% using 40% less data than what a white-box attack needs to achieve a similar EIR.
翻訳日:2022-08-11 13:05:45 公開日:2022-08-09
# PECCO: マウスフレム最適化を改善したエッジクラウド環境における利益とコスト指向の計算オフロードスキーム

PECCO: A Profit and Cost-oriented Computation Offloading Scheme in Edge-Cloud Environment with Improved Moth-flame Optimisation ( http://arxiv.org/abs/2208.05074v1 )

ライセンス: Link先を確認
Jiashu Wu, Hao Dai, Yang Wang, Shigen Shen, Chengzhong Xu(参考訳) スマートデバイスが生成するデータの急速な増加とIoT(Internet of Things)時代の処理需要の急増により、リソース豊富なクラウドセンタはこれらの課題に対処するために利用されてきた。 クラウドからエッジデバイスに計算タスクをオフロードすることで、データソースと計算の近接性が短縮され、パフォーマンスとサービス品質(qos)が向上するので、クラウドセンタの負担を軽減するために、エッジクラウド計算オフロードは有望なソリューションになる。 計算コストと異種通信コストを考慮したエッジクラウド計算オフロードの最適化モデルが提案されている。 しかし、タスクの不均一性、ノード間の負荷分散、計算タスクがもたらす利益など、いくつかの重要な要因が共同で考慮されていないため、本論文では、利益とコスト指向の計算オフロード最適化モデル PECCO が提案されている。 モデルが本質的には困難であり,最適化対象が微分可能でないことを考慮し,元のMoth-flame Optimiserの欠点に対処し,エッジクラウド環境下で統合する改良型Moth-flame optimiser PECCO-MFIを提案する。 エッジクラウド環境下でのタスクオフロードモデルの最適化において,提案手法の優れた性能を検証するための総合実験を行った。

With the fast growing quantity of data generated by smart devices and the exponential surge of processing demand in the Internet of Things (IoT) era, the resource-rich cloud centres have been utilised to tackle these challenges. To relieve the burden on cloud centres, edge-cloud computation offloading becomes a promising solution since shortening the proximity between the data source and the computation by offloading computation tasks from the cloud to edge devices can improve performance and Quality of Service (QoS). Several optimisation models of edge-cloud computation offloading have been proposed that take computation costs and heterogeneous communication costs into account. However, several important factors are not jointly considered, such as heterogeneities of tasks, load balancing among nodes and the profit yielded by computation tasks, which lead to the profit and cost-oriented computation offloading optimisation model PECCO proposed in this paper. Considering that the model is hard in nature and the optimisation objective is not differentiable, we propose an improved Moth-flame optimiser PECCO-MFI which addresses some deficiencies of the original Moth-flame Optimiser and integrate it under the edge-cloud environment. Comprehensive experiments are conducted to verify the superior performance of the proposed method when optimising the proposed task offloading model under the edge-cloud environment.
翻訳日:2022-08-11 12:56:41 公開日:2022-08-09
# 車種別特異的ウェイポイント生成

Vehicle Type Specific Waypoint Generation ( http://arxiv.org/abs/2208.04987v1 )

ライセンス: Link先を確認
Yunpeng Liu, Jonathan Wilder Lavington, Adam Scibior, Frank Wood(参考訳) 運転行動の確率的基礎モデルから車種特異的な経路点列を生成する汎用メカニズムを開発した。 多くの基礎行動モデルは、車両情報を含んでいないデータに基づいて訓練され、プランニングのような下流アプリケーションでの実用性を制限している。 提案手法は,車両特定制御器の製作に用いられる強化学習アルゴリズムの副産物を用いて,車両種別行動予測モデルを条件付きで特定する。 本研究では,一般確率的行動モデルを用いて車両固有値関数を推定し,車両非依存の場合よりも物理的に可能性の高い車両固有経路列を生成する方法を示す。

We develop a generic mechanism for generating vehicle-type specific sequences of waypoints from a probabilistic foundation model of driving behavior. Many foundation behavior models are trained on data that does not include vehicle information, which limits their utility in downstream applications such as planning. Our novel methodology conditionally specializes such a behavior predictive model to a vehicle-type by utilizing byproducts of the reinforcement learning algorithms used to produce vehicle specific controllers. We show how to compose a vehicle specific value function estimate with a generic probabilistic behavior model to generate vehicle-type specific waypoint sequences that are more likely to be physically plausible then their vehicle-agnostic counterparts.
翻訳日:2022-08-11 12:56:12 公開日:2022-08-09
# システム工学のための自然言語処理--システムモデリング言語図の自動生成

Natural Language Processing for Systems Engineering: Automatic Generation of Systems Modelling Language Diagrams ( http://arxiv.org/abs/2208.05008v1 )

ライセンス: Link先を確認
Shaohong Zhong, Andrea Scarinci, Alice Cicirello(参考訳) 複雑なエンジニアリングシステムの設計は、しばしば長く明瞭なプロセスであり、技術者の専門知識と専門的な判断に大きく依存している。 このように、ヒューマンファクタに関わる活動の典型的な落とし穴は、分析の完全性や徹底性の欠如、設計の選択やドキュメント間の不整合、暗黙の主観性の程度といった観点で現れることが多い。 構造化されていない自然言語テキストからシステム図の自動生成を支援する手法が提案されている。 自然言語処理(NLP)技術は、組織内で利用可能なテキストリソース(例えば、仕様、マニュアル、技術的報告、保守レポート)からエンティティとそれらの関係を抽出し、特に構造と要求図に焦点を当てたシステムモデリング言語(SysML)図に変換するために使用される。 その目的は、より標準化され、包括的で自動化された出発点を提供し、その後、必要に応じて図を洗練し、適応させることです。 提案手法は柔軟でオープンドメインである。 オープンアクセスツールを利用する6つのステップで構成されており、中間モデリングの必要なしにSysMLダイアグラムを自動生成する。 提案手法の適用性と利点は,入力として異なるテキストソースを持つ6つのケーススタディで示され,手作業で定義されたダイアグラム要素に対してベンチマークを行った。

The design of complex engineering systems is an often long and articulated process that highly relies on engineers' expertise and professional judgment. As such, the typical pitfalls of activities involving the human factor often manifest themselves in terms of lack of completeness or exhaustiveness of the analysis, inconsistencies across design choices or documentation, as well as an implicit degree of subjectivity. An approach is proposed to assist systems engineers in the automatic generation of systems diagrams from unstructured natural language text. Natural Language Processing (NLP) techniques are used to extract entities and their relationships from textual resources (e.g., specifications, manuals, technical reports, maintenance reports) available within an organisation, and convert them into Systems Modelling Language (SysML) diagrams, with particular focus on structure and requirement diagrams. The intention is to provide the users with a more standardised, comprehensive and automated starting point onto which subsequently refine and adapt the diagrams according to their needs. The proposed approach is flexible and open-domain. It consists of six steps which leverage open-access tools, and it leads to an automatic generation of SysML diagrams without intermediate modelling requirement, but through the specification of a set of parameters by the user. The applicability and benefits of the proposed approach are shown through six case studies having different textual sources as inputs, and benchmarked against manually defined diagram elements.
翻訳日:2022-08-11 12:49:04 公開日:2022-08-09
# 算術と記号的帰納法における言語モデルの限界

Limitations of Language Models in Arithmetic and Symbolic Induction ( http://arxiv.org/abs/2208.05051v1 )

ライセンス: Link先を確認
Jing Qian, Hong Wang, Zekun Li, Shiyang Li, Xifeng Yan(参考訳) 近年の研究では、大規模事前学習型言語モデル(LM)が自然言語処理(NLP)タスクにおいて顕著に機能するだけでなく、算術的帰納、記号操作、コモンセンス推論といった推論タスクの改善も開始している。 しかし、これらのlmsの基本的な機能についてはまだ不明である。 驚いたことに、これらのモデルにはコピー、リバース、追加といった特定の記号操作タスクに制限がある。 シンボルの総数や繰り返しシンボルが増加すると、モデルの性能は急速に低下する。 この現象の背後にある潜在的な原因を調査し、明確な位置マーカー、きめ細かい計算ステップ、呼び出し可能なプログラムによるlmsなどを含む一連の可能な方法について検討する。 実験結果から,これらの手法はいずれも最も単純な加算誘導問題を完全に解決できないことがわかった。 最後に,教師を伴ってLMを導入し,授業のすべてのステップを実演する。 チューター付きLMは、OODの状況やシンボルの繰り返しにおいて100%の精度を提供することができ、誘導における大きなLMの境界に関する新たな洞察を隠蔽する。

Recent work has shown that large pretrained Language Models (LMs) can not only perform remarkably well on a range of Natural Language Processing (NLP) tasks but also start improving on reasoning tasks such as arithmetic induction, symbolic manipulation, and commonsense reasoning with increasing size of models. However, it is still unclear what the underlying capabilities of these LMs are. Surprisingly, we find that these models have limitations on certain basic symbolic manipulation tasks such as copy, reverse, and addition. When the total number of symbols or repeating symbols increases, the model performance drops quickly. We investigate the potential causes behind this phenomenon and examine a set of possible methods, including explicit positional markers, fine-grained computation steps, and LMs with callable programs. Experimental results show that none of these techniques can solve the simplest addition induction problem completely. In the end, we introduce LMs with tutor, which demonstrates every single step of teaching. LMs with tutor is able to deliver 100% accuracy in situations of OOD and repeating symbols, shedding new insights on the boundary of large LMs in induction.
翻訳日:2022-08-11 12:48:37 公開日:2022-08-09
# 力学系に対するモデル制約付き接多様体学習手法

A Model-Constrained Tangent Manifold Learning Approach for Dynamical Systems ( http://arxiv.org/abs/2208.04995v1 )

ライセンス: Link先を確認
Hai Van Nguyen, Tan Bui-Thanh(参考訳) 大規模複雑力学系のリアルタイム高精度解は, 制御, 最適化, 不確実性定量化, 意思決定など, 工学, 科学の応用において不可欠である。 本稿では,モデル制約付き接多様体学習(mcTangent)アプローチの方向性に寄与する。 mcTangentの中心は、いくつかの望ましい戦略のシナジーである。 一 ニューラルネットワークの速度及び行の方法の時間的正確性を利用した接多様体学習 二 基礎となる支配方程式と接するニューラルネットワークを符号化するためのモデル制約付きアプローチ 三 長期の安定性及び正確性を促進するための逐次学習戦略 四 マッタンジェント解の安定性及び精度をさらに高めるために、二階導関数を絡む真理に対するニューラルネットワークの接点及び類似点の滑らかさを暗黙的に強制するためのデータランダム化アプローチ 半ヒューリスティックかつ厳密な議論は、提案されたアプローチを分析し正当化するために提供される。 輸送方程式,粘性バーガース方程式,ナビエストークス方程式の数値計算結果を提示し,提案したmcTangent学習手法の有効性を実証した。

Real time accurate solutions of large scale complex dynamical systems are in critical need for control, optimization, uncertainty quantification, and decision-making in practical engineering and science applications. This paper contributes in this direction a model constrained tangent manifold learning (mcTangent) approach. At the heart of mcTangent is the synergy of several desirable strategies: i) a tangent manifold learning to take advantage of the neural network speed and the time accurate nature of the method of lines; ii) a model constrained approach to encode the neural network tangent with the underlying governing equations; iii) sequential learning strategies to promote long time stability and accuracy; and iv) data randomization approach to implicitly enforce the smoothness of the neural network tangent and its likeliness to the truth tangent up second order derivatives in order to further enhance the stability and accuracy of mcTangent solutions. Both semi heuristic and rigorous arguments are provided to analyze and justify the proposed approach. Several numerical results for transport equation, viscous Burgers equation, and Navier Stokes equation are presented to study and demonstrate the capability of the proposed mcTangent learning approach.
翻訳日:2022-08-11 12:42:46 公開日:2022-08-09
# babynet:小児期リハビリテーション支援のための非拘束環境における行動認識のための軽量ネットワーク

BabyNet: A Lightweight Network for Infant Reaching Action Recognition in Unconstrained Environments to Support Future Pediatric Rehabilitation Applications ( http://arxiv.org/abs/2208.04950v1 )

ライセンス: Link先を確認
Amel Dechemi, Vikarn Bhakri, Ipsita Sahin, Arjun Modi, Julya Mestas, Pamodya Peiris, Dannya Enriquez Barrundia, Elena Kokkoni, and Konstantinos Karydis(参考訳) 動作認識は、ウェアラブルロボット外骨格のような物理的リハビリテーション装置の自律性を改善する重要な要素である。 既存の人間の行動認識アルゴリズムは、小児よりも成人向けに重点を置いている。 本稿では,乳児が体外静止カメラから到達する動作を認識するための,軽量(訓練可能なパラメータによる)ネットワーク構造であるbabynetを紹介する。 拘束されていない環境(例えば、自宅の設定など)において、異なる幼児が着座姿勢で行う多様なリーチを含む注釈付きデータセットを開発する。 提案手法では,注釈付き有界箱の空間的および時間的接続を用いて,到達の開始とオフセットを解釈し,完全な到達動作を検出する。 提案手法の有効性を評価し,その性能を,時間的相互依存を捉える能力と,到達とオフセットの検出精度の観点から他の学習ベースのネットワーク構造と比較した。 その結果,我々のbabynetは,他の大規模ネットワークよりも高い(平均)テスト精度を達成でき,その結果,ビデオベースの幼児が行動認識に到達するための軽量データ駆動フレームワークとして機能することが示された。

Action recognition is an important component to improve autonomy of physical rehabilitation devices, such as wearable robotic exoskeletons. Existing human action recognition algorithms focus on adult applications rather than pediatric ones. In this paper, we introduce BabyNet, a light-weight (in terms of trainable parameters) network structure to recognize infant reaching action from off-body stationary cameras. We develop an annotated dataset that includes diverse reaches performed while in a sitting posture by different infants in unconstrained environments (e.g., in home settings, etc.). Our approach uses the spatial and temporal connection of annotated bounding boxes to interpret onset and offset of reaching, and to detect a complete reaching action. We evaluate the efficiency of our proposed approach and compare its performance against other learning-based network structures in terms of capability of capturing temporal inter-dependencies and accuracy of detection of reaching onset and offset. Results indicate our BabyNet can attain solid performance in terms of (average) testing accuracy that exceeds that of other larger networks, and can hence serve as a light-weight data-driven framework for video-based infant reaching action recognition.
翻訳日:2022-08-11 12:41:46 公開日:2022-08-09
# Dilated U-Net Deep Learning Architecture を用いた肩鎖骨神経の自動超音波画像分割

Automatic Ultrasound Image Segmentation of Supraclavicular Nerve Using Dilated U-Net Deep Learning Architecture ( http://arxiv.org/abs/2208.05050v1 )

ライセンス: Link先を確認
Mizuki Miyatake, Subhash Nerella, David Simpson, Natalia Pawlowicz, Sarah Stern, Patrick Tighe, Parisa Rashidi(参考訳) 医用画像における自動物体認識は、診断と治療を容易にする。 そこで本研究では,超音波画像から視床上神経を自動分割し,末梢神経ブロックの注入を支援する。 神経ブロックは一般に手術後の痛み治療に用いられ、超音波誘導は標的神経の隣の局所麻酔薬を注射するために用いられる。 この治療は、脳への痛み信号の伝達を阻害し、手術からの回復率を向上させ、術後のオピオイドの必要性を大幅に減少させる。 しかし,超音波ガイド下局所麻酔(ugra)では,麻酔科医が超音波画像中の神経位置を視覚的に認識する必要がある。 超音波画像における神経の無数の視覚的提示と、近隣の多くの組織との視覚的類似性を考えると、これは複雑な作業である。 本研究では,UGRA神経ブロック治療のための自動神経検出システムについて検討した。 このシステムは、深層学習技術を用いて超音波画像中の神経の位置を認識することができる。 我々は,拡張されたu-netアーキテクチャと拡張された畳み込みのない2つのディープニューラルネットワークを訓練することにより,神経の特徴を捉えるモデルを開発した。 この溶液は、局所麻酔における標的神経の遮断を改善する可能性がある。

Automated object recognition in medical images can facilitate medical diagnosis and treatment. In this paper, we automatically segmented supraclavicular nerves in ultrasound images to assist in injecting peripheral nerve blocks. Nerve blocks are generally used for pain treatment after surgery, where ultrasound guidance is used to inject local anesthetics next to target nerves. This treatment blocks the transmission of pain signals to the brain, which can help improve the rate of recovery from surgery and significantly decrease the requirement for postoperative opioids. However, Ultrasound Guided Regional Anesthesia (UGRA) requires anesthesiologists to visually recognize the actual nerve position in the ultrasound images. This is a complex task given the myriad visual presentations of nerves in ultrasound images, and their visual similarity to many neighboring tissues. In this study, we used an automated nerve detection system for the UGRA Nerve Block treatment. The system can recognize the position of the nerve in ultrasound images using Deep Learning techniques. We developed a model to capture features of nerves by training two deep neural networks with skip connections: two extended U-Net architectures with and without dilated convolutions. This solution could potentially lead to an improved blockade of targeted nerves in regional anesthesia.
翻訳日:2022-08-11 12:41:24 公開日:2022-08-09
# トロイの木馬変圧器における注意ハイジャック

Attention Hijacking in Trojan Transformers ( http://arxiv.org/abs/2208.04946v1 )

ライセンス: Link先を確認
Weimin Lyu, Songzhu Zheng, Tengfei Ma, Haibin Ling, Chao Chen(参考訳) トロイの木馬攻撃はAIシステムに深刻な脅威をもたらす。 トランスフォーマーモデルに関する最近の研究は爆発的な人気を博し、自己注意は議論の余地がある。 これは、BERTsとViTsの注意機構を通してトロイの木馬を明らかにすることができるか? 本稿では,トロイの木馬AIにおける注意ハイジャックパターンである「キドナップ」を,特定のトリガが存在する場合の注意重みとして検討する。 自然言語処理(NLP)とコンピュータビジョン(CV)の両方の領域から,トロイの木馬トランスフォーマーにおける一貫したハイジャックパターンを観察する。 この興味深い性質は、BERT と ViT のトロイジャン機構を理解するのに役立つ。 また、クリーンなトロイの木馬AIを識別するアテンションハイジャックトロイジャン検出器(AHTD)を提案する。

Trojan attacks pose a severe threat to AI systems. Recent works on Transformer models received explosive popularity and the self-attentions are now indisputable. This raises a central question: Can we reveal the Trojans through attention mechanisms in BERTs and ViTs? In this paper, we investigate the attention hijacking pattern in Trojan AIs, \ie, the trigger token ``kidnaps'' the attention weights when a specific trigger is present. We observe the consistent attention hijacking pattern in Trojan Transformers from both Natural Language Processing (NLP) and Computer Vision (CV) domains. This intriguing property helps us to understand the Trojan mechanism in BERTs and ViTs. We also propose an Attention-Hijacking Trojan Detector (AHTD) to discriminate the Trojan AIs from the clean ones.
翻訳日:2022-08-11 12:36:29 公開日:2022-08-09
# 列生成を用いたNOTAMのQcodeの説明可能な予測

Explainable prediction of Qcodes for NOTAMs using column generation ( http://arxiv.org/abs/2208.04955v1 )

ライセンス: Link先を確認
Krunal Kishor Patel, Guy Desaulniers, Andrea Lodi, and Freddy Lecue(参考訳) Notice To AirMen (NOTAM) には重要な飛行経路に関する情報が含まれている。 それらを検索してフィルタリングするために、NOTAMはQCodesと呼ばれるカテゴリに分類される。 本稿では,NOTAMのためのQcodeを,いくつかの説明とともに予測するツールを開発する。 dash,gunluk,wei (2018) で提案されている列生成を用いた解釈可能なバイナリ分類を多クラステキスト分類法に拡張する方法を提案する。 本稿では,複数出力やクラス不均衡など,ひとつのvs-rest分類に関連する問題に対処する手法について述べる。 さらに,CP-SATソルバをサブプロブレムに使用してトレーニング時間を短縮するなど,ヒューリスティックな手法を導入する。 最後に,本手法を線形svmや小型ニューラルネットワークなどの最先端機械学習アルゴリズムと比較し,必要な解釈性要素を付加した。

A NOtice To AirMen (NOTAM) contains important flight route related information. To search and filter them, NOTAMs are grouped into categories called QCodes. In this paper, we develop a tool to predict, with some explanations, a Qcode for a NOTAM. We present a way to extend the interpretable binary classification using column generation proposed in Dash, Gunluk, and Wei (2018) to a multiclass text classification method. We describe the techniques used to tackle the issues related to one vs-rest classification, such as multiple outputs and class imbalances. Furthermore, we introduce some heuristics, including the use of a CP-SAT solver for the subproblems, to reduce the training time. Finally, we show that our approach compares favorably with state-of-the-art machine learning algorithms like Linear SVM and small neural networks while adding the needed interpretability component.
翻訳日:2022-08-11 12:36:13 公開日:2022-08-09
# Cascaded Dual Attention CNN と Bi-Directional GRU Framework を用いた人間の活動認識

Human Activity Recognition Using Cascaded Dual Attention CNN and Bi-Directional GRU Framework ( http://arxiv.org/abs/2208.05034v1 )

ライセンス: Link先を確認
Hayat Ullah, Arslan Munir(参考訳) 視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つである。 過去10年間で、ビデオストリームから複雑な人間の行動を認識するために、多くの高度なディープラーニングアルゴリズムが導入された。 これらの深層学習アルゴリズムは、人間の活動認識タスクに顕著な性能を示している。 しかし、これらの新しい手法は、計算効率とロバスト性の観点から、モデルの性能とモデルの有効性にのみ焦点をあて、その結果、人間の行動認識問題に対処する提案においてバイアスのあるトレードオフをもたらす。 本稿では,人間行動認識のための現代的深層学習モデルの限界を克服するために,人間行動認識の深層的空間的・時間的特徴を生かした計算効率と汎用的空間-時間的カスケードフレームワークを提案する。 人間の行動の効率的な表現のために,映像フレーム内の人間中心の有意な特徴を抽出するために,統合されたチャネル空間的注意機構を活用する,効果的な二重注意畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 二重チャネル空間的注意層と畳み込み層は、特徴写像の数以上の対象を持つ空間受容場においてより注意深いことを学習する。 抽出した有意な有意な特徴を積み重ねた双方向ゲートリカレントユニット(Bi-GRU)に転送し、前向きと後向きの両方の勾配学習を用いて、長期の時間的モデリングと人間の行動認識を行う。 提案手法は,従来の動作認識法に比べて,1秒あたりフレーム数で最大167倍の性能向上を実現した。

Vision-based human activity recognition has emerged as one of the essential research areas in video analytics domain. Over the last decade, numerous advanced deep learning algorithms have been introduced to recognize complex human actions from video streams. These deep learning algorithms have shown impressive performance for the human activity recognition task. However, these newly introduced methods either exclusively focus on model performance or the effectiveness of these models in terms of computational efficiency and robustness, resulting in a biased tradeoff in their proposals to deal with challenging human activity recognition problem. To overcome the limitations of contemporary deep learning models for human activity recognition, this paper presents a computationally efficient yet generic spatial-temporal cascaded framework that exploits the deep discriminative spatial and temporal features for human activity recognition. For efficient representation of human actions, we have proposed an efficient dual attentional convolutional neural network (CNN) architecture that leverages a unified channel-spatial attention mechanism to extract human-centric salient features in video frames. The dual channel-spatial attention layers together with the convolutional layers learn to be more attentive in the spatial receptive fields having objects over the number of feature maps. The extracted discriminative salient features are then forwarded to stacked bi-directional gated recurrent unit (Bi-GRU) for long-term temporal modeling and recognition of human actions using both forward and backward pass gradient learning. Extensive experiments are conducted, where the obtained results show that the proposed framework attains an improvement in execution time up to 167 times in terms of frames per second as compared to most of the contemporary action recognition methods.
翻訳日:2022-08-11 12:31:57 公開日:2022-08-09
# 生涯強化学習のためのモデルフリー生成リプレイ:Starcraft-2への応用

Model-Free Generative Replay for Lifelong Reinforcement Learning: Application to Starcraft-2 ( http://arxiv.org/abs/2208.05056v1 )

ライセンス: Link先を確認
Zachary Daniels, Aswin Raghavan, Jesse Hostetler, Abrar Rahman, Indranil Sur, Michael Piacentino, Ajay Divakaran(参考訳) 深層生涯強化学習(LRL)の課題を満たす1つのアプローチは、(忘れずに)学習し、内部メタモデル(タスク、環境、エージェント、世界)を構築するために、エージェントの学習経験を注意深く管理することである。 generative replay (gr) は生物学的にインスパイアされたリプレイメカニズムであり、時間とともに更新される内部生成モデルから引き出された自己ラベルの例で学習体験を増強する。 本稿では,2つのデシラタを満たすLRL用GRについて述べる。 (a)深部RLを用いて学習した政策の潜在表現の内観的密度モデリング b)モデルフリーのエンドツーエンド学習。 本研究では,モデルフリーGRのための3つのディープラーニングアーキテクチャについて検討する。 提案手法はstarcraft2およびminigridドメインのタスクを含む3つの異なるシナリオで評価する。 本稿では,伝達学習,未知のタスクへの一般化,タスク変更後の迅速な適応,タスクエキスパートに匹敵するパフォーマンス,破滅的な忘れの最小化など,設計選択が定量的指標に与える影響について報告する。 我々は,深いアクター・クリティック・エージェントの潜在ベクトル空間からの特徴対作用写像の漂流を防止する。 また,確立した生涯学習指標の改善も示す。 我々は,リプレイバッファと生成したリプレイバッファを併用した場合,トレーニングの安定性を著しく向上させるために,ランダムリプレイバッファの導入が必要であることを見出した。 全体として、"隠れリプレイ"(クラスインクリメンタルな分類のためのよく知られたアーキテクチャ)が、LRLのGRの最先端を推し進める最も有望なアプローチであることがわかった。

One approach to meet the challenges of deep lifelong reinforcement learning (LRL) is careful management of the agent's learning experiences, in order to learn (without forgetting) and build internal meta-models (of the tasks, environments, agents, and world). Generative replay (GR) is a biologically-inspired replay mechanism that augments learning experiences with self-labelled examples drawn from an internal generative model that is updated over time. In this paper, we present a version of GR for LRL that satisfies two desiderata: (a) Introspective density modelling of the latent representations of policies learned using deep RL, and (b) Model-free end-to-end learning. In this work, we study three deep learning architectures for model-free GR. We evaluate our proposed algorithms on three different scenarios comprising tasks from the StarCraft2 and Minigrid domains. We report several key findings showing the impact of the design choices on quantitative metrics that include transfer learning, generalization to unseen tasks, fast adaptation after task change, performance comparable to a task expert, and minimizing catastrophic forgetting. We observe that our GR prevents drift in the features-to-action mapping from the latent vector space of a deep actor-critic agent. We also show improvements in established lifelong learning metrics. We find that the introduction of a small random replay buffer is needed to significantly increase the stability of training, when used in conjunction with the replay buffer and the generated replay buffer. Overall, we find that "hidden replay" (a well-known architecture for class-incremental classification) is the most promising approach that pushes the state-of-the-art in GR for LRL.
翻訳日:2022-08-11 12:30:14 公開日:2022-08-09
# 解釈可能な多項式ニューラル常微分方程式

Interpretable Polynomial Neural Ordinary Differential Equations ( http://arxiv.org/abs/2208.05072v1 )

ライセンス: Link先を確認
Colby Fronk and Linda Petzold(参考訳) ニューラルネットワークは普遍関数近似器として機能する能力を持つが、解釈不可能であり、訓練領域の外ではうまく一般化しない。 これらの問題は、標準的なニューラル常微分方程式(ニューラルODE)を力学系に適用しようとするときに問題となる。 本稿では,神経odeフレームワーク内の深い多項式ニューラルネットワークである polynomial neural ode を紹介する。 学習領域外での予測や,シンディのような追加のツールを用いずに直接的な記号的回帰を行う多項式ニューラルodeの能力を示す。

Neural networks have the ability to serve as universal function approximators, but they are not interpretable and don't generalize well outside of their training region. Both of these issues are problematic when trying to apply standard neural ordinary differential equations (neural ODEs) to dynamical systems. We introduce the polynomial neural ODE, which is a deep polynomial neural network inside of the neural ODE framework. We demonstrate the capability of polynomial neural ODEs to predict outside of the training region, as well as perform direct symbolic regression without additional tools such as SINDy.
翻訳日:2022-08-11 12:29:44 公開日:2022-08-09
# 共進化による不均一なマルチエージェントゼロショット協調

Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution ( http://arxiv.org/abs/2208.04957v1 )

ライセンス: Link先を確認
Ke Xue, Yutong Wang, Lei Yuan, Cong Guan, Chao Qian, Yang Yu(参考訳) ゼロショット協調(zsc)を実現するエージェントの生成は,協調型マルチエージェント強化学習(marl)における新たな課題である。 近年、ZSCにおいて、トレーニングプロセス中に多様なパートナーにエージェントを露出させることにより、いくつかの研究が進展している。 彼らは通常、パートナーを訓練する際に自己プレイを伴い、タスクが均質であると暗黙的に仮定する。 しかし、多くの実世界のタスクは不均一であり、従って以前の手法は失敗する可能性がある。 本稿では, 異種ZSC問題を初めて検討し, 3つのサブプロセス(ペアリング, 更新, 選択)を通じてエージェントとパートナーの2つの集団を共進化させる, 共進化に基づく一般的な手法を提案する。 共同調理作業における実験結果から,不均一な設定を考える必要性が示され,提案手法が異種協調型MARLに有望な解であることを示す。

Generating agents that can achieve Zero-Shot Coordination (ZSC) with unseen partners is a new challenge in cooperative Multi-Agent Reinforcement Learning (MARL). Recently, some studies have made progress in ZSC by exposing the agents to diverse partners during the training process. They usually involve self-play when training the partners, implicitly assuming that the tasks are homogeneous. However, many real-world tasks are heterogeneous, and hence previous methods may fail. In this paper, we study the heterogeneous ZSC problem for the first time and propose a general method based on coevolution, which coevolves two populations of agents and partners through three sub-processes: pairing, updating and selection. Experimental results on a collaborative cooking task show the necessity of considering the heterogeneous setting and illustrate that our proposed method is a promising solution for heterogeneous cooperative MARL.
翻訳日:2022-08-11 12:26:53 公開日:2022-08-09
# 特殊サブネットを用いた連続的Prune-and-Select:クラスインクリメンタルラーニング

Continual Prune-and-Select: Class-incremental learning with specialized subnetworks ( http://arxiv.org/abs/2208.04952v1 )

ライセンス: Link先を確認
Aleksandr Dekhovich, David M.J. Tax, Marcel H.F. Sluiter, Miguel A. Bessa(参考訳) 人間の脳は、ほとんど忘れずに順次タスクを学習することができる。 しかし、ディープニューラルネットワーク(DNN)は、あるタスクを次々に学習する際に破滅的な忘れに苦しむ。 この課題に対して,DNNがデータの起源を知らずにテストデータを見るという,クラスインクリメンタルな学習シナリオを考察する。 トレーニング中、Continuous-Prune-and-Select (CP&S)は、与えられたタスクの解決に責任を持つサブネットワークをDNN内で見つける。 そして、推論中にCP&Sは正しいサブネットワークを選択し、そのタスクの予測を行う。 新しいタスクは、DNN(以前は訓練を受けていなかった)の利用可能なニューロン接続をトレーニングして、プルーニングによって新しいサブネットワークを作成することで学習される。 これにより、相反しないDNN内の特別な領域を作成しながら、知識の移動を許すことで、破滅的な忘れをなくすことができる。 CP&S戦略は、様々なサブネットワーク選択戦略を用いて実装され、様々なデータセット(CIFAR-100、CUB-200-2011、ImageNet-100、ImageNet-1000)でテストされた最先端の連続学習手法よりも優れた性能を示す。 特にcp&sは、imagenet-1000から94%の精度で10のタスクをシーケンシャルに学習することができる。 著者の知る限りでは、最も優れた代替手法と比較して精度が20%以上向上したことを示している。

The human brain is capable of learning tasks sequentially mostly without forgetting. However, deep neural networks (DNNs) suffer from catastrophic forgetting when learning one task after another. We address this challenge considering a class-incremental learning scenario where the DNN sees test data without knowing the task from which this data originates. During training, Continual-Prune-and-Select (CP&S) finds a subnetwork within the DNN that is responsible for solving a given task. Then, during inference, CP&S selects the correct subnetwork to make predictions for that task. A new task is learned by training available neuronal connections of the DNN (previously untrained) to create a new subnetwork by pruning, which can include previously trained connections belonging to other subnetwork(s) because it does not update shared connections. This enables to eliminate catastrophic forgetting by creating specialized regions in the DNN that do not conflict with each other while still allowing knowledge transfer across them. The CP&S strategy is implemented with different subnetwork selection strategies, revealing superior performance to state-of-the-art continual learning methods tested on various datasets (CIFAR-100, CUB-200-2011, ImageNet-100 and ImageNet-1000). In particular, CP&S is capable of sequentially learning 10 tasks from ImageNet-1000 keeping an accuracy around 94% with negligible forgetting, a first-of-its-kind result in class-incremental learning. To the best of the authors' knowledge, this represents an improvement in accuracy above 20% when compared to the best alternative method.
翻訳日:2022-08-11 12:25:24 公開日:2022-08-09
# ウェーブレットスコアに基づく生成モデル

Wavelet Score-Based Generative Modeling ( http://arxiv.org/abs/2208.05003v1 )

ライセンス: Link先を確認
Florentin Guth, Simon Coste, Valentin De Bortoli, Stephane Mallat(参考訳) スコアベース生成モデル (sgms) は, ドリフト係数が確率的スコアに依存する時間反転確率微分方程式 (sde) を用いてガウス白色雑音からの新しいデータサンプルを合成する。 このようなSDEの離散化は典型的に多くの時間ステップを必要とするため、計算コストが高い。 これは、数学的に分析するスコアの不調性のためです。 本研究では,データ分布をウェーブレット係数の条件付き確率の積に分解することにより,SGMを著しく高速化できることを示す。 得られたウェーブレットスコアに基づく生成モデル(wsgm)は、すべてのスケールで同じ時間ステップのウェーブレット係数を合成し、その時間複雑性は画像サイズと線形に増加する。 これはガウス分布上で数学的に証明され、位相遷移や自然画像データセットでの物理過程上で数値的に示される。

Score-based generative models (SGMs) synthesize new data samples from Gaussian white noise by running a time-reversed Stochastic Differential Equation (SDE) whose drift coefficient depends on some probabilistic score. The discretization of such SDEs typically requires a large number of time steps and hence a high computational cost. This is because of ill-conditioning properties of the score that we analyze mathematically. We show that SGMs can be considerably accelerated, by factorizing the data distribution into a product of conditional probabilities of wavelet coefficients across scales. The resulting Wavelet Score-based Generative Model (WSGM) synthesizes wavelet coefficients with the same number of time steps at all scales, and its time complexity therefore grows linearly with the image size. This is proved mathematically over Gaussian distributions, and shown numerically over physical processes at phase transition and natural image datasets.
翻訳日:2022-08-11 12:24:38 公開日:2022-08-09
# 交通シミュレーションにおける運転模倣と安全のトレードオフを探る

Exploring the trade off between human driving imitation and safety for traffic simulation ( http://arxiv.org/abs/2208.04803v1 )

ライセンス: Link先を確認
Yann Koeberle, Stefano Sabatini, Dzmitry Tsishkou, Christophe Sabourin(参考訳) 交通シミュレーションは、自動運転車の性能の定量的評価に多くの関心を集めている。 シミュレータが価値のあるテストベンチとなるためには、シーン内の各トラフィックエージェントを模倣する運転ポリシーが、最小限の安全性保証を維持しながら、人間と同じように振る舞う必要がある。 記録された人間の運転データから交通エージェントの運転方針を学習したり、強化学習を通じて学習することは、制御されていない交差点やラウンドアバウトにおける現実的で高度に対話的な交通状況を生み出すための魅力的な解決策であると考えられる。 本研究は,運転政策の学習において,運転の模倣と安全維持との間にトレードオフが存在することを示す。 様々な模倣学習アルゴリズムと強化学習アルゴリズムが運転課題に適用した場合の性能を比較してこれを行う。 また、両目的を同時に改善する多目的学習アルゴリズム(MOPPO)を提案する。 我々は、インターアクションデータセットから抽出した高度にインタラクティブな運転シナリオに対して、運転ポリシーをテストする。

Traffic simulation has gained a lot of interest for quantitative evaluation of self driving vehicles performance. In order for a simulator to be a valuable test bench, it is required that the driving policy animating each traffic agent in the scene acts as humans would do while maintaining minimal safety guarantees. Learning the driving policies of traffic agents from recorded human driving data or through reinforcement learning seems to be an attractive solution for the generation of realistic and highly interactive traffic situations in uncontrolled intersections or roundabouts. In this work, we show that a trade-off exists between imitating human driving and maintaining safety when learning driving policies. We do this by comparing how various Imitation learning and Reinforcement learning algorithms perform when applied to the driving task. We also propose a multi objective learning algorithm (MOPPO) that improves both objectives together. We test our driving policies on highly interactive driving scenarios extracted from INTERACTION Dataset to evaluate how human-like they behave.
翻訳日:2022-08-10 13:21:25 公開日:2022-08-09
# カスケード型エコーチャンバー検出

Cascade-based Echo Chamber Detection ( http://arxiv.org/abs/2208.04620v1 )

ライセンス: Link先を確認
Marco Minici and Federico Cinus and Corrado Monti and Francesco Bonchi and Giuseppe Manco(参考訳) ソーシャルメディアのエコーチャンバーはかなり精査されているにもかかわらず、その検出と分析の一般的なモデルは欠落している。 本研究では,ソーシャルメディアのフットプリント,すなわちソーシャルネットワークの構造と情報の伝播を,エコー・チャンバー行動の程度と世論の極性によって特徴づけられる潜在コミュニティの集合を通して説明する確率論的生成モデルを提案することによって,このギャップを埋めることを目的とする。 具体的には、エコーチャンバーは、同様のイデオロギー的極性を持つ情報片に透過可能なコミュニティとしてモデル化され、反対の傾きの情報には不可避である:これにより、明確なイデオロギー的アライメントを欠いたコミュニティからエコーチャンバーを区別することができる。 モデルパラメータを学習するために、社会的つながりと情報伝達を観察する共同可能性の最適化を行う一般化期待最大化アルゴリズムのスケーラブルで確率的な適応を提案する。 合成データを用いた実験により, 本アルゴリズムは, エコー・チャンバーの挙動と意見の極性の程度で, 地中潜伏コミュニティを正しく再構築できることを示した。 欧州連合(eu)離脱や新型コロナウイルス(covid-19)ワクチンキャンペーンなど、社会や政治の議論の偏極化に関する実世界データに関する実験は、エコーチェンバーの検出における提案の有効性を確認した。 最後に, 姿勢検出や今後の伝播予測といった補助的予測タスクにおいて, モデルがどのように精度を向上させるかを示す。

Despite echo chambers in social media have been under considerable scrutiny, general models for their detection and analysis are missing. In this work, we aim to fill this gap by proposing a probabilistic generative model that explains social media footprints -- i.e., social network structure and propagations of information -- through a set of latent communities, characterized by a degree of echo-chamber behavior and by an opinion polarity. Specifically, echo chambers are modeled as communities that are permeable to pieces of information with similar ideological polarity, and impermeable to information of opposed leaning: this allows discriminating echo chambers from communities that lack a clear ideological alignment. To learn the model parameters we propose a scalable, stochastic adaptation of the Generalized Expectation Maximization algorithm, that optimizes the joint likelihood of observing social connections and information propagation. Experiments on synthetic data show that our algorithm is able to correctly reconstruct ground-truth latent communities with their degree of echo-chamber behavior and opinion polarity. Experiments on real-world data about polarized social and political debates, such as the Brexit referendum or the COVID-19 vaccine campaign, confirm the effectiveness of our proposal in detecting echo chambers. Finally, we show how our model can improve accuracy in auxiliary predictive tasks, such as stance detection and prediction of future propagations.
翻訳日:2022-08-10 13:20:22 公開日:2022-08-09
# シフト同変ニューラルネットワークによるGCC-PHATの拡張

Extending GCC-PHAT using Shift Equivariant Neural Networks ( http://arxiv.org/abs/2208.04654v1 )

ライセンス: Link先を確認
Axel Berg, Mark O'Connor, Kalle {\AA}str\"om, Magnus Oskarsson(参考訳) マイクロホンアレイを用いた話者定位は正確な時間遅延推定手法に依存する。 何十年もの間、位相変換(gcc-phat)と一般化された相互相関に基づく手法が広く採用されてきた。 近年、GCC-PHATは、ノイズや残響の影響を取り除くためにニューラルネットワークに入力機能を提供するためにも使われてきたが、ノイズのない条件における理論的保証を失うコストがかかる。 本稿では,GCC-PHATを拡張し,信号に含まれるタイミング情報を保持するシフト同変ニューラルネットワークを用いて受信信号をフィルタリングする手法を提案する。 広範な実験により,本モデルは理想条件下での正確な遅延回復を保証しつつ,逆環境におけるgcc-phatの誤差を一貫して低減することを示した。

Speaker localization using microphone arrays depends on accurate time delay estimation techniques. For decades, methods based on the generalized cross correlation with phase transform (GCC-PHAT) have been widely adopted for this purpose. Recently, the GCC-PHAT has also been used to provide input features to neural networks in order to remove the effects of noise and reverberation, but at the cost of losing theoretical guarantees in noise-free conditions. We propose a novel approach to extending the GCC-PHAT, where the received signals are filtered using a shift equivariant neural network that preserves the timing information contained in the signals. By extensive experiments we show that our model consistently reduces the error of the GCC-PHAT in adverse environments, with guarantees of exact time delay recovery in ideal conditions.
翻訳日:2022-08-10 13:19:56 公開日:2022-08-09
# 2次アンサンブル・ランゲヴィン法によるサンプリング問題と逆問題

Second Order Ensemble Langevin Method for Sampling and Inverse Problems ( http://arxiv.org/abs/2208.04506v1 )

ライセンス: Link先を確認
Ziming Liu, Andrew M. Stuart, Yixuan Wang(参考訳) 本稿では,第2次ランゲヴィン力学のアンサンブル近似に基づくサンプリング手法を提案する。 対数目標密度は補助運動量変数に二次項を付加し、減衰駆動ハミルトニアンダイナミクスが導入された; 結果として得られる確率微分方程式はギブス測度に不変であり、対象が与える位置座標に限界がある。 力学の法則に基づく共分散に基づくプレコンディショナーは、この不変性を変えず、ギブス測度への収束を加速するために導入される。 平均場力学はアンサンブル法によって近似され、これは勾配のないアフィン不変確率力学系をもたらす。 ベイズ逆問題における数値サンプリング器の基礎としての可能性を示す数値計算結果である。

We propose a sampling method based on an ensemble approximation of second order Langevin dynamics. The log target density is appended with a quadratic term in an auxiliary momentum variable and damped-driven Hamiltonian dynamics introduced; the resulting stochastic differential equation is invariant to the Gibbs measure, with marginal on the position coordinates given by the target. A preconditioner based on covariance under the law of the dynamics does not change this invariance property, and is introduced to accelerate convergence to the Gibbs measure. The resulting mean-field dynamics may be approximated by an ensemble method; this results in a gradient-free and affine-invariant stochastic dynamical system. Numerical results demonstrate its potential as the basis for a numerical sampler in Bayesian inverse problems.
翻訳日:2022-08-10 13:19:42 公開日:2022-08-09
# 大規模キューシステムにおける遅延情報負荷分散のための学習平均場制御

Learning Mean-Field Control for Delayed Information Load Balancing in Large Queuing Systems ( http://arxiv.org/abs/2208.04777v1 )

ライセンス: Link先を確認
Anam Tahir, Kai Cui, Heinz Koeppl(参考訳) 近年、データセンターやクラウドサービスの容量と並列処理能力が大幅に向上している。 上記の分散システムを十分に活用するには、並列キューアーキテクチャのための最適なロードバランシングを実現する必要がある。 既存の最先端ソリューションは、多くのクライアントを持つ非常に大きなシステムの振る舞いに対する通信遅延の影響を考慮できない。 本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムを提案する。 トラクタブルな解を得るために、我々はこのシステムを離散時間で状態-作用空間を拡大した平均場制御問題としてモデル化する。 次に,ポリシー勾配強化学習アルゴリズムを適用し,負荷分散の最適解を求める。 ここで、離散時間システムモデルは、全クライアントでキュー状態情報が同期ブロードキャストされ更新される同期遅延を組み込む。 次に,大規模システムにおける方法論の理論的性能保証を行う。 最後に,本手法がスケーラブルであるだけでなく,JSQ (Join-the-Shortest-Queue) の最先端のパワー・オブ・ド・バリアントと比較して,同期遅延の有無で優れた性能を示すことを示す。

Recent years have seen a great increase in the capacity and parallel processing power of data centers and cloud services. To fully utilize the said distributed systems, optimal load balancing for parallel queuing architectures must be realized. Existing state-of-the-art solutions fail to consider the effect of communication delays on the behaviour of very large systems with many clients. In this work, we consider a multi-agent load balancing system, with delayed information, consisting of many clients (load balancers) and many parallel queues. In order to obtain a tractable solution, we model this system as a mean-field control problem with enlarged state-action space in discrete time through exact discretization. Subsequently, we apply policy gradient reinforcement learning algorithms to find an optimal load balancing solution. Here, the discrete-time system model incorporates a synchronization delay under which the queue state information is synchronously broadcasted and updated at all clients. We then provide theoretical performance guarantees for our methodology in large systems. Finally, using experiments, we prove that our approach is not only scalable but also shows good performance when compared to the state-of-the-art power-of-d variant of the Join-the-Shortest-Queue (JSQ) and other policies in the presence of synchronization delays.
翻訳日:2022-08-10 13:19:30 公開日:2022-08-09
# eafl:バッテリ駆動エッジデバイス上でのエネルギアウェアフェデレーション学習に向けて

EAFL: Towards Energy-Aware Federated Learning on Battery-Powered Edge Devices ( http://arxiv.org/abs/2208.04505v1 )

ライセンス: Link先を確認
Amna Arouj and Ahmed M. Abdelmoniem(参考訳) フェデレーテッド・ラーニング(FL)は、エッジデバイスがデータの集中化やプライバシーをデフォルトにすることなく、グローバルな機械学習モデルを協調的にトレーニングすることを可能にする、新たに登場したAIのブランチである。 しかし、顕著な進歩にもかかわらず、このパラダイムには様々な課題が伴う。 具体的には、大規模なデプロイメントにおいて、クライアントの不均一性は、正確性、公平性、時間といったトレーニング品質に影響を与える規範です。 さらに、これらのバッテリに制約のあるデバイス全体のエネルギー消費量は、ほとんど未調査であり、flの幅広い最適化には限界がある。 この問題に対処するために、エネルギー消費を考慮し、異種ターゲット装置の参加を最大化するエネルギー対応FL選択法EAFLを開発した。 \schemeは、システム効率を最大化する能力とともに、より高いバッテリレベルのクライアントをチェリーピックするパワーアウェアトレーニングアルゴリズムである。 我々の設計は、時間と精度を両立させ、残りのオンデバイスバッテリレベルを最大化する。 \schemeはテストモデルの精度を最大85\%改善し、クライアントのドロップアウトを最大2.45$\times$に削減する。

Federated learning (FL) is a newly emerged branch of AI that facilitates edge devices to collaboratively train a global machine learning model without centralizing data and with privacy by default. However, despite the remarkable advancement, this paradigm comes with various challenges. Specifically, in large-scale deployments, client heterogeneity is the norm which impacts training quality such as accuracy, fairness, and time. Moreover, energy consumption across these battery-constrained devices is largely unexplored and a limitation for wide-adoption of FL. To address this issue, we develop EAFL, an energy-aware FL selection method that considers energy consumption to maximize the participation of heterogeneous target devices. \scheme is a power-aware training algorithm that cherry-picks clients with higher battery levels in conjunction with its ability to maximize the system efficiency. Our design jointly minimizes the time-to-accuracy and maximizes the remaining on-device battery levels. \scheme improves the testing model accuracy by up to 85\% and decreases the drop-out of clients by up to 2.45$\times$.
翻訳日:2022-08-10 13:14:56 公開日:2022-08-09
# 深層強化学習によるDBSCANの自動化

Automating DBSCAN via Deep Reinforcement Learning ( http://arxiv.org/abs/2208.04537v1 )

ライセンス: Link先を確認
Ruitong Zhang, Hao Peng, Yingtong Dou, Jia Wu, Qingyun Sun, Jingyi Zhang, Philip S. Yu(参考訳) DBSCANは、その単純さと実用性から、多くの科学と工学の分野で広く使われている。 しかし,高感度パラメータのため,クラスタ化結果の精度は実用的経験に大きく依存する。 本稿では,新しいDBSCANパラメータの自動探索フレームワークであるDRL-DBSCANを提案する。 このフレームワークは、マルコフ決定プロセスとしてクラスタリング環境を知覚することでパラメータ探索方向を調整するプロセスをモデル化する。 DRL-DBSCANは、クラスタとの相互作用を通じて異なる特徴分布に対する最適なクラスタリングパラメータ探索ポリシーを、弱教師付き報酬訓練ネットワークを用いて学習する。 また,データ規模によって駆動される再帰的な探索機構を,大規模パラメータ空間を効率的にかつ制御的に処理する。 提案する4つの作業モードに基づく5つの人工および実世界のデータセットについて,広範な実験を行った。 オフラインタスクとオンラインタスクの結果、DRL-DBSCANはDBSCANクラスタリングの精度を最大26%、25%改善するだけでなく、高い計算効率で支配的なパラメータを安定して見つけることができる。 コードはhttps://github.com/RingBDStack/DRL-DBSCANで公開されている。

DBSCAN is widely used in many scientific and engineering fields because of its simplicity and practicality. However, due to its high sensitivity parameters, the accuracy of the clustering result depends heavily on practical experience. In this paper, we first propose a novel Deep Reinforcement Learning guided automatic DBSCAN parameters search framework, namely DRL-DBSCAN. The framework models the process of adjusting the parameter search direction by perceiving the clustering environment as a Markov decision process, which aims to find the best clustering parameters without manual assistance. DRL-DBSCAN learns the optimal clustering parameter search policy for different feature distributions via interacting with the clusters, using a weakly-supervised reward training policy network. In addition, we also present a recursive search mechanism driven by the scale of the data to efficiently and controllably process large parameter spaces. Extensive experiments are conducted on five artificial and real-world datasets based on the proposed four working modes. The results of offline and online tasks show that the DRL-DBSCAN not only consistently improves DBSCAN clustering accuracy by up to 26% and 25% respectively, but also can stably find the dominant parameters with high computational efficiency. The code is available at https://github.com/RingBDStack/DRL-DBSCAN.
翻訳日:2022-08-10 13:14:38 公開日:2022-08-09
# 非凸複合物体の適応零次最適化

Adaptive Zeroth-Order Optimisation of Nonconvex Composite Objectives ( http://arxiv.org/abs/2208.04579v1 )

ライセンス: Link先を確認
Weijia Shao, Sahin Albayrak(参考訳) 本稿では,非凸合成対象のゼロ階最適化アルゴリズムの提案と解析を行い,次元依存性の低減に着目した。 これは、最大ノルムを備えた空間において勾配降下を行うエントロピー様関数を持つ確率ミラー降下法を用いて、決定集合の低次元構造を利用することにより達成される。 勾配推定を改善するために,ラデマシェ分布に基づくサンプリング法をガウス平滑化法に置き換え,非ユークリッド幾何学にミニバッチ法が対応していることを示す。 ハイパーパラメータのチューニングを避けるために,一般確率的ミラー降下の適応ステップ解析を行い,問題の事前知識を必要とせず,提案アルゴリズムの適応バージョンが収束することを示す。

In this paper, we propose and analyze algorithms for zeroth-order optimization of non-convex composite objectives, focusing on reducing the complexity dependence on dimensionality. This is achieved by exploiting the low dimensional structure of the decision set using the stochastic mirror descent method with an entropy alike function, which performs gradient descent in the space equipped with the maximum norm. To improve the gradient estimation, we replace the classic Gaussian smoothing method with a sampling method based on the Rademacher distribution and show that the mini-batch method copes with the non-Euclidean geometry. To avoid tuning hyperparameters, we analyze the adaptive stepsizes for the general stochastic mirror descent and show that the adaptive version of the proposed algorithm converges without requiring prior knowledge about the problem.
翻訳日:2022-08-10 13:14:17 公開日:2022-08-09
# IDNP:シークエンシャルレコメンデーションのための生成ニューラルプロセスを用いた関心ダイナミクスモデリング

IDNP: Interest Dynamics Modeling using Generative Neural Processes for Sequential Recommendation ( http://arxiv.org/abs/2208.04600v1 )

ライセンス: Link先を確認
Jing Du, Zesheng Ye, Lina Yao, Bin Guo, Zhiwen Yu(参考訳) 最近のシーケンシャルレコメンデーションモデルは、ユーザ関心をモデル化するために、連続した短期的なユーザ-イテム相互作用シーケンスに依存している。 しかし、これらのアプローチは短期と長期の両方の利益に懸念を抱いている。 1) 短期: 相互作用列はモノリシックな利害関係から生じるものではなく、たとえ短い期間であってもいくつかの相互に絡み合った利害関係から生じるものであり、それらの相互作用列はスキップ行動のモデル化に失敗する。 これは、配列間の興味のダイナミクスを考慮せずに、離散的な関心表現のみを導出できるため、長期的な関心を推測することの難しさを表わす。 本研究では,(1)短期利害のマルチスケール表現,(2)長期利害のダイナミックス認識表現を学習することで,これらの懸念に対処する。 この目的のために、生成的 \textbf{N}eural \textbf{P}rocesses(IDNP)を用いて、機能的視点からユーザ興味をモデル化する、 \textbf{I}nterest \textbf{D}ynamicsモデリングフレームワークを提案する。 IDNPはグローバルな関心関数ファミリーを学習し、各ユーザの長期的な関心を関数インスタンス化として定義し、関数連続性を通じて関心ダイナミクスを示す。 具体的には、IDNPはまず各ユーザの短期的インタラクションをマルチスケール表現にエンコードし、それをユーザコンテキストとして要約する。 潜在グローバル関心とユーザコンテキストを組み合わせることで、idnpは長期ユーザ関心関数を再構築し、今後のクエリ時間ステップでインタラクションを予測する。 さらに、IDNPは相互作用列が限定的かつ非連続的であっても、そのような関心関数をモデル化することができる。 4つの実世界のデータセットに関する広範囲な実験によって、我々のモデルは様々な評価指標で最先端のものよりも優れています。

Recent sequential recommendation models rely increasingly on consecutive short-term user-item interaction sequences to model user interests. These approaches have, however, raised concerns about both short- and long-term interests. (1) {\it short-term}: interaction sequences may not result from a monolithic interest, but rather from several intertwined interests, even within a short period of time, resulting in their failures to model skip behaviors; (2) {\it long-term}: interaction sequences are primarily observed sparsely at discrete intervals, other than consecutively over the long run. This renders difficulty in inferring long-term interests, since only discrete interest representations can be derived, without taking into account interest dynamics across sequences. In this study, we address these concerns by learning (1) multi-scale representations of short-term interests; and (2) dynamics-aware representations of long-term interests. To this end, we present an \textbf{I}nterest \textbf{D}ynamics modeling framework using generative \textbf{N}eural \textbf{P}rocesses, coined IDNP, to model user interests from a functional perspective. IDNP learns a global interest function family to define each user's long-term interest as a function instantiation, manifesting interest dynamics through function continuity. Specifically, IDNP first encodes each user's short-term interactions into multi-scale representations, which are then summarized as user context. By combining latent global interest with user context, IDNP then reconstructs long-term user interest functions and predicts interactions at upcoming query timestep. Moreover, IDNP can model such interest functions even when interaction sequences are limited and non-consecutive. Extensive experiments on four real-world datasets demonstrate that our model outperforms state-of-the-arts on various evaluation metrics.
翻訳日:2022-08-10 13:14:03 公開日:2022-08-09
# E2EG:グラフトポロジとテキストベースのノード属性を用いたエンドツーエンドノード分類

E2EG: End-to-End Node Classification Using Graph Topology and Text-based Node Attributes ( http://arxiv.org/abs/2208.04609v1 )

ライセンス: Link先を確認
Tu Anh Dinh, Jeroen den Boef, Joran Cornelisse, Paul Groth(参考訳) テキストベースのノード属性を用いたノード分類は、学術用引用グラフにおける論文トピックの予測から、ソーシャルメディアネットワークにおけるユーザ特性の分類まで、多くの現実の応用がある。 GIANTのような最先端のノード分類フレームワークでは、まずグラフノードのテキスト属性を埋め込み、その結果の埋め込みをノード分類モデルに供給する、2段階のパイプラインを使用する。 本稿では,これら2つの段階を排除し,その代わりに,エンド・ツー・エンド・GIANT(End-to-End-GIANT, E2EG)と呼ばれるGIANTに基づくエンドツーエンドノード分類モデルを開発する。 本手法における主目的と補助分類目的のタンデム利用により,より頑健なモデルが得られるため,25%から40%のパラメータ削減が可能な蒸留エンコーダでは,bertバックボーンを切り替えることができる。 さらに、ノード分類のために複数のモデルを連鎖する必要がなくなるため、モデルのエンドツーエンド性は使いやすさを増す。 ogbn-arxivおよびogbn-productsデータセットのGIANT+MLPベースラインと比較すると,モデルトレーニング時間を最大40%短縮しつつ,トランスダクティブ設定(+0.5%)において若干精度が向上する。 我々のモデルは誘導的設定にも適用でき、GIANT+MLPを最大2.23%上回る。

Node classification utilizing text-based node attributes has many real-world applications, ranging from prediction of paper topics in academic citation graphs to classification of user characteristics in social media networks. State-of-the-art node classification frameworks, such as GIANT, use a two-stage pipeline: first embedding the text attributes of graph nodes then feeding the resulting embeddings into a node classification model. In this paper, we eliminate these two stages and instead develop an end-to-end node classification model that builds upon GIANT, called End-to-End-GIANT (E2EG). The tandem utilization of a main and an auxiliary classification objectives in our approach results in a more robust model, thus enabling the BERT backbone to be switched out for a distilled encoder with a 25% - 40% reduction in the number of parameters. Moreover, the end-to-end nature of the model increases ease of use, as it avoids the need of chaining multiple models for node classification. Compared to a GIANT+MLP baseline on the ogbn-arxiv and ogbn-products datasets, our model is able to obtain slightly better accuracy in the transductive setting (+0.5%), while reducing model training time by up to 40%. Our model is also applicable in the inductive setting, outperforming GIANT+MLP by up to +2.23%.
翻訳日:2022-08-10 13:13:27 公開日:2022-08-09
# 因果効果を同定した確率的ネットワークにおける因果発見

Causal Discovery in Probabilistic Networks with an Identifiable Causal Effect ( http://arxiv.org/abs/2208.04627v1 )

ライセンス: Link先を確認
Sina Akbari, Fateme Jamshidi, Ehsan Mokhtarian, Matthew J. Vowels, Jalal Etesami, Negar Kiyavash(参考訳) 因果同定は因果推論の文献の中核であり、興味のある因果的クエリを特定するために完全なアルゴリズムが提案されている。 これらのアルゴリズムの妥当性は、正しく指定された因果構造にアクセスするという制限的な仮定に基づいている。 本研究では,因果構造の確率モデルが利用可能な設定について検討する。 具体的には、因果グラフの辺は、例えば、ドメインの専門家からの信条の程度を表す確率として割り当てられる。 あるいは、エッジに関する不確実性は、特定の統計的テストの信頼性を反映する可能性がある。 このような確率グラフと関心の特定の因果効果を考えると、最も可能性の高い部分グラフと因果効果が識別できる部分グラフとは何でしょうか。 この質問に答えることは、edge id問題と呼ぶnp-hard combinatorial optimization問題を解くことにつながることを示している。 本研究では,この問題を近似する効率的なアルゴリズムを提案し,提案手法を実世界ネットワークとランダム生成グラフに対して評価する。

Causal identification is at the core of the causal inference literature, where complete algorithms have been proposed to identify causal queries of interest. The validity of these algorithms hinges on the restrictive assumption of having access to a correctly specified causal structure. In this work, we study the setting where a probabilistic model of the causal structure is available. Specifically, the edges in a causal graph are assigned probabilities which may, for example, represent degree of belief from domain experts. Alternatively, the uncertainly about an edge may reflect the confidence of a particular statistical test. The question that naturally arises in this setting is: Given such a probabilistic graph and a specific causal effect of interest, what is the subgraph which has the highest plausibility and for which the causal effect is identifiable? We show that answering this question reduces to solving an NP-hard combinatorial optimization problem which we call the edge ID problem. We propose efficient algorithms to approximate this problem, and evaluate our proposed algorithms against real-world networks and randomly generated graphs.
翻訳日:2022-08-10 13:13:00 公開日:2022-08-09
# スクラッチからスケッチへ:ロボット型スケッチエージェントのための階層的強化学習

From Scratch to Sketch: Deep Decoupled Hierarchical Reinforcement Learning for Robotic Sketching Agent ( http://arxiv.org/abs/2208.04833v1 )

ライセンス: Link先を確認
Ganghun Lee, Minji Kim, Minsu Lee, Byoung-Tak Zhang(参考訳) 本稿では,ストロークベースのレンダリングと運動制御を同時に学習できるロボットスケッチエージェントのための自動学習フレームワークを提案する。 ロボットのスケッチ問題に対して,ストロークベースのレンダリングと運動制御の2つの方針を独立して学習し,描画のサブタスクを実現し,実世界の描画に協調して階層を形成する。 手作りの特徴、描画シーケンスや軌跡、逆運動学がなければ、提案手法はロボットのスケッチエージェントをスクラッチから訓練する。 2Fグリップを用いた6-DoFロボットアームによる落書きスケッチ実験を行った。 実験の結果,2つの政策がサブタスクの学習に成功し,目標画像のスケッチに協力することが確認された。 また, 各種描画工具および表面の堅牢性および柔軟性について検討した。

We present an automated learning framework for a robotic sketching agent that is capable of learning stroke-based rendering and motor control simultaneously. We formulate the robotic sketching problem as a deep decoupled hierarchical reinforcement learning; two policies for stroke-based rendering and motor control are learned independently to achieve sub-tasks for drawing, and form a hierarchy when cooperating for real-world drawing. Without hand-crafted features, drawing sequences or trajectories, and inverse kinematics, the proposed method trains the robotic sketching agent from scratch. We performed experiments with a 6-DoF robot arm with 2F gripper to sketch doodles. Our experimental results show that the two policies successfully learned the sub-tasks and collaborated to sketch the target images. Also, the robustness and flexibility were examined by varying drawing tools and surfaces.
翻訳日:2022-08-10 13:10:17 公開日:2022-08-09
# sim2real:心臓mr画像シミュレーション-教師なしgansによる実写翻訳

sim2real: Cardiac MR Image Simulation-to-Real Translation via Unsupervised GANs ( http://arxiv.org/abs/2208.04874v1 )

ライセンス: Link先を確認
Sina Amirrajab, Yasmina Al Khalil, Cristian Lorenz, Jurgen Weese, Josien Pluim, and Marcel Breeuwer(参考訳) 深層学習解析ネットワーク構築のための仮想心臓MR画像データベースのMR物理に基づくシミュレーションには,かなりの関心が寄せられている。 しかし,そのようなデータベースの利用は限られているか,現実感のギャップやテクスチャの欠如,シミュレーション画像の簡易な外観などにより,準最適性能を示す。 この作品では 1) 解剖学的に異なる仮想XCAT被験者に画像シミュレーションを提供し、 2) 画像リアリズムを改善するための sim2real Translation Network を提案する。 ユーザビリティ実験から,sim2realデータにはトレーニングデータの強化とセグメンテーションアルゴリズムの性能向上が期待できる可能性が示唆された。

There has been considerable interest in the MR physics-based simulation of a database of virtual cardiac MR images for the development of deep-learning analysis networks. However, the employment of such a database is limited or shows suboptimal performance due to the realism gap, missing textures, and the simplified appearance of simulated images. In this work we 1) provide image simulation on virtual XCAT subjects with varying anatomies, and 2) propose sim2real translation network to improve image realism. Our usability experiments suggest that sim2real data exhibits a good potential to augment training data and boost the performance of a segmentation algorithm.
翻訳日:2022-08-10 13:10:00 公開日:2022-08-09
# copulaboost: copulaベースのモデルコンポーネントによる加法モデリング

Copulaboost: additive modeling with copula-based model components ( http://arxiv.org/abs/2208.04669v1 )

ライセンス: Link先を確認
Simon Boge Brant, Ingrid Hob{\ae}k Haff(参考訳) 本稿では,ペアコプラ構成に基づくモデル成分の一般化加法モデルの提案を行い,予測を主目的とする。 モデルコンポーネントは、応答共変量の関係において、モデルが潜在的に複雑な相互作用効果を捉えるように設計されている。 さらに,本モデルは連続共変量の離散化を必要とせず,多くの共変量の問題に適用できる。 さらに,モデル空間と近似の制約により,モデル成分のモデル選択と評価のための効率的な手順とともに,勾配ブースティングに着想を得たフィッティングアルゴリズムを考案し,時間的コストのかかる計算を高速化した。 モデルがより高次元で現実的な代替となるために絶対必要であるのに加えて、これらの手法は、他のタイプのコプラ回帰モデルのための効率的なモデル選択アルゴリズムを設計する基盤として有用かもしれない。 本研究では,本手法の特性について,特に論理回帰,古典的ブースティングモデル,対数回帰といった自然法と比較したシミュレーション研究で検討した。 ウィスコンシン州の乳がんデータセットとボストンの住宅データセットにも、私たちのアプローチを例示しています。 その結果, 離散共変量の割合が高い場合であっても, 予測性能が他の手法より優れているか同等であることがわかった。

We propose a type of generalised additive models with of model components based on pair-copula constructions, with prediction as a main aim. The model components are designed such that our model may capture potentially complex interaction effects in the relationship between the response covariates. In addition, our model does not require discretisation of continuous covariates, and is therefore suitable for problems with many such covariates. Further, we have designed a fitting algorithm inspired by gradient boosting, as well as efficient procedures for model selection and evaluation of the model components, through constraints on the model space and approximations, that speed up time-costly computations. In addition to being absolutely necessary for our model to be a realistic alternative in higher dimensions, these techniques may also be useful as a basis for designing efficient models selection algorithms for other types of copula regression models. We have explored the characteristics of our method in a simulation study, in particular comparing it to natural alternatives, such as logic regression, classic boosting models and penalised logistic regression. We have also illustrated our approach on the Wisconsin breast cancer dataset and on the Boston housing dataset. The results show that our method has a prediction performance that is either better than or comparable to the other methods, even when the proportion of discrete covariates is high.
翻訳日:2022-08-10 13:08:53 公開日:2022-08-09
# 層注目型雑音耐性ネットワークによる合成開口レーダ画像変化検出

Synthetic Aperture Radar Image Change Detection via Layer Attention-Based Noise-Tolerant Network ( http://arxiv.org/abs/2208.04481v1 )

ライセンス: Link先を確認
Desen Meng, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 近年,畳み込みニューラルネットワーク(cnn)に基づく合成開口レーダ(sar)画像の変更検出手法が研究の注目を集めている。 しかし、既存のCNNベースの手法は多層畳み込みの相互作用を無視し、プリクラス化に関わるエラーはネットワーク最適化を制限する。 そこで我々はlantnetと呼ばれる層注意型雑音耐性ネットワークを提案する。 特に,異なる畳み込み層の特徴を適応的に重み付けするレイヤアテンションモジュールを設計した。 また,ノイズラベルの影響を効果的に抑制するノイズ耐性損失関数の設計を行う。 したがって、モデルが事前分類結果においてノイズラベルに敏感である。 3つのSARデータセットの実験結果から,提案したLANTNetは,いくつかの最先端手法と比較して性能がよいことが示された。 ソースコードはhttps://github.com/summitgao/LANTNetで入手できる。

Recently, change detection methods for synthetic aperture radar (SAR) images based on convolutional neural networks (CNN) have gained increasing research attention. However, existing CNN-based methods neglect the interactions among multilayer convolutions, and errors involved in the preclassification restrict the network optimization. To this end, we proposed a layer attention-based noise-tolerant network, termed LANTNet. In particular, we design a layer attention module that adaptively weights the feature of different convolution layers. In addition, we design a noise-tolerant loss function that effectively suppresses the impact of noisy labels. Therefore, the model is insensitive to noisy labels in the preclassification results. The experimental results on three SAR datasets show that the proposed LANTNet performs better compared to several state-of-the-art methods. The source codes are available at https://github.com/summitgao/LANTNet
翻訳日:2022-08-10 13:03:28 公開日:2022-08-09
# 大規模コンテキストを用いたCTA画像からのキドニー多構造セグメンテーション

Using Large Context for Kidney Multi-Structure Segmentation from CTA Images ( http://arxiv.org/abs/2208.04525v1 )

ライセンス: Link先を確認
Weiwei Cao and Yuzhu Cao(参考訳) 手術ベースの腎癌治療(腹腔鏡下部分腎摘出術など)において, 3D CTAからの多施設(腎臓, 腎房, 動脈, 静脈など)の正確な自動分割が最も重要な課題である。 本稿は,MICCAI 2022 KIPA チャレンジにおける多構造セグメンテーション法の主な技術について概説する。 本論文の主な貢献は,大容量のコンテキスト情報処理機能を備えた3次元UNetを設計することである。 本手法は,MICCAI 2022 KIPA Chal-lengeオープンテストデータセットで8位,平均8.2。 私たちのコードとトレーニングされたモデルは、https://github.com/fengjiejiejiejie/kipa22_nnunetで公開されている。

Accurate and automated segmentation of multi-structure (i.e., kidneys, renal tu-mors, arteries, and veins) from 3D CTA is one of the most important tasks for surgery-based renal cancer treatment (e.g., laparoscopic partial nephrectomy). This paper briefly presents the main technique details of the multi-structure seg-mentation method in MICCAI 2022 KIPA challenge. The main contribution of this paper is that we design the 3D UNet with the large context information cap-turing capability. Our method ranked eighth on the MICCAI 2022 KIPA chal-lenge open testing dataset with a mean position of 8.2. Our code and trained models are publicly available at https://github.com/fengjiejiejiejie/kipa22_nnunet.
翻訳日:2022-08-10 13:03:16 公開日:2022-08-09
# バーチャル・ラーニングにおける学生エンゲージメント測定の不整合性-批判的レビュー

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review ( http://arxiv.org/abs/2208.04548v1 )

ライセンス: Link先を確認
Shehroz S. Khan, Ali Abedi, Tracey Colella(参考訳) 近年,従来の授業の代替として仮想学習が登場している。 仮想学習における学生の関与は、学習目標の達成とプログラムのドロップアウトリスクに大きな影響を与える可能性がある。 仮想学習環境において,学生参加(se)に特化した計測機器が数多く存在する。 この批判的レビューでは、これらの作品を分析し、異なるエンゲージメント定義と測定尺度の観点で矛盾を強調する。 既存の研究者間のこの多様性は、異なるアノテーションを比較し、一般化可能な予測モデルを構築する上で問題となる可能性がある。 エンゲージメントアノテーションや設計上の欠陥という観点でさらに議論する。 既存のseアノテーションスケールを、ソース、アノテーションに使用されるデータモダリティ、アノテーション発生時刻、アノテーション発生の時間ステップ、抽象化のレベル、組み合わせ、定量化など、私たちが定義した7次元のエンゲージメントアノテーションに基づいて分析します。 驚くべき発見の1つは、SE測定のレビューされたデータセットのごく少数が、既存の心理学的に検証されたエンゲージメント尺度をアノテーションに用いたことである。 最後に、仮想学習におけるSEの測定に使える可能性を持つ仮想学習以外のいくつかの設定について論じる。

In recent years, virtual learning has emerged as an alternative to traditional classroom teaching. The engagement of students in virtual learning can have a major impact on meeting learning objectives and program dropout risks. There exist many measurement instruments specifically geared to Student Engagement (SE) in virtual learning environments. In this critical review, we analyze these works and highlight inconsistencies in terms of differing engagement definitions and measurement scales. This diversity among existing researchers could potentially be problematic in comparing different annotations and building generalizable predictive models. We further discuss issues in terms of engagement annotations and design flaws. We analyze the existing SE annotation scales based on our defined seven dimensions of engagement annotation, including sources, data modalities used for annotation, the time when the annotation takes place, the timesteps in which the annotation takes place, level of abstraction, combination, and quantification. One of the surprising findings was that very few of the reviewed datasets on SE measurement used existing psychometrically validated engagement scales in their annotation. Lastly, we discuss some other scales in settings other than virtual learning that have the potential to be used in measuring SE in virtual learning.
翻訳日:2022-08-10 13:03:01 公開日:2022-08-09
# OL-DN:HEVCフレーム内品質向上のためのオンライン学習に基づくデュアルドメインネットワーク

OL-DN: Online learning based dual-domain network for HEVC intra frame quality enhancement ( http://arxiv.org/abs/2208.04661v1 )

ライセンス: Link先を確認
Renwei Yang, Shuyuan Zhu, Xiaozhen Zheng, and Bing Zeng(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく手法は,圧縮画像とビデオの品質向上に有効なソリューションを提供する。 しかし、これらの手法は品質を高めるために生データを無視する。 本稿では,HEVC内符号化画像の品質向上に生データを応用し,オンライン学習手法を提案する。 品質向上を要求された場合には,提案したモデルをエンコーダ側でオンライントレーニングし,パラメータを用いてデコーダ側のモデルを更新する。 この手法はモデルの性能を向上するだけでなく、複数のコーディングシナリオに1つのモデルを適用できるようにする。 さらに、離散コサイン変換(DCT)係数における量子化誤差は、様々なHEVC圧縮アーティファクトの根本原因である。 これにより、周波数領域プリエントを組み合わせて画像再構成を支援する。 我々は,CNN学習に適したDCT係数を生成するために,DCTに基づく畳み込み層を設計する。 実験結果から,提案したオンライン学習ベースデュアルドメインネットワーク(OL-DN)は,最先端手法と比較して優れた性能を示した。

Convolution neural network (CNN) based methods offer effective solutions for enhancing the quality of compressed image and video. However, these methods ignore using the raw data to enhance the quality. In this paper, we adopt the raw data in the quality enhancement for the HEVC intra-coded image by proposing an online learning-based method. When quality enhancement is demanded, we online train our proposed model at encoder side and then use the parameters to update the model of decoder side. This method not only improves model performance, but also makes one model adoptable to multiple coding scenarios. Besides, quantization error in discrete cosine transform (DCT) coefficients is the root cause of various HEVC compression artifacts. Thus, we combine frequency domain priors to assist image reconstruction. We design a DCT based convolution layer, to produce DCT coefficients that are suitable for CNN learning. Experimental results show that our proposed online learning based dual-domain network (OL-DN) has achieved superior performance, compared with the state-of-the-art methods.
翻訳日:2022-08-10 13:02:45 公開日:2022-08-09
# 深部ニューラルネットワークを用いた多重画像に基づく反射除去アルゴリズムの改良

Improved Multiple-Image-Based Reflection Removal Algorithm Using Deep Neural Networks ( http://arxiv.org/abs/2208.04679v1 )

ライセンス: Link先を確認
Tingtian Li, Yuk-Hee Chan, Daniel P.K. Lun(参考訳) ガラスのような半反射媒質を通して撮影する場合、キャプチャー画像には別のシーンの反射がしばしば見られる。 画像の品質を劣化させ、その後の分析に影響を及ぼす。 本稿では,イメージングにおける反射問題を解くための新しいディープニューラルネットワーク手法を提案する。 従来のリフレクション除去法は、異なる最適化関数を解くのに長い計算時間を必要とするだけでなく、その性能も保証されない。 近年の撮像装置ではアレイカメラが容易に利用できるようになったため、まず畳み込みニューラルネットワーク(CNN)を用いた多重画像に基づく深度推定法を提案する。 提案するネットワークは、画像の反射による深度あいまいさの問題を避け、画像エッジに沿った深度を直接推定する。 その後、エッジを背景やリフレクションに属するものと分類するために使用される。 類似した深さ値のエッジは分類においてエラーを起こしやすいため、反射除去プロセスから除去される。 削除した背景エッジを再生するためにGAN(Generative Adversarial Network)を提案する。 最後に、推定された背景エッジマップを別のオートエンコーダネットワークに供給し、元の画像からの背景抽出を支援する。 実験の結果,提案手法は最先端手法と比較して定量的,質的にも優れた性能が得られることがわかった。 また,提案アルゴリズムは従来の最適化手法よりも高速であることを示す。

When imaging through a semi-reflective medium such as glass, the reflection of another scene can often be found in the captured images. It degrades the quality of the images and affects their subsequent analyses. In this paper, a novel deep neural network approach for solving the reflection problem in imaging is presented. Traditional reflection removal methods not only require long computation time for solving different optimization functions, their performance is also not guaranteed. As array cameras are readily available in nowadays imaging devices, we first suggest in this paper a multiple-image based depth estimation method using a convolutional neural network (CNN). The proposed network avoids the depth ambiguity problem due to the reflection in the image, and directly estimates the depths along the image edges. They are then used to classify the edges as belonging to the background or reflection. Since edges having similar depth values are error prone in the classification, they are removed from the reflection removal process. We suggest a generative adversarial network (GAN) to regenerate the removed background edges. Finally, the estimated background edge map is fed to another auto-encoder network to assist the extraction of the background from the original image. Experimental results show that the proposed reflection removal algorithm achieves superior performance both quantitatively and qualitatively as compared to the state-of-the-art methods. The proposed algorithm also shows much faster speed compared to the existing approaches using the traditional optimization methods.
翻訳日:2022-08-10 13:02:30 公開日:2022-08-09
# HRF-Net:スパース入力からのホロスティック放射場

HRF-Net: Holistic Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2208.04717v1 )

ライセンス: Link先を確認
Phong Nguyen-Ha, Lam Huynh, Esa Rahtu, Jiri Matas, Janne Heikkila(参考訳) 本稿では,一組のスパース入力を用いて新しいビューを描画する全体的放射場に基づく新しいビュー合成手法であるHRF-Netを提案する。 近年の一般化ビュー合成法も放射場を利用するが、レンダリング速度はリアルタイムではない。 新規なビューを効率的に訓練しレンダリングできる既存の方法もあるが、見当たらないシーンに一般化することはできない。 本稿では,視覚合成を一般化するためのリアルタイムレンダリングの問題に対処し,総合的放射場予測器と畳み込み型ニューラルレンダラーの2つの主要な段階からなる。 このアーキテクチャは、暗黙のニューラルフィールドに基づく一貫したシーンジオメトリだけでなく、単一のgpuを使用して新しいビューを効率的にレンダリングする。 まず、DTUデータセットの複数の3次元シーンでRF-Netをトレーニングし、このネットワークは、光メトリクス損失のみを使用して、目に見えない実データと合成データに関する、もっともらしい新しいビューを生成することができる。 さらに,単一のシーンのより密集した参照画像を用いて,事前学習したモデルの高速レンダリングを維持しつつ,明示的な表現に頼らずに正確なノベルビューを生成することができる。 実験結果から,HRF-Netは様々な合成および実データに対して,最先端の一般化可能なニューラルレンダリング手法より優れていた。

We present HRF-Net, a novel view synthesis method based on holistic radiance fields that renders novel views using a set of sparse inputs. Recent generalizing view synthesis methods also leverage the radiance fields but the rendering speed is not real-time. There are existing methods that can train and render novel views efficiently but they can not generalize to unseen scenes. Our approach addresses the problem of real-time rendering for generalizing view synthesis and consists of two main stages: a holistic radiance fields predictor and a convolutional-based neural renderer. This architecture infers not only consistent scene geometry based on the implicit neural fields but also renders new views efficiently using a single GPU. We first train HRF-Net on multiple 3D scenes of the DTU dataset and the network can produce plausible novel views on unseen real and synthetics data using only photometric losses. Moreover, our method can leverage a denser set of reference images of a single scene to produce accurate novel views without relying on additional explicit representations and still maintains the high-speed rendering of the pre-trained model. Experimental results show that HRF-Net outperforms state-of-the-art generalizable neural rendering methods on various synthetic and real datasets.
翻訳日:2022-08-10 13:02:09 公開日:2022-08-09
# パラメータ効率の学習によるCNNのCOVID-19 CT分類の改善

Improving COVID-19 CT Classification of CNNs by Learning Parameter-Efficient Representation ( http://arxiv.org/abs/2208.04718v1 )

ライセンス: Link先を確認
Yujia Xu, Hak-Keung Lam, Guangyu Jia, Jian Jiang, Junkai Liao, Xinqi Bao(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で急速に広がり続けており、世界の人間の健康と経済に大きな危機をもたらしている。 その早期発見と診断は、さらなる拡散を制御するために重要である。 深層学習を基盤としたct画像診断による臨床医の診断支援手法が数多く提案されている。 しかし、既存のデータセットにおけるデータの多様性の低さや、ディープラーニングモデルの精度と感度の不足による不十分な検出など、依然として課題が残っている。 データの多様性を高めるため,インクリメンタルレベルの拡張手法を設計し,最大規模のオープンアクセスベンチマークデータセットであるCOVIDx CT-2Aに適用する。 一方、コントラスト学習から派生した類似性正規化(SR)は、CNNがよりパラメータ効率の良い表現を学習できるようにし、CNNの精度と感度を向上させる。 その結果,CNNの性能は,設計した拡張とSR技術を用いることで安定的に向上できることが示された。 特に、DenseNet121 with SRは、正常、非COVID-19肺炎、COVID-19肺炎を含む3つのカテゴリーの分類において、平均99.44%の検査精度を達成している。 また、covid-19肺炎の精度、感度、特異性はそれぞれ98.40%、99.59%、99.50%である。 これらの統計から,本手法は既存のcovid-19 ct-2aデータセットの最先端手法を上回っていることが示唆された。

COVID-19 pandemic continues to spread rapidly over the world and causes a tremendous crisis in global human health and the economy. Its early detection and diagnosis are crucial for controlling the further spread. Many deep learning-based methods have been proposed to assist clinicians in automatic COVID-19 diagnosis based on computed tomography imaging. However, challenges still remain, including low data diversity in existing datasets, and unsatisfied detection resulting from insufficient accuracy and sensitivity of deep learning models. To enhance the data diversity, we design augmentation techniques of incremental levels and apply them to the largest open-access benchmark dataset, COVIDx CT-2A. Meanwhile, similarity regularization (SR) derived from contrastive learning is proposed in this study to enable CNNs to learn more parameter-efficient representations, thus improving the accuracy and sensitivity of CNNs. The results on seven commonly used CNNs demonstrate that CNN performance can be improved stably through applying the designed augmentation and SR techniques. In particular, DenseNet121 with SR achieves an average test accuracy of 99.44% in three trials for three-category classification, including normal, non-COVID-19 pneumonia, and COVID-19 pneumonia. And the achieved precision, sensitivity, and specificity for the COVID-19 pneumonia category are 98.40%, 99.59%, and 99.50%, respectively. These statistics suggest that our method has surpassed the existing state-of-the-art methods on the COVIDx CT-2A dataset.
翻訳日:2022-08-10 13:01:47 公開日:2022-08-09
# トランスモーフィック・ジェネレーション・アドバーサリアン・ネットワークによる生後脳磁気共鳴画像の経時的予測

Longitudinal Prediction of Postnatal Brain Magnetic Resonance Images via a Metamorphic Generative Adversarial Network ( http://arxiv.org/abs/2208.04825v1 )

ライセンス: Link先を確認
Yunzhi Huang, Sahar Ahmad, Luyi Han, Shuai Wang, Zhengwang Wu, Weili Lin, Gang Li, Li Wang, Pew-Thian Yap(参考訳) スキャンの欠如は、被験者の脱落またはスキャンの失敗により、縦断的な研究では避けられない。 本稿では,取得したスキャンの欠落を予測し,乳幼児の縦断的研究に適応する深層学習フレームワークを提案する。 乳児期の脳MRIの予測は、特に初年度の急激なコントラストと構造変化のために困難である。 乳児の脳MRIを1つの時点から別の時点へ翻訳するために,信頼に足る変成生成対向ネットワーク(MGAN)を導入する。 MGANには3つの重要な特徴がある。 一 詳細保存のための空間情報及び周波数情報を利用した画像翻訳 (二)挑戦地域に着目した品質指導型学習戦略 (iii)組織コントラストの翻訳と構造的詳細を改善する多スケールハイブリッド損失関数。 実験の結果,MGANはコントラストと解剖学的詳細の両方を正確に予測することにより,既存のGANよりも優れていた。

Missing scans are inevitable in longitudinal studies due to either subject dropouts or failed scans. In this paper, we propose a deep learning framework to predict missing scans from acquired scans, catering to longitudinal infant studies. Prediction of infant brain MRI is challenging owing to the rapid contrast and structural changes particularly during the first year of life. We introduce a trustworthy metamorphic generative adversarial network (MGAN) for translating infant brain MRI from one time-point to another. MGAN has three key features: (i) Image translation leveraging spatial and frequency information for detail-preserving mapping; (ii) Quality-guided learning strategy that focuses attention on challenging regions. (iii) Multi-scale hybrid loss function that improves translation of tissue contrast and structural details. Experimental results indicate that MGAN outperforms existing GANs by accurately predicting both contrast and anatomical details.
翻訳日:2022-08-10 13:01:22 公開日:2022-08-09
# フェデレート学習の製造業への応用

Application of federated learning in manufacturing ( http://arxiv.org/abs/2208.04664v1 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler, Martin Ruskowski(参考訳) プライベートセクターと業界の両方で、毎分大量のデータが作成されます。 民間のエンターテイメント分野におけるデータの入手は容易であることが多いが、工業生産環境においては、法律、知的財産の保存、その他の要因により、はるかに困難である。 しかし、ほとんどの機械学習手法は量と品質の点で十分なデータソースを必要とする。 両方の要件をまとめる適切な方法は、学習の進捗を集約したフェデレーション学習だが、全員がデータの所有者である。 フェデレート学習は2016年にGoogleの研究者によって初めて提案され、例えばGoogleのキーボードGboardの改良で使用されている。 数十億のアンドロイドユーザーとは対照的に、同等の機械は少数の企業でしか使われていない。 本稿では,生産において他の制約がどの程度有効か,またフェデレートラーニングアプローチがどのような結果になるかを検討する。

A vast amount of data is created every minute, both in the private sector and industry. Whereas it is often easy to get hold of data in the private entertainment sector, in the industrial production environment it is much more difficult due to laws, preservation of intellectual property, and other factors. However, most machine learning methods require a data source that is sufficient in terms of quantity and quality. A suitable way to bring both requirements together is federated learning where learning progress is aggregated, but everyone remains the owner of their data. Federate learning was first proposed by Google researchers in 2016 and is used for example in the improvement of Google's keyboard Gboard. In contrast to billions of android users, comparable machinery is only used by few companies. This paper examines which other constraints prevail in production and which federated learning approaches can be considered as a result.
翻訳日:2022-08-10 12:58:40 公開日:2022-08-09
# 大規模非指向性重み付きネットワークにおける非拘束的対称非負遅延係数解析

An Unconstrained Symmetric Nonnegative Latent Factor Analysis for Large-scale Undirected Weighted Networks ( http://arxiv.org/abs/2208.04811v1 )

ライセンス: Link先を確認
Zhe Xie, Weiling Li, and Yurong Zhong(参考訳) 大規模無向重み付きネットワークは通常、ビッグデータ関連の研究分野に見られる。 ビッグデータ解析タスクを実装するための対称な高次元および不完全行列として自然に定量化することができる。 対称非負の潜在因子分析(SNL)モデルは、SHDI行列から遅延因子(LF)を効率的に抽出することができる。 しかし、制約結合トレーニングスキームに依存しており、柔軟性を欠いている。 本稿では,非拘束性非負の潜在因子分析(USNL)モデルを提案する。 主な考え方は2つある。 1)出力LFは、非負のマッピング関数をSNLモデルに統合することにより決定パラメータから分離される。 2) 確率勾配降下 (sgd) は, 出力lfs非負性を保証するとともに, 非拘束モデルトレーニングを実施する。 実ビッグデータアプリケーションから生成された4つのSHDI行列に関する実証研究は、USNLモデルがSNLモデルよりも欠落データの予測精度が高く、高い競争力を持つ計算効率を実現することを示した。

Large-scale undirected weighted networks are usually found in big data-related research fields. It can naturally be quantified as a symmetric high-dimensional and incomplete (SHDI) matrix for implementing big data analysis tasks. A symmetric non-negative latent-factor-analysis (SNL) model is able to efficiently extract latent factors (LFs) from an SHDI matrix. Yet it relies on a constraint-combination training scheme, which makes it lack flexibility. To address this issue, this paper proposes an unconstrained symmetric nonnegative latent-factor-analysis (USNL) model. Its main idea is two-fold: 1) The output LFs are separated from the decision parameters via integrating a nonnegative mapping function into an SNL model; and 2) Stochastic gradient descent (SGD) is adopted for implementing unconstrained model training along with ensuring the output LFs nonnegativity. Empirical studies on four SHDI matrices generated from real big data applications demonstrate that an USNL model achieves higher prediction accuracy of missing data than an SNL model, as well as highly competitive computational efficiency.
翻訳日:2022-08-10 12:58:27 公開日:2022-08-09
# 意図の基盤:過去の経験を用いた効率的な逆強化学習

Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience ( http://arxiv.org/abs/2208.04919v1 )

ライセンス: Link先を確認
Marwa Abdulhai, Natasha Jaques, Sergey Levine(参考訳) 本稿では,逆強化学習 (irl) の問題点について考察する。 IRLは、見習い学習のための一般化可能でコンパクトな表現を提供し、その支援のために人間の好みを正確に推測することができる。 %となり,より正確な予測が可能となった。 しかし、多くの報酬関数は観察された振る舞いと互換性があるため、効果的なIRLは困難である。 事前強化学習(rl)体験をどのように活用して、これらの好みを迅速かつ効率的に学習できるかに注目した。 本稿では,マルチタスクrlプリトレーニングと後継機能を活用したirlアルゴリズムベース(サンプルからの後継機能インテント推論による獲得)を提案し,エージェントが与えられた領域内の目標の空間にまたがるインテンションの強固な基盤を構築することを可能にする。 新たな目標を最適化する少数の専門家によるデモンストレーションに曝されると、エージェントはその基礎を利用して報酬関数を迅速かつ効果的に推測する。 実験の結果,提案手法は,100トラジェクトリ未満の報酬関数を正確に推定し,報酬関数を推定し,最適化する上で極めて有効であることが判明した。

This paper addresses the problem of inverse reinforcement learning (IRL) -- inferring the reward function of an agent from observing its behavior. IRL can provide a generalizable and compact representation for apprenticeship learning, and enable accurately inferring the preferences of a human in order to assist them. %and provide for more accurate prediction. However, effective IRL is challenging, because many reward functions can be compatible with an observed behavior. We focus on how prior reinforcement learning (RL) experience can be leveraged to make learning these preferences faster and more efficient. We propose the IRL algorithm BASIS (Behavior Acquisition through Successor-feature Intention inference from Samples), which leverages multi-task RL pre-training and successor features to allow an agent to build a strong basis for intentions that spans the space of possible goals in a given domain. When exposed to just a few expert demonstrations optimizing a novel goal, the agent uses its basis to quickly and effectively infer the reward function. Our experiments reveal that our method is highly effective at inferring and optimizing demonstrated reward functions, accurately inferring reward functions from less than 100 trajectories.
翻訳日:2022-08-10 12:58:13 公開日:2022-08-09
# ニューラルネットワークのスペクトルバイアスの活性化関数依存性について

On the Activation Function Dependence of the Spectral Bias of Neural Networks ( http://arxiv.org/abs/2208.04924v1 )

ライセンス: Link先を確認
Qingguo Hong and Qinyang Tan and Jonathan W. Siegel and Jinchao Xu(参考訳) ニューラルネットワークは、劇的に過パラメータ化されているにもかかわらず、よく一般化することが知られている普遍関数近似器である。 我々は,ニューラルネットワークのスペクトルバイアスの観点からこの現象を研究する。 私たちの貢献は2倍です。 まず,有限要素法の理論との接続を利用して,reluニューラルネットワークのスペクトルバイアスの理論的な説明を行う。 第二に、この理論に基づいて、活性化関数を一方向に線形なB-スプライン、すなわちハット関数に切り替えると、このスペクトルバイアスを除去し、様々な設定で実験的に検証する。 また,ハット活性化関数を持つニューラルネットワークは,確率的勾配降下とadamを用いて有意に高速に学習できることを示した。 Hatアクティベーション関数が画像分類タスクの一般化精度も向上することを示す以前の研究と組み合わせて、Hatアクティベーションの使用は特定の問題においてReLUに対して大きな利点をもたらすことを示している。

Neural networks are universal function approximators which are known to generalize well despite being dramatically overparameterized. We study this phenomenon from the point of view of the spectral bias of neural networks. Our contributions are two-fold. First, we provide a theoretical explanation for the spectral bias of ReLU neural networks by leveraging connections with the theory of finite element methods. Second, based upon this theory we predict that switching the activation function to a piecewise linear B-spline, namely the Hat function, will remove this spectral bias, which we verify empirically in a variety of settings. Our empirical studies also show that neural networks with the Hat activation function are trained significantly faster using stochastic gradient descent and ADAM. Combined with previous work showing that the Hat activation function also improves generalization accuracy on image classification tasks, this indicates that using the Hat activation provides significant advantages over the ReLU on certain problems.
翻訳日:2022-08-10 12:57:53 公開日:2022-08-09
# シーケンスモデリングのための簡易状態空間層

Simplified State Space Layers for Sequence Modeling ( http://arxiv.org/abs/2208.04933v1 )

ライセンス: Link先を確認
Jimmy T.H. Smith, Andrew Warrington, and Scott W. Linderman(参考訳) 長距離依存関係の効率的なモデリングは、シーケンスモデリングの重要な目標である。 近年、構造化状態空間列(S4)層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成した。 S4層は線形状態空間モデル(SSM)とディープラーニング技術を組み合わせて、オンライン関数近似にHiPPOフレームワークを活用して高性能を実現する。 しかし、このフレームワークはアーキテクチャ上の制約と計算上の困難をもたらし、s4アプローチの理解と実装を複雑にした。 ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。 具体的には、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMに置き換える。 MIMOシステムの潜在次元を小さくすることで、S5層をシーケンス・ツー・シーケンス変換として適用するのに必要な計算を単純化する効率的な並列スキャンが利用可能となる。 さらに、S4のSSMが使用するHiPPO-LegS行列に近似したS5 SSMの状態行列を初期化し、これがMIMO設定の効果的な初期化となることを示す。 S5は、S4の80.48%と最高の変圧器の61.41%と比較して、Long Range Arenaベンチマークのスイートで平均82.46%を達成するなど、長距離タスクにおけるS4のパフォーマンスと一致している。

Efficiently modeling long-range dependencies is an important goal in sequence modeling. Recently, models using structured state space sequence (S4) layers achieved state-of-the-art performance on many long-range tasks. The S4 layer combines linear state space models (SSMs) with deep learning techniques and leverages the HiPPO framework for online function approximation to achieve high performance. However, this framework led to architectural constraints and computational difficulties that make the S4 approach complicated to understand and implement. We revisit the idea that closely following the HiPPO framework is necessary for high performance. Specifically, we replace the bank of many independent single-input, single-output (SISO) SSMs the S4 layer uses with one multi-input, multi-output (MIMO) SSM with a reduced latent dimension. The reduced latent dimension of the MIMO system allows for the use of efficient parallel scans which simplify the computations required to apply the S5 layer as a sequence-to-sequence transformation. In addition, we initialize the state matrix of the S5 SSM with an approximation to the HiPPO-LegS matrix used by S4's SSMs and show that this serves as an effective initialization for the MIMO setting. S5 matches S4's performance on long-range tasks, including achieving an average of 82.46% on the suite of Long Range Arena benchmarks compared to S4's 80.48% and the best transformer variant's 61.41%.
翻訳日:2022-08-10 12:57:36 公開日:2022-08-09
# レコメンダシステムにおける長期ユーザ満足のための強化学習によるマルチタスクフュージョン

Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems ( http://arxiv.org/abs/2208.04560v1 )

ライセンス: Link先を確認
Qihua Zhang, Junning Liu, Yuzhuo Dai, Yiyan Qi, Yifan Yuan, Kunlun Zheng, Fan Huang, Xianfeng Tan(参考訳) recommender system(rs)は、毎日数十億のユーザーに影響を与える重要なオンラインアプリケーションである。 メインストリームのRSランキングフレームワークは、様々なユーザフィードバックを予測するMTL(Multi-Task Learning Model)と、マルチタスク出力をユーザ満足度に関する最終的なランキングスコアに組み合わせたMTF(Multi-Task Fusion Model)の2つの部分で構成されている。 融合モデルに関する多くの研究は行われていないが、最終勧告はランキングの最終決定的なプロセスとして大きな影響を与えている。 本稿では,MTFタスクを推薦セッションにおいてマルコフ決定プロセス(MDP)として定式化し,バッチRLフレームワークとオンライン探索を含むバッチ強化学習(RL)ベースのマルチタスクフュージョンフレームワーク(BatchRL-MTF)を提案する。 前者はBatch RLを利用して、長期ユーザー満足のためにオフラインで固定バッチデータから最適なレコメンデーションポリシーを学習し、後者はオンラインの高価値アクションを探索して、ローカルの最適ジレンマを突破する。 ユーザの行動に関する包括的調査により,ユーザ定着性とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙なヒューリスティックでモデル化する。 最後に、モデルの有効性を示すために、数十億サンプルレベルの実世界のデータセットを広範囲に実験する。 オフラインでモデルをテストするための保守的オフラインポリシー推定器(Conservative-OPEstimator)を提案する。 さらに,異なるモデルの性能を比較するために,オンライン実験を実際のレコメンデーション環境で実施する。 MTFタスクに適用された数少ないバッチRL研究の1つとして、当社のモデルは大規模産業用ショートビデオプラットフォームにもデプロイされ、数億人のユーザにサービスを提供しています。

Recommender System (RS) is an important online application that affects billions of users every day. The mainstream RS ranking framework is composed of two parts: a Multi-Task Learning model (MTL) that predicts various user feedback, i.e., clicks, likes, sharings, and a Multi-Task Fusion model (MTF) that combines the multi-task outputs into one final ranking score with respect to user satisfaction. There has not been much research on the fusion model while it has great impact on the final recommendation as the last crucial process of the ranking. To optimize long-term user satisfaction rather than obtain instant returns greedily, we formulate MTF task as Markov Decision Process (MDP) within a recommendation session and propose a Batch Reinforcement Learning (RL) based Multi-Task Fusion framework (BatchRL-MTF) that includes a Batch RL framework and an online exploration. The former exploits Batch RL to learn an optimal recommendation policy from the fixed batch data offline for long-term user satisfaction, while the latter explores potential high-value actions online to break through the local optimal dilemma. With a comprehensive investigation on user behaviors, we model the user satisfaction reward with subtle heuristics from two aspects of user stickiness and user activeness. Finally, we conduct extensive experiments on a billion-sample level real-world dataset to show the effectiveness of our model. We propose a conservative offline policy estimator (Conservative-OPEstimator) to test our model offline. Furthermore, we take online experiments in a real recommendation environment to compare performance of different models. As one of few Batch RL researches applied in MTF task successfully, our model has also been deployed on a large-scale industrial short video platform, serving hundreds of millions of users.
翻訳日:2022-08-10 12:57:08 公開日:2022-08-09
# 信頼度aiの評価におけるコンセンサス獲得のための文埋め込みと意味的類似性の利用

Using Sentence Embeddings and Semantic Similarity for Seeking Consensus when Assessing Trustworthy AI ( http://arxiv.org/abs/2208.04608v1 )

ライセンス: Link先を確認
Dennis Vetter, Jesmin Jahan Tithi, Magnus Westerlund, Roberto V. Zicari, Gemma Roig(参考訳) 人工知能システムの信頼性を評価するには、さまざまな分野の知識が必要である。 これらの分野は必ずしも概念を共有しておらず、異なる意味を持つ単語を使うこともあるし、同じ単語を使うこともある。 さらに、異なる分野の専門家は、他の分野で容易に使われる専門用語に気付いていないかもしれない。 したがって、評価プロセスの核となる課題は、異なる分野の専門家が同じ問題について語るとき、異なる用語を使うときを特定することである。 言い換えれば、問題は同じ意味を持つ問題記述(つまり問題)をグループ化することであるが、少し異なる用語を用いて記述する。 本研究では, 自然言語処理の最近の進歩, すなわち文埋め込みと意味的テキスト類似性を用いて, この識別プロセスをサポートし, 医療に使用される人工知能システムの信頼性を評価する専門家チーム間のコミュニケーションギャップを埋める方法について述べる。

Assessing the trustworthiness of artificial intelligence systems requires knowledge from many different disciplines. These disciplines do not necessarily share concepts between them and might use words with different meanings, or even use the same words differently. Additionally, experts from different disciplines might not be aware of specialized terms readily used in other disciplines. Therefore, a core challenge of the assessment process is to identify when experts from different disciplines talk about the same problem but use different terminologies. In other words, the problem is to group problem descriptions (a.k.a. issues) with the same semantic meaning but described using slightly different terminologies. In this work, we show how we employed recent advances in natural language processing, namely sentence embeddings and semantic textual similarity, to support this identification process and to bridge communication gaps in interdisciplinary teams of experts assessing the trustworthiness of an artificial intelligence system used in healthcare.
翻訳日:2022-08-10 12:56:36 公開日:2022-08-09
# deephider: 言語モデルのためのマルチモジュールおよび可視性透かしスキーム

DeepHider: A Multi-module and Invisibility Watermarking Scheme for Language Model ( http://arxiv.org/abs/2208.04676v1 )

ライセンス: Link先を確認
Long Dai, Jiarong Mao, Xuefeng Fan, Xiaoyi Zhou(参考訳) 自然言語処理(NLP)技術の急速な発展に伴い、NLPモデルはビジネスにおいて大きな経済的価値を示してきた。 しかし、所有者のモデルは海賊による再分配の脅威に弱いため、モデル所有者と消費者の対称性を損なう。 したがって、対称性が壊れないようにモデル保護機構が必要である。 現在、ブラックボックス検証に基づく言語モデル保護スキームは、人や異常検知器で容易に検出できるトリガーサンプルの可視性の観点からは不十分であり、検証の妨げとなる。 そこで本稿では,オーナシップ検証のためのトリガレスモードのトリガサンプルを提案する。 さらに、泥棒は、特定の分類タスクを満たし、モデルに存在する透かしを除去するために、透かし付きモデルの分類モジュールを置き換えることができる。 そこで本研究では,モデル分類モジュールを置換し,モデルのグローバルな微調整を行う新たな脅威を提案し,ホワイトボックスアプローチによるモデルオーナシップの検証に成功した。 一方、盗難の所有権ステートメントを防ぐために、改ざんやトレーサビリティといったブロックチェーンの特性を使用します。 実験により,提案手法はモデルの原性能に影響を与えず,100%透かし検証精度でオーナシップの検証に成功し,強い堅牢性と低い偽トリガー率を有することがわかった。

With the rapid development of natural language processing (NLP) technology, NLP models have shown great economic value in business. However, the owner's models are vulnerable to the threat of pirated redistribution, which breaks the symmetry relationship between model owners and consumers. Therefore, a model protection mechanism is needed to keep the symmetry from being broken. Currently, language model protection schemes based on black-box verification perform poorly in terms of invisibility of trigger samples, which are easily detected by humans or anomaly detectors and thus prevent verification. To solve this problem, this paper proposes a trigger sample of the triggerless mode for ownership verification. In addition, a thief may replace the classification module for a watermarked model to satisfy its specific classification task and remove the watermark present in the model. Therefore, this paper further proposes a new threat of replacing the model classification module and performing global fine-tuning of the model, and successfully verifies the model ownership through a white-box approach. Meanwhile, we use the properties of blockchain such as tamper-proof and traceability to prevent the ownership statement of thieves. Experiments show that the proposed scheme successfully verifies ownership with 100% watermark verification accuracy without affecting the original performance of the model, and has strong robustness and low False trigger rate.
翻訳日:2022-08-10 12:56:22 公開日:2022-08-09
# グラフクエリへの接続検索の統合

Integrating connection search in graph queries ( http://arxiv.org/abs/2208.04802v1 )

ライセンス: Link先を確認
Angelos Christos Anadiotis and Ioana Manolescu and Madhulika Mohanty(参考訳) グラフデータ管理とクエリには多くの実用的応用がある。 グラフが非常に異質で、あるいはユーザがその構造に精通していない場合、ユーザが接続を記述できない場合でも、2つ以上のノード群がグラフでどのように接続されているかを見つける必要がある。 これは、パスを検索できる既存のクエリ言語でのみサポートされているが、3つ以上のノードグループを接続するツリーについてはサポートされていない。 後者はNP-hard Group Steiner Tree問題と関連しており、以前はデータベース内のキーワード検索として検討されていた。 本稿では、sparqlやcypherといったグラフクエリ言語に木パターン(ctp、略してctp)を結合する方法を正式に示し、拡張クエリ言語(あるいはeql、略してeql)へと導く方法を示す。 次に,ctp評価のための一連のアルゴリズムについて検討し,最も重要となる先行キーワード検索作業を一般化する。 (i)双方向のエッジトラバーサル及び (ii)ctp結果のランク付けには任意のスコア関数を選択できる。 非常に大きな探索空間に対処するため,我々は効率的な刈り込み手法を提案し,我々のアルゴリズムMOLESPがプルーニングでも完備しているケースの集合を正式に確立する。 我々のCTPおよびEQL評価アルゴリズムの性能を、大規模な合成および実世界のワークロードで検証した。

Graph data management and querying has many practical applications. When graphs are very heterogeneous and/or users are unfamiliar with their structure, they may need to find how two or more groups of nodes are connected in a graph, even when users are not able to describe the connections. This is only partially supported by existing query languages, which allow searching for paths, but not for trees connecting three or more node groups. The latter is related to the NP-hard Group Steiner Tree problem, and has been previously considered for keyword search in databases. In this work, we formally show how to integrate connecting tree patterns (CTPs, in short) within a graph query language such as SPARQL or Cypher, leading to an Extended Query Language (or EQL, in short). We then study a set of algorithms for evaluating CTPs; we generalize prior keyword search work, most importantly by (i) considering bidirectional edge traversal and (ii) allowing users to select any score function for ranking CTP results. To cope with very large search spaces, we propose an efficient pruning technique and formally establish a large set of cases where our algorithm, MOLESP, is complete even with pruning. Our experiments validate the performance of our CTP and EQL evaluation algorithms on a large set of synthetic and real-world workloads.
翻訳日:2022-08-10 12:55:58 公開日:2022-08-09
# タイのWav2Vec2.0とCommonVoice V8

Thai Wav2Vec2.0 with CommonVoice V8 ( http://arxiv.org/abs/2208.04799v1 )

ライセンス: Link先を確認
Wannaphong Phatthiyaphaibun, Chompakorn Chaksangchaichot, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Sarana Nutanong(参考訳) 近年,音声をテキストに変換する自動音声認識(ASR)が,機械学習コミュニティで注目を集めている。 したがって、多くの公開モデルがHuggingFaceでリリースされた。 しかし、これらのasrモデルのほとんどは英語で利用可能であり、タイでは少数のモデルのみが利用可能である。 さらに、タイのASRモデルのほとんどはクローズドソースであり、既存のオープンソースモデルのパフォーマンスは堅牢性に欠ける。 この問題に対処するため,タイの共通VoiceコーパスV8を用いて事前学習したXLSR-Wav2Vecモデル上で新しいASRモデルをトレーニングし,ASRモデルの性能を高めるためにトリグラム言語モデルを訓練する。 タイの個人やasrコミュニティにとって、私たちのモデルが有益になることを願っています。

Recently, Automatic Speech Recognition (ASR), a system that converts audio into text, has caught a lot of attention in the machine learning community. Thus, a lot of publicly available models were released in HuggingFace. However, most of these ASR models are available in English; only a minority of the models are available in Thai. Additionally, most of the Thai ASR models are closed-sourced, and the performance of existing open-sourced models lacks robustness. To address this problem, we train a new ASR model on a pre-trained XLSR-Wav2Vec model with the Thai CommonVoice corpus V8 and train a trigram language model to boost the performance of our ASR model. We hope that our models will be beneficial to individuals and the ASR community in Thailand.
翻訳日:2022-08-10 12:55:36 公開日:2022-08-09
# 深層学習に基づく骨肉腫化学療法の適応評価と予後予測

Deep Learning-Based Objective and Reproducible Osteosarcoma Chemotherapy Response Assessment and Outcome Prediction ( http://arxiv.org/abs/2208.04910v1 )

ライセンス: Link先を確認
David Joon Ho, Narasimhan P. Agaram, Marc-Henri Jean, Stephanie D. Suser, Cynthia Chu, Chad M. Vanderbilt, Paul A. Meyers, Leonard H. Wexler, John H. Healey, Thomas J. Fuchs, Meera R. Hameed(参考訳) 骨肉腫は最も一般的な原発性骨癌であり,術前化学療法を施行し切除した。 化学療法反応は予後予測や患者のさらなる管理に使用される。 壊死率を壊死腫瘍と全身腫瘍の比率として定義した切除標本の組織学的スライスから壊死を定期的に評価する。 壊死比 >=90% の患者はより良い結果が得られることが知られている。 複数のガラススライドからの壊死比のマニュアル顕微鏡による評価は半定量的であり, 生体内および生体内変動が可能である。 そこで本研究では,スキャンしたヘマトキシリンとエオシンの全スライド画像から得られる壊死率を推定するための,客観的かつ再現可能な深層学習に基づくアプローチを提案する。 深層学習モデルの訓練,壊死率の評価,結果予測のために,3134 WSIの骨肉腫103例を収集した。 深部マルチマグニフィケーションネットワークを訓練し,生存可能な腫瘍や壊死性腫瘍を含む複数の組織サブタイプをピクセルレベルで分割し,複数のwsisから症例レベル壊死率を算出した。 偏位モデルにより推定された壊死比は,4.4%,4.5%,および17.8%と,第4級(100%),第III級(>=90%),第II級(>=50%),第2級(<90%)の平均絶対差がそれぞれ4.4%,第4級,第17.8%であった。 p=10^-6で全生存率,p=0.012で無生存率を予測できた。 可変性のない再現可能なアプローチにより、特にモデルとデータセットのカットオフしきい値を、OSの80%、PSSの60%に調整することが可能になりました。 本研究は, 病理組織から骨肉腫を解析し, 治療効果を評価し, 患者の予後を予測する客観的ツールとして, 深層学習が有用であることを示す。

Osteosarcoma is the most common primary bone cancer whose standard treatment includes pre-operative chemotherapy followed by resection. Chemotherapy response is used for predicting prognosis and further management of patients. Necrosis is routinely assessed post-chemotherapy from histology slides on resection specimens where necrosis ratio is defined as the ratio of necrotic tumor to overall tumor. Patients with necrosis ratio >=90% are known to have better outcome. Manual microscopic review of necrosis ratio from multiple glass slides is semi-quantitative and can have intra- and inter-observer variability. We propose an objective and reproducible deep learning-based approach to estimate necrosis ratio with outcome prediction from scanned hematoxylin and eosin whole slide images. We collected 103 osteosarcoma cases with 3134 WSIs to train our deep learning model, to validate necrosis ratio assessment, and to evaluate outcome prediction. We trained Deep Multi-Magnification Network to segment multiple tissue subtypes including viable tumor and necrotic tumor in pixel-level and to calculate case-level necrosis ratio from multiple WSIs. We showed necrosis ratio estimated by our segmentation model highly correlates with necrosis ratio from pathology reports manually assessed by experts where mean absolute differences for Grades IV (100%), III (>=90%), and II (>=50% and <90%) necrosis response are 4.4%, 4.5%, and 17.8%, respectively. We successfully stratified patients to predict overall survival with p=10^-6 and progression-free survival with p=0.012. Our reproducible approach without variability enabled us to tune cutoff thresholds, specifically for our model and our data set, to 80% for OS and 60% for PFS. Our study indicates deep learning can support pathologists as an objective tool to analyze osteosarcoma from histology for assessing treatment response and predicting patient outcome.
翻訳日:2022-08-10 12:53:43 公開日:2022-08-09
# tsrformer: トランスフォーマによるテーブル構造認識

TSRFormer: Table Structure Recognition with Transformers ( http://arxiv.org/abs/2208.04921v1 )

ライセンス: Link先を確認
Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo(参考訳) 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。 従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,テーブル画像からの分離線を直接予測するために,新しい二段階分離子予測手法である \textbf{sep}arator \textbf{re}gression \textbf{tr}ansformer (sepretr)を提案する。 2段階のDETRフレームワークを効率的かつ効果的に分離ライン予測タスクに適用するために,2つの改良点を提案する。 1) detrのゆっくりとした収束問題を解決するための事前のマッチング戦略 2) 高分解能畳み込み特徴マップから特徴をサンプリングするための新しいクロスアテンションモジュールは,低計算コストで高い局所化精度を達成する。 分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。 これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセット上で最先端のパフォーマンスを達成する。 さらに、複雑な構造、境界のないセル、大きな空白の空間、空またはスパンのセル、さらにはより困難な実世界のデータセット上で歪んだ、あるいは曲がった形状を持つテーブルへのアプローチの堅牢性も検証しました。

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage DETR based separator prediction approach, dubbed \textbf{Sep}arator \textbf{RE}gression \textbf{TR}ansformer (SepRETR), to predict separation lines from table images directly. To make the two-stage DETR framework work efficiently and effectively for the separation line prediction task, we propose two improvements: 1) A prior-enhanced matching strategy to solve the slow convergence issue of DETR; 2) A new cross attention module to sample features from a high-resolution convolutional feature map directly so that high localization accuracy is achieved with low computational cost. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet and WTW. Furthermore, we have validated the robustness of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.
翻訳日:2022-08-10 12:53:06 公開日:2022-08-09
# 動作予測に制約付き復号を用いたasr誤り訂正

ASR Error Correction with Constrained Decoding on Operation Prediction ( http://arxiv.org/abs/2208.04641v1 )

ライセンス: Link先を確認
Jingyuan Yang, Rongjun Li, Wei Peng(参考訳) 誤り訂正技術は、自動音声認識(ASR)モデルから出力を洗練するのに有効である。 エンコーダ・デコーダアーキテクチャに基づく既存のエンドツーエンドエラー訂正手法は、デコードフェーズ内のすべてのトークンを処理し、望ましくないレイテンシを生成する。 本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。 より具体的には、エンコーダとデコーダの間に予測器を構築し、トークンを保持すべきかどうか("K", deleted"D", changed"C")を学習し、高速な推論のために入力シーケンス埋め込み("C"トークン)の一部にデコードを制限する。 3つの公開データセットの実験は、ASR補正における復号プロセスの遅延を低減するための提案手法の有効性を示す。 提案した2つのモデルの精度(WERの0.53%と1.69%)を、固体エンコーダ-デコーダベースラインと比較しながら、少なくとも3倍(3.4倍と5.7倍)の推論速度を向上する。 その間、我々はASRエラー修正コミュニティに貢献するベンチマークデータセットを作成し、リリースし、この線に沿って研究を促進する。

Error correction techniques remain effective to refine outputs from automatic speech recognition (ASR) models. Existing end-to-end error correction methods based on an encoder-decoder architecture process all tokens in the decoding phase, creating undesirable latency. In this paper, we propose an ASR error correction method utilizing the predictions of correction operations. More specifically, we construct a predictor between the encoder and the decoder to learn if a token should be kept ("K"), deleted ("D"), or changed ("C") to restrict decoding to only part of the input sequence embeddings (the "C" tokens) for fast inference. Experiments on three public datasets demonstrate the effectiveness of the proposed approach in reducing the latency of the decoding process in ASR correction. It enhances the inference speed by at least three times (3.4 and 5.7 times) while maintaining the same level of accuracy (with WER reductions of 0.53% and 1.69% respectively) for our two proposed models compared to a solid encoder-decoder baseline. In the meantime, we produce and release a benchmark dataset contributing to the ASR error correction community to foster research along this line.
翻訳日:2022-08-10 12:52:10 公開日:2022-08-09
# 脳波復号のための3要素SVD型マニフォールド最適化による最小二乗回帰

Partial Least Square Regression via Three-factor SVD-type Manifold Optimization for EEG Decoding ( http://arxiv.org/abs/2208.04324v1 )

ライセンス: Link先を確認
Wanguang Yin, Zhichao Liang, Jianguo Zhang, Quanying Liu(参考訳) 部分最小二乗回帰 (PLSR) は、独立変数と依存変数からの潜在因子の線形関係を明らかにするために広く用いられる統計モデルである。 しかし、plsrモデルを解く伝統的なメソッドである \ql{ は通常ユークリッド空間に基づいており、局所的な最小値に固定される。 そこで本研究では,双グラスマン多様体 (PLSRbiGr) の最適化により最小二乗回帰を解く手法を提案する。 まず、双グラスマン多様体上で定義される交叉共分散行列の3要素SVD型分解を利用し、直交制約付き最適化問題を双グラスマン多様体上の非制約最適化問題に変換し、その後、行列スケーリングのリーマン事前条件を組み込んで各反復においてリーマン計量を規制する。 運動画像(MI)における脳波信号をデコードするための様々な実験と、定常的視覚誘発電位(SSVEP)タスクにより、ql{PLSRbiGrが検証される。 実験の結果、PLSRbiGrは複数のEEGデコーディングタスクにおいて競合するアルゴリズムよりも優れており、小さなサンプルデータ学習を大幅に促進することが示された。

Partial least square regression (PLSR) is a widely-used statistical model to reveal the linear relationships of latent factors that comes from the independent variables and dependent variables. However, traditional methods \ql{ to solve PLSR models are usually based on the Euclidean space, and easily getting} stuck into a local minimum. To this end, we propose a new method to solve the partial least square regression, named PLSR via optimization on bi-Grassmann manifold (PLSRbiGr). \ql{Specifically, we first leverage} the three-factor SVD-type decomposition of the cross-covariance matrix defined on the bi-Grassmann manifold, converting the orthogonal constrained optimization problem into an unconstrained optimization problem on bi-Grassmann manifold, and then incorporate the Riemannian preconditioning of matrix scaling to regulate the Riemannian metric in each iteration. \ql{PLSRbiGr is validated} with a variety of experiments for decoding EEG signals at motor imagery (MI) and steady-state visual evoked potential (SSVEP) task. Experimental results demonstrate that PLSRbiGr outperforms competing algorithms in multiple EEG decoding tasks, which will greatly facilitate small sample data learning.
翻訳日:2022-08-10 12:51:48 公開日:2022-08-09
# モチーフに基づくグラフ表現学習と化学分子への応用

Motif-based Graph Representation Learning with Application to Chemical Molecules ( http://arxiv.org/abs/2208.04529v1 )

ライセンス: Link先を確認
Yifei Wang, Shiyang Chen, Guobin Chen, Ethan Shurberg, Hang Liu, Pengyu Hong(参考訳) 本研究は,representation learning on the attributed relational graph (arg) の課題を考察する。 ARGのノードとエッジは属性/機能に関連付けられており、ARGは実際のアプリケーションで広く見られる豊富な構造情報をエンコードすることができる。 既存のグラフニューラルネットワークは、局所的な構造的コンテキスト内の複雑な相互作用をキャプチャする能力に制限を与えており、ARGの表現力を活用するのを妨げる。 局所構造情報をよりよく活用するためのモチーフベースのグラフ表現学習技術であるMotif Convolution Module (MCM)を提案する。 連続エッジとノード機能を扱う能力は、既存のモチーフベースのモデルよりもCMMの利点の1つだ。 MCMは、教師なしの方法でモチーフ語彙を構築し、新しいモチーフ畳み込み操作をデプロイし、個々のノードの局所的な構造的コンテキストを抽出し、グラフニューラルネットワークにおいて多層パーセプトロンおよび/またはメッセージパッシングを介して高レベルのノード表現を学習する。 合成グラフを分類する他のグラフ学習アプローチと比較すると、構造的文脈を捉えるのに非常に優れている。 また、いくつかの分子ベンチマークに適用することで、アプローチの性能と説明可能性の利点を示す。

This work considers the task of representation learning on the attributed relational graph (ARG). Both the nodes and edges in an ARG are associated with attributes/features allowing ARGs to encode rich structural information widely observed in real applications. Existing graph neural networks offer limited ability to capture complex interactions within local structural contexts, which hinders them from taking advantage of the expression power of ARGs. We propose Motif Convolution Module (MCM), a new motif-based graph representation learning technique to better utilize local structural information. The ability to handle continuous edge and node features is one of MCM's advantages over existing motif-based models. MCM builds a motif vocabulary in an unsupervised way and deploys a novel motif convolution operation to extract the local structural context of individual nodes, which is then used to learn higher-level node representations via multilayer perceptron and/or message passing in graph neural networks. When compared with other graph learning approaches to classifying synthetic graphs, our approach is substantially better in capturing structural context. We also demonstrate the performance and explainability advantages of our approach by applying it to several molecular benchmarks.
翻訳日:2022-08-10 12:50:00 公開日:2022-08-09
# LAMDA-SSL: Pythonでの半教師付き学習

LAMDA-SSL: Semi-Supervised Learning in Python ( http://arxiv.org/abs/2208.04610v1 )

ライセンス: Link先を確認
Lin-Han Jia, Lan-Zhe Guo, Zhi Zhou, Yu-Feng Li(参考訳) LAMDA-SSLはGitHubでオープンソース公開されている。 このドキュメンテーションでは、様々な側面からLAMDA-SSLを詳細に紹介し、4つの部分に分けられる。 最初のパートでは、LAMDA-SSLの設計アイデア、機能、機能を紹介します。 第2部では、LAMDA-SSLの使用例を詳しく説明している。 第3部では、ユーザがSSLアルゴリズムを素早く理解し、選択できるように、LAMDA-SSLによって実装されたすべてのアルゴリズムを紹介している。 第4部は、LAMDA-SSLのAPIを示している。 この詳細なドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。

LAMDA-SSL is open-sourced on GitHub and its detailed usage documentation is available at https://ygzwqzd.github.io/LAMDA-SSL/. This documentation introduces LAMDA-SSL in detail from various aspects and can be divided into four parts. The first part introduces the design idea, features and functions of LAMDA-SSL. The second part shows the usage of LAMDA-SSL by abundant examples in detail. The third part introduces all algorithms implemented by LAMDA-SSL to help users quickly understand and choose SSL algorithms. The fourth part shows the APIs of LAMDA-SSL. This detailed documentation greatly reduces the cost of familiarizing users with LAMDA-SSL toolkit and SSL algorithms.
翻訳日:2022-08-10 12:49:40 公開日:2022-08-09
# AMANv2とDPC-CaptionsV2を用いた画像の美的属性評価

Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 ( http://arxiv.org/abs/2208.04522v1 )

ライセンス: Link先を確認
Xinghui Zhou, Xin Jin, Jianwen Lv, Heng Huang, Ming Mao, Shuai Cui(参考訳) 画像美的品質評価は過去10年間に人気がある。 画像の一般的な美的印象を記述するため,自然言語評価(審美的キャプション)が提案されている。 本稿では, 審美的属性のキャプションである審美的属性アセスメントを提案し, 構成, 照明使用量, 色調などの審美的属性を評価する。 美的属性のコメントをラベル付けするのは非自明な作業であり、対応するデータセットの規模を制限している。 DPC-CaptionsV2という新しいデータセットを半自動で構築する。 知識は、完全なアノテーションを備えた小規模データセットから、写真webサイトからの大規模専門家コメントに転送される。 DPC-CaptionsV2の画像には、合成、照明、色、主題の4つの美的属性を含む。 次に,BUTDモデルとVLPSAモデルに基づくAesthetic Multi-Attributes Networks (AMANv2) の新バージョンを提案する。 AMANv2は、フルアノテーション付き小規模PCCDデータセットとフルアノテーション付き大規模DPCCaptionsV2データセットを混合した機能を融合している。 DPCCaptionsV2の実験結果から,従来のAMANモデルよりも美的トピックに近い4つの美的属性に対するコメントを予測できることが示唆された。 画像キャプションの評価基準により、特別に設計されたAMANv2モデルは、CNN-LSTMモデルとAMANモデルより優れている。

Image aesthetic quality assessment is popular during the last decade. Besides numerical assessment, nature language assessment (aesthetic captioning) has been proposed to describe the generally aesthetic impression of an image. In this paper, we propose aesthetic attribute assessment, which is the aesthetic attributes captioning, i.e., to assess the aesthetic attributes such as composition, lighting usage and color arrangement. It is a non-trivial task to label the comments of aesthetic attributes, which limit the scale of the corresponding datasets. We construct a novel dataset, named DPC-CaptionsV2, by a semi-automatic way. The knowledge is transferred from a small-scale dataset with full annotations to large-scale professional comments from a photography website. Images of DPC-CaptionsV2 contain comments up to 4 aesthetic attributes: composition, lighting, color, and subject. Then, we propose a new version of Aesthetic Multi-Attributes Networks (AMANv2) based on the BUTD model and the VLPSA model. AMANv2 fuses features of a mixture of small-scale PCCD dataset with full annotations and large-scale DPCCaptionsV2 dataset with full annotations. The experimental results of DPCCaptionsV2 show that our method can predict the comments on 4 aesthetic attributes, which are closer to aesthetic topics than those produced by the previous AMAN model. Through the evaluation criteria of image captioning, the specially designed AMANv2 model is better to the CNN-LSTM model and the AMAN model.
翻訳日:2022-08-10 12:46:39 公開日:2022-08-09
# 粒子フィルタによるゼブラフィッシュのマルチターゲットトラッキング

Multi-target Tracking of Zebrafish based on Particle Filter ( http://arxiv.org/abs/2208.04553v1 )

ライセンス: Link先を確認
Heng Cong, Mingzhu Sun, Duoying Zhou, Xin Zhao(参考訳) ゼブラフィッシュは優れたモデル生物であり、生物実験、薬物スクリーニング、群れ知能の分野で広く利用されている。 近年、行動研究に関わるゼブラフィッシュの追跡技術が数多く存在しており、多くの分野から科学者の注目を集めている。 zebrafishのマルチターゲットトラッキングは依然として多くの課題に直面している。 高機動性と不確実性は、その運動を予測するのが難しく、類似した外観とテクスチャの特徴は、外観モデルを確立するのが困難である。 本稿では,粒子フィルタを用いて運動の不確かさを近似する。 Firstly, by analyzing the motion characteristics of zebrafish, we establish an efficient hybrid motion model to predict its positions; then we establish an appearance model based on the predicted positions to predict the postures of every targets, meanwhile weigh the particles by comparing the difference of predicted pose and observation pose ; finally, we get the optimal position of single zebrafish through the weighted position, and use the joint particle filter to process trajectory linking of multiple zebrafish.

Zebrafish is an excellent model organism, which has been widely used in the fields of biological experiments, drug screening, and swarm intelligence. In recent years, there are a large number of techniques for tracking of zebrafish involved in the study of behaviors, which makes it attack much attention of scientists from many fields. Multi-target tracking of zebrafish is still facing many challenges. The high mobility and uncertainty make it difficult to predict its motion; the similar appearances and texture features make it difficult to establish an appearance model; it is even hard to link the trajectories because of the frequent occlusion. In this paper, we use particle filter to approximate the uncertainty of the motion. Firstly, by analyzing the motion characteristics of zebrafish, we establish an efficient hybrid motion model to predict its positions; then we establish an appearance model based on the predicted positions to predict the postures of every targets, meanwhile weigh the particles by comparing the difference of predicted pose and observation pose ; finally, we get the optimal position of single zebrafish through the weighted position, and use the joint particle filter to process trajectory linking of multiple zebrafish.
翻訳日:2022-08-10 12:46:19 公開日:2022-08-09
# アナログビデオリンクにおける電磁干渉誘起画像ノイズの分類

Classification of electromagnetic interference induced image noise in an analog video link ( http://arxiv.org/abs/2208.04614v1 )

ライセンス: Link先を確認
Anthony Purcell and Ciar\'an Eising(参考訳) 車両の電気化は、撤退の兆しを示さないため、自動車アプリケーションに配備された電子システムは、近くの電子システムの近接が動作に影響を与えないように、これまで以上に厳しい電磁免疫コンプライアンスの制約を受ける。 アナログカメラリンクのEMIコンプライアンステストでは、このようなコンプライアンスを検証するためにビデオ品質を監視および評価する必要がある。 人間の解釈の性質から、これは矛盾の余地がある。 本稿では、EMIコンプライアンステストから得られたビデオコンテンツを分析・評価するディープラーニングモデルを用いたソリューションを提案する。 これらのモデルは、実際のテスト画像データから完全に構築されたデータセットを使用してトレーニングされ、結果のモデル(s)の精度が最大になる。 標準AlexNetから、EMIノイズレベルを分類する4つのモデルを提案する。

With the ever-increasing electrification of the vehicle showing no sign of retreating, electronic systems deployed in automotive applications are subject to more stringent Electromagnetic Immunity compliance constraints than ever before, to ensure the proximity of nearby electronic systems will not affect their operation. The EMI compliance testing of an analog camera link requires video quality to be monitored and assessed to validate such compliance, which up to now, has been a manual task. Due to the nature of human interpretation, this is open to inconsistency. Here, we propose a solution using deep learning models that analyse, and grade video content derived from an EMI compliance test. These models are trained using a dataset built entirely from real test image data to ensure the accuracy of the resultant model(s) is maximised. Starting with the standard AlexNet, we propose four models to classify the EMI noise level
翻訳日:2022-08-10 12:46:02 公開日:2022-08-09
# ウェーブレットに基づく正規化流を伴う黒色腫の効率的な分布外検出

Efficient Out-of-Distribution Detection of Melanoma with Wavelet-based Normalizing Flows ( http://arxiv.org/abs/2208.04639v1 )

ライセンス: Link先を確認
M.M. Amaan Valiuddin, Christiaan G.A. Viviers, Ruud J.G. van Sloun, Peter H.N. de With and Fons van der Sommen(参考訳) メラノーマは皮膚がんの重篤な形態であり、後期に死亡率が高い。 早期発見時には悪性黒色腫の予後が良好であり,悪性黒色腫の発生率も比較的低い。 その結果、データセットは極めて不均衡であり、最先端の教師付きAIモデルのトレーニングが複雑になる。 本稿では, 生成モデルを用いて良性データ分布を学習し, 密度推定による悪性画像の検出を提案する。 正規化フロー(英: normalizing flow, nfs)は、正確な可能性を計算する能力があるため、ood検出の理想的な候補である。 それでも、意味的文脈よりも視覚的特徴に対する帰納的バイアスは、正確なOOD検出を妨げる。 本研究ではメラノーマの領域レベルの知識を用いてこれらのバイアスを用いて悪性画像のOOD検出の可能性を改善することを目的とする。 NFsを用いた悪性黒色腫のOOD検出の可能性を示した。 本研究では,ウェーブレット型nfsを用いて受信機動作特性の曲線下面積を9\%増加させる。 このモデルは、エッジデバイスにもっと適用できるように、推論のパラメータを著しく少なくする。 提案手法は,皮膚がん患者の診断に役立ち,生存率を継続的に向上させる。 さらにこの研究は、同様のデータ不均衡問題を持つオンコロジーの他の分野への道を開くものだ。footnote{code at https://github.com/a-vzer/waveletflowpytorch}

Melanoma is a serious form of skin cancer with high mortality rate at later stages. Fortunately, when detected early, the prognosis of melanoma is promising and malignant melanoma incidence rates are relatively low. As a result, datasets are heavily imbalanced which complicates training current state-of-the-art supervised classification AI models. We propose to use generative models to learn the benign data distribution and detect Out-of-Distribution (OOD) malignant images through density estimation. Normalizing Flows (NFs) are ideal candidates for OOD detection due to their ability to compute exact likelihoods. Nevertheless, their inductive biases towards apparent graphical features rather than semantic context hamper accurate OOD detection. In this work, we aim at using these biases with domain-level knowledge of melanoma, to improve likelihood-based OOD detection of malignant images. Our encouraging results demonstrate potential for OOD detection of melanoma using NFs. We achieve a 9\% increase in Area Under Curve of the Receiver Operating Characteristics by using wavelet-based NFs. This model requires significantly less parameters for inference making it more applicable on edge devices. The proposed methodology can aid medical experts with diagnosis of skin-cancer patients and continuously increase survival rates. Furthermore, this research paves the way for other areas in oncology with similar data imbalance issues\footnote{Code available at: https://github.com/A-Vzer/WaveletFlowPytorch}
翻訳日:2022-08-10 12:45:48 公開日:2022-08-09
# 視覚トランスフォーマー(vts)は非自然画像領域にどの程度転送できるか? 美術分類に関する実証的研究

How Well Do Vision Transformers (VTs) Transfer To The Non-Natural Image Domain? An Empirical Study Involving Art Classification ( http://arxiv.org/abs/2208.04693v1 )

ライセンス: Link先を確認
Vincent Tonkes and Matthia Sabatelli(参考訳) 視覚変換器(VT)は、画像などの高次元および空間的に整理された入力に関わる問題に関して、畳み込みニューラルネットワーク(CNN)の代替として有用なものになりつつある。 しかしながら、それらのトランスファーラーニング(TL)特性はまだ十分に研究されておらず、これらのニューラルアーキテクチャがCNNと同様に異なるドメイン間で転送できるかどうかは完全には分かっていない。 本稿では、人気のあるImageNetデータセット上で事前訓練されたVTが、非自然な画像領域に転送可能な表現を学習するかどうかを検討する。 そこで我々は,3つのよく研究された美術分類問題を考察し,これらを4つのVTのTLポテンシャルの研究の代用として利用する。 これらの性能は、いくつかのTL実験において4つの一般的なCNNと比較される。 その結果,vtは強い一般化特性を示し,これらのネットワークはcnnよりも強力な特徴抽出器であることがわかった。

Vision Transformers (VTs) are becoming a valuable alternative to Convolutional Neural Networks (CNNs) when it comes to problems involving high-dimensional and spatially organized inputs such as images. However, their Transfer Learning (TL) properties are not yet well studied, and it is not fully known whether these neural architectures can transfer across different domains as well as CNNs. In this paper we study whether VTs that are pre-trained on the popular ImageNet dataset learn representations that are transferable to the non-natural image domain. To do so we consider three well-studied art classification problems and use them as a surrogate for studying the TL potential of four popular VTs. Their performance is extensively compared against that of four common CNNs across several TL experiments. Our results show that VTs exhibit strong generalization properties and that these networks are more powerful feature extractors than CNNs.
翻訳日:2022-08-10 12:45:28 公開日:2022-08-09
# 属性比較による画像の美的言語指導

Aesthetic Language Guidance Generation of Images Using Attribute Comparison ( http://arxiv.org/abs/2208.04740v1 )

ライセンス: Link先を確認
Xin Jin, Qiang Deng, Jianwen Lv, Heng Huang, Hao Lou, Chaoen Xiao(参考訳) モバイル写真技術の活発な発展に伴い、大手携帯電話メーカーは、機器の撮影能力とソフトウェアの写真美化アルゴリズムの改善に躍起になっている。 しかし、インテリジェントな機器やアルゴリズムの改善は、人間の主観的写真技術を置き換えることはできない。 本稿では,画像の美的言語ガイダンス(ALG)を提案する。 alg を alg-t と alg-i に分割し, 誘導規則が写真テンプレートや誘導画像に基づいているか否かについて検討した。 alg-tであれalg-iであれ、画像の色、照明、構成の3つの属性から撮影を導く。 aesthetic natural language guidance (alg) である自然言語において、入力画像と写真テンプレートまたはガイダンス画像の3つの属性の違いを述べる。 また、ランドスケープ画像とポートレート画像の照明と構成の違いから、入力画像はランドスケープ画像とポートレート画像に分割する。 ALG-TとALG-Iは2種類の入力画像(ランドスケープ画像とポートレート画像)に対してそれぞれ美的言語指導を行う。

With the vigorous development of mobile photography technology, major mobile phone manufacturers are scrambling to improve the shooting ability of equipments and the photo beautification algorithm of software. However, the improvement of intelligent equipments and algorithms cannot replace human subjective photography technology. In this paper, we propose the aesthetic language guidance of image (ALG). We divide ALG into ALG-T and ALG-I according to whether the guiding rules are based on photography templates or guidance images. Whether it is ALG-T or ALG-I, we guide photography from three attributes of color, lighting and composition of the images. The differences of the three attributes between the input images and the photography templates or the guidance images are described in natural language, which is aesthetic natural language guidance (ALG). Also, because of the differences in lighting and composition between landscape images and portrait images, we divide the input images into landscape images and portrait images. Both ALG-T and ALG-I conduct aesthetic language guidance respectively for the two types of input images (landscape images and portrait images).
翻訳日:2022-08-10 12:45:03 公開日:2022-08-09
# セマンティクスセグメンテーション支援インスタンス特徴融合によるマルチレベル3d部分インスタンスセグメンテーション

Semantic Segmentation-Assisted Instance Feature Fusion for Multi-Level 3D Part Instance Segmentation ( http://arxiv.org/abs/2208.04766v1 )

ライセンス: Link先を確認
Chunyu Sun, Xin Tong, Yang Liu(参考訳) 3Dポイントクラウドから3D部分インスタンスを認識することは、3D構造とシーン理解に不可欠である。 いくつかの学習ベースのアプローチでは、セマンティックセグメンテーションとインスタンスセンター予測をトレーニングタスクとして使用し、形状セマンティクスと部分インスタンスの関係をさらに活用することができない。 本稿では,3次元部分インスタンスセグメンテーションのための新しい手法を提案する。 提案手法は, セマンティックセグメンテーションを利用して, 中心予測などの非局所的なインスタンス特徴を融合し, マルチレベル・クロスレベルの融合スキームをさらに強化する。 また,インスタンスポイントのクラスタリングを改善するために,予測結果を訓練し活用するための意味領域中心予測タスクを提案する。 提案手法は,PartNetベンチマークで大きく改善された既存手法よりも優れている。 また,提案手法を他の既存手法に適用することで,屋内シーンインスタンスセグメンテーションタスクの性能を向上させることができることを示した。

Recognizing 3D part instances from a 3D point cloud is crucial for 3D structure and scene understanding. Several learning-based approaches use semantic segmentation and instance center prediction as training tasks and fail to further exploit the inherent relationship between shape semantics and part instances. In this paper, we present a new method for 3D part instance segmentation. Our method exploits semantic segmentation to fuse nonlocal instance features, such as center prediction, and further enhances the fusion scheme in a multi- and cross-level way. We also propose a semantic region center prediction task to train and leverage the prediction results to improve the clustering of instance points. Our method outperforms existing methods with a large-margin improvement in the PartNet benchmark. We also demonstrate that our feature fusion scheme can be applied to other existing methods to improve their performance in indoor scene instance segmentation tasks.
翻訳日:2022-08-10 12:44:47 公開日:2022-08-09
# HyperNST: ニューラルスタイル転送のためのハイパーネットワーク

HyperNST: Hyper-Networks for Neural Style Transfer ( http://arxiv.org/abs/2208.04807v1 )

ライセンス: Link先を確認
Dan Ruta, Andrew Gilbert, Saeid Motiian, Baldo Faieta, Zhe Lin, and John Collomosse(参考訳) 我々はHyper-networksとStyleGAN2アーキテクチャに基づく画像の芸術的スタイリングのためのニューラルスタイル転送(NST)技術であるHyperNSTを提案する。 本研究は,スタイルベースビジュアルサーチ(sbvs)用に事前学習した距離空間によってパラメータ化されたスタイル転送を誘導する新しい手法である。 SBVSシステムからのスタイルの応用と補間を可能にするため,このような空間をNSTの駆動に利用することができることを示す。 技術的コントリビューションはハイパーネットワークであり、多彩な芸術的コンテンツ(ポートレート)で事前訓練されたStyleGAN2への重み付けを予測し、顔領域のセマンティックマップを使用して、領域ごとのスタイルパラメータ化を調整する。 スタイル転送性能は良好でありながら, コンテンツ保存におけるHyperNSTは, コンテンツ保存の最先端を超越していることを示す。

We present HyperNST; a neural style transfer (NST) technique for the artistic stylization of images, based on Hyper-networks and the StyleGAN2 architecture. Our contribution is a novel method for inducing style transfer parameterized by a metric space, pre-trained for style-based visual search (SBVS). We show for the first time that such space may be used to drive NST, enabling the application and interpolation of styles from an SBVS system. The technical contribution is a hyper-network that predicts weight updates to a StyleGAN2 pre-trained over a diverse gamut of artistic content (portraits), tailoring the style parameterization on a per-region basis using a semantic map of the facial regions. We show HyperNST to exceed state of the art in content preservation for our stylized content while retaining good style transfer performance.
翻訳日:2022-08-10 12:44:30 公開日:2022-08-09
# 大規模データを用いたスポーツビデオ解析

Sports Video Analysis on Large-Scale Data ( http://arxiv.org/abs/2208.04897v1 )

ライセンス: Link先を確認
Dekun Wu and He Zhao and Xingce Bao and Richard P. Wildes(参考訳) 本稿では,近年,スポーツビデオにおける自動機械記述のモデル化について検討する。 しかし、最先端のアプローチは、人間の専門家がスポーツシーンをどのように分析するかを捉えていない。 1) 使用済みデータセットは非公式プロバイダから収集され,それらのデータセットと実世界のアプリケーションで訓練されたモデル間のギャップを自然に生み出す。(2) これまで提案された手法は,有効な視覚的特徴をローカライズして許容可能な結果を得る上で,広範なアノテーション(例えば,ピクセルレベルでのプレーヤとボールセグメンテーション)を必要とする。 本稿では,これらの課題に対処するために,キャプションに着目したスポーツビデオ解析のためのNBAデータセットを提案する。 また,raw動画を最小限のラベル付け作業で有意義な機能スタックに処理するための統一的なアプローチも設計し,トランスフォーマーアーキテクチャを用いたクロスモデリングが強力なパフォーマンスをもたらすことを示した。 さらに, nsvaの応用事例として, 細粒度スポーツアクション認識とプレーヤ識別という2つの課題について紹介する。 コードとデータセットはhttps://github.com/jackwu502/NSVAで入手できる。

This paper investigates the modeling of automated machine description on sports video, which has seen much progress recently. Nevertheless, state-of-the-art approaches fall quite short of capturing how human experts analyze sports scenes. There are several major reasons: (1) The used dataset is collected from non-official providers, which naturally creates a gap between models trained on those datasets and real-world applications; (2) previously proposed methods require extensive annotation efforts (i.e., player and ball segmentation at pixel level) on localizing useful visual features to yield acceptable results; (3) very few public datasets are available. In this paper, we propose a novel large-scale NBA dataset for Sports Video Analysis (NSVA) with a focus on captioning, to address the above challenges. We also design a unified approach to process raw videos into a stack of meaningful features with minimum labelling efforts, showing that cross modeling on such features using a transformer architecture leads to strong performance. In addition, we demonstrate the broad application of NSVA by addressing two additional tasks, namely fine-grained sports action recognition and salient player identification. Code and dataset are available at https://github.com/jackwu502/NSVA.
翻訳日:2022-08-10 12:44:11 公開日:2022-08-09
# 日本語のテクストエンターメントと類似性に関する構成的評価

Compositional Evaluation on Japanese Textual Entailment and Similarity ( http://arxiv.org/abs/2208.04826v1 )

ライセンス: Link先を確認
Hitomi Yanaka and Koji Mineshima(参考訳) 自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。 言語普遍論への関心が高まっているが、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。 特に,日本語の多言語NLI/STSデータセットは存在せず,言語モデルの現在議論の的になっている振る舞いを,語順や格助詞の感度などの問題に光を当てることができる。 このような背景から,日本語NLI/STSデータセットであるJSICKを英語データセットSICKから手動で翻訳した。 また、JSICKにおける文の統語構造を変換し、言語モデルが単語順や格助詞に敏感であるかどうかを調べることで、合成推論のためのストレステストデータセットを提案する。 各種事前学習言語モデルのベースライン実験を行い、日本語や他の言語に適用した場合の多言語モデルの性能を比較した。 ストレステスト実験の結果,既存の事前学習言語モデルは単語順やケースマーキングに敏感であることが示唆された。

Natural Language Inference (NLI) and Semantic Textual Similarity (STS) are widely used benchmark tasks for compositional evaluation of pre-trained language models. Despite growing interest in linguistic universals, most NLI/STS studies have focused almost exclusively on English. In particular, there are no available multilingual NLI/STS datasets in Japanese, which is typologically different from English and can shed light on the currently controversial behavior of language models in matters such as sensitivity to word order and case particles. Against this background, we introduce JSICK, a Japanese NLI/STS dataset that was manually translated from the English dataset SICK. We also present a stress-test dataset for compositional inference, created by transforming syntactic structures of sentences in JSICK to investigate whether language models are sensitive to word order and case particles. We conduct baseline experiments on different pre-trained language models and compare the performance of multilingual models when applied to Japanese and other languages. The results of the stress-test experiments suggest that the current pre-trained language models are insensitive to word order and case marking.
翻訳日:2022-08-10 12:41:13 公開日:2022-08-09
# グラフマッチングによるポイントクラウド意味セグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Point Cloud Semantic Segmentation via Graph Matching ( http://arxiv.org/abs/2208.04510v1 )

ライセンス: Link先を確認
Yikai Bian, Le Hui, Jianjun Qian and Jin Xie(参考訳) ポイントクラウドセマンティックセグメンテーションのための教師なしドメイン適応は、ラベルなしデータによる学習の有効性から注目されている。 既存の手法の多くは、ソースドメインからターゲットドメインへの知識伝達にグローバルレベルの特徴アライメントを使用しており、特徴空間のセマンティックな曖昧さを引き起こす可能性がある。 本稿では,この2つのドメイン間の局所的な機能アライメントを探索するためのグラフベースのフレームワークを提案する。 具体的には、まず、ローカルレベルの特徴を抽出するために、まず、両方のドメインに局所的な特徴グラフを動的に構築し、ソースドメインからグラフを持つメモリバンクを構築する。 特に、グラフマッチングペアを生成するのに最適なトランスポートを使用する。 次に、代入行列に基づいて、2つのドメイン間の特徴分布をグラフベースの局所的特徴損失と整合させることができる。 さらに,異なるカテゴリの特徴間の相関を考慮し,カテゴリー誘導型コントラスト損失を定式化し,セグメンテーションモデルを誘導し,対象領域における識別的特徴を学習する。 合成・実・実・実領域適応シナリオの多種多様な実験により,本手法が最先端の性能を達成できることが実証された。

Unsupervised domain adaptation for point cloud semantic segmentation has attracted great attention due to its effectiveness in learning with unlabeled data. Most of existing methods use global-level feature alignment to transfer the knowledge from the source domain to the target domain, which may cause the semantic ambiguity of the feature space. In this paper, we propose a graph-based framework to explore the local-level feature alignment between the two domains, which can reserve semantic discrimination during adaptation. Specifically, in order to extract local-level features, we first dynamically construct local feature graphs on both domains and build a memory bank with the graphs from the source domain. In particular, we use optimal transport to generate the graph matching pairs. Then, based on the assignment matrix, we can align the feature distributions between the two domains with the graph-based local feature loss. Furthermore, we consider the correlation between the features of different categories and formulate a category-guided contrastive loss to guide the segmentation model to learn discriminative features on the target domain. Extensive experiments on different synthetic-to-real and real-to-real domain adaptation scenarios demonstrate that our method can achieve state-of-the-art performance.
翻訳日:2022-08-10 12:38:16 公開日:2022-08-09
# 審美的強化学習による属性制御可能な美しいコーカサス顔生成

Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement Learning ( http://arxiv.org/abs/2208.04517v1 )

ライセンス: Link先を確認
Xin Jin, Shu Zhao, Le Zhang, Xin Zhao, Qiang Deng, Chaoen Xiao(参考訳) 近年、画像生成は画像の品質向上に大いに貢献し、忠実度の高い画像を生成するようになった。 また、最近になって、ganが異なる層で表される意味的属性を教師なしに学習できるアーキテクチャ設計が登場した。 しかし、人間の美学とより整合した顔画像の生成に関する研究はいまだに不足している。 EigenGAN [He et al., ICCV 2021]をベースとして、EigenGANのジェネレータへの強化学習技術を構築した。 エージェントは、生成した人間の顔のセマンティックな属性を、より好ましいものへ変更する方法を見つけようとする。 これを実現するために,顔面美容予測を行う美学スコアリングモデルをトレーニングした。 また、このスコアリングモデルを用いて、顔の属性と美学のスコアの相関を分析する。 実証的には、強化学習の既製技術はうまくいかなかった。 そこで本研究では,近年の強化学習コミュニティに出現する材料を取り入れた新しいバリエーションを提案する。 原画像と比較すると, 調整された画像は, 様々な属性について明瞭な特徴を示す。 MindSpore を用いた実験の結果,提案手法の有効性が示された。 修正された顔画像は一般的に魅力的で、審美レベルが大幅に改善されている。

In recent years, image generation has made great strides in improving the quality of images, producing high-fidelity ones. Also, quite recently, there are architecture designs, which enable GAN to unsupervisedly learn the semantic attributes represented in different layers. However, there is still a lack of research on generating face images more consistent with human aesthetics. Based on EigenGAN [He et al., ICCV 2021], we build the techniques of reinforcement learning into the generator of EigenGAN. The agent tries to figure out how to alter the semantic attributes of the generated human faces towards more preferable ones. To accomplish this, we trained an aesthetics scoring model that can conduct facial beauty prediction. We also can utilize this scoring model to analyze the correlation between face attributes and aesthetics scores. Empirically, using off-the-shelf techniques from reinforcement learning would not work well. So instead, we present a new variant incorporating the ingredients emerging in the reinforcement learning communities in recent years. Compared to the original generated images, the adjusted ones show clear distinctions concerning various attributes. Experimental results using the MindSpore, show the effectiveness of the proposed method. Altered facial images are commonly more attractive, with significantly improved aesthetic levels.
翻訳日:2022-08-10 12:37:54 公開日:2022-08-09
# パラメトリックPDEにおける前方・逆問題に対する深い確率モデル

Deep Probabilistic Models for Forward and Inverse Problems in Parametric PDEs ( http://arxiv.org/abs/2208.04856v1 )

ライセンス: Link先を確認
Arnaud Vadeboncoeur, \"Omer Deniz Akyildiz, Ieva Kazlauskaite, Mark Girolami, Fehmi Cirak(参考訳) パラメトリック偏微分方程式(PDE)のパラメータ・ツー・ソリューション(前方)と解・パラメータ(逆)の写像を学習するために,物理駆動型ディープ・潜在変数モデル(PDDLVM)のクラスを定式化する。 我々の定式化は、有限要素法(FEM)、ディープニューラルネットワーク、確率的モデリングを利用して、フォワードと逆写像をコヒーレント不確実性定量化で近似する深い確率的枠組みを組み立てる。 我々の確率モデルはパラメトリックpdeに基づく密度と学習可能な解からパラメータへのネットワークを明示的に組み込むが、導入された不定形変分系はパラメータから解へのネットワークを仮定する。 さらに,提案手法は高価なPDE解を必要とせず,実時間PDEのエミュレーションと学習後の逆問題解の生成を可能とし,FEM法に匹敵する精度でFEM法を解く必要をなくすことができる。 提案フレームワークにより,逆問題と生成モデル構築のための観測データのシームレスな統合が可能になる。 本稿では, 非線形ポアソン問題, 複雑な3次元幾何学を持つ弾性殻, および汎用物理インフォームドニューラルネットワーク(PINN)アーキテクチャの統合について述べる。 従来型のFEMソルバに比べて最大3桁の高速化を実現し,コヒーレントな不確実性推定を出力した。

We formulate a class of physics-driven deep latent variable models (PDDLVM) to learn parameter-to-solution (forward) and solution-to-parameter (inverse) maps of parametric partial differential equations (PDEs). Our formulation leverages the finite element method (FEM), deep neural networks, and probabilistic modeling to assemble a deep probabilistic framework in which the forward and inverse maps are approximated with coherent uncertainty quantification. Our probabilistic model explicitly incorporates a parametric PDE-based density and a trainable solution-to-parameter network while the introduced amortized variational family postulates a parameter-to-solution network, all of which are jointly trained. Furthermore, the proposed methodology does not require any expensive PDE solves and is physics-informed only at training time, which allows real-time emulation of PDEs and generation of inverse problem solutions after training, bypassing the need for FEM solve operations with comparable accuracy to FEM solutions. The proposed framework further allows for a seamless integration of observed data for solving inverse problems and building generative models. We demonstrate the effectiveness of our method on a nonlinear Poisson problem, elastic shells with complex 3D geometries, and integrating generic physics-informed neural networks (PINN) architectures. We achieve up to three orders of magnitude speed-ups after training compared to traditional FEM solvers, while outputting coherent uncertainty estimates.
翻訳日:2022-08-10 12:34:58 公開日:2022-08-09
# Neural-Rendezvous:学習に基づく星間物体のロバスト誘導と制御

Neural-Rendezvous: Learning-based Robust Guidance and Control to Encounter Interstellar Objects ( http://arxiv.org/abs/2208.04883v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto, Soon-Jo Chung, Benjamin Donitz, Michel Ingham, Declan Mages, Yashwanth Kumar Nakka(参考訳) 恒星間天体(ISO、英: Interstellar objects)は、太陽系外惑星系を理解する上で貴重な原始物質であると考えられている。 しかし、一般に高い傾斜と相対速度を持つ制約の少ない軌道のため、従来の人軌道アプローチによるisoの探索は極めて困難である。 本稿では,ISOを含む高速移動物体にリアルタイムに遭遇するための,ディープラーニングに基づくガイダンスおよび制御フレームワークであるNeural-Rendezvousを提案する。 スペクトル正規化ディープニューラルネットワークによってモデル化された誘導ポリシーの上に、ポイントワイズ最小ノルムトラッキング制御を使用しており、ハイパーパラメータは、状態追跡エラーを直接ペナルティ化する新しく導入された損失関数とチューニングされる。 私たちは、ISO探査の難しい場合であっても、Neural-Rendezvousが提供していることを厳格に示します。 1) 期待される宇宙船の配送誤差に対する高い確率指数的拘束、及び 2) モデル予測制御の解に関する有限最適性ギャップは, どちらも特に重要な宇宙ミッションにおいて不可欠である。 数値シミュレーションでは、Neural-Rendezvousはリアルタイム実装に十分な計算効率を維持しながら、現実的な状態不確実性を持つISO候補の99%に対して0.2km未満の終端配達誤差を達成する。

Interstellar objects (ISOs), astronomical objects not gravitationally bound to the Sun, are likely representatives of primitive materials invaluable in understanding exoplanetary star systems. Due to their poorly constrained orbits with generally high inclinations and relative velocities, however, exploring ISOs with conventional human-in-the-loop approaches is significantly challenging. This paper presents Neural-Rendezvous -- a deep learning-based guidance and control framework for encountering any fast-moving objects, including ISOs, robustly, accurately, and autonomously in real-time. It uses pointwise minimum norm tracking control on top of a guidance policy modeled by a spectrally-normalized deep neural network, where its hyperparameters are tuned with a newly introduced loss function directly penalizing the state trajectory tracking error. We rigorously show that, even in the challenging case of ISO exploration, Neural-Rendezvous provides 1) a high probability exponential bound on the expected spacecraft delivery error; and 2) a finite optimality gap with respect to the solution of model predictive control, both of which are indispensable especially for such a critical space mission. In numerical simulations, Neural-Rendezvous is demonstrated to achieve a terminal-time delivery error of less than 0.2 km for 99% of the ISO candidates with realistic state uncertainty, whilst retaining computational efficiency sufficient for real-time implementation.
翻訳日:2022-08-10 12:34:28 公開日:2022-08-09
# 談話関係における同義語と異義語の分析--解釈可能なモデリングアプローチ

The Analysis of Synonymy and Antonymy in Discourse Relations: An interpretable Modeling Approach ( http://arxiv.org/abs/2208.04479v1 )

ライセンス: Link先を確認
A. Reig-Alamillo, D. Torres-Moreno, E. Morales-Gonz\'alez, M. Toledo-Acosta, A. Taroni, J. Hermosillo-Valadez(参考訳) 言論関係は明示的な内容を通じて解釈され、生産者と通訳者の間で共有された、あるいは暗黙の知識は、言論研究や言語学において普遍的である。 しかし、議論の語彙的意味論の実際の貢献は不明である。 PDTBコーパスにおけるコントラストおよび譲歩関係の解析に対する計算手法を提案する。 我々の研究は、語彙的意味論が明示的および暗黙的な会話関係の伝達に寄与する程度に光を当て、両方の音声の異なる部分の寄与を明らかにする。 本研究は,コーパス言語学と計算言語学のギャップを埋めるために,議論の同義性と異義性に基づく言論関係の透明かつ説明可能なモデルを提案する。

The idea that discourse relations are construed through explicit content and shared, or implicit, knowledge between producer and interpreter is ubiquitous in discourse research and linguistics. However, the actual contribution of the lexical semantics of arguments is unclear. We propose a computational approach to the analysis of contrast and concession relations in the PDTB corpus. Our work sheds light on the extent to which lexical semantics contributes to signaling explicit and implicit discourse relations and clarifies the contribution of different parts of speech in both. This study contributes to bridging the gap between corpus linguistics and computational linguistics by proposing transparent and explainable models of discourse relations based on the synonymy and antonymy of their arguments.
翻訳日:2022-08-10 12:33:17 公開日:2022-08-09
# HateXplainとBERTによるヘイトスピーチ検出の探索

Exploring Hate Speech Detection with HateXplain and BERT ( http://arxiv.org/abs/2208.04489v1 )

ライセンス: Link先を確認
Arvind Subramaniam, Aryan Mehra and Sayani Kundu(参考訳) ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。 HateXplainは、注釈付きスパンを合理性の形で使用するための、最近公開された最初のデータセットであり、音声分類カテゴリや、対象とするコミュニティによって、分類をより人間らしく、説明可能で、正確で、バイアスの少ないものにしている。 このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、精度、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。 私たちの目新しさは3倍です。 まず,重要度値の異なる合理性クラス損失について実験を行った。 第二に、根拠となる真理の注意値を理論的に実験する。 保守的かつ寛大な注意の導入により,hatxplainにおけるモデルのパフォーマンスを比較し,仮説を検証した。 第3に,モデル内の意図しないバイアスを改善するために,対象とするコミュニティ語をマスキングし,バイアスと説明可能性指標の改善に留意する。 全体として、モデルの説明可能性、バイアス除去、およびオリジナルのBERT実装の漸進的な改善を実現しています。

Hate Speech takes many forms to target communities with derogatory comments, and takes humanity a step back in societal progress. HateXplain is a recently published and first dataset to use annotated spans in the form of rationales, along with speech classification categories and targeted communities to make the classification more humanlike, explainable, accurate and less biased. We tune BERT to perform this task in the form of rationales and class prediction, and compare our performance on different metrics spanning across accuracy, explainability and bias. Our novelty is threefold. Firstly, we experiment with the amalgamated rationale class loss with different importance values. Secondly, we experiment extensively with the ground truth attention values for the rationales. With the introduction of conservative and lenient attentions, we compare performance of the model on HateXplain and test our hypothesis. Thirdly, in order to improve the unintended bias in our models, we use masking of the target community words and note the improvement in bias and explainability metrics. Overall, we are successful in achieving model explanability, bias removal and several incremental improvements on the original BERT implementation.
翻訳日:2022-08-10 12:33:03 公開日:2022-08-09
# ネストされた名前付きエンティティ認識のための恥ずかしいが強いベースライン

An Embarrassingly Easy but Strong Baseline for Nested Named Entity Recognition ( http://arxiv.org/abs/2208.04534v1 )

ライセンス: Link先を確認
Hang Yan, Yu Sun, Xiaonan Li, Xipeng Qiu(参考訳) 名前付きエンティティ認識(NER)は、テキスト中のエンティティを検出し分類するタスクである。 エンティティが相互に重複する場合、この問題はネストされたNERと呼ばれる。 Spanベースの手法はネストしたNERに取り組むために広く使われている。 これらのメソッドのほとんどはスコア $n \times n$ matrix を得るが、ここでは$n$ は文の長さを意味し、各エントリはスパンに対応する。 しかし、以前の研究はスコア行列の空間関係を無視している。 本稿では,これらの空間関係をスコア行列でモデル化するために,畳み込みニューラルネットワーク(CNN)を提案する。 単純ではあるが、3つのネストされたNERデータセットの実験により、我々のモデルは、同じトレーニング済みエンコーダを持つ、最近提案されたいくつかのメソッドを超えることが示されている。 さらに分析すると、CNNを使うことでネストしたエンティティをより正確に見つけることができる。 さらに,3つのネストしたNERデータセットに対して異なる文トークン化を用いて比較を行った。 そこで我々は,今後の比較を容易にするための前処理スクリプトをリリースする。

Named entity recognition (NER) is the task to detect and classify the entity spans in the text. When entity spans overlap between each other, this problem is named as nested NER. Span-based methods have been widely used to tackle the nested NER. Most of these methods will get a score $n \times n$ matrix, where $n$ means the length of sentence, and each entry corresponds to a span. However, previous work ignores spatial relations in the score matrix. In this paper, we propose using Convolutional Neural Network (CNN) to model these spatial relations in the score matrix. Despite being simple, experiments in three commonly used nested NER datasets show that our model surpasses several recently proposed methods with the same pre-trained encoders. Further analysis shows that using CNN can help the model find nested entities more accurately. Besides, we found that different papers used different sentence tokenizations for the three nested NER datasets, which will influence the comparison. Thus, we release a pre-processing script to facilitate future comparison.
翻訳日:2022-08-10 12:32:43 公開日:2022-08-09
# BERTとSVMアンサンブルモデルを用いたツイートからの感情検出

Emotion Detection From Tweets Using a BERT and SVM Ensemble Model ( http://arxiv.org/abs/2208.04547v1 )

ライセンス: Link先を確認
Ionu\c{t}-Alexandru Albu, Stelian Sp\^inu(参考訳) Twitterデータで表現された感情の自動識別には幅広い応用がある。 不安、悲しみ、喜び、怒りという4つの感情からなるベンチマークデータセットに中立クラスを追加することで、バランスのとれたデータセットを作成します。 この拡張データセットでは、感情認識にSVM(Support Vector Machine)とBERT(Bidirectional Encoder Representations from Transformers)を用いることを検討した。 2つのBERTモデルとSVMモデルを組み合わせた新しいアンサンブルモデルを提案する。 実験の結果,提案モデルでは,ツイート中の感情認識の精度が0.91であることがわかった。

Automatic identification of emotions expressed in Twitter data has a wide range of applications. We create a well-balanced dataset by adding a neutral class to a benchmark dataset consisting of four emotions: fear, sadness, joy, and anger. On this extended dataset, we investigate the use of Support Vector Machine (SVM) and Bidirectional Encoder Representations from Transformers (BERT) for emotion recognition. We propose a novel ensemble model by combining the two BERT and SVM models. Experiments show that the proposed model achieves a state-of-the-art accuracy of 0.91 on emotion recognition in tweets.
翻訳日:2022-08-10 12:32:24 公開日:2022-08-09
# ポジティブな感情データを用いた感情影響型オープンドメインチャットボットの開発

Developing an emotion-affective open-domain chatbot with positively transitioned sentiment data ( http://arxiv.org/abs/2208.04565v1 )

ライセンス: Link先を確認
Weixuan Wang, Wei Peng, Chong Hsuan Huang, Haoran Wang(参考訳) 本稿では,感情に敏感なオープンドメインチャットボットであるemilyを開発するためのデータ駆動アプローチについて述べる。 提案手法は,マルチターン対話から肯定的遷移(PT)感情データを明示的にモデル化することができる。 PT感情データを用いた対話コーパスを構築し,公開のために公開する。 PT強化対話を用いて事前学習した対話モデルを微調整することにより、感情影響のあるオープンドメインチャットボットを開発し、様々な感情影響のあるメトリクスで人間に近いパフォーマンスを示すことができる。 我々は,いくつかの最先端(SOTA)オープンドメインチャットボットに対してエミリーを評価し,提案手法の有効性を示す。

In this paper, we describe a data-driven approach for developing Emily, an emotion-affective open-domain chatbot. The proposed data enhancing method can explicitly model positively transitioned (PT) sentiment data from multi-turn dialogues. We construct a dialogue corpus with PT sentiment data and will release it for public use. By fine-tuning a pretrained dialogue model using the produced PT enhanced dialogues, we are able to develop an emotion-affective open-domain chatbot exhibiting close-to-human performance in various emotion-affective metrics. We evaluate Emily against a few state-of-the-art (SOTA) open-domain chatbots and show the effectiveness of the proposed approach.
翻訳日:2022-08-10 12:32:16 公開日:2022-08-09
# 構成意味論における表現学習の学習とテーマ・フィットの事例

Where's the Learning in Representation Learning for Compositional Semantics and the Case of Thematic Fit ( http://arxiv.org/abs/2208.04749v1 )

ライセンス: Link先を確認
Mughilan Muthupari, Samrat Halder, Asad Sayeed, Yuval Marton(参考訳) セマンティックロール予測やセマンティックフィッティング推定といった特定のNLPタスクにおいて、ランダムな埋め込みは事前訓練された埋め込みと同様に、どのような設定が可能かを調べ、学習の大部分がどこにエンコードされているか、単語の埋め込み、セマンティックロールの埋め込み、または'the network''を検証する。 タスクやトレーニング対象との関係によって,ニュアンス的な回答が得られます。 本稿では,ロール予測とロールフィルングが教師付きタスクであるマルチタスク学習において,これらの表現学習の側面について検討する。 タスクの品質スコアとトレーニングデータサイズとの非単調な関係を観察した。 この観察をよりよく理解するために、これらのタスクのより簡単かつ頂点ごとのバージョンを用いてこれらの結果を分析する。

Observing that for certain NLP tasks, such as semantic role prediction or thematic fit estimation, random embeddings perform as well as pretrained embeddings, we explore what settings allow for this and examine where most of the learning is encoded: the word embeddings, the semantic role embeddings, or ``the network''. We find nuanced answers, depending on the task and its relation to the training objective. We examine these representation learning aspects in multi-task learning, where role prediction and role-filling are supervised tasks, while several thematic fit tasks are outside the models' direct supervision. We observe a non-monotonous relation between some tasks' quality score and the training data size. In order to better understand this observation, we analyze these results using easier, per-verb versions of these tasks.
翻訳日:2022-08-10 12:32:03 公開日:2022-08-09
# 準線形時間における過パラメータニューラルネットワークの訓練

Training Overparametrized Neural Networks in Sublinear Time ( http://arxiv.org/abs/2208.04508v1 )

ライセンス: Link先を確認
Hang Hu, Zhao Song, Omri Weinstein, Danyang Zhuo(参考訳) ディープラーニングの成功は、膨大な計算とエネルギーコストを伴い、大規模にパラメータ化されたニューラルネットワークのトレーニングのスケーラビリティは、AIの進歩の真の障壁になりつつある。 従来のバックプロパゲーションの人気とコストの低さにもかかわらず、SGDは理論と実践の両方において非凸環境での収束を禁止している。 このコストを軽減するため、最近の研究ではより高速な収束率を持つ代替(ニュートン型)トレーニング手法が提案されている。 m=\mathrm{poly}(n)$パラメータと$\mathbb{R}^d$の$n$データポイントの入力バッチを持つ典型的なニューラルネットワークの場合、[Brand, Peng, Song, and Weinstein, ITCS'2021]の以前の作業は、イテレーション毎に$\sim mnd + n^3$の時間を必要とする。 本稿では,同じ過パラメータ化状態において,$m^{1-\alpha} n d + n^3$ amortized timeのみを必要とする,$\alpha \in (0.01,1)$ が固定定数であるような新しいトレーニング手法を提案する。 この方法は、ニューラルネットワークの新しい代替的なビューに依存しており、各イテレーションは、ツリー内のノードの小さなサブセットの変更に対応するバイナリサーチツリーのセットである。 我々は、この見解がDNNの設計と分析にさらなる応用をもたらすと信じている。

The success of deep learning comes at a tremendous computational and energy cost, and the scalability of training massively overparametrized neural networks is becoming a real barrier to the progress of AI. Despite the popularity and low cost-per-iteration of traditional Backpropagation via gradient decent, SGD has prohibitive convergence rate in non-convex settings, both in theory and practice. To mitigate this cost, recent works have proposed to employ alternative (Newton-type) training methods with much faster convergence rate, albeit with higher cost-per-iteration. For a typical neural network with $m=\mathrm{poly}(n)$ parameters and input batch of $n$ datapoints in $\mathbb{R}^d$, the previous work of [Brand, Peng, Song, and Weinstein, ITCS'2021] requires $\sim mnd + n^3$ time per iteration. In this paper, we present a novel training method that requires only $m^{1-\alpha} n d + n^3$ amortized time in the same overparametrized regime, where $\alpha \in (0.01,1)$ is some fixed constant. This method relies on a new and alternative view of neural networks, as a set of binary search trees, where each iteration corresponds to modifying a small subset of the nodes in the tree. We believe this view would have further applications in the design and analysis of DNNs.
翻訳日:2022-08-10 12:28:39 公開日:2022-08-09
# r\'enyiのシャッフルによるより強力なプライバシー増幅と近似微分プライバシー

Stronger Privacy Amplification by Shuffling for R\'enyi and Approximate Differential Privacy ( http://arxiv.org/abs/2208.04591v1 )

ライセンス: Link先を確認
Vitaly Feldman and Audra McMillan and Kunal Talwar(参考訳) 差分プライバシーのシャッフルモデルは、標準的なローカルモデルと中央モデル(EFMRTT19; CSUZZ19)の中間信頼モデルとして注目されている。 このモデルの主な結果は、ランダムにランダムにランダムにデータをシャッフルすることで、差分プライバシーの保証を増幅する。 このような増幅は、データが匿名で貢献されるシステムにとって、はるかに強力なプライバシー保証を意味する[BEMMRLRKTS17]。 本研究では,理論と数値の両方で結果のシャッフルを行うことで,美術プライバシ増幅の状況を改善する。 最初の貢献は、ldpランダム化器のシャッフル出力に対するr\'enyi微分プライバシーパラメータの漸近的最適解析である。 第2の貢献は、シャッフルによるプライバシーの増幅に関する新たな分析です。 この分析は[FMT20]の技法を改良し、全てのパラメータ設定においてより厳密な数値境界をもたらす。

The shuffle model of differential privacy has gained significant interest as an intermediate trust model between the standard local and central models [EFMRTT19; CSUZZ19]. A key result in this model is that randomly shuffling locally randomized data amplifies differential privacy guarantees. Such amplification implies substantially stronger privacy guarantees for systems in which data is contributed anonymously [BEMMRLRKTS17]. In this work, we improve the state of the art privacy amplification by shuffling results both theoretically and numerically. Our first contribution is the first asymptotically optimal analysis of the R\'enyi differential privacy parameters for the shuffled outputs of LDP randomizers. Our second contribution is a new analysis of privacy amplification by shuffling. This analysis improves on the techniques of [FMT20] and leads to tighter numerical bounds in all parameter settings.
翻訳日:2022-08-10 12:28:11 公開日:2022-08-09
# 化学情報学におけるグラフカーネル

Literature Review: Graph Kernels in Chemoinformatics ( http://arxiv.org/abs/2208.04929v1 )

ライセンス: Link先を確認
James Young(参考訳) 本研究の目的は, ケモインフォマティクスの分類問題に適用することを目的として, グラフカーネルに読者を導入することである。 グラフ核は分子の化学的性質を推測する機能であり、薬物設計に適した化合物を見つけるのに役立つ。 カーネルメソッドの使用は、グラフ間の類似性を2つで定量化する特定の方法である。 我々はこの1つの手法に限定するが、近年は一般的な代替手段が登場しており、特にグラフニューラルネットワークが注目されている。

The purpose of this review is to introduce the reader to graph kernels, with a view of applying them in classification problems in chemoinformatics. Graph kernels are functions that allow us to infer chemical properties of molecules, which can help with tasks such as finding suitable compounds for drug design. The use of kernel methods is but one particular way two quantify similarity between graphs. We restrict our discussion to this one method, although popular alternatives have emerged in recent years, most notably Graph Neural Networks.
翻訳日:2022-08-10 12:28:00 公開日:2022-08-09
# ベイジアンブラッドレー・テリーモデルによる複数データセット上の複数のMLアルゴリズムの比較

A Bayesian Bradley-Terry model to compare multiple ML algorithms on multiple data sets ( http://arxiv.org/abs/2208.04935v1 )

ライセンス: Link先を確認
Jacques Wainer(参考訳) 本稿では,複数のデータ集合上の複数のアルゴリズムを任意のメトリックで比較するベイズモデルを提案する。 このモデルはBradley-Terryモデルに基づいており、1つのアルゴリズムが異なるデータセットで他のアルゴリズムよりも優れている回数を数えている。 ベイジアンの基礎があるため、ベイジアン・ブラッドリー・テリー・モデル(bbt)は、平均階数に関するdemsar(2006年)テストや、p-調整手順を用いたbenavoli et al.(2016年)など、複数のデータセットにおける複数のアルゴリズムを比較する、頻繁なアプローチとは異なる特徴を持つ。 特にベイズ的アプローチでは、差が統計的に有意でないと主張すること以外、アルゴリズムに関するよりニュアンスな言明が可能である。 ベイズ的アプローチは、2つのアルゴリズムが実用目的に等価である場合や、実用的な等価領域(ROPE)を定義することもできる。 Benavoli et al. (2017) によって提案されたベイズ符号付きランク比較法とは異なり、この手法は任意の計量に対してROPEを定義することができる。 本稿ではまた,あるクロス検証平均値と他のアルゴリズムの平均値との正の差が,効果サイズに基づいて第1のアルゴリズムが第2のアルゴリズムよりも優れていると見なされるべきかどうかを評価する局所ロープの概念を提案する。 この局所ROPE提案はベイズ的使用とは独立であり、ランクに基づく頻繁なアプローチで使用することができる。 RパッケージとBBTを実装するPythonプログラムが利用可能である。

This paper proposes a Bayesian model to compare multiple algorithms on multiple data sets, on any metric. The model is based on the Bradley-Terry model, that counts the number of times one algorithm performs better than another on different data sets. Because of its Bayesian foundations, the Bayesian Bradley Terry model (BBT) has different characteristics than frequentist approaches to comparing multiple algorithms on multiple data sets, such as Demsar (2006) tests on mean rank, and Benavoli et al. (2016) multiple pairwise Wilcoxon tests with p-adjustment procedures. In particular, a Bayesian approach allows for more nuanced statements regarding the algorithms beyond claiming that the difference is or it is not statistically significant. Bayesian approaches also allow to define when two algorithms are equivalent for practical purposes, or the region of practical equivalence (ROPE). Different than a Bayesian signed rank comparison procedure proposed by Benavoli et al. (2017), our approach can define a ROPE for any metric, since it is based on probability statements, and not on differences of that metric. This paper also proposes a local ROPE concept, that evaluates whether a positive difference between a mean measure across some cross validation to the mean of some other algorithms is should be really seen as the first algorithm being better than the second, based on effect sizes. This local ROPE proposal is independent of a Bayesian use, and can be used in frequentist approaches based on ranks. A R package and a Python program that implements the BBT is available.
翻訳日:2022-08-10 12:27:51 公開日:2022-08-09
# 対角的表現学習 : ($\beta$-)VAE と GAN を用いて

Disentangled Representation Learning Using ($\beta$-)VAE and GAN ( http://arxiv.org/abs/2208.04549v1 )

ライセンス: Link先を確認
Mohammad Haghir Ebrahimabadi(参考訳) 形状、サイズ、回転、x-y位置などの異なる特徴を持つ異なる物体を含む画像のデータセットと変分オートエンコーダ(vae)が与えられたとき、vaeの隠れ空間ベクトルでこれらの特徴の異方性エンコーディングを作成することが本論文の関心の的となった。 dSpriteデータセットは、この研究に必要な実験に必要な機能を提供した。 VAEをGAN(Generative Adversarial Network)と組み合わせてトレーニングした後、隠れたベクトルの各次元が破壊され、各次元の歪みを探索した。 GANは出力画像再構成の品質向上に使用された点に注意が必要だ。

Given a dataset of images containing different objects with different features such as shape, size, rotation, and x-y position; and a Variational Autoencoder (VAE); creating a disentangled encoding of these features in the hidden space vector of the VAE was the task of interest in this paper. The dSprite dataset provided the desired features for the required experiments in this research. After training the VAE combined with a Generative Adversarial Network (GAN), each dimension of the hidden vector was disrupted to explore the disentanglement in each dimension. Note that the GAN was used to improve the quality of output image reconstruction.
翻訳日:2022-08-10 12:26:55 公開日:2022-08-09
# 3次元胸部CTスキャン分類のためのRes-Dense Net

Res-Dense Net for 3D Covid Chest CT-scan classification ( http://arxiv.org/abs/2208.04613v1 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Minh-Van Nguyen, Thien-Phuc Nguyen Dinh(参考訳) 医用画像前処理における最も論争的な研究分野の1つは3D CTスキャンである。 新型コロナウイルスの急激な感染拡大に伴い、CTスキャンの機能の正常かつ迅速な診断が重要になっている。 感染予防に効果がある。 新型コロナウイルスなど、CTスキャン画像で病気を診断するタスクはたくさんあります。 本稿では,3次元CTスキャン画像を用いて,重ね合わせディープニューラルネットワークを用いてCovid 19の検出を行う手法を提案する。 本手法では,DenseNet 121とResNet 101の2つのバックボーンを用いて実験を行った。 この手法はいくつかの評価指標で競合性能を達成する

One of the most contentious areas of research in Medical Image Preprocessing is 3D CT-scan. With the rapid spread of COVID-19, the function of CT-scan in properly and swiftly diagnosing the disease has become critical. It has a positive impact on infection prevention. There are many tasks to diagnose the illness through CT-scan images, include COVID-19. In this paper, we propose a method that using a Stacking Deep Neural Network to detect the Covid 19 through the series of 3D CT-scans images . In our method, we experiment with two backbones are DenseNet 121 and ResNet 101. This method achieves a competitive performance on some evaluation metrics
翻訳日:2022-08-10 12:26:42 公開日:2022-08-09
# 脳結節分類のための効率的ネット

EfficientNet for Brain-Lesion classification ( http://arxiv.org/abs/2208.04616v1 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Trong-Hieu Nguyen Mau, Radmir Zosimov, Minh-Van Nguyen(参考訳) 技術開発において、脳疾患の症例が増えており、より多くの治療が提案され、ポジティブな結果が得られた。 しかし、Brain-Lesionでは、早期診断は治療の成功の可能性を改善し、患者の回復に役立つ。 このことから、現代の医療画像分析における議論の的となっている。 アーキテクチャの改善により、様々な方法が提案され、競争的なスコアが得られます。 本稿では,3次元画像,特にブレイン・レジョン分類タスクの効率的なB0を効率よく利用し,競争的なスコアを得る手法を提案する。 また,MRIデータのスライスを分類するためにMultiscale-EfficientNetを用いた手法も提案した。

In the development of technology, there are increasing cases of brain disease, there are more treatments proposed and achieved a positive result. However, with Brain-Lesion, the early diagnoses can improve the possibility for successful treatment and can help patients recuperate better. From this reason, Brain-Lesion is one of the controversial topics in medical images analysis nowadays. With the improvement of the architecture, there is a variety of methods that are proposed and achieve competitive scores. In this paper, we proposed a technique that uses efficient-net for 3D images, especially the Efficient-net B0 for Brain-Lesion classification task solution, and achieve the competitive score. Moreover, we also proposed the method to use Multiscale-EfficientNet to classify the slices of the MRI data
翻訳日:2022-08-10 12:26:34 公開日:2022-08-09
# 前庭神経節腫における境界距離損失の検討

Boundary Distance Loss for Intra-/Extra-meatal Segmentation of Vestibular Schwannoma ( http://arxiv.org/abs/2208.04680v1 )

ライセンス: Link先を確認
Navodini Wijethilake, Aaron Kujawa, Reuben Dorent, Muhammad Asad, Anna Oviedova, Tom Vercauteren, Jonathan Shapey(参考訳) 前庭神経腫(VS)は通常、内耳から脳へと成長する。 内耳管の内外に対応する2つの領域(膜内領域と膜外領域)に分けることができる。 皮膚外領域の成長は、臨床医が続く疾患の管理を決定する重要な要因である。 本研究は, 内・外領域に細分化したvsセグメンテーションアプローチを提案する。 術後症例を除いた137例に対し,T2MRIの227例を経時的に検索した。 第1段は全腫瘍分節を行い,第2段は第1段から得られたマスクとともにt2 mriを用いて,内・外層分節を行う段階的アプローチを提案する。 予測肉境界の精度を向上させるため,我々は境界距離損失と呼ぶタスク固有損失を導入する。 この性能は, 直接的meatal extrameatal segmentation task performance, すなわちベースラインと対照的に評価される。 提案手法は,2段階のアプローチと境界距離損失を併用したDiceスコアが0.8279+-0.2050,0.7744+-0.1352であり,それぞれ食肉外領域と食肉内領域で0.7939+-0.2325,0.7475+-0.1346であった。

Vestibular Schwannoma (VS) typically grows from the inner ear to the brain. It can be separated into two regions, intrameatal and extrameatal respectively corresponding to being inside or outside the inner ear canal. The growth of the extrameatal regions is a key factor that determines the disease management followed by the clinicians. In this work, a VS segmentation approach with subdivision into intra-/extra-meatal parts is presented. We annotated a dataset consisting of 227 T2 MRI instances, acquired longitudinally on 137 patients, excluding post-operative instances. We propose a staged approach, with the first stage performing the whole tumour segmentation and the second stage performing the intra-/extra-meatal segmentation using the T2 MRI along with the mask obtained from the first stage. To improve on the accuracy of the predicted meatal boundary, we introduce a task-specific loss which we call Boundary Distance Loss. The performance is evaluated in contrast to the direct intrameatal extrameatal segmentation task performance, i.e. the Baseline. Our proposed method, with the two-stage approach and the Boundary Distance Loss, achieved a Dice score of 0.8279+-0.2050 and 0.7744+-0.1352 for extrameatal and intrameatal regions respectively, significantly improving over the Baseline, which gave Dice score of 0.7939+-0.2325 and 0.7475+-0.1346 for the extrameatal and intrameatal regions respectively.
翻訳日:2022-08-10 12:26:22 公開日:2022-08-09
# 階層型残差学習に基づくベクトル量子変分自動符号化による画像再構成と生成

Hierarchical Residual Learning Based Vector Quantized Variational Autoencoder for Image Reconstruction and Generation ( http://arxiv.org/abs/2208.04554v1 )

ライセンス: Link先を確認
Mohammad Adiban and Kalin Stefanov and Sabato Marco Siniscalchi and Giampiero Salvi(参考訳) 本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。 HR-VQVAEの各層は、新しい目的関数を利用することで、ベクトル量子化エンコーダを介して、前の層から残余の離散表現を学習する。 さらに、各レイヤの表現は、前のレイヤの表現と階層的にリンクされる。 本手法は,画像再構成と生成の課題について評価する。 実験の結果,HR-VQVAEで学習した離散表現は,VQVAEとVQVAE-2という基本手法よりも歪みの少ない高品質な画像の再構成を可能にすることがわかった。 hr-vqvaeはまた、最先端の生成モデルを上回る高品質で多様な画像を生成することができ、学習した表現の効率をさらに検証することができる。 HR-VQVAEの階層的性質 一 復号検索時間を短縮し、特に高負荷作業に適した方法とする。 ii) コードブックの崩壊問題を発生させることなく、コードブックのサイズを増加させることができる。

We propose a multi-layer variational autoencoder method, we call HR-VQVAE, that learns hierarchical discrete representations of the data. By utilizing a novel objective function, each layer in HR-VQVAE learns a discrete representation of the residual from previous layers through a vector quantized encoder. Furthermore, the representations at each layer are hierarchically linked to those at previous layers. We evaluate our method on the tasks of image reconstruction and generation. Experimental results demonstrate that the discrete representations learned by HR-VQVAE enable the decoder to reconstruct high-quality images with less distortion than the baseline methods, namely VQVAE and VQVAE-2. HR-VQVAE can also generate high-quality and diverse images that outperform state-of-the-art generative models, providing further verification of the efficiency of the learned representations. The hierarchical nature of HR-VQVAE i) reduces the decoding search time, making the method particularly suitable for high-load tasks and ii) allows to increase the codebook size without incurring the codebook collapse problem.
翻訳日:2022-08-10 12:23:36 公開日:2022-08-09
# 高コンテンツスクリーニング品質制御のための半教師付き学習法の比較

Comparison of semi-supervised learning methods for High Content Screening quality control ( http://arxiv.org/abs/2208.04592v1 )

ライセンス: Link先を確認
Umar Masud and Ethan Cohen and Ihab Bendidi and Guillaume Bollot and Auguste Genovesio(参考訳) 自動顕微鏡および定量的画像解析の進歩は、効率的な薬物発見・研究ツールとして高濃度スクリーニング(HCS)を促進している。 HCSは、高いスループットで画像から複雑な細胞性表現型を定量化するが、このプロセスは、アウト・オブ・フォーカス画像のぼかし、蛍光彩飽和、破片、高レベルのノイズ、予期しない自動蛍光、空のイメージなどの画像収差によって妨げられる。 この問題は文献である程度注目されているが、これらの成果を見渡すと、下流の画像処理タスクが著しく妨げられ、微妙な表現型の検出が妨げられる。 したがって、HCSで品質管理を使用することは主要な関心事であり、前提条件である。 本研究では,この課題に対する半教師あり学習ソリューションを簡易かつ容易に提供するために,広範な画像アノテーションを必要としない深層学習オプションを評価する。 具体的には,高スループットアーティファクト画像検出器にベースエンコーダを提供するための,近年の自己教師あり・転送学習手法の有効性を比較検討した。 本研究の結果から, 移動学習法は, 最善を尽くすだけでなく, 敏感なハイパーパラメータ設定を必要とせず, 広範な追加訓練も必要としないという利点が示唆された。

Progress in automated microscopy and quantitative image analysis has promoted high-content screening (HCS) as an efficient drug discovery and research tool. While HCS offers to quantify complex cellular phenotypes from images at high throughput, this process can be obstructed by image aberrations such as out-of-focus image blur, fluorophore saturation, debris, a high level of noise, unexpected auto-fluorescence or empty images. While this issue has received moderate attention in the literature, overlooking these artefacts can seriously hamper downstream image processing tasks and hinder detection of subtle phenotypes. It is therefore of primary concern, and a prerequisite, to use quality control in HCS. In this work, we evaluate deep learning options that do not require extensive image annotations to provide a straightforward and easy to use semi-supervised learning solution to this issue. Concretely, we compared the efficacy of recent self-supervised and transfer learning approaches to provide a base encoder to a high throughput artefact image detector. The results of this study suggest that transfer learning methods should be preferred for this task as they not only performed best here but present the advantage of not requiring sensitive hyperparameter settings nor extensive additional training.
翻訳日:2022-08-10 12:23:21 公開日:2022-08-09
# 深層ネットワーク回帰のための生成モデルに基づくデータラベリング:UAVマルチスペクトル画像からのシード成熟度推定への応用

Generative models-based data labeling for deep networks regression: application to seed maturity estimation from UAV multispectral images ( http://arxiv.org/abs/2208.04611v1 )

ライセンス: Link先を確認
Eric Dericquebourg, Adel Hafiane, Raphael Canals(参考訳) 種子の成熟度モニタリングは、気候変動とより制限的な慣行による農業における課題の増加である。 畑の種子のモニタリングは、農作業の最適化と高発芽による収量品質の確保に不可欠である。 従来の手法は、フィールドでの限られたサンプリングと実験室での分析に基づいている。 さらに、それらは時間がかかり、作物畑のサブセクションのみを監視できる。 このことは、畑内不均一性による作物全体の状態の正確さの欠如につながっている。 UAVによるマルチスペクトル画像は、畑の均一なスキャンと作物の成熟度情報のより優れたキャプチャを可能にする。 一方, 深層学習法は, 特に成熟度を推定する上で, 極めて有意な可能性を示唆している。 しかし、大きなラベル付きデータセットが必要です。 大量の空中画像が利用できるが、それらを地上の真実でラベル付けるのは面倒だが、不可能ではない。 本稿では,マルチスペクトルUAV画像を用いたパセリ種子の成熟度推定手法を提案し,新しいデータラベリング手法を提案する。 このアプローチはパラメトリックモデルと非パラメトリックモデルに基づいて弱いラベルを提供する。 また,データ取得プロトコルと手法の異なるステップの性能評価についても検討する。 結果は良好な性能を示し、非パラメトリックカーネル密度推定器モデルはラベル付け法でニューラルネットワークの一般化を改善することができ、より堅牢で優れたディープニューラルモデルを実現することができる。

Monitoring seed maturity is an increasing challenge in agriculture due to climate change and more restrictive practices. Seeds monitoring in the field is essential to optimize the farming process and to guarantee yield quality through high germination. Traditional methods are based on limited sampling in the field and analysis in laboratory. Moreover, they are time consuming and only allow monitoring sub-sections of the crop field. This leads to a lack of accuracy on the condition of the crop as a whole due to intra-field heterogeneities. Multispectral imagery by UAV allows uniform scan of fields and better capture of crop maturity information. On the other hand, deep learning methods have shown tremendous potential in estimating agronomic parameters, especially maturity. However, they require large labeled datasets. Although large sets of aerial images are available, labeling them with ground truth is a tedious, if not impossible task. In this paper, we propose a method for estimating parsley seed maturity using multispectral UAV imagery, with a new approach for automatic data labeling. This approach is based on parametric and non-parametric models to provide weak labels. We also consider the data acquisition protocol and the performance evaluation of the different steps of the method. Results show good performance, and the non-parametric kernel density estimator model can improve neural network generalization when used as a labeling method, leading to more robust and better performing deep neural models.
翻訳日:2022-08-10 12:22:56 公開日:2022-08-09
# RDA:ロバストSSLのための相互分散アライメント

RDA: Reciprocal Distribution Alignment for Robust SSL ( http://arxiv.org/abs/2208.04619v1 )

ライセンス: Link先を確認
Yue Duan, Lei Qi, Lei Wang, Luping Zhou, Yinghuan Shi(参考訳) 本研究では,信頼しきい値に依存しないハイパーパラメータフリーフレームワークである半教師付き学習(SSL)に対処し,一致した(従来型)クラス分布と不一致なクラス分布の両方で動作する相互分布アライメント(RDA)を提案する。 分散ミスマッチは、しばしば見過ごされるが、ラベル付きデータとラベルなしデータが同じクラスディストリビューションに該当しない、より一般的なSSLシナリオである。 これにより、ラベル付きデータを確実に利用せず、従来の分散アライメントによって救えなかったSSLメソッドのパフォーマンスが大幅に低下する可能性がある。 RDAでは、擬似ラベルと相補ラベルを予測する2つの分類器からの予測の分布を相互にアライメントする。 これら2つの分布は相補的な情報を持ち、クラス分布に先立つことなく相互に正規化することができる。 さらに,RDAが入力出力相互情報を最大化することを示す。 提案手法は,従来のSSL設定と一致しない分散のさまざまなシナリオにおいて,SSLの有望な性能を実現する。 私たちのコードは、https://github.com/NJUyued/RDA4RobustSSLで利用可能です。

In this work, we propose Reciprocal Distribution Alignment (RDA) to address semi-supervised learning (SSL), which is a hyperparameter-free framework that is independent of confidence threshold and works with both the matched (conventionally) and the mismatched class distributions. Distribution mismatch is an often overlooked but more general SSL scenario where the labeled and the unlabeled data do not fall into the identical class distribution. This may lead to the model not exploiting the labeled data reliably and drastically degrade the performance of SSL methods, which could not be rescued by the traditional distribution alignment. In RDA, we enforce a reciprocal alignment on the distributions of the predictions from two classifiers predicting pseudo-labels and complementary labels on the unlabeled data. These two distributions, carrying complementary information, could be utilized to regularize each other without any prior of class distribution. Moreover, we theoretically show that RDA maximizes the input-output mutual information. Our approach achieves promising performance in SSL under a variety of scenarios of mismatched distributions, as well as the conventional matched SSL setting. Our code is available at: https://github.com/NJUyued/RDA4RobustSSL.
翻訳日:2022-08-10 12:22:35 公開日:2022-08-09
# ユーザ依存パディングを用いた話者適応唇読解

Speaker-adaptive Lip Reading with User-dependent Padding ( http://arxiv.org/abs/2208.04498v1 )

ライセンス: Link先を確認
Minsu Kim, Hyunjun Kim, Yong Man Ro(参考訳) 唇読みは唇の動きのみに基づく音声の予測を目的としている。 音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。 これにより、学習条件とテスト条件のミスマッチにより、未確認話者に適用された唇読解モデルは劣化した性能を示す。 話者適応手法は、列車と試験用話者間のこのミスマッチを減らすことを目的としており、訓練されたモデルが話者変動に介入されることなく、音声コンテンツをモデル化することに集中するよう誘導する。 音声に基づく音声認識における数十年の取り組みとは対照的に、話者適応法は唇読解においてあまり研究されていない。 本稿では,未確認話者における唇読解モデルの性能劣化を補うために,話者適応型唇読解法,すなわちユーザ依存パディングを提案する。 ユーザ依存のパディングは、事前学習された唇読取モデルの視覚特徴抽出段階に参加可能な話者固有の入力である。 したがって、個々の話者に対して適応的に、視覚的特徴エンコーディング中に異なる話者の唇の出現や動き情報を考慮することができる。 また,提案手法は不要である。 1)追加のレイヤ。 2)事前学習したモデルの学習重み付けを変更すること、及び 3) プリトレイン時に使用する列車データのスピーカラベル。 教師なしまたは教師なしの方法で、ユーザ依存のパディングのみを学習することで、目立たない話者に直接適応することができる。 最後に,公共の唇読解データベースにおける話者情報不足を軽減するために,よく知られた音声視覚データベースLRWの話者をラベル付けし,LRW-IDという未知の唇読取シナリオを設計する。

Lip reading aims to predict speech based on lip movements alone. As it focuses on visual information to model the speech, its performance is inherently sensitive to personal lip appearances and movements. This makes the lip reading models show degraded performance when they are applied to unseen speakers due to the mismatch between training and testing conditions. Speaker adaptation technique aims to reduce this mismatch between train and test speakers, thus guiding a trained model to focus on modeling the speech content without being intervened by the speaker variations. In contrast to the efforts made in audio-based speech recognition for decades, the speaker adaptation methods have not well been studied in lip reading. In this paper, to remedy the performance degradation of lip reading model on unseen speakers, we propose a speaker-adaptive lip reading method, namely user-dependent padding. The user-dependent padding is a speaker-specific input that can participate in the visual feature extraction stage of a pre-trained lip reading model. Therefore, the lip appearances and movements information of different speakers can be considered during the visual feature encoding, adaptively for individual speakers. Moreover, the proposed method does not need 1) any additional layers, 2) to modify the learned weights of the pre-trained model, and 3) the speaker label of train data used during pre-train. It can directly adapt to unseen speakers by learning the user-dependent padding only, in a supervised or unsupervised manner. Finally, to alleviate the speaker information insufficiency in public lip reading databases, we label the speaker of a well-known audio-visual database, LRW, and design an unseen-speaker lip reading scenario named LRW-ID.
翻訳日:2022-08-10 12:22:14 公開日:2022-08-09
# vectorflow: トラフィック占有とフロー予測のための画像とベクトルの組み合わせ

VectorFlow: Combining Images and Vectors for Traffic Occupancy and Flow Prediction ( http://arxiv.org/abs/2208.04530v1 )

ライセンス: Link先を確認
Xin Huang, Xiaoyu Tian, Junru Gu, Qiao Sun, Hang Zhao(参考訳) 道路エージェントの将来の行動を予測することは、自動運転における重要な課題である。 既存のモデルでは, マージンエージェントの将来行動予測に大きな成功を収めているが, 複数のエージェントの一貫性のある共同動作を効率的に予測することは課題である。 近年,効率良く一貫した共同予測を支援する占有グリッドとフローの組み合わせにより,道路エージェントの協調状態を表現するために占有フローフィールド表現が提案されている。 本研究では,ラスタライズドトラヒック画像から特徴を学習する画像エンコーダと,連続エージェント軌跡と地図状態の情報をキャプチャするベクトルエンコーダのパワーを組み合わせることにより,正確な占有率とフロー予測を実現する新しい占有率フローフィールド予測器を提案する。 2つの符号化された機能は、最終的な予測を生成する前に複数の注意モジュールによって融合される。 我々の単純だが効果的なモデルはWaymo Open Dataset Occupancy and Flow Prediction Challengeで3位にランクインし、閉鎖された占有とフロー予測タスクで最高のパフォーマンスを達成する。

Predicting future behaviors of road agents is a key task in autonomous driving. While existing models have demonstrated great success in predicting marginal agent future behaviors, it remains a challenge to efficiently predict consistent joint behaviors of multiple agents. Recently, the occupancy flow fields representation was proposed to represent joint future states of road agents through a combination of occupancy grid and flow, which supports efficient and consistent joint predictions. In this work, we propose a novel occupancy flow fields predictor to produce accurate occupancy and flow predictions, by combining the power of an image encoder that learns features from a rasterized traffic image and a vector encoder that captures information of continuous agent trajectories and map states. The two encoded features are fused by multiple attention modules before generating final predictions. Our simple but effective model ranks 3rd place on the Waymo Open Dataset Occupancy and Flow Prediction Challenge, and achieves the best performance in the occluded occupancy and flow prediction task.
翻訳日:2022-08-10 12:21:46 公開日:2022-08-09
# 反応シミュレーションにおける閉ループ安定性の解析と向上

Analyzing and Enhancing Closed-loop Stability in Reactive Simulation ( http://arxiv.org/abs/2208.04559v1 )

ライセンス: Link先を確認
Wei-Jer Chang, Yeping Hu, Chenran Li, Wei Zhan, and Masayoshi Tomizuka(参考訳) シミュレーションは、スケーラビリティの観点から自動運転車を効率的に評価する上で重要な役割を担ってきた。 既存の手法は主にヒューリスティックに基づくシミュレーションに依存しており、交通機関の参加者は複雑な人間の行動を生成するのに失敗する特定の人間のコード化された規則に従う。 そこで, 実世界のデータを活用することで, シミュレーションと実世界の交通シナリオの人間行動ギャップを埋めるリアクティブシミュレーションの概念を提案する。 しかし、これらの反応モデルは、数ステップのシミュレーションの後、容易に不合理な振る舞いを生じさせ、モデルの安定性を損なうとみなす。 私たちの知る限りでは、リアクティブシミュレーションフレームワークの安定性を明示的に議論し、分析した成果はありません。 本稿では,反応シミュレーションの安定性を徹底的に解析し,安定性を高めるための解を提案する。 具体的には,まず,シミュレーションされた状態列の滑らかさと一貫性が安定性の重要な要因であることを示す,新しい反応シミュレーションフレームワークを提案する。 次に,反応シミュレーションの閉ループ安定性を改善するために,キネマティック車両モデルをフレームワークに組み込む。 さらに,本論文では,一般的なメトリクスとともに,シミュレーション性能をよりよく解析するために,いくつかの新しい指標を提案する。

Simulation has played an important role in efficiently evaluating self-driving vehicles in terms of scalability. Existing methods mostly rely on heuristic-based simulation, where traffic participants follow certain human-encoded rules that fail to generate complex human behaviors. Therefore, the reactive simulation concept is proposed to bridge the human behavior gap between simulation and real-world traffic scenarios by leveraging real-world data. However, these reactive models can easily generate unreasonable behaviors after a few steps of simulation, where we regard the model as losing its stability. To the best of our knowledge, no work has explicitly discussed and analyzed the stability of the reactive simulation framework. In this paper, we aim to provide a thorough stability analysis of the reactive simulation and propose a solution to enhance the stability. Specifically, we first propose a new reactive simulation framework, where we discover that the smoothness and consistency of the simulated state sequences are crucial factors to stability. We then incorporate the kinematic vehicle model into the framework to improve the closed-loop stability of the reactive simulation. Furthermore, along with commonly-used metrics, several novel metrics are proposed in this paper to better analyze the simulation performance.
翻訳日:2022-08-10 12:21:27 公開日:2022-08-09
# 深勾配漏洩防止のための変分モデルと部分勾配摂動の併用

Combining Variational Modeling with Partial Gradient Perturbation to Prevent Deep Gradient Leakage ( http://arxiv.org/abs/2208.04767v1 )

ライセンス: Link先を確認
Daniel Scheliga and Patrick M\"ader and Marco Seeland(参考訳) プライベートトレーニングデータを再構築するために勾配リークを爆発させると、勾配反転攻撃はニューラルネットワークの協調学習においてユビキタスな脅威となる。 モデル性能の低下に苦しむことなく勾配リークを防止するため, 任意のモデルアーキテクチャの拡張として, 変分モデルに基づくPRECODE(PRivacy EnhanCing mODulE)を提案する。 本研究では,PreCODEが勾配反転攻撃に与える影響について検討し,その基礎となる動作原理を明らかにする。 変動モデリングはPreCODEとそれに続く階層の勾配に対して確率性を誘導し、勾配攻撃の収束を防ぐことを示す。 攻撃最適化中の確率勾配を意図的に省略することにより、PreCODEのプライバシー保護効果を無効にできる攻撃を定式化する。 このような攻撃に対するプライバシー保護を確保するため、変動モデリングと偏勾配摂動の戦略的組み合わせとして、部分摂動(PPP)を用いたPreCODEを提案する。 4つのセミナルモデルアーキテクチャと2つの画像分類データセットに関する広範な実証的研究を行う。 すべてのアーキテクチャは勾配リークの傾向があり,PPPによって防止できる。 その結果,モデル性能を損なうことなくプライバシを効果的に保持するためには,勾配摂動の低減が求められていることがわかった。

Exploiting gradient leakage to reconstruct supposedly private training data, gradient inversion attacks are an ubiquitous threat in collaborative learning of neural networks. To prevent gradient leakage without suffering from severe loss in model performance, recent work proposed a PRivacy EnhanCing mODulE (PRECODE) based on variational modeling as extension for arbitrary model architectures. In this work, we investigate the effect of PRECODE on gradient inversion attacks to reveal its underlying working principle. We show that variational modeling induces stochasticity on PRECODE's and its subsequent layers' gradients that prevents gradient attacks from convergence. By purposefully omitting those stochastic gradients during attack optimization, we formulate an attack that can disable PRECODE's privacy preserving effects. To ensure privacy preservation against such targeted attacks, we propose PRECODE with Partial Perturbation (PPP), as strategic combination of variational modeling and partial gradient perturbation. We conduct an extensive empirical study on four seminal model architectures and two image classification datasets. We find all architectures to be prone to gradient leakage, which can be prevented by PPP. In result, we show that our approach requires less gradient perturbation to effectively preserve privacy without harming model performance.
翻訳日:2022-08-10 12:21:09 公開日:2022-08-09
# FPGAを用いた高速混合CNN加速器の設計

Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA ( http://arxiv.org/abs/2208.04854v1 )

ライセンス: Link先を確認
Cecilia Latotzke, Tim Ciesielski, and Tobias Gemmeke(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々なアプリケーション領域で高い精度に達するが、大量の計算と高価なデータ移動を必要とする。 取引精度を保ちながらコストを下げる一つの方法は、重量および/または活性化語長削減である。 これにより、層間混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。 本研究では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。 我々の総合的な探索手法は、アーキテクチャのダウンから論理のレベルまで様々な設計のエントリーレベルを垂直に通過させ、また、効率的な混合精度CNN加速器のための処理要素からデータフローへの最適化を補助的にカバーする。 我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。 フィードフォワードとIDショートカット接続の混合精度CNNは、それぞれResNet-18では245フレーム/秒、ResNet-18では87.48%、Top-5では92.9%、ResNet-152では1.13TOps/秒である。 これにより、各浮動小数点ベースラインと比較して、パラメータに必要なメモリフットプリントが4.9倍および9.4倍削減される。

Convolutional Neural Networks (CNNs) reach high accuracies in various application domains, but require large amounts of computation and incur costly data movements. One method to decrease these costs while trading accuracy is weight and/or activation word-length reduction. Thereby, layer-wise mixed-precision quantization allows for more efficient results while inflating the design space. In this work, we present an in-depth quantitative methodology to efficiently explore the design space considering the limited hardware resources of a given FPGA. Our holistic exploration approach vertically traverses the various design entry levels from the architectural down to the logic level, and laterally covers optimization from processing elements to dataflow for an efficient mixed-precision CNN accelerator. Our resulting hardware accelerators implement truly mixed-precision operations that enable efficient execution of layer-wise and channel-wise quantized CNNs. Mapping feed-forward and identity-shortcut-connection mixed-precision CNNs result in competitive accuracy-throughout trade-offs: 245 frames/s with 87.48% Top-5 accuracy for ResNet-18 and 92.9% Top-5 accuracy with 1.13 TOps/s for ResNet-152, respectively. Thereby, the required memory footprint for parameters is reduced by 4.9x and 9.4x compared to the respective floating-point baseline.
翻訳日:2022-08-10 12:20:26 公開日:2022-08-09
# 潜在サロゲート表現学習による長期因果効果の推定

Long-term Causal Effects Estimation via Latent Surrogates Representation Learning ( http://arxiv.org/abs/2208.04589v1 )

ライセンス: Link先を確認
Ruichu Cai, Weilin Chen, Zeqin Yang, Shu Wan, Chen Zheng, Xiaoqing Yang, Jiecheng Guo(参考訳) 短期的サロゲートに基づく長期的因果効果の推定は、マーケティングや医療など、多くの現実世界の応用において重要な問題である。 特定の領域での成功にもかかわらず、既存のほとんどの手法は、因果効果を理想主義的かつ単純化的な方法で推定し、短期的な結果の因果構造を無視し、それら全てを代理として扱う。 しかし、そのような方法は、短期的な結果の中で部分的に観察されたサロゲートがプロキシと混ざり合う現実のシナリオにはうまく適用できない。 そこで本研究では, サロゲートが観察されるか, 観察されているより現実的な状況において, 長期因果効果を推定するフレキシブルな手法であるレーザーを開発し, サーロゲートとプロキシの識別不能性を考慮して, 観測されたサーロゲートや潜在サロゲートのプロキシを区別することなく, 全てのサーロゲート候補の有効なサーロゲート全体を回収する。 回収されたサロゲートの助けを借りて、長期的因果効果の偏りのない見積もる。 実世界および半合成データセットの広範な実験結果から,提案手法の有効性を示す。

Estimating long-term causal effects based on short-term surrogates is a significant but challenging problem in many real-world applications, e.g., marketing and medicine. Despite its success in certain domains, most existing methods estimate causal effects in an idealistic and simplistic way - ignoring the causal structure among short-term outcomes and treating all of them as surrogates. However, such methods cannot be well applied to real-world scenarios, in which the partially observed surrogates are mixed with their proxies among short-term outcomes. To this end, we develop our flexible method, Laser, to estimate long-term causal effects in the more realistic situation that the surrogates are observed or have observed proxies.Given the indistinguishability between the surrogates and proxies, we utilize identifiable variational auto-encoder (iVAE) to recover the whole valid surrogates on all the surrogates candidates without the need of distinguishing the observed surrogates or the proxies of latent surrogates. With the help of the recovered surrogates, we further devise an unbiased estimation of long-term causal effects. Extensive experimental results on the real-world and semi-synthetic datasets demonstrate the effectiveness of our proposed method.
翻訳日:2022-08-10 12:17:19 公開日:2022-08-09
# 説明可能な人工知能の意味論

A Means-End Account of Explainable Artificial Intelligence ( http://arxiv.org/abs/2208.04638v1 )

ライセンス: Link先を確認
Oliver Buchholz(参考訳) 説明可能な人工知能(XAI)は、不透明であると見なされる機械学習手法の説明を作成しようとしている。 しかし、これが何を意味するのか、どのように達成するかについては、かなりの意見の相違がある。 著者は、説明すべきもの(トピック)、説明すべきもの(テイクホルダ)、説明すべきもの(インチルメント)、説明すべき理由(ゴール)について意見が一致しない。 本稿では,目的認識論からの洞察をフィールド構造に活用する。 終末認識学によれば、異なる手段は異なる終末を達成するために合理的に採用されるべきである。 XAIに適用するには,さまざまなトピックやステークホルダ,目標など,さまざまな手段が必要です。 私はこれをXAIの終末説明と呼ぶ。 また、その一方で、特定の手段関係が、XAI分野への既存の貢献の分類をいかに生み出すかを示し、一方、XAI手法の適合性は、そのトピック、利害関係者、目標によって規定されているかどうかを分析して評価することができると論じる。

Explainable artificial intelligence (XAI) seeks to produce explanations for those machine learning methods which are deemed opaque. However, there is considerable disagreement about what this means and how to achieve it. Authors disagree on what should be explained (topic), to whom something should be explained (stakeholder), how something should be explained (instrument), and why something should be explained (goal). In this paper, I employ insights from means-end epistemology to structure the field. According to means-end epistemology, different means ought to be rationally adopted to achieve different epistemic ends. Applied to XAI, different topics, stakeholders, and goals thus require different instruments. I call this the means-end account of XAI. The means-end account has a descriptive and a normative component: on the one hand, I show how the specific means-end relations give rise to a taxonomy of existing contributions to the field of XAI; on the other hand, I argue that the suitability of XAI methods can be assessed by analyzing whether they are prescribed by a given topic, stakeholder, and goal.
翻訳日:2022-08-10 12:16:53 公開日:2022-08-09
# 一般化強化学習:経験粒子,行動演算子,強化フィールド,記憶アソシエーション,決定概念

Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts ( http://arxiv.org/abs/2208.04822v1 )

ライセンス: Link先を確認
Po-Hsiang Chiu and Manfred Huber(参考訳) 時間変動とシステムダイナミクスの進化を伴う制御ポリシーを学ぶことは、主流の強化学習アルゴリズムにとって大きな課題となる。 ほとんどの標準的な手法では、アクションは事前に定義された方法で状態空間に順次適用される厳格で固定された選択の集合であると仮定される。 その結果、学習方針は、実質的な再学習プロセスに頼ることなく、アクションセットのバリエーションやアクションの"行動的"な結果に適応する能力に欠ける。 さらに、標準的な行動表現と行動誘発状態遷移機構は、結果として生じる大きな状態空間の難易度と学習方針を未知の状態空間に一般化する能力の欠如により、強化学習が複雑な実世界の応用にどのように適用できるかを本質的に制限する。 本稿では,まず,不確かさや流動的行動の挙動をよりよく扱うためのパラメトリック動作モデルの概念を確立し,次いで,学習エージェントの作業記憶に保持される「分極経験粒子」によって確立された物理に触発された構成体として強化場の概念を導入することにより,ベイズ流の一般化強化学習枠組みを提案する。 これらの粒子は、時間とともに自己組織的に進化する動的学習体験を効果的にエンコードする。 強化フィールドの上に、過去のメモリインスタンス(または粒子)が定義された決定の類似性と相互に相互接続される暗黙のグラフ構造を持つものとして、過去のメモリを考慮し、高レベルの決定概念を組み込むための政策学習プロセスをさらに一般化し、学習者の世界モデルを強化するために「連想記憶」の原則を適用することができる。

Learning a control policy that involves time-varying and evolving system dynamics often poses a great challenge to mainstream reinforcement learning algorithms. In most standard methods, actions are often assumed to be a rigid, fixed set of choices that are sequentially applied to the state space in a predefined manner. Consequently, without resorting to substantial re-learning processes, the learned policy lacks the ability in adapting to variations in the action set and the action's "behavioral" outcomes. In addition, the standard action representation and the action-induced state transition mechanism inherently limit how reinforcement learning can be applied in complex, real-world applications primarily due to the intractability of the resulting large state space and the lack of facility to generalize the learned policy to the unknown part of the state space. This paper proposes a Bayesian-flavored generalized reinforcement learning framework by first establishing the notion of parametric action model to better cope with uncertainty and fluid action behaviors, followed by introducing the notion of reinforcement field as a physics-inspired construct established through "polarized experience particles" maintained in the learning agent's working memory. These particles effectively encode the dynamic learning experience that evolves over time in a self-organizing way. On top of the reinforcement field, we will further generalize the policy learning process to incorporate high-level decision concepts by considering the past memory as having an implicit graph structure, in which the past memory instances (or particles) are interconnected with similarity between decisions defined, and thereby, the "associative memory" principle can be applied to augment the learning agent's world model.
翻訳日:2022-08-10 12:16:34 公開日:2022-08-09
# 意思決定木学習のグローバル評価

Global Evaluation for Decision Tree Learning ( http://arxiv.org/abs/2208.04828v1 )

ライセンス: Link先を確認
Fabian Spaeh, Sven Kosub(参考訳) 我々は,クラスタリング上の距離を決定木の構築プロセスに転送し,その結果,従来のid3アルゴリズムを拡張して,単一葉を考慮せず,木全体の距離から基底真理までの変更を行う。 次に,この考え方を原版と比較して評価し,問題点について議論すると同時に,グローバルアプローチの強みについても論じる。 このベースで、グローバルな評価が価値のある他のシナリオを特定します。

We transfer distances on clusterings to the building process of decision trees, and as a consequence extend the classical ID3 algorithm to perform modifications based on the global distance of the tree to the ground truth--instead of considering single leaves. Next, we evaluate this idea in comparison with the original version and discuss occurring problems, but also strengths of the global approach. On this basis, we finish by identifying other scenarios where global evaluations are worthwhile.
翻訳日:2022-08-10 12:16:03 公開日:2022-08-09
# 因果世界モデルの本質的動機づけ学習

Intrinsically Motivated Learning of Causal World Models ( http://arxiv.org/abs/2208.04892v1 )

ライセンス: Link先を確認
Louis Annabi(参考訳) 近年のディープラーニングと強化学習の進歩にもかかわらず、特定のタスクで学んだスキルの伝達と一般化は、人間(または動物)の知性と比較して非常に限られている。 常識知識の生涯的かつ漸進的な構築は、より一般的な知性を達成する上で必要な要素かもしれない。 有望な方向は、環境とセンサーの相互作用の背後に隠された真の物理的メカニズムを捉える世界モデルを構築することである。 ここでは, 環境の因果構造を推定することは, 適切な介入データ収集の手段として, 幸福な行動の恩恵を受けることができると考えられる。

Despite the recent progress in deep learning and reinforcement learning, transfer and generalization of skills learned on specific tasks is very limited compared to human (or animal) intelligence. The lifelong, incremental building of common sense knowledge might be a necessary component on the way to achieve more general intelligence. A promising direction is to build world models capturing the true physical mechanisms hidden behind the sensorimotor interaction with the environment. Here we explore the idea that inferring the causal structure of the environment could benefit from well-chosen actions as means to collect relevant interventional data.
翻訳日:2022-08-10 12:15:56 公開日:2022-08-09
# t細胞受容体配列を用いた癌検出のためのスパース注意に基づく複数インスタンスニューラルネットワーク

Multiple Instance Neural Networks Based on Sparse Attention for Cancer Detection using T-cell Receptor Sequences ( http://arxiv.org/abs/2208.04524v1 )

ライセンス: Link先を確認
Younghoon Kim, Tao Wang, Danyi Xiong, Xinlei Wang, and Seongoh Park(参考訳) がんの早期発見は、バイオメディカル分野において最重要視されているため、多くの研究がなされている。 この生物学的問題に答えるために使用されるさまざまな種類のデータの中で、T細胞受容体(TCR)に基づく研究は、腫瘍生物学における宿主免疫系の役割の認識が高まり、近年注目されている。 しかし、患者と複数のtcrシーケンスの間の1対1の対応は、研究者が従来の統計/機械学習手法を採用することを妨げている。 このタイプのデータを、MIL(Multiple Case Learning)のコンテキストでモデル化する試みが最近行われた。 TCRシークエンスを用いた癌検出へのMILの新規な応用といくつかの腫瘍タイプで十分な性能を示したにもかかわらず、特に特定のがんタイプに対して改善の余地は残っている。 さらに,本アプリケーションでは説明可能なニューラルネットワークモデルが十分に検討されていない。 本稿では,sparse attention(minn-sa)に基づく複数のインスタンスニューラルネットワークを提案する。 スパースアテンション構造は各バッグの不正なインスタンスを排除し、スキップ接続と組み合わせて解釈可能性と予測性能を両立させる。 以上の結果から,MINN-SAは,従来のMIL法と比較して,10種類の癌の平均値において,OC曲線(AUC)値が最も高い値を示した。 さらに、MINN-SAがT細胞レパートリーの腫瘍抗原に特異的なTCRを同定できると推定された注意点から観察した。

Early detection of cancers has been much explored due to its paramount importance in biomedical fields. Among different types of data used to answer this biological question, studies based on T cell receptors (TCRs) are under recent spotlight due to the growing appreciation of the roles of the host immunity system in tumor biology. However, the one-to-many correspondence between a patient and multiple TCR sequences hinders researchers from simply adopting classical statistical/machine learning methods. There were recent attempts to model this type of data in the context of multiple instance learning (MIL). Despite the novel application of MIL to cancer detection using TCR sequences and the demonstrated adequate performance in several tumor types, there is still room for improvement, especially for certain cancer types. Furthermore, explainable neural network models are not fully investigated for this application. In this article, we propose multiple instance neural networks based on sparse attention (MINN-SA) to enhance the performance in cancer detection and explainability. The sparse attention structure drops out uninformative instances in each bag, achieving both interpretability and better predictive performance in combination with the skip connection. Our experiments show that MINN-SA yields the highest area under the ROC curve (AUC) scores on average measured across 10 different types of cancers, compared to existing MIL approaches. Moreover, we observe from the estimated attentions that MINN-SA can identify the TCRs that are specific for tumor antigens in the same T cell repertoire.
翻訳日:2022-08-10 12:15:09 公開日:2022-08-09
# 機械学習におけるログコッシュ損失関数の統計的特性

Statistical Properties of the log-cosh Loss Function Used in Machine Learning ( http://arxiv.org/abs/2208.04564v1 )

ライセンス: Link先を確認
Resve A. Saleh and A.K.Md. Ehsanes Saleh(参考訳) 本稿では,ログコッシュ損失関数と呼ばれる機械学習で一般的な損失関数を解析する。 この損失関数を用いて多くの論文が出版されているが、今日まで統計学的解析は文献に発表されていない。 本稿では,ログコッシュ損失が発生する分布関数について述べる。 我々は、コーシー分布と呼ばれる同様の分布と比較し、その特性を特徴づける様々な統計的手順を実行する。 特に、関連するpdf、cdf、可能性関数およびフィッシャー情報について検討する。 コーシー分布とコーシュ分布と、漸近バイアス、漸近分散、信頼区間を持つ位置パラメータのMLEを並べて検討する。 また、ハマー損失関数やランク分散関数を含む、他のいくつかの損失関数からのロバストな推定器の比較も提供する。 さらに,量的回帰に対するlog-cosh関数の利用について検討する。 特に,分位回帰の最大確率推定器を導出できる分位分布関数を同定する。 最後に、ログコッシュに基づく量子M推定器と、畳み込み平滑化に基づく量子レグレッションに対する頑健な単調性を比較する。

This paper analyzes a popular loss function used in machine learning called the log-cosh loss function. A number of papers have been published using this loss function but, to date, no statistical analysis has been presented in the literature. In this paper, we present the distribution function from which the log-cosh loss arises. We compare it to a similar distribution, called the Cauchy distribution, and carry out various statistical procedures that characterize its properties. In particular, we examine its associated pdf, cdf, likelihood function and Fisher information. Side-by-side we consider the Cauchy and Cosh distributions as well as the MLE of the location parameter with asymptotic bias, asymptotic variance, and confidence intervals. We also provide a comparison of robust estimators from several other loss functions, including the Huber loss function and the rank dispersion function. Further, we examine the use of the log-cosh function for quantile regression. In particular, we identify a quantile distribution function from which a maximum likelihood estimator for quantile regression can be derived. Finally, we compare a quantile M-estimator based on log-cosh with robust monotonicity against another approach to quantile regression based on convolutional smoothing.
翻訳日:2022-08-10 12:14:44 公開日:2022-08-09
# 旅行時間予測のための希少時間条件の表現学習

Representation learning of rare temporal conditions for travel time prediction ( http://arxiv.org/abs/2208.04667v1 )

ライセンス: Link先を確認
Niklas Petersen, Filipe Rodrigues, Francisco Pereira(参考訳) 稀な時間的状況(例えば、休日、学校休暇期間など)での旅行時間の予測は、歴史的データの制限による課題となる。 もし可能であれば、履歴データは、長い時間(例えば、道路工事、交通の落ち着くイニシアチブなど)における他の変化の確率が高いために、不均質な時系列を形成することが多い。 これは特に都市や郊外で顕著である。 稀な時間条件を符号化するベクトル空間モデルを提案し、時間条件の異なるコヒーレントな表現学習を可能にする。 ベクトル空間符号化を用いて時間的設定を表現する場合、異なる基準線上での走行時間予測の性能向上を示す。

Predicting travel time under rare temporal conditions (e.g., public holidays, school vacation period, etc.) constitutes a challenge due to the limitation of historical data. If at all available, historical data often form a heterogeneous time series due to high probability of other changes over long periods of time (e.g., road works, introduced traffic calming initiatives, etc.). This is especially prominent in cities and suburban areas. We present a vector-space model for encoding rare temporal conditions, that allows coherent representation learning across different temporal conditions. We show increased performance for travel time prediction over different baselines when utilizing the vector-space encoding for representing the temporal setting.
翻訳日:2022-08-10 12:14:29 公開日:2022-08-09
# プログレッシブ編集による高リコールデータテキスト生成

High Recall Data-to-text Generation with Progressive Edit ( http://arxiv.org/abs/2208.04558v1 )

ライセンス: Link先を確認
Choonghan Kim and Gary Geunbae Lee(参考訳) Data-to-text (D2T) は構造化された入力からテキストを生成するタスクである。 我々は,同じ文を2回繰り返すと,構造化された入力から非対称な文からなる出力をトランスフォーマー(T5)モデルで生成することを示した。 言い換えれば、これらの文の長さと質は異なる。 我々はこの現象を「非対称生成」と呼び、これをD2T生成で活用する。 非対称文が生成されると、出力の最初の部分を無繰り返しターゲットで加算する。 プログレッシブ・エディット (progressive edit, proedit) が進むにつれ、リコールは増加する。 したがって、この方法は編集前よりも構造化された入力をよりよくカバーする。 ProEditは、D2T生成のパフォーマンスを改善するためのシンプルだが効果的な方法であり、ToTToデータセットで新しい最先端結果を達成する。

Data-to-text (D2T) generation is the task of generating texts from structured inputs. We observed that when the same target sentence was repeated twice, Transformer (T5) based model generates an output made up of asymmetric sentences from structured inputs. In other words, these sentences were different in length and quality. We call this phenomenon "Asymmetric Generation" and we exploit this in D2T generation. Once asymmetric sentences are generated, we add the first part of the output with a no-repeated-target. As this goes through progressive edit (ProEdit), the recall increases. Hence, this method better covers structured inputs than before editing. ProEdit is a simple but effective way to improve performance in D2T generation and it achieves the new stateof-the-art result on the ToTTo dataset
翻訳日:2022-08-10 12:11:18 公開日:2022-08-09
# アフリカ語文脈における名前付きエンティティ認識モデルの性能に及ぼすアノテーション密度の影響

Effects of Annotations' Density on Named Entity Recognition Models' Performance in the Context of African Languages ( http://arxiv.org/abs/2208.04568v1 )

ライセンス: Link先を確認
Manuel A. Fokam(参考訳) 最近、アフリカの言語は自然言語処理(NLP)の研究の対象となり、この分野におけるその表現が著しく増加した。 しかし、ほとんどの研究は、名前付きエンティティ認識(ner)のようなタスクにおけるモデルのパフォーマンスを評価する際にデータセットの品質よりもモデルに焦点を当てる傾向がある。 これはほとんどのケースでうまく機能するが、低リソース言語でNLPを行うことの制限、すなわち、処理時のデータセットの品質と量を考慮していない。 本稿では,データセットの品質に基づく各種モデルの性能分析を行う。 我々は,アフリカNERデータセットの文あたりの実体密度について,事前学習モデルの評価を行った。 我々は,低リソース言語におけるNLP研究の方法を改善するために,本研究を期待する。

African languages have recently been the subject of several studies in Natural Language Processing (NLP) and, this has caused a significant increase in their representation in the field. However, most studies tend to focus more on the models than the quality of the datasets when assessing the models' performance in tasks such as Named Entity Recognition (NER). While this works well in most cases, it does not account for the limitations of doing NLP with low-resource languages, that is, the quality and the quantity of the dataset at our disposal. This paper provides an analysis of the performance of various models based on the quality of the dataset. We evaluate different pre-trained models with respect to the entity density per sentence of some African NER datasets. We hope with this study to improve the way NLP studies are done in the context of low-resourced languages.
翻訳日:2022-08-10 12:11:07 公開日:2022-08-09
# 深部強化学習による物体検出

Object Detection with Deep Reinforcement Learning ( http://arxiv.org/abs/2208.04511v1 )

ライセンス: Link先を確認
Manoosh Samiei and Ruofeng Li(参考訳) オブジェクトのローカライゼーションは、コンピュータビジョンの分野で重要なタスクである。 画像中の物体を局所化する手法は,画素の特徴に基づいて提案されている。 近年,物体の局所化を動的決定過程として定式化する方法が提案されている。 本研究では,深層強化学習に基づく新しい能動物体定位アルゴリズムを実装した。 このmdpのための2つの異なるアクション設定を比較する:階層型メソッドと動的メソッドである。 さらに、異なるハイパーパラメータと様々なアーキテクチャ変化を調査して、モデルの性能に関するアブレーション研究を行う。

Object localization has been a crucial task in computer vision field. Methods of localizing objects in an image have been proposed based on the features of the attended pixels. Recently researchers have proposed methods to formulate object localization as a dynamic decision process, which can be solved by a reinforcement learning approach. In this project, we implement a novel active object localization algorithm based on deep reinforcement learning. We compare two different action settings for this MDP: a hierarchical method and a dynamic method. We further perform some ablation studies on the performance of the models by investigating different hyperparameters and various architecture changes.
翻訳日:2022-08-10 12:10:55 公開日:2022-08-09
# SBPF:画像分類に基づく畳み込みニューラルネットワークのための感性に基づくプルーニングフレームワーク

SBPF: Sensitiveness Based Pruning Framework For Convolutional Neural Network On Image Classification ( http://arxiv.org/abs/2208.04588v1 )

ライセンス: Link先を確認
Yiheng Lu, Maoguo Gong, Wei Zhao, Kaiyuan Feng, and Hao Li(参考訳) 画像分類において、畳み込みニューラルネットワーク(CNN)の圧縮に包括的に使用される。 しかし、プルーニング方法はc1ノルム、バッチノルム値、勾配情報などの有用なパラメータを提供するために十分に訓練されたモデルを必要とするため、事前学習されたモデルのパラメータが十分に最適化されていない場合、フィルタ評価の一貫性が低下する可能性がある。 そこで本研究では,各層の重要性を推定精度の観点から評価するための感度に基づく手法を提案する。 精度は個々のパラメータではなく、各レイヤにまたがるパラメータの分布によって決定されるので、感度に基づく手法はパラメータの更新に堅牢である。 すなわち、不完全学習モデルと完全訓練モデルの間で、各畳み込み層の同様の重要性評価を得ることができる。 CIFAR-10上のVGG-16では、原モデルが50エポックでのみトレーニングされた場合でも、モデルを完全にトレーニングした場合と同等のレイヤー重要度を評価することができる。 次に、定量化感度によって各層から比例するフィルタを除去する。 CIFAR-10, MNIST, CIFAR-100でカスタマイズしたConv-4, ResNet-18のVGG-16上で, 感度ベースプルーニングフレームワークの有効性を検証した。

Pruning techniques are used comprehensively to compress convolutional neural networks (CNNs) on image classification. However, the majority of pruning methods require a well pre-trained model to provide useful supporting parameters, such as C1-norm, BatchNorm value and gradient information, which may lead to inconsistency of filter evaluation if the parameters of the pre-trained model are not well optimized. Therefore, we propose a sensitiveness based method to evaluate the importance of each layer from the perspective of inference accuracy by adding extra damage for the original model. Because the performance of the accuracy is determined by the distribution of parameters across all layers rather than individual parameter, the sensitiveness based method will be robust to update of parameters. Namely, we can obtain similar importance evaluation of each convolutional layer between the imperfect-trained and fully trained models. For VGG-16 on CIFAR-10, even when the original model is only trained with 50 epochs, we can get same evaluation of layer importance as the results when the model is trained fully. Then we will remove filters proportional from each layer by the quantified sensitiveness. Our sensitiveness based pruning framework is verified efficiently on VGG-16, a customized Conv-4 and ResNet-18 with CIFAR-10, MNIST and CIFAR-100, respectively.
翻訳日:2022-08-10 12:10:48 公開日:2022-08-09
# 規則に基づく重み付けエキスパートシステムに基づく大学資格インストラクターの選択

Choose qualified instructor for university based on rule-based weighted expert system ( http://arxiv.org/abs/2208.04657v1 )

ライセンス: Link先を確認
Sana Karimian(参考訳) 学部長のほぼ全員が、各学期ごとに、尊敬されるコースの資格のある教授を選ばなければならない。 この意味では、教育経験、アカデミックトレーニング、コンペティションなどといった要素が考慮される。 この作業は通常、時間を要する学部長のような専門家によって行われる。 これまで、頭部補助のためにいくつかの半自動システムが提案されてきた。 本稿では,完全自動ルールベースエキスパートシステムを開発した。 提案するエキスパートシステムは3つの主要段階から構成される。 まず、人間の専門家の知識を入力し、決定木として設計する。 第2のステップでは、生成された決定木の与えられたルールに基づいてエキスパートシステムが設計される。 第3のステップでは、専門家の品質に基づいて、木の結果を重み付けするアルゴリズムが提案されている。 エキスパートシステムの性能向上のために,各コースに最も熟練した決定木を満たす有能なトレーナーを選択するためのポストプロセスステップとして,多数決アルゴリズムを開発した。 提案する専門家システムの品質は,イラン大学の実データを用いて評価される。 計算された精度は85.55であり、提案方式の堅牢性と精度を示す。 提案方式は, 関連する効率的な処理に比べて計算量が少ない。 また、簡単な実装と透明なボックスが提案システムの特徴である。

Near the entire university faculty directors must select some qualified professors for respected courses in each academic semester. In this sense, factors such as teaching experience, academic training, competition, etc. are considered. This work is usually done by experts, such as faculty directors, which is time consuming. Up to now, several semi-automatic systems have been proposed to assist heads. In this article, a fully automatic rule-based expert system is developed. The proposed expert system consists of three main stages. First, the knowledge of human experts is entered and designed as a decision tree. In the second step, an expert system is designed based on the provided rules of the generated decision tree. In the third step, an algorithm is proposed to weight the results of the tree based on the quality of the experts. To improve the performance of the expert system, a majority voting algorithm is developed as a post-process step to select the qualified trainer who satisfies the most expert decision tree for each course. The quality of the proposed expert system is evaluated using real data from Iranian universities. The calculated accuracy rate is 85.55, demonstrating the robustness and accuracy of the proposed system. The proposed system has little computational complexity compared to related efficient works. Also, simple implementation and transparent box are other features of the proposed system.
翻訳日:2022-08-10 12:10:28 公開日:2022-08-09
# 深層学習による住宅利用における2場面の概念的差異の局所化

Localizing the conceptual difference of two scenes using deep learning for house keeping usages ( http://arxiv.org/abs/2208.04884v1 )

ライセンス: Link先を確認
Ali Atghaei, Ehsan Rahnama, Kiavash azimi(参考訳) 産業環境における2つのイメージ間の概念的差異の発見は,特にHSEの目的において重要であり,関連するコントローラに警告する主要な違いを見つけるための信頼性と適合性はいまだに存在しない。 異なる環境における物体の多種多様さから,この分野における教師あり学習手法の利用は大きな問題となっている。 2つのシーンの照明条件が鮮明でわずかに変化しているため、これらの違いを見出すために2つの画像を鼻で減らすことはできない。 本研究の目的は,一つのシーンの2つのフレームの概念的な違いを2つの異なる時間に見つけ,その違いをフィールドの追加,縮小,変化に分類することである。 本稿では, 深層学習法を提示し, 誤り関数の構造的修正, およびデータの追加と合成のプロセスを用いて, この応用の包括的ソリューションを実証する。 適切なデータセットが提供され,ラベル付けされ,このデータセット上でモデル結果が評価され,実および産業用途での利用の可能性が説明された。

Finding the conceptual difference between the two images in an industrial environment has been especially important for HSE purposes and there is still no reliable and conformable method to find the major differences to alert the related controllers. Due to the abundance and variety of objects in different environments, the use of supervised learning methods in this field is facing a major problem. Due to the sharp and even slight change in lighting conditions in the two scenes, it is not possible to naively subtract the two images in order to find these differences. The goal of this paper is to find and localize the conceptual differences of two frames of one scene but in two different times and classify the differences to addition, reduction and change in the field. In this paper, we demonstrate a comprehensive solution for this application by presenting the deep learning method and using transfer learning and structural modification of the error function, as well as a process for adding and synthesizing data. An appropriate data set was provided and labeled, and the model results were evaluated on this data set and the possibility of using it in real and industrial applications was explained.
翻訳日:2022-08-10 12:10:12 公開日:2022-08-09
# 最大共通部分グラフ推論によるより解釈可能なグラフ類似性計算

More Interpretable Graph Similarity Computation via Maximum Common Subgraph Inference ( http://arxiv.org/abs/2208.04580v1 )

ライセンス: Link先を確認
Zixun Lan, Binjie Hong, Ye Ma, Fei Ma(参考訳) 2つのグラフ間の距離/類似度を計算するグラフ類似度測定は、様々なグラフ関連タスクで発生する。 最近の学習に基づく方法は、2つのグラフ間の相互作用情報を1つの隠れたベクトルに変換し、それを類似性にマッピングするため、解釈可能性に欠ける。 この問題に対処するため,本研究では,最大共通部分グラフ推論(INFMCS)による類似性計算という,グラフ類似性学習のためのより解釈可能なエンドツーエンドパラダイムを提案する。 INFMCSに対する我々の重要な洞察は、類似度スコアと最大共通部分グラフ(MCS)の強い相関である。 我々は、トレーニング中の類似点のみを監督情報として、CSを暗黙的に推測し、正規化MCSサイズを得る。 さらにグローバル情報を取り込むため,グラフ畳み込み層を持つバニラトランスエンコーダ層を積み重ね,新しい置換不変ノード位置符号化を提案する。 モデル全体は非常にシンプルで効果的です。 総合的な実験により、INFMCSはグラフグラフ分類と回帰タスクの最先端のベースラインを一貫して上回ることを示した。 アブレーション実験は、提案した計算パラダイムと他のコンポーネントの有効性を検証する。 また、結果の可視化と統計により、INFMCSの解釈可能性を明らかにする。

Graph similarity measurement, which computes the distance/similarity between two graphs, arises in various graph-related tasks. Recent learning-based methods lack interpretability, as they directly transform interaction information between two graphs into one hidden vector and then map it to similarity. To cope with this problem, this study proposes a more interpretable end-to-end paradigm for graph similarity learning, named Similarity Computation via Maximum Common Subgraph Inference (INFMCS). Our critical insight into INFMCS is the strong correlation between similarity score and Maximum Common Subgraph (MCS). We implicitly infer MCS to obtain the normalized MCS size, with the supervision information being only the similarity score during training. To capture more global information, we also stack some vanilla transformer encoder layers with graph convolution layers and propose a novel permutation-invariant node Positional Encoding. The entire model is quite simple yet effective. Comprehensive experiments demonstrate that INFMCS consistently outperforms state-of-the-art baselines for graph-graph classification and regression tasks. Ablation experiments verify the effectiveness of the proposed computation paradigm and other components. Also, visualization and statistics of results reveal the interpretability of INFMCS.
翻訳日:2022-08-10 12:08:48 公開日:2022-08-09
# 多段階強化学習における臨界期間の重要性について

On the Importance of Critical Period in Multi-stage Reinforcement Learning ( http://arxiv.org/abs/2208.04832v1 )

ライセンス: Link先を確認
Junseok Park, Inwoo Hwang, Min Whoo Lee, Hyunseok Oh, Minsu Lee, Youngki Lee, Byoung-Tak Zhang(参考訳) 幼児の人生の初期は臨界期と呼ばれ、その間に学習性能の全体的な発達は神経可塑性によって著しく影響を受ける。 近年の研究では、実際のニューロンのメカニズムを模倣するディープニューラルネットワークを持つAIエージェントが、人間の臨界期に似た学習期間を示した。 特にこの初期の段階では、適切な刺激が学習能力の発達に重要な役割を果たす。 しかし、人間の認知バイアスを適切な形状の報酬に変換することは極めて困難であり、臨界期以前の研究は適切な刺激を見つけることに集中していない。 さらに, 臨界期における「適切な刺激」の発見を重視した多段階強化学習を提案する。 人間の初期認知発達段階にインスパイアされた我々は、臨界期に近い多段階ガイダンスを使用し、AIエージェントの性能、効率、安定性の観点から適切な形状報酬(ステージ2ガイダンス)を実証する。

The initial years of an infant's life are known as the critical period, during which the overall development of learning performance is significantly impacted due to neural plasticity. In recent studies, an AI agent, with a deep neural network mimicking mechanisms of actual neurons, exhibited a learning period similar to human's critical period. Especially during this initial period, the appropriate stimuli play a vital role in developing learning ability. However, transforming human cognitive bias into an appropriate shaping reward is quite challenging, and prior works on critical period do not focus on finding the appropriate stimulus. To take a step further, we propose multi-stage reinforcement learning to emphasize finding ``appropriate stimulus" around the critical period. Inspired by humans' early cognitive-developmental stage, we use multi-stage guidance near the critical period, and demonstrate the appropriate shaping reward (stage-2 guidance) in terms of the AI agent's performance, efficiency, and stability.
翻訳日:2022-08-10 12:06:17 公開日:2022-08-09
# 親切でカオスを殺す - 不確実性の下でチームのパフォーマンスが向上する

Kill Chaos with Kindness: Agreeableness Improves Team Performance Under Uncertainty ( http://arxiv.org/abs/2208.04873v1 )

ライセンス: Link先を確認
Soo Ling Lim, Randall S. Peterson, Peter J. Bentley, Xiaoran Hu, JoEllyn Prouty McLaren(参考訳) チームは人間の達成の中心です。 過去半世紀にわたり、心理学者は神経症、外向性、開放性、良心性、同意性という5つの文化的に有効な人格変数を特定してきた。 最初の4つは、チームパフォーマンスと一貫した関係を示しています。 しかし、同調性(調和性、利他性、謙虚さ、協力性)は、チームパフォーマンスと無意味で、非常に可変的な関係を示している。 我々はこの矛盾を計算モデルによって解決する。 エージェントベースモデル(ABM)は、チームワークにおける性格特性の影響を予測するために使用され、遺伝的アルゴリズムはABMの限界を探索するために使用され、どの特性が最高のパフォーマンスチームと最も悪いパフォーマンスチームと相関しているかを見つけるために使用される。 調査によって明らかになった新たな依存関係は、これまでチームのパフォーマンスに関する最大のデータセットから、5,000以上のグループタスクと不確実性のないタスクに携わる593チームの3,698人の個人を10年以上にわたって収集したデータを分析することによって、裏付けられている。 私たちの発見では、チームのパフォーマンスとアジリティの依存関係は、タスクの不確実性によって緩和されます。 このように進化的計算とABMを組み合わせることで、チームワークの科学的調査、新しい予測、人間の行動理解の改善のための新しい方法論が提供される。 研究結果は,作業環境が流動的になり,不確実性が高まっている中で,コンピュータモデリングがチームの将来に光を当てるだけでなく,理論開発に有用であることを確認する。

Teams are central to human accomplishment. Over the past half-century, psychologists have identified the Big-Five cross-culturally valid personality variables: Neuroticism, Extraversion, Openness, Conscientiousness, and Agreeableness. The first four have shown consistent relationships with team performance. Agreeableness (being harmonious, altruistic, humble, and cooperative), however, has demonstrated a non-significant and highly variable relationship with team performance. We resolve this inconsistency through computational modelling. An agent-based model (ABM) is used to predict the effects of personality traits on teamwork and a genetic algorithm is then used to explore the limits of the ABM in order to discover which traits correlate with best and worst performing teams for a problem with different levels of uncertainty (noise). New dependencies revealed by the exploration are corroborated by analyzing previously-unseen data from one the largest datasets on team performance to date comprising 3,698 individuals in 593 teams working on more than 5,000 group tasks with and without uncertainty, collected over a 10-year period. Our finding is that the dependency between team performance and Agreeableness is moderated by task uncertainty. Combining evolutionary computation with ABMs in this way provides a new methodology for the scientific investigation of teamwork, making new predictions, and improving our understanding of human behaviors. Our results confirm the potential usefulness of computer modelling for developing theory, as well as shedding light on the future of teams as work environments are becoming increasingly fluid and uncertain.
翻訳日:2022-08-10 12:05:22 公開日:2022-08-09
# エネルギー効率の高いディープスパイクニューラルネットワークプロセッサ設計のための時間対一のコーディングと変換認識トレーニング

A Time-to-first-spike Coding and Conversion Aware Training for Energy-Efficient Deep Spiking Neural Network Processor Design ( http://arxiv.org/abs/2208.04494v1 )

ライセンス: Link先を確認
Dongwoo Lew, Kyungchul Lee, and Jongsun Park(参考訳) 本稿では,SNN(Deep Spiking Neural Network)を精度良くシームレスに動作させることができるエネルギー効率のよいSNNアーキテクチャを提案する。 まず,ハードウェア実装のオーバーヘッドを伴わずに,ANNからSNNへの変換損失を低減するための変換アウェアネストレーニング(CAT)を提案する。 提案したCATでは、ANNトレーニング中にSNNをシミュレートするために開発されたアクティベーション関数を効率よく利用し、変換後のデータ表現誤差を低減する。 また,CAT手法に基づいて,スパイク時間情報を利用する軽量対数計算が可能な時間対1スパイク符号を提案する。 提案手法をサポートするSNNプロセッサは28nmCMOSプロセスを用いて実装されている。 486.7uJ、503.6uJ、1426uJの推論エネルギーで、それぞれ91.7%、67.9%、57.4%のトップ1アキュラシーを達成し、5ビット対数重みを持つVGG-16を実行する際にCIFAR-10、CIFAR-100、Tiny-ImageNetを処理する。

In this paper, we present an energy-efficient SNN architecture, which can seamlessly run deep spiking neural networks (SNNs) with improved accuracy. First, we propose a conversion aware training (CAT) to reduce ANN-to-SNN conversion loss without hardware implementation overhead. In the proposed CAT, the activation function developed for simulating SNN during ANN training, is efficiently exploited to reduce the data representation error after conversion. Based on the CAT technique, we also present a time-to-first-spike coding that allows lightweight logarithmic computation by utilizing spike time information. The SNN processor design that supports the proposed techniques has been implemented using 28nm CMOS process. The processor achieves the top-1 accuracies of 91.7%, 67.9% and 57.4% with inference energy of 486.7uJ, 503.6uJ, and 1426uJ to process CIFAR-10, CIFAR-100, and Tiny-ImageNet, respectively, when running VGG-16 with 5bit logarithmic weights.
翻訳日:2022-08-10 12:03:41 公開日:2022-08-09
# The Mysteries of the Maya: Selected Contributions from the Machine Learning Challenge & The Discovery Challenge Workshop at ECML PKDD 2021

Discover the Mysteries of the Maya: Selected Contributions from the Machine Learning Challenge & The Discovery Challenge Workshop at ECML PKDD 2021 ( http://arxiv.org/abs/2208.03163v2 )

ライセンス: Link先を確認
Dragi Kocev, Nikola Simidjievski, Ana Kostovska, Ivica Dimitrovski, \v{Z}iga Kokalj(参考訳) この巻には、European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Database (ECML PKDD 2021)で発表された機械学習チャレンジ "Discover the Mysteries of the Maya" から選ばれたコントリビューションが含まれている。 リモートセンシングは、古代マヤの森林地帯における伝統的な考古学的景観調査を大いに促進した。 典型的な探検と発見の試みは、古代都市全体に焦点を当て、個々の建物や建物にも焦点を当てている。 近年,古代マヤ集落の同定に機械学習を活用する試みがいくつか行われている。 これらの試みは、関連するものの、狭い領域に集中し、かつて古代マヤが定住していた地域のほんの一部をカバーする高品質の空中レーザー走査(als)データに依存している。 一方、欧州宇宙機関(ESA)のセンチネルミッションによって生成された衛星画像データは豊富であり、さらに重要なことに一般に公開されている。 古代マヤの建築(建物、アグアダ、プラットフォーム)を同定し、様々な種類の衛星画像(sentinel-1やsentinel-2)データとals(lidar)データの統合イメージセグメンテーションを行うことを目的とした「マヤの神秘の発見」チャレンジ。

The volume contains selected contributions from the Machine Learning Challenge "Discover the Mysteries of the Maya", presented at the Discovery Challenge Track of The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2021). Remote sensing has greatly accelerated traditional archaeological landscape surveys in the forested regions of the ancient Maya. Typical exploration and discovery attempts, beside focusing on whole ancient cities, focus also on individual buildings and structures. Recently, there have been several successful attempts of utilizing machine learning for identifying ancient Maya settlements. These attempts, while relevant, focus on narrow areas and rely on high-quality aerial laser scanning (ALS) data which covers only a fraction of the region where ancient Maya were once settled. Satellite image data, on the other hand, produced by the European Space Agency's (ESA) Sentinel missions, is abundant and, more importantly, publicly available. The "Discover the Mysteries of the Maya" challenge aimed at locating and identifying ancient Maya architectures (buildings, aguadas, and platforms) by performing integrated image segmentation of different types of satellite imagery (from Sentinel-1 and Sentinel-2) data and ALS (lidar) data.
翻訳日:2022-08-10 10:28:36 公開日:2022-08-09
# BlenderBot 3: 責任を負うことを継続的に学習する会話エージェント

BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage ( http://arxiv.org/abs/2208.03188v2 )

ライセンス: Link先を確認
Kurt Shuster, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung, Moya Chen, Kushal Arora, Joshua Lane, Morteza Behrooz, William Ngan, Spencer Poff, Naman Goyal, Arthur Szlam, Y-Lan Boureau, Melanie Kambadur, Jason Weston(参考訳) 本稿では,BlenderBot 3を提案する。BlenderBot 3は175Bのパラメータ対話モデルで,インターネットへのアクセスと長期記憶によるオープンドメイン会話が可能で,多数のユーザ定義タスクでトレーニングされている。 モデルウェイトとコードの両方をリリースし、また、オーガニックユーザと対話するために、モデルを公開Webページにデプロイしました。 この技術レポートでは、モデルがどのように構築されたか(アーキテクチャ、モデル、トレーニングスキーム)と、安全メカニズムを含むその展開の詳細を記述している。 人間による評価は、前任者(Roller et al., 2021; Komeili et al., 2022)を含む既存のオープンドメイン対話エージェントよりも優れていることを示している。 最後に、デプロイから収集したデータを使用した継続的学習の計画について詳述します。 この研究プログラムの目的は、コミュニティが対話を通じて学習する責任あるエージェントを継続的に研究できるようにすることである。

We present BlenderBot 3, a 175B parameter dialogue model capable of open-domain conversation with access to the internet and a long-term memory, and having been trained on a large number of user defined tasks. We release both the model weights and code, and have also deployed the model on a public web page to interact with organic users. This technical report describes how the model was built (architecture, model and training scheme), and details of its deployment, including safety mechanisms. Human evaluations show its superiority to existing open-domain dialogue agents, including its predecessors (Roller et al., 2021; Komeili et al., 2022). Finally, we detail our plan for continual learning using the data collected from deployment, which will also be publicly released. The goal of this research program is thus to enable the community to study ever-improving responsible agents that learn through interaction.
翻訳日:2022-08-10 10:28:08 公開日:2022-08-09
# ネットワーク構造選好がノード分類とリンク予測に及ぼす影響

The Influence of Network Structural Preference on Node Classification and Link Prediction ( http://arxiv.org/abs/2208.03712v2 )

ライセンス: Link先を確認
Sarmad N. Mohammed and Semra G\"und\"u\c{c}(参考訳) 複雑なネットワーク分析の最近の進歩は、様々な分野の応用に幅広い可能性をもたらした。 ネットワーク分析のパワーはノードの機能に依存します。 トポロジに基づくノードの特徴は、局所的および大域的空間関係とノード接続構造の実現である。 したがって、ノード特性と隣接ノードの接続構造に関する正しい情報収集は、複雑なネットワーク解析におけるノード分類とリンク予測において最も顕著な役割を果たす。 本稿では,特徴ベクトル上に無作為なランダムウォークを埋め込んだ遷移確率行列 (Transition Probabilities Matrix, TPM) という新しい特徴抽象化手法を提案する。 ノード特徴ベクトルは、予め定義された半径のウォークの集合から得られる遷移確率からなる。 遷移確率は局所接続構造に直接関係しており、したがって特徴ベクトルに正しく埋め込まれている。 提案手法の成功は3つの実世界のネットワーク上でのノード識別/分類とリンク予測で検証された。 実世界のネットワークでは、類似した接続構造を持つノードが一般的であり、新しいネットワーク上の予測のために類似ネットワークから情報を取得することは、クロスネットワークの一般化タスクにおいて、提案アルゴリズムが最先端のアルゴリズムよりも優れているという識別特性である。

Recent advances in complex network analysis opened a wide range of possibilities for applications in diverse fields. The power of the network analysis depends on the node features. The topology-based node features are realizations of local and global spatial relations and node connectivity structure. Hence, collecting correct information on the node characteristics and the connectivity structure of the neighboring nodes plays the most prominent role in node classification and link prediction in complex network analysis. The present work introduces a new feature abstraction method, namely the Transition Probabilities Matrix (TPM), based on embedding anonymous random walks on feature vectors. The node feature vectors consist of transition probabilities obtained from sets of walks in a predefined radius. The transition probabilities are directly related to the local connectivity structure, hence correctly embedded onto feature vectors. The success of the proposed embedding method is tested on node identification/classification and link prediction on three commonly used real-world networks. In real-world networks, nodes with similar connectivity structures are common; Thus, obtaining information from similar networks for predictions on the new networks is the distinguishing characteristic that makes the proposed algorithm superior to the state-of-the-art algorithms in terms of cross-networks generalization tasks.
翻訳日:2022-08-10 10:27:50 公開日:2022-08-09
# 対話要約課題:対話要約共有課題の結果

DialogSum Challenge: Results of the Dialogue Summarization Shared Task ( http://arxiv.org/abs/2208.03898v2 )

ライセンス: Link先を確認
Yulong Chen, Naihao Deng, Yang Liu, Yue Zhang(参考訳) 我々は,INLG 2022における実生活シナリオ対話の要約作業であるDialogSum Challengeの結果を報告する。 4つのチームがこの共有タスクに参加し、3つのチームがシステムレポートを提出し、対話要約のパフォーマンスを改善するためのさまざまな方法を模索します。 ルージュスコアなどの自動評価指標に関するベースラインモデルに対して大きな改善が見られたが、複数の側面からの評価により、モデル生成出力と人間の注釈付き要約との間に有意なギャップがあることが判明した。 これらの結果は,対話要約の難しさを示し,よりきめ細かい評価指標が必要であることを示唆している。

We report the results of DialogSum Challenge, the shared task on summarizing real-life scenario dialogues at INLG 2022. Four teams participate in this shared task and three submit their system reports, exploring different methods to improve the performance of dialogue summarization. Although there is a great improvement over the baseline models regarding automatic evaluation metrics, such as Rouge scores, we find that there is a salient gap between model generated outputs and human annotated summaries by human evaluation from multiple aspects. These findings demonstrate the difficulty of dialogue summarization and suggest that more fine-grained evaluatuion metrics are in need.
翻訳日:2022-08-10 10:27:11 公開日:2022-08-09
# 顔認識研究の8年-再現性,成果,オープンイシュー

Eight Years of Face Recognition Research: Reproducibility, Achievements and Open Issues ( http://arxiv.org/abs/2208.04040v2 )

ライセンス: Link先を確認
Tiago de Freitas Pereira and Dominic Schmidli and Yu Linghu and Xinyi Zhang and S\'ebastien Marcel and Manuel G\"unther(参考訳) 自動顔認識は、人気の高い研究分野である。 この分野における過去30年間の集中的な研究において、様々な顔認識アルゴリズムが提案されている。 ディープラーニングの人気と、さまざまな問題を解決する能力によって、顔認識研究者は、このパラダイムの下でより良いモデルを作成することに力を注いでいる。 2015年からは、最先端の顔認識がディープラーニングモデルに根ざしている。 顔認識アルゴリズムのパフォーマンスを評価するために、大規模で多様なデータセットが利用可能であるにもかかわらず、現代のデータセットの多くは、顔のポーズ、オクルージョン、照明、表情、画像品質など、顔認識に影響を与えるさまざまな要因を組み合わせている。 アルゴリズムがこれらのデータセットにエラーを発生させた場合、このエラーの原因となった要因がどれであるかは明らかではないため、どの方向で研究が必要かは明らかになっていない。 この研究は、2014年に開発され、2016年に出版されたこれまでの研究のフォローアップであり、顔認識アルゴリズムに対する様々な顔の側面の影響を示している。 現在の最先端システムと過去の最高のシステムを比較することで、強い隠蔽、ある種の照明、強い表現がディープラーニングアルゴリズムによって習得される問題であるのに対して、低解像度画像による認識、極端なポーズバリエーション、オープンセット認識は依然として未解決の問題であることを示す。 これを示すために、6つの異なるデータセットと5つの異なる顔認識アルゴリズムを用いた一連の実験をオープンソースで再現可能な方法で実施した。 すべての実験を実行するためのソースコードを提供しています。これは容易に拡張可能で、評価であなた自身のディープネットワークを活用するのは数分後になります。

Automatic face recognition is a research area with high popularity. Many different face recognition algorithms have been proposed in the last thirty years of intensive research in the field. With the popularity of deep learning and its capability to solve a huge variety of different problems, face recognition researchers have concentrated effort on creating better models under this paradigm. From the year 2015, state-of-the-art face recognition has been rooted in deep learning models. Despite the availability of large-scale and diverse datasets for evaluating the performance of face recognition algorithms, many of the modern datasets just combine different factors that influence face recognition, such as face pose, occlusion, illumination, facial expression and image quality. When algorithms produce errors on these datasets, it is not clear which of the factors has caused this error and, hence, there is no guidance in which direction more research is required. This work is a followup from our previous works developed in 2014 and eventually published in 2016, showing the impact of various facial aspects on face recognition algorithms. By comparing the current state-of-the-art with the best systems from the past, we demonstrate that faces under strong occlusions, some types of illumination, and strong expressions are problems mastered by deep learning algorithms, whereas recognition with low-resolution images, extreme pose variations, and open-set recognition is still an open problem. To show this, we run a sequence of experiments using six different datasets and five different face recognition algorithms in an open-source and reproducible manner. We provide the source code to run all of our experiments, which is easily extensible so that utilizing your own deep network in our evaluation is just a few minutes away.
翻訳日:2022-08-10 10:26:59 公開日:2022-08-09
# 明示的なハイレベルセマンティクスによるビデオテキスト検索の促進

Boosting Video-Text Retrieval with Explicit High-Level Semantics ( http://arxiv.org/abs/2208.04215v2 )

ライセンス: Link先を確認
Haoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji, Jungong Han, Errui Ding(参考訳) ビデオテキスト検索(VTR)は、クエリ(ビデオ)が与えられた関連ビデオ(テキスト)を検索することを目的とした、マルチモーダル理解のための魅力的な課題である。 既存の手法では、ビデオとテキストを整列するために全く異質な視覚的なテキスト情報を用いるが、同時に均質な高レベル意味情報の認識が欠如している。 このギャップを埋めるために,本研究では,高次セマンティクスを明示的に組み込むことで,モーダル表現を改良したHiSE for VTRという新しい視覚言語整合モデルを提案する。 まず、明示的なハイレベルセマンティクスの階層的性質を調べ、さらに2つのレベル、すなわち離散的セマンティクスと全体論的セマンティクスに分解する。 具体的には,市販のセマンティクスエンティティ予測器を用いて,個別のハイレベルセマンティクスを生成する。 並行して、訓練されたビデオキャプションモデルを用いて、全体論的なハイレベルセマンティクスを出力する。 テキストのモダリティについては、テキストを発生、動作、エンティティの3つの部分にパースします。 特に、出現は全体論的高レベル意味論に対応し、一方行動と実体は離散的な意味論を表す。 次に、グラフ推論技術を用いて、全体論的および離散的な高レベルセマンティクス間の相互作用を促進する。 MSR-VTT, MSVD, DiDeMoを含む3つのベンチマークデータセットにおいて, 高レベルセマンティクスの明示的な活用により, 最先端の手法よりも優れた性能が得られることを示す。

Video-text retrieval (VTR) is an attractive yet challenging task for multi-modal understanding, which aims to search for relevant video (text) given a query (video). Existing methods typically employ completely heterogeneous visual-textual information to align video and text, whilst lacking the awareness of homogeneous high-level semantic information residing in both modalities. To fill this gap, in this work, we propose a novel visual-linguistic aligning model named HiSE for VTR, which improves the cross-modal representation by incorporating explicit high-level semantics. First, we explore the hierarchical property of explicit high-level semantics, and further decompose it into two levels, i.e. discrete semantics and holistic semantics. Specifically, for visual branch, we exploit an off-the-shelf semantic entity predictor to generate discrete high-level semantics. In parallel, a trained video captioning model is employed to output holistic high-level semantics. As for the textual modality, we parse the text into three parts including occurrence, action and entity. In particular, the occurrence corresponds to the holistic high-level semantics, meanwhile both action and entity represent the discrete ones. Then, different graph reasoning techniques are utilized to promote the interaction between holistic and discrete high-level semantics. Extensive experiments demonstrate that, with the aid of explicit high-level semantics, our method achieves the superior performance over state-of-the-art methods on three benchmark datasets, including MSR-VTT, MSVD and DiDeMo.
翻訳日:2022-08-10 10:26:31 公開日:2022-08-09
# 深部ニューラルネットワークを用いた熱界面材料の高速流れ挙動モデリング

Rapid Flow Behavior Modeling of Thermal Interface Materials Using Deep Neural Networks ( http://arxiv.org/abs/2208.04045v2 )

ライセンス: Link先を確認
Simon Baeuerle, Marius Gebhardt, Jonas Barth, Andreas Steimer and Ralf Mikut(参考訳) 熱界面材料(TIM)は電子包装に広く使われている。 電力密度の増大と組立空間の制限は熱管理の要求が大きい。 大きな冷却面を効率的に覆う必要がある。 ヒートシンクを接合すると、予め放出されたTIMが冷却面上に広がる。 分配パターンに関する勧告は、矩形のような単純な曲面幾何学のためにのみ存在する。 より複雑な幾何学では、計算流体力学(CFD)シミュレーションが手動実験と組み合わせて用いられる。 CFDシミュレーションは高い精度を提供するが、シミュレーションの専門家が関与し、セットアップにはかなり費用がかかる。 我々はtimの拡散挙動をモデル化するための軽量ヒューリスティックを提案する。 このモデルから得られたデータに基づいて,ニューラルネットワーク(ANN)をトレーニングすることにより,計算を高速化する。 これは高速な計算時間を提供し、さらに勾配情報を提供する。 このANNは、TIMの手動パターン設計を支援するだけでなく、自動パターン最適化を可能にする。 このアプローチを最先端と比較し、実際の製品サンプルを検証に使用します。

Thermal Interface Materials (TIMs) are widely used in electronic packaging. Increasing power density and limited assembly space pose high demands on thermal management. Large cooling surfaces need to be covered efficiently. When joining the heatsink, previously dispensed TIM spreads over the cooling surface. Recommendations on the dispensing pattern exist only for simple surface geometries such as rectangles. For more complex geometries, Computational Fluid Dynamics (CFD) simulations are used in combination with manual experiments. While CFD simulations offer a high accuracy, they involve simulation experts and are rather expensive to set up. We propose a lightweight heuristic to model the spreading behavior of TIM. We further speed up the calculation by training an Artificial Neural Network (ANN) on data from this model. This offers rapid computation times and further supplies gradient information. This ANN can not only be used to aid manual pattern design of TIM, but also enables an automated pattern optimization. We compare this approach against the state-of-the-art and use real product samples for validation.
翻訳日:2022-08-10 10:26:02 公開日:2022-08-09
# shap-cam:shapley値に基づく畳み込みニューラルネットワークの視覚的説明

Shap-CAM: Visual Explanations for Convolutional Neural Networks based on Shapley Value ( http://arxiv.org/abs/2208.03608v2 )

ライセンス: Link先を確認
Quan Zheng, Ziwei Wang, Jie Zhou, and Jiwen Lu(参考訳) 深層畳み込みニューラルネットワークの説明は、ネットワークの内部操作と、それが決定を下す理由を理解するのに役立つため、最近注目を集めている。 サージェンシーマップは、ネットワークの意思決定に大きく関係している健全な領域を強調するもので、コンピュータビジョンコミュニティにおけるディープネットワークを視覚化し分析する最も一般的な方法の1つである。 しかし, 従来の手法で生成したサリエンシマップは, 各画素間の関係を考慮せず, 確固とした理論的基礎を欠いた活性化マップの重みに関する未証明の提案のため, 画像内の真正情報を表現することができない。 本稿では,クラスアクティベーションマッピングに基づいて,shap-camと呼ばれるポストホックな視覚説明手法を開発した。 従来の勾配に基づくアプローチとは異なり、Shap-CAMはShapley値を通じて各ピクセルの重要性を得ることにより勾配への依存を取り除く。 意思決定プロセスの解釈において,Shap-CAMがより良い視覚的性能と公平性を実現することを示す。 本手法は,認識課題と局所課題の両方において,従来の手法よりも優れている。

Explaining deep convolutional neural networks has been recently drawing increasing attention since it helps to understand the networks' internal operations and why they make certain decisions. Saliency maps, which emphasize salient regions largely connected to the network's decision-making, are one of the most common ways for visualizing and analyzing deep networks in the computer vision community. However, saliency maps generated by existing methods cannot represent authentic information in images due to the unproven proposals about the weights of activation maps which lack solid theoretical foundation and fail to consider the relations between each pixel. In this paper, we develop a novel post-hoc visual explanation method called Shap-CAM based on class activation mapping. Unlike previous gradient-based approaches, Shap-CAM gets rid of the dependence on gradients by obtaining the importance of each pixel through Shapley value. We demonstrate that Shap-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks.
翻訳日:2022-08-10 10:25:51 公開日:2022-08-09
# 脳活動からの視覚刺激の自己教師付きクロスモーダル検索

See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity ( http://arxiv.org/abs/2208.03666v2 )

ライセンス: Link先を確認
Zesheng Ye, Lina Yao, Yu Zhang, Silvia Gustin(参考訳) 最近の研究では、脳波からの視覚刺激に対する人間の知覚を表現した画像を生成するために2段階の教師付きフレームワークの使用が実証されている。 しかし、合成された画像が何であるかを決定するデータではなく、人間の指定した画像の注釈であるため、正確な視覚刺激を再現できない。 さらに、合成画像は、しばしばノイズの多い脳波エンコーディングや、生成モデルの不安定な訓練に悩まされ、認識が困難になる。 そこで我々は,2つのモダリティのデータをアノテーションとは対照的に関連付け,脳波クリップの正確な視覚刺激を復元する,単一段階の脳波視覚検索パラダイムを提案する。 脳波エンコーディングと関連する視覚刺激の相互情報をコントラスト的自己監督目標の最適化により最大化し、さらに2つの利点をもたらす。 ひとつは、学習がクラスアノテーションを指向していないため、トレーニング中に見られるもの以上の視覚クラスをEEGエンコーディングで処理できることだ。 さらに、このモデルはもはや視覚刺激の全詳細を生成する必要はなく、むしろクロスモーダルアライメントに焦点を当て、インスタンスレベルで画像を取得し、区別可能なモデル出力を確実にする。 画像刺激によって誘発される脳活動を測定する最大の単射脳波データセットについて実証的研究を行った。 提案手法は,既存の手法では不可能であるeeg-visual searchタスクを完了させる。 また,脳波および視覚エンコーダ構造の範囲についても検討した。 さらに、クラスアノテーションを使用しないにもかかわらず、主に研究されたセマンティックレベルの脳波視覚分類タスクにおいて、提案手法は最先端の教師付き脳波視覚再構成アプローチ、特にオープンクラス認識能力に優れる。

Recent studies demonstrate the use of a two-stage supervised framework to generate images that depict human perception to visual stimuli from EEG, referring to EEG-visual reconstruction. They are, however, unable to reproduce the exact visual stimulus, since it is the human-specified annotation of images, not their data, that determines what the synthesized images are. Moreover, synthesized images often suffer from noisy EEG encodings and unstable training of generative models, making them hard to recognize. Instead, we present a single-stage EEG-visual retrieval paradigm where data of two modalities are correlated, as opposed to their annotations, allowing us to recover the exact visual stimulus for an EEG clip. We maximize the mutual information between the EEG encoding and associated visual stimulus through optimization of a contrastive self-supervised objective, leading to two additional benefits. One, it enables EEG encodings to handle visual classes beyond seen ones during training, since learning is not directed at class annotations. In addition, the model is no longer required to generate every detail of the visual stimulus, but rather focuses on cross-modal alignment and retrieves images at the instance level, ensuring distinguishable model output. Empirical studies are conducted on the largest single-subject EEG dataset that measures brain activities evoked by image stimuli. We demonstrate the proposed approach completes an instance-level EEG-visual retrieval task which existing methods cannot. We also examine the implications of a range of EEG and visual encoder structures. Furthermore, for a mostly studied semantic-level EEG-visual classification task, despite not using class annotations, the proposed method outperforms state-of-the-art supervised EEG-visual reconstruction approaches, particularly on the capability of open class recognition.
翻訳日:2022-08-10 10:25:31 公開日:2022-08-09