このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221111となっている論文です。

PDF登録状況(公開日: 20221111)

TitleAuthorsAbstract論文公表日・翻訳日
# 実効ビームスプリッタの実現 -- 半数値相互作用フリーイメージングの静止実装-

Realizing the "fictitious" beam splitter -- A stationary implementation of semi-counterfactual interaction-free imaging ( http://arxiv.org/abs/2007.03081v5 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 量子対物相互作用のない計測に基づいて, 一見不可能に見える異常な反射特性と透過特性を持つビームスプリッタの実装手法を提案する。 スイッチング可能なミラーや偏光回転子を必要としない。 撮像方式を用いることで、撮像された物体から受ける光放射が任意に低くなることが保証される。 これにより、アンビエント光を検出することなく動作するステルスなナイトビジョンデバイスや、いくつかの反事実量子暗号プロトコルに対するハックウェアとして使用できるアプリケーションが可能になる。

Based on quantum counterfactual interaction-free measurement, we propose an implementation scheme for a beam splitter with anomalous reflection and transmission properties that looks impossible at first glance. Our scheme is stationary without requiring switchable mirrors and polarization rotators. Using the scheme for imaging will ensure that the optical radiation received by the object being imaged can be arbitrarily low. Thus it enables applications such as stealthy night vision devices that can work without detectable ambient light, or being used as a hackware against some counterfactual quantum cryptographic protocols.
翻訳日:2023-05-11 03:52:03 公開日:2022-11-11
# 射影絡み合ったペア状態のスケーリング仮説

A scaling hypothesis for projected entangled-pair states ( http://arxiv.org/abs/2102.03143v3 )

ライセンス: Link先を確認
Bram Vanhecke, Juraj Hasik, Frank Verstraete, Laurens Vanderstraeten(参考訳) 比較的小さな結合次元を持つPEPSデータの信頼性の高い外挿を可能にするため, 強い相関を持つシステムに対して, PEPS(Projected entangled-pair state)を用いてシミュレーションをスケールするための新しいパラダイムを導入する。 鍵となる成分は、データポイントの崩壊を誘導する有効な相関長$\chi$、D$の任意の値と環境結合次元$\chi$の値に対して$f(D,\chi)=f(\xi(D,\chi))$である。 このようにして、$\chi$の補間の必要性を回避し、固定値$d$で多くの異なるデータポイントを使うことができる。 ここでは、PEPSは2次元移動行列の固定点を求めるためのテンソル-ネットワークアルゴリズムや後方微分の形式的手法を用いて、固定値の勾配法を用いて最適化されている必要がある。 本稿では, 臨界3次元二量体モデル, 3次元古典イジングモデル, 2次元量子ハイゼンベルクモデルについて検討する。

We introduce a new paradigm for scaling simulations with projected entangled-pair states (PEPS) for critical strongly-correlated systems, allowing for reliable extrapolations of PEPS data with relatively small bond dimensions $D$. The key ingredient consists of using the effective correlation length $\chi$ for inducing a collapse of data points, $f(D,\chi)=f(\xi(D,\chi))$, for arbitrary values of $D$ and the environment bond dimension $\chi$. As such we circumvent the need for extrapolations in $\chi$ and can use many distinct data points for a fixed value of $D$. Here, we need that the PEPS has been optimized using a fixed-$\chi$ gradient method, which can be achieved using a novel tensor-network algorithm for finding fixed points of 2-D transfer matrices, or by using the formalism of backwards differentiation. We test our hypothesis on the critical 3-D dimer model, the 3-D classical Ising model, and the 2-D quantum Heisenberg model.
翻訳日:2023-04-12 11:48:47 公開日:2022-11-11
# 二成分ガウスボソンサンプリングの複雑さ

The Complexity of Bipartite Gaussian Boson Sampling ( http://arxiv.org/abs/2110.06964v3 )

ライセンス: Link先を確認
Daniel Grier, Daniel J. Brod, Juan Miguel Arrazola, Marcos Benicio de Andrade Alonso, Nicol\'as Quesada(参考訳) ガウス・ボソンサンプリング(gaussian boson sampling)は、古典的デバイスに手が届かないタスクを実行する量子デバイスを構築するためのプラットフォームとして注目されているフォトニック量子コンピューティングのモデルである。 したがって、計算複雑性理論の観点からは、これらの装置をシミュレートするハードネスの数学的基礎を固めることに大きな関心がある。 標準の反集中的かつ永久的ガウシアン予想の下では、多項式階層が崩壊しない限り(ほぼ)理想ガウシアンボソンサンプリング分布からサンプリングする効率的な古典的アルゴリズムは存在しないことを示す。 硬度証明は、モード数が光子数と二乗的にスケールする系において、硬度が広く信じられているが、それでも決定的な証明は持たないという設定で成り立つ。 証明に不可欠なのは、ガウスボソンサンプリング装置をプログラムする新しい方法であり、出力確率が任意の行列の部分行列の永久数に比例するようにする。 この手法は、我々がBipartiteGBSと呼ぶScattershot BosonSamplingの一般化である。 また,光子よりも4次モードよりも少ない状態(すなわち高コリジョン状態)において,行列の永続性を繰り返し行や列で近似する能力は,繰り返しを伴わない行列の永続性を近似する能力を与えることを示した。 この減少は、GBSが一定の衝突状態において難しいことを証明するのに十分である。

Gaussian boson sampling is a model of photonic quantum computing that has attracted attention as a platform for building quantum devices capable of performing tasks that are out of reach for classical devices. There is therefore significant interest, from the perspective of computational complexity theory, in solidifying the mathematical foundation for the hardness of simulating these devices. We show that, under the standard Anti-Concentration and Permanent-of-Gaussians conjectures, there is no efficient classical algorithm to sample from ideal Gaussian boson sampling distributions (even approximately) unless the polynomial hierarchy collapses. The hardness proof holds in the regime where the number of modes scales quadratically with the number of photons, a setting in which hardness was widely believed to hold but that nevertheless had no definitive proof. Crucial to the proof is a new method for programming a Gaussian boson sampling device so that the output probabilities are proportional to the permanents of submatrices of an arbitrary matrix. This technique is a generalization of Scattershot BosonSampling that we call BipartiteGBS. We also make progress towards the goal of proving hardness in the regime where there are fewer than quadratically more modes than photons (i.e., the high-collision regime) by showing that the ability to approximate permanents of matrices with repeated rows/columns confers the ability to approximate permanents of matrices with no repetitions. The reduction suffices to prove that GBS is hard in the constant-collision regime.
翻訳日:2023-03-11 14:26:18 公開日:2022-11-11
# $q$-Hermite多項式を用いた$k$体相互作用を持つ多粒子量子系のエネルギー準位の平均ゆらぎ分離

Average-fluctuation separation in energy levels in many-particle quantum systems with $k$-body interactions using $q$-Hermite polynomials ( http://arxiv.org/abs/2111.12087v3 )

ライセンス: Link先を確認
N. D. Chavda(参考訳) k$-body embedded gaussian orthogonal random matrices (egoe($k$)) によってモデル化されたk$-body相互作用を持つ多粒子量子系における状態密度の平均部分とゆらぎ部分の分離は、スペクトルの正規モード分解法を用いて証明され、フェルミオンとボソンのパワースペクトル解析によって検証された。 滑らかな状態密度は、$q$-正規分布 (f_{qn}$) (補正付き) で表され、これは$q$-ヘルマイト多項式の重み関数である。 相互作用のランクが上昇するにつれて、ゆらぎは滑らかな状態密度における補正の順序が小さく設定される。 それらは、すべての$k$の値に対して、フェルミオン系とボソン系の両方に対してGOE型である。

Separation between average and fluctuation parts in the state density in many-particle quantum systems with $k$-body interactions, modeled by the $k$-body embedded Gaussian orthogonal random matrices (EGOE($k$)), is demonstrated using the method of normal mode decomposition of the spectra and also verified through power spectrum analysis, for both fermions and bosons. The smoothed state density is represented by the $q$-normal distribution ($f_{qN}$) (with corrections) which is the weight function for $q$-Hermite polynomials. As the rank of interaction $k$ increases, the fluctuations set in with smaller order of corrections in the smooth state density. They are found to be of GOE type, for all $k$ values, for both fermion and boson systems.
翻訳日:2023-03-07 01:56:05 公開日:2022-11-11
# 溶液中の分子の量子シミュレーション

Quantum simulation of molecules in solution ( http://arxiv.org/abs/2111.13458v2 )

ライセンス: Link先を確認
Davide Castaldo, Soran Jahangiri, Alain Delgado and Stefano Corni(参考訳) 量子コンピュータにおける量子化学計算は主に気体相の分子をシミュレーションすることに焦点を当てている。 しかし、溶液中の分子は化学に最も関係がある。 連続解法モデルは、溶質分子の量子化学的記述における解法効果を記述する際に、計算能力と精度の間に良い妥協点を示す。 本稿では、偏光連続体モデルを用いて、変分量子固有解法の解系への拡張について報告する。 解法効果の計算はアルゴリズムの効率に影響を与えないことを示す。 最大12個のスピン軌道(量子ビット)を持つ分子系のノイズレスシミュレーションの数値結果を示す。 さらに、シミュレーション量子ハードウェア(ibm q mumbai)上で計算されたノイズを含む計算は、エラー緩和プロトコルを含まない古典計算と公平に一致して計算解解自由エネルギーを与える。

Quantum chemical calculations on quantum computers have been focused mostly on simulating molecules in gas-phase. Molecules in liquid solution are however most relevant for Chemistry. Continuum solvation models represent a good compromise between computational affordability and accuracy in describing solvation effects within a quantum chemical description of solute molecules. Here we report on the extension of the Variational Quantum Eigensolver to solvated systems, using the Polarizable Continuum Model. We show that accounting for solvation effects does not impact the algorithmic efficiency. Numerical results of noiseless simulations for molecular systems with up to twelve spin-orbitals (qubits) are presented. Furthermore, calculations performed on a simulated quantum hardware (IBM Q Mumbai), thus including noise, yield computed solvation free energies in fair agreement with the classical calculations without the inclusion of any error mitigation protocol.
翻訳日:2023-03-06 19:51:46 公開日:2022-11-11
# 進化的マルチタスク最適化 : 今後の研究課題, 実践, 方向性

Evolutionary Multitask Optimization: Fundamental Research Questions, Practices, and Directions for the Future ( http://arxiv.org/abs/2111.14463v3 )

ライセンス: Link先を確認
Eneko Osaba, Javier Del Ser and Ponnuthurai N. Suganthan(参考訳) 転送最適化は近年,Swarm and Evolutionary Computationコミュニティから注目されている。 転送最適化の基礎となる概念が固い根拠で定式化されていることは否定できない。 しかし、近年のコントリビューションで確認された証拠は、現在までに適切に対処されていない重要な側面があることを裏付けている。 この短いコミュニケーションは、読者がこれらの問題を振り返り、なぜ未解決のままなのかを合理的に示すことを目的としている。 具体的には,進化的マルチタスク最適化の3つの重要な点を強調する。 一 このパラダイムの妥当性及び実用性 二 提案された複数のマルチタスク方法の新規性、及び 三 新しく提案されたマルチタスクアルゴリズムを評価するための方法 本研究の結果,この将来性のある分野を正しい軌道で維持するためには,コミュニティが重要な取り組みを行う必要があると結論付けている。 我々の最終的な目的は、現在の文献のギャップを明らかにすることで、将来的な研究がこれらのギャップを修復し、同じ石にぶつからないようにし、最終的にこの地域で貴重な進歩を遂げることです。

Transfer Optimization has gained a remarkable attention from the Swarm and Evolutionary Computation community in the recent years. It is undeniable that the concepts underlying Transfer Optimization are formulated on solid grounds. However, evidences observed in recent contributions confirm that there are critical aspects that are not properly addressed to date. This short communication aims to engage the readership around a reflection on these issues, and to provide rationale why they remain unsolved. Specifically, we emphasize on three critical points of Evolutionary Multitasking Optimization: i) the plausibility and practical applicability of this paradigm; ii) the novelty of some proposed multitasking methods; and iii) the methodologies used for evaluating newly proposed multitasking algorithms. As a result of this research, we conclude that some important efforts should be directed by the community in order to keep the future of this promising field on the right track. Our ultimate purpose is to unveil gaps in the current literature, so that prospective works can attempt to fix these gaps, avoiding to stumble on the same stones and eventually achieve valuable advances in the area.
翻訳日:2023-03-06 09:53:31 公開日:2022-11-11
# スピノル原子による局所ローレンツ対称性違反に対するエンタングルメント強化試験の提案

Entanglement-enhanced test proposal for local Lorentz-symmetry violation via spinor atoms ( http://arxiv.org/abs/2201.11366v4 )

ライセンス: Link先を確認
Min Zhuang, Jiahao Huang, and Chaohong Lee(参考訳) ローレンツ変換の下で不変性は標準モデルと一般相対性理論の両方に基本である。 原子系によるローレンツ対称性違反(lsv)の試験は、理論と実験の幅広い関心を惹きつけている。 LSVをテストするための最近の提案では、違反の影響は局所的な相互作用として説明できる。 さらに、LSVのテスト精度は量子絡み合いによって向上することができ、その量子フィッシャー情報(QFI)は、テスト精度がハイゼンベルク極限に漸近的に到達できることを示している。 一般に、集合可観測物の限定分解能は、大きなQFIの検出を妨げる。 本稿では,LSVパラメータ$\kappa$をスピノル原子のアンサンブルを介してテストするための多モード多体量子干渉法を提案する。 N$-atom multimode GHZ状態を用いることで、テスト精度はスピン長$F$と原子番号$N$のハイゼンベルク極限$\Delta \kappa \propto 1/(F^2N)$に達することができる。 例えば、ボース縮合スピン-1原子を用いた3モード干渉計を用いて、最終的な精度を達成するための観測可能(または実測過程)を見つけ、LSV試験について検討する。 適切な入力状態とユニタリ組換え操作を選択することにより、LSVパラメータ$\kappa$を集団測定により抽出することができる。 特に lsv パラメータ $\kappa$ の測定精度は標準の量子限界を上回ることができ、スピン混合ダイナミクスや量子相転移の駆動によってハイゼンベルク限界に近づくこともできる。 提案手法は, 原子システムによるLSV試験の大幅な改善を実現するための実現可能な方法であり, 多粒子交絡状態の代替用途を提供する。

Invariance under Lorentz transformations is fundamental to both the standard model and general relativity. Testing Lorentz-symmetry violation (LSV) via atomic systems attracts extensive interests in theory and experiment. Some recent proposals for testing LSV present that the effects of violation can be described as a local interaction. Further, the test precision of LSV can be enhanced via quantum entanglement and its quantum Fisher information (QFI) implicates that the test precision can asymptotically reach the Heisenberg limit. In general, the limited resolution of collective observables prevents the detection of large QFI. Here, we propose a multimode many-body quantum interferometry for testing the LSV parameter $\kappa$ via an ensemble of spinor atoms. By employing an $N$-atom multimode GHZ state, the test precision can attain the Heisenberg limit $\Delta \kappa \propto 1/(F^2N)$ with the spin length $F$ and the atomic number $N$. We find an actual observable (or practical measurement process) to achieve the ultimate precision and study the LSV test via an experimentally accessible three-mode interferometry with Bose condensed spin-1 atoms for example. By selecting suitable input states and unitary recombination operation, the LSV parameter $\kappa$ can be extracted via population measurement. Especially, the measurement precision of the LSV parameter $\kappa$ can beat the standard quantum limit and even approach the Heisenberg limit via spin mixing dynamics or driving through quantum phase transitions. Our proposed scheme may open up a feasible way for a drastic improvement of the LSV tests with atomic systems and provide an alternative application of multi-particle entangled states.
翻訳日:2023-02-27 18:28:13 公開日:2022-11-11
# 複合量子システムの特性の連続性

Continuity of characteristics of composite quantum systems ( http://arxiv.org/abs/2201.11477v4 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 複合量子系の特性の定量的および定性的連続性解析の一般的な方法について述べる。 Alicki-Fannes-Winter 法のいくつかの修正が検討され、有限次元および無限次元の両方の場合の幅広い特性クラスに適用できる。 量子系の諸特性に対する局所連続性条件を求めるための新しい近似法を提案し, 詳述した。 この方法により、いくつかの一般的な結果(サイモン型支配収束定理、凸混合の下で連続性を保存する定理など)を証明できる。 合成量子系の基本特性に対する一様連続性境界と局所連続性条件を示す。 異なる著者によって得られた結果とともに,提案手法によって証明された新しい結果について述べる。

General methods of quantitative and qualitative continuity analysis of characteristics of composite quantum systems are described. Several modifications of the Alicki-Fannes-Winter method are considered, which make it applicable to a wide class of characteristics in both finite-dimensional and infinite-dimensional cases. A new approximation method for obtaining local continuity conditions for various characteristics of quantum systems is proposed and described in detail. This method allows us to prove several general results (Simon-type dominated convergence theorem, the theorem about preserving continuity under convex mixtures, etc.). Uniform continuity bounds and local continuity conditions for basic characteristics of composite quantum systems are presented. Along with the results obtained earlier by different authors, a number of new results proved by the proposed methods are described.
翻訳日:2023-02-27 18:18:27 公開日:2022-11-11
# 触媒間の階層による絡み合い変換の統計

Statistics of Entanglement Transformation with Hierarchies among Catalysts ( http://arxiv.org/abs/2202.01540v2 )

ライセンス: Link先を確認
Rivu Gupta, Arghya Maity, Shiladitya Mal, Aditi Sen De(参考訳) 典型的なバイパルタイト純状態の分布は、局所的操作と古典的通信(LOCC)による状態変換の枠組みの中で研究される。 単一および複数コピー状態の異なる次元における比較可能状態と非比較可能状態の統計を報告し、状態変換と初期状態と対象状態の絡み合いの内容の差の関連性を確立する。 触媒資源の分析から, 対間のLOCC変換は不可能であり, ランダムに生成した触媒の平均と最小の絡み合いにおける普遍的なパターンを示す。 さらに, 異なる種類の触媒間の階層構造の概念を導入し, 相反する状態の変換に役立てるだけでなく, この目的に向けてよりコストのかかる資源として振る舞うことができることを示す。 本研究では,単一コピーレベルでのlocc変換を活性化する強触媒(強触媒)の存在を確認した。

The distribution of typical bipartite pure states is studied within the framework of state transformation via local operation and classical communication (LOCC). We report the statistics of comparable and incomparable states in different dimensions for single- and multi-copy regimes and establish a connection between state transformation and the difference between the entanglement contents of the initial and the target states. From the analysis of catalyst resources, required to further otherwise impossible LOCC transformations between pairs, we demonstrate a universal pattern in the average and minimum entanglement of the randomly generated catalysts. Furthermore, we introduce a concept of hierarchy between different kinds of catalysts and show how they can not only aid in the conversion of incomparable states but can also act as a less costly resource towards this goal. We confirm the existence of catalysts, referred to as strong catalysts, which can activate LOCC transformation between pairs at the single-copy level, when it is initially impossible even with multiple copies.
翻訳日:2023-02-26 23:06:43 公開日:2022-11-11
# 原子性半導体における双励起パラメトリックゲインからの効率よい2次スクイーズ

Efficient quadrature-squeezing from biexcitonic parametric gain in atomically thin semiconductors ( http://arxiv.org/abs/2203.04567v2 )

ライセンス: Link先を確認
Emil V. Denning, Andreas Knorr, Florian Katsch, Marten Richter(参考訳) 二次スケージングの形での電磁量子揺らぎの修正は、非線形光学過程から生成される中央量子資源である。 このようなプロセスは、原子状薄い半導体中の強結合二電子子のコヒーレントな二光子励起によって促進される。 理論的には、原子状薄膜半導体と光学キャビティを接合することで、この2光子共鳴を利用して、非共振非線形性に依存する従来の3次非線形材料を用いて、入力パワーが現在の最先端のデバイスより1桁小さいスクイーズド光を生成することができる。 さらに、スクイーズ帯域幅は複数のmevの範囲内にあることが判明する。 これらの結果は、半導体半導体をオンチップスイーズド光源の有望な候補と認識している。

Modification of electromagnetic quantum fluctuations in the form of quadrature-squeezing is a central quantum resource, which can be generated from nonlinear optical processes. Such a process is facilitated by coherent two-photon excitation of the strongly bound biexciton in atomically thin semiconductors. We show theoretically that interfacing an atomically thin semiconductor with an optical cavity allows to harness this two-photon resonance and use the biexcitonic parametric gain to generate squeezed light with input power an order of magnitude below current state-of-the-art devices with conventional third-order nonlinear materials that rely on far off-resonant nonlinearities. Furthermore, the squeezing bandwidth is found to be in the range of several meV. These results identify atomically thin semiconductors as a promising candidate for on-chip squeezed-light sources.
翻訳日:2023-02-22 19:46:58 公開日:2022-11-11
# CAVES: ウイルスワクチンに関する説明可能な分類と要約を容易にするデータセット

CAVES: A Dataset to facilitate Explainable Classification and Summarization of Concerns towards COVID Vaccines ( http://arxiv.org/abs/2204.13746v2 )

ライセンス: Link先を確認
Soham Poddar, Azlaan Mustafa Samad, Rajdeep Mukherjee, Niloy Ganguly, Saptarshi Ghosh(参考訳) 新型コロナウイルスに対するワクチン接種を強制することは、現代において重要な社会的課題である。 この目標に向かう第一歩として、多くの先行研究はソーシャルメディア分析に依存し、潜在的な副作用、非効率性、政治的要因など、人々がこれらのワクチンに対して抱いている特定の懸念を理解する。 ソーシャルメディアの投稿を広範にアンチvaxとプロvaxのラベルに分類するデータセットはあるが、投稿に言及されている特定の反真空懸念に応じてソーシャルメディアの投稿をラベル付けするデータセット(われわれの知る限り)は存在しない。 本稿では,約10kのCOVID-19アンチワクチンツイートを含む最初の大規模データセットであるCAVESを,複数ラベル設定で様々な特定の抗ワクチンの懸念にラベル付けした。 これはまた、ラベルごとに説明を提供する最初のマルチラベル分類データセットである。 さらに、データセットはすべてのツイートのクラスレベルの要約も提供する。 また,データセットに関する予備的な実験を行い,いくつかの最先端モデルによって得られた適度なスコアから明らかなように,マルチラベル説明可能な分類とツイート要約のための非常に困難なデータセットであることを示す。 私たちのデータセットとコードは、https://github.com/sohampoddar26/caves-dataで利用可能です。

Convincing people to get vaccinated against COVID-19 is a key societal challenge in the present times. As a first step towards this goal, many prior works have relied on social media analysis to understand the specific concerns that people have towards these vaccines, such as potential side-effects, ineffectiveness, political factors, and so on. Though there are datasets that broadly classify social media posts into Anti-vax and Pro-Vax labels, there is no dataset (to our knowledge) that labels social media posts according to the specific anti-vaccine concerns mentioned in the posts. In this paper, we have curated CAVES, the first large-scale dataset containing about 10k COVID-19 anti-vaccine tweets labelled into various specific anti-vaccine concerns in a multi-label setting. This is also the first multi-label classification dataset that provides explanations for each of the labels. Additionally, the dataset also provides class-wise summaries of all the tweets. We also perform preliminary experiments on the dataset and show that this is a very challenging dataset for multi-label explainable classification and tweet summarization, as is evident by the moderate scores achieved by some state-of-the-art models. Our dataset and codes are available at: https://github.com/sohampoddar26/caves-data
翻訳日:2023-02-19 16:33:13 公開日:2022-11-11
# 人工知能と自動意思決定のリスク規制の規範的課題

Normative Challenges of Risk Regulation of Artificial Intelligence and Automated Decision-Making ( http://arxiv.org/abs/2211.06203v1 )

ライセンス: Link先を確認
Carsten Orwat (1), Jascha Bareis (1), Anja Folberth (1 and 2), Jutta Jahnel (1) and Christian Wadephul (1) ((1) Karlsruhe Institute of Technology, Institute for Technology Assessment and Systems Analysis, (2) University of Heidelberg, Institute of Political Science)(参考訳) 人工知能(AI)と自動意思決定(ADM)の規制を目的とした最近の提案は、リスクベースのアプローチという特定の形態のリスク規制を提案する。 最も顕著な例は、欧州委員会によって提案された人工知能法(AIA)である。 この記事は、主に関係する特定の種類のリスク、すなわち基本的権利と基本的社会的価値の保護に対するリスクから生じる適切なリスク規制の課題に対処する。 それらは主に、リスクアセスメントの解釈、特定、運用において、基本的権利と社会的価値の規範的曖昧さから生じる。 これは,(1)人間の尊厳,(2)情報自己決定,データ保護とプライバシ,(3)正義と公正,(4)共通の善に対して例示される。 規範的曖昧さは、提案されたaiaの異なるアクター間で分配される規範的選択を必要とする。 特に重要な規範的選択は、リスクを特定するための規範的概念の選択、メトリクスの使用、価値の衝突のバランス、許容されるリスクのレベルの設定、標準化を含むリスクの集約と定量化である。 民主的な正当性と法的不確実性の欠如を避けるために、科学的および政治的議論が提案されている。

Recent proposals aiming at regulating artificial intelligence (AI) and automated decision-making (ADM) suggest a particular form of risk regulation, i.e. a risk-based approach. The most salient example is the Artificial Intelligence Act (AIA) proposed by the European Commission. The article addresses challenges for adequate risk regulation that arise primarily from the specific type of risks involved, i.e. risks to the protection of fundamental rights and fundamental societal values. They result mainly from the normative ambiguity of the fundamental rights and societal values in interpreting, specifying or operationalising them for risk assessments. This is exemplified for (1) human dignity, (2) informational self-determination, data protection and privacy, (3) justice and fairness, and (4) the common good. Normative ambiguities require normative choices, which are distributed among different actors in the proposed AIA. Particularly critical normative choices are those of selecting normative conceptions for specifying risks, aggregating and quantifying risks including the use of metrics, balancing of value conflicts, setting levels of acceptable risks, and standardisation. To avoid a lack of democratic legitimacy and legal uncertainty, scientific and political debates are suggested.
翻訳日:2023-02-19 12:22:47 公開日:2022-11-11
# 研究・教育における全スライド画像の匿名化

Anonymization of Whole Slide Images in Histopathology for Research and Education ( http://arxiv.org/abs/2211.06103v1 )

ライセンス: Link先を確認
Tom Bisson, Michael Franz, Isil Dogan O, Daniel Romberg, Christoph Jansen, Peter Hufnagl, Norman Zerbe(参考訳) 目的: 健康関連データの交換は、EUの一般データ保護規則(GDPR)や米国の健康保険可搬性会計法(HIPAA)などの地域法や規制の対象となり、その結果、これらのデータを扱う際に研究者や教育者にとって非自明な課題となる。 病理学では、診断組織サンプルのデジタル化は必然的にベンダー固有のファイル形式に格納された機密情報と取得関連情報からなる識別データを生成する。 これらの全スライドイメージ(WSI)の配布と非クリニカル使用は通常これらのフォーマットで行われ、DICOMのような業界全体の標準化はまだ暫定的にのみ採用されており、スライドスキャナーベンダーは現在匿名化機能を提供していない。 方法:我々は,特にGDPRに関する研究・教育のために,病理画像データの適切な取り扱いのためのガイドラインを開発した。 この文脈では、既存の匿名化手法を評価し、最も一般的なwsiフォーマットのすべての機密情報を識別するために、プロプライエタリなフォーマット仕様を調べました。 この作業は、ネイティブフォーマットを保存しながら、GDPR準拠のWSIの匿名化を可能にするソフトウェアライブラリをもたらす。 結果: プロプライエタリなフォーマットの分析から, 臨床ルーチンで頻繁に使用されるファイル形式に対して, センシティブな情報がすべて特定され, そして, 様々なプログラミング言語用のCLIツールとラッパーを備えたオープンソースプログラミングライブラリが開発された。 結論: 分析の結果,データフォーマットを維持しながらgdprに準拠した方法でwsisを匿名化する,直接的なソフトウェアソリューションは存在しなかった。 即時かつオフラインで動作する拡張可能なオープンソースライブラリとのギャップを埋めました。

Objective: The exchange of health-related data is subject to regional laws and regulations, such as the General Data Protection Regulation (GDPR) in the EU or the Health Insurance Portability and Accountability Act (HIPAA) in the United States, resulting in non-trivial challenges for researchers and educators when working with these data. In pathology, the digitization of diagnostic tissue samples inevitably generates identifying data that can consist of sensitive but also acquisition-related information stored in vendor-specific file formats. Distribution and off-clinical use of these Whole Slide Images (WSI) is usually done in these formats, as an industry-wide standardization such as DICOM is yet only tentatively adopted and slide scanner vendors currently do not provide anonymization functionality. Methods: We developed a guideline for the proper handling of histopathological image data particularly for research and education with regard to the GDPR. In this context, we evaluated existing anonymization methods and examined proprietary format specifications to identify all sensitive information for the most common WSI formats. This work results in a software library that enables GDPR-compliant anonymization of WSIs while preserving the native formats. Results: Based on the analysis of proprietary formats, all occurrences of sensitive information were identified for file formats frequently used in clinical routine, and finally, an open-source programming library with an executable CLI-tool and wrappers for different programming languages was developed. Conclusions: Our analysis showed that there is no straightforward software solution to anonymize WSIs in a GDPR-compliant way while maintaining the data format. We closed this gap with our extensible open-source library that works instantaneously and offline.
翻訳日:2023-02-19 12:22:25 公開日:2022-11-11
# 測定に基づく量子フィードバック制御による二重量子ドット内のホットスピン量子ビットの状態初期化

State Initialization of a Hot Spin Qubit in a Double Quantum Dot by Measurement-Based Quantum Feedback Control ( http://arxiv.org/abs/2204.02565v2 )

ライセンス: Link先を確認
Azzouz Aarab, R\'emi Azouit, Vincent Reiher, Yves B\'erub\'e-Lauzi\`ere(参考訳) 超伝導共振器に結合したゲート定義二重量子ドットスピン量子ビットにおけるスピン状態初期化のための測定に基づく量子フィードバックプロトコルを開発した。 このプロトコルは、より短い時間でスピンを堅牢に準備し、より忠実な状態に到達できるので、クビット状態の初期化を改善する。 目標とする忠実度を事前に設定できることは、qubit初期化をより決定論的にするための非常に望ましい機能である。 ここで開発されたプロトコルは高温でも有効であり、量子コンピュータの量子ビット数をスケールアップする現在の取り組みにとって重要である。

A measurement-based quantum feedback protocol is developed for spin state initialization in a gate-defined double quantum dot spin qubit coupled to a superconducting resonator. The protocol improves qubit state initialization as it is able to robustly prepare the spin in shorter time and reach a higher fidelity, which can be pre-set. Being able to pre-set the fidelity aimed at is a highly desired feature enabling qubit initialization to be more deterministic. The protocol developed herein is also effective at high temperatures, which is critical for the current efforts towards scaling up the number of qubits in quantum computers.
翻訳日:2023-02-18 02:59:37 公開日:2022-11-11
# 量子シェリントン・カークパトリックモデルの基底状態に対する変分アンザッツ

A Variational Ansatz for the Ground State of the Quantum Sherrington-Kirkpatrick Model ( http://arxiv.org/abs/2204.02923v2 )

ライセンス: Link先を確認
Paul M. Schindler, Tommaso Guaita, Tao Shi, Eugene Demler and J. Ignacio Cirac(参考訳) 本稿では,量子スピングラスのパラダイムモデルであるQuantum Sherrington-Kirkpatrickモデルの基底状態に対するアンサッツを提案する。 我々のアンザッツは一般化されたコヒーレント状態の概念に基づいて、基底状態エネルギーやスピンガラス相転移の位置を含むモデルの基本的側面をよく捉えている。 さらに, 未発見の特徴として, 非消滅長手場構造や接地状態の絡み合い構造などについて検討することができる。 基底状態の絡み合いは、通常、位相ゲートが分散した単純な重み付きグラフ状態の集合によって捉えられ、絡み合いのモノガミーに基づく予測とは対照的な体積法絡み合いにつながる。

We present an ansatz for the ground states of the Quantum Sherrington-Kirkpatrick model, a paradigmatic model for quantum spin glasses. Our ansatz, based on the concept of generalized coherent states, very well captures the fundamental aspects of the model, including the ground state energy and the position of the spin glass phase transition. It further enables us to study some previously unexplored features, such as the non-vanishing longitudinal field regime and the entanglement structure of the ground states. We find that the ground state entanglement can be captured by a simple ensemble of weighted graph states with normally distributed phase gates, leading to a volume law entanglement, contrasting with predictions based on entanglement monogamy.
翻訳日:2023-02-18 02:42:26 公開日:2022-11-11
# 2光子励起による量子エミッタからの光子対生成の制限

Two-Photon Excitation Sets Limit to Entangled Photon Pair Generation from Quantum Emitters ( http://arxiv.org/abs/2205.03390v2 )

ライセンス: Link先を確認
Tim Seidelmann, Christian Schimpf, Thomas K. Bracht, Michael Cosacchi, Alexei Vagov, Armando Rastelli, Doris E. Reiter, Vollrath Martin Axt(参考訳) 絡み合った光子対は量子技術における多くの新しい応用の鍵である。 半導体量子ドットは、オンデマンドで非常に絡み合った光子の源として使用できる。 固定された最大絡み合った状態への忠実度は、励起微細構造分割によって制限される。 この研究は、2光子共鳴スキームの励起パルスが有限の持続時間を持つとき、この分裂がなくても、絡み合いの程度は一元化できないことを示している。 絡み合いの劣化は、レーザーパルス自体によって引き起こされる励起子状態の動的に引き起こされる分裂の起源である。 したがって、ここで検討された設定では、励起過程は、光励起4レベル量子エミッタで生成される絡み合った光子の達成可能な共起を制限する。

Entangled photon pairs are key to many novel applications in quantum technologies. Semiconductor quantum dots can be used as sources of on-demand, highly entangled photons. The fidelity to a fixed maximally entangled state is limited by the excitonic fine-structure splitting. This work demonstrates that, even if this splitting is absent, the degree of entanglement cannot reach unity when the excitation pulse in a two-photon resonance scheme has a finite duration. The degradation of the entanglement has its origin in a dynamically induced splitting of the exciton states caused by the laser pulse itself. Hence, in the setting explored here, the excitation process limits the achievable concurrence for entangled photons generated in an optically excited four-level quantum emitter.
翻訳日:2023-02-14 03:26:23 公開日:2022-11-11
# 作用素系上の完全正の半群を$C^*$-代数上の半群へ拡張する

The Extension of Unital Completely Positive Semigroups on Operator Systems to Semigroups on $C^*$-algebras ( http://arxiv.org/abs/2206.09270v2 )

ライセンス: Link先を確認
V. I. Yashin(参考訳) 開量子系の研究は、物理系を表す$c^*$-代数上の単位的完全正半群の概念に依存する。 自然な一般化は作用素系上の単位正の正の半群を考えることである。 実数系上の任意の連続ユニタリ完全正の半群は有限次元の$c^*$-代数上の半群へと拡張できることを示した。 半群が可逆であれば、この拡張は一意である。

The study of open quantum systems relies on the notion of unital completely positive semigroups on $C^*$-algebras representing physical systems. The natural generalisation would be to consider the unital completely positive semigroups on operator systems. We show that any continuous unital completely positive semigroup on matricial system can be extended to a semigroup on a finite-dimensional $C^*$-algebra, which is an injective envelope of the matricial system. In case the semigroup is invertible, this extension is unique.
翻訳日:2023-02-08 23:33:08 公開日:2022-11-11
# 機械学習による分子スピンビットの操作と読み出し

Machine Learning-Assisted Manipulation and Readout of Molecular Spin Qubits ( http://arxiv.org/abs/2208.03410v2 )

ライセンス: Link先を確認
Claudio Bonizzoni, Mirco Tincani, Fabio Santanni and Marco Affronte(参考訳) 機械学習は量子ビットの量子制御と読み出しに応用される。 本研究では、振幅と位相認識をテストするために設計された2つの実験において、分子スピン量子ビット(oxovanadium(iv) moiety)の操作と読み出しを支援するために人工ニューラルネットワークを適用した。 まず,まず人工ネットワークを用いて4つの入力パルスを用いたストア/検索プロトコルの出力を解析し,そのエコー位置を認識し,さらに結果の選択を行い,初期入力パルスシーケンスを推測する。 次に,実験により測定したハーンエコーの位相をニューラルネットワークで確認し,その位相を正しく検出し,操作中に追加した1パルス位相シフトを認識できることを示す。

Machine Learning finds application in the quantum control and readout of qubits. In this work we apply Artificial Neural Networks to assist the manipulation and the readout of a prototypical molecular spin qubit - an Oxovanadium(IV) moiety - in two experiments designed to test the amplitude and the phase recognition, respectively. We first successfully use an artificial network to analyze the output of a Storage/Retrieval protocol with four input pulses to recognize the echo positions and, with further post selection on the results, to infer the initial input pulse sequence. We then apply an Artificial Neural Network to ascertain the phase of the experimentally measured Hahn echo, showing that it is possible to correctly detect its phase and to recognize additional single-pulse phase shifts added during manipulation.
翻訳日:2023-02-02 04:37:43 公開日:2022-11-11
# 量子コンピュータを用いた制御ゲート操作の初期状態依存最適化

Initial-State Dependent Optimization of Controlled Gate Operations with Quantum Computer ( http://arxiv.org/abs/2209.02322v2 )

ライセンス: Link先を確認
Wonho Jang, Koji Terashi, Masahiko Saito, Christian W. Bauer, Benjamin Nachman, Yutaro Iiyama, Ryunosuke Okubo, Ryu Sawada(参考訳) 量子アルゴリズムを量子回路にエンコードするユニークな方法は存在しない。 量子ビット数、接続時間、コヒーレンス時間に制限があるため、量子回路最適化は短期量子デバイスを最大限に活用するために不可欠である。 回路の初期状態に応じて制御ゲートから冗長制御操作を取り除くことを目的としたAQCELと呼ばれる新しい回路オプティマイザを導入する。 特に、AQCELは、量子コンピュータを用いてゼロ振幅計算基底状態を特定することにより、関連する全ての量子ビットが絡み合っている場合でも、多項式計算資源の多制御ゲートから不要な量子ビット制御を除去することができる。 ベンチマークとして、AQCELは高エネルギー物理学における最終状態放射をモデル化するために設計された量子アルゴリズムにデプロイされる。 このベンチマークにより、AQCEL最適化回路は、ゲート数がはるかに少ない等価な最終状態を生成することができることを示した。 さらに、ノイズの多い中間スケールの量子コンピュータにAQCELをデプロイする際、ある閾値以下で低振幅の計算基底状態をトラストすることで、元の回路を高い忠実度で近似する量子回路を効率よく生成する。 我々の技術は様々な量子アルゴリズムに有用であり、量子回路をさらに単純化し、実際のデバイスでより効果的にするための新たな可能性を開く。

There is no unique way to encode a quantum algorithm into a quantum circuit. With limited qubit counts, connectivity, and coherence times, a quantum circuit optimization is essential to make the best use of near-term quantum devices. We introduce a new circuit optimizer called AQCEL, which aims to remove redundant controlled operations from controlled gates, depending on initial states of the circuit. Especially, the AQCEL can remove unnecessary qubit controls from multi-controlled gates in polynomial computational resources, even when all the relevant qubits are entangled, by identifying zero-amplitude computational basis states using a quantum computer. As a benchmark, the AQCEL is deployed on a quantum algorithm designed to model final state radiation in high energy physics. For this benchmark, we have demonstrated that the AQCEL-optimized circuit can produce equivalent final states with much smaller number of gates. Moreover, when deploying AQCEL with a noisy intermediate scale quantum computer, it efficiently produces a quantum circuit that approximates the original circuit with high fidelity by truncating low-amplitude computational basis states below certain thresholds. Our technique is useful for a wide variety of quantum algorithms, opening up new possibilities to further simplify quantum circuits to be more effective for real devices.
翻訳日:2023-01-27 18:29:09 公開日:2022-11-11
# ガウス量子力学の再帰的表現

The recursive representation of Gaussian quantum mechanics ( http://arxiv.org/abs/2209.06069v3 )

ライセンス: Link先を確認
Yuan Yao, Filippo Miatto, and Nicol\'as Quesada(参考訳) 純粋かつ混合されたガウス状態、ガウスユニタリおよびガウスチャネルの統一かつ微分可能なフォック空間表現を、そのフォック空間振幅を再帰的に生成できる単一の線形再帰関係の観点から導入する。 再帰的かつ微分可能な性質のため、パラメトリゼーションに関してフォック振幅の勾配を計算することができる単純で高速な計算実装を実現する。 勾配計算の柔軟性と一般性を示すために、シンプレクティック群(またはM$モード干渉計の直交群)の多様体上で直接最適化を行うことにより、基本成分を用いてそれらを表現することなく、$M$モードのガウス対象(純混合状態、ユニタリおよびチャネル)を最適化する方法を示す。 また、ガウス演算の構成則を再帰形式で表現することで、ガウス演算を構成する際の正しい大域位相を得ることができ、したがって、このモデルをガウス演算の線形結合として書ける状態へと拡張することができる。 私たちはこれらのメソッドをオープンソースライブラリMrMustardに実装しました。

We introduce a unified and differentiable Fock space representation of pure and mixed Gaussian states, Gaussian unitaries and Gaussian channels in terms of a single linear recurrence relation that can generate their Fock space amplitudes recursively. Due to its recursive and differentiable nature, it makes for a simple and fast computational implementation that enables calculating the gradient of the Fock amplitudes with respect to parametrizations. To show the flexibility and the generality of the gradient calculation, we show how to optimize $M$-mode Gaussian objects (pure and mixed states, unitaries, and channels) without the need to express them using fundamental components, by performing an optimization directly on the manifold of the symplectic group (or the orthogonal group for $M$-mode interferometers). We also find the composition rule of Gaussian operations expressed in the recurrent form, which allows us to obtain the correct global phase when composing Gaussian operations, and therefore extend our model to states that can be written as linear combinations of Gaussians. We implemented all of these methods in the freely available open-source library MrMustard.
翻訳日:2023-01-26 19:27:12 公開日:2022-11-11
# 完全擬ポテンシャルおよび補間ウェーブレット基底を用いた電子構造計算

Electronic Structure Calculation with the Exact Pseudopotential and Interpolating Wavelet Basis ( http://arxiv.org/abs/2209.14248v5 )

ライセンス: Link先を確認
Tommi H\"oyn\"al\"anmaa and Tapio Rantala(参考訳) 電子構造計算は主に、STOや契約GTOのようなクーロンポテンシャル特異点適応基底セットを用いて行われる。 他の基底や重元素では、擬ポテンシャルは実用的な代替物として現れる。 ここでは、クーロン特異性を除去し、補間波基底集合を持つ小原子軌道に対してテストするための完全擬ポテンシャル(epp)を導入する。 Deslauriers-Dubucスケーリング関数を半無限実区間上で基底集合としてガレルキン法に適用する。 水素原子1s, 2s, 2p軌道とヘリウム原子配置を計算し, EPP-Galerkin法を実証する。 $\mathrm{He\;1s^2}$, $\mathrm{He\;1s2s\;{}^1 S}$, $\mathrm{He\;1s2s\;{}^3 S}$。 また, 球状原子の実用的手法である有限差分法との比較を行った結果, EPP-Galerkin法の精度は上述の手法よりも優れていることがわかった。

Electronic structure calculations are mostly carried out with Coulomb potential singularity adapted basis sets like STO or contracted GTO. With other basis or for heavy elements the pseudopotentials may appear as a practical alternative. Here, we introduce the exact pseudopotential (EPP) to remove the Coulomb singularity and test it for orbitals of small atoms with the interpolating wave basis set. We apply EPP to the Galerkin method with a basis set consisting of Deslauriers--Dubuc scaling functions on the half-infinite real interval. We demonstrate the EPP--Galerkin method by computing the hydrogen atom 1s, 2s, and 2p orbitals and helium atom configurations $\mathrm{He\;1s^2}$, $\mathrm{He\;1s2s\;{}^1 S}$, and $\mathrm{He\;1s2s\;{}^3 S}$. We compare the method to the ordinary interpolating wavelet Galerkin method (OIW--Galerkin) handling the singularity at the nucleus by excluding the scaling function located at the origin from the basis. We also compare the performance of our approach to that of finite--difference approach, which is another practical method for spherical atoms. We find the accuracy of the EPP--Galerkin method better than both of the above mentioned methods.
翻訳日:2023-01-24 19:38:32 公開日:2022-11-11
# 3ビット符号を用いた効率的な量子誤り補正の実現

Realizing efficient quantum error-correction with three-qubit codes ( http://arxiv.org/abs/2209.15435v10 )

ライセンス: Link先を確認
Long Huang(参考訳) 本研究では、一般独立雑音に対する効率的な量子誤り訂正プロトコルを、3量子量子誤り訂正符号を用いて構築する。 結合のルールは、コードのエラー訂正機能に従って要約される。 コードはエラーを修正するだけでなく、効果的なチャネルを分極する役割も果たします。 プロトコルの性能はノイズの種類と結合のレベルに依存する。 一般のパウリノイズでは、偏極ノイズに対してプロトコルのしきい値は0.91518であり、振幅減衰ノイズでは0.849である。 一般の独立ノイズの場合、プロトコルのしきい値は約0.932であり、数値シミュレーションによって得られる。 結合のレベルに制限がない場合は、エラー訂正しきい値がずっと低い可能性がある。 このプロトコルでコストがかかる物理リソースは、3量子ビットの量子エラー訂正を実現することでコストがかかる物理リソースの複数である。 物理系における量子誤差補正の実現に役立つと我々は考えている。

In this work, the efficient quantum error-correction protocol against the general independent noise is constructed with the three-qubit quantum error-correction codes. The rules of concatenation are summarized according to the error-correcting capability of the codes. The codes not only play the role of correcting errors, but the role of polarizing the effective channel. The performance of the protocol is dependent on the type of noise and the level of concatenation. For the general Pauli noise, the threshold of the protocol is 0.91518 when against the depolarizing noise, while for the amplitude damping noise it is about 0.849. For the general independent noise, the threshold of the protocol is about 0.932, which is obtained through the numerical simulations. If there is no limit on the level of concatenation, the error-correction threshold can be much lower. The physical resources costed by this protocol is multiple of the physical resources costed by realizing the three-qubit quantum error-correction, with no increase in complexity. We believe it will be helpful for realizing quantum error-correction in the physical system.
翻訳日:2023-01-24 19:19:09 公開日:2022-11-11
# 量子センサネットワークを用いた送信機位置決め

Transmitter Localization using Quantum Sensor Networks ( http://arxiv.org/abs/2211.02260v2 )

ライセンス: Link先を確認
Caitao Zhan and Himanshu Gupta(参考訳) 量子センサー(QS)は、様々な物理現象を極度に感度で測定することができる。 QSは原子干渉計などのいくつかの用途で使用されているが、量子センサネットワーク(QSN)の応用はごくわずかである。 イベント(特にRF伝送)のQSN-局所化の自然な応用を考察する。 本稿では,QSNを用いたRF送信機の局部化を実現するための技術を開発した。 本手法は、量子状態判別問題として局所化問題を提起し、そのローカライズ問題への応用における課題に対処する。 特に、量子状態識別ソリューションは、特に状態数(例えば、我々の場合、送信可能位置数)が高い場合、エラーの確率が高い。 この課題は、送信機を粗い方法で、より微細な方法で各レベルにローカライズする2段階のローカライズ手法を開発することで解決される。 カスタム構築したQSNシミュレータに対する提案手法の評価を行い,提案手法がシミュレーション設定において高い精度を実現することを示す。

Quantum sensors (QSs) are able to measure various physical phenomena with extreme sensitivity. QSs have been used in several applications such as atomic interferometers, but very few applications of quantum sensor networks (QSNs) have been proposed or developed. We look at a natural application of QSNs-localization of an event (in particular, of an RF transmission). In this paper, we develop a viable technique for the localization of a radio-frequency (RF) transmitter using QSNs. Our approach poses the localization problem as a well-studied quantum state discrimination problem, and addresses the challenges in its application to the localization problem. In particular, a quantum state discrimination solution can suffer from high probability of error, especially when the number of states (i.e., number of potential transmitter locations, in our case) can be high. We address this challenge by developing a two-level localization approach, which localizes the transmitter in a coarser and finer way in the respective levels. We evaluate our approaches on a custom-built QSN simulator, and our evaluation results show that our proposed techniques achieve high accuracy in simulated settings.
翻訳日:2023-01-20 09:12:22 公開日:2022-11-11
# Cu(001)上のH2の活性化解離 : 量子トンネルの役割

Activated Dissociation of H2 on Cu(001): The Role of Quantum Tunneling ( http://arxiv.org/abs/2211.06157v1 )

ライセンス: Link先を確認
Xiaofan Yu, Yangwu Tong, and Yong Yang(参考訳) Cu(001)表面上のH2分子の活性化と解離が理論的に研究されている。 Cu(001)上のH2の解離の活性化障壁は、第一原理計算により、高さ0.59 eVと決定される。 基質CuからH2への電子移動は、活性化、H-H結合の破壊、Cu-H結合の形成において重要な役割を果たす。 H-H結合とCu-H結合の競合は、最外原子価電子の波動関数の重なりによって説明できる。 移動行列法を用いて, 室温以下で重要な解離過程における量子トンネルの役割を研究することができる。 所定の温度では、H2の翻訳運動と振動運動からのトンネルの寄与を解離過程のために定量化する。 幅広い温度範囲で、量子トンネル効果が解離の有効障壁と速度定数に及ぼす影響が明らかにされる。 熱平衡および非平衡(分子ビーム)条件に関連した推定エネルギーパラメータは、実験データに匹敵する。 低温領域では、古典状態から量子状態へのクロスオーバーが特定される。

The activation and dissociation of H2 molecules on Cu(001) surface is studied theoretically. The activation barrier for the dissociation of H2 on Cu(001) is determined by first-principles calculations to be ~ 0.59 eV in height. Electron transfer from the substrate Cu to H2 plays a key role in the activation, breaking of the H-H bond and the formation of the Cu-H bonds. The competition of H-H and Cu-H bonds may be described by the overlap of the wave functions of the outermost valence electrons. Using the transfer matrix method, we are able to study the role of quantum tunneling in the dissociation process, which is found to be significant at room temperature and below. At given temperatures, the tunneling contributions from the translational and vibrational motions of H2 are quantified for the dissociation process. Within a wide range of temperatures, the effects of quantum tunneling on the effective barriers of dissociation and the rate constants are revealed. The deduced energetic parameters associated with thermal equilibrium and non-equilibrium (molecular beam) conditions are comparable with experimental data. In the low-temperature region, crossover from classical to quantum regime is identified.
翻訳日:2023-01-19 18:37:15 公開日:2022-11-11
# 可逆計算と時空の因果構造

Reversible computation and the causal structure of space-time ( http://arxiv.org/abs/2211.06107v1 )

ライセンス: Link先を確認
Anandamay Das Bhowmik, Preeti Parashar(参考訳) 可逆アルゴリズムは古典計算と量子計算の両方において重要な役割を果たす。 古典ビットに対して唯一の非自明な可逆演算はビットフリップであるが、自然は量子ビットに対してできることにおいてより汎用的である。 量子コンピュータが量子ビット上で実行できる可逆演算は線形ユニタリ変換の群である。 しかし、量子力学の法則は、完全に可逆であるにもかかわらず、反線型反ユニタリゲートの実装を禁止している。 ここでは、可逆演算の可能な集合に対するそのような制限が、時空構造の基本的な制約であることを示す。 特に、任意の反線形反ユニタリゲートの構築は、我々が議論するとおり相対論的因果関係の原理と根本的に異なる基本因果原始主義の破れをもたらすことが示される。

Reversible algorithms play a crucial role both in classical and quantum computation. While for a classical bit the only nontrivial reversible operation is the bit-flip, nature is far more versatile in what it allows to do to a quantum bit. The reversible operations that a quantum computer can perform on a qubit are group of linear unitary transformations. However, laws of quantum mechanics prohibit implementation of anti-linear anti-unitary gates, even though they are perfectly reversible. Here we show that such a restriction on possible set of reversible operations is, remarkably, a fundamental constraint of spacetime structure. In particular, it will be shown that construction of any anti-linear anti-unitary gate will lead to violation of a fundamental causal primitive which, as we shall argue, is fundamentally different from the principle of relativistic causality.
翻訳日:2023-01-19 18:37:00 公開日:2022-11-11
# 量子ネットワークのための量子ルーティング

Quantum Routing for Emerging Quantum Networks ( http://arxiv.org/abs/2211.06069v1 )

ライセンス: Link先を確認
Wenbo Shi, Robert Malaney(参考訳) 複数の出力経路にまたがる入力量子信号の絡み合いである量子ルーティングは、将来の量子ネットワークの重要な側面となる。 現在開発中のノイズ量子デバイスによる、新興量子ネットワークにおけるそのようなルーティングの実装は、明らかな可能性である。 ルーティングプロセスで経験した任意のノイズのある量子チャネルに適した量子エラー補正が必要である。 本研究では,量子ルーティングと量子誤差補正を組み合わせた回路の設計を行い,ノイズの多い実世界の量子デバイス上で,そのような回路を初めて実装する。 チャネル上の統計的知識を仮定し,量子状態トモグラフィによる経路絡み合いを判定し,誤り訂正量子ルーティングの量子特性を実験的に検証し,その成功確率も測定した。 展開された量子エラー補正は、ルーティングの改善の観点から成功と認識される。 我々の実験は、近距離ノイズ量子コンピューティングデバイスにおける誤り訂正量子ルーティングが実現可能であることを初めて検証し、その詳細は、近距離量子ハードウェアの量子ルーティングベンチマークを提供する。

Quantum routing, the entanglement of an input quantum signal over multiple output paths, will be an important aspect of future quantum networks. Implementation of such routing in emerging quantum networks via the noisy quantum devices currently under development is a distinct possibility. Quantum error correction, suitable for the arbitrary noisy quantum channels experienced in the routing process, will be required. In this work, we design a combined circuit for quantum routing and quantum error correction, and carry out the first implementation of such a circuit on a noisy real-world quantum device. Under the assumption of statistical knowledge on the channel, we experimentally verify the quantum nature of the error-corrected quantum routing by determining the path-entanglement through quantum state tomography, measuring also its probability of success. The quantum error correction deployed is identified as successful in terms of improving the routing. Our experiments validate, for the first time, that error-corrected quantum routing in near-term noisy quantum-computing devices is feasible, and our detailed results provide a quantum-routing benchmark for all near-term quantum hardware.
翻訳日:2023-01-19 18:36:47 公開日:2022-11-11
# 太陽系外惑星分光の究極の限界:量子アプローチ

Ultimate limits of exoplanet spectroscopy: a quantum approach ( http://arxiv.org/abs/2211.06050v1 )

ライセンス: Link先を確認
Zixin Huang, Christian Schwab, Cosmo Lupo(参考訳) 太陽系外惑星科学における大きな課題の1つは、太陽系外惑星の大気構成を判断し、他の世界における生物化学プロセスの存在を示唆するバイオシグナチャを見つけることである。 私たちが検出しようとしているバイオマーカーは、酸素やメタンなどの外惑星大気中のガスで、可視光と近赤外のスペクトルに深い吸収特性がある。 ここでは、より明るい恒星源の存在下でのジム源として、スペクトル吸収線の存在の有無を決定するための究極の量子限界を確立する。 対称および非対称仮説検定の枠組みにおいて,関連する誤差指数を特徴付ける。 空間的多重化に基づく構造的測定により、惑星からの光を分離し、究極の量子限界を達成することができることがわかった。 もし惑星が恒星に対して$\epsilon \ll 1$の強度を持つなら、この手法は直接分光法を著しく上回り、1/\epsilon$の誤差指数の改善をもたらすことを示す。 干渉計測技術とスペクトル分析を組み合わせた最適測定法を提案する。

One of the big challenges in exoplanet science is to determine the atmospheric makeup of extrasolar planets, and to find biosignatures that hint at the existence of biochemical processes on another world. The biomarkers we are trying to detect are gases in the exoplanet atmosphere like oxygen or methane, which have deep absorption features in the visible and near-infrared spectrum. Here we establish the ultimate quantum limit for determining the presence or absence of a spectral absorption line, for a dim source in the presence of a much brighter stellar source. We characterise the associated error exponent in both the frameworks of symmetric and asymmetric hypothesis testing. We found that a structured measurement based on spatial demultiplexing allows us to decouple the light coming from the planet and achieve the ultimate quantum limits. If the planet has intensity $\epsilon \ll 1$ relative to the star, we show that this approach significantly outperforms direct spectroscopy yielding an improvement of the error exponent by a factor $1/\epsilon$. We find the optimal measurement, which is a combination of interferometric techniques and spectrum analysis.
翻訳日:2023-01-19 18:36:28 公開日:2022-11-11
# 線形量子系のコヒーレント等化

Coherent Equalization of Linear Quantum Systems ( http://arxiv.org/abs/2211.06003v1 )

ライセンス: Link先を確認
V. Ugrinovskii and M. R. James(参考訳) 本稿では,受動線形量子システムの等化に対するコヒーレントフィルタリングの手法である$h_\infty$-likeを導入することで,量子通信チャネルの劣化を緩和する。 このようなシステムに対しては、受動的量子系である準最適等化フィルタを求める。 この問題は、イコライザが物理的に実現可能であるという要件によって引き起こされる制約に基づく最適化問題を解くことにかかっている。 これらの制約を周波数領域で定式化することにより、問題は凸$H_\infty$-likeの定式化を許容することを示す。 これにより、$J$-スペクトル分解を用いて準最適コヒーレント等化器の集合を導出できる。 ネバリンナ-ピック補間と組み合わされた追加の半定値緩和は、サブオプティカルコヒーレント等化器の設計のための扱いやすいアルゴリズムとなることが示されている。

This paper introduces the $H_\infty$-like methodology of coherent filtering for equalization of passive linear quantum systems to help mitigate degrading effects of quantum communication channels. For such systems, we seek to find a suboptimal equalizing filter which is itself a passive quantum system. The problem amounts to solving an optimization problem subject to constraints dictated by the requirement for the equalizer to be physically realizable. By formulating these constraints in the frequency domain, we show that the problem admits a convex $H_\infty$-like formulation. This allows us to derive a set of suboptimal coherent equalizers using $J$-spectral factorization. An additional semidefinite relaxation combined with the Nevanlinna-Pick interpolation is shown to lead to a tractable algorithm for the design of a suboptimal coherent equalizer.
翻訳日:2023-01-19 18:35:54 公開日:2022-11-11
# ナノファイバー誘導光場と電気四極子遷移を持つ2レベル原子との方向依存結合

Direction-dependent coupling between a nanofiber-guided light field and a two-level atom with an electric quadrupole transition ( http://arxiv.org/abs/2211.06000v1 )

ライセンス: Link先を確認
Fam Le Kien, Sile Nic Chormaic, and Thomas Busch(参考訳) ナノファイバ誘導光場と電気四極子遷移を持つ2レベル原子とのカップリングの方向依存性について検討した。 原子が繊維横軸に$x$、原子内部状態の量子化軸がもう1つの直交横軸$y$、原子上層と下層はアルカリ金属原子の超微細構造レベル$M’$および$M$、磁場は四分極偏光基本誘導モードHE$_{11}$であり、偏光は$\xi=x$または$y$である。 四重極ラビ周波数の絶対値は(M'-M=\pm1$, $\xi=y$)と(M'-M=\pm2$, $\xi=x$)の場合の光場の伝播方向に依存する。 結合の方向依存性は、誘導モードへの自然放出の方向依存性をもたらすことを示す。 四極子遷移の場合の原子-場カップリングの方向依存性は、光のスピン-軌道カップリングによるものではなく、場の空間的位相係数の勾配から生じる他の寄与がある。

We study the directional dependence of the coupling between a nanofiber-guided light field and a two-level atom with an electric quadrupole transition. We examine the situation where the atom lies on the fiber transverse axis $x$, the quantization axis for the atomic internal states is the other orthogonal transverse axis $y$, the atomic upper and lower levels are the magnetic sublevels $M'$ and $M$ of hyperfine-structure levels of an alkali-metal atom, and the field is in a quasilinearly polarized fundamental guided mode HE$_{11}$ with the polarization $\xi=x$ or $y$. We find that the absolute value of the quadrupole Rabi frequency depends on the propagation direction of the light field in the cases of ($M'-M=\pm1$, $\xi=y$) and ($M'-M=\pm2$, $\xi=x$). We show that the directional dependence of the coupling leads to the directional dependence of spontaneous emission into guided modes. We find that the directional dependence of the atom-field coupling in the case of quadrupole transitions is not entirely due to spin-orbit coupling of light: there are some other contributions resulting from the gradient of the spatial phase factor of the field.
翻訳日:2023-01-19 18:35:39 公開日:2022-11-11
# ゼノ効果を用いたマルチ量子ビット量子ゲート

A Multi-Qubit Quantum Gate Using the Zeno Effect ( http://arxiv.org/abs/2211.05988v1 )

ライセンス: Link先を確認
Philippe Lewalle, Leigh S. Martin, Emmanuel Flurin, Song Zhang, Eliya Blumenthal, Shay Hacohen-Gourgy, Daniel Burgarth, K. Birgitta Whaley(参考訳) 繰り返し観測されるゼノ効果は量子系の力学を凍結させ、量子力学の象徴的な奇性として機能する。 測定が部分空間内の状態と区別できない場合、その部分空間内のダイナミクスは著しく変化し、非自明な振る舞いをもたらす。 そこで,このような測定により,単一ビット制御のみの非干渉系を2ビットあるいは複数ビットのエンタングゲートに変換し,これをゼノゲートと呼ぶ。 ゲートは、ある特定の非局所部分空間内に位置するシステム上に幾何位相を付与することで機能する。 我々は,複数の非イデアル条件下でのゲート忠実度に対する単純な閉形式表現を導出し,回路およびキャビティQEDシステムにおいてゲートが実装可能であることを示す。 より具体的には、マルコフ的および非マルコフ的読み出し規則の両方において、分散的読み出しによるゲートの機能を説明し、ゲートを理想的に実現するための長手読み出し条件を導出する。

The Zeno effect, in which repeated observation freezes the dynamics of a quantum system, stands as an iconic oddity of quantum mechanics. When a measurement is unable to distinguish between states in a subspace, the dynamics within that subspace can be profoundly altered, leading to non-trivial behavior. Here we show that such a measurement can turn a non-interacting system with only single-qubit control into a two- or multi-qubit entangling gate, which we call a Zeno gate. The gate works by imparting a geometric phase on the system, conditioned on it lying within a particular nonlocal subspace. We derive simple closed-form expressions for the gate fidelity under a number of non-idealities and show that the gate is viable for implementation in circuit and cavity QED systems. More specifically, we illustrate the functioning of the gate via dispersive readout in both the Markovian and non-Markovian readout regimes, and derive conditions for longitudinal readout to ideally realize the gate.
翻訳日:2023-01-19 18:35:12 公開日:2022-11-11
# 量子ホール物理と3次元

Quantum-Hall physics and three dimensions ( http://arxiv.org/abs/2211.06248v1 )

ライセンス: Link先を確認
Johannes Gooth, Stanislaw Galeski, Tobias Meng(参考訳) 1980年に量子ホール効果(qhe)が発見され、凝縮物物理学の転換点となった: 適切な実験条件が与えられたとき、2次元(2d)電子系のホール伝導率 {\sigma}_xy は正確に量子化される。 しかし、QHEは3次元でどうなるのか(3D)? 過去40年間の実験により、qheの顕著な物理学、特に高原のようなホール伝導率 {\sigma}_xy は、縦比抵抗 \r{ho}_xx のミニマを伴い、3d材料にも見られることが示されている。 しかし、通常 \r{ho}_xx は有限であり、また {\sigma}_xy とコンダクタンス量子 e^2/h の間の量的関係は確立できないため、3D における量子ホール物理学の役割は未解決のままである。 最近の一連のエキサイティングな実験の後、3DのQHEはセンターステージに戻った。 ここでは、これらの実験から生じる磁場における3次元物質の理解の飛躍を要約する。

The discovery of the quantum Hall effect (QHE) in 1980 marked a turning point in condensed matter physics: given appropriate experimental conditions, the Hall conductivity {\sigma}_xy of a two-dimensional (2D) electron system is exactly quantized. But what happens to the QHE in three dimensions (3D)? Experiments over the past 40 years showed that some of the remarkable physics of the QHE, in particular plateau-like Hall conductivities {\sigma}_xy accompanied by minima in the longitudinal resistivity \r{ho}_xx, can also be found in 3D materials. However, since typically \r{ho}_xx remains finite and a quantitative relation between {\sigma}_xy and the conductance quantum e^2/h could not be established, the role of quantum Hall physics in 3D remains unsettled. Following a recent series of exciting experiments, the QHE in 3D has now returned to the centre stage. Here, we summarize the leap in understanding of 3D matter in magnetic fields emerging from these experiments.
翻訳日:2023-01-19 18:29:22 公開日:2022-11-11
# cv-qkdの共振分極と位相補償に基づく機械学習

Machine learning based joint polarization and phase compensation for CV-QKD ( http://arxiv.org/abs/2211.06246v1 )

ライセンス: Link先を確認
Hou-Man Chin, Adnan E. Hajomer, Nitin Jain, Ulrik L. Andersen and Tobias Gehring(参考訳) ガウス変調CV-QKDシステムにおいて,5.5dB減衰の設置繊維上で18時間以上測定された分極と位相の同時推定法について検討した。

We investigated a machine learning method for joint estimation of polarization and phase for use in a Gaussian modulated CV-QKD system, over an 18 hour period measured on a installed fiber with 5.5 dB attenuation.
翻訳日:2023-01-19 18:29:01 公開日:2022-11-11
# 原子相配列からの光渦場のトポロジーと分極

Topology and Polarization of Optical Vortex Fields from Atomic Phased Arrays ( http://arxiv.org/abs/2211.06243v1 )

ライセンス: Link先を確認
Hao Wang and Andrei Afanasev(参考訳) 我々は、原子の位相配列による光渦生成のための理論的形式論を開発した。 ジャコビアンガー展開を用いて,得られた場トポロジーを実演し,与えられた位相電荷を持つ渦の生成に必要な配列要素の最小数を決定する。 電磁界のスピンと軌道角モータを考慮したベクトル渦が検討された。 その結果, 位相特異点近傍の渦場では, 3次元偏光パラメータの逆位置依存性は放射源までの距離に依存しないことがわかった。

We developed theoretical formalism for generation of optical vortices by phased arrays of atoms. Using Jacobi-Anger expansion, we demonstrate the resulting field topology and determine the least number of array elements necessary for generation of vortices with a given topological charge. Vector vortices were considered, taking into account both spin and orbital angular momenta of electromagnetic fields. It was found that for the vortex field near the phase singularity, the transverse-position dependence of 3D polarization parameters is independent of the distance to the radiation source.
翻訳日:2023-01-19 18:28:40 公開日:2022-11-11
# 固有値推定のための量子アルゴリズム

Quantum Algorithm For Estimating Eigenvalue ( http://arxiv.org/abs/2211.06179v1 )

ライセンス: Link先を確認
Nhat A. Nghiem and Tzu-Chieh Wei(参考訳) 数値科学計算の大部分は、線形方程式の解法や固有値や固有ベクトルの発見など、行列の取り扱いと操作に大きく依存している。 多くの量子アルゴリズムがこれらの計算タスクを前進させるために開発されており、線形方程式の解法のようないくつかの場合において指数的なスピードアップをもたらすことが示される。 ここでは、HHLアルゴリズムの手法と古典的パワー法の概念を用いて、与えられたエルミート行列の最大固有値を推定するための単純な量子アルゴリズムを提供する。 HHLアルゴリズムの場合と同様に、我々の量子プロシージャは、同じ問題を解決する古典的なアルゴリズムと比較して指数的なスピードアップを得ることができる。 また,量子古典型アルゴリズムのハイブリッド化など,量子アルゴリズムの拡張や応用についても検討した。

A majority of numerical scientific computation relies heavily on handling and manipulating matrices, such as solving linear equations, finding eigenvalues and eigenvectors, and so on. Many quantum algorithms have been developed to advance these computational tasks, and in some cases, such as solving linear equations, can be shown to yield exponential speedup. Here, employing the techniques in the HHL algorithm and the ideas of the classical power method, we provide a simple quantum algorithm for estimating the largest eigenvalue in magnitude of a given Hermitian matrix. As in the case of the HHL algorithm, our quantum procedure can also yield exponential speedup compared to classical algorithms that solve the same problem. We also discuss a few possible extensions and applications of our quantum algorithm, such as a version of a hybrid quantum-classical Lanczos algorithm.
翻訳日:2023-01-19 18:28:17 公開日:2022-11-11
# ペンタセンの移動:空洞量子力学のための強いカップリングを持つゼロフィールド室温メーザーとしてのジアザペンタセンドープパラテルフェニル

Move aside pentacene: Diazapentacene doped para-terphenyl as a zero-field room-temperature maser with strong coupling for cavity quantum electrodynamics ( http://arxiv.org/abs/2211.06176v1 )

ライセンス: Link先を確認
Wern Ng, Xiaotian Xu, Max Attwood, Hao Wu, Zhu Meng, Xi Chen, Mark Oxborrow(参考訳) レーザーのマイクロ波アナログであるメーザーは、医療用MRI画像や深宇宙通信に用いるマイクロ波信号の超低ノイズ増幅を提供する。 近代のメーザーの研究は、室温で操作可能なゲインメディアが発見され、その使用を妨げるかさばる低温物質が放出されたことで、再燃した。 しかし、パラテルフェニルにドープされたペンタセンとダイヤモンドに負電荷の窒素空隙欠陥の2つの既知の物質以外に、全く新しい室温媒質の探索の進展は乏しい。 ここでは,6,13-ジアザペンタセンをパラテルフェニルでドープしたマザーゲイン培地を室温で,外部磁場なしで操作できることを示す。 測定された10dbmのメーザーパルスパワーは、ペンタセンドープされたパラテルフェニルと絶対的なパワーで同等であるが、より速い増幅開始時間を持つペンタセンの前駆体に比べて説得力のある利点を有しており、620nmの長い波長の光を励起でき、付加窒素基から高い化学的安定性を享受できる。 さらに,マザーバーストにより,6,13-ジアザペンタセンをドープしたパラテルフェニルがキャビティ量子電磁力学の強いカップリングレジームに到達し,高い協調性を示す。 6,13-ジアザペンタセンをドープしたパラテルフェニルの光学およびマイクロ波スピンダイナミクスを解析し,マッサーゲイン媒質としての挙動を評価した。 本研究は, 室温における空洞量子力学的効果の研究に期待できる材料として, その他の類似のメーザー材料を将来発見するための道を開くものである。

Masers, the microwave analogue of lasers, promise to deliver ultra-low noise amplification of microwave signals for use in medical MRI imaging and deep-space communication. Research on masers in modern times was rekindled thanks to the discovery of gain media that were operable at room-temperature, eschewing bulky cryogenics that hindered their use. However, besides the two known materials of pentacene doped in para-terphenyl and negatively-charged nitrogen-vacancy defects in diamond, there has been scarce progress in the search for completely new room-temperature gain media. Here we show the discovery of 6,13-diazapentacene doped in para-terphenyl as a maser gain medium that can operate at room-temperature and without an external magnetic field. A measured maser pulse power of -10 dBm shows it is on par with pentacene-doped para-terphenyl in absolute power, while possessing compelling advantages against its pentacene predecessor in that it has a faster amplification startup time, can be excited with longer wavelength light at 620 nm and enjoys greater chemical stability from added nitrogen groups. Furthermore, we show that the maser bursts allow 6,13-diazapentacene-doped para-terphenyl to reach the strong coupling regime for cavity quantum electrodynamics, where it has a high cooperativity of 182. We study the optical and microwave spin dynamics of 6,13-diazapentacene-doped para-terphenyl in order to evaluate its behavior as a maser gain medium, where it features fast intersystem crossing and an advantageously higher triplet quantum yield. Our results pave the way for the future discovery of other similar maser materials and help point to such materials as promising candidates for the study of cavity quantum electrodynamic effects at room-temperature.
翻訳日:2023-01-19 18:27:51 公開日:2022-11-11
# Fe$_3$GaTe$_2$/MoS$_2$/Fe$_3$GaTe$_2$2D van der Waalsヘテロ接合素子の室温スピンバルブ効果

Room-Temperature Spin-Valve Effect in Fe$_3$GaTe$_2$/MoS$_2$/Fe$_3$GaTe$_2$ 2D van der Waals Heterojunction Devices ( http://arxiv.org/abs/2211.06165v1 )

ライセンス: Link先を確認
Wen Jin, Gaojie Zhang, Hao Wu, Li Yang, Wenfeng Zhang and Haixin Chang(参考訳) スピンバルブ効果は、多くのスピントロニクスデバイスの可能性のため、過去数十年にわたってスピントロニクスの焦点となっている。 2次元ファンデルワールス(vdW)材料はスピンバルブヘテロ接合を形成することが期待されている。 しかし、vdw強磁性2d結晶のキュリー温度 (tc) は室温 (~30-220 k) 以下である。 室温、強磁性(FM)2D結晶をベースとしたスピンバルブデバイスを開発するのは非常に難しい。 第1室温FM 2D結晶を用いた全2D vdW Fe3GaTe2/MoS2/Fe3GaTe2スピンバルブ素子について報告する。 全デバイスの磁気抵抗(MR)は2.3Kで15.89%、10Kで11.97%、Fe$_3$GaTe$_2$/MoS$_2$/Fe$_3$GaTe$_2$およびNiFe/MoS$_2$/NiFeのスピンバルブからMRの4-30倍である。 典型的なスピンバルブ効果は、vdWヘテロ接合におけるMoS2スペーサーの厚さに強い依存を示す。 重要なことに、スピンバルブ効果(0.31%)は、作業電流が10 nA (0.13 A/cm$^2$)まで低い300 Kで頑健に存在する。 その結果、室温、2次元FM結晶をベースとした2次元スピンバルブ装置の一般的なvdWプラットフォームが得られた。

Spin-valve effect has been the focus of spintronics over the last decades due to its potential in many spintronic devices. Two-dimensional (2D) van der Waals (vdW) materials are highly expected to build the spin-valve heterojunction. However, the Curie temperatures (TC) of the vdW ferromagnetic 2D crystals are mostly below room temperature (~30-220 K). It is very challenging to develop room temperature, ferromagnetic (FM) 2D crystals based spin-valve devices which are still not available to date. We report the first room temperature, FM 2D crystal based all-2D vdW Fe3GaTe2/MoS2/Fe3GaTe2 spin valve devices. The Magnetoresistance (MR) of the all- devices is up to 15.89% at 2.3 K and 11.97% at 10 K, 4-30 times of MR from the spin valves of Fe$_3$GaTe$_2$/MoS$_2$/Fe$_3$GaTe$_2$ and conventional NiFe/MoS$_2$/NiFe. Typical spin valve effect shows strong dependence on MoS2 spacer thickness in the vdW heterojunction. Importantly, the spin valve effect (0.31%) still robustly exists at 300 K with low working currents down to 10 nA (0.13 A/cm$^2$). The results provide a general vdW platform to room temperature, 2D FM crystals based 2D spin valve devices.
翻訳日:2023-01-19 18:26:56 公開日:2022-11-11
# 超伝導表面コードのためのハードウェア最適化パリティチェックゲート

Hardware optimized parity check gates for superconducting surface codes ( http://arxiv.org/abs/2211.06382v1 )

ライセンス: Link先を確認
Matthew J. Reagor, Thomas C. Bohdanowicz, David Rodriguez Perez, Eyob A. Sete, and William J. Zeng(参考訳) 誤り訂正符号は、フォールトトレラントな量子論理ステップを実現するためにマルチキュービット計測を使用する。 実際、フォールトトレラントな量子コンピューティングハードウェアのスケールアップに必要なリソースは、このタスクによって主に設定されます。 したがって、次世代プロセッサをジョイント測定用に調整することで、スピード、精度、コストが向上し、大規模量子コンピュータの開発が加速する可能性がある。 本稿では,超伝導トランスモン量子ビット間の多体相互作用に基づく非慣習的表面コードの解析により,このような探索の動機付けを行う。 ハードウェア最適化パリティ(HOP)ゲートは,複数ビット条件相の同時蓄積による安定化型測定を実現する。 このアプローチの基盤となる多体効果にもかかわらず、論理的欠点を推定すると、この設計は従来の設計に比べて少なくとも現実的な雑音に対して堅牢である可能性が示唆されている。 標準コードの$0.79 \times 10^{-3}$よりも高いしきい値が1.25 \times 10^{-3}$である。 しかし,HOP符号では,物理誤差率の低下に伴って論理誤差率が低下する。 この結果から,経験的発展の夜明けにゲートモデルプラットフォームを拡張して誤り訂正を行うという,実りある道筋を示す。

Error correcting codes use multi-qubit measurements to realize fault-tolerant quantum logic steps. In fact, the resources needed to scale-up fault-tolerant quantum computing hardware are largely set by this task. Tailoring next-generation processors for joint measurements, therefore, could result in improvements to speed, accuracy, or cost -- accelerating the development large-scale quantum computers. Here, we motivate such explorations by analyzing an unconventional surface code based on multi-body interactions between superconducting transmon qubits. Our central consideration, Hardware Optimized Parity (HOP) gates, achieves stabilizer-type measurements through simultaneous multi-qubit conditional phase accumulation. Despite the multi-body effects that underpin this approach, our estimates of logical faults suggest that this design can be at least as robust to realistic noise as conventional designs. We show a higher threshold of $1.25 \times 10^{-3}$ compared to the standard code's $0.79 \times 10^{-3}$. However, in the HOP code the logical error rate decreases more slowly with decreasing physical error rate. Our results point to a fruitful path forward towards extending gate-model platforms for error correction at the dawn of its empirical development.
翻訳日:2023-01-19 18:20:10 公開日:2022-11-11
# 散逸系における量子リアプノフ指数

Quantum Lyapunov exponent in dissipative systems ( http://arxiv.org/abs/2211.06353v1 )

ライセンス: Link先を確認
Pablo D. Bergamasco, Gabriel G. Carlo and Alejandro M. F. Rivas(参考訳) 時間外秩序相関器(OTOC)は閉量子系で広く研究されている。 しかし、オープンシステムに関する研究はほとんどなく、主にデコヒーレンスのシステムからスクランブルの効果を分離することに焦点を当てている。 異なる視点を採り、これら2つのプロセス間の相互作用を考察する。 これは、相空間収縮散逸が存在するときのOTOCの挙動を説明するために重要であり、実際の量子デバイスだけでなく、力学系領域にも至る所に存在する。 OTOC崩壊速度は古典的なリャプノフ指数(いくつかの違いがある)と密接に関連しており、カオスと通常の行動とを区別するためにより敏感である。 一方、量子進化作用素の長寿命固有値の一般の単純な関数として明らかにされている。 Ruelle-Pollicott共振器との単純な関係は見つからないが、古典的なシステムにガウス雑音の$\hbar_{\text{eff}}$サイズを加えることで、OTOC崩壊率を回復する。

The out-of-time order correlator (OTOC) has been widely studied in closed quantum systems. However, there are very few studies for open systems and they are mainly focused on isolating the effects of scrambling from those of decoherence. Adopting a different point of view, we study the interplay between these two processes. This proves crucial in order to explain the OTOC behavior when a phase space contracting dissipation is present, ubiquitous not only in real life quantum devices but in the dynamical systems area. The OTOC decay rate is closely related to the classical Lyapunov exponent -- with some differences -- and more sensitive in order to distinguish the chaotic from the regular behavior than other measures. On the other hand, it reveals as a generally simple function of the longest lived eigenvalues of the quantum evolution operator. We find no simple connection with the Ruelle-Pollicott resonances, but by adding Gaussian noise of $\hbar_{\text{eff}}$ size to the classical system we recover the OTOC decay rate, being this a consequence of the correspondence principle put forward in [Physical Review Letters 108 210605 (2012) and Physical Review E 99 042214 (2019)]
翻訳日:2023-01-19 18:19:51 公開日:2022-11-11
# アンダーソン鎖の計測

Measurements on an Anderson Chain ( http://arxiv.org/abs/2211.06350v1 )

ライセンス: Link先を確認
Paul P\"opperl, Igor V. Gornyi, Yuval Gefen(参考訳) 一次元アンダーソン局在系における観測された単一粒子のダイナミクスについて検討する。 時間進化は固定時間間隔に対するハミルトン力学によって制御され、局所的射影測定によって中断される。 障害による局所化と測定によるジャンプの競合は、平均的な読み出し量の興味深い振る舞いをもたらす。 ランダムな位置における測定は、古典的なランダムウォークと同様、平均的な位置を非局在化する。 それぞれの量子軌道に沿って、粒子は局所化されるが、局在長は変化している。 測定によって誘導される非局在化とは対照的に、制御された測定は系の輸送を導入し、選択された場所で粒子を局在させるのに使うことができる。 この意味で、測定は粒子の制御された環境を提供する。

We study the dynamics of a monitored single particle in a one-dimensional, Anderson-localized system. The time evolution is governed by Hamiltonian dynamics for fixed time intervals, interrupted by local, projective measurements. The competition between disorder-induced localization and measurement-induced jumps leads to interesting behaviour of readout-averaged quantities. We find that measurements at random positions delocalize the average position, similar to a classical random walk. Along each quantum trajectory, the particle remains localized, however with a modified localization length. In contrast to measurement-induced delocalization, controlled measurements can be used to introduce transport in the system and localize the particle at a chosen site. In this sense, the measurements provide a controlled environment for the particle.
翻訳日:2023-01-19 18:19:32 公開日:2022-11-11
# 量子周縁の矛盾するスペクトル適合性

Refuting spectral compatibility of quantum marginals ( http://arxiv.org/abs/2211.06349v1 )

ライセンス: Link先を確認
Felix Huber, Nikolai Wyderka(参考訳) 量子境界問題のスペクトル変種は以下のことを問う: 量子境界の集合に対して所定のスペクトルが与えられたとき、相反する結合状態が存在するか? この研究の主なアイデアは、非互換スペクトルを検出するための対称性が低下した半定義型プログラミング階層である。 階層構造は、すべての局所次元における非可逆性を証明し、次元を含まない反論を与えることができる。 これは局所ユニタリ不変量との整合性、エルミート行列問題の和、正錐上のトレース多項式の最適化、クロネッカー係数の証明などに等しく適用される。

The spectral variant of the quantum marginal problem asks: Given prescribed spectra for a set of quantum marginals, does there exist a compatible joint state? The main idea of this work is a symmetry-reduced semidefinite programming hierarchy for detecting incompatible spectra. The hierarchy can provide refutations that are dimension-free, certifying incompatibility in all local dimensions. It equally applies to the compatibility of local unitary invariants, to the sums of Hermitian matrices problem, to optimize trace polynomials on the positive cone, and to certify vanishing Kronecker coefficients.
翻訳日:2023-01-19 18:19:23 公開日:2022-11-11
# 超強結合系における決定論的単一光子源

Deterministic single-photon source in the ultrastrong coupling regime ( http://arxiv.org/abs/2211.06334v1 )

ライセンス: Link先を確認
Jie Peng, Jianing Tang, Pinghua Tang, Zhongzhou Ren, Junlong Tian, Nancy Barraza, Gabriel Alvarado Barrios, Lucas Lamata, Enrique Solano, and F. Albarran-Arriagada(参考訳) 決定論的単一光子源は量子情報プロトコルにおいて重要かつユビキタスである。 しかし、我々の知る限りでは、いずれも超強光子カップリングでは機能せず、それぞれの励起過程は1つの光子しか放出できない。 超強結合系で機能する回路qedにおける決定論的単一光子源を提案する。 ここで、2つの量子ビットは1つのプロセスで同時に励起され、2つの決定論的単一光子は任意の時間分離で順次放出される。 これは、2量子ビットのrabiとjaynes-cummingsモデルの1光子溶液に沿った2つの連続した断熱移動によって起こる。 刺激されたラマン断熱通路とは異なり、システムは光子放出後自動的に別の周期の初期状態に戻る。 本手法は単光子効率, 識別性, 純度を同時に行うことができる。 スタークシフトの補助により、共振器周波数の逆数に比例した時間内に決定論的単光子を生成することができる。

Deterministic single-photon sources are important and ubiquitous in quantum information protocols. However, to the best of our knowledge, none of them work in the ultrastrong light-matter coupling regime, and each excitation process can only emit one photon. We propose a deterministic single-photon source in circuit QED which can work in the ultrastrong coupling regime. Here, two qubits are excited simultaneously in one process and two deterministic single photons can be sequentially emitted with an arbitrary time separation. This happens through two consecutive adiabatic transfers along the one-photon solutions of the two-qubit Rabi and Jaynes-Cummings model, which has constant eigenenergy in the whole coupling regime. Unlike the stimulated Raman adiabatic passage, the system goes back to the initial state of another period automatically after photon emission. Our scheme can approach unity single-photon efficiency, indistinguishability, and purity simultaneously. With the assistance of the Stark shift, a deterministic single photon can be generated within a time proportional to the inverse of the resonator frequency.
翻訳日:2023-01-19 18:19:13 公開日:2022-11-11
# ミリケルビン温度における超伝導微粒子の高Q磁気浮上と制御

High-Q magnetic levitation and control of superconducting microspheres at millikelvin temperatures ( http://arxiv.org/abs/2211.06289v1 )

ライセンス: Link先を確認
Joachim Hofer, Gerard Higgins, Hans Huebl, Oliver F. Kieler, Reinhold Kleiner, Dieter Koelle, Philip Schmidt, Joshua A. Slater, Michael Trupke, Kevin Uhl, Thomas Weimann, Witlef Wieczorek, Friedrich Wulschner, Markus Aspelmeyer(参考訳) 反ヘルムホルツ構成の2コイルからなる静磁気トラップにおいて,100マイクロメートルの超伝導鉛スズ球体(質量5.6マイクログラム相当)の浮上を最大240ヘルツまで調整可能な共振周波数で報告した。 球の中心運動は、dc-SQUIDで磁気的に監視され、光学的に2.6e7までの品質因子を示す。 また、球運動の3次元磁気フィードバック制御を実証する。 極低温振動分離システムを実装することにより,200ヘルツの環境振動を約7桁減衰させることができる。 低温(15ミリケルビン)と大きな質量と高品質の因子と調整可能な共鳴周波数の組み合わせは、質量と長いコヒーレンス時間を持つ未探索の領域で量子物理学をテストするための有望なプラットフォームを提供する。

We report the levitation of a superconducting lead-tin sphere with 100 micrometer diameter (corresponding to a mass of 5.6 micrograms) in a static magnetic trap formed by two coils in an anti-Helmholtz configuration, with adjustable resonance frequencies up to 240 hertz. The center-of-mass motion of the sphere is monitored magnetically using a dc-SQUID as well as optically and exhibits quality factors of up to 2.6e7. We also demonstrate 3D magnetic feedback control of the sphere's motion. By implementing a cryogenic vibration isolation system we can attenuate environmental vibrations at 200 hertz by approximately seven orders of magnitude. The combination of low temperature (15 millikelvin), large mass and high quality factor as well as adjustable resonance frequencies provides a promising platform for testing quantum physics in previously unexplored regimes with high mass and long coherence times.
翻訳日:2023-01-19 18:18:51 公開日:2022-11-11
# 正方ウェルポテンシャルを持つ粒子の量子力学の再検討の実践的動機付け

A didactically motivated reexamination of a particle's quantum mechanics with square-well potentials ( http://arxiv.org/abs/2211.06269v1 )

ライセンス: Link先を確認
Domenico Giordano and Pierluigi Amodio and Felice Iavernaro(参考訳) ディダクティックな視点から2つの正方ウェルポテンシャルについて考察する。 第一の質問は、固有値問題の解析におけるポテンシャルの垂直セグメントの標準 a の事前省略の正当化がライセンスであるかどうかである。 追従するデトゥールは、台形ポテンシャルを考慮し、対応する固有値問題の解、解析および数値を含み、台形ポテンシャルの傾斜が垂直になったときにその解の挙動を極限で解析する。 第二の質問は、明らかに第一の質問に関連付けられており、ポテンシャルの跳躍点における固有関数とその第一の導関数の連続性は、ポテンシャルの固有値問題に対する教科書的アプローチで標準的に受け入れられるので、解過程を起動する優先的な仮定として正当化されるかどうかに関係している。

We address two questions regarding square-well potentials from a didactic perspective. The first question concerns whether or not the justification of the standard a priori omission of the potential's vertical segments in the analysis of the eigenvalue problem is licit. The detour we follow to find out the answer considers a trapezoidal potential, includes the solution, analytical and numerical, of the corresponding eigenvalue problem and then analyzes the behavior of that solution in the limit when the slope of the trapezoidal potential's ramps becomes vertical. The second question, obviously linked to the first one, pertains whether or not eigenfunction's and its first derivative's continuity at the potential's jump points is justified as a priori assumption to kick-off the solution process, as it is standardly accepted in textbook approaches to the potential's eigenvalue problem.
翻訳日:2023-01-19 18:18:03 公開日:2022-11-11
# 座標表現とウィグナー表現におけるコヒーレント位相状態

Coherent phase states in the coordinate and Wigner representations ( http://arxiv.org/abs/2211.06256v1 )

ライセンス: Link先を確認
Miguel Citeli de Freitas and Viktor V. Dodonov(参考訳) 我々は,コヒーレント相状態(CPS)の座標波関数とウィグナー関数を数値的に研究し,特に数値演算子の高平均値の場合,標準(Klauder--Glauber--Sudarshan)コヒーレント状態との主な違いに注意を払う。 この場合、CPSは強い座標(または運動量)を持つことができ、真空圧縮状態よりも約2倍弱い。 cps におけるrobertson--schr\"odinger invariant uncertainty product は、数演算子の平均値とともに対数的に増加する(標準コヒーレント状態に対して定数である)。 CPS の(非)ガウス性に関するいくつかの測度が考慮される。

We study numerically the coordinate wave functions and the Wigner functions of the coherent phase states (CPS), paying the main attention to their differences from the standard (Klauder--Glauber--Sudarshan) coherent states, especially in the case of high mean values of the number operator. In this case, the CPS can possess a strong coordinate (or momentum) squeezing, which is, roughly, twice weaker than for the vacuum squeezed states. The Robertson--Schr\"odinger invariant uncertainty product in the CPS logarithmically increases with the mean value of the number operator (whereas it is constant for the standard coherent states). Some measures of (non)Gaussianity of CPS are considered.
翻訳日:2023-01-19 18:17:39 公開日:2022-11-11
# 専門家レベル

The Expertise Level ( http://arxiv.org/abs/2212.10435v1 )

ライセンス: Link先を確認
Ron Fulbright(参考訳) コンピューターは急速に進歩している。 人工システムは現在、いくつかの領域における人間の専門家のパフォーマンスを超えています。 しかし、我々はまだ専門知識の深い定義を持っていません。 本稿では,専門知識の性質を考察し,専門知識の抽象的知識レベルと技能レベルを解説する。 専門知識レベルと呼ばれる知識レベルの上に横たわる新しいレベルが、専門知識の詳細を気にせずに専門家のスキルを記述するために導入された。 専門知識モデルは、知識レベルと専門知識レベルの記述を組み合わせたものである。 認知アーキテクチャと人間の認知能力向上の分野へのモデルの応用を実証し、そのモデルを用いていくつかの有名な知能システムを分析した。

Computers are quickly gaining on us. Artificial systems are now exceeding the performance of human experts in several domains. However, we do not yet have a deep definition of expertise. This paper examines the nature of expertise and presents an abstract knowledge-level and skill-level description of expertise. A new level lying above the Knowledge Level, called the Expertise Level, is introduced to describe the skills of an expert without having to worry about details of the knowledge required. The Model of Expertise is introduced combining the knowledge-level and expertise-level descriptions. Application of the model to the fields of cognitive architectures and human cognitive augmentation is demonstrated and several famous intelligent systems are analyzed with the model.
翻訳日:2023-01-19 18:11:50 公開日:2022-11-11
# グラフェン中の電子の量子ナビエ-ストークス方程式

Quantum Navier-Stokes equations for electrons in graphene ( http://arxiv.org/abs/2211.07391v1 )

ライセンス: Link先を確認
Luigi Barletti, Lucio Demeio, Sara Nicoletti(参考訳) 量子最大エントロピー原理(quantum maximum entropy principle)と組み合わせたchapman-enskog法をウィグナー方程式に適用し、等温の場合のグラフェン中の電子の量子ナビエ-ストークス方程式を得る。 この導出は、最大エントロピー原理の量子バージョンに基づいており、リングホファー-デゴンド-m\'ehats'理論(j. stat. phys. 112, 2003 and z. angew. math. mech. 90, 2010)の線に従う。 この方法で得られたモデルは半古典的に$\mathcal{O}(\hbar^2)$に拡張される。

The Chapman-Enskog method, in combination with the quantum maximum entropy principle, is applied to the Wigner equation in order to obtain quantum Navier-Stokes equations for electrons in graphene in the isothermal case. The derivation is based on the quantum version of the maximum entropy principle and follows the lines of Ringhofer-Degond-M\'ehats' theory (J. Stat. Phys. 112, 2003 and Z. Angew. Math. Mech. 90, 2010). The model obtained in this way is then semiclassically expanded up to $\mathcal{O}(\hbar^2)$.
翻訳日:2023-01-19 18:11:40 公開日:2022-11-11
# n-partyリソース状態から$k$ EPR-pairsを生成する

Generating $k$ EPR-pairs from an n-party resource state ( http://arxiv.org/abs/2211.06497v1 )

ライセンス: Link先を確認
Sergey Bravyi, Yash Sharma, Mario Szegedy, Ronald de Wolf(参考訳) 古典的なチャネル上の量子ネットワークアプリケーションによってモチベーションを得て、LOCCプロトコルが任意の$k$非結合のパーティ間でEPRペアを作成できる$n$のパーティリソース状態の研究を開始する。 我々は、k$ が最適な $n/2$ から遠くないような状態の構成を与えるが、個々のパーティは一定数の qubits を保持する必要がある。 特別な場合、各パーティが1キュービットしか持たない場合、reed-muller符号に基づいて、$k$が$\log n$に比例するn$-キュービット状態のファミリーと、$k=2$と$k=3$の小さな数値的な例を記述します。 例えば、$k=n/2$ ならば、当事者は少なくとも$\Omega(\log\log n)$ qubits を持つ必要がある。

Motivated by quantum network applications over classical channels, we initiate the study of $n$-party resource states from which LOCC protocols can create EPR-pairs between any $k$ disjoint pairs of parties. We give constructions of such states where $k$ is not too far from the optimal $n/2$ while the individual parties need to hold only a constant number of qubits. In the special case when each party holds only one qubit, we describe a family of $n$-qubit states with $k$ proportional to $\log n$ based on Reed-Muller codes, as well as small numerically found examples for $k=2$ and $k=3$. We also prove some lower bounds, for example showing that if $k=n/2$ then the parties must have at least $\Omega(\log\log n)$ qubits each.
翻訳日:2023-01-19 18:11:25 公開日:2022-11-11
# 雑音量子回路と雑音量子データを用いたバイナリ分類

Binary classification with noisy quantum circuits and noisy quantum data ( http://arxiv.org/abs/2211.06492v1 )

ライセンス: Link先を確認
Yonghoon Lee and Doga Murat Kurkcuoglu and Gabriel Nathan Perdue(参考訳) 量子回路における単一量子ビット雑音と量子トレーニングデータの劣化が二項分類問題の性能に及ぼす影響について検討する。 誤差の存在下では、量子ビットにおける測定は対応する量子ビットのノイズのみに影響され、他の量子ビットにおける誤差はこの結果に影響しない。 さらに、量子トレーニングデータを用いてバイナリ分類器を適合させるタスクでは、データ内のノイズが正規化器として機能し、ある場合にはノイズの恩恵を受けることができることを示す。 私たちはシミュレーションで結果を支持します。

We study the effects of single-qubit noises in the quantum circuit and the corruption in the quantum training data to the performance of binary classification problem. We find that under the presence of errors, the measurement at a qubit is affected only by the noise in the corresponding qubit, and that the errors on other qubits do not affect this outcome. Furthermore, for the task where we fit a binary classifier using a quantum training data, we show that the noise in the data can work as a regularizer, implying that we can benefit from the noise in certain cases. We support our findings with simulations.
翻訳日:2023-01-19 18:11:05 公開日:2022-11-11
# 量子非局所性:自然はどのように行うのか?

Quantum nonlocality: How does nature do it? ( http://arxiv.org/abs/2211.06476v1 )

ライセンス: Link先を確認
Ad\'an Cabello(参考訳) Hance and Hossenfelder (arXiv:2211.01331) は最近のメモで、「量子力学の局所的な因果完全性は、隠れた変数が測定設定に依存しないという仮定(統計的独立または測定独立と呼ばれる)に違反している場合、可能であり、その結果、ベルの不等式の実験的違反は「局所因果性を維持するためには統計的独立に違反する必要がある」と回想している。 しかし、HanceとHossenfelderは、「(...)非局所性と統計的独立、あるいは統計的独立の局所性と違反という2つの異なる選択肢を区別できる独立した実験的な証拠を探すべきである」と主張し、「統計的独立性のない理論を考慮できないことは、一般相対性理論と整合する物理の基礎についてまだ局所因果理論を持っていない理由かもしれない」と述べている。 ここでは、測定結果が任意の方法で隠れた変数によって支配されていることを拒否する、第3の選択肢があることを思い出します。 さらに、ベルとコーヒェン=スペクターの文脈性シナリオに対する量子相関の集合を歌い上げる原理を探求する最近の結果から、この第3の選択肢は科学的により妥当であると指摘し、なぜ自然が量子非局所性を生成するのかという疑問に答える。

In a recent note, Hance and Hossenfelder (arXiv:2211.01331) recall that "locally causal completions of quantum mechanics are possible, if they violate the assumption [called statistical independence or measurement independence] that the hidden variables do not in any way depend on measurement settings" and that, consequently, the experimental violations of Bell inequalities "show that maintaining local causality requires violating statistical independence". However, Hance and Hossenfelder also argue that "we should (...) look for independent experimental evidence that can distinguish the two different options: non-locality and statistical independence, or locality and violations of statistical independence" and that "the unwillingness to consider theories without statistical independence may be the reason we do not yet have a locally causal theory for the foundations of physics that is consistent with general relativity". Here, we recall that there is a third option, namely, rejecting that measurement outcomes are governed in any way by hidden variables. Moreover, we argue that some recent results in the search for principles singling out the sets of quantum correlations for Bell and Kochen-Specker contextuality scenarios point out that this third option is scientifically more plausible and answers the question of why and how nature produces quantum nonlocality.
翻訳日:2023-01-19 18:10:55 公開日:2022-11-11
# 量子コンピューティングのための適応基底集合

Adaptive Basis Sets for Practical Quantum Computing ( http://arxiv.org/abs/2211.06471v1 )

ライセンス: Link先を確認
Hyuk-Yong Kwon, Gregory M. Curtin, Zachary Morrow, C. T. Kelley, Elena Jakubikova(参考訳) H$_2$、H$_2$O、LiH、BeH$_2$といった化学精度の小さなシステムにおける電子構造計算は、現在、ノイズの多い中間スケール量子(NISQ)デバイスを発生させる上での課題である。 その理由の1つは、デバイスの制限のため、量子化学計算において最小基底集合のみが一般的に適用され、最小の計算で使用される量子ビットの数を維持できるためである。 しかし、最小基底集合の使用は、計算された分子エネルギーと潜在的なエネルギー表面形状に非常に大きな誤差をもたらす。 電子構造計算の精度を向上させる一つの方法は、量子コンピューティングに適した小さな基底集合の開発である。 本研究では, 指数と縮退係数が分子構造に依存する適応基底集合を用いることにより, 基底集合の大きさを増加させることなく, 量子化学計算の精度を劇的に向上し, 量子回路で用いられる量子ビット数を増加させる方法を示す。 原理の証明として、H$2$分子上の量子コンピューティング計算のための適応最小基底を最適化し、指数と収縮係数がH-H距離に依存するようにし、IBM-Q量子デバイス上でのH$2$のポテンシャルエネルギー曲面の生成に適用する。 適応最小基底セットは二重ゼータ基底セットの精度に達するため、シミュレーションで2倍の量子ビットを使用することなく、量子デバイス上で二重ゼータ品質計算を行うことができる。 このアプローチは他の分子系やより大きな基底集合にも直接的に拡張することができる。

Electronic structure calculations on small systems such as H$_2$, H$_2$O, LiH, and BeH$_2$ with chemical accuracy are still a challenge for the current generation of the noisy intermediate-scale quantum (NISQ) devices. One of the reasons is that due to the device limitations, only minimal basis sets are commonly applied in quantum chemical calculations, which allow one to keep the number of qubits employed in the calculations at minimum. However, the use of minimal basis sets leads to very large errors in the computed molecular energies as well as potential energy surface shapes. One way to increase the accuracy of electronic structure calculations is through the development of small basis sets better suited for quantum computing. In this work, we show that the use of adaptive basis sets, in which exponents and contraction coefficients depend on molecular structure, provide an easy way to dramatically improve the accuracy of quantum chemical calculations without the need to increase the basis set size and thus the number of qubits utilized in quantum circuits. As a proof of principle, we optimize an adaptive minimal basis set for quantum computing calculations on an H$_2$ molecule, in which exponents and contraction coefficients depend on the H-H distance, and apply it to the generation of H$_2$ potential energy surface on IBM-Q quantum devices. The adaptive minimal basis set reaches the accuracy of the double-zeta basis sets, thus allowing one to perform double-zeta quality calculations on quantum devices without the need to utilize twice as many qubits in simulations. This approach can be extended to other molecular systems and larger basis sets in a straightforward manner.
翻訳日:2023-01-19 18:10:23 公開日:2022-11-11
# 局所的同時状態識別の並列反復

Parallel repetition of local simultaneous state discrimination ( http://arxiv.org/abs/2211.06456v1 )

ライセンス: Link先を確認
Lloren\c{c} Escol\`a-Farr\`as and Jar\`on Has and Maris Ozols and Christian Schaffner and Mehrdad Tahmasbi(参考訳) 局所同時状態判別(LSSD)は量子情報処理において最近導入された問題である。 古典的なバージョンは、非コミュニケーションプレイヤーが審判に対してプレイする非ローカルゲームである。 既知の確率分布に基づいて、審判は各プレイヤーに対して1つの入力を生成し、1つの秘密値を保持する。 プレイヤーは審判の価値を推測し、全員がそうすれば勝ちます。 本ゲームでは,古典的戦略に対する無署名戦略の利点について検討する。 3人のプレイヤーと2進値に対して、符号なしの戦略は古典的な手法では改善できないことを示す。 二元対称チャネルに基づく特定のlssdゲームでは、複数の同時実行時の無署名戦略が厳格に優れていることを示す。 このゲームの優れた古典的戦略は、コードによって定義でき、リスト復号方式によって、優れたノーシグナリング戦略を定義できる。 このサンプルゲームを任意のチャネルで定義されたゲームクラスに拡張し、これらのゲームの複数の同時インスタンスの戦略を定義するためにコードとリストデコードを使用するアイデアを拡張します。 最後に、古典的勝利確率の指数の極限の表現を与え、リスト復号スキームに基づく無符号戦略がこの限界を達成することを示す。

Local simultaneous state discrimination (LSSD) is a recently introduced problem in quantum information processing. Its classical version is a non-local game played by non-communicating players against a referee. Based on a known probability distribution, the referee generates one input for each of the players and keeps one secret value. The players have to guess the referee's value and win if they all do so. For this game, we investigate the advantage of no-signalling strategies over classical ones. We show numerically that for three players and binary values, no-signalling strategies cannot provide any improvement over classical ones. For a certain LSSD game based on a binary symmetric channel, we show that no-signalling strategies are strictly better when multiple simultaneous instances of the game are played. Good classical strategies for this game can be defined by codes, and good no-signalling strategies by list-decoding schemes. We expand this example game to a class of games defined by an arbitrary channel, and extend the idea of using codes and list decoding to define strategies for multiple simultaneous instances of these games. Finally, we give an expression for the limit of the exponent of the classical winning probability, and show that no-signalling strategies based on list-decoding schemes achieve this limit.
翻訳日:2023-01-19 18:09:31 公開日:2022-11-11
# 量子情報処理のためのアーキテクチャ

Architectures for Quantum Information Processing ( http://arxiv.org/abs/2211.06449v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Mahabubul Alam, and Swaroop Ghosh(参考訳) 量子コンピューティングは、コンピューティングに対する考え方を変えつつある。 量子システムのパワーを管理・活用するための研究と開発における重要な取り組みが近年行われ、量子技術の変革の可能性を示している。 重ね合わせ、絡み合い、干渉といった量子現象は、従来のコンピュータでは難しい問題を解決するために利用することができる。 ibmがクラウド経由の真の量子コンピュータへの最初のパブリックアクセスと、googleによる量子超越性のデモンストレーションは、その成果の1つだ。 さらに、他の多くの商業、政府、学術プロジェクトも、次世代ハードウェア、ハードウェアエコシステムをサポートするソフトウェアスタック、実行可能な量子アルゴリズムの開発に取り組んでいる。 この章では、調査中のハードウェア技術を含む様々な量子コンピューティングアーキテクチャについて取り上げる。 量子コンピュータを悩ませる多くのエラーやノイズなど、さまざまな課題についても論じる。 ノイズ耐性アプローチに関する文献についても概説する。

Quantum computing is changing the way we think about computing. Significant strides in research and development for managing and harnessing the power of quantum systems has been made in recent years, demonstrating the potential for transformative quantum technology. Quantum phenomena like superposition, entanglement, and interference can be exploited to solve issues that are difficult for traditional computers. IBM's first public access to true quantum computers through the cloud, as well as Google's demonstration of quantum supremacy, are among the accomplishments. Besides, a slew of other commercial, government, and academic projects are in the works to create next-generation hardware, a software stack to support the hardware ecosystem, and viable quantum algorithms. This chapter covers various quantum computing architectures including many hardware technologies that are being investigated. We also discuss a variety of challenges, including numerous errors/noise that plague the quantum computers. An overview of literature investigating noise-resilience approaches is also presented.
翻訳日:2023-01-19 18:09:12 公開日:2022-11-11
# 量子自然証明:ハイブリッド量子古典的プログラム検証の新しい視点

Quantum Natural Proof: A New Perspective of Hybrid Quantum-Classical Program Verification ( http://arxiv.org/abs/2211.06411v1 )

ライセンス: Link先を確認
Liyi Li, Mingwei Zhu, Yi Lee, Le Chang, Xiaodi Wu(参考訳) 多くの量子プログラムは形式的検証によって保証されるが、そのような検証は通常、手間と時間を要する。 本稿では,ハイブリッド量子古典アルゴリズムの自動検証システムである量子自然証明(QNP)を提案する。 自然証明は、完全に自動化された推論、健全だが不完全な手順を提供し、プログラム検証における一般的な推論の戦術を捉えることができる証明のサブクラスである。 QNPの中核はQafnyという名前の型誘導量子証明システムであり、量子演算を古典的な配列演算とみなし、自動推論に適した古典的な分離論理フレームワークの証明規則としてモデル化することができる。 我々は、Qafnyの証明システムの健全性と完全性、およびQafnyからDafnyへの証明システムのコンパイルの健全性を示した。 dafnyのqnp実装を使用することで、ghz、shor's、grover's、quantum walkアルゴリズムなど、多数のハイブリッド量子古典アルゴリズムに対して、自動化された検証を効率的に実行することができる。 さらに、Qafnyで書かれた量子プログラムを量子回路にコンパイルすることで、検証済みの量子プログラムを量子マシン上で実行することができる。

Many quantum programs are assured by formal verification, but such verification is usually laborious and time-consuming. This paper proposes quantum natural proof (QNP), an automated proof system for verifying hybrid quantum-classical algorithms. Natural proofs are a subclass of proofs that are amenable to completely automated reasoning, provide sound but incomplete procedures, and capture common reasoning tactics in program verification. The core of QNP is a type-guided quantum proof system, named Qafny, which views quantum operations as some classical array operations that can be modeled as proof rules in a classical separation logic framework, suitable for automated reasoning. We proved the soundness and completeness of the Qafny proof system as well as the soundness of the proof system compilation from Qafny to Dafny. By using the QNP implementation in Dafny, automated verification can be efficiently perform for many hybrid quantum-classical algorithms, including GHZ, Shor's, Grover's, and quantum walk algorithms, which saves a great amount of human efforts. In addition, quantum programs written in Qafny can be compiled to quantum circuits so that every verified quantum program can be run on a quantum machine.
翻訳日:2023-01-19 18:09:00 公開日:2022-11-11
# EPRと線形GUP:完全性

EPR and Linear GUP: Completeness ( http://arxiv.org/abs/2210.13974v3 )

ライセンス: Link先を確認
Ahmed Farag Ali(参考訳) アインシュタイン、ポドルスキー、ローゼン(epr)は、位置と運動量の非同質な現実は、量子力学を物理的な現実の完全な理論とはみなせないことを意味すると結論づけた。 線形一般化不確実性原理 (gup) は最小長スケールの位置と運動量の間の同時現実を暗示する。 これはEPRの議論を解決し、完全性に光を放つ。 線形 GUP とベーケンシュタイン普遍境界の等価性は、物理系を完全に記述した情報の量に依存する。 線型 GUP は、ベッケンシュタインが量子力学と普遍的に結びついている理論である。 この同値性は、宇宙の膨張、原子の老化、自然定数の定数、波動関数の崩壊を説明する、\emph{four} の基本ケースを意味する。 電子波動関数は52.2$ picometerで崩壊し、これは52.9$ picometerで与えられる水素原子半径の値と一致する。 プロトンの場合を考慮して水素原子核半径を説明する。 その意味では、線形 GUP は、波動関数が崩壊して幾何を形成するかを説明する能力を通じて、量子世界と重力/幾何学世界の接続を設定する。 我々はフォン・ノイマン・エントロピーによって修正された線形 GUP とエントロピー領域の法則の等価性を発見した。 この等価性は運動量(運動)の概念の情報の起源を示す。

Einstein, Podolsky, and Rosen (EPR) found that the non-simultaneous reality of position and momentum implies that we cannot consider quantum mechanics a complete theory of physical reality. We show that the linear generalized uncertainty principle (GUP) implies a simultaneous reality between position and momentum at the minimal length scale. This resolves the EPR argument and sheds light on completeness. We found an equivalency between linear GUP and Bekenstein universal bound, which is a bound on the amount of information that completely describes the physical system. linear GUP could be the theory that incorporates Bekenstein universal bound with quantum mechanics. This equivalency implies \emph{four} fundamental cases that explain the expansion of the universe, aging of atoms, constancy of natural constants, and wavefunction collapse. We found that the electron wavefunction collapses at $52.2$ picometer, which agrees with the value of the hydrogen atom radius given by $52.9$ picometer. We explain the hydrogen nucleus radius by considering the proton case. In that sense, linear GUP sets a connection between quantum world and gravitational/geometric world through its ability to explain how wavefunction collapses to form a geometry. We found an equivalency between linear GUP and entropy-area law modified by von Neumann entropy. This equivalency points to an information origin of momentum (motion) concept.
翻訳日:2023-01-18 19:18:41 公開日:2022-11-11
# 合成専門家

Synthetic Expertise ( http://arxiv.org/abs/2212.03244v1 )

ライセンス: Link先を確認
Ron Fulbright and Grover Walters(参考訳) 私たちはすぐに、特定の言論分野の人間専門家と競合したり、超えたりできる認知能力を持つ人工システムに囲まれます。 しかし、これらのコグは完全な汎用人工知能やスタンドアロンで機能する必要はない。 代わりに、コグと人間は互いに協力して協力し、互いの弱点を補い、合奏として総合的な専門知識を得る。 本稿では,専門知識の性質,専門家に必要なスキルを説明する専門知識レベル,専門家に必要な知識ストアについて概説する。 コラボレーションによって、コグは人間とコグのアンサンブルにおける人間の認知能力を増強する。 本稿では,認知処理のバランスを記述するために,認知能力向上のレベルを6つ導入する。 これらのコグは、共通のデバイスと安価なアプリケーションを通じて大衆市場で利用できるので、専門知識の民主化と、私たちの生活、働き、遊び方を変えることを約束する新しい認知システム時代につながるだろう。 未来は、認知システムとのコミュニケーション、コーディネート、コラボレーションが可能な人たちのものになるでしょう。

We will soon be surrounded by artificial systems capable of cognitive performance rivaling or exceeding a human expert in specific domains of discourse. However, these cogs need not be capable of full general artificial intelligence nor able to function in a stand-alone manner. Instead, cogs and humans will work together in collaboration each compensating for the weaknesses of the other and together achieve synthetic expertise as an ensemble. This paper reviews the nature of expertise, the Expertise Level to describe the skills required of an expert, and knowledge stores required by an expert. By collaboration, cogs augment human cognitive ability in a human/cog ensemble. This paper introduces six Levels of Cognitive Augmentation to describe the balance of cognitive processing in the human/cog ensemble. Because these cogs will be available to the mass market via common devices and inexpensive applications, they will lead to the Democratization of Expertise and a new cognitive systems era promising to change how we live, work, and play. The future will belong to those best able to communicate, coordinate, and collaborate with cognitive systems.
翻訳日:2022-12-11 13:08:09 公開日:2022-11-11
# マッピング : 脳卒中病変の分節後処理によるモデル平均

MAPPING: Model Average with Post-processing for Stroke Lesion Segmentation ( http://arxiv.org/abs/2211.15486v1 )

ライセンス: Link先を確認
Jiayu Huo, Liyun Chen, Yang Liu, Maxence Boels, Alejandro Granados, Sebastien Ourselin, Rachel Sparks(参考訳) 脳卒中リハビリテーション研究において、正確な脳卒中病変のセグメンテーションが重要な役割を担い、脳卒中の範囲の定量化や治療効果の評価に使用できる病変の形状および大きさ情報を提供する。 近年,ディープラーニング技術を用いた自動セグメンテーションアルゴリズムが開発され,有望な結果を得た。 本稿では nnU-Net フレームワークをベースとした脳卒中病変のセグメンテーションモデルを提案し,それをATLAS v2.0(Anatomical Tracings of Lesions After Stroke)データセットに適用する。 さらに,セグメンテーション指標を改善する効果的な後処理戦略について述べる。 本手法は,2022年のMICCAI ATLAS Challengeにおいて,平均Diceスコアが0.6667,Lesion-wise F1スコアが0.5643,Simple Lesion Countスコアが4.5367,Volume differenceスコアが8804.9102であった。 私たちのコードとトレーニングされたモデルウェイトは、https://github.com/King-HAW/ATLAS-R2-Docker-Submission.comで公開されています。

Accurate stroke lesion segmentation plays a pivotal role in stroke rehabilitation research, to provide lesion shape and size information which can be used for quantification of the extent of the stroke and to assess treatment efficacy. Recently, automatic segmentation algorithms using deep learning techniques have been developed and achieved promising results. In this report, we present our stroke lesion segmentation model based on nnU-Net framework, and apply it to the Anatomical Tracings of Lesions After Stroke (ATLAS v2.0) dataset. Furthermore, we describe an effective post-processing strategy that can improve some segmentation metrics. Our method took the first place in the 2022 MICCAI ATLAS Challenge with an average Dice score of 0.6667, Lesion-wise F1 score of 0.5643, Simple Lesion Count score of 4.5367, and Volume Difference score of 8804.9102. Our code and trained model weights are publicly available at https://github.com/King-HAW/ATLAS-R2-Docker-Submission.
翻訳日:2022-12-04 14:50:59 公開日:2022-11-11
# PatchBlender:ビデオトランスフォーマーに先行するモーション

PatchBlender: A Motion Prior for Video Transformers ( http://arxiv.org/abs/2211.14449v1 )

ライセンス: Link先を確認
Gabriele Prato, Yale Song, Janarthanan Rajendran, R Devon Hjelm, Neel Joshi, Sarath Chandar(参考訳) トランスフォーマーはコンピュータビジョンの分野で支配的なアーキテクチャの1つとなっている。 しかし、このようなアーキテクチャをビデオデータに適用する際の課題はいくつかある。 これらのモデルは、ビデオデータの時間的パターンを効果的にモデル化するのに苦労している。 この問題を直接対象とするpatchblenderは,潜在空間の時間的次元にまたがるパッチ埋め込み上で動作する学習可能なブレンディング関数である。 本稿では,映像データの時間成分を符号化する視覚変換器の実現に成功していることを示す。 また,Something v2 と MOVi-A について,本手法が ViT-B の性能を向上させることを示す。 patchblenderは、ほぼすべてのトランスフォーマーアーキテクチャと互換性があり、学習可能であるため、モデルは、事前のオン/オフを適応的に行うことができる。 また、非常に軽量で、VT-BのGFLOPは0.005%である。

Transformers have become one of the dominant architectures in the field of computer vision. However, there are yet several challenges when applying such architectures to video data. Most notably, these models struggle to model the temporal patterns of video data effectively. Directly targeting this issue, we introduce PatchBlender, a learnable blending function that operates over patch embeddings across the temporal dimension of the latent space. We show that our method is successful at enabling vision transformers to encode the temporal component of video data. On Something-Something v2 and MOVi-A, we show that our method improves the performance of a ViT-B. PatchBlender has the advantage of being compatible with almost any Transformer architecture and since it is learnable, the model can adaptively turn on or off the prior. It is also extremely lightweight compute-wise, 0.005% the GFLOPs of a ViT-B.
翻訳日:2022-12-04 14:42:35 公開日:2022-11-11
# 集合変数を用いた変分モンテカルロのスプリアスモードの理解と除去

Understanding and eliminating spurious modes in variational Monte Carlo using collective variables ( http://arxiv.org/abs/2211.09767v1 )

ライセンス: Link先を確認
Huan Zhang, Robert J. Webber, Michael Lindsey, Timothy C. Berkelbach, and Jonathan Weare(参考訳) 近年,変分モンテカルロ (VMC) 計算における基底状態を表すニューラルネットワークのパラメトリゼーションが注目されている。 しかし、周期的ハイゼンベルクスピン鎖の文脈で示すように、このアプローチは信頼できない波動関数近似を生成することができる。 失敗の最も明白な兆候の1つは、トレーニング中のエネルギー推定におけるランダムで永続的なスパイクの発生である。 これらのエネルギースパイクは、機械学習文学において 'spurious modes' と呼ばれる波動関数密度によって過剰に表現される構成空間の領域によって引き起こされる。 これらのスプリアスモードを詳細に検討した結果、集団変数に基づくペナリゼーションにより、より堅牢なトレーニング手順が得られ、スプリアスモードの形成が防止され、エネルギー推定の精度が向上することが示された。 ペナル化方式は実装が安く、特定のモデルに特化していないため、集団変数の合理的な選択が可能であるVMCの他のアプリケーションにも拡張することができる。

The use of neural network parametrizations to represent the ground state in variational Monte Carlo (VMC) calculations has generated intense interest in recent years. However, as we demonstrate in the context of the periodic Heisenberg spin chain, this approach can produce unreliable wave function approximations. One of the most obvious signs of failure is the occurrence of random, persistent spikes in the energy estimate during training. These energy spikes are caused by regions of configuration space that are over-represented by the wave function density, which are called ``spurious modes'' in the machine learning literature. After exploring these spurious modes in detail, we demonstrate that a collective-variable-based penalization yields a substantially more robust training procedure, preventing the formation of spurious modes and improving the accuracy of energy estimates. Because the penalization scheme is cheap to implement and is not specific to the particular model studied here, it can be extended to other applications of VMC where a reasonable choice of collective variable is available.
翻訳日:2022-11-20 13:31:23 公開日:2022-11-11
# SPADE4: エピデミクスのスポーサリティと遅延埋め込みに基づく予測

SPADE4: Sparsity and Delay Embedding based Forecasting of Epidemics ( http://arxiv.org/abs/2211.08277v1 )

ライセンス: Link先を確認
Esha Saha, Lam Si Tung Ho and Giang Tran(参考訳) 病気の進化を予測することは、特にデータの可用性が不十分で不完全な場合、難しい。 感染症の流行をモデル化し予測するための最も一般的なツールは、区画モデルである。 彼らは人口を健康状態に応じて区画に階層化し、動的システムを用いてこれらの区画の動態をモデル化する。 しかしながら、これらの事前定義されたシステムは、病気の伝染と人間の相互作用の複雑さのために、流行の真のダイナミクスを捉えない可能性がある。 この欠点を克服するため,疫病予測のためのspersity and Delay Embedding based Forecasting (SPADE4)を提案する。 SPADE4は、他の変数や基礎となるシステムの知識なしに、観測可能な変数の将来の軌跡を予測する。 我々は,データ不足問題を扱うために分散回帰を伴うランダム特徴モデルを使い,観測変数から基礎となるシステムの性質を捉えるために takes の遅延埋め込み定理を用いる。 シミュレーションデータと実データの両方に適用した場合,本手法は区画モデルよりも優れていることを示す。

Predicting the evolution of diseases is challenging, especially when the data availability is scarce and incomplete. The most popular tools for modelling and predicting infectious disease epidemics are compartmental models. They stratify the population into compartments according to health status and model the dynamics of these compartments using dynamical systems. However, these predefined systems may not capture the true dynamics of the epidemic due to the complexity of the disease transmission and human interactions. In order to overcome this drawback, we propose Sparsity and Delay Embedding based Forecasting (SPADE4) for predicting epidemics. SPADE4 predicts the future trajectory of an observable variable without the knowledge of the other variables or the underlying system. We use random features model with sparse regression to handle the data scarcity issue and employ Takens' delay embedding theorem to capture the nature of the underlying system from the observed variable. We show that our approach outperforms compartmental models when applied to both simulated and real data.
翻訳日:2022-11-16 16:12:02 公開日:2022-11-11
# 深層学習による自由形再構成メタ曲面の逆設計

Deep-Learning Empowered Inverse Design for Freeform Reconfigurable Metasurfaces ( http://arxiv.org/abs/2211.08296v1 )

ライセンス: Link先を確認
Changhao Liu, Fan Yang, Maokun Li, Shenheng Xu(参考訳) 過去10年間、人工知能の進歩とエンジニアリングの様々な応用を目撃してきた。 近年,人工知能に基づく設計プロセスが高速かつ自動である,多様な形状と高性能のオンデマンドメタ原子を設計可能な,メタ表面の逆設計を強化した人工知能ニューラルネットワークが開発されている。 しかし、逆設計の静的メタ原子が作成されると、メタ表面の関数は固定される。 再構成可能なメタ表面は動的機能を実現することができるが、逆向きに再構成可能なメタ原子を設計するために人工知能を適用することは、まだ報告されていない。 本稿では,自己定義周波数帯において,オンデマンドで再構成可能な符号化メタ原子を生成可能な,自由形再構成可能なメタ曲面のためのディープラーニング強化逆設計法を提案する。 データセットのスケールを小さくするため,マイクロ波ネットワーク理論に基づく再構成可能なメタ原子の分離法が最初に提案され,再構成可能な符号化メタ原子の逆設計プロセスを静的構造のための逆設計に変換することができる。 畳み込みニューラルネットワークモデルを訓練して自由形メタ原子の応答を予測し、遺伝的アルゴリズムを適用して最適な構造パターンを迅速に生成する。 マイクロ波帯域における自己定義スペクトル応答の異なる逆設計の例を複数生成し,広帯域のビーム走査アプリケーションのために,逆設計の広帯域再構成可能な準曲面プロトタイプを作製して測定した。 我々の研究は、高速かつ自動で再構成可能な準曲面を設計するための道を開いた。

The past decade has witnessed the advances of artificial intelligence with various applications in engineering. Recently, artificial neural network empowered inverse design for metasurfaces has been developed that can design on-demand meta-atoms with diverse shapes and high performance, where the design process based on artificial intelligence is fast and automatic. However, once the inverse-designed static meta-atom is fabricated, the function of the metasurface is fixed. Reconfigurable metasurfaces can realize dynamic functions, while applying artificial intelligence to design reconfigurable meta-atoms inversely has not been reported yet. Here, we present a deep-learning empowered inverse design method for freeform reconfigurable metasurfaces, which can generate on-demand reconfigurable coding meta-atoms at self-defined frequency bands. To reduce the scale of dataset, a decoupling method of the reconfigurable meta-atom based on microwave network theory is proposed at first, which can convert the inverse design process for reconfigurable coding meta-atoms to the inverse design for static structures. A convolutional neural network model is trained to predict the responses of free-shaped meta-atoms, and the genetic algorithm is applied to generate the optimal structure patterns rapidly. As a demonstration of concept, several inverse-designed examples are generated with different self-defined spectrum responses in microwave band, and an inverse-designed wideband reconfigurable metasurface prototype is fabricated and measured for beam scanning applications with broad bandwidth. Our work paves the way for the fast and automatic design process of high-performance reconfigurable metasurfaces.
翻訳日:2022-11-16 16:05:20 公開日:2022-11-11
# 変圧器サーロゲートモデルを用いた無人航空機の設計

Design of Unmanned Air Vehicles Using Transformer Surrogate Models ( http://arxiv.org/abs/2211.08138v1 )

ライセンス: Link先を確認
Adam D. Cobb, Anirban Roy, Daniel Elenius, Susmit Jha(参考訳) CAD(Computer-Aided Design)は人工知能(AI)と機械学習(ML)を応用するための新しい領域である。 現在のサイバー物理システムの設計はデジタルツイン方法論を用いており、実際の物理設計は物理シミュレーションモデルによって評価できる詳細なモデルの構築が先行している。 これらの物理モデルは、しばしば遅く、手動の設計プロセスは、しばしば既存の設計の近辺を探索することに依存する。 aiは、これらのデザインサイロを壊し、デザインスペースの探索を加速することで、デザインの多様性とパフォーマンスを高めることを約束している。 本稿では,無人電気航空機(UAV)の設計に焦点を当てる。 高密度バッテリーと純粋に電気推進システムによってUAV設計の空間は破壊され、この領域はAIベースの設計の理想的なターゲットとなっている。 本稿では,新しいUAV設計を合成するAIデザイナを開発する。 提案手法では,新しいドメイン固有符号化を用いた深層トランスフォーマモデルを用いて,高価な飛行ダイナミクスモデルやcadツールを実行することなく,新しい設計の性能評価を行う。 提案手法は設計プロセス全体の計算要求を大幅に削減し,設計空間の探索を加速する。 最後に,UAVのためのAI支援CADの大規模展開を実現するための今後の研究の方向性を明らかにする。

Computer-aided design (CAD) is a promising new area for the application of artificial intelligence (AI) and machine learning (ML). The current practice of design of cyber-physical systems uses the digital twin methodology, wherein the actual physical design is preceded by building detailed models that can be evaluated by physics simulation models. These physics models are often slow and the manual design process often relies on exploring near-by variations of existing designs. AI holds the promise of breaking these design silos and increasing the diversity and performance of designs by accelerating the exploration of the design space. In this paper, we focus on the design of electrical unmanned aerial vehicles (UAVs). The high-density batteries and purely electrical propulsion systems have disrupted the space of UAV design, making this domain an ideal target for AI-based design. In this paper, we develop an AI Designer that synthesizes novel UAV designs. Our approach uses a deep transformer model with a novel domain-specific encoding such that we can evaluate the performance of new proposed designs without running expensive flight dynamics models and CAD tools. We demonstrate that our approach significantly reduces the overall compute requirements for the design process and accelerates the design space exploration. Finally, we identify future research directions to achieve full-scale deployment of AI-assisted CAD for UAVs.
翻訳日:2022-11-16 15:56:52 公開日:2022-11-11
# 機能的磁気共鳴画像における時間変動の計算は知能の予測を改善する

Accounting for Temporal Variability in Functional Magnetic Resonance Imaging Improves Prediction of Intelligence ( http://arxiv.org/abs/2211.07429v1 )

ライセンス: Link先を確認
Yang Li, Xin Ma, Raj Sunderraman, Shihao Ji, Suprateek Kundu(参考訳) 神経画像に基づく知能と認知能力の予測手法は急速に発展し,機能的接続(FC)に基づく予測は大きな可能性を秘めている。 文献の大部分は静的FCに焦点を当てており、動的FCや領域レベルのfMRI時系列では非常に限られた結果が得られる。 静的FCとは異なり、後者の特徴はfMRIデータにおける時間的変動である。 本稿では,特徴選択に$L_0$正規化を組み込んだバイLSTM手法を提案する。 提案パイプラインは,領域レベルのfmri時系列と動的fcに基づく予測に適用され,効率的なアルゴリズムで実装されている。 思春期脳認知発達(ABCD)研究から得られたfMRI特徴に基づいて,様々な知能測定における予測性能の詳細な比較を行った。 その結果, 静的fcは, 領域レベルのfmri時系列や動的fcと比較して, ユニモーダル・レストやタスクfmriの実験や, ほぼすべてのマルチタスク解析において, 一貫して性能が劣ることがわかった。 地域レベルでの時系列に基づくパイプラインは、知能測定のゆらぎを駆動するいくつかの重要な脳領域を特定する。 再現性のある結果を示すために, 選択された特徴の強い再検査信頼性を報告した。 ABCD 研究から得られたサンプルサイズが大きいことから,本研究では,fMRI データの時間的変動を地域レベルで,あるいは動的 FC に基づいて検討することで,優れた知能予測が達成できるという決定的な証拠を提供する。 これらの結果は、ネットワークベースの分析と比較して、領域レベルの時系列の次元が低く、解釈が容易で、計算時間が非常に速いため、特に注目に値する。

Neuroimaging-based prediction methods for intelligence and cognitive abilities have seen a rapid development, while prediction based on functional connectivity (FC) has shown great promise. The overwhelming majority of literature has focused on static FC with extremely limited results available on dynamic FC or region level fMRI time series. Unlike static FC, the latter features include the temporal variability in the fMRI data. In this project, we propose a novel bi-LSTM approach that incorporates an $L_0$ regularization for feature selection. The proposed pipeline is applied to prediction based on region level fMRI time series as well as dynamic FC and implemented via an efficient algorithm. We undertake a detailed comparison of prediction performance for different intelligence measures based on fMRI features acquired from the Adolescent Brain Cognitive Development (ABCD) study. Our analysis illustrates that static FC consistently has inferior performance compared to region level fMRI time series or dynamic FC for unimodal rest and task fMRI experiments, as well as in almost all cases for multi-task analysis. The proposed pipeline based on region level time-series identifies several important brain regions that drive fluctuations in intelligence measures. Strong test-retest reliability of the selected features is reported, pointing to reproducible findings. Given the large sample size from ABCD study, our results provide conclusive evidence that superior intelligence prediction can be achieved by considering temporal variations in the fMRI data, either at the region level, or based on dynamic FC, which is one of the first such findings in literature. These results are particularly noteworthy, given the low dimensionality of the region level time series, easier interpretability, and extremely quick computation times, compared to network-based analysis.
翻訳日:2022-11-15 21:38:38 公開日:2022-11-11
# 鉛含有ガラスの粘度予測のための人工ニューラルネットワーク

Artificial neural networks for predicting the viscosity of lead-containing glasses ( http://arxiv.org/abs/2211.07587v1 )

ライセンス: Link先を確認
Patrick dos Anjos, Lucas A. Quaresma, Marcelo L. P. Machado(参考訳) 鉛含有ガラスの粘度は製造プロセスにおいて基本的重要であり、人工ニューラルネットワークなどのアルゴリズムによって予測できる。 SciGlassデータベースは、隠れた層にノード変動のある人工ニューラルネットワークを構築するための化学組成、温度、粘度のトレーニング、検証、テストデータを提供するために使用された。 学習データと検証データで構築した最良のモデルは,文献から得られた他の7モデルと比較され,平均絶対誤差と判定係数の統計的評価が向上し,その後の感度分析は文献と一致した。 スキューネスとクルトシスを計算し、テストデータで構築された最高のニューラルネットワークによって予測される値との間には良好な相関関係がある。

The viscosity of lead-containing glasses is of fundamental importance for the manufacturing process, and can be predicted by algorithms such as artificial neural networks. The SciGlass database was used to provide training, validation and test data of chemical composition, temperature and viscosity for the construction of artificial neural networks with node variation in the hidden layer. The best model built with training data and validation data was compared with 7 other models from the literature, demonstrating better statistical evaluations of mean absolute error and coefficient of determination to the test data, with subsequent sensitivity analysis in agreement with the literature. Skewness and kurtosis were calculated and there is a good correlation between the values predicted by the best neural network built with the test data.
翻訳日:2022-11-15 21:38:12 公開日:2022-11-11
# スパース最適化による遺伝子制御ネットワークの再構築

Reconstruction of gene regulatory network via sparse optimization ( http://arxiv.org/abs/2211.07375v1 )

ライセンス: Link先を確認
Jiashu Lou, Leyi Cui, Wenxuan Qiu(参考訳) 本稿では,DREAM5 Gene Regulatory Network Inference Challengeの公開データセットに基づくスパース最適化アルゴリズムについて検討した。 また,制御ネットワークの20%を事前既知のデータとして導入することで,推論アルゴリズムのパラメータ選択の基礎となり,予測効率と精度が向上することがわかった。 また, 共通スパース最適化手法の検証に加えて, 投票アルゴリズムの開発を行った。 DREAM5データセットの実験は、モデレーション関係のスパース最適化に基づく推論がうまく機能し、3つのデータセットの公式なDREAM5結果よりも優れた結果が得られることを示している。 しかし、従来の独立アルゴリズムの性能は異なるデータセットに直面して大きく異なり、我々の投票アルゴリズムは4つのデータセットのうち3つで最高の結果を得る。

In this paper, we tested several sparse optimization algorithms based on the public dataset of the DREAM5 Gene Regulatory Network Inference Challenge. And we find that introducing 20% of the regulatory network as a priori known data can provide a basis for parameter selection of inference algorithms, thus improving prediction efficiency and accuracy. In addition to testing common sparse optimization methods, we also developed voting algorithms by bagging them. Experiments on the DREAM5 dataset show that the sparse optimization-based inference of the moderation relation works well, achieving better results than the official DREAM5 results on three datasets. However, the performance of traditional independent algorithms varies greatly in the face of different datasets, while our voting algorithm achieves the best results on three of the four datasets.
翻訳日:2022-11-15 21:30:45 公開日:2022-11-11
# 量を超えるデータ品質: プロセス分析のための落とし穴とガイドライン

Data Quality Over Quantity: Pitfalls and Guidelines for Process Analytics ( http://arxiv.org/abs/2211.06440v1 )

ライセンス: Link先を確認
Lim C. Siang, Shams Elnawawi, Lee D. Rippon, Daniel L. O'Connor and R. Bhushan Gopaluni(参考訳) 高度なプロセス制御、プロセス分析、マシンラーニングに関わる作業の大部分は、データの取得と準備に関するものだ。 出版された文献は、漸進的なパフォーマンス改善を伴う、ますます複雑なモデリング技術を強調している。 しかし、産業ケーススタディが発行されると、しばしばデータ取得と準備に関する重要な詳細が欠落する。 データ前処理はしばしば、自明で技術的には興味のないものとして不公平に調整されるが、現実の人工知能アプリケーションの成功に大きな影響を与えている。 本研究は,産業プロセスにおけるデータ駆動モデリングと制御機会を追求するための運用データの獲得と準備のためのベストプラクティスについて述べる。 本稿では,産業時系列データの事前処理に関する実践的考察を行い,重要なプロセスインサイトを提供する信頼性の高いソフトセンサの開発について報告する。

A significant portion of the effort involved in advanced process control, process analytics, and machine learning involves acquiring and preparing data. The published literature often emphasizes increasingly complex modeling techniques with incremental performance improvements. However, when industrial case studies are published they often lack important details on data acquisition and preparation. Although data pre-processing is often unfairly maligned as trivial and technically uninteresting, in practice it has an out-sized influence on the success of real-world artificial intelligence applications. This work describes best practices for acquiring and preparing operating data to pursue data-driven modelling and control opportunities in industrial processes. We present practical considerations for pre-processing industrial time series data to inform the efficient development of reliable soft sensors that provide valuable process insights.
翻訳日:2022-11-15 20:20:01 公開日:2022-11-11
# キーワードスポッティングのためのシーケンス-シーケンス変換トランス-トランスデューサモデルの検討

Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword Spotting ( http://arxiv.org/abs/2211.06478v1 )

ライセンス: Link先を確認
Beltr\'an Labrador, Guanlong Zhao, Ignacio L\'opez Moreno, Angelo Scorza Scarpati, Liam Fowl, Quan Wang(参考訳) 本稿では,sequence-to-sequence transformer-transducer asrをキーワードスポッティング(kws)タスクに適用する新しい手法を提案する。 テキスト転写中のキーワードを特別なトークン<kw>に置き換え,音声ストリーム中の<kw>トークンを検出するシステムをトレーニングすることで,これを実現する。 推論時に、我々は従来のKWSアプローチにインスパイアされた決定関数を作成し、我々のアプローチをよりKWSタスクに適合させる。 さらに,シーケンス識別可能な最小ベイズリスクトレーニング手法を適用し,損失を識別するキーワードを提案する。 我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。 従来のキーワードスポッティングシステムと比較すると,シーケンス・ツー・シーケンス・トレーニングの利点と柔軟性を生かしながら,同様の性能が得られる。 さらに,従来のKWSシステムと組み合わせることで,任意の操作点における性能を向上させることができる。

In this paper, we present a novel approach to adapt a sequence-to-sequence Transformer-Transducer ASR system to the keyword spotting (KWS) task. We achieve this by replacing the keyword in the text transcription with a special token <kw> and training the system to detect the <kw> token in an audio stream. At inference time, we create a decision function inspired by conventional KWS approaches, to make our approach more suitable for the KWS task. Furthermore, we introduce a specific keyword spotting loss by adapting the sequence-discriminative Minimum Bayes-Risk training technique. We find that our approach significantly outperforms ASR based KWS systems. When compared with a conventional keyword spotting system, our proposal has similar performance while bringing the advantages and flexibility of sequence-to-sequence training. Additionally, when combined with the conventional KWS system, our approach can improve the performance at any operation point.
翻訳日:2022-11-15 20:19:49 公開日:2022-11-11
# トーケンレベル学習損失を用いた変圧器を用いた話者変化検出

Augmenting Transformer-Transducer Based Speaker Change Detection With Token-Level Training Loss ( http://arxiv.org/abs/2211.06482v1 )

ライセンス: Link先を確認
Guanlong Zhao, Quan Wang, Han Lu, Yiling Huang, Ignacio Lopez Moreno(参考訳) 本稿では,トランスフォーマトランスデューサ(t-t)に基づく話者変化検出(scd)性能を向上させるトークンベーストレーニング手法を提案する。 従来のT-TベースのSCDモデル損失は、全ての出力トークンを等しく最適化する。 学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。 この問題を緩和するために、カスタマイズされた編集距離アルゴリズムを用いて、訓練中のトークンレベルのSCD偽受け入れ(FA)と偽拒絶(FR)率を推定し、モデルパラメータを最適化し、FAとFRの重み付けを最小化し、話者変化を正確に予測することに集中する。 また,商用ユースケースに合致する評価指標のセットを提案する。 課題のある実世界のデータセットに対する実験により、提案手法は、同じ数のパラメータでSCDモデル全体の性能を大幅に改善できることが示された。

In this work we propose a novel token-based training strategy that improves Transformer-Transducer (T-T) based speaker change detection (SCD) performance. The conventional T-T based SCD model loss optimizes all output tokens equally. Due to the sparsity of the speaker changes in the training data, the conventional T-T based SCD model loss leads to sub-optimal detection accuracy. To mitigate this issue, we use a customized edit-distance algorithm to estimate the token-level SCD false accept (FA) and false reject (FR) rates during training and optimize model parameters to minimize a weighted combination of the FA and FR, focusing the model on accurately predicting speaker changes. We also propose a set of evaluation metrics that align better with commercial use cases. Experiments on a group of challenging real-world datasets show that the proposed training method can significantly improve the overall performance of the SCD model with the same number of parameters.
翻訳日:2022-11-15 20:19:34 公開日:2022-11-11
# 逆例による非侵入音質モデルの頑健性について

On the robustness of non-intrusive speech quality model by adversarial examples ( http://arxiv.org/abs/2211.06508v1 )

ライセンス: Link先を確認
Hsin-Yi Lin, Huan-Hsin Tseng, Yu Tsao(参考訳) 近年,深層学習に基づくモデルは音声品質予測に有効であり,様々な観点から従来の指標よりも優れていることが示されている。 ネットワークモデルは複雑な人間の聴覚知覚の代理となる可能性があるが、予測の不安定性を含む可能性がある。 本研究は, 音声入力と比較して, 難解な摂動によって予測が劇的に変化するような, 対向的摂動に対して, 深い音声品質予測が脆弱であることを示す。 深部音声品質予測器の脆弱性を露呈することに加えて,モデルの頑健性を高めるための敵意訓練の有効性をさらに探究し,確認する。

It has been shown recently that deep learning based models are effective on speech quality prediction and could outperform traditional metrics in various perspectives. Although network models have potential to be a surrogate for complex human hearing perception, they may contain instabilities in predictions. This work shows that deep speech quality predictors can be vulnerable to adversarial perturbations, where the prediction can be changed drastically by unnoticeable perturbations as small as $-30$ dB compared with speech inputs. In addition to exposing the vulnerability of deep speech quality predictors, we further explore and confirm the viability of adversarial training for strengthening robustness of models.
翻訳日:2022-11-15 20:19:16 公開日:2022-11-11
# ディープニューラルネットワーク回帰のためのマルチレベルインレイヤートレーニング

Multilevel-in-Layer Training for Deep Neural Network Regression ( http://arxiv.org/abs/2211.06515v1 )

ライセンス: Link先を確認
Colin Ponce, Ruipeng Li, Christina Mao, Panayot Vassilevski(参考訳) 回帰における一般的な課題は、多くの問題に対して、高品質なソリューションに必要な自由度がオーバーフィットを可能にすることである。 正規化(りょうりょうりょう、英: Regularization)とは、解決可能な範囲を制限し、優れたソリューションを実現しつつ過度な適合を回避し、さまざまな規制を課す戦略である。 本稿では,ニューラルネットワークの階層構造を構築し,学習するマルチレベル正規化戦略を提案する。 代数的マルチグリッド(amg)の分野から直観的手法と手法を導き、伝統的に方程式の線形および非線形系を解くために用いられ、特に非線形方程式系に対する完全近似スキーム(fas)を深層学習問題に適用する。 vサイクルでのトレーニングは、ニューラルネットワークに問題を階層的に理解するよう促す。 ニューラルネットワークの深さを階層的に変化させる従来のマルチレベルワークと区別するために、このアプローチを 'emph{multilevel-in-width} と呼ぶ。 その結果得られたアプローチは、さまざまなレイヤタイプに適用可能な非常に柔軟なフレームワークで、完全な接続層と畳み込み層の両方で実証します。 我々は,PDE回帰問題を用いて,ニューラルネットワークの一般化性能を向上し,マルチレベルトレーニングアプローチが効果的な正則化器であることを示す。

A common challenge in regression is that for many problems, the degrees of freedom required for a high-quality solution also allows for overfitting. Regularization is a class of strategies that seek to restrict the range of possible solutions so as to discourage overfitting while still enabling good solutions, and different regularization strategies impose different types of restrictions. In this paper, we present a multilevel regularization strategy that constructs and trains a hierarchy of neural networks, each of which has layers that are wider versions of the previous network's layers. We draw intuition and techniques from the field of Algebraic Multigrid (AMG), traditionally used for solving linear and nonlinear systems of equations, and specifically adapt the Full Approximation Scheme (FAS) for nonlinear systems of equations to the problem of deep learning. Training through V-cycles then encourage the neural networks to build a hierarchical understanding of the problem. We refer to this approach as \emph{multilevel-in-width} to distinguish from prior multilevel works which hierarchically alter the depth of neural networks. The resulting approach is a highly flexible framework that can be applied to a variety of layer types, which we demonstrate with both fully-connected and convolutional layers. We experimentally show with PDE regression problems that our multilevel training approach is an effective regularizer, improving the generalize performance of the neural networks studied.
翻訳日:2022-11-15 20:19:04 公開日:2022-11-11
# FinBERT-LSTM:ニュース知覚分析を用いたディープラーニングに基づく株価予測

FinBERT-LSTM: Deep Learning based stock price prediction using News Sentiment Analysis ( http://arxiv.org/abs/2211.07392v1 )

ライセンス: Link先を確認
Shayan Halder(参考訳) 経済は株式市場に大きく依存している。 アップトレンドは通常繁栄に対応し、ダウントレンドは不況と相関する。 そのため、株式市場の予測は長い間研究と実験の中心であった。 市場における短期的な動きを予測することで、投資家は投資に対するリターンを大きく得ることができる。 株価は極めて不安定で金融市場に敏感である。 本稿では,深層学習ネットワークを用いて株価を予測し,市場に関する情報を提示する金融・ビジネス・技術ニュース記事に同化させる。 まず、MLP(Multilayer Perceptron)ネットワークを作成し、Long Short Term Memory(LSTM)のようなより複雑なリカレントニューラルネットワーク(RNN)に拡張し、最後にFinBERT-LSTMモデルを提案する。 次に、NASDAQ-100インデックスストックデータとNew York Timesのニュース記事に基づいて、平均絶対誤差(MAE)、平均絶対パーセンテージ誤差(MAPE)、精度指標を用いて、MLP、LSTM、FinBERT-LSTMモデルの性能を評価する。

Economy is severely dependent on the stock market. An uptrend usually corresponds to prosperity while a downtrend correlates to recession. Predicting the stock market has thus been a centre of research and experiment for a long time. Being able to predict short term movements in the market enables investors to reap greater returns on their investments. Stock prices are extremely volatile and sensitive to financial market. In this paper we use Deep Learning networks to predict stock prices, assimilating financial, business and technology news articles which present information about the market. First, we create a simple Multilayer Perceptron (MLP) network and then expand into more complex Recurrent Neural Network (RNN) like Long Short Term Memory (LSTM), and finally propose FinBERT-LSTM model, which integrates news article sentiments to predict stock price with greater accuracy by analysing short-term market information. We then train the model on NASDAQ-100 index stock data and New York Times news articles to evaluate the performance of MLP, LSTM, FinBERT-LSTM models using mean absolute error (MAE), mean absolute percentage error (MAPE) and accuracy metrics.
翻訳日:2022-11-15 20:11:06 公開日:2022-11-11
# 年齢予測性能は、深部、表層、小脳白質接続で異なる

Age Prediction Performance Varies Across Deep, Superficial, and Cerebellar White Matter Connections ( http://arxiv.org/abs/2211.07398v1 )

ライセンス: Link先を確認
Yuxiang Wei, Tengfei Xue, Yogesh Rathi, Nikos Makris, Fan Zhang, Lauren J. O'Donnell(参考訳) 脳の白質(wm)は、人間の寿命の間、発達過程および変性過程を経る。 WMの解剖学的領域と年齢との関係を検討するため,深部,表層,小脳WMの線維クラスターに微粒化した拡散磁気共鳴画像撮影法について検討した。 本研究では,大規模畳み込みカーネルと逆ボトルネックを利用した,ディープラーニングに基づく年齢予測モデルを提案する。 本研究では,複数面混合データの拡張と,予測範囲での年齢予測を促進する事前知識に基づく損失関数を用いて,性能改善を行う。 ヒトコネクトームプロジェクト(hcp)から得られた健常成人945名(22-37歳)のデータセットについて検討した。 実験の結果,提案モデルは平均絶対誤差2.59年を達成し,比較法を上回った。 このコホートでは,深部WMが最も年齢予測に有意であり,浅部WMが最も有意である。 総じて、最も予測可能なWM路は、深部WMからの視床前頭葉と小脳内入力と小脳WMからのPurkinje路である。

The brain's white matter (WM) undergoes developmental and degenerative processes during the human lifespan. To investigate the relationship between WM anatomical regions and age, we study diffusion magnetic resonance imaging tractography that is finely parcellated into fiber clusters in the deep, superficial, and cerebellar WM. We propose a deep-learning-based age prediction model that leverages large convolutional kernels and inverted bottlenecks. We improve performance using novel discrete multi-faceted mix data augmentation and a novel prior-knowledge-based loss function that encourages age predictions in the expected range. We study a dataset of 965 healthy young adults (22-37 years) derived from the Human Connectome Project (HCP). Experimental results demonstrate that the proposed model achieves a mean absolute error of 2.59 years and outperforms compared methods. We find that the deep WM is the most informative for age prediction in this cohort, while the superficial WM is the least informative. Overall, the most predictive WM tracts are the thalamo-frontal tract from the deep WM and the intracerebellar input and Purkinje tract from the cerebellar WM.
翻訳日:2022-11-15 20:10:45 公開日:2022-11-11
# Transformerによる逐次SNPデータからの効率的なHLA計算

Efficient HLA imputation from sequential SNPs data by Transformer ( http://arxiv.org/abs/2211.06430v1 )

ライセンス: Link先を確認
Kaho Tanaka, Kosuke Kato, Naoki Nonaka, Jun Seita(参考訳) ヒト白血球抗原(HLA)遺伝子は様々な疾患と関連しているが、HLAの直接型付けには時間と費用がかかる。 このように、逐次SNPデータを用いた様々な計算手法が、統計モデルや深層学習モデルに基づいて提案されている。 しかし、頻繁な対立遺伝子ではインプテーション効率が不十分であり、大きな参照パネルが必要となる。 そこで我々は,HLAアレルをインプットする Transformer-based model を開発し,SNP データの逐次的性質を活用するために "HLA Reliable IMputatioN by Transformer (HLARIMNT)" と名付けた。 2つの異なる基準パネル、pan-asian reference panel (n = 530) とtype 1 diabetes genetics consortium (t1dgc) reference panel (n = 5,225) およびこれら2つのパネル (n = 1,060) の混合物を用いてhlarimntの性能を検証する。 HLARIMNTはいくつかの指標によりDEEP*HLAよりも高い精度を達成した。 また,トレーニング用データのサイズも変化しており,トレーニング用データのサイズよりもHLARIMNTの方が精度が高かった。 これらの結果から,トランスフォーマーモデルがhla型だけでなく,snpsデータから他の遺伝子型を効率的に誘導する可能性が示唆された。

Human leukocyte antigen (HLA) genes are associated with a variety of diseases, however direct typing of HLA is time and cost consuming. Thus various imputation methods using sequential SNPs data have been proposed based on statistical or deep learning models, e.g. CNN-based model, named DEEP*HLA. However, imputation efficiency is not sufficient for in frequent alleles and a large size of reference panel is required. Here, we developed a Transformer-based model to impute HLA alleles, named "HLA Reliable IMputatioN by Transformer (HLARIMNT)" to take advantage of sequential nature of SNPs data. We validated the performance of HLARIMNT using two different reference panels; Pan-Asian reference panel (n = 530) and Type 1 Diabetes Genetics Consortium (T1DGC) reference panel (n = 5,225), as well as the mixture of those two panels (n = 1,060). HLARIMNT achieved higher accuracy than DEEP*HLA by several indices, especially for infrequent alleles. We also varied the size of data used for training, and HLARIMNT imputed more accurately among any size of training data. These results suggest that Transformer-based model may impute efficiently not only HLA types but also any other gene types from sequential SNPs data.
翻訳日:2022-11-15 19:52:56 公開日:2022-11-11
# 分散システムにおけるより一般化し、パーソナライズされた非教師なし表現学習

More Generalized and Personalized Unsupervised Representation Learning In A Distributed System ( http://arxiv.org/abs/2211.06470v1 )

ライセンス: Link先を確認
Yuewei Yang, Jingwei Sun, Ang Li, Hai Li, Yiran Chen(参考訳) コントラスト学習のような差別的非教師付き学習手法は、集中データ上で一般化された視覚表現を学習する能力を示した。 それにもかかわらず、ユーザスタイルや好みのため、ラベルなし、プライベート、異種なクライアントデータを持つ分散システムにそのような方法を適用するのは困難である。 フェデレートラーニングは、複数のクライアントが、ローカルクライアント間のプライバシー侵害を引き起こすことなく、グローバルモデルを集合的に学習することを可能にする。 一方,フェデレーション学習の別の方向性は,局所的不均一性に対処する手法をパーソナライズするものである。 しかし、分散環境でラベルを使わずに一般化とパーソナライズの両方を解決する作業は不慣れである。 本研究では,ローカルスタイル情報とローカルコンテンツ情報とを融合してより一般化したグローバルモデルを学ぶfeedstyleを提案し,下流タスクにローカルスタイル情報を誘導することでパーソナライズされたローカルモデルを学ぶ。 オリジナルローカルデータと強増したローカルデータ(ソーベルフィルタ画像)とを対比してスタイル情報を抽出する。 iid設定と非iid設定の両方における線形評価による広範囲な実験を通じて、feedstyleが一般化ベースライン法とパーソナライズベースライン法の両方を上回っていることを実証する。 包括的アブレーションにより,スタイル・インフュージョンとスタイライゼーション・パーソナライゼーションの設計により,性能が著しく向上することを示す。

Discriminative unsupervised learning methods such as contrastive learning have demonstrated the ability to learn generalized visual representations on centralized data. It is nonetheless challenging to adapt such methods to a distributed system with unlabeled, private, and heterogeneous client data due to user styles and preferences. Federated learning enables multiple clients to collectively learn a global model without provoking any privacy breach between local clients. On the other hand, another direction of federated learning studies personalized methods to address the local heterogeneity. However, work on solving both generalization and personalization without labels in a decentralized setting remains unfamiliar. In this work, we propose a novel method, FedStyle, to learn a more generalized global model by infusing local style information with local content information for contrastive learning, and to learn more personalized local models by inducing local style information for downstream tasks. The style information is extracted by contrasting original local data with strongly augmented local data (Sobel filtered images). Through extensive experiments with linear evaluations in both IID and non-IID settings, we demonstrate that FedStyle outperforms both the generalization baseline methods and personalization baseline methods in a stylized decentralized setting. Through comprehensive ablations, we demonstrate our design of style infusion and stylized personalization improve performance significantly.
翻訳日:2022-11-15 19:35:56 公開日:2022-11-11
# NeuroCERIL:プログラマブル・トラクター・ニューラルネットにおける階層的因果推論によるロボット模倣学習

NeuroCERIL: Robotic Imitation Learning via Hierarchical Cause-Effect Reasoning in Programmable Attractor Neural Networks ( http://arxiv.org/abs/2211.06462v1 )

ライセンス: Link先を確認
Gregory P. Davis, Garrett E. Katz, Rodolphe J. Gentili, James A. Reggia(参考訳) シミュレーション学習は,人手によるプログラミングを行なわずに,人間教師から新しいスキルを習得することを可能にするが,ロボット模倣学習システムでは,人間の学習者と同じように,実証的なスキルを一般化することは困難である。 模倣学習に対する現代の神経計算的アプローチは、データ集約的トレーニングのコストで限定的な一般化を達成し、しばしば理解やデバッグが難しい不透明なモデルを生み出す。 本研究では,実演行動の意図を推論し,模倣を学習する社会ロボットのための純粋神経制御器の開発の可能性を検討する。 本稿では,脳に触発された神経認知アーキテクチャであるNeuroCERILについて述べる。 このアプローチはボトムアップ誘導推論とトップダウン予測検証を組み合わせて、幅広い認知領域に関連する人間の因果推論の重要な側面を捉える。 実験の結果,NeuroCERILは模擬ロボット模倣学習領域で様々な手続き的スキルを習得できることが示された。 また,因果推論手法は計算的に効率的であり,そのメモリ使用は人間の作業記憶と同様,過渡的な短期記憶に支配されていることを示す。 ニューロセラールは、人間とロボットの協調を改善し、人間の認知のニューロコンピューティング基盤の調査に寄与する、人間のような模倣学習の実行可能なニューラルモデルである。

Imitation learning allows social robots to learn new skills from human teachers without substantial manual programming, but it is difficult for robotic imitation learning systems to generalize demonstrated skills as well as human learners do. Contemporary neurocomputational approaches to imitation learning achieve limited generalization at the cost of data-intensive training, and often produce opaque models that are difficult to understand and debug. In this study, we explore the viability of developing purely-neural controllers for social robots that learn to imitate by reasoning about the underlying intentions of demonstrated behaviors. We present NeuroCERIL, a brain-inspired neurocognitive architecture that uses a novel hypothetico-deductive reasoning procedure to produce generalizable and human-readable explanations for demonstrated behavior. This approach combines bottom-up abductive inference with top-down predictive verification, and captures important aspects of human causal reasoning that are relevant to a broad range of cognitive domains. Our empirical results demonstrate that NeuroCERIL can learn various procedural skills in a simulated robotic imitation learning domain. We also show that its causal reasoning procedure is computationally efficient, and that its memory use is dominated by highly transient short-term memories, much like human working memory. We conclude that NeuroCERIL is a viable neural model of human-like imitation learning that can improve human-robot collaboration and contribute to investigations of the neurocomputational basis of human cognition.
翻訳日:2022-11-15 19:27:15 公開日:2022-11-11
# XAIの社会構築 : すべてを決めるには1つの定義が必要であるか?

Social Construction of XAI: Do We Need One Definition to Rule Them All? ( http://arxiv.org/abs/2211.06499v1 )

ライセンス: Link先を確認
Upol Ehsan, Mark O. Riedl(参考訳) 説明可能なAI(XAI)の研究者や開発者の間では、"説明可能性"が意味するものに関するコンセンサスの欠如に不満が広がっている。 すべてを支配するには説明可能性の定義は1つ必要か? 本稿では,XAI の現段階では,XAI の特異な定義が実現不可能で,望ましくない理由を論じる。 我々は、XAIが社会構築技術(SCOT)のレンズを通して、XAIの意味を形成する多様な利害関係者(関連する社会グループ)がどのように異なる解釈(解釈柔軟性)を持っているかを明らかにする。 標準化(クロージャー)を多元的解釈に早すぎるとイノベーションを阻害し、早期の結論につながる。 定義的なコンセンサスを待つことなく,XAI の進歩のために多元主義を活用する方法を共有します。

There is a growing frustration amongst researchers and developers in Explainable AI (XAI) around the lack of consensus around what is meant by 'explainability'. Do we need one definition of explainability to rule them all? In this paper, we argue why a singular definition of XAI is neither feasible nor desirable at this stage of XAI's development. We view XAI through the lenses of Social Construction of Technology (SCOT) to explicate how diverse stakeholders (relevant social groups) have different interpretations (interpretative flexibility) that shape the meaning of XAI. Forcing a standardization (closure) on the pluralistic interpretations too early can stifle innovation and lead to premature conclusions. We share how we can leverage the pluralism to make progress in XAI without having to wait for a definitional consensus.
翻訳日:2022-11-15 19:26:48 公開日:2022-11-11
# 安定かつ伝達可能なハイパーグラフニューラルネットワーク

Stable and Transferable Hyper-Graph Neural Networks ( http://arxiv.org/abs/2211.06513v1 )

ライセンス: Link先を確認
Mikhail Hayhoe, Hans Riess, Victor M. Preciado, and Alejandro Ribeiro(参考訳) 我々は,ハイパーグラフ拡張ニューラルネットワーク (henn) と呼ぶグラフニューラルネットワーク (gnns) によるハイパーグラフ上で支援される信号を処理するためのアーキテクチャを導入し,ハイパーグラフ信号処理モデルの安定性と転送可能性に関する最初の境界を提供する。 そのため、スペクトル類似性により任意のグラフにまたがってGNNの安定性と転送可能性の誤差を境界付けるためのフレームワークを提供する。 正半定値な意味での2つのグラフシフト作用素(GSO)の差を固有値スペクトルによって有界にすることで、この誤差はGNNの特性とGSOのスペクトル類似度の大きさにのみ依存することを示す。 さらに,グラフが互いに小さな摂動であると仮定した既存の転送可能性結果や,同一分布からランダムに描画されたグラフや,同一のグラフからサンプリングされたグラフを,このアプローチで復元できることを示す。 したがって、GNNとHENN(正規化ラプラシアンをグラフシフト演算子として使用した)は、グラフが大きくなるにつれて安定し、転送可能である。 実験の結果,複数のグラフ表現を henn で検討することの重要性が示され,転送性が要求される場合,その優れた性能を示す。

We introduce an architecture for processing signals supported on hypergraphs via graph neural networks (GNNs), which we call a Hyper-graph Expansion Neural Network (HENN), and provide the first bounds on the stability and transferability error of a hypergraph signal processing model. To do so, we provide a framework for bounding the stability and transferability error of GNNs across arbitrary graphs via spectral similarity. By bounding the difference between two graph shift operators (GSOs) in the positive semi-definite sense via their eigenvalue spectrum, we show that this error depends only on the properties of the GNN and the magnitude of spectral similarity of the GSOs. Moreover, we show that existing transferability results that assume the graphs are small perturbations of one another, or that the graphs are random and drawn from the same distribution or sampled from the same graphon can be recovered using our approach. Thus, both GNNs and our HENNs (trained using normalized Laplacians as graph shift operators) will be increasingly stable and transferable as the graphs become larger. Experimental results illustrate the importance of considering multiple graph representations in HENN, and show its superior performance when transferability is desired.
翻訳日:2022-11-15 19:01:22 公開日:2022-11-11
# オンライン校正のための帯域:ソーシャルメディアプラットフォームにおけるコンテンツモデレーションへの応用

Bandits for Online Calibration: An Application to Content Moderation on Social Media Platforms ( http://arxiv.org/abs/2211.06516v1 )

ライセンス: Link先を確認
Vashist Avadhanula, Omar Abdul Baki, Hamsa Bastani, Osbert Bastani, Caner Gocmen, Daniel Haimovich, Darren Hwang, Dima Karamshuk, Thomas Leeper, Jiayuan Ma, Gregory Macnamara, Jake Mullett, Christopher Palow, Sung Park, Varun S Rajagopal, Kevin Schaeffer, Parikshit Shah, Deeksha Sinha, Nicolas Stier-Moses, Peng Xu(参考訳) 本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。 Metaは、人間のレビューに違反する可能性のあるコンテンツを警告するために、手作りと学習の両方のリスクモデルに依存している。 当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。 鍵となる課題は、違反傾向が時間とともに変化し、どのリスクモデルが最も信頼できるかに影響することです。 また,リスクモデルの変更や新たなリスクモデルなど,生産上の課題にも対処する。 このような傾向に対応して,コンテクストバンディットを用いてキャリブレーションを更新する。 提案手法は,そのコンテンツモデレーション戦略の有効性を13%向上させるために,metaのtop-lineメトリックを増加させる。

We describe the current content moderation strategy employed by Meta to remove policy-violating content from its platforms. Meta relies on both handcrafted and learned risk models to flag potentially violating content for human review. Our approach aggregates these risk models into a single ranking score, calibrating them to prioritize more reliable risk models. A key challenge is that violation trends change over time, affecting which risk models are most reliable. Our system additionally handles production challenges such as changing risk models and novel risk models. We use a contextual bandit to update the calibration in response to such trends. Our approach increases Meta's top-line metric for measuring the effectiveness of its content moderation strategy by 13%.
翻訳日:2022-11-15 19:01:00 公開日:2022-11-11
# シーングラフの確率的劣化

Probabilistic Debiasing of Scene Graphs ( http://arxiv.org/abs/2211.06444v1 )

ライセンス: Link先を確認
Bashirul Azam Biswas and Qiang Ji(参考訳) 最先端(SOTA)モデルによって生成されたシーングラフの品質は、関係と親オブジェクトペアの長い尾の性質によって損なわれる。 シーングラフの訓練は、多数対の多数派関係に支配されており、訓練が収束した後は、少数対における関係の客条件分布は保存されない。 その結果、偏りのあるモデルは「on」や「wearing」といった関係の限界分布におけるより頻繁な関係をよく行い、「eating」や「hanging from」といったあまり頻繁でない関係をうまく処理しない。 本研究では,関係ラベルのオブジェクト条件分布を保存し,関係の限界確率によって生じるバイアスを根絶するために,ストリップレット内ベイズネットワーク(BN)を組み込んだ仮想証拠を提案する。 マイノリティクラスにおける関係性の不足は、トリップレット内ベイズネットワークの学習において重大な問題を引き起こす。 我々は、三重項の埋め込みに基づく拡張により、この不足に対処し、意味空間内の近傍三重項から少数三重項クラスのサンプルを借りる。 2つの異なるデータセットで実験を行い,関係の想起を平均的に改善した。 また,シーングラフモデルのSOTAデバイアス手法と比較して,リコール性能と平均リコール性能のバランスが良くなった。

The quality of scene graphs generated by the state-of-the-art (SOTA) models is compromised due to the long-tail nature of the relationships and their parent object pairs. Training of the scene graphs is dominated by the majority relationships of the majority pairs and, therefore, the object-conditional distributions of relationship in the minority pairs are not preserved after the training is converged. Consequently, the biased model performs well on more frequent relationships in the marginal distribution of relationships such as `on' and `wearing', and performs poorly on the less frequent relationships such as `eating' or `hanging from'. In this work, we propose virtual evidence incorporated within-triplet Bayesian Network (BN) to preserve the object-conditional distribution of the relationship label and to eradicate the bias created by the marginal probability of the relationships. The insufficient number of relationships in the minority classes poses a significant problem in learning the within-triplet Bayesian network. We address this insufficiency by embedding-based augmentation of triplets where we borrow samples of the minority triplet classes from its neighborhood triplets in the semantic space. We perform experiments on two different datasets and achieve a significant improvement in the mean recall of the relationships. We also achieve better balance between recall and mean recall performance compared to the SOTA de-biasing techniques of scene graph models.
翻訳日:2022-11-15 17:59:24 公開日:2022-11-11
# 実世界未記述言語のための音声から音声への翻訳

Speech-to-Speech Translation For A Real-world Unwritten Language ( http://arxiv.org/abs/2211.06474v1 )

ライセンス: Link先を確認
Peng-Jen Chen, Kevin Tran, Yilin Yang, Jingfei Du, Justine Kao, Yu-An Chung, Paden Tomasello, Paul-Ambroise Duquenne, Holger Schwenk, Hongyu Gong, Hirofumi Inaguma, Sravya Popuri, Changhan Wang, Juan Pino, Wei-Ning Hsu, Ann Lee(参考訳) 本研究では,ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について検討し,標準テキスト記述システムを持たない言語をサポートするシステムの構築に焦点を当てた。 ケーススタディとして英語-台湾語hokkienを使用し、トレーニングデータ収集からモデリング選択、ベンチマークデータセットのリリースまで、エンドツーエンドのソリューションを提示します。 まず,人間のアノテートデータの作成,大量のラベルなし音声データセットからの自動抽出,疑似ラベルによる弱い教師付きデータの生成などを行う。 本モデルでは,S2STにおける予測対象として自己教師付き離散表現を適用した最近の進歩を活用し,ホッキエンに似た言語であるマンダリンによるモデル学習における追加のテキスト管理の有効性を示す。 最後に、この分野での今後の研究を促進するため、S2STベンチマークセットをリリースする。 デモはhttps://huggingface.co/spaces/facebook/Hokkien_Translation で見ることができる。

We study speech-to-speech translation (S2ST) that translates speech from one language into another language and focuses on building systems to support languages without standard text writing systems. We use English-Taiwanese Hokkien as a case study, and present an end-to-end solution from training data collection, modeling choices to benchmark dataset release. First, we present efforts on creating human annotated data, automatically mining data from large unlabeled speech datasets, and adopting pseudo-labeling to produce weakly supervised data. On the modeling, we take advantage of recent advances in applying self-supervised discrete representations as target for prediction in S2ST and show the effectiveness of leveraging additional text supervision from Mandarin, a language similar to Hokkien, in model training. Finally, we release an S2ST benchmark set to facilitate future research in this field. The demo can be found at https://huggingface.co/spaces/facebook/Hokkien_Translation .
翻訳日:2022-11-15 17:21:24 公開日:2022-11-11
# StereoISP:デュアルカメラシステムのための画像信号処理の再考

StereoISP: Rethinking Image Signal Processing for Dual Camera Systems ( http://arxiv.org/abs/2211.07390v1 )

ライセンス: Link先を確認
Ahmad Bin Rabiah and Qi Guo(参考訳) 従来の画像信号処理(ISP)フレームワークは、単一の生計測からRGBイメージを再構成するように設計されている。 近年,マルチカメラシステムの普及が進み,複数のカメラの生計測を取り入れたISPフレームワークの改善を検討すべきである。 この原稿は、開発中の新しいISPフレームワークである \sellnameの中間進捗レポートである。 ステレオカメラ対からの生測を用いて、2つのビュー間で推定される差を利用して、分解され、識別されたRGB画像を生成する。 ステレオデータセットから合成した生画像対の性能試験により,<sellname</s>を検証した。 予備的な結果から,KITTI 2015では2dB以上で再現されたRGB画像のPSNRが向上し,Stereoデータセットを地上の真偽疎外マップを用いて駆動した。

Conventional image signal processing (ISP) frameworks are designed to reconstruct an RGB image from a single raw measurement. As multi-camera systems become increasingly popular these days, it is worth exploring improvements in ISP frameworks by incorporating raw measurements from multiple cameras. This manuscript is an intermediate progress report of a new ISP framework that is under development, \sellname. It employs raw measurements from a stereo camera pair to generate a demosaicked, denoised RGB image by utilizing disparity estimated between the two views. We investigate \sellname~by testing the performance on raw image pairs synthesized from stereo datasets. Our preliminary results show an improvement in the PSNR of the reconstructed RGB image by at least 2dB on KITTI 2015 and drivingStereo datasets using ground truth sparse disparity maps.
翻訳日:2022-11-15 17:11:33 公開日:2022-11-11
# 強化学習による商用冷却システム制御

Controlling Commercial Cooling Systems Using Reinforcement Learning ( http://arxiv.org/abs/2211.07357v1 )

ライセンス: Link先を確認
Jerry Luo, Cosmin Paduraru, Octavian Voicu, Yuri Chervonyi, Scott Munns, Jerry Li, Crystal Qian, Praneet Dutta, Jared Quincy Davis, Ningjia Wu, Xingwei Yang, Chu-Ming Chang, Ted Li, Rob Rose, Mingyan Fan, Hootan Nakhost, Tinglin Liu, Brian Kirkman, Frank Altamura, Lee Cline, Patrick Tonker, Joel Gouker, Dave Uden, Warren Buddy Bryan, Jason Law, Deeni Fatiha, Neil Satra, Juliet Rothenberg, Molly Carlin, Satish Tallapaka, Sims Witherspoon, David Parish, Peter Dolan, Chenyu Zhao, Daniel J. Mankowitz(参考訳) 本稿では,DeepMindとGoogleが最近行った商用冷却システムの強化学習の技術的概要について述べる。 googleのデータセンターをより効率的に冷却することから始まる専門知識に基づいて、我々は最近、ビル管理システムプロバイダであるtrane technologiesと共同で、現実世界の2つの施設でライブ実験を行いました。 これらのライブ実験は、評価、オフラインデータからの学習、制約満足度など、さまざまな課題を抱えていた。 本稿では,これらの課題について,今後のRLの活用に期待する。 また、これらの課題に対処するために、我々のRLシステムを適応する方法についても述べ、その結果、2つの実験現場でそれぞれ約9%と13%の省エネを実現した。

This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
翻訳日:2022-11-15 17:04:37 公開日:2022-11-11
# ストック運動予測における多次ダイナミクスと内部ダイナミクスの効率的な統合

Efficient Integration of Multi-Order Dynamics and Internal Dynamics in Stock Movement Prediction ( http://arxiv.org/abs/2211.07400v1 )

ライセンス: Link先を確認
Thanh Trung Huynh and Minh Hieu Nguyen and Thanh Tam Nguyen and Phi Le Nguyen and Matthias Weidlich and Quoc Viet Hung Nguyen and Karl Aberer(参考訳) ディープニューラルネットワーク(DNN)アーキテクチャの進歩により、株式市場データの新たな予測技術が実現された。 他の多変量時系列データとは異なり、株式市場には2つの特徴がある。 (i)株価は(例えば、同一産業内において)強い非対向的相関によって影響を受けるため、emph{multi-order dynamics} である。 (ii)個々のストックが特定の振る舞いを示すように、emph{internal dynamics}。 近年のDNNベースの手法はハイパーグラフを用いたマルチオーダーダイナミクスを捉えるが、非効率かつ非効率な畳み込みにおけるフーリエ基底に依存している。 さらに、各株に同じモデルを採用することで、内部のダイナミクスをほとんど無視している。 本稿では,上記の課題を克服するための株価変動予測の枠組みを提案する。 具体的には、メモリベースのメカニズムを実装した時間生成フィルタをLSTMネットワークに組み込んで、ストック毎の個々のパターンを学習する。 さらに,非ペアワイズ相関を捉えるためにハイパーグラフアテンションを用いる。 ここで、フーリエ基底の代わりにウェーブレット基底を使用することで、メッセージパッシングを単純化し、局所化された畳み込みにフォーカスすることができる。 米国の6年間の市場データによる実験によると、我々のフレームワークは利益と安定性の点で最先端の手法より優れている。 私たちのソースコードとデータは、 \url{https://github.com/thanhtrunghuynh93/estimate}で利用可能です。

Advances in deep neural network (DNN) architectures have enabled new prediction techniques for stock market data. Unlike other multivariate time-series data, stock markets show two unique characteristics: (i) \emph{multi-order dynamics}, as stock prices are affected by strong non-pairwise correlations (e.g., within the same industry); and (ii) \emph{internal dynamics}, as each individual stock shows some particular behaviour. Recent DNN-based methods capture multi-order dynamics using hypergraphs, but rely on the Fourier basis in the convolution, which is both inefficient and ineffective. In addition, they largely ignore internal dynamics by adopting the same model for each stock, which implies a severe information loss. In this paper, we propose a framework for stock movement prediction to overcome the above issues. Specifically, the framework includes temporal generative filters that implement a memory-based mechanism onto an LSTM network in an attempt to learn individual patterns per stock. Moreover, we employ hypergraph attentions to capture the non-pairwise correlations. Here, using the wavelet basis instead of the Fourier basis, enables us to simplify the message passing and focus on the localized convolution. Experiments with US market data over six years show that our framework outperforms state-of-the-art methods in terms of profit and stability. Our source code and data are available at \url{https://github.com/thanhtrunghuynh93/estimate}.
翻訳日:2022-11-15 17:04:24 公開日:2022-11-11
# 自己監督型等方性胎児脳MRI

Self-Supervised Isotropic Superresolution Fetal Brain MRI ( http://arxiv.org/abs/2211.06502v1 )

ライセンス: Link先を確認
Kay L\"achler, H\'el\`ene Lajous, Michael Unser, Meritxell Bach Cuadra, and Pol del Aguila Pla(参考訳) 超解像 T2-weighted fetal-brain magnetic-resonance imaging (FBMRI) は、伝統的に2次元の厚いスライス(体積)の直交低解像度級数に頼っている。 実際には、低解像度のボリュームはごくわずかである。 したがって、最適化に基づく画像再構成手法では、手作りの正規化器(例えばテレビ)を用いた強正則化が必要である。 しかし, 子宮の運動と急速に変化する胎児脳解剖により, 教師付き学習法を訓練するために必要な高分解能画像の取得は困難である。 本稿では,t2重み付きfbmri (sair) のための自己教師付き単一体積超解像フレームワークの概念実証を提供することにより,この困難を回避した。 動きのないシミュレーション環境でSAIRを定量的に検証する。 ノイズレベルと分解能比の異なる結果から,SAIRはマルチボリューム超解像再構成法に匹敵する可能性が示唆された。 また臨床FBMRIデータからSAIRを質的に評価した。 結果は、SAIRを現在の再構築パイプラインに組み込むことができることを示唆している。

Superresolution T2-weighted fetal-brain magnetic-resonance imaging (FBMRI) traditionally relies on the availability of several orthogonal low-resolution series of 2-dimensional thick slices (volumes). In practice, only a few low-resolution volumes are acquired. Thus, optimization-based image-reconstruction methods require strong regularization using hand-crafted regularizers (e.g., TV). Yet, due to in utero fetal motion and the rapidly changing fetal brain anatomy, the acquisition of the high-resolution images that are required to train supervised learning methods is difficult. In this paper, we sidestep this difficulty by providing a proof of concept of a self-supervised single-volume superresolution framework for T2-weighted FBMRI (SAIR). We validate SAIR quantitatively in a motion-free simulated environment. Our results for different noise levels and resolution ratios suggest that SAIR is comparable to multiple-volume superresolution reconstruction methods. We also evaluate SAIR qualitatively on clinical FBMRI data. The results suggest SAIR could be incorporated into current reconstruction pipelines.
翻訳日:2022-11-15 16:55:38 公開日:2022-11-11
# 線形幅ニューラルネットワークにおけるスペクトル進化と不変性

Spectral evolution and invariance in linear-width neural networks ( http://arxiv.org/abs/2211.06506v1 )

ライセンス: Link先を確認
Zhichao Wang, Andrew Engel, Anand Sarwate, Ioana Dumitriu, Tony Chiang(参考訳) サンプルサイズがネットワーク幅に漸近的に比例する線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討した。 経験的に、この高次元状態における重みスペクトルは、小さな定常学習率の勾配降下によって訓練されたときに不変であり、演算子とフロベニウスノルムの変化は極限において$\Theta(1)$であることを示す。 これは共役核とニューラル接核のバルクスペクトルも不変であることを意味する。 学習率の小さいミニバッチ(stochastic)勾配降下法で学習したモデルの類似した特性を示し,この特殊なシナリオを理論的に正当化する。 学習速度が大きくなると、トレーニングデータ構造に一致した固有ベクトルで、外れ値が出現することが実証的に示される。 また, 適応勾配トレーニングの結果, テスト誤差が低く, 特徴学習が出現すると, 重み行列とカーネル行列の両方が重くテール挙動を示すことが示された。 不変バルク、スパイク、ヘビーテール分布などの異なるスペクトル特性は、核が初期化からどこまで逸脱するかに相関する。 この現象をよりよく理解するために、我々は、異なるトレーニング戦略のための異なるスペクトル特性を示す合成データに基づく2層ネットワークであるおもちゃモデルに焦点を当てた。 従来のニューラルネットワークを実世界のデータでトレーニングする際にも、アナログ現象が現れる。 その結果、トレーニング中のスペクトル変化のモニタリングは、トレーニングのダイナミクスと機能学習を理解するための重要なステップであることがわかった。

We investigate the spectral properties of linear-width feed-forward neural networks, where the sample size is asymptotically proportional to network width. Empirically, we show that the weight spectra in this high dimensional regime are invariant when trained by gradient descent for small constant learning rates and the changes in both operator and Frobenius norm are $\Theta(1)$ in the limit. This implies the bulk spectra for both the conjugate and neural tangent kernels are also invariant. We demonstrate similar characteristics for models trained with mini-batch (stochastic) gradient descent with small learning rates and provide a theoretical justification for this special scenario. When the learning rate is large, we show empirically that an outlier emerges with its corresponding eigenvector aligned to the training data structure. We also show that after adaptive gradient training, where we have a lower test error and feature learning emerges, both the weight and kernel matrices exhibit heavy tail behavior. Different spectral properties such as invariant bulk, spike, and heavy-tailed distribution correlate to how far the kernels deviate from initialization. To understand this phenomenon better, we focus on a toy model, a two-layer network on synthetic data, which exhibits different spectral properties for different training strategies. Analogous phenomena also appear when we train conventional neural networks with real-world data. Our results show that monitoring the evolution of the spectra during training is an important step toward understanding the training dynamics and feature learning.
翻訳日:2022-11-15 16:38:20 公開日:2022-11-11
# 視覚モデルにおける奥行きと表現

Depth and Representation in Vision Models ( http://arxiv.org/abs/2211.06496v1 )

ライセンス: Link先を確認
Benjamin L. Badger(参考訳) ディープラーニングモデルは、入力の連続的な表現をシーケンシャルなレイヤに展開し、最後の表現を出力にマップする。 本稿では,様々な層に存在する組込みを用いて,畳み込み画像分類モデルの入力を自動エンコードする能力を観察し,これらの表現の情報内容について検討する。 レイヤーが深くなるほど、レイヤーの入力表現がトレーニングの前に正確でないことが分かります。 不正確な表現は、様々な異なる入力がほぼ同じ埋め込みを与える非統一性から生じる。 非特異表現は、前方通過に存在する変換の正確かつ近似的な非可逆性の結果である。 自然画像の分類を学ぶと、初期でも後期でも表現の明確さが増し、抽象的な画像が作られるようになる。 分類に必要な入力に含まれる特徴を単に選択するのではなく、深層表現は、学習中に学習した多様体に任意の入力がマッピングされるように、トレーニングデータの表現と一致するように入力を変換する。 この研究は、画像認識と入力生成のタスクは、分類を専門に訓練されたモデルでも分離できないという理論を支持する。

Deep learning models develop successive representations of their input in sequential layers, the last of which maps the final representation to the output. Here we investigate the informational content of these representations by observing the ability of convolutional image classification models to autoencode the model's input using embeddings existing in various layers. We find that the deeper the layer, the less accurate that layer's representation of the input is before training. Inaccurate representation results from non-uniqueness in which various distinct inputs give approximately the same embedding. Non-unique representation is a consequence of both exact and approximate non-invertibility of transformations present in the forward pass. Learning to classify natural images leads to an increase in representation clarity for early but not late layers, which instead form abstract images. Rather than simply selecting for features present in the input necessary for classification, deep layer representations are found to transform the input so that it matches representations of the training data such that arbitrary inputs are mapped to manifolds learned during training. This work provides support for the theory that the tasks of image recognition and input generation are inseparable even for models trained exclusively to classify.
翻訳日:2022-11-15 16:35:54 公開日:2022-11-11
# 暗黙的デルタ法

The Implicit Delta Method ( http://arxiv.org/abs/2211.06457v1 )

ライセンス: Link先を確認
Nathan Kallus and James McInerney(参考訳) 疫学的な不確実性定量化は、ある時点における予測や、そのモデルを入力として使用する下流評価に関して、予測モデルから信頼できる結論を引き出す上で重要な部分である。 予測モデルが単純で,その評価が微分可能である場合,この課題はデルタ法によって解決され,予測モデルにおける漸近的に異常な不確かさが標準誤差とウォルド信頼区間の計算によって伝達される。 しかし、モデルや評価がより複雑になると、これは難しくなります。 修正にはブートストラップが含まれるが、一度トレーニングしても計算は不可能であり、コストがかかる。 本稿では,予測モデルのトレーニング損失を無限に正規化し,下流の不確実性を自動的に評価する手法である暗黙デルタ法を提案する。 有限差分により無限小変化が近似された場合でも, 正規化による評価の変化は, 評価推定器の漸近変動に一致していることを示す。 これにより、標準誤差の観点からの不確実性の信頼できる定量化と、校正された信頼区間の構築が可能になる。 我々はベイズ派と頻繁派の両方の不確実性定量化への他のアプローチとのつながりを議論し、経験的にそのアプローチを実証する。

Epistemic uncertainty quantification is a crucial part of drawing credible conclusions from predictive models, whether concerned about the prediction at a given point or any downstream evaluation that uses the model as input. When the predictive model is simple and its evaluation differentiable, this task is solved by the delta method, where we propagate the asymptotically-normal uncertainty in the predictive model through the evaluation to compute standard errors and Wald confidence intervals. However, this becomes difficult when the model and/or evaluation becomes more complex. Remedies include the bootstrap, but it can be computationally infeasible when training the model even once is costly. In this paper, we propose an alternative, the implicit delta method, which works by infinitesimally regularizing the training loss of the predictive model to automatically assess downstream uncertainty. We show that the change in the evaluation due to regularization is consistent for the asymptotic variance of the evaluation estimator, even when the infinitesimal change is approximated by a finite difference. This provides both a reliable quantification of uncertainty in terms of standard errors as well as permits the construction of calibrated confidence intervals. We discuss connections to other approaches to uncertainty quantification, both Bayesian and frequentist, and demonstrate our approach empirically.
翻訳日:2022-11-15 16:26:39 公開日:2022-11-11
# 私たちが学ぶメタファー

Metaphors We Learn By ( http://arxiv.org/abs/2211.06441v1 )

ライセンス: Link先を確認
Roland Memisevic(参考訳) エラーバックプロパゲーション(``backprop''')を使用したグラディエントベースの学習は、AIの最近の進歩の多くに広く貢献している。 あまり明確ではないが、同時に重要な要素はパラメータ共有である - 畳み込みネットワークの文脈でよく知られたものだ。 本論では,パラメータ共有 (``weight sharing'') を類似化と認知的メタファーの考え方に関連付ける。 本稿では,リカレントモデルと自己回帰モデルについて,静的特徴から動的スキルや手順へのアナロジー生成の拡張として考える。 例えば、コネクティビストと ‘classic'' のルールに基づく計算の見方の、現在定着している二分法にどのように挑戦できるかについて論じる。

Gradient based learning using error back-propagation (``backprop'') is a well-known contributor to much of the recent progress in AI. A less obvious, but arguably equally important, ingredient is parameter sharing - most well-known in the context of convolutional networks. In this essay we relate parameter sharing (``weight sharing'') to analogy making and the school of thought of cognitive metaphor. We discuss how recurrent and auto-regressive models can be thought of as extending analogy making from static features to dynamic skills and procedures. We also discuss corollaries of this perspective, for example, how it can challenge the currently entrenched dichotomy between connectionist and ``classic'' rule-based views of computation.
翻訳日:2022-11-15 16:18:31 公開日:2022-11-11
# 学習正準化関数による等価性

Equivariance with Learned Canonicalization Functions ( http://arxiv.org/abs/2211.06489v1 )

ライセンス: Link先を確認
S\'ekou-Oumar Kaba, Arnab Kumar Mondal, Yan Zhang, Yoshua Bengio, Siamak Ravanbakhsh(参考訳) 対称性に基づくニューラルネットワークは、変換のグループに不変または同値性を達成するためにしばしばアーキテクチャを制約する。 本稿では、データの標準表現を学習することで、このアーキテクチャ上の制約を回避する代替案を提案する。 これらの正準化関数は、不変でないバックボーンアーキテクチャに簡単にプラグインできる。 私たちは多くの利害団体のためにそれらを明示的に実装する方法を提供します。 このアプローチは、解釈可能な洞察を提供しながら、普遍性を楽しむことを示す。 我々の主要な仮説は、ニューラルネットワークを学習して正準化を行うことは、事前に定義されたヒューリスティックスを使うよりもよい、というものである。 以上の結果から,正準化関数の学習は確かにより良い結果をもたらし,実際に優れた性能が得られることが示された。

Symmetry-based neural networks often constrain the architecture in order to achieve invariance or equivariance to a group of transformations. In this paper, we propose an alternative that avoids this architectural constraint by learning to produce a canonical representation of the data. These canonicalization functions can readily be plugged into non-equivariant backbone architectures. We offer explicit ways to implement them for many groups of interest. We show that this approach enjoys universality while providing interpretable insights. Our main hypothesis is that learning a neural network to perform canonicalization is better than using predefined heuristics. Our results show that learning the canonicalization function indeed leads to better results and that the approach achieves excellent performance in practice.
翻訳日:2022-11-15 16:18:19 公開日:2022-11-11
# windowshap:shapley値に基づく時系列分類説明のための効率的なフレームワーク

WindowSHAP: An Efficient Framework for Explaining Time-series Classifiers based on Shapley Values ( http://arxiv.org/abs/2211.06507v1 )

ライセンス: Link先を確認
Amin Nayebi, Sindhu Tipirneni, Chandan K Reddy, Brandon Foreman, Vignesh Subbian(参考訳) ディープラーニングアルゴリズムの意思決定方法の解答と理解は、研究者とエンドユーザにとって永続的な課題である。 時系列予測モデルの説明は、予測モデルの振る舞いを理解するために、高い利害を持つ臨床応用に有用である。 しかし、そのようなモデルを説明する既存のアプローチは、時相コンポーネントを持たないアーキテクチャやデータにしばしば特有である。 本稿では,Shapley値を用いた時系列分類器のモデルに依存しないフレームワークであるWindowSHAPを紹介する。 我々は,長期時系列データに対するshapley値計算の計算複雑性を軽減し,説明の質を向上させることを目的としている。 WindowSHAPは、シーケンスをタイムウィンドウに分割することに基づいている。 この枠組みでは,固定,スライディング,動的windowshapの3つの異なるアルゴリズムを,摂動とシーケンス解析のメトリクスを用いてベースラインアプローチ,kernelshap,timehapに対して評価する。 本手法を臨床専門領域(外傷性脳損傷-tbi)と幅広い臨床領域(クリティカルケア医療)の時系列データに適用した。 実験の結果,2つの定量的指標に基づいて,臨床時系列分類器の説明に優れ,計算の複雑さを低減できることがわかった。 120の時間ステップ(時間)を持つ時系列データに対して、隣接する10の時間ポイントをマージすることで、KernelSHAPと比較してWindowSHAPのCPU時間を80%削減できることを示す。 また、我々のDynamic WindowSHAPアルゴリズムは、より重要な時間ステップに焦点を当て、より理解しやすい説明を提供する。 その結果、windowshapは時系列データのshapley値の計算を加速するだけでなく、より理解しやすい説明をより高い品質で提供する。

Unpacking and comprehending how deep learning algorithms make decisions has been a persistent challenge for researchers and end-users. Explaining time-series predictive models is useful for clinical applications with high stakes to understand the behavior of prediction models. However, existing approaches to explain such models are frequently unique to architectures and data where the features do not have a time-varying component. In this paper, we introduce WindowSHAP, a model-agnostic framework for explaining time-series classifiers using Shapley values. We intend for WindowSHAP to mitigate the computational complexity of calculating Shapley values for long time-series data as well as improve the quality of explanations. WindowSHAP is based on partitioning a sequence into time windows. Under this framework, we present three distinct algorithms of Stationary, Sliding and Dynamic WindowSHAP, each evaluated against baseline approaches, KernelSHAP and TimeSHAP, using perturbation and sequence analyses metrics. We applied our framework to clinical time-series data from both a specialized clinical domain (Traumatic Brain Injury - TBI) as well as a broad clinical domain (critical care medicine). The experimental results demonstrate that, based on the two quantitative metrics, our framework is superior at explaining clinical time-series classifiers, while also reducing the complexity of computations. We show that for time-series data with 120 time steps (hours), merging 10 adjacent time points can reduce the CPU time of WindowSHAP by 80% compared to KernelSHAP. We also show that our Dynamic WindowSHAP algorithm focuses more on the most important time steps and provides more understandable explanations. As a result, WindowSHAP not only accelerates the calculation of Shapley values for time-series data, but also delivers more understandable explanations with higher quality.
翻訳日:2022-11-15 16:18:07 公開日:2022-11-11
# 教師付きコントラスト学習によるクロスプラットフォーム・クロスドメイン乱用言語検出

Cross-Platform and Cross-Domain Abusive Language Detection with Supervised Contrastive Learning ( http://arxiv.org/abs/2211.06452v1 )

ライセンス: Link先を確認
Md Tawkat Islam Khondaker, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan(参考訳) さまざまなオンラインプラットフォームにおける乱用言語の普及は、クロスプラットフォーム乱用言語の自動検出の必要性を高める大きな懸念となっている。 しかし、先行研究は複数のプラットフォームからのデータを結合することに重点を置いており、本質的には経験的リスク最小化(ERM)方式を採用している。 本稿では,ドメイン一般化の目的の観点から,この問題に対処する。 scl-fishは教師付きコントラスト学習統合メタラーニングアルゴリズムで,未認識のプラットフォーム上で乱用言語を検出する。 実験により,SCL-FishはEMMや既存の最先端モデルよりも優れた性能を発揮することが示された。 また,scl-fishはデータ効率が高く,乱用言語検出タスクを微調整することで,大規模事前学習モデルと同等の性能が得られることを示した。

The prevalence of abusive language on different online platforms has been a major concern that raises the need for automated cross-platform abusive language detection. However, prior works focus on concatenating data from multiple platforms, inherently adopting Empirical Risk Minimization (ERM) method. In this work, we address this challenge from the perspective of domain generalization objective. We design SCL-Fish, a supervised contrastive learning integrated meta-learning algorithm to detect abusive language on unseen platforms. Our experimental analysis shows that SCL-Fish achieves better performance over ERM and the existing state-of-the-art models. We also show that SCL-Fish is data-efficient and achieves comparable performance with the large-scale pre-trained models upon finetuning for the abusive language detection task.
翻訳日:2022-11-15 16:08:38 公開日:2022-11-11
# 失敗の裏側--認知症後分類における音声認識誤差の影響の検討

The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification ( http://arxiv.org/abs/2211.07430v1 )

ライセンス: Link先を確認
Changye Li, Trevor Cohen, and Serguei Pakhomov(参考訳) 自発的発話で検出可能な言語異常は、認知症などの認知障害のスクリーニングを含む様々な臨床応用に有望である。 大規模臨床環境で音声から得られた言語サンプルを分類できる自動ツールの展開の可能性は、その後の分析のために音声をキャプチャして自動転写する能力に依存する。 しかし,臨床データを用いた自己教師あり学習(SSL)自動音声認識(ASR)モデルの性能は,臨床環境からの難解な音声サンプルでは明らかではない。 臨床応用にASRモデルを適用する上で重要な課題の1つは、それらが生成する不完全な転写産物が下流のタスクに十分な情報を提供し、許容される精度で操作できるかどうかである。 本研究では,複数の深層学習ASRシステムによる誤りと認知症分類の下流課題への影響について検討した。 我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムでは、動詞の文字起こしに基づく分類よりも、下流の分類精度が向上する。

Linguistic anomalies detectable in spontaneous speech have shown promise for various clinical applications including screening for dementia and other forms of cognitive impairment. The feasibility of deploying automated tools that can classify language samples obtained from speech in large-scale clinical settings depends on the ability to capture and automatically transcribe the speech for subsequent analysis. However, the impressive performance of self-supervised learning (SSL) automatic speech recognition (ASR) models with curated speech data is not apparent with challenging speech samples from clinical settings. One of the key questions for successfully applying ASR models for clinical applications is whether imperfect transcripts they generate provide sufficient information for downstream tasks to operate at an acceptable level of accuracy. In this study, we examine the relationship between the errors produced by several deep learning ASR systems and their impact on the downstream task of dementia classification. One of our key findings is that, paradoxically, ASR systems with relatively high error rates can produce transcripts that result in better downstream classification accuracy than classification based on verbatim transcripts.
翻訳日:2022-11-15 15:51:50 公開日:2022-11-11
# Delay Embedded Echo-State Network: 部分観測システムの予測器

Delay Embedded Echo-State Network: A Predictor for Partially Observed Systems ( http://arxiv.org/abs/2211.05992v1 )

ライセンス: Link先を確認
Debdipta Goswami(参考訳) 本稿では,リカレントニューラルネットワークを用いた部分観測システムのデータ駆動予測の問題について考察する。 ニューラルネットワークベースの動的予測器はフルステートトレーニングデータでうまく機能するが、トレーニングフェーズにおける部分的観測による予測は大きな課題となる。 ここでは、エコー状態ネットワーク(ESN)と部分観測状態の時間遅延埋め込みを用いて部分観測の予測器を開発する。 提案手法は,Takenの埋め込み定理と非線形系の強い可観測性によって理論的に正当化される。 提案手法の有効性は,カオス力学系からの2つの合成データセットと,リアルタイムトラヒックデータからなる3つのシステムで実証された。

This paper considers the problem of data-driven prediction of partially observed systems using a recurrent neural network. While neural network based dynamic predictors perform well with full-state training data, prediction with partial observation during training phase poses a significant challenge. Here a predictor for partial observations is developed using an echo-state network (ESN) and time delay embedding of the partially observed state. The proposed method is theoretically justified with Taken's embedding theorem and strong observability of a nonlinear system. The efficacy of the proposed method is demonstrated on three systems: two synthetic datasets from chaotic dynamical systems and a set of real-time traffic data.
翻訳日:2022-11-14 17:21:04 公開日:2022-11-11
# 半教師付き学習による連続的感情インテンシティ制御音声合成

Continuous Emotional Intensity Controllable Speech Synthesis using Semi-supervised Learning ( http://arxiv.org/abs/2211.06160v1 )

ライセンス: Link先を確認
Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee(参考訳) 音声合成システムの急速な発展に伴い、近年の音声合成モデルは、人間が言うような自然な音声を生成するレベルに達している。 しかし、表現力の面ではまだ限界がある。 特に、既存の感情音声合成モデルは、感情的潜在空間におけるスケーリングパラメータを伴う補間特徴を用いた制御可能性を示している。 しかし,既存のモデルから生じる情緒的潜伏空間は,感情や話者などの特徴が絡み合っているため,連続的な情緒的強度を制御することは困難である。 本稿では,半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。 モデルは音声情報の音素レベルシーケンスから生成された擬似ラベルを用いて中間強度の感情を学習する。 提案モデルから構築した埋め込み空間は、一様格子形状を感情的に満足する。 さらに、中間感情音声の自然性を改善するために、時間、ピッチ、エネルギーなどの低レベル要素の生成に判別器を適用した。 実験の結果,提案手法は制御性と自然性に優れていた。 合成音声サンプルはhttps://tinyurl.com/34zaeh2で入手できる。

With the rapid development of the speech synthesis system, recent text-to-speech models have reached the level of generating natural speech similar to what humans say. But there still have limitations in terms of expressiveness. In particular, the existing emotional speech synthesis models have shown controllability using interpolated features with scaling parameters in emotional latent space. However, the emotional latent space generated from the existing models is difficult to control the continuous emotional intensity because of the entanglement of features like emotions, speakers, etc. In this paper, we propose a novel method to control the continuous intensity of emotions using semi-supervised learning. The model learns emotions of intermediate intensity using pseudo-labels generated from phoneme-level sequences of speech information. An embedding space built from the proposed model satisfies the uniform grid geometry with an emotional basis. In addition, to improve the naturalness of intermediate emotional speech, a discriminator is applied to the generation of low-level elements like duration, pitch and energy. The experimental results showed that the proposed method was superior in controllability and naturalness. The synthesized speech samples are available at https://tinyurl.com/34zaehh2
翻訳日:2022-11-14 17:20:52 公開日:2022-11-11
# 閾値の最適微分プライベート学習と準凸最適化

\~Optimal Differentially Private Learning of Thresholds and Quasi-Concave Optimization ( http://arxiv.org/abs/2211.06387v1 )

ライセンス: Link先を確認
Edith Cohen, Xin Lyu, Jelani Nelson, Tam\'as Sarl\'os, Uri Stemmer(参考訳) しきい値関数の学習問題は、機械学習の基本的な問題である。 古典的学習理論は、$O(\xi^{-1} \log(1/\beta))$(信頼度1-\beta$)のサンプル複雑性を意味する。 しかし、この問題のプライベートバージョンはより困難であり、特に、サンプルの複雑さは、ドメインのサイズ$|X|$に依存する必要がある。 この依存の定量化の進歩は、下限と上限を通じて、過去10年間に一連の研究でなされた。 本稿では、最終的に近似DPのギャップを閉じ、Alon et al による下限(不適切な学習にも適用)と一致する$\tilde{O}(\log^* |X|)^{1.5} のほぼ緊密な上限をKaplan et al の$\tilde{O}((\log^* |X|)^{1.5} の以前の上限よりも改善する$\tilde{O}(\log^* |X|)$を提供する。 また、プライベート準凹最適化(関連するより一般的な問題)の加法誤差に対して、$\tilde{\Theta}(2^{\log^*|X|})$の上限と下限のマッチングも提供する。 我々の改善は、プライベートデータ分析のための新しいReorder-Slice-Computeパラダイムによって達成されます。

The problem of learning threshold functions is a fundamental one in machine learning. Classical learning theory implies sample complexity of $O(\xi^{-1} \log(1/\beta))$ (for generalization error $\xi$ with confidence $1-\beta$). The private version of the problem, however, is more challenging and in particular, the sample complexity must depend on the size $|X|$ of the domain. Progress on quantifying this dependence, via lower and upper bounds, was made in a line of works over the past decade. In this paper, we finally close the gap for approximate-DP and provide a nearly tight upper bound of $\tilde{O}(\log^* |X|)$, which matches a lower bound by Alon et al (that applies even with improper learning) and improves over a prior upper bound of $\tilde{O}((\log^* |X|)^{1.5})$ by Kaplan et al. We also provide matching upper and lower bounds of $\tilde{\Theta}(2^{\log^*|X|})$ for the additive error of private quasi-concave optimization (a related and more general problem). Our improvement is achieved via the novel Reorder-Slice-Compute paradigm for private data analysis which we believe will have further applications.
翻訳日:2022-11-14 17:20:26 公開日:2022-11-11
# 実践における説明可能性:セネガルの携帯電話データから電化率を推定する

Explainability in Practice: Estimating Electrification Rates from Mobile Phone Data in Senegal ( http://arxiv.org/abs/2211.06277v1 )

ライセンス: Link先を確認
Laura State, Hadrien Salat, Stefania Rubrichi and Zbigniew Smoreda(参考訳) 説明可能な人工知能(XAI)は、解釈可能な機械学習(ML)モデルについての説明を提供する。 多くの技術的アプローチが存在するが、現実世界のデータセットにおけるこれらのテクニックの検証の欠如がある。 本研究では,セネガルの携帯電話データに基づく電化率の推定を訓練したMLモデルであるXAIのユースケースを提案する。 データは2014/15年のorangeによるdata for development challengeに由来する。 2つのモデル非依存な局所的な説明手法を適用し、モデルが検証できるが、人口密度に関して偏りがあることを見出す。 我々は、現在利用可能なXAIメソッドによって制限される可能性のあるデータ処理とモデル設計の2つの主な課題と、説明を解釈するためのドメイン知識の重要性を指摘して、論文を締めくくります。

Explainable artificial intelligence (XAI) provides explanations for not interpretable machine learning (ML) models. While many technical approaches exist, there is a lack of validation of these techniques on real-world datasets. In this work, we present a use-case of XAI: an ML model which is trained to estimate electrification rates based on mobile phone data in Senegal. The data originate from the Data for Development challenge by Orange in 2014/15. We apply two model-agnostic, local explanation techniques and find that while the model can be verified, it is biased with respect to the population density. We conclude our paper by pointing to the two main challenges we encountered during our work: data processing and model design that might be restricted by currently available XAI methods, and the importance of domain knowledge to interpret explanations.
翻訳日:2022-11-14 17:17:52 公開日:2022-11-11
# 高次元タブラルバイオメディカルデータのためのグラフ合成MLP

Graph-Conditioned MLP for High-Dimensional Tabular Biomedical Data ( http://arxiv.org/abs/2211.06302v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Nikola Simidjievski, Pietro Lio', Mateja Jamnik(参考訳) 近年の高スループットシークエンシング技術を活用したゲノムワイド研究は高次元データを収集する。 しかし、それらは通常患者の小さなコホートを含み、結果として得られる表のデータセットは「次元の曲線」に悩まされる。 このようなデータセット上でニューラルネットワークをトレーニングすることは、通常不安定であり、モデルは過度に適合する。 一つの問題は、現代の重み初期化戦略が、小さなデータセットには適さない単純な仮定を単純化することである。 MLPのパラメータに先行する新しい手法であるGraph-Conditioned MLPを提案する。 最初のレイヤをランダムに初期化する代わりに、トレーニングデータに直接設定します。 具体的には、データセット内の各機能(例えば、遺伝子)のグラフを作成し、各ノードが同じデータセット(例えば、患者)からのサンプルを表します。 次に、グラフニューラルネットワーク(GNN)を使用して、これらのグラフから埋め込みを学び、埋め込みを使用してMLPのパラメータを初期化する。 提案手法は, グラフ構築時に生物学的知識を付加する可能性を開く。 遺伝子発現データから7つの分類タスクの早期結果を示し,GC-MLPがMLPより優れていることを示す。

Genome-wide studies leveraging recent high-throughput sequencing technologies collect high-dimensional data. However, they usually include small cohorts of patients, and the resulting tabular datasets suffer from the "curse of dimensionality". Training neural networks on such datasets is typically unstable, and the models overfit. One problem is that modern weight initialisation strategies make simplistic assumptions unsuitable for small-size datasets. We propose Graph-Conditioned MLP, a novel method to introduce priors on the parameters of an MLP. Instead of randomly initialising the first layer, we condition it directly on the training data. More specifically, we create a graph for each feature in the dataset (e.g., a gene), where each node represents a sample from the same dataset (e.g., a patient). We then use Graph Neural Networks (GNNs) to learn embeddings from these graphs and use the embeddings to initialise the MLP's parameters. Our approach opens the prospect of introducing additional biological knowledge when constructing the graphs. We present early results on 7 classification tasks from gene expression data and show that GC-MLP outperforms an MLP.
翻訳日:2022-11-14 17:17:40 公開日:2022-11-11
# エンハンシングとアドバイザリ:話者ラベルによるASRの改善

Enhancing and Adversarial: Improve ASR with Speaker Labels ( http://arxiv.org/abs/2211.06369v1 )

ライセンス: Link先を確認
Wei Zhou, Haotian Wu, Jingjing Xu, Mohammad Zeineldeen, Christoph L\"uscher, Ralf Schl\"uter, Hermann Ney(参考訳) ASRは、ドメインの認識/認識ASRに対するドメインの分散を増大/減少させることを目的として、ドメインの強化とドメインの敵対的トレーニングを併用したマルチタスク学習(MTL)によって改善することができる。 本研究では,これら2つの対向する目的を話者ラベルで最善に適用し,コンフォーメータベースのasrを改善する方法について検討する。 また,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。 ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。 また,i-vectorsと同等の性能と対人訓練を達成し,さらなる改善に向けた組み合わせについても検討する。 最高のスピーカーベースのMTLは、Switchboard Hub5'00セットで7倍の相対的な改善を実現しています。 また、このような話者ベースMTLw.r.t.クリーナーデータセットと弱いASR NNの効果についても検討する。

ASR can be improved by multi-task learning (MTL) with domain enhancing or domain adversarial training, which are two opposite objectives with the aim to increase/decrease domain variance towards domain-aware/agnostic ASR, respectively. In this work, we study how to best apply these two opposite objectives with speaker labels to improve conformer-based ASR. We also propose a novel adaptive gradient reversal layer for stable and effective adversarial training without tuning effort. Detailed analysis and experimental verification are conducted to show the optimal positions in the ASR neural network (NN) to apply speaker enhancing and adversarial training. We also explore their combination for further improvement, achieving the same performance as i-vectors plus adversarial training. Our best speaker-based MTL achieves 7\% relative improvement on the Switchboard Hub5'00 set. We also investigate the effect of such speaker-based MTL w.r.t. cleaner dataset and weaker ASR NN.
翻訳日:2022-11-14 17:17:01 公開日:2022-11-11
# タグエンハンスドレコメンデーションのためのインテントアウェアマルチソースコントラストアライメント

Intent-aware Multi-source Contrastive Alignment for Tag-enhanced Recommendation ( http://arxiv.org/abs/2211.06370v1 )

ライセンス: Link先を確認
Haolun Wu, Yingxue Zhang, Chen Ma, Wei Guo, Ruiming Tang, Xue Liu, Mark Coates(参考訳) 高精度で多様なレコメンデーションサービスを提供するために,近年の手法では補助情報を用いてユーザおよびアイテム表現の学習プロセスを促進している。 多くのSOTAメソッドは、異なる情報ソース(ユーザ、アイテム、知識グラフ、タグなど)をグラフに融合させ、グラフニューラルネットワークを使用してメッセージパッシングパラダイムを通じて補助情報を導入する。 本研究では,様々な情報ソース,特に一般にアクセス可能なアイテムタグ情報に対して,自己教師あり学習を通じて,軽量かつ効果的な代替フレームワークを求める。 自己スーパービジョン信号を使用して、ユーザと以前やりとりしたアイテムに関連する補助情報とをペアリングする。 ペアリングを実現するために、プロキシトレーニングタスクを作成します。 与えられたアイテムに対して、モデルは、このアイテムと対話したユーザから得られた表現と割り当てられたタグとの正しいペアリングを予測する。 この設計は、ユーザとアイテムの埋め込みの品質を高めるために、補助情報を直接利用する効率的なソリューションを提供する。 レコメンデーションシステムにおけるユーザ行動は、意思決定プロセスの背後にある多くの要因の複雑な相互作用によって引き起こされる。 組付けプロセスをより細かくし、組込みの崩壊を回避するために、ユーザが組込みを複数のサブ組込みベクトルに分割するインテント対応の自己教師付きペアリングプロセスを提案する。 各サブエンベディングベクターは、特定のタグのクラスタとの自己教師付きアライメントを通じて、特定のユーザインテントをキャプチャする。 設計したフレームワークをさまざまなレコメンデーションモデルに統合し、柔軟性と互換性を実証します。 実世界の7つのデータセットにおける多数のSOTA手法との比較により,本手法は訓練時間が少なくて優れた性能が得られることを示す。 これは、我々のアプローチをWebスケールのデータセットに適用する可能性を示している。

To offer accurate and diverse recommendation services, recent methods use auxiliary information to foster the learning process of user and item representations. Many SOTA methods fuse different sources of information (user, item, knowledge graph, tags, etc.) into a graph and use Graph Neural Networks to introduce the auxiliary information through the message passing paradigm. In this work, we seek an alternative framework that is light and effective through self-supervised learning across different sources of information, particularly for the commonly accessible item tag information. We use a self-supervision signal to pair users with the auxiliary information associated with the items they have interacted with before. To achieve the pairing, we create a proxy training task. For a given item, the model predicts the correct pairing between the representations obtained from the users that have interacted with this item and the assigned tags. This design provides an efficient solution, using the auxiliary information directly to enhance the quality of user and item embeddings. User behavior in recommendation systems is driven by the complex interactions of many factors behind the decision-making processes. To make the pairing process more fine-grained and avoid embedding collapse, we propose an intent-aware self-supervised pairing process where we split the user embeddings into multiple sub-embedding vectors. Each sub-embedding vector captures a specific user intent via self-supervised alignment with a particular cluster of tags. We integrate our designed framework with various recommendation models, demonstrating its flexibility and compatibility. Through comparison with numerous SOTA methods on seven real-world datasets, we show that our method can achieve better performance while requiring less training time. This indicates the potential of applying our approach on web-scale datasets.
翻訳日:2022-11-14 17:16:44 公開日:2022-11-11
# DistGNN-MB:ミニバッチサンプリングによるx86上の分散大規模グラフニューラルネットワークトレーニング

DistGNN-MB: Distributed Large-Scale Graph Neural Network Training on x86 via Minibatch Sampling ( http://arxiv.org/abs/2211.06385v1 )

ライセンス: Link先を確認
Md Vasimuddin, Ramanarayan Mohanty, Sanchit Misra, Sasikanth Avancha(参考訳) 数十億の頂点とエッジを含むグラフ上のグラフニューラルネットワークのトレーニングでは、ミニバッチサンプリングを使用した大規模なトレーニングが重要な課題となっている。 DistGNN-MBはこの課題に対処するために、新しい履歴埋め込みキャッシュと計算通信オーバーラップを組み合わせた。 32ノード(64ソケット)の3^{rd}$世代のintel xeonスケーラブルプロセッサでは、distgnn-mbは3層グラフsageとgatモデルをogbn-papers100mでトレーニングし、それぞれ32の計算ノード上でエポックタイム2秒と4.9秒で収束する。 この規模では、DistGNN-MBは広く使われているDistDGLの5.2倍の速度でGraphSAGEを運行している。 DistGNN-MB は GraphSAGE と GAT 10x と 17.2x をそれぞれ高速化し、計算ノードは 2 から 32 にスケールする。

Training Graph Neural Networks, on graphs containing billions of vertices and edges, at scale using minibatch sampling poses a key challenge: strong-scaling graphs and training examples results in lower compute and higher communication volume and potential performance loss. DistGNN-MB employs a novel Historical Embedding Cache combined with compute-communication overlap to address this challenge. On a 32-node (64-socket) cluster of $3^{rd}$ generation Intel Xeon Scalable Processors with 36 cores per socket, DistGNN-MB trains 3-layer GraphSAGE and GAT models on OGBN-Papers100M to convergence with epoch times of 2 seconds and 4.9 seconds, respectively, on 32 compute nodes. At this scale, DistGNN-MB trains GraphSAGE 5.2x faster than the widely-used DistDGL. DistGNN-MB trains GraphSAGE and GAT 10x and 17.2x faster, respectively, as compute nodes scale from 2 to 32.
翻訳日:2022-11-14 17:16:17 公開日:2022-11-11
# FRIBフロントエンドチューニングにおける事前平均ベイズ最適化

Prior-mean-assisted Bayesian optimization application on FRIB Front-End tunning ( http://arxiv.org/abs/2211.06400v1 )

ライセンス: Link先を確認
Kilean Hwang, Tomofumi Maruta, Alexander Plastun, Kei Fukushima, Tong Zhang, Qiang Zhao, Peter Ostroumov, Yue Hao(参考訳) ベイズ最適化~(BO)は高いサンプル効率のために加速器チューニングによく用いられる。 しかし,大規模データセットに対するトレーニングの計算スケーラビリティには問題があり,計算効率のよい手法による履歴データの導入は容易ではない。 ここでは、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。

Bayesian optimization~(BO) is often used for accelerator tuning due to its high sample efficiency. However, the computational scalability of training over large data-set can be problematic and the adoption of historical data in a computationally efficient way is not trivial. Here, we exploit a neural network model trained over historical data as a prior mean of BO for FRIB Front-End tuning.
翻訳日:2022-11-14 17:15:54 公開日:2022-11-11
# 変圧器を用いた銀河団内強レンズアークの検出

Detection of Strongly Lensed Arcs in Galaxy Clusters with Transformers ( http://arxiv.org/abs/2211.05972v1 )

ライセンス: Link先を確認
Peng Jia, Ruiqi Sun, Nan Li, Yu Song, Runyu Ning, Hongyan Wei, Rui Luo(参考訳) 銀河団の強いレンズは、質量中の暗黒物質ハロゲンの密集した核の性質を調べ、フラックスレベルと空間分解能で遠い宇宙を研究し、宇宙論的モデルを独立に制約する。 次世代のスカイイメージングサーベイでは、何千ものクラスター型強レンズが発見されると予想されており、星物理学や宇宙論の問題を解決するためにクラスター型強レンズを応用する前例のない機会が生まれる可能性がある。 しかし、大きなデータセットは、その複雑さと多様性のために、天文学者が強いレンズ信号、特に強いレンズ付きアークを識別し、抽出することを試みている。 そこで本研究では,トランスフォーマーに基づく検出アルゴリズムと画像シミュレーションアルゴリズムを含む,クラスタスケールの強レンズアークを検出するフレームワークを提案する。 シミュレーションにより,クラスタスケールの強レンズアークの事前情報をトレーニングデータに埋め込んで,シミュレーション画像を用いて検出アルゴリズムを訓練する。 訓練されたトランスフォーマは、シミュレーションおよび実データから強いレンズ付きアークを検出する。 その結果, 実観測画像から強いレンズ状アークを検出すると, 99.63 %の精度, 90.32 %のリコール率, 85.37 %の精度, 0.23 %の偽陽性率が得られることがわかった。 また, 解釈法により, シミュレーションデータに埋め込まれた重要な情報を同定できることを示した。 次のステップでは、我々のアプローチの信頼性とユーザビリティをテストするために、利用可能な観測(例えば、DESIレガシーイメージングサーベイ)に適用し、ユークリッドやCSSTのような今後の大規模スカイサーベイのシミュレーションデータを作成します。

Strong lensing in galaxy clusters probes properties of dense cores of dark matter halos in mass, studies the distant universe at flux levels and spatial resolutions otherwise unavailable, and constrains cosmological models independently. The next-generation large scale sky imaging surveys are expected to discover thousands of cluster-scale strong lenses, which would lead to unprecedented opportunities for applying cluster-scale strong lenses to solve astrophysical and cosmological problems. However, the large dataset challenges astronomers to identify and extract strong lensing signals, particularly strongly lensed arcs, because of their complexity and variety. Hence, we propose a framework to detect cluster-scale strongly lensed arcs, which contains a transformer-based detection algorithm and an image simulation algorithm. We embed prior information of strongly lensed arcs at cluster-scale into the training data through simulation and then train the detection algorithm with simulated images. We use the trained transformer to detect strongly lensed arcs from simulated and real data. Results show that our approach could achieve 99.63 % accuracy rate, 90.32 % recall rate, 85.37 % precision rate and 0.23 % false positive rate in detection of strongly lensed arcs from simulated images and could detect almost all strongly lensed arcs in real observation images. Besides, with an interpretation method, we have shown that our method could identify important information embedded in simulated data. Next step, to test the reliability and usability of our approach, we will apply it to available observations (e.g., DESI Legacy Imaging Surveys) and simulated data of upcoming large-scale sky surveys, such as the Euclid and the CSST.
翻訳日:2022-11-14 17:15:49 公開日:2022-11-11
# ターゲット源分離のための最適条件訓練

Optimal Condition Training for Target Source Separation ( http://arxiv.org/abs/2211.05927v1 )

ライセンス: Link先を確認
Efthymios Tzinis, Gordon Wichern, Paris Smaragdis and Jonathan Le Roux(参考訳) 近年の研究では、複数の条件付きおよび非相互排他的セマンティックな概念を音源分離に活用することにより、複数の異なるクエリに基づいて所定のターゲットソースを抽出する柔軟性が向上している。 そこで本研究では,与えられた目標源に関する等価条件のうち,最も高い実行条件を用いたグリーディパラメータ更新に基づく,単一チャネルの目標源分離のための最適条件訓練(oct)手法を提案する。 実験の結果,多種多様な意味概念が持つ相補的情報は,単一条件モデルに比べてはるかに効率的に関心の源を絡めて分離するのに役立つことがわかった。 さらに, 初期条件ベクトルを与えられた混合に適合させ, 対象ソース抽出のためのより可換な表現に変換した, 条件の精細化を伴う oct の変種を提案する。 我々は,OCTの多様な音源分離実験における有効性を示し,オラクル代入による置換不変モデルの改善とテキストベース音源分離の課題における最先端性能の獲得について述べる。

Recent research has shown remarkable performance in leveraging multiple extraneous conditional and non-mutually exclusive semantic concepts for sound source separation, allowing the flexibility to extract a given target source based on multiple different queries. In this work, we propose a new optimal condition training (OCT) method for single-channel target source separation, based on greedy parameter updates using the highest performing condition among equivalent conditions associated with a given target source. Our experiments show that the complementary information carried by the diverse semantic concepts significantly helps to disentangle and isolate sources of interest much more efficiently compared to single-conditioned models. Moreover, we propose a variation of OCT with condition refinement, in which an initial conditional vector is adapted to the given mixture and transformed to a more amenable representation for target source extraction. We showcase the effectiveness of OCT on diverse source separation experiments where it improves upon permutation invariant models with oracle assignment and obtains state-of-the-art performance in the more challenging task of text-based source separation, outperforming even dedicated text-only conditioned models.
翻訳日:2022-11-14 17:15:18 公開日:2022-11-11
# マルチエージェント強化学習による2次ダイナミクスをもつ車両のドメイン被覆

Efficient Domain Coverage for Vehicles with Second Order Dynamics via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.05952v1 )

ライセンス: Link先を確認
Xinyu Zhao, Razvan C. Fetecau, Mo Chen(参考訳) 特定の地域をカバーする協調的な自律型マルチエージェントシステムには、UAV探索と救助、森林火災戦、リアルタイム高解像度監視など、多くの潜在的な応用がある。 このようなカバレッジ問題に対する従来のアプローチには、センサデータに基づいたモデルベースの制御ポリシの設計が含まれる。 しかし、モデルベースのコントローラの設計は困難であり、最先端の古典的制御ポリシーは依然としてかなりの準最適性を示している。 本稿では,2次ダイナミクスを持つエージェントを含むマルチエージェントカバレッジ問題に対する強化学習(rl)手法を提案する。 提案手法は,MAPPO(Multi-Agent Proximal Policy Optimization Algorithm)に基づく。 学習に基づく政策の安定性と探索の効率を向上させるために,最先端の古典的制御政策に基づく模倣損失を利用する。 我々の訓練された政策は最先端を著しく上回っている。 提案するネットワークアーキテクチャは自己注意の組み入れを含み,訓練されたポリシを多種多様なドメイン形状とエージェント数に単一ショットのドメイン転送を可能にする。 提案手法を様々なシミュレーション実験で実証する。

Collaborative autonomous multi-agent systems covering a specified area have many potential applications, such as UAV search and rescue, forest fire fighting, and real-time high-resolution monitoring. Traditional approaches for such coverage problems involve designing a model-based control policy based on sensor data. However, designing model-based controllers is challenging, and the state-of-the-art classical control policy still exhibits a large degree of suboptimality. In this paper, we present a reinforcement learning (RL) approach for the multi-agent coverage problem involving agents with second-order dynamics. Our approach is based on the Multi-Agent Proximal Policy Optimization Algorithm (MAPPO). To improve the stability of the learning-based policy and efficiency of exploration, we utilize an imitation loss based on the state-of-the-art classical control policy. Our trained policy significantly outperforms the state-of-the-art. Our proposed network architecture includes incorporation of self attention, which allows a single-shot domain transfer of the trained policy to a large variety of domain shapes and number of agents. We demonstrate our proposed method in a variety of simulated experiments.
翻訳日:2022-11-14 17:14:59 公開日:2022-11-11
# センサ可視性推定:システム性能評価と改善のためのメトリクスと方法

Sensor Visibility Estimation: Metrics and Methods for Systematic Performance Evaluation and Improvement ( http://arxiv.org/abs/2211.06308v1 )

ライセンス: Link先を確認
Joachim B\"orger, Marc Patrick Zapf, Marat Kopytjuk, Xinrun Li 2, and Claudius Gl\"aser(参考訳) センサーの可視性は、自動車、ロボティクス、スマートインフラストラクチャなどにおいて、安全に重要なアプリケーションにとって不可欠である。 この知識は機能安全性と知覚アルゴリズムを強化したり、センサトポロジを最適化することができる。 その重要性にもかかわらず、私たちの知る限りでは、可視性やパフォーマンスメトリクスに関する共通の定義は存在しません。 このギャップを閉じて、ユースケースレビューから派生した可視性の定義を提供します。 可視性推定器の性能を評価するためのメトリクスとフレームワークを紹介する。 当社のメトリクスは,インフラストラクチャレーダやカメラによる実世界のラベル付きシミュレーションデータで検証されています。 センサや物体の3次元標高をモデル化することで,レーダーやカメラの視認性の向上を図る。 この改良により、従来の平面2次元アプローチよりも信頼性と安全性が向上する。

Sensor visibility is crucial for safety-critical applications in automotive, robotics, smart infrastructure and others: In addition to object detection and occupancy mapping, visibility describes where a sensor can potentially measure or is blind. This knowledge can enhance functional safety and perception algorithms or optimize sensor topologies. Despite its significance, to the best of our knowledge, neither a common definition of visibility nor performance metrics exist yet. We close this gap and provide a definition of visibility, derived from a use case review. We introduce metrics and a framework to assess the performance of visibility estimators. Our metrics are verified with labeled real-world and simulation data from infrastructure radars and cameras: The framework easily identifies false visible or false invisible estimations which are safety-critical. Applying our metrics, we enhance the radar and camera visibility estimators by modeling the 3D elevation of sensor and objects. This refinement outperforms the conventional planar 2D approach in trustfulness and thus safety.
翻訳日:2022-11-14 17:08:41 公開日:2022-11-11
# 定常遺伝子データから確率的ブールネットワークを推定する

Inferring probabilistic Boolean networks from steady-state gene data samples ( http://arxiv.org/abs/2211.05935v1 )

ライセンス: Link先を確認
Vytenis \v{S}liogeris, Leandros Maglaras, Sotiris Moschoyiannis(参考訳) 確率的ブールネットワークは、規則に基づくモデリングと不確実性原理を組み合わせた動的システムの振る舞いを推定するために提案されている。 しかし、遺伝子データから直接pbnを推測することは、特に遺伝子発現プロファイルデータのように、データが収集および/または騒がしい場合、困難である。 本稿では,PBNが定常状態にある場合の実際の遺伝子発現データから直接的にPBNを推定する再現可能な手法を提案する。 PBNの定常力学は、生物学的機械の分析に特に関心がある。 提案手法は,大規模ネットワークでは計算に難渋するネットワークの状態変化を再構築するものではない。 転移性黒色腫における遺伝子プロファイリングデータのサンプルについて,本手法を実証した。 パイプラインはPythonを使って実装されており、公開しています。

Probabilistic Boolean Networks have been proposed for estimating the behaviour of dynamical systems as they combine rule-based modelling with uncertainty principles. Inferring PBNs directly from gene data is challenging however, especially when data is costly to collect and/or noisy, e.g., in the case of gene expression profile data. In this paper, we present a reproducible method for inferring PBNs directly from real gene expression data measurements taken when the system was at a steady state. The steady-state dynamics of PBNs is of special interest in the analysis of biological machinery. The proposed approach does not rely on reconstructing the state evolution of the network, which is computationally intractable for larger networks. We demonstrate the method on samples of real gene expression profiling data from a well-known study on metastatic melanoma. The pipeline is implemented using Python and we make it publicly available.
翻訳日:2022-11-14 17:08:04 公開日:2022-11-11
# 任意サイズの多変数集団の非パラメトリッククラスタリング

Non-parametric Clustering of Multivariate Populations with Arbitrary Sizes ( http://arxiv.org/abs/2211.06338v1 )

ライセンス: Link先を確認
Yves Isma\"el Ngounou Bakam and Denys Pommeret(参考訳) 同一依存構造を持つサブグループにk集団群を分類するクラスタリング手法を提案する。 この方法は、ペア人口に適応し、パネルデータと併用することができる。 これはK集団から推定されるK密度コプラの直交射影係数の差に依存する。 各クラスタは、非常に類似した依存構造を持つ集団によって構成される。 Ngounou-Bakam and Pommeret (2022) による最近のテスト統計は、そのようなクラスターを自動的に構築するために用いられる。 手順はデータ駆動であり、テストの漸近レベルに依存する。 我々は,金融データセットのパネルと損失の保険データセットと損失調整費用の割り当てという2つの実際のデータセットを用いて,クラスタリングアルゴリズムを説明する。

We propose a clustering procedure to group K populations into subgroups with the same dependence structure. The method is adapted to paired population and can be used with panel data. It relies on the differences between orthogonal projection coefficients of the K density copulas estimated from the K populations. Each cluster is then constituted by populations having significantly similar dependence structures. A recent test statistic from Ngounou-Bakam and Pommeret (2022) is used to construct automatically such clusters. The procedure is data driven and depends on the asymptotic level of the test. We illustrate our clustering algorithm via numerical studies and through two real datasets: a panel of financial datasets and insurance dataset of losses and allocated loss adjustment expense.
翻訳日:2022-11-14 17:07:51 公開日:2022-11-11
# DeepG2P: マルチモーダルデータを融合して作物生産を改善する

DeepG2P: Fusing Multi-Modal Data to Improve Crop Production ( http://arxiv.org/abs/2211.05986v1 )

ライセンス: Link先を確認
Swati Sharma, Aditi Partap, Maria Angels de Luis Balaguer, Sara Malvar, Ranveer Chandra(参考訳) 農業は、世界の人口を養うための持続可能性を達成するためのソリューションの中心であるが、農業生産が気候変動にどう反応するかについての理解を深める必要がある。 リモートセンシング,地理情報システム(GIS),機械学習といった技術を用いた現場意思決定を支援する経営戦略である精密農業(PA)は,生産力の向上,収量の向上,水・栄養損失の低減,環境への影響の低減という,有望なアプローチとして現れてきた。 この文脈では、作物収量、ゲノミクス(g)、環境(e)、天候と土壌、フィールドマネジメントプラクティス(m)などの農業表現型を予測する複数のモデルが開発されている。 これらのモデルは伝統的に力学的あるいは統計的アプローチに基づいている。 しかし、AIアプローチは本質的に複雑な相互作用をモデル化するのに適しており、近年では古典的手法よりも優れている。 本稿では,G,E,Mの入力とその相互作用を処理する自然言語処理(NLP)ベースのニューラルネットワークアーキテクチャを提案する。 我々は、dnaを自然言語としてモデル化することで、新しい環境でのテストや、未発見の種品種に対する他のアプローチと同様に、我々のアプローチが以前のアプローチよりも優れた性能を示す。

Agriculture is at the heart of the solution to achieve sustainability in feeding the world population, but advancing our understanding on how agricultural output responds to climatic variability is still needed. Precision Agriculture (PA), which is a management strategy that uses technology such as remote sensing, Geographical Information System (GIS), and machine learning for decision making in the field, has emerged as a promising approach to enhance crop production, increase yield, and reduce water and nutrient losses and environmental impacts. In this context, multiple models to predict agricultural phenotypes, such as crop yield, from genomics (G), environment (E), weather and soil, and field management practices (M) have been developed. These models have traditionally been based on mechanistic or statistical approaches. However, AI approaches are intrinsically well-suited to model complex interactions and have more recently been developed, outperforming classical methods. Here, we present a Natural Language Processing (NLP)-based neural network architecture to process the G, E and M inputs and their interactions. We show that by modeling DNA as natural language, our approach performs better than previous approaches when tested for new environments and similarly to other approaches for unseen seed varieties.
翻訳日:2022-11-14 17:07:15 公開日:2022-11-11
# 産業用ネットワークトラヒックモデリングのための生成的アプローチ

A Generative Approach for Production-Aware Industrial Network Traffic Modeling ( http://arxiv.org/abs/2211.06089v1 )

ライセンス: Link先を確認
Alessandro Lieto and Qi Liao and Christian Bauer(参考訳) 産業4.0によって引き起こされる新しいデジタル化の波は、ユビキタスで信頼性の高い接続を要求され、産業活動の実行と自動化が求められている。 5Gネットワークは、異種垂直アプリケーションの極端な要件を満たすことができるが、実際のデータと現実的なトラフィック統計の欠如は、産業環境におけるネットワークの最適化と構成に多くの課題をもたらす。 本稿では,ドイツのtrumpf工場に展開するレーザー切断機から生成されたネットワークトラフィックデータについて検討する。 我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存確率過程としてモデル化する。 まず、生産過程を多状態半マルコフプロセスとしてモデル化し、生成モデルを用いて生産状態に依存したパケット間通信時間とパケットサイズの状態分布を学習する。 本研究では,可変オートエンコーダ(VAE),条件付き可変オートエンコーダ(CVAE),生成逆ネットワーク(GAN)など,様々な生成モデルの性能を比較した。 以上の結果から,生産状況に応じた交通到着統計の近似が得られた。 すべての生成モデルの中で、CVAEは一般に最小のクルバック・リーバーの発散率の点で最高の性能を提供する。

The new wave of digitization induced by Industry 4.0 calls for ubiquitous and reliable connectivity to perform and automate industrial operations. 5G networks can afford the extreme requirements of heterogeneous vertical applications, but the lack of real data and realistic traffic statistics poses many challenges for the optimization and configuration of the network for industrial environments. In this paper, we investigate the network traffic data generated from a laser cutting machine deployed in a Trumpf factory in Germany. We analyze the traffic statistics, capture the dependencies between the internal states of the machine, and model the network traffic as a production state dependent stochastic process. The two-step model is proposed as follows: first, we model the production process as a multi-state semi-Markov process, then we learn the conditional distributions of the production state dependent packet interarrival time and packet size with generative models. We compare the performance of various generative models including variational autoencoder (VAE), conditional variational autoencoder (CVAE), and generative adversarial network (GAN). The numerical results show a good approximation of the traffic arrival statistics depending on the production state. Among all generative models, CVAE provides in general the best performance in terms of the smallest Kullback-Leibler divergence.
翻訳日:2022-11-14 17:06:53 公開日:2022-11-11
# 早期mci検出のためのグラフ構造自己学習による空間時間グラフ畳み込み

Spatial Temporal Graph Convolution with Graph Structure Self-learning for Early MCI Detection ( http://arxiv.org/abs/2211.06161v1 )

ライセンス: Link先を確認
Yunpeng Zhao, Fugen Zhou, Bin Guo, Bo Liu(参考訳) グラフニューラルネットワーク(GNN)は、血液酸素レベル依存(BOLD)時系列から構築された精巧に設計された特徴を用いて、早期軽度認知障害(EMCI)検出に成功している。 しかし、BOLD信号を直接機能として使う可能性を探る研究はほとんどなかった。 一方、既存のGNNベースの手法は、主に手作りの明示的な脳のトポロジーに依存しており、これは最適ではなく、脳の暗黙的なトポロジー構造を無視している。 本稿では,EMCI検出のための新しいグラフ構造自己学習機構を備えた空間時間グラフ畳み込みネットワークを提案する。 提案する空間時空間グラフ畳み込みブロックは,BOLD時系列を入力特徴として直接利用し,RSfMRIによる前臨床AD診断における興味深い視点を提供する。 さらに, 最適位相構造を適応的に学習し, 辺重みをグラフ構造自己学習機構で洗練することができる。 The Alzheimer's Disease Neuroimaging Initiative (ADNI) databaseの結果,本手法は最先端のアプローチよりも優れていた。 従来の研究と整合したバイオマーカーをモデルから抽出し,本手法の信頼性を実証する。

Graph neural networks (GNNs) have been successfully applied to early mild cognitive impairment (EMCI) detection, with the usage of elaborately designed features constructed from blood oxygen level-dependent (BOLD) time series. However, few works explored the feasibility of using BOLD signals directly as features. Meanwhile, existing GNN-based methods primarily rely on hand-crafted explicit brain topology as the adjacency matrix, which is not optimal and ignores the implicit topological organization of the brain. In this paper, we propose a spatial temporal graph convolutional network with a novel graph structure self-learning mechanism for EMCI detection. The proposed spatial temporal graph convolution block directly exploits BOLD time series as input features, which provides an interesting view for rsfMRI-based preclinical AD diagnosis. Moreover, our model can adaptively learn the optimal topological structure and refine edge weights with the graph structure self-learning mechanism. Results on the Alzheimer's Disease Neuroimaging Initiative (ADNI) database show that our method outperforms state-of-the-art approaches. Biomarkers consistent with previous studies can be extracted from the model, proving the reliable interpretability of our method.
翻訳日:2022-11-14 17:06:33 公開日:2022-11-11
# 計算複雑性と統計学習理論の核モデルへの応用

An introduction to computational complexity and statistical learning theory applied to nuclear models ( http://arxiv.org/abs/2211.06182v1 )

ライセンス: Link先を確認
Andrea Idini(参考訳) データからモデルを構築することができ、したがって実験からより多くのデータでモデルを洗練できるという事実は、通常科学的な調査で与えられる。 しかし、どれだけの情報を抽出できるのか、学習したモデルがどの程度正確か、もし処理に限られた量のデータしか持たなければ? 核物理学は、実験室で作られる可能性のある限られた数の核から推定されるモデルから高い精度の精度を要求する。 原稿では、学習の統計理論やハミルトニアン複雑性など計算科学のいくつかの概念を紹介し、質量モデルを与えられた精度に推定するために必要なデータ量に関する結果の文脈化に利用する。

The fact that we can build models from data, and therefore refine our models with more data from experiments, is usually given for granted in scientific inquiry. However, how much information can we extract, and how precise can we expect our learned model to be, if we have only a finite amount of data at our disposal? Nuclear physics demands an high degree of precision from models that are inferred from the limited number of nuclei that can be possibly made in the laboratories. In manuscript I will introduce some concepts of computational science, such as statistical theory of learning and Hamiltonian complexity, and use them to contextualise the results concerning the amount of data necessary to extrapolate a mass model to a given precision.
翻訳日:2022-11-14 17:06:12 公開日:2022-11-11
# サプライチェーン例を用いた機械学習モデルのデプロイ監視フレームワーク

A monitoring framework for deployed machine learning models with supply chain examples ( http://arxiv.org/abs/2211.06239v1 )

ライセンス: Link先を確認
Bradley Eck and Duygu Kabakci-Zorlu and Yan Chen and France Savard and Xiaowei Bao(参考訳) 運用運用中の機械学習モデルをアクティブに監視することは、予期せぬあるいは望ましくない条件の予測品質と検出と修正を支援する。 ビッグデータ環境にすでにデプロイされているモニタリングモデルは、既存のモデリングワークフローと並行して監視を追加し、リソース要求を制御するという、新たな課題をもたらす。 本稿では,(1)機械学習モデルを監視するフレームワーク,(2)ビッグデータサプライチェーンアプリケーションのための実装について述べる。 本実装では,3つの実データ集合上でのモデル特徴,予測,性能のドリフトについて検討する。 我々は,Kolmogorov-Smirnov 距離と Bhattacharyya 係数を用いて,特徴および予測におけるドリフト検出に対する仮説テストと情報理論的アプローチを比較した。 その結果, モデル性能は評価期間中に安定であった。 特徴と予測は統計的に有意なドリフトを示したが,これらのドリフトは研究期間中のモデル性能の変化とは無関係であった。

Actively monitoring machine learning models during production operations helps ensure prediction quality and detection and remediation of unexpected or undesired conditions. Monitoring models already deployed in big data environments brings the additional challenges of adding monitoring in parallel to the existing modelling workflow and controlling resource requirements. In this paper, we describe (1) a framework for monitoring machine learning models; and, (2) its implementation for a big data supply chain application. We use our implementation to study drift in model features, predictions, and performance on three real data sets. We compare hypothesis test and information theoretic approaches to drift detection in features and predictions using the Kolmogorov-Smirnov distance and Bhattacharyya coefficient. Results showed that model performance was stable over the evaluation period. Features and predictions showed statistically significant drifts; however, these drifts were not linked to changes in model performance during the time of our study.
翻訳日:2022-11-14 17:06:00 公開日:2022-11-11
# 文法進化法による実行時データセンター温度予測

Runtime data center temperature prediction using Grammatical Evolution techniques ( http://arxiv.org/abs/2211.06329v1 )

ライセンス: Link先を確認
Marina Zapater, Jos\'e L. Risco-Mart\'in, Patricia Arroba, Jos\'e L. Ayala, Jos\'e M. Moya and Rom\'an Hermida(参考訳) データセンターは巨大な電力消費者であり、計算に必要なエネルギーとサーバーを熱的赤線以下に保つのに必要な冷却の両方がある。 冷却コストを最小化する最も一般的な手法は、データ室温度の上昇である。 しかし、信頼性の問題を避け、エネルギー効率を高めるためには、可変冷却装置でサーバが達成した温度を予測する必要がある。 データルームの複雑な熱力学のため、正確な実行時データセンタ温度予測が重要な課題として残されている。 本稿では, 解析的進化法を用いて, データセンターの温度モデル生成手法と, 可変冷却装置によるCPUおよび入口温度のランタイム予測手法を提案する。 時間を要する計算流体力学の手法とは対照的に、我々のモデルは問題に関する具体的な知識を必要とせず、任意のデータセンターで使用でき、条件が変化しても再学習でき、実行時予測時に無視できるオーバーヘッドを持つ。 私たちのモデルは、実際のデータセンターシナリオのトレースを使用してトレーニングされ、テストされています。 その結果,データルーム内のサーバの温度を,cpuとサーバのインレット温度において,予測誤差が2c以下と0.5c以下で完全に予測できることを示した。

Data Centers are huge power consumers, both because of the energy required for computation and the cooling needed to keep servers below thermal redlining. The most common technique to minimize cooling costs is increasing data room temperature. However, to avoid reliability issues, and to enhance energy efficiency, there is a need to predict the temperature attained by servers under variable cooling setups. Due to the complex thermal dynamics of data rooms, accurate runtime data center temperature prediction has remained as an important challenge. By using Gramatical Evolution techniques, this paper presents a methodology for the generation of temperature models for data centers and the runtime prediction of CPU and inlet temperature under variable cooling setups. As opposed to time costly Computational Fluid Dynamics techniques, our models do not need specific knowledge about the problem, can be used in arbitrary data centers, re-trained if conditions change and have negligible overhead during runtime prediction. Our models have been trained and tested by using traces from real Data Center scenarios. Our results show how we can fully predict the temperature of the servers in a data rooms, with prediction errors below 2 C and 0.5 C in CPU and server inlet temperature respectively.
翻訳日:2022-11-14 17:00:00 公開日:2022-11-11
# より良いMLエンジニアリングのための能力

Capabilities for Better ML Engineering ( http://arxiv.org/abs/2211.06409v1 )

ライセンス: Link先を確認
Chenyang Yang, Rachel Brower-Sinning, Grace A. Lewis, Christian K\"astner and Tongshuang Wu(参考訳) 機械学習の急速な成長にもかかわらず、そのエンジニアリングサポートは多くの形態に分散しており、特定のエンジニアリングステージ、利害関係者、評価好みを好む傾向がある。 我々は、MLモデルの振る舞いのきめ細かい仕様を使用して、MLエンジニアリングの改善に向けた既存の取り組みを統合する能力ベースのフレームワークを構想する。 私たちは具体的なシナリオ(モデル設計、デバッギング、メンテナンス)を使用して、さまざまな次元にわたる能力の幅広いアプリケーションと、人間のニーズを反映した、より安全で汎用的で信頼性の高いモデルの構築への影響を明確化しています。 予備実験を通じて、MLエンジニアリングプロセスのガイダンスを提供するモデル一般化可能性の反映能力を示す。 MLエンジニアリングへの機能統合の課題と機会について論じる。

In spite of machine learning's rapid growth, its engineering support is scattered in many forms, and tends to favor certain engineering stages, stakeholders, and evaluation preferences. We envision a capability-based framework, which uses fine-grained specifications for ML model behaviors to unite existing efforts towards better ML engineering. We use concrete scenarios (model design, debugging, and maintenance) to articulate capabilities' broad applications across various different dimensions, and their impact on building safer, more generalizable and more trustworthy models that reflect human needs. Through preliminary experiments, we show capabilities' potential for reflecting model generalizability, which can provide guidance for ML engineering process. We discuss challenges and opportunities for capabilities' integration into ML engineering.
翻訳日:2022-11-14 16:59:41 公開日:2022-11-11
# scenefake: 初期データセットとシーン偽音声検出のためのベンチマーク

SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection ( http://arxiv.org/abs/2211.06073v1 )

ライセンス: Link先を確認
Jiangyan Yi and Chenglong Wang and Jianhua Tao and Zhengkun Tian and Cunhang Fan and Haoxin Ma and Ruibo Fu(参考訳) 従来のデータベースは、偽音声検出の開発をさらに進めるために設計されている。 しかしながら、偽の発話は、主に、音色、韻律、言語内容または元の音声のチャンネルノイズを変更することによって生成される。 彼らは偽の状況を無視し、攻撃者は元のオーディオの音響シーンを別の偽造音で操作する。 操作された音声を悪意のある目的で誤用した場合、私たちの社会にとって大きな脅威となるでしょう。 したがって、このことはギャップを埋める動機になります。 本稿では,シーンフェイク音声検出(SceneFake)のためのデータセットを設計する。 SceneFakeデータセットで操作された音声は、音声強調技術を用いて発話の音響シーンを改ざんするだけである。 一見したテストセット上での偽の発話を検出できるだけでなく、偽検出モデルの一般化と非認識操作攻撃の評価も可能である。 いくつかのベンチマーク結果はSceneFakeデータセットで説明されている。 さらに、データセットに異なる音声強調技術と信号対雑音比を用いた偽攻撃の分析を行った。 その結果,ASVspoof 2019の既存のベースラインモデルでは,シーン操作された発話を確実に検出できないことがわかった。 さらに,未確認シーン操作音声の検出は依然として困難である。

Previous databases have been designed to further the development of fake audio detection. However, fake utterances are mostly generated by altering timbre, prosody, linguistic content or channel noise of original audios. They ignore a fake situation, in which the attacker manipulates an acoustic scene of the original audio with another forgery one. It will pose a major threat to our society if some people misuse the manipulated audio with malicious purpose. Therefore, this motivates us to fill in the gap. This paper designs such a dataset for scene fake audio detection (SceneFake). A manipulated audio in the SceneFake dataset involves only tampering the acoustic scene of an utterance by using speech enhancement technologies. We can not only detect fake utterances on a seen test set but also evaluate the generalization of fake detection models to unseen manipulation attacks. Some benchmark results are described on the SceneFake dataset. Besides, an analysis of fake attacks with different speech enhancement technologies and signal-to-noise ratios are presented on the dataset. The results show that scene manipulated utterances can not be detected reliably by the existing baseline models of ASVspoof 2019. Furthermore, the detection of unseen scene manipulation audio is still challenging.
翻訳日:2022-11-14 16:59:27 公開日:2022-11-11
# CTにおける半監督的腹部臓器切開の効果的な指導方法

Knowledge Distillation from Cross Teaching Teachers for Efficient Semi-Supervised Abdominal Organ Segmentation in CT ( http://arxiv.org/abs/2211.05942v1 )

ライセンス: Link先を確認
Jae Won Choi(参考訳) 医用画像分割のための深層学習モデルのさらなる臨床応用のためには,ラベル付きデータと計算資源に対する高い要求に対処する必要がある。 本研究は,2つの教師モデルと,疑似ラベルに基づく一貫性規則化である知識蒸留とクロス・ティーチングを組み合わせた学生モデルを用いた,教師モデルの粗さと細分化の枠組みを提案する。 提案手法は,miccai flare 2022 課題下のct画像における腹部マルチオルガンセグメンテーションタスクにおいて,0.8429 と 0.8520 の平均サイクリングスコアをそれぞれ検証およびテストセットで示した。

For more clinical applications of deep learning models for medical image segmentation, high demands on labeled data and computational resources must be addressed. This study proposes a coarse-to-fine framework with two teacher models and a student model that combines knowledge distillation and cross teaching, a consistency regularization based on pseudo-labels, for efficient semi-supervised learning. The proposed method is demonstrated on the abdominal multi-organ segmentation task in CT images under the MICCAI FLARE 2022 challenge, with mean Dice scores of 0.8429 and 0.8520 in the validation and test sets, respectively.
翻訳日:2022-11-14 16:59:09 公開日:2022-11-11
# 車両情報に基づくマルチモーダル核融合技術:サーベイ

Multi-modal Fusion Technology based on Vehicle Information: A Survey ( http://arxiv.org/abs/2211.06080v1 )

ライセンス: Link先を確認
Yan Gong, Jianli Lu, Jiayi Wu, Wenzhuo Liu(参考訳) マルチモーダル融合は自動運転システム知覚の基本課題であり、近年多くの研究者の関心を集めている。 現在のマルチモーダル融合法は主にカメラデータとLiDARデータに焦点を当てているが、加速度、車両速度、回転角など、車両の下部センサーが提供する運動情報にはほとんど注意を払わない。 これらの情報は複雑な外部シーンに影響されないため、より堅牢で信頼性が高い。 本稿では,車両底面情報の既存応用分野と関連する手法の研究の進展,および底面情報に基づくマルチモーダル融合手法について紹介する。 また,車両ボトム情報データセットの関連情報を詳細に紹介し,研究の迅速化を図った。 さらに,車底情報の利用を促進するために,自動運転タスクのための多モード融合技術の新たなアイデアを提案する。

Multi-modal fusion is a basic task of autonomous driving system perception, which has attracted many scholars' interest in recent years. The current multi-modal fusion methods mainly focus on camera data and LiDAR data, but pay little attention to the kinematic information provided by the bottom sensors of the vehicle, such as acceleration, vehicle speed, angle of rotation. These information are not affected by complex external scenes, so it is more robust and reliable. In this paper, we introduce the existing application fields of vehicle bottom information and the research progress of related methods, as well as the multi-modal fusion methods based on bottom information. We also introduced the relevant information of the vehicle bottom information data set in detail to facilitate the research as soon as possible. In addition, new future ideas of multi-modal fusion technology for autonomous driving tasks are proposed to promote the further utilization of vehicle bottom information.
翻訳日:2022-11-14 16:58:56 公開日:2022-11-11
# オートマチックグラウンド真理を用いた後頭蓋閉塞症(PCO)の治療分類

Treatment classification of posterior capsular opacification (PCO) using automated ground truths ( http://arxiv.org/abs/2211.06114v1 )

ライセンス: Link先を確認
Raisha Shrestha, Waree Kongprawechnon, Teesid Leelasawassuk, Nattapon Wongcumchang, Oliver Findl, Nino Hirnschall(参考訳) 白内障手術の合併症の1つである後頭蓋閉鎖術 (PCO) の治療の必要性の判定は, 局所的不適応性や, PCO が中心視軸に出現した後にのみ行われることによる困難である。 本稿では,まずpcoイメージを分割し,その画像を<textit{treatment required}>と<textit{not necessary>に分類し,頻繁な病院訪問を減らすための深層学習(dl)ベースの手法を提案する。 モデルのトレーニングには,2つの戦略から得られた基底真理(GT)を用いたトレーニング画像を作成する。 (i)マニュアル及びマニュアル (ii)自動化。 2つのモデルがあります (i)モデル1(手動GTを含む画像セットで訓練) (ii)モデル2(自動GTを含む画像セットで訓練) 検証画像セット上で評価した場合の両モデルとも,dice係数が0.8以上,intersection-over-union(iou)スコアが0.67以下であった。 金標準GTと我々のモデルからのセグメント化結果の比較により,両モデルともにDice係数が0.7以上,IoUスコアが0.6以上であった。 分類結果と臨床分類との比較では,両モデルとも0.98F2スコアを示した。

Determination of treatment need of posterior capsular opacification (PCO)-- one of the most common complication of cataract surgery -- is a difficult process due to its local unavailability and the fact that treatment is provided only after PCO occurs in the central visual axis. In this paper we propose a deep learning (DL)-based method to first segment PCO images then classify the images into \textit{treatment required} and \textit{not yet required} cases in order to reduce frequent hospital visits. To train the model, we prepare a training image set with ground truths (GT) obtained from two strategies: (i) manual and (ii) automated. So, we have two models: (i) Model 1 (trained with image set containing manual GT) (ii) Model 2 (trained with image set containing automated GT). Both models when evaluated on validation image set gave Dice coefficient value greater than 0.8 and intersection-over-union (IoU) score greater than 0.67 in our experiments. Comparison between gold standard GT and segmented results from our models gave a Dice coefficient value greater than 0.7 and IoU score greater than 0.6 for both the models showing that automated ground truths can also result in generation of an efficient model. Comparison between our classification result and clinical classification shows 0.98 F2-score for outputs from both the models.
翻訳日:2022-11-14 16:58:41 公開日:2022-11-11
# 医用画像アノテーションの非侵襲的品質管理手法

An unobtrusive quality supervision approach for medical image annotation ( http://arxiv.org/abs/2211.06146v1 )

ライセンス: Link先を確認
Sonja Kunzmann, Mathias \"Ottl, Prathmesh Madhu, Felix Denzinger, Andreas Maier(参考訳) 画像アノテーションは、データ駆動アルゴリズムを実現するための重要な前ステップである。 医用画像では、様々な疾患を堅牢に認識するためには、大きくて確実に注釈付きデータセットを持つことが不可欠である。 しかし、アノテータのパフォーマンスは大きく異なり、モデルトレーニングに影響を及ぼす。 したがって、しばしば複数のアノテータを使わなければならないが、それは高価でリソース集約である。 したがって、ユーザが無防備なデータをアノテートし、このプロセス中のパフォーマンスを控えめに評価する自動化システムを持つことが望ましい。 肺液細胞を示す全スライド画像(WSI)に基づくシステムについて検討した。 我々は, 条件付き生成逆数ネットワークと拡散モデル (DM) という, 合成個々の細胞画像を生成する2つの方法を評価する。 定量的・定量的評価のために, 生成細胞の適合性を明らかにするため, ユーザ調査を行った。 DMにより生成された画像の52.12%は検出できず、元の細胞を合成細胞に置き換える可能性が証明された。

Image annotation is one essential prior step to enable data-driven algorithms. In medical imaging, having large and reliably annotated data sets is crucial to recognize various diseases robustly. However, annotator performance varies immensely, thus impacts model training. Therefore, often multiple annotators should be employed, which is however expensive and resource-intensive. Hence, it is desirable that users should annotate unseen data and have an automated system to unobtrusively rate their performance during this process. We examine such a system based on whole slide images (WSIs) showing lung fluid cells. We evaluate two methods the generation of synthetic individual cell images: conditional Generative Adversarial Networks and Diffusion Models (DM). For qualitative and quantitative evaluation, we conduct a user study to highlight the suitability of generated cells. Users could not detect 52.12% of generated images by DM proofing the feasibility to replace the original cells with synthetic cells without being noticed.
翻訳日:2022-11-14 16:58:18 公開日:2022-11-11
# ディープジェネレーティブネットワークを用いたサブタイプバランシングによるHER2腫瘍分離の改善

Improved HER2 Tumor Segmentation with Subtype Balancing using Deep Generative Networks ( http://arxiv.org/abs/2211.06150v1 )

ライセンス: Link先を確認
Mathias \"Ottl, Jana M\"onius, Matthias R\"ubner, Carol I. Geppert, Jingna Qiu, Frauke Wilm, Arndt Hartmann, Matthias W. Beckmann, Peter A. Fasching, Andreas Maier, Ramona Erber, Katharina Breininger(参考訳) 病理組織像における腫瘍の分節は、異なる組織学的サブタイプとクラス不均衡の組成によってしばしば複雑化する。 頻度の低いサブタイプのオーバーサンプリングは、最終的にオーバーフィットにつながるため、満足のいくソリューションではない。 本稿では,セグメンテーション性能を向上させるために,意味条件付き深層生成ネットワークを用いた合成画像を作成し,サブタイプバランスの合成画像と元のデータセットを組み合わせることを提案する。 本稿では,her2持続型病理組織学におけるサブタイプコンディショニングに基づく現実的な画像を作成するために,gans(generative adversarial network)と特に拡散モデルが適合することを示す。 さらに,改良型her2腫瘍領域における拡散モデルの有用性について検討した。 同量の拡散生成画像と元のデータセットを組み合わせると、腫瘍のダイススコアが0.833から0.854に上昇し、her2サブタイプのリコールのばらつきがほぼ半減した。 これらの結果は、個々のHER2サブタイプ間の性能のばらつきが低い、より信頼性の高い自動HER2解析の基礎となる。

Tumor segmentation in histopathology images is often complicated by its composition of different histological subtypes and class imbalance. Oversampling subtypes with low prevalence features is not a satisfactory solution since it eventually leads to overfitting. We propose to create synthetic images with semantically-conditioned deep generative networks and to combine subtype-balanced synthetic images with the original dataset to achieve better segmentation performance. We show the suitability of Generative Adversarial Networks (GANs) and especially diffusion models to create realistic images based on subtype-conditioning for the use case of HER2-stained histopathology. Additionally, we show the capability of diffusion models to conditionally inpaint HER2 tumor areas with modified subtypes. Combining the original dataset with the same amount of diffusion-generated images increased the tumor Dice score from 0.833 to 0.854 and almost halved the variance between the HER2 subtype recalls. These results create the basis for more reliable automatic HER2 analysis with lower performance variance between individual HER2 subtypes.
翻訳日:2022-11-14 16:58:04 公開日:2022-11-11
# Cine DENSE MRIによる遅発性心活動検出のためのマルチタスク学習

Multitask Learning for Improved Late Mechanical Activation Detection of Heart from Cine DENSE MRI ( http://arxiv.org/abs/2211.06238v1 )

ライセンス: Link先を確認
Jiarui Xing, Shuo Wang, Kenneth C. Bilchick, Frederick H. Epstein, Amit R. Patel, Miaomiao Zhang(参考訳) 心再同期療法 (CRT) の適応は, 最適ペーシング部位の選択が重要である。 活性化時間回帰の問題として後期機械的活性化 (LMA) 領域の検出を定式化した現在のアプローチは成功したが、その精度は、特に心筋の欠損がある場合において不満足なままである。 この問題に対処するために,DENSE 磁気共鳴画像(MRI)を用いたシーン変位符号化に基づいて,LMA 量を同時に推定し,無傷 LMA 領域を分類するマルチタスク深層学習フレームワークを提案する。 新たに導入した補助的LMA領域分類サブネットワークにより,心筋障害による複雑なパターンに対する堅牢性が向上し,LMA検出における負の効果が著しく低減され,さらに,スカー分類の性能が向上した。 本手法の有効性を評価するため, 実心MR画像を用いて本モデルを検証し, 予測されたLMAと最先端のアプローチとの比較を行った。 その結果,本手法の精度は大幅に向上した。 さらに,グラデーション重み付けクラスアクティベーションマッピング(grad-cam)を使用して,すべてのメソッドで学習した機能マップを視覚化した。 実験結果から,提案モデルはlma領域パターンをよりよく認識できることが示唆された。

The selection of an optimal pacing site, which is ideally scar-free and late activated, is critical to the response of cardiac resynchronization therapy (CRT). Despite the success of current approaches formulating the detection of such late mechanical activation (LMA) regions as a problem of activation time regression, their accuracy remains unsatisfactory, particularly in cases where myocardial scar exists. To address this issue, this paper introduces a multi-task deep learning framework that simultaneously estimates LMA amount and classify the scar-free LMA regions based on cine displacement encoding with stimulated echoes (DENSE) magnetic resonance imaging (MRI). With a newly introduced auxiliary LMA region classification sub-network, our proposed model shows more robustness to the complex pattern cause by myocardial scar, significantly eliminates their negative effects in LMA detection, and in turn improves the performance of scar classification. To evaluate the effectiveness of our method, we tests our model on real cardiac MR images and compare the predicted LMA with the state-of-the-art approaches. It shows that our approach achieves substantially increased accuracy. In addition, we employ the gradient-weighted class activation mapping (Grad-CAM) to visualize the feature maps learned by all methods. Experimental results suggest that our proposed model better recognizes the LMA region pattern.
翻訳日:2022-11-14 16:57:43 公開日:2022-11-11
# 心臓MRIによる心筋スカー検出の改善のための共同深層学習

Joint Deep Learning for Improved Myocardial Scar Detection from Cardiac MRI ( http://arxiv.org/abs/2211.06247v1 )

ライセンス: Link先を確認
Jiarui Xing, Shuo Wang, Kenneth C. Bilchick, Amit R. Patel, Miaomiao Zhang(参考訳) 後期ガドリニウム増強心筋磁気共鳴画像(LGE-CMR)からの心筋傷の自動同定は、運動や部分体積効果など、画像ノイズやアーチファクトによって制限される。 本稿では,同時に学習した心筋分画を利用して非興味領域からの悪影響を解消し,その課題を改善する新しい統合型深層学習(jdl)フレームワークを提案する。 従来のスカー検出と心筋セグメンテーションを分離・並列タスクとして扱う手法とは対照的に,本手法では,心筋セグメンテーションの情報を直接ガイドスカー検出器に渡すメッセージパッシングモジュールを提案する。 このネットワークは2つの関連タスクのジョイント情報を効果的に利用し、心筋セグメンテーションのすべてのソースを使って傷跡の識別に役立てる。 虚血性心疾患および非虚血性心疾患患者におけるリスク予測の改善と心不全患者の心再同期療法(crt)に対する反応改善の可能性を示す。 実験の結果,提案手法は,2段階セグメンテーション分類ネットワークや,サブタスクが間接的に相互作用するマルチタスク学習スキームなど,最先端手法よりも優れていることがわかった。

Automated identification of myocardial scar from late gadolinium enhancement cardiac magnetic resonance images (LGE-CMR) is limited by image noise and artifacts such as those related to motion and partial volume effect. This paper presents a novel joint deep learning (JDL) framework that improves such tasks by utilizing simultaneously learned myocardium segmentations to eliminate negative effects from non-region-of-interest areas. In contrast to previous approaches treating scar detection and myocardium segmentation as separate or parallel tasks, our proposed method introduces a message passing module where the information of myocardium segmentation is directly passed to guide scar detectors. This newly designed network will efficiently exploit joint information from the two related tasks and use all available sources of myocardium segmentation to benefit scar identification. We demonstrate the effectiveness of JDL on LGE-CMR images for automated left ventricular (LV) scar detection, with great potential to improve risk prediction in patients with both ischemic and non-ischemic heart disease and to improve response rates to cardiac resynchronization therapy (CRT) for heart failure patients. Experimental results show that our proposed approach outperforms multiple state-of-the-art methods, including commonly used two-step segmentation-classification networks, and multitask learning schemes where subtasks are indirectly interacted.
翻訳日:2022-11-14 16:57:17 公開日:2022-11-11
# マルチフィジカルシステム学習のための物理的に一貫したニューラルode

Physically Consistent Neural ODEs for Learning Multi-Physics Systems ( http://arxiv.org/abs/2211.06130v1 )

ライセンス: Link先を確認
Muhammad Zakwan, Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, Colin N. Jones, and Giancarlo Ferrari Trecate(参考訳) データからシステムのダイナミクスをモデル化するニューラルネットワークの成功にもかかわらず、それらは物理に依存しないブラックボックスのままであることが多い。 物理的システムの特定の場合、それらは物理的に矛盾した予測を行うため、実際は信頼できない。 本稿では,多物理系を記述可能な非可逆ポート・ハミルトンシステム(IPHS)の枠組みを活用し,そのパラメータをデータから学習するためにニューラル正規微分方程式(NODE)を利用する。 IPHSモデルは設計による熱力学の第一原理と第二原理と整合性があるので、提案されている物理一貫性NODE(PC-NODE)も同様である。 さらに、ノードトレーニング手順により、学習したダイナミクスにシステム特性の事前知識をシームレスに取り入れることができる。 本研究では,実世界の実測から建物の熱力学とシミュレーションガス・ピストンシステムのダイナミクスを学習し,提案手法の有効性を実証する。 IPHSフレームワークのモジュラリティと柔軟性により、PC-NODEはマルチ物理分散システムの物理的に一貫したモデルを学ぶために拡張できる。

Despite the immense success of neural networks in modeling system dynamics from data, they often remain physics-agnostic black boxes. In the particular case of physical systems, they might consequently make physically inconsistent predictions, which makes them unreliable in practice. In this paper, we leverage the framework of Irreversible port-Hamiltonian Systems (IPHS), which can describe most multi-physics systems, and rely on Neural Ordinary Differential Equations (NODEs) to learn their parameters from data. Since IPHS models are consistent with the first and second principles of thermodynamics by design, so are the proposed Physically Consistent NODEs (PC-NODEs). Furthermore, the NODE training procedure allows us to seamlessly incorporate prior knowledge of the system properties in the learned dynamics. We demonstrate the effectiveness of the proposed method by learning the thermodynamics of a building from the real-world measurements and the dynamics of a simulated gas-piston system. Thanks to the modularity and flexibility of the IPHS framework, PC-NODEs can be extended to learn physically consistent models of multi-physics distributed systems.
翻訳日:2022-11-14 16:50:51 公開日:2022-11-11
# DNNにおける概念の創出?

Emergence of Concepts in DNNs? ( http://arxiv.org/abs/2211.06137v1 )

ライセンス: Link先を確認
Tim R\"az(参考訳) 本稿では,DNNの内部表現(隠蔽層)における概念の同定を提案するコンピュータサイエンスの研究をレビューし,議論する。 まず,既存の手法がDNNで表現されていると思われる概念を実際にどのように識別するかを検討する。 第二に、内部表現における概念の集合である概念空間が、予測精度と圧縮のトレードオフによってどのように形成されるかについて議論する。 これらの問題は哲学に基づいて批判的に検討される。 DNNが概念間の非自明な推論関係を表現できるという証拠はあるが、概念を識別する能力は極めて限られている。

The present paper reviews and discusses work from computer science that proposes to identify concepts in internal representations (hidden layers) of DNNs. It is examined, first, how existing methods actually identify concepts that are supposedly represented in DNNs. Second, it is discussed how conceptual spaces -- sets of concepts in internal representations -- are shaped by a tradeoff between predictive accuracy and compression. These issues are critically examined by drawing on philosophy. While there is evidence that DNNs able to represent non-trivial inferential relations between concepts, our ability to identify concepts is severely limited.
翻訳日:2022-11-14 16:50:31 公開日:2022-11-11
# ヒューマンアクティビティ認識のためのコントラスト予測符号化の拡張の検討

Investigating Enhancements to Contrastive Predictive Coding for Human Activity Recognition ( http://arxiv.org/abs/2211.06173v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa, Thomas Ploetz(参考訳) アクティビティのためのアノテーションを得ることの難しさと、ウェアラブルからのデータ収集のより直接的な性質の両立は、大量のラベルのないデータを学習表現に活用する技術開発に大きな関心を惹き付けている。 コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、時系列データの特性を活用して効果的な表現を学習し、コントラストのある将来予測タスクを設定する手法である。 本研究では,エンコーダアーキテクチャ,アグリゲータネットワーク,将来の時間ステップ予測を体系的に検討することにより,完全畳み込みアーキテクチャを実現し,並列性を向上させるcpcの拡張を提案する。 センサの位置や活動全体にわたって,本手法は6つのターゲットデータセットのうち4つを大幅に改善し,幅広いアプリケーションシナリオを拡張できることを示す。 さらに,ラベル付きデータが非常に限られている場合には,教師付きベースラインと自己教師付きベースラインの両方を著しく上回り,ラベル付きデータの数秒の収集が可能な状況に積極的に影響する。 cpcは効果的な表現を学ぶために特別なデータ変換や再構成を必要としないので、これは有望である。

The dichotomy between the challenging nature of obtaining annotations for activities, and the more straightforward nature of data collection from wearables, has resulted in significant interest in the development of techniques that utilize large quantities of unlabeled data for learning representations. Contrastive Predictive Coding (CPC) is one such method, learning effective representations by leveraging properties of time-series data to setup a contrastive future timestep prediction task. In this work, we propose enhancements to CPC, by systematically investigating the encoder architecture, the aggregator network, and the future timestep prediction, resulting in a fully convolutional architecture, thereby improving parallelizability. Across sensor positions and activities, our method shows substantial improvements on four of six target datasets, demonstrating its ability to empower a wide range of application scenarios. Further, in the presence of very limited labeled data, our technique significantly outperforms both supervised and self-supervised baselines, positively impacting situations where collecting only a few seconds of labeled data may be possible. This is promising, as CPC does not require specialized data transformations or reconstructions for learning effective representations.
翻訳日:2022-11-14 16:50:21 公開日:2022-11-11
# 全変動グラフニューラルネットワークによるクラスタリング

Clustering with Total Variation Graph Neural Networks ( http://arxiv.org/abs/2211.06218v1 )

ライセンス: Link先を確認
Jonas Berg Hansen and Filippo Maria Bianchi(参考訳) グラフニューラルネットワーク(GNN)は、属性グラフを処理するために設計されたディープラーニングモデルである。 GNNは頂点機能とグラフトポロジの両方を考慮したクラスタ割り当てを計算できる。 クラスタリングのための既存のGNNは、スペクトルクラスタリング(SC)緩和によって近似される教師なしの最小カット目標を最適化することによって訓練される。 SCはクローズドフォームのソリューションを提供するが、勾配降下の訓練を受けたGNNには特に役に立たない。 さらに、SC緩和は緩く、非常に滑らかなクラスタ割り当てをもたらし、サンプルを十分に分離しない。 本稿では,グラフ総変動(GTV)に基づいて,最小カットの厳密な緩和を最適化するGNNモデルを提案する。 私たちのモデルには2つのコアコンポーネントがあります。 一 隣接する頂点の特徴において$\ell_1$距離を最小化するメッセージ通過層であって、鋭いクラスタ遷移を達成するための鍵であるもの 二 クラスタ割り当てにおいて、バランスの取れたパーティションを確保しつつ、GTVを最小化する損失関数。 提案する損失を最適化することで,クラスタリングを行うための自己学習が可能となる。 さらに,クラスタリング手法を用いて,グラフ分類のための深層GNNアーキテクチャにおけるグラフプーリングを実現する。 実験により,我々のモデルはクラスタリングやグラフプーリングにおいて,他のGNNベースのアプローチよりも優れていることが示された。

Graph Neural Networks (GNNs) are deep learning models designed to process attributed graphs. GNNs can compute cluster assignments accounting both for the vertex features and for the graph topology. Existing GNNs for clustering are trained by optimizing an unsupervised minimum cut objective, which is approximated by a Spectral Clustering (SC) relaxation. SC offers a closed-form solution that, however, is not particularly useful for a GNN trained with gradient descent. Additionally, the SC relaxation is loose and yields overly smooth cluster assignments, which do not separate well the samples. We propose a GNN model that optimizes a tighter relaxation of the minimum cut based on graph total variation (GTV). Our model has two core components: i) a message-passing layer that minimizes the $\ell_1$ distance in the features of adjacent vertices, which is key to achieving sharp cluster transitions; ii) a loss function that minimizes the GTV in the cluster assignments while ensuring balanced partitions. By optimizing the proposed loss, our model can be self-trained to perform clustering. In addition, our clustering procedure can be used to implement graph pooling in deep GNN architectures for graph classification. Experiments show that our model outperforms other GNN-based approaches for clustering and graph pooling.
翻訳日:2022-11-14 16:50:00 公開日:2022-11-11
# alanno: 死亡者のためのアクティブラーニングアノテーションシステム

ALANNO: An Active Learning Annotation System for Mortals ( http://arxiv.org/abs/2211.06224v1 )

ライセンス: Link先を確認
Josip Juki\'c, Fran Jeleni\'c, Miroslav Bi\'cani\'c, Jan \v{S}najder(参考訳) 今日のデータ駆動社会では、教師付き機械学習が急速に進化し、ラベル付きデータの必要性が高まっている。 しかし、ラベルの取得プロセスは高価で面倒であることが多い。 そこで我々は,能動学習を利用したNLPタスクのためのオープンソースのアノテーションシステムであるALANNOを開発した。 アクティブな学習システムをデプロイする上での実践的な課題に注目し、実世界のアプリケーションでアクティブな学習を効果的にするためのソリューションを見つけ出そうとする。 我々は、アクティブな学習方法と基礎となる機械学習モデルが豊富なシステムをサポートする。 さらに、我々は新しいメソッドを追加する可能性を開放し、高品質のデータアノテーションと研究目的の両方にプラットフォームが役立つようにします。

In today's data-driven society, supervised machine learning is rapidly evolving, and the need for labeled data is increasing. However, the process of acquiring labels is often expensive and tedious. For this reason, we developed ALANNO, an open-source annotation system for NLP tasks powered by active learning. We focus on the practical challenges in deploying active learning systems and try to find solutions to make active learning effective in real-world applications. We support the system with a wealth of active learning methods and underlying machine learning models. In addition, we leave open the possibility to add new methods, which makes the platform useful for both high-quality data annotation and research purposes.
翻訳日:2022-11-14 16:49:40 公開日:2022-11-11
# 時系列回帰における不確かさ定量化と深層学習の比較

Comparison of Uncertainty Quantification with Deep Learning in Time Series Regression ( http://arxiv.org/abs/2211.06233v1 )

ライセンス: Link先を確認
Levente Foldesi and Matias Valdenegro-Toro(参考訳) 予測を行うために、ニューラルネットワークを使用して、より多くの意思決定が行われるようになる。 特に気象学者やヘッジファンドは、これらの手法を時系列データに適用している。 予測に関しては、不確実性推定を用いて解決できる機械学習モデル(表現力の欠如、ドメインシフトの脆弱性、過信など)に一定の制限がある。 不確実性がいかに「達成すべきか」に関する一連の期待がある。 例えば、より広い予測地平線はより不確実性をもたらすか、モデルの信頼性はその正確性に比例するべきである。 本稿では,不確実性推定法と予測気象時系列データを比較し,それらの期待値を評価する。 その結果,予測タスクにおいて各不確かさ推定手法がどのように振る舞うかを示し,予測不確実性のロバスト性を部分的に評価した。

Increasingly high-stakes decisions are made using neural networks in order to make predictions. Specifically, meteorologists and hedge funds apply these techniques to time series data. When it comes to prediction, there are certain limitations for machine learning models (such as lack of expressiveness, vulnerability of domain shifts and overconfidence) which can be solved using uncertainty estimation. There is a set of expectations regarding how uncertainty should ``behave". For instance, a wider prediction horizon should lead to more uncertainty or the model's confidence should be proportional to its accuracy. In this paper, different uncertainty estimation methods are compared to forecast meteorological time series data and evaluate these expectations. The results show how each uncertainty estimation method performs on the forecasting task, which partially evaluates the robustness of predicted uncertainty.
翻訳日:2022-11-14 16:49:30 公開日:2022-11-11
# ログオッドの再考: 線形確率モデリングと解釈可能な機械学習のエキスパートアドバイス

Rethinking Log Odds: Linear Probability Modelling and Expert Advice in Interpretable Machine Learning ( http://arxiv.org/abs/2211.06360v1 )

ライセンス: Link先を確認
Danial Dervovic and Nicolas Marchesotti and Freddy Lecue and Daniele Magazzeni(参考訳) 一般付加型モデル(GAM)におけるユビキタスなロジスティックリンク関数を置き換える線形化付加型モデル(LAMs)と,サブスケールと呼ばれる機能のサブセットでトレーニングされたベースモデルを組み合わせるためのエキスパートアドバイスアルゴリズムであるSubscaleHedgeの2種類を紹介した。 LAMはシグモイドリンク機能を備えた任意の付加的なバイナリ分類モデルを拡張できる。 さらに、確率空間におけるモデル出力に対する付加成分の直接的大域的および局所的帰属を与える。 我々は LAM と SubscaleHedge がベースアルゴリズムの解釈可能性を向上させることを論じる。 ROC-AUCとキャリブレーションの両面において,厳密なNull-hypothesis重要度テストを用いて,我々のアルゴリズムは大きなペナルティを負わないことを示す。

We introduce a family of interpretable machine learning models, with two broad additions: Linearised Additive Models (LAMs) which replace the ubiquitous logistic link function in General Additive Models (GAMs); and SubscaleHedge, an expert advice algorithm for combining base models trained on subsets of features called subscales. LAMs can augment any additive binary classification model equipped with a sigmoid link function. Moreover, they afford direct global and local attributions of additive components to the model output in probability space. We argue that LAMs and SubscaleHedge improve the interpretability of their base algorithms. Using rigorous null-hypothesis significance testing on a broad suite of financial modelling data, we show that our algorithms do not suffer from large performance penalties in terms of ROC-AUC and calibration.
翻訳日:2022-11-14 16:49:18 公開日:2022-11-11
# 室内環境における音響イベントの重なり合う歩行トリアージツールキット

A Gait Triaging Toolkit for Overlapping Acoustic Events in Indoor Environments ( http://arxiv.org/abs/2211.05944v1 )

ライセンス: Link先を確認
Kelvin Summoogum, Debayan Das, Parvati Jayakumar(参考訳) gaitは、高齢者の身体的および認知的健康を評価するために、臨床および医療の応用に用いられてきた。 音響に基づく歩容検出は,高齢者の歩容データを受動的かつ非意図的に収集する有望な手法である。 しかし、家や介護施設の騒音の多い多音質音響シーンで操作できる音響ベースの歩行検知器の開発は限られている。 これは、現実世界からの高品質な歩行データセットが欠如していることによるものです。 本稿では,歩行検出のための機械学習モデルのトレーニングに適した歩行音声サンプルをトリアージ可能な,機械学習に基づく新しいフィルタを提案する。 フィルタは、f(1)スコア0.85のノイズサンプルを除去し、異なるスペクトル特徴と最小ノイズを有する歩行サンプルを優先することでこれを達成する。 フィルタの有効性を示すため,高齢者から収集した歩行データセットに対して,フィルタを適用することなく深層学習モデルを訓練し,評価する。 モデルは、フィルタされた歩行サンプルで訓練された場合、実単語の歩行データに対して、そのf(1)スコアの25ポイントの増加を登録する。 提案フィルタは,屋内環境における高齢者の歩行検出モデルのトレーニングを行うため,歩行サンプルの手動アノテーションのタスクを自動化する。

Gait has been used in clinical and healthcare applications to assess the physical and cognitive health of older adults. Acoustic based gait detection is a promising approach to collect gait data of older adults passively and non-intrusively. However, there has been limited work in developing acoustic based gait detectors that can operate in noisy polyphonic acoustic scenes of homes and care homes. We attribute this to the lack of good quality gait datasets from the real-world to train a gait detector on. In this paper, we put forward a novel machine learning based filter which can triage gait audio samples suitable for training machine learning models for gait detection. The filter achieves this by eliminating noisy samples at an f(1) score of 0.85 and prioritising gait samples with distinct spectral features and minimal noise. To demonstrate the effectiveness of the filter, we train and evaluate a deep learning model on gait datasets collected from older adults with and without applying the filter. The model registers an increase of 25 points in its f(1) score on unseen real-word gait data when trained with the filtered gait samples. The proposed filter will help automate the task of manual annotation of gait samples for training acoustic based gait detection models for older adults in indoor environments.
翻訳日:2022-11-14 16:49:01 公開日:2022-11-11
# インテリジェントメッシュ生成の状況:調査と展望

What's the Situation with Intelligent Mesh Generation: A Survey and Perspectives ( http://arxiv.org/abs/2211.06009v1 )

ライセンス: Link先を確認
Zezeng Li, Zebin Xu, Ying Li, Xianfeng Gu and Na Lei(参考訳) インテリジェントメッシュ生成(intelligent mesh generation、img)は、比較的新しく、有望な研究分野であるマシンラーニングによってメッシュを生成する技術である。 短い寿命の中で、ICGはメッシュ生成技術の一般化性と実用性を大きく拡張し、メッシュ生成に多くのブレークスルーと潜在的な可能性をもたらした。 しかし,近年の img 手法に焦点をあてた調査が不足している。 本稿では,現代IMGの景観を概観する体系的かつ包括的な調査にコミットする。 110 の予備 IMG 手法に着目し,アルゴリズムのコア技術や適用範囲,エージェント学習目標,データ型,課題のターゲティング,アドバンテージ,限界など,さまざまな観点から詳細な分析と評価を行った。 コンテンツ抽出に基づく文献の収集と分類を目的とし,キーテクニック,出力メッシュ単位要素,適用可能な入力データ型という3つの視点から3つの分類法を提案する。 最後に、IMGにおける将来的な研究の方向性と課題について紹介する。 IMG のプロジェクトページは \url{https://github.com/xzb030/IMG_Survey} で提供される。

Intelligent mesh generation (IMG) refers to a technique to generate mesh by machine learning, which is a relatively new and promising research field. Within its short life span, IMG has greatly expanded the generalizability and practicality of mesh generation techniques and brought many breakthroughs and potential possibilities for mesh generation. However, there is a lack of surveys focusing on IMG methods covering recent works. In this paper, we are committed to a systematic and comprehensive survey describing the contemporary IMG landscape. Focusing on 110 preliminary IMG methods, we conducted an in-depth analysis and evaluation from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views of key technique, output mesh unit element, and applicable input data types. Finally, we highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
翻訳日:2022-11-14 16:48:41 公開日:2022-11-11
# 位相シフトコーダ:オブジェクト指向物体検出における正確な方向予測

Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object Detection ( http://arxiv.org/abs/2211.06368v1 )

ライセンス: Link先を確認
Yi Yu and Feipeng Da(参考訳) コンピュータビジョンの活発な発展に伴い、指向性物体検出が徐々に注目されるようになった。 本稿では,二周波バージョンPSCDとともに,物体の向きを正確に予測する新しい位相シフトコーダ(PSC)を提案する。 異なる周期の回転周期性を異なる周波数の位相にマッピングすることにより、オブジェクト指向物体検出における様々な周期的ファジィ問題に対する統一的な枠組みを提供する。 このような枠組みでは、境界の不連続性や正方形の問題といったオブジェクト指向物体検出の一般的な問題は、統一形式でエレガントに解決される。 3つのデータセットの視覚分析と実験は、我々のアプローチの有効性と可能性を証明する。 高品質なバウンディングボックスを必要とするシナリオに直面した場合、提案手法は競合性能が期待できる。 コードはhttps://github.com/open-mmlab/mmrotateで公開されている。

With the vigorous development of computer vision, oriented object detection has gradually been featured. In this paper, a novel differentiable angle coder named phase-shifting coder (PSC) is proposed to accurately predict the orientation of objects, along with a dual-frequency version PSCD. By mapping rotational periodicity of different cycles into phase of different frequencies, we provide a unified framework for various periodic fuzzy problems in oriented object detection. Upon such framework, common problems in oriented object detection such as boundary discontinuity and square-like problems are elegantly solved in a unified form. Visual analysis and experiments on three datasets prove the effectiveness and the potentiality of our approach. When facing scenarios requiring high-quality bounding boxes, the proposed methods are expected to give a competitive performance. The codes are publicly available at https://github.com/open-mmlab/mmrotate.
翻訳日:2022-11-14 16:43:04 公開日:2022-11-11
# NIR-VIS顔認識のための物理ベース顔レンダリング

Physically-Based Face Rendering for NIR-VIS Face Recognition ( http://arxiv.org/abs/2211.06408v1 )

ライセンス: Link先を確認
Yunqi Miao, Alexandros Lattas, Jiankang Deng, Jungong Han, Stefanos Zafeiriou(参考訳) 近赤外(NIR)と可視(VIS)の顔マッチングは、重要なドメインギャップと、モダリティモデルのトレーニングに十分なデータが不足しているため、難しい。 この問題を解決するために,NIR-VIS対顔画像生成法を提案する。 具体的には、大規模な2次元顔データセットから3次元の顔形状と反射率を再構成し、VIS反射率をNIR反射率に変換する新しい方法を提案する。 次に、物理ベースのレンダラーを用いて、NIRスペクトルとVISスペクトルの様々なポーズとアイデンティティからなる、巨大で高解像度で光リアルなデータセットを生成する。 さらに,アイデンティティ特徴学習を容易にするために,IDentityに基づく最大平均離散性(ID-MMD)損失を提案する。これは,NIR画像とVIS画像のドメインレベルでのモダリティギャップを低減させるだけでなく,ポーズやアクセサリといった顔の細部ではなく,アイデンティティ機能に焦点を合わせることをネットワークに促す。 4つの挑戦的なNIR-VIS顔認識ベンチマークで実施された大規模な実験により、提案手法は既存のNIR-VIS顔認識データセットを必要とせずに、最先端(SOTA)手法と同等の性能を達成できることが示されている。 対象のNIR-VIS顔認識データセットを微調整することで,SOTAの性能を大幅に上回ることができる。 コードと事前トレーニングされたモデルはinsightface(https://github.com/deepinsight/insightface/tree/master/recognition)でリリースされている。

Near infrared (NIR) to Visible (VIS) face matching is challenging due to the significant domain gaps as well as a lack of sufficient data for cross-modality model training. To overcome this problem, we propose a novel method for paired NIR-VIS facial image generation. Specifically, we reconstruct 3D face shape and reflectance from a large 2D facial dataset and introduce a novel method of transforming the VIS reflectance to NIR reflectance. We then use a physically-based renderer to generate a vast, high-resolution and photorealistic dataset consisting of various poses and identities in the NIR and VIS spectra. Moreover, to facilitate the identity feature learning, we propose an IDentity-based Maximum Mean Discrepancy (ID-MMD) loss, which not only reduces the modality gap between NIR and VIS images at the domain level but encourages the network to focus on the identity features instead of facial details, such as poses and accessories. Extensive experiments conducted on four challenging NIR-VIS face recognition benchmarks demonstrate that the proposed method can achieve comparable performance with the state-of-the-art (SOTA) methods without requiring any existing NIR-VIS face recognition datasets. With slightly fine-tuning on the target NIR-VIS face recognition datasets, our method can significantly surpass the SOTA performance. Code and pretrained models are released under the insightface (https://github.com/deepinsight/insightface/tree/master/recognition).
翻訳日:2022-11-14 16:42:52 公開日:2022-11-11
# align, write, re-order:操作シーケンス生成によるエンドツーエンド音声翻訳

Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation ( http://arxiv.org/abs/2211.05967v1 )

ライセンス: Link先を確認
Motoi Omachi, Brian Yan, Siddharth Dalmia, Yuya Fujita, Shinji Watanabe(参考訳) エンドツーエンド音声翻訳(e2e st)システムのブラックボックス性は、ソース言語入力がどのようにターゲット言語にマッピングされているかを理解するのを難しくしている。 この問題を解決するために、各ソース言語単語が対象言語単語に明示的にマッピングされるように、自動音声認識(ASR)とST予測を同時に生成したい。 大きな課題は、翻訳が言語間の語順の違いによる非単調なシーケンス変換タスクであるという事実から生じ、これはASRの単調な性質と衝突する。 そこで本研究では,後から再注文する方法を記憶しながら,STトークンをアウトオブオーダーで生成することを提案する。 我々は、ソースワード、対応するターゲットワードからなるタプルのシーケンスを予測し、ターゲットワードの正しい挿入ポイントを予測した後編集操作によりこれを実現する。 同じ音声入力からモノトニック文字と非モノトニック翻訳を同時に生成できる操作シーケンスの2つの変種について検討する。 オフラインおよびリアルタイムストリーミングモデルにアプローチを適用することで、品質やレイテンシを犠牲にすることなく、説明可能な翻訳を提供できることを示す。 実際、我々のアプローチの遅れた再注文能力は、ストリーミング時のパフォーマンスを改善する。 新たな利点として,ASRとSTを同時に実行し,これらのタスクを実行するために2つの異なるシステムを使用するよりも高速である。

The black-box nature of end-to-end speech translation (E2E ST) systems makes it difficult to understand how source language inputs are being mapped to the target language. To solve this problem, we would like to simultaneously generate automatic speech recognition (ASR) and ST predictions such that each source language word is explicitly mapped to a target language word. A major challenge arises from the fact that translation is a non-monotonic sequence transduction task due to word ordering differences between languages -- this clashes with the monotonic nature of ASR. Therefore, we propose to generate ST tokens out-of-order while remembering how to re-order them later. We achieve this by predicting a sequence of tuples consisting of a source word, the corresponding target words, and post-editing operations dictating the correct insertion points for the target word. We examine two variants of such operation sequences which enable generation of monotonic transcriptions and non-monotonic translations from the same speech input simultaneously. We apply our approach to offline and real-time streaming models, demonstrating that we can provide explainable translations without sacrificing quality or latency. In fact, the delayed re-ordering ability of our approach improves performance during streaming. As an added benefit, our method performs ASR and ST simultaneously, making it faster than using two separate systems to perform these tasks.
翻訳日:2022-11-14 16:42:09 公開日:2022-11-11
# ソフトウェアのバグ修正ガイドに開発者ディスカッションを使う

Using Developer Discussions to Guide Fixing Bugs in Software ( http://arxiv.org/abs/2211.06335v1 )

ライセンス: Link先を確認
Sheena Panthaplackel, Milos Gligoric, Junyi Jessy Li, Raymond J. Mooney(参考訳) ソフトウェアバグの自動修正は難しい作業です。 最近の研究で、自然言語のコンテキストはバグ修正モデルを導くのに有用であることが示されているが、このアプローチでは開発者がこのコンテキストを提供するよう促す必要があった。 代わりに、タスクの実行前に利用可能であり、また自然に発生するバグレポートの議論を、開発者からの追加情報を必要としないよう提案する。 そのため、標準バグ修正データセットをバグレポートの議論で強化します。 新たにコンパイルされたデータセットを用いて、このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、さらにはオラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスが向上することを示した。

Automatically fixing software bugs is a challenging task. While recent work showed that natural language context is useful in guiding bug-fixing models, the approach required prompting developers to provide this context, which was simulated through commit messages written after the bug-fixing code changes were made. We instead propose using bug report discussions, which are available before the task is performed and are also naturally occurring, avoiding the need for any additional information from developers. For this, we augment standard bug-fixing datasets with bug report discussions. Using these newly compiled datasets, we demonstrate that various forms of natural language context derived from such discussions can aid bug-fixing, even leading to improved performance over using commit messages corresponding to the oracle bug-fixing commits.
翻訳日:2022-11-14 16:41:45 公開日:2022-11-11
# 公的な発話における男性・女性話者の言葉選択の分析

Analysis of Male and Female Speakers' Word Choices in Public Speeches ( http://arxiv.org/abs/2211.06366v1 )

ライセンス: Link先を確認
Md Zobaer Hossain, Ahnaf Mozib Samin(参考訳) 男性と女性の言語の違いについては、これまで疑問視されてきた。 言語における明瞭で一貫した性差を見つけることは一般的には決定的ではなく、その違いを特定するために使用される文脈や方法に大きく影響されている。 また、研究の大部分は書体で行われ、サンプルは書体で収集された。 そこで,TED講義等の公的な住所において,男女のプレゼンターの言葉選択を比較した。 音声(POS)、言語、心理学、認知用語などの多種多様な単語の頻度を統計的に分析し、男性と女性の話者がどのように異なる言葉を使うかを検討した。 その結果,男性話者は女性話者に比べて言語的,心理学的,認知的,社会的な単語の種類がかなり多いことがわかった。

The extent to which men and women use language differently has been questioned previously. Finding clear and consistent gender differences in language is not conclusive in general, and the research is heavily influenced by the context and method employed to identify the difference. In addition, the majority of the research was conducted in written form, and the sample was collected in writing. Therefore, we compared the word choices of male and female presenters in public addresses such as TED lectures. The frequency of numerous types of words, such as parts of speech (POS), linguistic, psychological, and cognitive terms were analyzed statistically to determine how male and female speakers use words differently. Based on our data, we determined that male speakers use specific types of linguistic, psychological, cognitive, and social words in considerably greater frequency than female speakers.
翻訳日:2022-11-14 16:41:32 公開日:2022-11-11
# 逆カーネル分解

Inverse Kernel Decomposition ( http://arxiv.org/abs/2211.05961v1 )

ライセンス: Link先を確認
Chengrui Li and Anqi Wu(参考訳) 最先端の次元削減アプローチは主に複雑な最適化手順に依存している。 一方、単に固有分解を必要とする閉形式アプローチは、洗練度と非線形性が十分ではない。 本稿では,データのサンプル共分散行列の固有分解に基づく非線形次元低減法である逆核分解(ikd)を提案する。 このメソッドはガウスのプロセス潜在変数モデル(GPLVM)にインスパイアされ、GPLVMと同等のパフォーマンスを持つ。 弱相関を持つ非常にノイズの多いデータを扱うために,我々は,局所相関データ点を利用するためのブロックワイズと測地線という2つの解を提案する。 我々は合成データセットと4つの実世界のデータセットを用いて、ikdが他の固有分解法よりも優れた次元性低減法であることを示す。 pythonのオープンソースikd実装は、この \url{https://github.com/jerrysoybean/ikd}でアクセスできる。

The state-of-the-art dimensionality reduction approaches largely rely on complicated optimization procedures. On the other hand, closed-form approaches requiring merely eigen-decomposition do not have enough sophistication and nonlinearity. In this paper, we propose a novel nonlinear dimensionality reduction method -- Inverse Kernel Decomposition (IKD) -- based on an eigen-decomposition of the sample covariance matrix of data. The method is inspired by Gaussian process latent variable models (GPLVMs) and has comparable performance with GPLVMs. To deal with very noisy data with weak correlations, we propose two solutions -- blockwise and geodesic -- to make use of locally correlated data points and provide better and numerically more stable latent estimations. We use synthetic datasets and four real-world datasets to show that IKD is a better dimensionality reduction method than other eigen-decomposition-based methods, and achieves comparable performance against optimization-based methods with faster running speeds. Open-source IKD implementation in Python can be accessed at this \url{https://github.com/JerrySoybean/ikd}.
翻訳日:2022-11-14 16:41:20 公開日:2022-11-11
# 回帰のための半教師付き変分オートエンコーダ:ソフトセンサへの応用

Semi-supervised Variational Autoencoder for Regression: Application on Soft Sensors ( http://arxiv.org/abs/2211.05979v1 )

ライセンス: Link先を確認
Yilin Zhuang, Zhuobin Zhou, Burak Alakent, Mehmet Mercangoz(参考訳) 本稿では,ソフトセンシングアプリケーション用にカスタマイズされた変分オートエンコーダ(vae)を用いた半教師あり回帰法の開発について述べる。 我々は、プロセス品質変数が他のプロセス変数と同じ頻度で収集されないという事実を考慮して、セミ教師あり学習の使用を動機付けている。 これらのラベルなし記録は教師付き学習法に基づく品質変数予測の訓練には使用できない。 教師なし学習におけるVAEの使用は十分に確立されており、近年は変分推論法に基づく回帰アプリケーションに使われている。 我々は、回帰のための教師付きVAE(SVAER)のアプローチを拡張して、回帰のための半教師付きVAE(SSVAER)につながる非ラベル付きデータから学習できるようにする。 変動的アプローチによる確率的回帰器は、予測のばらつきを同時に推定することができ、生成した予測とともに不確実な定量化を提供する。 我々は,ssvaerを,固定サイズのデータセットを用いた2つのベンチマーク問題に対する,一般の半教師付きおよび教師付き学習法と比較検討した。 これらの実験では、SSVAERは、20のケースのうち11のケースにおいて、第2のベストが20のうち4の低いテストエラーを得る他の方法と比較して、最も低いテストエラーを達成する。

We present the development of a semi-supervised regression method using variational autoencoders (VAE), which is customized for use in soft sensing applications. We motivate the use of semi-supervised learning considering the fact that process quality variables are not collected at the same frequency as other process variables leading to many unlabelled records in operational datasets. These unlabelled records are not possible to use for training quality variable predictions based on supervised learning methods. Use of VAEs for unsupervised learning is well established and recently they were used for regression applications based on variational inference procedures. We extend this approach of supervised VAEs for regression (SVAER) to make it learn from unlabelled data leading to semi-supervised VAEs for regression (SSVAER), then we make further modifications to their architecture using additional regularization components to make SSVAER well suited for learning from both labelled and unlabelled process data. The probabilistic regressor resulting from the variational approach makes it possible to estimate the variance of the predictions simultaneously, which provides an uncertainty quantification along with the generated predictions. We provide an extensive comparative study of SSVAER with other publicly available semi-supervised and supervised learning methods on two benchmark problems using fixed-size datasets, where we vary the percentage of labelled data available for training. In these experiments, SSVAER achieves the lowest test errors in 11 of the 20 studied cases, compared to other methods where the second best gets 4 lowest test errors out of the 20.
翻訳日:2022-11-14 16:41:03 公開日:2022-11-11
# 欠落値の多い患者旅行データを用いた健康リスク予測のための畳み込み・再帰的ニューラルネットワーク

Integrated Convolutional and Recurrent Neural Networks for Health Risk Prediction using Patient Journey Data with Many Missing Values ( http://arxiv.org/abs/2211.06045v1 )

ライセンス: Link先を確認
Yuxi Liu, Shaowen Qin, Antonio Jimeno Yepes, Wei Shao, Zhenhao Zhang, Flora D. Salim(参考訳) 電子健康記録(ehr)を用いた患者の健康リスクの予測は、近年、特に深層学習技術の発展によって注目されている。 健康リスク(Health risk)とは、特定の患者の特定の健康結果の発生確率である。 予測されるリスクは、医療専門家による意思決定を支援するために使用できる。 EHRは構造化された患者旅行データである。 各患者旅行は、臨床イベントの時系列セットを含み、各臨床イベント内には、臨床・医療活動のセットがある。 患者状況や治療ニーズの相違により、EHR患者旅行データは本質的に、時間を含む変数間の関係に影響を及ぼす重要な情報を含む欠落度が高い。 既存のディープラーニングベースのモデルは、関係を学習するときに、欠落した値のインデュート値を生成する。 しかし, EHR患者旅行データにおけるインプテッドデータは, 当初のEHR患者旅行データの臨床的意味を歪め, 分類バイアスをもたらす可能性がある。 本稿では,統合畳み込みニューラルネットワークとリカレントニューラルネットワークを用いたEMH患者旅行データのモデリング手法を提案する。 本モデルは,各患者旅における長期的,短期的両方の時間的パターンを捉えることができ,インプテーションデータ生成を必要とせず,ehlデータの高次欠如を効果的に処理できる。 2つの実世界のデータセットに提案したモデルを用いた大規模な実験結果は、既存の最先端の計算に基づく予測手法と比較して、頑健な性能と優れた予測精度を示す。

Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
翻訳日:2022-11-14 16:40:35 公開日:2022-11-11
# 異種クライアントへのワンタイムモデル適応--クライアント内および画像間アテンション設計

One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and Inter-Image Attention Design ( http://arxiv.org/abs/2211.06276v1 )

ライセンス: Link先を確認
Yikai Yan, Chaoyue Niu, Fan Wu, Qinya Li, Shaojie Tang, Chengfei Lyu, Guihai Chen(参考訳) 画像認識アプリケーションのメインストリームのワークフローは、まずクラウド上の1つのグローバルモデルを幅広いクラスでトレーニングし、その後、認識すべきクラスの小さなサブセットからの異種イメージを持つ多数のクライアントにサービスすることである。 画像クラスの範囲に関するクラウドクライアントの相違から、認識モデルは、各クライアントのローカルな動的クラスのサブセットに集中し、必然的なオーバーヘッドを伴いながら、直感的に強い適応性を持つことが望まれる。 本稿では,既存のバックボーン認識モデルに新しいクライアント内およびイメージ間アテンション(iciia)モジュールを接続することを提案する。 特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAは、クライアントの過去の未ラベル画像から関連画像を取得するためのマルチヘッド自己アテンションを導入し、フォーカスと認識結果を校正する。 さらに,シチリアのオーバーヘッドが線形射影に支配されていることを考慮し,置換のための特徴シャッフルによる分割線形射影を提案し,分割数の増加を可能とし,精度を損なうことなく効率を劇的に向上させる。 5つの代表的なデータセットに対して9つのバックボーンモデルを持つ3つの異なる認識タスクを用いてICIIAを評価する。 ICIIAの有効性と有効性を示した。 具体的には、mobilenetv3-l と swin-b のバックボーンモデルを持つ imagenet-1k では、iciia はテスト精度を 83.37% (+8.11%) と 88.86% (+5.28%) に向上できる。

The mainstream workflow of image recognition applications is first training one global model on the cloud for a wide range of classes and then serving numerous clients, each with heterogeneous images from a small subset of classes to be recognized. From the cloud-client discrepancies on the range of image classes, the recognition model is desired to have strong adaptiveness, intuitively by concentrating the focus on each individual client's local dynamic class subset, while incurring negligible overhead. In this work, we propose to plug a new intra-client and inter-image attention (ICIIA) module into existing backbone recognition models, requiring only one-time cloud-based training to be client-adaptive. In particular, given a target image from a certain client, ICIIA introduces multi-head self-attention to retrieve relevant images from the client's historical unlabeled images, thereby calibrating the focus and the recognition result. Further considering that ICIIA's overhead is dominated by linear projection, we propose partitioned linear projection with feature shuffling for replacement and allow increasing the number of partitions to dramatically improve efficiency without scarifying too much accuracy. We finally evaluate ICIIA using 3 different recognition tasks with 9 backbone models over 5 representative datasets. Extensive evaluation results demonstrate the effectiveness and efficiency of ICIIA. Specifically, for ImageNet-1K with the backbone models of MobileNetV3-L and Swin-B, ICIIA can improve the testing accuracy to 83.37% (+8.11%) and 88.86% (+5.28%), while adding only 1.62% and 0.02% of FLOPs, respectively.
翻訳日:2022-11-14 16:39:41 公開日:2022-11-11
# 時間的行動局所化課題におけるタスク不一致解消のためのソフトランディング戦略

Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks ( http://arxiv.org/abs/2211.06023v1 )

ライセンス: Link先を確認
Hyolim Kang, Hanjung Kim, Joungbin An, Minsu Cho, Seon Joo Kim(参考訳) 時間的行動局在(tal)法は、通常、tac(trimmed action classification)タスクで事前学習された凍結したスニペットエンコーダから特徴列上で動作し、タスクの不一致問題を引き起こす。 既存のTALメソッドは、プリテキストタスクでエンコーダを再トレーニングするか、エンドツーエンドの微調整によってこの問題を軽減するが、通常は高メモリと計算の過剰な負荷を必要とする。 本研究では,ソフトランディング(SoLa)戦略を導入し,凍結エンコーダ上に軽量ニューラルネットワーク,すなわちSoLaモジュールを組み込むことで,事前学習したエンコーダと下流タスク間の伝達可能性ギャップを埋める,効率的かつ効率的なフレームワークを提案する。 また,solaモジュールの教師なし学習方式を提案し,フレーム間隔を監督信号として用いるフレーム間類似性マッチングを用いて学習し,時間的アノテーションを不要とした。 ダウンストリーム TAL タスクに対する様々なベンチマーク実験により,本手法が計算効率に優れたタスク不一致問題を効果的に軽減することを示した。

Temporal Action Localization (TAL) methods typically operate on top of feature sequences from a frozen snippet encoder that is pretrained with the Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy problem. While existing TAL methods mitigate this issue either by retraining the encoder with a pretext task or by end-to-end fine-tuning, they commonly require an overload of high memory and computation. In this work, we introduce Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge the transferability gap between the pretrained encoder and the downstream tasks by incorporating a light-weight neural network, i.e., a SoLa module, on top of the frozen encoder. We also propose an unsupervised training scheme for the SoLa module; it learns with inter-frame Similarity Matching that uses the frame interval as its supervisory signal, eliminating the need for temporal annotations. Experimental evaluation on various benchmarks for downstream TAL tasks shows that our method effectively alleviates the task discrepancy problem with remarkable computational efficiency.
翻訳日:2022-11-14 16:33:49 公開日:2022-11-11
# 効率的な映像フレーム補間のためのプログレッシブモーションコンテキスト洗練ネットワーク

Progressive Motion Context Refine Network for Efficient Video Frame Interpolation ( http://arxiv.org/abs/2211.06024v1 )

ライセンス: Link先を確認
Lingtong Kong, Jinfeng Liu, Jie Yang(参考訳) 近年、フローベースのフレーム補間法は、まずターゲットフレームと入力フレームの間の光フローをモデル化し、次にターゲットフレーム生成のための合成ネットワークを構築することで大きな成功を収めている。 しかし、上述のアーキテクチャは、大きなモデルサイズと推論遅延をもたらし、モバイルおよびリアルタイムアプリケーションからそれらを妨げる可能性がある。 そこで本研究では,より高効率に協調して動き場と画像コンテキストを予測できる新しいプログレッシブモーションコンテキスト改善ネットワーク(pmcrnet)を提案する。 対象フレームを深い特徴から直接合成する他の方法とは異なり,既存のテクスチャを隣接する入力フレームから借用することにより,フレーム補間作業を簡素化する。 さらに,この効率的なPMCRNetの学習プロセスの指針として,新しいアニール型マルチスケール再構築損失を導入する。 複数のベンチマーク実験により,提案手法は定量的かつ定性的な結果を得るだけでなく,現在のモデルサイズや実行時間を著しく短縮することが示された。

Recently, flow-based frame interpolation methods have achieved great success by first modeling optical flow between target and input frames, and then building synthesis network for target frame generation. However, above cascaded architecture can lead to large model size and inference delay, hindering them from mobile and real-time applications. To solve this problem, we propose a novel Progressive Motion Context Refine Network (PMCRNet) to predict motion fields and image context jointly for higher efficiency. Different from others that directly synthesize target frame from deep feature, we explore to simplify frame interpolation task by borrowing existing texture from adjacent input frames, which means that decoder in each pyramid level of our PMCRNet only needs to update easier intermediate optical flow, occlusion merge mask and image residual. Moreover, we introduce a new annealed multi-scale reconstruction loss to better guide the learning process of this efficient PMCRNet. Experiments on multiple benchmarks show that proposed approaches not only achieve favorable quantitative and qualitative results but also reduces current model size and running time significantly.
翻訳日:2022-11-14 16:33:28 公開日:2022-11-11
# token transformer: class tokenは、ウィンドウベースのtransformerがより長距離インタラクションを構築するのに役立つか?

Token Transformer: Can class token help window-based transformer build better long-range interactions? ( http://arxiv.org/abs/2211.06083v1 )

ライセンス: Link先を確認
Jiawei Mao, Yuanqi Chang, Xuesong Yin(参考訳) バニラ変圧器と比較すると、窓ベースの変圧器は精度と効率のトレードオフが良い。 ウィンドウベースのトランスは大きな進歩を遂げているが、ローカルウィンドウのサイズとウィンドウ接続方式により、その長距離モデリング能力は制限されている。 この問題に対処するために,新しいToken Transformer(TT)を提案する。 TTの中核となるメカニズムは、各ローカルウィンドウでウィンドウ情報を要約するクラス(CLS)トークンの追加である。 この種のトークンの相互作用を CLS Attention と呼ぶ。 これらのCLSトークンは、各ウィンドウ内のトークンと空間的に相互作用し、長距離モデリングを可能にする。 ウィンドウベーストランスの階層的設計を維持するため,TTの各フェーズに特徴継承モジュール(FIM)を設計し,前フェーズから次のフェーズにおいてローカルウィンドウ情報をCLSトークンに配信する。 さらに,空間領域とチャネル領域にCLSトークンと埋め込みトークンを付加パラメータなしで混合できる空間チャネルフィードフォワードネットワーク(SCFFN)をTT内に設計した。 我々のTTは画像分類や下流タスクにおいて低いパラメータで競合する結果が得られた。

Compared with the vanilla transformer, the window-based transformer offers a better trade-off between accuracy and efficiency. Although the window-based transformer has made great progress, its long-range modeling capabilities are limited due to the size of the local window and the window connection scheme. To address this problem, we propose a novel Token Transformer (TT). The core mechanism of TT is the addition of a Class (CLS) token for summarizing window information in each local window. We refer to this type of token interaction as CLS Attention. These CLS tokens will interact spatially with the tokens in each window to enable long-range modeling. In order to preserve the hierarchical design of the window-based transformer, we designed Feature Inheritance Module (FIM) in each phase of TT to deliver the local window information from the previous phase to the CLS token in the next phase. In addition, we have designed a Spatial-Channel Feedforward Network (SCFFN) in TT, which can mix CLS tokens and embedded tokens on the spatial domain and channel domain without additional parameters. Extensive experiments have shown that our TT achieves competitive results with low parameters in image classification and downstream tasks.
翻訳日:2022-11-14 16:33:08 公開日:2022-11-11
# repghost:再パラメータによるハードウェア効率のよいゴーストモジュール

RepGhost: A Hardware-Efficient Ghost Module via Re-parameterization ( http://arxiv.org/abs/2211.06088v1 )

ライセンス: Link先を確認
Chengpeng Chen, Zichao Guo, Haien Zeng, Pengfei Xiong, Jian Dong(参考訳) 機能再利用は、軽量畳み込みニューラルネットワーク(CNN)設計において重要な技術である。 現在の方法は通常、連結演算子を使用して、他の層からの特徴マップを再利用することで、大きなチャネル番号を安価に維持する(ネットワーク容量を増加させる)。 結合はパラメータとフラップフリーであるが、ハードウェアデバイスでの計算コストは無視できない。 そこで本稿では,構造的再パラメータ化手法による機能再利用を実現するための新しい視点を提案する。 結合演算子の代わりに、再パラメータ化による暗黙的な機能再利用のために、ハードウェア効率の良いRepGhostモジュールが提案されている。 RepGhostモジュールに基づいて、効率的なRepGhostボトルネックとRepGhostNetを開発する。 ImageNetとCOCOベンチマークの実験では、提案されたRepGhostNetはモバイルデバイス上でのGhostNetやMobileNetV3よりも効率的で効率的であることが示されている。 特に、私たちのRepGhostNetは、ARMベースの携帯電話で、パラメータが少なく、同等のレイテンシで、ImageNetデータセットでGhostNet 0.5倍の2.5%のTop-1精度を達成しています。

Feature reuse has been a key technique in light-weight convolutional neural networks (CNNs) design. Current methods usually utilize a concatenation operator to keep large channel numbers cheaply (thus large network capacity) by reusing feature maps from other layers. Although concatenation is parameters- and FLOPs-free, its computational cost on hardware devices is non-negligible. To address this, this paper provides a new perspective to realize feature reuse via structural re-parameterization technique. A novel hardware-efficient RepGhost module is proposed for implicit feature reuse via re-parameterization, instead of using concatenation operator. Based on the RepGhost module, we develop our efficient RepGhost bottleneck and RepGhostNet. Experiments on ImageNet and COCO benchmarks demonstrate that the proposed RepGhostNet is much more effective and efficient than GhostNet and MobileNetV3 on mobile devices. Specially, our RepGhostNet surpasses GhostNet 0.5x by 2.5% Top-1 accuracy on ImageNet dataset with less parameters and comparable latency on an ARM-based mobile phone.
翻訳日:2022-11-14 16:32:49 公開日:2022-11-11
# 点アノテーションを用いたセル検出のためのバウンディングボックスプリエント

Bounding Box Priors for Cell Detection with Point Annotations ( http://arxiv.org/abs/2211.06104v1 )

ライセンス: Link先を確認
Hari Om Aggrawal, Dipam Goswami, Vinti Agarwal(参考訳) 赤血球のような個々の細胞型の大きさは、ヒトにはあまり変化しない。 私たちは、この知識を、ほんの数個の基底真理バウンディングボックスアノテーションで画像中の細胞を分類し、検出するために、事前の知識として使用します。 この設定は、弱く半教師付き学習につながる。 学習過程における確率的(st)ボックスまたは境界付きボックス予測のどちらかでポイントを置換することを提案する。 提案する"mean-iou" st boxは、境界ボックスのクラス固有の近似前確率分布を持つサンプル空間に属する全てのボックスとの重なりを最大化する。 提案手法は,まずボックスラベル画像,次にポイントラベル画像でトレーニングする既存の手法とは異なり,ボックスラベル画像とポイントラベル画像の両方を併用してトレーニングする。 最も難しい環境では、たった5%の画像を箱入りにすると、尿のデータセットにおける定量的な実験により、1段階の方法が2段階の方法よりも5.56のマップで優れていることが示されます。 さらに、機械学習モデルをトレーニングする前に、"箱入りのアノテーションは何個必要か"に部分的に答えるアプローチを提案する。

The size of an individual cell type, such as a red blood cell, does not vary much among humans. We use this knowledge as a prior for classifying and detecting cells in images with only a few ground truth bounding box annotations, while most of the cells are annotated with points. This setting leads to weakly semi-supervised learning. We propose replacing points with either stochastic (ST) boxes or bounding box predictions during the training process. The proposed "mean-IOU" ST box maximizes the overlap with all the boxes belonging to the sample space with a class-specific approximated prior probability distribution of bounding boxes. Our method trains with both box- and point-labelled images in conjunction, unlike the existing methods, which train first with box- and then point-labelled images. In the most challenging setting, when only 5% images are box-labelled, quantitative experiments on a urine dataset show that our one-stage method outperforms two-stage methods by 5.56 mAP. Furthermore, we suggest an approach that partially answers "how many box-labelled annotations are necessary?" before training a machine learning model.
翻訳日:2022-11-14 16:32:31 公開日:2022-11-11
# ssgvs:セマンティックシーンのグラフからビデオへの合成

SSGVS: Semantic Scene Graph-to-Video Synthesis ( http://arxiv.org/abs/2211.06119v1 )

ライセンス: Link先を確認
Yuren Cong, Jinhui Yi, Bodo Rosenhahn, Michael Ying Yang(参考訳) 画像合成タスクの自然な拡張として、ビデオ合成は近年多くの関心を集めている。 多くの画像合成はクラスラベルやテキストを指導として利用する。 しかしながら、ラベルやテキストは、アクションの開始や終了など、明確な時間的ガイダンスを提供することができない。 この制限を克服するために、シーン内のオブジェクト間の空間的および時間的関係を表現するため、ビデオ合成の入力としてセマンティックビデオシーングラフを導入する。 ビデオシーングラフは通常、時間的に離散的なアノテーションであるため、既存のビデオシーングラフをエンコードするだけでなく、ラベル付きフレームのグラフ表現を予測するビデオシーングラフ(vsg)エンコーダを提案する。 VSGエンコーダは、異なる対照的なマルチモーダル損失で事前訓練されている。 事前訓練されたVSGエンコーダ、VQ-VAE、自動回帰変換器をベースとしたセマンティックシーングラフ合成フレームワーク(SSGVS)を提案し、初期シーン画像と非固定数のセマンティックシーングラフを合成する。 我々は、アクションゲノムデータセット上でSSGVSや他の最先端ビデオ合成モデルを評価し、ビデオ合成における映像シーングラフの意義を実証した。 ソースコードはリリースされます。

As a natural extension of the image synthesis task, video synthesis has attracted a lot of interest recently. Many image synthesis works utilize class labels or text as guidance. However, neither labels nor text can provide explicit temporal guidance, such as when an action starts or ends. To overcome this limitation, we introduce semantic video scene graphs as input for video synthesis, as they represent the spatial and temporal relationships between objects in the scene. Since video scene graphs are usually temporally discrete annotations, we propose a video scene graph (VSG) encoder that not only encodes the existing video scene graphs but also predicts the graph representations for unlabeled frames. The VSG encoder is pre-trained with different contrastive multi-modal losses. A semantic scene graph-to-video synthesis framework (SSGVS), based on the pre-trained VSG encoder, VQ-VAE, and auto-regressive Transformer, is proposed to synthesize a video given an initial scene image and a non-fixed number of semantic scene graphs. We evaluate SSGVS and other state-of-the-art video synthesis models on the Action Genome dataset and demonstrate the positive significance of video scene graphs in video synthesis. The source code will be released.
翻訳日:2022-11-14 16:32:11 公開日:2022-11-11
# FAN-Trans: 顔行動単位検出のためのオンライン知識蒸留

FAN-Trans: Online Knowledge Distillation for Facial Action Unit Detection ( http://arxiv.org/abs/2211.06143v1 )

ライセンス: Link先を確認
Jing Yang, Jie Shen, Yiming Lin, Yordan Hristov, Maja Pantic(参考訳) 顔行動分析の重要性から、顔行動単位(au)の検出は研究コミュニティから注目を集めている。 オンライン知識蒸留フレームワークを活用し,AU検出のための「FANTrans」手法を提案する。 我々のモデルは、AU毎の特徴を学習し、AU共起をモデル化するための、畳み込みと変圧器ブロックのハイブリッドネットワークで構成されている。 モデルは、特徴抽出器として、事前訓練された顔アライメントネットワークを使用する。 小さな学習可能なアドオン畳み込みサブネットによるさらなる変換の後、AU単位の機能はトランスフォーマーブロックに入力され、表現が強化される。 複数のAUが一緒に現れると、異なるAUの特徴間の相関を学習するための学習可能なアテンションドロップ機構をトランスフォーマーブロックに提案する。 また, ausの機能をすべて考慮してauの存在を予測し, ラベル依存を明示的に把握する分類器を設計した。 最後に,本課題のトレーニング段階において,オンライン知識蒸留を適応させる試みを行い,モデルの性能をさらに向上させる。 提案手法の有効性を示すBP4DおよびdisFAデータセットの実験。

Due to its importance in facial behaviour analysis, facial action unit (AU) detection has attracted increasing attention from the research community. Leveraging the online knowledge distillation framework, we propose the ``FANTrans" method for AU detection. Our model consists of a hybrid network of convolution and transformer blocks to learn per-AU features and to model AU co-occurrences. The model uses a pre-trained face alignment network as the feature extractor. After further transformation by a small learnable add-on convolutional subnet, the per-AU features are fed into transformer blocks to enhance their representation. As multiple AUs often appear together, we propose a learnable attention drop mechanism in the transformer block to learn the correlation between the features for different AUs. We also design a classifier that predicts AU presence by considering all AUs' features, to explicitly capture label dependencies. Finally, we make the attempt of adapting online knowledge distillation in the training stage for this task, further improving the model's performance. Experiments on the BP4D and DISFA datasets demonstrating the effectiveness of proposed method.
翻訳日:2022-11-14 16:31:50 公開日:2022-11-11
# 画像認識のための二重補完動的畳み込み

Dual Complementary Dynamic Convolution for Image Recognition ( http://arxiv.org/abs/2211.06163v1 )

ライセンス: Link先を確認
Longbin Yan, Yunxiao Qin, Shumin Liu, Jie Chen(参考訳) 強力なエンジンとして、バニラ畳み込みは様々なコンピュータタスクにおいて大きなブレークスルーを促進させた。 しかし、しばしばサンプルや内容に依存しない問題に悩まされ、畳み込みニューラルネットワーク(CNN)の表現能力を制限する。 本稿では,各個人が共有する局所的空間適応部分と全個人が共有するグローバルシフト不変部分の組み合わせとして,シーンの特徴を初めてモデル化し,これら2つの特徴を柔軟に扱うための新しい2分岐2相補的動的畳み込み(dcdcdc)演算子を提案する。 DCDCオペレータはバニラ畳み込みの限界を克服し、既存の動的畳み込みは空間適応的な特徴のみを捉え、CNNの表現能力を大幅に向上させる。 実験の結果,DCDC 演算子ベースの ResNets (DCDC-ResNets) は,画像分類におけるバニラ ResNets や最先端の動的畳み込みネットワーク,オブジェクト検出やインスタンス,汎視的セグメンテーションタスクなどの下流タスク,より低いFLOP やパラメータよりも優れていた。

As a powerful engine, vanilla convolution has promoted huge breakthroughs in various computer tasks. However, it often suffers from sample and content agnostic problems, which limits the representation capacities of the convolutional neural networks (CNNs). In this paper, we for the first time model the scene features as a combination of the local spatial-adaptive parts owned by the individual and the global shift-invariant parts shared to all individuals, and then propose a novel two-branch dual complementary dynamic convolution (DCDC) operator to flexibly deal with these two types of features. The DCDC operator overcomes the limitations of vanilla convolution and most existing dynamic convolutions who capture only spatial-adaptive features, and thus markedly boosts the representation capacities of CNNs. Experiments show that the DCDC operator based ResNets (DCDC-ResNets) significantly outperform vanilla ResNets and most state-of-the-art dynamic convolutional networks on image classification, as well as downstream tasks including object detection, instance and panoptic segmentation tasks, while with lower FLOPs and parameters.
翻訳日:2022-11-14 16:31:33 公開日:2022-11-11
# Human Diffusion: テキスト駆動型画像生成のための粗調整拡散フレームワーク

HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation ( http://arxiv.org/abs/2211.06235v1 )

ライセンス: Link先を確認
Kaiduo Zhang, Muyi Sun, Jianxin Sun, Binghao Zhao, Kunbo Zhang, Zhenan Sun, Tieniu Tan(参考訳) テキスト駆動の人物画像生成は、相互モダリティ画像生成において新しく挑戦的なタスクである。 制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。 しかし、従来の方法は、主に先行条件(ポーズ誘導人物画像生成など)として単一のモダリティ情報を用いるか、テキスト駆動人間の合成に予め設定された単語を利用する。 自由語からなる文を編集可能なセマンティックポーズマップで導入し、人物の外観を記述することは、よりユーザフレンドリーな方法である。 本稿では,テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。 具体的には、データ処理における微細な特徴蒸留のためのStylized Memory Retrieval (SMR)モジュールと、拡散における粗い特徴アライメントのためのMulti-scale Cross-modality Alignment (MCA)モジュールである。 これら2つのモジュールは、画像レベルから特徴レベルまで、低解像度から高解像度まで、テキストと画像のアライメント品質を保証する。 その結果、HumanDiffusionは所望のセマンティックポーズを持つオープン語彙の人物画像生成を実現する。 DeepFashionで行った大規模な実験は、従来の手法と比較して、我々の手法の優位性を示している。 さらに、様々な細部と珍しいポーズを持つ複雑な人物画像に対して、より良い結果が得られる。

Text-driven person image generation is an emerging and challenging task in cross-modality image generation. Controllable person image generation promotes a wide range of applications such as digital human interaction and virtual try-on. However, previous methods mostly employ single-modality information as the prior condition (e.g. pose-guided person image generation), or utilize the preset words for text-driven human synthesis. Introducing a sentence composed of free words with an editable semantic pose map to describe person appearance is a more user-friendly way. In this paper, we propose HumanDiffusion, a coarse-to-fine alignment diffusion framework, for text-driven person image generation. Specifically, two collaborative modules are proposed, the Stylized Memory Retrieval (SMR) module for fine-grained feature distillation in data processing and the Multi-scale Cross-modality Alignment (MCA) module for coarse-to-fine feature alignment in diffusion. These two modules guarantee the alignment quality of the text and image, from image-level to feature-level, from low-resolution to high-resolution. As a result, HumanDiffusion realizes open-vocabulary person image generation with desired semantic poses. Extensive experiments conducted on DeepFashion demonstrate the superiority of our method compared with previous approaches. Moreover, better results could be obtained for complicated person images with various details and uncommon poses.
翻訳日:2022-11-14 16:30:39 公開日:2022-11-11
# ブラックボックスモデルにおける局所線形説明計測のためのREVELフレームワーク:ディープラーニング画像分類の事例

REVEL Framework to measure Local Linear Explanations for black-box models: Deep Learning Image Classification case of study ( http://arxiv.org/abs/2211.06154v1 )

ライセンス: Link先を確認
Iv\'an Sevillano-Garc\'ia, Juli\'an Luengo-Mart\'in and Francisco Herrera(参考訳) 人工知能が行う推論の説明を提供するために、説明可能な人工知能を提案する。 これらの説明の質を評価する方法については、文献で説明の定義自体が明確でないため、合意が得られていない。 特に、広く知られている局所線形説明には、理論的に矛盾しているにもかかわらず、説明を評価するための定性的な提案がある。 画像の場合はさらに問題になり、エッジを検出しながら判断を説明する視覚的な説明が実際に行われている。 様々な質的な側面を定量的に測定することに特化した文献には、多数のメトリクスがあるので、説明の望ましい側面を堅牢で正しい方法で測定できるメトリクスを開発できるはずです。 本稿では,理論的コヒーレントな発展を伴う説明の質に関する諸側面を評価するためのREVELと呼ばれる手法を提案する。 この手順は、説明の概念を標準化し、それらを比較できるだけでなく、説明そのものに関する絶対的な情報を得るための一連のメトリクスを開発する。 画像4データセットをベンチマークとして実験を行い,revelの記述的・分析的パワーを示す。

Explainable artificial intelligence is proposed to provide explanations for reasoning performed by an Artificial Intelligence. There is no consensus on how to evaluate the quality of these explanations, since even the definition of explanation itself is not clear in the literature. In particular, for the widely known Local Linear Explanations, there are qualitative proposals for the evaluation of explanations, although they suffer from theoretical inconsistencies. The case of image is even more problematic, where a visual explanation seems to explain a decision while detecting edges is what it really does. There are a large number of metrics in the literature specialized in quantitatively measuring different qualitative aspects so we should be able to develop metrics capable of measuring in a robust and correct way the desirable aspects of the explanations. In this paper, we propose a procedure called REVEL to evaluate different aspects concerning the quality of explanations with a theoretically coherent development. This procedure has several advances in the state of the art: it standardizes the concepts of explanation and develops a series of metrics not only to be able to compare between them but also to obtain absolute information regarding the explanation itself. The experiments have been carried out on image four datasets as benchmark where we show REVEL's descriptive and analytical power.
翻訳日:2022-11-14 16:25:03 公開日:2022-11-11
# 対話的説明体験のための行動ツリー

Behaviour Trees for Conversational Explanation Experiences ( http://arxiv.org/abs/2211.06402v1 )

ライセンス: Link先を確認
Anjana Wijekoon and David Corsar and Nirmalie Wiratunga(参考訳) 説明可能なAI(XAI)は、信頼の構築と意思決定のためにAIシステムと対話するユーザの満足度向上に大きな影響を与える可能性がある。 このニーズに対処するため、文献には多くの説明技法がある。 近年,説明戦略として紹介する説明手法の連成によって対処すべき説明ニーズが複数存在する可能性が示唆されている。 本稿では、ユーザがXAIシステムと対話して、これらの複数の説明ニーズを説明戦略で満たす方法に焦点を当てる。 そこで本稿では,XAIシステムによるユーザインタラクションのエピソードとして,AIシステムによる意思決定を説明する上での"説明体験"の概念を紹介する。 本稿では,対話的インタラクションを通じて説明体験を実現する方法について検討する。 対話型説明体験を対話モデルとしてモデル化する。 特にビヘイビアツリー(bt)は会話の経路やチャットボットの振る舞いをモデル化するために使用される。 BT対話モデルは、異なるユーザニーズや説明戦略に対応するように動的に拡張または修正することで、容易にパーソナライズできる。 実世界のユースケースによる評価では、BTは従来の状態遷移モデルと比較して、モデル化や説明経験のキャプチャに自然に寄与する多くの特性を持っている。

Explainable AI (XAI) has the potential to make a significant impact on building trust and improving the satisfaction of users who interact with an AI system for decision-making. There is an abundance of explanation techniques in literature to address this need. Recently, it has been shown that a user is likely to have multiple explanation needs that should be addressed by a constellation of explanation techniques which we refer to as an explanation strategy. This paper focuses on how users interact with an XAI system to fulfil these multiple explanation needs satisfied by an explanation strategy. For this purpose, the paper introduces the concept of an "explanation experience" - as episodes of user interactions captured by the XAI system when explaining the decisions made by its AI system. In this paper, we explore how to enable and capture explanation experiences through conversational interactions. We model the interactive explanation experience as a dialogue model. Specifically, Behaviour Trees (BT) are used to model conversational pathways and chatbot behaviours. A BT dialogue model is easily personalised by dynamically extending or modifying it to attend to different user needs and explanation strategies. An evaluation with a real-world use case shows that BTs have a number of properties that lend naturally to modelling and capturing explanation experiences; as compared to traditionally used state transition models.
翻訳日:2022-11-14 16:24:44 公開日:2022-11-11
# ウェアラブルパッチ超音波容積イメージングのための特徴集積時空間的脊椎表面推定

Feature-aggregated spatiotemporal spine surface estimation for wearable patch ultrasound volumetric imaging ( http://arxiv.org/abs/2211.05962v1 )

ライセンス: Link先を確認
Baichuan Jiang, Keshuai Xu, Ahbay Moghekar, Peter Kazanzides and Emad Boctor(参考訳) 超音波ガイド下腰椎介入には骨構造の明瞭な同定が重要であるが、椎体解剖学の複雑な形状と、周囲の軟部組織構造からの幅広い背景スペックルノイズのため困難である。 そこで本研究では,複数の画像角度から反射性骨表面を捉え,介入指導のための3次元骨表現を作成するためのパッチ状ウェアラブル超音波ソリューションを提案する。 本稿では,B-Mode画像から学習した時空間的U-Netアーキテクチャと手作りフィルタの特徴マップを用いて,脊椎骨表面を推定する手法を提案する。 提案する小型ウェアラブル「パッチ」超音波装置で収集した脊椎ファントム画像データを用いて評価を行い, 提案手法の精度向上が期待できることを示す。 この表面推定フレームワークを組み込んだウェアラブル超音波システムは、拡張現実環境で臨床医に直感的かつ正確な介入指導を提供することができる。

Clear identification of bone structures is crucial for ultrasound-guided lumbar interventions, but it can be challenging due to the complex shapes of the self-shadowing vertebra anatomy and the extensive background speckle noise from the surrounding soft tissue structures. Therefore, we propose to use a patch-like wearable ultrasound solution to capture the reflective bone surfaces from multiple imaging angles and create 3D bone representations for interventional guidance. In this work, we will present our method for estimating the vertebra bone surfaces by using a spatiotemporal U-Net architecture learning from the B-Mode image and aggregated feature maps of hand-crafted filters. The methods are evaluated on spine phantom image data collected by our proposed miniaturized wearable "patch" ultrasound device, and the results show that a significant improvement on baseline method can be achieved with promising accuracy. Equipped with this surface estimation framework, our wearable ultrasound system can potentially provide intuitive and accurate interventional guidance for clinicians in augmented reality setting.
翻訳日:2022-11-14 16:23:40 公開日:2022-11-11
# JSRNN: 高品質画像圧縮センシングのための統合サンプリングと再構成ニューラルネットワーク

JSRNN: Joint Sampling and Reconstruction Neural Networks for High Quality Image Compressed Sensing ( http://arxiv.org/abs/2211.05963v1 )

ライセンス: Link先を確認
Chunyan Zeng, Jiaxiang Ye, Zhifeng Wang, Nan Zhao, Minghu Wu(参考訳) ほとんどのディープラーニング(DL)ベースの圧縮センシング(DCS)アルゴリズムは信号再構成のために単一のニューラルネットワークを採用しており、サンプリング操作の影響を共同で検討することができない。 本稿では, よく設計されたカスケードニューラルネットワークに基づく画像圧縮センシングのためのサンプリングと再構成を共同で検討する統合フレームワークを提案する。 提案フレームワークには,サンプリングサブネットワークと再構成サブネットワークの2つのサブネットワークが含まれている。 サンプリングサブネットワークでは、従来のランダムマトリクスではなく適応的なフル接続層を用いてサンプリング演算子を模倣する。 再構成サブネットワークでは,sda(stacked denoising autoencoder)とcnn(convolutional neural network)を組み合わせたカスケードネットワークが信号再構成のために設計されている。 SDAは信号マッピングの問題を解決するために使用され、最初に信号が再構成される。 さらに、cnnを用いて画像の構造とテクスチャ特性を完全に復元し、より優れた再構成性能を得る。 広範な実験により、このフレームワークは、特に低いサンプリング率で、他の多くの最先端の手法よりも優れていることが示されている。

Most Deep Learning (DL) based Compressed Sensing (DCS) algorithms adopt a single neural network for signal reconstruction, and fail to jointly consider the influences of the sampling operation for reconstruction. In this paper, we propose unified framework, which jointly considers the sampling and reconstruction process for image compressive sensing based on well-designed cascade neural networks. Two sub-networks, which are the sampling sub-network and the reconstruction sub-network, are included in the proposed framework. In the sampling sub-network, an adaptive full connected layer instead of the traditional random matrix is used to mimic the sampling operator. In the reconstruction sub-network, a cascade network combining stacked denoising autoencoder (SDA) and convolutional neural network (CNN) is designed to reconstruct signals. The SDA is used to solve the signal mapping problem and the signals are initially reconstructed. Furthermore, CNN is used to fully recover the structure and texture features of the image to obtain better reconstruction performance. Extensive experiments show that this framework outperforms many other state-of-the-art methods, especially at low sampling rates.
翻訳日:2022-11-14 16:23:15 公開日:2022-11-11
# LiDAL: 3次元LiDARセマンティックセグメンテーションのためのフレーム間不確実性に基づくアクティブラーニング

LiDAL: Inter-frame Uncertainty Based Active Learning for 3D LiDAR Semantic Segmentation ( http://arxiv.org/abs/2211.05997v1 )

ライセンス: Link先を確認
Zeyu Hu, Xuyang Bai, Runze Zhang, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai(参考訳) フレーム間不確実性を利用した3次元LiDARセマンティックセマンティックセグメンテーションのための新しいアクティブラーニング手法LiDALを提案する。 我々の中核的な考え方は、シーンスキャンの視点に関係なく、十分に訓練されたモデルが堅牢な結果を生成すべきであり、したがってフレーム間のモデル予測の不整合は、アクティブなサンプル選択の不確実性の非常に確実な尺度を提供する。 この不確実性尺度を実現するために, アクティブ選択のための指標として, 新たなフレーム間発散とエントロピー定式化を導入する。 さらに,提案するフレーム間不確実性尺度を用いて選択した擬似ラベルの予測と組み込みにより,さらなる性能向上を示す。 我々は,セマンティックKITTIおよびnuScenesデータセットのアノテーションの5%未満で完全に教師付き学習のパフォーマンスを95%達成し,最先端のアクティブな学習方法より優れた結果を得た。 コードリリース:https://github.com/hzykent/LiDAL。

We propose LiDAL, a novel active learning method for 3D LiDAR semantic segmentation by exploiting inter-frame uncertainty among LiDAR frames. Our core idea is that a well-trained model should generate robust results irrespective of viewpoints for scene scanning and thus the inconsistencies in model predictions across frames provide a very reliable measure of uncertainty for active sample selection. To implement this uncertainty measure, we introduce new inter-frame divergence and entropy formulations, which serve as the metrics for active selection. Moreover, we demonstrate additional performance gains by predicting and incorporating pseudo-labels, which are also selected using the proposed inter-frame uncertainty measure. Experimental results validate the effectiveness of LiDAL: we achieve 95% of the performance of fully supervised learning with less than 5% of annotations on the SemanticKITTI and nuScenes datasets, outperforming state-of-the-art active learning methods. Code release: https://github.com/hzykent/LiDAL.
翻訳日:2022-11-14 16:22:54 公開日:2022-11-11
# 変圧器自己注意に基づくエンドツーエンドマルチターゲット追跡法の改良

An Improved End-to-End Multi-Target Tracking Method Based on Transformer Self-Attention ( http://arxiv.org/abs/2211.06001v1 )

ライセンス: Link先を確認
Yong Hong, Deren Li, Shupei Luo, Xin Chen, Yi Yang, Mi Wang(参考訳) 本研究では,変換器のエンコーダ・デコーダ構造の自己検出機構に基づいて,多視点マルチスケールシーンに適応する改良されたエンドツーエンドマルチターゲットトラッキングアルゴリズムを提案する。 多次元特徴抽出バックボーンネットワークは、相関のためにエンコーダに格納され、ターゲット位置符号化および多次元特徴ベクトルを生成する自己構築意味ラスターマップとを結合する。 このデコーダには、マルチビューターゲットの空間クラスタリングとセマンティックフィルタリング、多次元特徴の動的マッチング、時空間論理に基づくマルチターゲットトラッキング、時空間収束ネットワーク(STCN)ベースのパラメータパッシングの4つの手法が組み込まれている。 複数の復号法を融合することにより、ミューティカメラターゲットは時間論理、空間論理、特徴マッチングの3次元で追跡される。 MOT17データセットでは,Multiple Object Tracking Accuracy(MOTA)測定値において,現在の最先端手法であるMiniTrackV2[49]を2.2%から0.836倍に向上させる。 さらに本研究では,まず振り返り機構を提案し,過去の誤記目標を最適化してf1-score(idf1)の識別を改善する逆次処理手法を採用する。 自作のデータセットOVIT-MOT01では、IDF1は0.948から0.967に改善され、Multi-camera Tracking Accuracy (MCTA)は0.878から0.909に改善され、継続的な追跡精度とシーン適応が大幅に改善された。 本手法では,マルチターゲットトラッキング(MOT17とOVIT-MOT01)タスクの最先端性能を実現する新しい注目トラッキングパラダイムを提案する。

This study proposes an improved end-to-end multi-target tracking algorithm that adapts to multi-view multi-scale scenes based on the self-attentive mechanism of the transformer's encoder-decoder structure. A multi-dimensional feature extraction backbone network is combined with a self-built semantic raster map, which is stored in the encoder for correlation and generates target position encoding and multi-dimensional feature vectors. The decoder incorporates four methods: spatial clustering and semantic filtering of multi-view targets, dynamic matching of multi-dimensional features, space-time logic-based multi-target tracking, and space-time convergence network (STCN)-based parameter passing. Through the fusion of multiple decoding methods, muti-camera targets are tracked in three dimensions: temporal logic, spatial logic, and feature matching. For the MOT17 dataset, this study's method significantly outperforms the current state-of-the-art method MiniTrackV2 [49] by 2.2% to 0.836 on Multiple Object Tracking Accuracy(MOTA) metric. Furthermore, this study proposes a retrospective mechanism for the first time, and adopts a reverse-order processing method to optimise the historical mislabeled targets for improving the Identification F1-score(IDF1). For the self-built dataset OVIT-MOT01, the IDF1 improves from 0.948 to 0.967, and the Multi-camera Tracking Accuracy(MCTA) improves from 0.878 to 0.909, which significantly improves the continuous tracking accuracy and scene adaptation. This research method introduces a new attentional tracking paradigm which is able to achieve state-of-the-art performance on multi-target tracking (MOT17 and OVIT-MOT01) tasks.
翻訳日:2022-11-14 16:22:34 公開日:2022-11-11
# コンピュータビジョンのための変圧器の総合的調査

A Comprehensive Survey of Transformers for Computer Vision ( http://arxiv.org/abs/2211.06004v1 )

ライセンス: Link先を確認
Sonain Jamil, Md. Jalil Piran, and Oh-Jin Kwon(参考訳) 特殊な変換器として、視覚変換器(ViT)は、画像認識などの様々なコンピュータビジョンアプリケーション(CV)に使用される。 ViTで解決できる畳み込みニューラルネットワーク(CNN)にはいくつかの潜在的な問題がある。 圧縮、スーパーレゾリューション、セグメンテーション、デノジングなどの画像符号化タスクでは、vitの異なるバリエーションが使用される。 本研究の目的はcvにおけるvitsの応用について述べることである。 この調査は、VTs for CVsに関する私たちの知る限りでは初めてのものだ。 最初のステップでは、ViTが適用可能な様々なCVアプリケーションを分類する。 CVアプリケーションには、画像分類、オブジェクト検出、画像セグメンテーション、画像圧縮、画像超解像、画像デノイング、異常検出などがある。 次のステップは、各カテゴリの最先端をレビューし、利用可能なモデルをリストアップすることです。 次に,各モデルの詳細な分析と比較を行い,その長所と短所をリストアップする。 その後、各カテゴリで学んだ洞察と教訓を提示します。 さらに,オープンな研究課題と今後の研究方向性についても論じる。

As a special type of transformer, Vision Transformers (ViTs) are used to various computer vision applications (CV), such as image recognition. There are several potential problems with convolutional neural networks (CNNs) that can be solved with ViTs. For image coding tasks like compression, super-resolution, segmentation, and denoising, different variants of the ViTs are used. The purpose of this survey is to present the first application of ViTs in CV. The survey is the first of its kind on ViTs for CVs to the best of our knowledge. In the first step, we classify different CV applications where ViTs are applicable. CV applications include image classification, object detection, image segmentation, image compression, image super-resolution, image denoising, and anomaly detection. Our next step is to review the state-of-the-art in each category and list the available models. Following that, we present a detailed analysis and comparison of each model and list its pros and cons. After that, we present our insights and lessons learned for each category. Moreover, we discuss several open research challenges and future research directions.
翻訳日:2022-11-14 16:22:06 公開日:2022-11-11
# MDFlow:相互知識蒸留による教師なし光フロー学習

MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge Distillation ( http://arxiv.org/abs/2211.06018v1 )

ライセンス: Link先を確認
Lingtong Kong, Jie Yang(参考訳) 近年の研究では、輝度定数の仮定と滑らかさを前提に、ラベルなしの画像ペアから深いネットワークで光の流れを学習できることが示されている。 現在のアプローチはまた、困難なマッチング領域に有効であることが証明された連続的な自己超越に対する拡張正規化項を課している。 しかし、この手法は教師なしの設定における避けられないミスマッチを増幅し、学習プロセスを最適解に向けてブロックする。 このジレンマを打破するために,教師と学生のネットワーク間で信頼性のある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。 具体的には,教師から学生への適切な信頼度の高い知識を抽出するための多種多様なデータ拡張を,教師から生徒へ与える信頼度選択機構の定義に着目する。 我々の方法の分離性のおかげで、十分な学習のためにより強力な学生アーキテクチャを選択できる。 最後に、より優れた学生予測が採用され、実際の展開に余分なコストがかからない効率的な教師に知識を振り返る。 教師付きタスクとして定式化するのではなく、マルチターゲット学習に余分に教師なしの用語を導入することで、最高の最終結果が得られる。 MDFlowと呼ばれる我々の手法は、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。 コードはhttps://github.com/ltkong218/MDFlowで入手できる。

Recent works have shown that optical flow can be learned by deep networks from unlabelled image pairs based on brightness constancy assumption and smoothness prior. Current approaches additionally impose an augmentation regularization term for continual self-supervision, which has been proved to be effective on difficult matching regions. However, this method also amplify the inevitable mismatch in unsupervised setting, blocking the learning process towards optimal solution. To break the dilemma, we propose a novel mutual distillation framework to transfer reliable knowledge back and forth between the teacher and student networks for alternate improvement. Concretely, taking estimation of off-the-shelf unsupervised approach as pseudo labels, our insight locates at defining a confidence selection mechanism to extract relative good matches, and then add diverse data augmentation for distilling adequate and reliable knowledge from teacher to student. Thanks to the decouple nature of our method, we can choose a stronger student architecture for sufficient learning. Finally, better student prediction is adopted to transfer knowledge back to the efficient teacher without additional costs in real deployment. Rather than formulating it as a supervised task, we find that introducing an extra unsupervised term for multi-target learning achieves best final results. Extensive experiments show that our approach, termed MDFlow, achieves state-of-the-art real-time accuracy and generalization ability on challenging benchmarks. Code is available at https://github.com/ltkong218/MDFlow.
翻訳日:2022-11-14 16:21:48 公開日:2022-11-11
# ゲーム内有害言語検出:タスクの共有と注意の残り

In-game Toxic Language Detection: Shared Task and Attention Residuals ( http://arxiv.org/abs/2211.05995v1 )

ライセンス: Link先を確認
Yuanzhe Jia, Weixuan Wu, Feiqi Cao, Soyeon Caren Han(参考訳) ゲーム内有毒言語は、ゲーム業界やコミュニティにおいてホットポテトとなる。 オンラインゲーム毒性分析フレームワークやモデルが提案されている。 しかし,ゲーム内チャットの性質が極めて短いため,毒性を検出することは依然として困難である。 本稿では,実際のゲーム内チャットデータを用いて,ゲーム内有害言語共有タスクの確立について述べる。 さらに,ゲーム内チャットから有害な言語トークンタグ付け(slot fill)のためのモデル/フレームワークを提案する。 データとコードはリリースされます。

In-game toxic language becomes the hot potato in the gaming industry and community. There have been several online game toxicity analysis frameworks and models proposed. However, it is still challenging to detect toxicity due to the nature of in-game chat, which has extremely short length. In this paper, we describe how the in-game toxic language shared task has been established using the real-world in-game chat data. In addition, we propose and introduce the model/framework for toxic language token tagging (slot filling) from the in-game chat. The data and code will be released.
翻訳日:2022-11-14 16:15:22 公開日:2022-11-11
# coral: コンテキスト対応のクロアチア語乱用言語データセット

CoRAL: a Context-aware Croatian Abusive Language Dataset ( http://arxiv.org/abs/2211.06053v1 )

ライセンス: Link先を確認
Ravi Shekhar, Mladen Karan, Matthew Purver(参考訳) インターネットやソーシャルメディアの人気が前例のない高まりに照らして、コメントのモデレーションは、これまで以上に重要なタスクではなかった。 半自動コメントモデレーションシステムは、例を自動分類するか、どのコメントを最初に検討するかをモデレーターに優先させることによって、人間のモデレーターを大いに助ける。 しかし、不適切な内容の概念はしばしば主観的であり、そのような内容は多くの微妙で間接的な方法で伝えられる。 本研究では,クロアチアの言語と文化的に意識された虐待的データセットであるCoRALを提案する。 コメントが明示的でない場合、現在のモデルは劣化し、コメントを解釈するために言語スキルと文脈知識を必要とする場合、さらに劣化することを示す。

In light of unprecedented increases in the popularity of the internet and social media, comment moderation has never been a more relevant task. Semi-automated comment moderation systems greatly aid human moderators by either automatically classifying the examples or allowing the moderators to prioritize which comments to consider first. However, the concept of inappropriate content is often subjective, and such content can be conveyed in many subtle and indirect ways. In this work, we propose CoRAL -- a language and culturally aware Croatian Abusive dataset covering phenomena of implicitness and reliance on local and global context. We show experimentally that current models degrade when comments are not explicit and further degrade when language skill and context knowledge are required to interpret the comment.
翻訳日:2022-11-14 16:15:14 公開日:2022-11-11
# 弱い人を助ける: シンプルなマルチタスク学習は非回帰翻訳者を改善する

Helping the Weak Makes You Strong: Simple Multi-Task Learning Improves Non-Autoregressive Translators ( http://arxiv.org/abs/2211.06075v1 )

ライセンス: Link先を確認
Xinyou Wang, Zaixiang Zheng, Shujian Huang(参考訳) 近年、非自己回帰(NAR)ニューラルマシン翻訳モデルは、その効率的な並列復号化により注目されている。 しかし、narモデルの確率論的枠組みは、人間の言語データの特徴化に乏しい目標系列に対する条件付き独立性仮定を必要とする。 この欠点は、従来のMLEトレーニングにおいて、NARモデルの学習信号が少ないため、自己回帰(AR)モデルと比較して不満足な精度が得られる。 本稿では,より情報的な学習信号を提供するための,シンプルでモデルに依存しないマルチタスク学習フレームワークを提案する。 トレーニング段階では、ナルデコーダが提供する情報のみを頼りに、ナルデコーダがより強くなり、あるいはその弱いarパートナーをサポートすることができないような、十分に弱いarデコーダのセットを導入する。 WMTおよびIWSLTデータセットの実験により、我々の手法は、追加のデコードオーバーヘッドを加えることなく、複数のNARベースラインの精度を一貫して改善できることを示した。

Recently, non-autoregressive (NAR) neural machine translation models have received increasing attention due to their efficient parallel decoding. However, the probabilistic framework of NAR models necessitates conditional independence assumption on target sequences, falling short of characterizing human language data. This drawback results in less informative learning signals for NAR models under conventional MLE training, thereby yielding unsatisfactory accuracy compared to their autoregressive (AR) counterparts. In this paper, we propose a simple and model-agnostic multi-task learning framework to provide more informative learning signals. During training stage, we introduce a set of sufficiently weak AR decoders that solely rely on the information provided by NAR decoder to make prediction, forcing the NAR decoder to become stronger or else it will be unable to support its weak AR partners. Experiments on WMT and IWSLT datasets show that our approach can consistently improve accuracy of multiple NAR baselines without adding any additional decoding overhead.
翻訳日:2022-11-14 16:15:01 公開日:2022-11-11
# どのように#chinaを嫌うか? パンデミック・ビーガンの2年後の中国関連ヘイトフルツイートに関する予備分析

How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began ( http://arxiv.org/abs/2211.06116v1 )

ライセンス: Link先を確認
Jinghua Xu, Zarah Weiss(参考訳) 世界的パンデミックの勃発後、オンラインコンテンツはヘイトスピーチで満たされている。 ドナルド・トランプ米大統領の「中国ウイルス」ツイートは、新型コロナウイルス(COVID-19)の感染拡大の責任を中国と中国にシフトさせた。 この研究は、パンデミック(2020年と2021年)の勃発から2年間、中国関連ヘイトスピーチをtwitterで調査することを目的としている。 twitterのapiを通じて、#chinaが投稿した2,172,333のツイートが収集された。 ヘイトスピーチ検出のために、最先端の事前学習された言語モデルを使用して、さまざまなタイプのヘイトを広範囲に識別することで、自動ラベル付き反中国ヘイトスピーチデータセットを生成する。 2020年には2.5%、2021年には1.9%だった。 これは、twitter上でのヘイトスピーチの平均レートを、gao et al., 2017で0.6%上回っている。 さらに,2020年と2021年における#chinaツイートの縦断的展開と嫌悪感を,2年間の日数と嫌悪率を可視化することで分析した。 我々の#chinaツイートにおけるヘイトスピーチのキーワード分析では、#chinaツイートで最も頻繁に言及される用語が明らかにされている。

Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.
翻訳日:2022-11-14 16:14:45 公開日:2022-11-11
# 関係抽出のためのユニモーダル・マルチモーダル表現訓練

Unimodal and Multimodal Representation Training for Relation Extraction ( http://arxiv.org/abs/2211.06168v1 )

ライセンス: Link先を確認
Ciaran Cooney, Rachel Heyburn, Liam Maddigan, Mairead O'Cuinn, Chloe Thompson and Joana Cavadas(参考訳) テキスト、レイアウト、視覚情報のマルチモーダル統合は、関係抽出(RE)を含む視覚的にリッチな文書理解(VrDU)タスクを実現する。 しかし、その重要性にもかかわらず、これらのモダリティの相対的予測能力の評価は一般的ではない。 本稿では,各データ型を訓練中に反復的に除外した実験を行い,reタスクにおける共有表現の価値を示す。 さらに、テキストとレイアウトデータを分離して評価する。 バイモーダルテキストとレイアウトアプローチが最善であるのに対して(F1=0.684)、テキストはエンティティ関係の最も重要な単一予測器であることを示す。 さらに、レイアウトの幾何学は高い予測力を持ち、実現可能な単調なアプローチかもしれない。 効果が低いにもかかわらず、視覚情報がパフォーマンスを高めることができる状況を強調します。 以上の結果から,RE訓練における関節表現の有効性が示された。

Multimodal integration of text, layout and visual information has achieved SOTA results in visually rich document understanding (VrDU) tasks, including relation extraction (RE). However, despite its importance, evaluation of the relative predictive capacity of these modalities is less prevalent. Here, we demonstrate the value of shared representations for RE tasks by conducting experiments in which each data type is iteratively excluded during training. In addition, text and layout data are evaluated in isolation. While a bimodal text and layout approach performs best (F1=0.684), we show that text is the most important single predictor of entity relations. Additionally, layout geometry is highly predictive and may even be a feasible unimodal approach. Despite being less effective, we highlight circumstances where visual information can bolster performance. In total, our results demonstrate the efficacy of training joint representations for RE.
翻訳日:2022-11-14 16:14:23 公開日:2022-11-11
# DocuT5: テーブルドキュメンテーションを備えたSeq2seq SQL生成

DocuT5: Seq2seq SQL Generation with Table Documentation ( http://arxiv.org/abs/2211.06193v1 )

ライセンス: Link先を確認
Elena Soare, Iain Mackie, Jeffrey Dalton(参考訳) 事前訓練された言語モデルに基づく現在のSQLジェネレータは、ドメインコンテキストを必要とする複雑な質問に答えたり、きめ細かいテーブル構造を理解するのに苦労しています。 人間はこれらの未知に対処し、テーブルのドキュメントを推論する。 この仮説に基づいて、既製の言語モデルアーキテクチャを使用し、ドメインの一般化を改善するために外部のドキュメントから知識を注入するDocuT5を提案する。 我々は、クロスドメインでマルチテーブルな複雑な質問を含むデータセットのスパイダーファミリーで実験を行う。 具体的には、新しいテキストからSQLへの障害分類を開発し、19.6%のエラーは外国のキーミスによるもので、49.2%はドメイン知識の欠如によるものである。 我々は,(1)外部キーの表構造コンテキストから知識を取り込むdocut5と,(2)表と列のコンテキスト化を通じてドメイン知識を取得するdocut5を提案する。 どちらのタイプの知識もクモ上の制限されたデコードによって最先端のt5よりも改善され、ドメイン知識はスパイダーdkとスパイダーシンデータセットで最先端の同等な効果を生み出す。

Current SQL generators based on pre-trained language models struggle to answer complex questions requiring domain context or understanding fine-grained table structure. Humans would deal with these unknowns by reasoning over the documentation of the tables. Based on this hypothesis, we propose DocuT5, which uses off-the-shelf language model architecture and injects knowledge from external `documentation' to improve domain generalization. We perform experiments on the Spider family of datasets that contain complex questions that are cross-domain and multi-table. Specifically, we develop a new text-to-SQL failure taxonomy and find that 19.6% of errors are due to foreign key mistakes, and 49.2% are due to a lack of domain knowledge. We proposed DocuT5, a method that captures knowledge from (1) table structure context of foreign keys and (2) domain knowledge through contextualizing tables and columns. Both types of knowledge improve over state-of-the-art T5 with constrained decoding on Spider, and domain knowledge produces state-of-the-art comparable effectiveness on Spider-DK and Spider-SYN datasets.
翻訳日:2022-11-14 16:14:09 公開日:2022-11-11
# 圧縮後編集による要約における事実整合性の向上

Improving Factual Consistency in Summarization with Compression-Based Post-Editing ( http://arxiv.org/abs/2211.06196v1 )

ライセンス: Link先を確認
Alexander R. Fabbri, Prafulla Kumar Choubey, Jesse Vig, Chien-Sheng Wu, Caiming Xiong(参考訳) 最先端の要約モデルはまだ入力テキストと事実上の一貫性に苦慮している。 この問題に対処するモデル非依存の方法は、生成された要約の編集後である。 しかし、既存のアプローチでは、適切な入力エンティティ置換が利用できない場合や誤ったコンテンツが挿入されない場合、エンティティエラーを取り除くことができない。 本研究では,外部エンティティエラーやソースにないエンティティを削除して,要約の本質的な情報や形式を維持しながら一貫性を向上させることに重点を置いている。 本稿では,文圧縮データを用いてポスト編集モデルを訓練し,特殊トークンでマークされた外部エンティティエラーを要約し,そのエラーを除去した圧縮された要約文を出力することを提案する。 我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示し,エンティティ精度を最大38%向上することを示した。 我々は、事実整合性、情報性、文法性のトレードオフを示す後編集アプローチを広範囲に比較し、後編集者が最大の改善を示す設定を分析する。

State-of-the-art summarization models still struggle to be factually consistent with the input text. A model-agnostic way to address this problem is post-editing the generated summaries. However, existing approaches typically fail to remove entity errors if a suitable input entity replacement is not available or may insert erroneous content. In our work, we focus on removing extrinsic entity errors, or entities not in the source, to improve consistency while retaining the summary's essential information and form. We propose to use sentence-compression data to train the post-editing model to take a summary with extrinsic entity errors marked with special tokens and output a compressed, well-formed summary with those errors removed. We show that this model improves factual consistency while maintaining ROUGE, improving entity precision by up to 30% on XSum, and that this model can be applied on top of another post-editor, improving entity precision by up to a total of 38%. We perform an extensive comparison of post-editing approaches that demonstrate trade-offs between factual consistency, informativeness, and grammaticality, and we analyze settings where post-editors show the largest improvements.
翻訳日:2022-11-14 16:13:49 公開日:2022-11-11
# セルフアテンションマトリクスを活用した単語移動距離の改善

Improving word mover's distance by leveraging self-attention matrix ( http://arxiv.org/abs/2211.06229v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira(参考訳) 2つの文間の意味的類似性を測定することは依然として重要な課題である。 単語移動器距離 (WMD) は単語埋め込みの集合間の最適アライメントによって類似性を計算する。 しかし、wmdは語順を使わないため、意味的に非常に異なる場合であっても、類似した単語が重なり合う文を区別することは困難である。 本稿では,BERT の自己認識行列 (SAM) で表される文構造を組み込んで WMD の改善を試みる。 提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。 パラフレーズ識別と意味的テキスト類似性の実験により,提案手法はWMDとその変種を改善した。 私たちのコードはhttps://github.com/ymgw55/wsmdで利用可能です。

Measuring the semantic similarity between two sentences is still an important task. The word mover's distance (WMD) computes the similarity via the optimal alignment between the sets of word embeddings. However, WMD does not utilize word order, making it difficult to distinguish sentences with large overlaps of similar words, even if they are semantically very different. Here, we attempt to improve WMD by incorporating the sentence structure represented by BERT's self-attention matrix (SAM). The proposed method is based on the Fused Gromov-Wasserstein distance, which simultaneously considers the similarity of the word embedding and the SAM for calculating the optimal transport between two sentences. Experiments on paraphrase identification and semantic textual similarity show that the proposed method improves WMD and its variants. Our code is available at https://github.com/ymgw55/WSMD.
翻訳日:2022-11-14 16:13:29 公開日:2022-11-11
# pyRDDLGym:RDDLからGym環境へ

pyRDDLGym: From RDDL to Gym Environments ( http://arxiv.org/abs/2211.05939v1 )

ライセンス: Link先を確認
Ayal Taitler, Michael Gimelfarb, Sriram Gopalakrishnan, Martin Mladenov, Xiaotian Liu, Scott Sanner(参考訳) 提案するpyRDDLGymは, RDDL宣言記述からOpenAI Gym環境の自動生成のためのPythonフレームワークである。 rddlにおける変数の離散時間ステップ進化は、ジムステップスキームに自然に適合する条件付き確率関数によって記述される。 さらに、RDDLは持ち上げられた記述であるため、複数のエンティティと異なる構成をサポートする環境の修正とスケールアップは、面倒なプロセスではなく、簡単になる。 我々は,pyRDDLGymがRDDLの独特な表現力により,ベンチマークの容易かつ迅速な開発を可能にすることで,強化学習コミュニティの新たな風として機能することを期待する。 rddl記述におけるモデルへの明示的なアクセスを提供することで、pyrddlgymはモデルの知識を活用しながら相互作用から学ぶためのハイブリッドアプローチの研究を促進できる。 本稿では、pyRDDLGymの設計と組込み例と、フレームワークに組み込まれたRDDL言語への追加について述べる。

We present pyRDDLGym, a Python framework for auto-generation of OpenAI Gym environments from RDDL declerative description. The discrete time step evolution of variables in RDDL is described by conditional probability functions, which fits naturally into the Gym step scheme. Furthermore, since RDDL is a lifted description, the modification and scaling up of environments to support multiple entities and different configurations becomes trivial rather than a tedious process prone to errors. We hope that pyRDDLGym will serve as a new wind in the reinforcement learning community by enabling easy and rapid development of benchmarks due to the unique expressive power of RDDL. By providing explicit access to the model in the RDDL description, pyRDDLGym can also facilitate research on hybrid approaches for learning from interaction while leveraging model knowledge. We present the design and built-in examples of pyRDDLGym, and the additions made to the RDDL language that were incorporated into the framework.
翻訳日:2022-11-14 16:13:15 公開日:2022-11-11
# 知識グラフ構築のためのGeoAI:環境レジリエンス研究を支援するカスケードイベント間の因果関係の同定

GeoAI for Knowledge Graph Construction: Identifying Causality Between Cascading Events to Support Environmental Resilience Research ( http://arxiv.org/abs/2211.06011v1 )

ライセンス: Link先を確認
Yuanyuan Tian, Wenwen Li(参考訳) ナレッジグラフ技術は、エンティティをリンクするための強力でセマンティックなソリューションと考えられており、ユーザーは様々な種類の推論ルールに従ってデータを推論することで新しい知識を導出することができる。 しかし、そのような知識グラフを構築する際には、災害などのイベントモデリングは単一の独立したイベントに限られることが多い。 カスケードイベント間のリンクは、しばしば既存の知識グラフに欠けている。 本稿では,災害イベントの因果関係を空間的・時間的に対応可能なセマンティックルールに基づいて識別するGeoAI(Geospatial Artificial Intelligence)ソリューションを提案する。 因果的災害イベントモデリング(causal disaster events modeling)のユースケースを通じて,関連するイベントのテーマベースの識別,時空間的共起制約,イベントメタデータのテキストマイニングなど,これら定義されたルールが,さまざまなイベント間の因果関係の自動抽出を可能にすることを実証した。 我々のソリューションは、イベント知識基盤を強化し、大きな知識グラフに関連付けられたカスケードイベントの探索を可能にします。

Knowledge graph technology is considered a powerful and semantically enabled solution to link entities, allowing users to derive new knowledge by reasoning data according to various types of reasoning rules. However, in building such a knowledge graph, events modeling, such as that of disasters, is often limited to single, isolated events. The linkages among cascading events are often missing in existing knowledge graphs. This paper introduces our GeoAI (Geospatial Artificial Intelligence) solutions to identify causality among events, in particular, disaster events, based on a set of spatially and temporally-enabled semantic rules. Through a use case of causal disaster events modeling, we demonstrated how these defined rules, including theme-based identification of correlated events, spatiotemporal co-occurrence constraint, and text mining of event metadata, enable the automatic extraction of causal relationships between different events. Our solution enriches the event knowledge base and allows for the exploration of linked cascading events in large knowledge graphs, therefore empowering knowledge query and discovery.
翻訳日:2022-11-14 16:12:57 公開日:2022-11-11
# 高次元スパース線形コンテキストバンディットのためのトンプソンサンプリング

Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits ( http://arxiv.org/abs/2211.05964v1 )

ライセンス: Link先を確認
Sunrit Chakraborty, Saptarshi Roy, Ambuj Tewari(参考訳) 高次元特徴を持つ確率線形文脈バンディット問題を考える。 トンプソンサンプリング(ts)アルゴリズムを,未知のパラメータをモデル化するために,スパーシティ誘導前兆(スパイク・アンド・スラブなど)の特殊クラスを用いて解析し,推定累積後悔の上限をほぼ最適に設定した。 我々の知る限りでは、これはトンプソンサンプリングの高次元およびスパースな文脈的包帯における理論的保証を提供する最初の作品である。 計算の高速化のために,MCMCの代わりに未知パラメータと変分推論をモデル化するためにスパイク・アンド・スラブを用いる。 シミュレーションにより,提案アルゴリズムの性能が既存アルゴリズムよりも向上したことを示す。

We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
翻訳日:2022-11-14 16:06:52 公開日:2022-11-11
# ほぼ直交データを用いた過パラメータランダム特徴回帰

Overparameterized random feature regression with nearly orthogonal data ( http://arxiv.org/abs/2211.06077v1 )

ライセンス: Link先を確認
Zhichao Wang and Yizhe Zhu(参考訳) ランダム初期化時の2層ニューラルネットワークによって与えられるランダム特徴リッジ回帰(rfrr)を考える。 パラメータの数がサンプルサイズ$n$よりもはるかに大きい過パラメータ化系において, ほぼ直交決定論的入力データを用いたRFRRのトレーニング誤差, クロスバリデーション, 一般化誤差の非漸近挙動について検討した。 RFRRのトレーニング誤差,クロスバリデーション,一般化誤差の濃度を,それぞれ対応するカーネルリッジ回帰(KRR)の誤差の周りに設定する。 このKRRは、ランダムな特徴写像から期待されるカーネルによって定義される。 次に、KRRの性能を多項式カーネル行列で近似し、その次数は異なる入力ベクトル間の直交性にのみ依存する。 この多項式核の次数は本質的にRFRRとKRRの漸近挙動を決定する。 この結果は, 対象関数の一般クラスと, 異なるデータ点間の近似正則特性の弱い入力データに対するものである。 これらの近似とほぼ直交性に基づいて、RFRRの一般化誤差に対する下界を求める。

We consider the random feature ridge regression (RFRR) given by a two-layer neural network at random initialization. We study the non-asymptotic behaviors of the training error, cross-validations, and generalization error of RFRR with nearly orthogonal deterministic input data in the overparameterized regime, where the number of parameters $N$ is much larger than the sample size $n$. We respectively establish the concentrations of the training errors, cross-validations, and generalization errors of RFRR around their corresponding errors of kernel ridge regression (KRR). This KRR is defined by an expected kernel from a random feature map. We then approximate the performances of the KRR by a polynomial kernel matrix, whose degree only depends on the orthogonality among different input vectors. The degree of this polynomial kernel essentially determines the asymptotic behavior of RFRR and KRR. Our results hold for a general class of target functions and input data with weak approximate orthonormal properties among different data points. Based on these approximations and nearly orthogonality, we obtain a lower bound for the generalization error of RFRR.
翻訳日:2022-11-14 16:06:38 公開日:2022-11-11
# Re-Analyze Gauss:Dyson Brownian Motionによるプライベートマトリックス近似の境界

Re-Analyze Gauss: Bounds for Private Matrix Approximation via Dyson Brownian Motion ( http://arxiv.org/abs/2211.06418v1 )

ライセンス: Link先を確認
Oren Mangoubi and Nisheeth K. Vishnoi(参考訳) 対称行列 $M$ とベクトル $\lambda$ が与えられたとき、スペクトルが $\lambda$, under $(\varepsilon,\delta)$-differential privacy である行列によって$M$を近似するガウス機構のフロベニウス距離ユーティリティの新たな境界を示す。 我々の境界は$\lambda$と$m$の固有値のギャップの両方に依存しており、$m$の上位の$k+1$固有値が十分に大きなギャップを持つ限り保持する。 プライベートランク-$k$共分散行列近似と部分空間復元の問題に適用すると、我々の境界は以前の境界よりも改善される。 我々の境界は、ガウス雑音を連続時間マトリクスブラウン運動として見ることによって得られる。 この観点から、ダイソンによって発見された確率微分方程式によって支配される行列の固有値と固有ベクトルの進化を追跡することができる。 これらの方程式は、デービス・カハン型の定理によって得られる摂動境界の和とは対照的に、固有ベクトルに対する摂動の和の平方根として効用を束縛することができる。

Given a symmetric matrix $M$ and a vector $\lambda$, we present new bounds on the Frobenius-distance utility of the Gaussian mechanism for approximating $M$ by a matrix whose spectrum is $\lambda$, under $(\varepsilon,\delta)$-differential privacy. Our bounds depend on both $\lambda$ and the gaps in the eigenvalues of $M$, and hold whenever the top $k+1$ eigenvalues of $M$ have sufficiently large gaps. When applied to the problems of private rank-$k$ covariance matrix approximation and subspace recovery, our bounds yield improvements over previous bounds. Our bounds are obtained by viewing the addition of Gaussian noise as a continuous-time matrix Brownian motion. This viewpoint allows us to track the evolution of eigenvalues and eigenvectors of the matrix, which are governed by stochastic differential equations discovered by Dyson. These equations allow us to bound the utility as the square-root of a sum-of-squares of perturbations to the eigenvectors, as opposed to a sum of perturbation bounds obtained via Davis-Kahan-type theorems.
翻訳日:2022-11-14 16:06:22 公開日:2022-11-11
# MEE: 新しい多言語イベント抽出データセット

MEE: A Novel Multilingual Event Extraction Dataset ( http://arxiv.org/abs/2211.05955v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Javid Ebrahimi, Franck Dernoncourt, and Thien Huu Nguyen(参考訳) イベント抽出 (ee) は、テキストからイベントの言及とその引数(つまり参加者)を認識することを目的とした情報抽出 (ie) の基本タスクの1つである。 その重要性から、イベント抽出のための広範な手法とリソースが開発されている。 しかし、現在のEE研究の1つの制限は、モデルトレーニングと評価に高品質な多言語EEデータセットが欠如していることが主な障害となっている非英語言語の探索不足である。 この制限に対処するために,8言語で50K以上のイベント参照に対してアノテーションを提供する新しい多言語イベント抽出データセット(MEE)を提案する。 MEEはエンティティ参照、イベントトリガ、イベント引数のデータを包括的にアノテーションします。 提案するデータセットについて広範な実験を行い,多言語eeの課題と機会を明らかにする。

Event Extraction (EE) is one of the fundamental tasks in Information Extraction (IE) that aims to recognize event mentions and their arguments (i.e., participants) from text. Due to its importance, extensive methods and resources have been developed for Event Extraction. However, one limitation of current research for EE involves the under-exploration for non-English languages in which the lack of high-quality multilingual EE datasets for model training and evaluation has been the main hindrance. To address this limitation, we propose a novel Multilingual Event Extraction dataset (MEE) that provides annotation for more than 50K event mentions in 8 typologically different languages. MEE comprehensively annotates data for entity mentions, event triggers and event arguments. We conduct extensive experiments on the proposed dataset to reveal challenges and opportunities for multilingual EE.
翻訳日:2022-11-14 16:05:23 公開日:2022-11-11
# MINION:多言語イベント検出のための大規模・多言語データセット

MINION: a Large-Scale and Diverse Dataset for Multilingual Event Detection ( http://arxiv.org/abs/2211.05958v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Minh Van Nguyen, Franck Dernoncourt, and Thien Huu Nguyen(参考訳) Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。 近年、英語テキストの研究が盛んに行われているが、他の言語におけるEDの課題は明らかに研究されていない。 非英語の言語に切り替える上で、EDの重要な研究課題は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるか、などである。 これらの質問に答えるためには、複数の言語に一貫したイベントアノテーションを提供する多言語edデータセットを得ることが不可欠である。 いくつかの多言語EDデータセットがあるが、それらは少数の言語をカバーし、主に人気のあるものに焦点を当てる傾向がある。 多くの言語は既存の多言語EDデータセットではカバーされていない。 加えて、現在のデータセットは小さく、一般にはアクセスできないことが多い。 これらの欠点を克服するために、ED(MINIONと呼ばれる)用の大規模多言語データセットを導入し、8つの異なる言語でのイベントを一貫してアノテートする。 我々はまた、この領域におけるさらなる研究努力を求める MINION における言語間のEDの課題と伝達可能性を示すために、広範な実験と分析を行った。

Event Detection (ED) is the task of identifying and classifying trigger words of event mentions in text. Despite considerable research efforts in recent years for English text, the task of ED in other languages has been significantly less explored. Switching to non-English languages, important research questions for ED include how well existing ED models perform on different languages, how challenging ED is in other languages, and how well ED knowledge and annotation can be transferred across languages. To answer those questions, it is crucial to obtain multilingual ED datasets that provide consistent event annotation for multiple languages. There exist some multilingual ED datasets; however, they tend to cover a handful of languages and mainly focus on popular ones. Many languages are not covered in existing multilingual ED datasets. In addition, the current datasets are often small and not accessible to the public. To overcome those shortcomings, we introduce a new large-scale multilingual dataset for ED (called MINION) that consistently annotates events for 8 different languages; 5 of them have not been supported by existing multilingual datasets. We also perform extensive experiments and analysis to demonstrate the challenges and transferability of ED across languages in MINION that in all call for more research effort in this area.
翻訳日:2022-11-14 16:05:10 公開日:2022-11-11
# シミュレーション認識を最大限活用する

Getting the Most out of Simile Recognition ( http://arxiv.org/abs/2211.05984v1 )

ライセンス: Link先を確認
Xiaoyue Wang, Linfeng Song, Xin Liu, Chulun Zhou, Jinsong Su(参考訳) simileの認識には2つのサブタスクがある:ある文がsimileを含むかどうかを判別するsimileの文分類と、対応するオブジェクト(すなわちテナーと車両)を特定するsimileのコンポーネント抽出である。 最近の研究は表面弦以外の特徴を無視している。 本稿では,より効率的なデータ利用を実現するための表現力のある特徴について検討する。 特に2種類の機能を研究しています 1)posタグ、依存関係ツリー、単語定義を含む入力側機能、および 2)様々なデコーディング決定の相互依存性を捉えるデコーディング機能。 さらに、HGSRというモデルを構築し、不均一なグラフとして入力側特徴をマージし、蒸留によるデコード特徴を利用する。 実験により、HGSRは現在の最先端システムと注意深く設計されたベースラインを大きく上回り、導入した機能の有効性を検証する。 私たちのコードはhttps://github.com/deeplearnxmu/hgsrで利用可能です。

Simile recognition involves two subtasks: simile sentence classification that discriminates whether a sentence contains simile, and simile component extraction that locates the corresponding objects (i.e., tenors and vehicles). Recent work ignores features other than surface strings. In this paper, we explore expressive features for this task to achieve more effective data utilization. Particularly, we study two types of features: 1) input-side features that include POS tags, dependency trees and word definitions, and 2) decoding features that capture the interdependence among various decoding decisions. We further construct a model named HGSR, which merges the input-side features as a heterogeneous graph and leverages decoding features via distillation. Experiments show that HGSR significantly outperforms the current state-of-the-art systems and carefully designed baselines, verifying the effectiveness of introduced features. Our code is available at https://github.com/DeepLearnXMU/HGSR.
翻訳日:2022-11-14 16:04:48 公開日:2022-11-11
# CCPrompt:多クラス分類のための対実コントラストプロンプトチューニング

CCPrompt: Counterfactual Contrastive Prompt-Tuning for Many-Class Classification ( http://arxiv.org/abs/2211.05987v1 )

ライセンス: Link先を確認
Yang Li, Canran Xu, Tao Shen, Jing Jiang and Guodong Long(参考訳) 自然言語処理(NLP)におけるプロンプトチューニングパラダイムの成功により、機械翻訳、テキスト生成、関係抽出など、下流タスクに役立てるための具体的な知識をさらに刺激する様々なプロンプトテンプレートが提案されている。 既存のプロンプトテンプレートは、主にすべてのトレーニングサンプルとタスク記述の情報を共有する。 しかし、トレーニングサンプルは非常に多様である。 共有タスク記述は各トレーニングサンプル,特に有限ラベル空間を持つタスクに対して,ユニークなタスク関連情報を刺激することができない。 タスクに関するユニークな情報を利用するために、客観的な事実と潜在的な反事実の対比的な属性を見つけることを目的とした人間の決定過程を模倣する。 そこで本稿では,関係分類やトピック分類,エンティティタイピングなど,多クラス分類のための<textbf{C}ounterfactual \textbf{C}ontrastive \textbf{Prompt}-Tuning(CCPrompt)アプローチを提案する。 単純な分類タスクと比較して、これらのタスクはより複雑な有限ラベル空間を持ち、プロンプトに対してより厳密である。 まず第一に、有限ラベル空間を乗じて事実と実のペアを構成する。 そして、各事実と事実のペアにトレーニングインスタンスを投影することで、対照的な属性を利用する。 さらに,プロンプトテンプレート内の追加トークンとして有効なコントラスト属性を選択するための,すべてのコントラスト属性に対応するグローバルプロトタイプをセットアップした。 最後に、モデルの堅牢性を高めるために、単純なシームズ表現学習を用いる。 完全教師付き設定と少数ショット設定の両方において,関係分類,トピック分類,エンティティ型付けタスクについて実験を行った。 その結果,モデルが以前のベースラインを上回っていることがわかった。

With the success of the prompt-tuning paradigm in Natural Language Processing (NLP), various prompt templates have been proposed to further stimulate specific knowledge for serving downstream tasks, e.g., machine translation, text generation, relation extraction, and so on. Existing prompt templates are mainly shared among all training samples with the information of task description. However, training samples are quite diverse. The sharing task description is unable to stimulate the unique task-related information in each training sample, especially for tasks with the finite-label space. To exploit the unique task-related information, we imitate the human decision process which aims to find the contrastive attributes between the objective factual and their potential counterfactuals. Thus, we propose the \textbf{C}ounterfactual \textbf{C}ontrastive \textbf{Prompt}-Tuning (CCPrompt) approach for many-class classification, e.g., relation classification, topic classification, and entity typing. Compared with simple classification tasks, these tasks have more complex finite-label spaces and are more rigorous for prompts. First of all, we prune the finite label space to construct fact-counterfactual pairs. Then, we exploit the contrastive attributes by projecting training instances onto every fact-counterfactual pair. We further set up global prototypes corresponding with all contrastive attributes for selecting valid contrastive attributes as additional tokens in the prompt template. Finally, a simple Siamese representation learning is employed to enhance the robustness of the model. We conduct experiments on relation classification, topic classification, and entity typing tasks in both fully supervised setting and few-shot setting. The results indicate that our model outperforms former baselines.
翻訳日:2022-11-14 16:04:33 公開日:2022-11-11
# 知識強化型事前学習言語モデルの検討

A Survey of Knowledge-Enhanced Pre-trained Language Models ( http://arxiv.org/abs/2211.05994v1 )

ライセンス: Link先を確認
Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, and Juanzi Li(参考訳) 自己指導型学習法により大規模テキストコーパスで訓練された事前学習型言語モデル(PLM)は,自然言語処理(NLP)において,様々なタスクにおいて有望な性能を示した。 しかしながら、膨大なパラメータを持つplmは、大量のトレーニングテキストから学んだ豊富な知識を効果的に保持することができ、微調整段階で下流タスクに役立つが、外部知識の欠如による推論能力の低下など、いくつかの制限がある。 PLMに知識を組み込むことは、これらの問題に対処するために試みられている。 本稿では,知識強化事前学習型言語モデル (ke-plms) の包括的レビューを行い,この発展分野について考察する。 自然言語理解(NLU)と自然言語生成(NLG)にそれぞれ適切な分類法を導入し、これらの2つのタスクの焦点を強調する。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分けられる。 NLGのKE-PLMは、KGベースと検索ベースに分類される。 最後に,KE-PLMの今後の方向性について述べる。

Pre-trained Language Models (PLMs) which are trained on large text corpus through the self-supervised learning method, have yielded promising performance on various tasks in Natural Language Processing (NLP). However, though PLMs with huge parameters can effectively possess rich knowledge learned from massive training text and benefit downstream tasks at the fine-tuning stage, they still have some limitations such as poor reasoning ability due to the lack of external knowledge. Incorporating knowledge into PLMs has been tried to tackle these issues. In this paper, we present a comprehensive review of Knowledge-Enhanced Pre-trained Language Models (KE-PLMs) to provide a clear insight into this thriving field. We introduce appropriate taxonomies respectively for Natural Language Understanding (NLU) and Natural Language Generation (NLG) to highlight the focus of these two kinds of tasks. For NLU, we take several types of knowledge into account and divide them into four categories: linguistic knowledge, text knowledge, knowledge graph (KG), and rule knowledge. The KE-PLMs for NLG are categorized into KG-based and retrieval-based methods. Finally, we point out some promising future directions of KE-PLMs.
翻訳日:2022-11-14 16:04:04 公開日:2022-11-11
# 階層的強化学習における即時反応に対する緊急行動停止

Emergency action termination for immediate reaction in hierarchical reinforcement learning ( http://arxiv.org/abs/2211.06351v1 )

ライセンス: Link先を確認
Micha{\l} Bortkiewicz, Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski, Mateusz Ostaszewski, Artur Grudkowski and Tomasz Trzci\'nski(参考訳) 制御の階層的分解は大きな力学系では避けられない。 強化学習(RL)では、通常、より高い政策レベルで定義されたサブゴールで解決され、低い政策レベルで達成される。 これらの目標を達成するにはかなりの時間を要する可能性があるが、その間にはまだ追求する価値があるかどうかが確かめられていない。 しかし、環境のランダム性のため、これらの目標が時代遅れになる可能性がある。 本稿では,このギャップを最先端のアプローチで解決し,より高いレベルのアクション(低いレベルの目標)の有効性を常に高いレベルで検証する手法を提案する。 アクション、すなわち低いレベルの目標が不十分になった場合、より適切なアクションに置き換えられる。 このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。 7つのベンチマーク環境で実験を行った。

Hierarchical decomposition of control is unavoidable in large dynamical systems. In reinforcement learning (RL), it is usually solved with subgoals defined at higher policy levels and achieved at lower policy levels. Reaching these goals can take a substantial amount of time, during which it is not verified whether they are still worth pursuing. However, due to the randomness of the environment, these goals may become obsolete. In this paper, we address this gap in the state-of-the-art approaches and propose a method in which the validity of higher-level actions (thus lower-level goals) is constantly verified at the higher level. If the actions, i.e. lower level goals, become inadequate, they are replaced by more appropriate ones. This way we combine the advantages of hierarchical RL, which is fast training, and flat RL, which is immediate reactivity. We study our approach experimentally on seven benchmark environments.
翻訳日:2022-11-14 15:58:16 公開日:2022-11-11
# インダクティブラーニングとインクリメンタルアップデートに向けたレコメンダシステムの実践

Situating Recommender Systems in Practice: Towards Inductive Learning and Incremental Updates ( http://arxiv.org/abs/2211.06365v1 )

ライセンス: Link先を確認
Tobias Schnabel, Mengting Wan, Longqi Yang(参考訳) 情報システムが大規模化するにつれ、レコメンデーションシステムは機械学習の研究や産業への関心が高まっている。 モデル設計の進歩は研究が急速に進んでいるが、2つの仮定が制限されているため、多くの進歩は実現に至らなかったと論じる。 第一に、ほとんどのアプローチは、目に見えないユーザやアイテムを扱えないトランスダクティブな学習設定に焦点を合わせ、第二に、新しいデータが利用可能になるときに組み込まれない静的な設定のために、既存の多くの方法が開発されている。 これらは、新しいユーザインタラクションがリアルタイムに発生する現実のプラットフォームでは、ほとんど実用的でない仮定である、と私たちは主張しています。 本稿では,過去6年間における概念の形式化とコンテクスト化の推奨システムの実現について述べる。 次に,レコメンデーションモデルの設計と評価のための帰納的学習とインクリメンタルな更新に向けて,今後の作業が進むべき理由と方法について論じる。 また,今後の研究に向け,ベストプラクティスと基本的オープン課題を提示する。

With information systems becoming larger scale, recommendation systems are a topic of growing interest in machine learning research and industry. Even though progress on improving model design has been rapid in research, we argue that many advances fail to translate into practice because of two limiting assumptions. First, most approaches focus on a transductive learning setting which cannot handle unseen users or items and second, many existing methods are developed for static settings that cannot incorporate new data as it becomes available. We argue that these are largely impractical assumptions on real-world platforms where new user interactions happen in real time. In this survey paper, we formalize both concepts and contextualize recommender systems work from the last six years. We then discuss why and how future work should move towards inductive learning and incremental updates for recommendation model design and evaluation. In addition, we present best practices and fundamental open challenges for future research.
翻訳日:2022-11-14 15:58:02 公開日:2022-11-11
# STAR:セッションベースのタイムアウェアレコメンダシステム

STAR: A Session-Based Time-Aware Recommender System ( http://arxiv.org/abs/2211.06394v1 )

ライセンス: Link先を確認
Reza Yeganegi, Saman Haratizadeh(参考訳) セッションベースレコメンダ(SBR)は,セッションにおける過去のインタラクションに関するユーザの次の好みを予測することを目的としている。 現代のSBRはディープニューラルネットワークを使用して、進行中のセッション中にユーザの現在の関心を潜在空間にマッピングすることで、次の好みを予測する。 最先端のSBRモデルでは十分な結果が得られるが、ほとんどの場合、セッション内のイベントのシーケンスの研究に重点を置いている。 本稿では、セッション中の匿名ユーザの一時的な関心や彼らの考え方の変化を反映して、SBRの性能向上におけるセッション時間情報の可能性を検討する。 我々は,セッション内のイベント間の時間間隔を利用して,アイテムやセッションのより情報的な表現を構築するstarフレームワークを提案する。 離散化を使わずに時間間隔を埋め込むことでセッション表現を再構築する。 Yoochoose と Diginetica のデータセットによる実験結果から,提案手法はリコール基準とMRR基準において,最先端のベースラインモデルよりも優れていた。

Session-Based Recommenders (SBRs) aim to predict users' next preferences regard to their previous interactions in sessions while there is no historical information about them. Modern SBRs utilize deep neural networks to map users' current interest(s) during an ongoing session to a latent space so that their next preference can be predicted. Although state-of-art SBR models achieve satisfactory results, most focus on studying the sequence of events inside sessions while ignoring temporal details of those events. In this paper, we examine the potential of session temporal information in enhancing the performance of SBRs, conceivably by reflecting the momentary interests of anonymous users or their mindset shifts during sessions. We propose the STAR framework, which utilizes the time intervals between events within sessions to construct more informative representations for items and sessions. Our mechanism revises session representation by embedding time intervals without employing discretization. Empirical results on Yoochoose and Diginetica datasets show that the suggested method outperforms the state-of-the-art baseline models in Recall and MRR criteria.
翻訳日:2022-11-14 15:57:45 公開日:2022-11-11
# 制御トランスフォーマー:prm誘導戻り条件系列モデリングによる未知環境におけるロボットナビゲーション

Control Transformer: Robot Navigation in Unknown Environments through PRM-Guided Return-Conditioned Sequence Modeling ( http://arxiv.org/abs/2211.06407v1 )

ライセンス: Link先を確認
Daniel Lawson, Ahmed H. Qureshi(参考訳) ナビゲーションなどのロングホリゾンタスクの学習は、強化学習をうまく適用するための難しい課題を提示している。 しかし、別の観点からは、既知の環境モデルの下では、サンプリングベースの計画のような手法は、学習せずに環境内の衝突のない経路を堅牢に見つけることができる。 本研究では,サンプルベース確率的ロードマップ(PRM)プランナによって導かれる低レベルポリシーから返却条件付きシーケンスをモデル化する制御変換器を提案する。 学習後,局所情報のみを用いて長期ナビゲーションタスクを解くことができることを示す。 我々は,アリ,ポイント,ヒューマノイドを含むmujocoロボットによる部分的に観察された迷路ナビゲーションのアプローチを評価し,制御トランスフォーマーが大きな迷路をうまくナビゲートし,未知の環境に一般化できることを示した。 さらに,本手法をディファレンシャルドライブロボット(Turtlebot3)に適用し,ノイズ下でのゼロショットシミュレートを示す。

Learning long-horizon tasks such as navigation has presented difficult challenges for successfully applying reinforcement learning. However, from another perspective, under a known environment model, methods such as sampling-based planning can robustly find collision-free paths in environments without learning. In this work, we propose Control Transformer which models return-conditioned sequences from low-level policies guided by a sampling-based Probabilistic Roadmap (PRM) planner. Once trained, we demonstrate that our framework can solve long-horizon navigation tasks using only local information. We evaluate our approach on partially-observed maze navigation with MuJoCo robots, including Ant, Point, and Humanoid, and show that Control Transformer can successfully navigate large mazes and generalize to new, unknown environments. Additionally, we apply our method to a differential drive robot (Turtlebot3) and show zero-shot sim2real transfer under noisy observations.
翻訳日:2022-11-14 15:57:27 公開日:2022-11-11
# ASRにおける連続型ソフト擬似ラベル

Continuous Soft Pseudo-Labeling in ASR ( http://arxiv.org/abs/2211.06007v1 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Ronan Collobert, Navdeep Jaitly, Samy Bengio(参考訳) 近年,音声認識における半教師あり学習の強力な戦略として,slimIPLのようなPLアルゴリズムが登場している。 モデルのトレーニングと擬似ラベル(PL)の生成を交互に行う以前の戦略とは対照的に、このPLはトレーニングの進行とともにエンドツーエンドで生成され、トレーニング速度と最終モデルの精度が向上する。 PLは、教師モデルが訓練されている学生モデルによって模倣される必要があるターゲットを生成するという、蒸留のような教師学生モデルと共通のテーマを共有している。 しかし興味深いことに、一般的にpl戦略はハードラベルを使うが、蒸留はラベル上の分布を模倣のターゲットとして使っている。 蒸留から着想を得た結果,全分布(ソフトラベル)を未ラベルデータの対象として指定できるようになり,PL性能と収束性の向上が期待できる。 驚きと予期せぬことに、ソフトラベルのターゲットはトレーニングの分岐につながり、モデルがフレーム毎の縮退したトークン分布に崩壊する。 ハードラベルでこれが起こらない理由は、ハードラベルのトレーニング損失がシーケンスレベルの一貫性を課し、モデルが縮退したソリューションに崩壊することを防ぐためだと仮定する。 本稿では, この仮説を裏付ける実験をいくつか紹介し, ソフトラベルを用いた場合の縮退崩壊を改善できる複数の正則化手法を実験する。 これらのアプローチは、ハードラベルの精度をハードラベルの精度に近づけることができ、まだそれを上回ることができないが、さらなる改善のための有用なフレームワークとして機能する。

Continuous pseudo-labeling (PL) algorithms such as slimIPL have recently emerged as a powerful strategy for semi-supervised learning in speech recognition. In contrast with earlier strategies that alternated between training a model and generating pseudo-labels (PLs) with it, here PLs are generated in end-to-end manner as training proceeds, improving training speed and the accuracy of the final model. PL shares a common theme with teacher-student models such as distillation in that a teacher model generates targets that need to be mimicked by the student model being trained. However, interestingly, PL strategies in general use hard-labels, whereas distillation uses the distribution over labels as the target to mimic. Inspired by distillation we expect that specifying the whole distribution (aka soft-labels) over sequences as the target for unlabeled data, instead of a single best pass pseudo-labeled transcript (hard-labels) should improve PL performance and convergence. Surprisingly and unexpectedly, we find that soft-labels targets can lead to training divergence, with the model collapsing to a degenerate token distribution per frame. We hypothesize that the reason this does not happen with hard-labels is that training loss on hard-labels imposes sequence-level consistency that keeps the model from collapsing to the degenerate solution. In this paper, we show several experiments that support this hypothesis, and experiment with several regularization approaches that can ameliorate the degenerate collapse when using soft-labels. These approaches can bring the accuracy of soft-labels closer to that of hard-labels, and while they are unable to outperform them yet, they serve as a useful framework for further improvements.
翻訳日:2022-11-14 15:57:10 公開日:2022-11-11
# 多種多変量感度属性を用いたフェアラーニングの実践的アプローチ

Practical Approaches for Fair Learning with Multitype and Multivariate Sensitive Attributes ( http://arxiv.org/abs/2211.06138v1 )

ライセンス: Link先を確認
Tennison Liu, Alex J. Chan, Boris van Breugel, Mihaela van der Schaar(参考訳) 現実世界に展開された機械学習アルゴリズムが不公平や意図しない社会的結果をもたらすことはないことを保証することが重要である。 Fair MLは、属性とターゲット結果の両方がバイナリである単純な設定において、単一属性の保護に重点を置いている。 しかし、実世界の多くの問題における実用的応用は、単にバイナリではなく、連続的あるいはカテゴリ的である複数の機密属性を同時に保護することを伴う。 この課題に対処するため,カーネルHilbert Spaces上での相互共分散演算子に基づく公正度尺度であるFairCOCCOを導入する。 ひとつは、任意のタイプの単一または複数の機密属性で設定における公平性を定量化できる正規化メトリックであるFairCOCCOスコアと、もうひとつは、任意の学習目標に組み込んで公正な予測値を得るための後続の正規化用語である。 これらの貢献はアルゴリズム的公平性文学における重要なギャップに対処し、実世界のデータセットにおける予測力と公平さのバランスをとるための最先端技術に対する一貫した改善を実証的に実証する。

It is important to guarantee that machine learning algorithms deployed in the real world do not result in unfairness or unintended social consequences. Fair ML has largely focused on the protection of single attributes in the simpler setting where both attributes and target outcomes are binary. However, the practical application in many a real-world problem entails the simultaneous protection of multiple sensitive attributes, which are often not simply binary, but continuous or categorical. To address this more challenging task, we introduce FairCOCCO, a fairness measure built on cross-covariance operators on reproducing kernel Hilbert Spaces. This leads to two practical tools: first, the FairCOCCO Score, a normalised metric that can quantify fairness in settings with single or multiple sensitive attributes of arbitrary type; and second, a subsequent regularisation term that can be incorporated into arbitrary learning objectives to obtain fair predictors. These contributions address crucial gaps in the algorithmic fairness literature, and we empirically demonstrate consistent improvements against state-of-the-art techniques in balancing predictive power and fairness on real-world datasets.
翻訳日:2022-11-14 15:56:41 公開日:2022-11-11
# 多要素モデルと非同期バッチベイズ最適化の組み合わせ

Combining Multi-Fidelity Modelling and Asynchronous Batch Bayesian Optimization ( http://arxiv.org/abs/2211.06149v1 )

ライセンス: Link先を確認
Jose Pablo Folch, Robert M Lee, Behrang Shafei, David Walz, Calvin Tsay, Mark van der Wilk, Ruth Misener(参考訳) ベイズ最適化は実験設計に有用なツールである。 不幸なことに、ベイズ最適化の古典的で逐次的な設定は、例えばバッテリー設計のような実験にうまく変換されない。 マルチフィデリティベイズ最適化は、異なるソースからの測定で設定に対処する。 非同期バッチベイズ最適化は、以前の実験の結果が明らかになる前に新しい実験を選択するためのフレームワークを提供する。 本稿では,マルチフィデリティ法と非同期バッチ法を組み合わせたアルゴリズムを提案する。 本研究では,アルゴリズムの振る舞いを実験的に検討し,単一忠実度バッチ法や複数忠実度シーケンシャル法よりも優れることを示す。 本研究では, コインセルを用いた実験により, ポーチセルの電極材料を最適性能に設計し, 電池性能を近似する。

Bayesian Optimization is a useful tool for experiment design. Unfortunately, the classical, sequential setting of Bayesian Optimization does not translate well into laboratory experiments, for instance battery design, where measurements may come from different sources and their evaluations may require significant waiting times. Multi-fidelity Bayesian Optimization addresses the setting with measurements from different sources. Asynchronous batch Bayesian Optimization provides a framework to select new experiments before the results of the prior experiments are revealed. This paper proposes an algorithm combining multi-fidelity and asynchronous batch methods. We empirically study the algorithm behavior, and show it can outperform single-fidelity batch methods and multi-fidelity sequential methods. As an application, we consider designing electrode materials for optimal performance in pouch cells using experiments with coin cells to approximate battery performance.
翻訳日:2022-11-14 15:56:21 公開日:2022-11-11
# コンペティションからコラボレーションへ:フェデレーションラーニングを用いた胸部X線診断におけるKaggle上のトイデータセットの作成

From Competition to Collaboration: Making Toy Datasets on Kaggle Clinically Useful for Chest X-Ray Diagnosis Using Federated Learning ( http://arxiv.org/abs/2211.06212v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) ケストX線(CXR)データセットはKaggleにホストされているが、データサイエンスコンペティションの観点からは有用だが、特定の疾患の診断に焦点を絞っているため、臨床利用に限られている。 現実の臨床試験では、同一患者に共存できるため、複数の疾患を考慮する必要がある。 本研究では,KaggleのCXRデータセットを臨床的に有用にするために,フェデレートラーニング(FL)をいかに活用できるかを示す。 具体的には、1つのfl分類モデル(`global`)を2つの別個のcxrデータセットで訓練し、もう1つは肺炎の存在、もう1つは気胸(一般的な状態と生命を脅かす状態)の存在を警告し、両方の診断を可能にした。 我々は,グローバルFLモデルの性能を,2つの異なるモデルアーキテクチャに対して,両方のデータセット(`baseline`)で個別に訓練されたモデルと比較する。 標準の3層CNNアーキテクチャでは,AUROCが0.84と0.81で肺炎と気胸がそれぞれ0.85と0.82であった(p>0.05)。 同様に, プレトレーニングDenseNet121アーキテクチャでは, それぞれ0.88および0.91のAUROCを, それぞれ0.89および0.91のAUROCを, 両ベースラインモデルでそれぞれ達成した(p>0.05)。 以上の結果から,FLはグローバルな「メタ」モデルの作成に利用でき,Kaggleのおもちゃデータセットを臨床的に有用なものにすることができることが示唆された。

Chest X-ray (CXR) datasets hosted on Kaggle, though useful from a data science competition standpoint, have limited utility in clinical use because of their narrow focus on diagnosing one specific disease. In real-world clinical use, multiple diseases need to be considered since they can co-exist in the same patient. In this work, we demonstrate how federated learning (FL) can be used to make these toy CXR datasets from Kaggle clinically useful. Specifically, we train a single FL classification model (`global`) using two separate CXR datasets -- one annotated for presence of pneumonia and the other for presence of pneumothorax (two common and life-threatening conditions) -- capable of diagnosing both. We compare the performance of the global FL model with models trained separately on both datasets (`baseline`) for two different model architectures. On a standard, naive 3-layer CNN architecture, the global FL model achieved AUROC of 0.84 and 0.81 for pneumonia and pneumothorax, respectively, compared to 0.85 and 0.82, respectively, for both baseline models (p>0.05). Similarly, on a pretrained DenseNet121 architecture, the global FL model achieved AUROC of 0.88 and 0.91 for pneumonia and pneumothorax, respectively, compared to 0.89 and 0.91, respectively, for both baseline models (p>0.05). Our results suggest that FL can be used to create global `meta` models to make toy datasets from Kaggle clinically useful, a step forward towards bridging the gap from bench to bedside.
翻訳日:2022-11-14 15:56:05 公開日:2022-11-11
# 医療生成モデルにおける不確かさと分布検出の相違

Disentangled Uncertainty and Out of Distribution Detection in Medical Generative Models ( http://arxiv.org/abs/2211.06250v1 )

ライセンス: Link先を確認
Kumud Lakara and Matias Valdenegro-Toro(参考訳) 医療領域などの安全上重要な設定において、ディープラーニングモデルの予測を信頼することは、まだ有効な選択肢ではありません。 医用画像の分野における不確実性定量化は注目されていない。 本稿では,医療領域における画像翻訳作業における画像の不確実性について検討する。 我々は、T1強調脳MRIスキャンをT2強調脳MRIスキャンに変換するためにCycleGANを使用して、Ensembles、Flipout、DropConnectといった複数の不確実性定量化手法を比較した。 さらに,分布データ(Brain CTおよびRGB Face Images)の存在下での不確実性を評価することにより,分布入力の検出に疫学的不確実性を用いることで,モデル出力の信頼性が向上することを示す。

Trusting the predictions of deep learning models in safety critical settings such as the medical domain is still not a viable option. Distentangled uncertainty quantification in the field of medical imaging has received little attention. In this paper, we study disentangled uncertainties in image to image translation tasks in the medical domain. We compare multiple uncertainty quantification methods, namely Ensembles, Flipout, Dropout, and DropConnect, while using CycleGAN to convert T1-weighted brain MRI scans to T2-weighted brain MRI scans. We further evaluate uncertainty behavior in the presence of out of distribution data (Brain CT and RGB Face Images), showing that epistemic uncertainty can be used to detect out of distribution inputs, which should increase reliability of model outputs.
翻訳日:2022-11-14 15:55:30 公開日:2022-11-11
# 新しいグラフノード分類ベンチマーク:組織細胞グラフから構造を学習する

A New Graph Node Classification Benchmark: Learning Structure from Histology Cell Graphs ( http://arxiv.org/abs/2211.06292v1 )

ライセンス: Link先を確認
Claudia Vanea, Jonathan Campbell, Omri Dodi, Liis Salum\"ae, Karen Meir, Drorith Hochner-Celnikier, Hagit Hochner, Triin Laisk, Linda M. Ernst, Cecilia M. Lindgren and Christoffer Nell{\aa}ker(参考訳) そこで我々はPlacentaという新しいベンチマークデータセットを導入し,Placentaの組織像全体の細胞グラフから微小解剖学的組織構造を予測した。 この問題はグラフ学習においていくつかの理由からユニークな課題である。 細胞グラフは大きい(画像当たり100万ノード)、ノードの特徴は様々(11種類の細胞で64次元)、クラスラベルは不均衡(データの0.21%から40.0%まで9クラス)、細胞コミュニティは広く異なるサイズ(単一の構造では11ノードから44,671ノードまで)で均質に分散した組織にクラスターする。 ここでは,2つの胎盤組織像から得られた2つのセルグラフからなるデータセットを,総計2,395,747ノード(799,745ノード)で公開する。 7つのスケーラブルなモデルのインダクティブベンチマーク結果を示し、セルグラフのユニークな性質が、新しいグラフニューラルネットワークアーキテクチャの開発にどのように役立つかを示す。

We introduce a new benchmark dataset, Placenta, for node classification in an underexplored domain: predicting microanatomical tissue structures from cell graphs in placenta histology whole slide images. This problem is uniquely challenging for graph learning for a few reasons. Cell graphs are large (>1 million nodes per image), node features are varied (64-dimensions of 11 types of cells), class labels are imbalanced (9 classes ranging from 0.21% of the data to 40.0%), and cellular communities cluster into heterogeneously distributed tissues of widely varying sizes (from 11 nodes to 44,671 nodes for a single structure). Here, we release a dataset consisting of two cell graphs from two placenta histology images totalling 2,395,747 nodes, 799,745 of which have ground truth labels. We present inductive benchmark results for 7 scalable models and show how the unique qualities of cell graphs can help drive the development of novel graph neural network architectures.
翻訳日:2022-11-14 15:55:16 公開日:2022-11-11
# マルチタスク損失機能と注意層を用いた手のひら静脈認識

Palm Vein Recognition via Multi-task Loss Function and Attention Layer ( http://arxiv.org/abs/2211.05970v1 )

ライセンス: Link先を確認
Jiashu Lou, Jie zou, Baohua Wang(参考訳) 個人機器の演算能力とアルゴリズム精度の向上により, 生体的特徴が個人識別に広く利用され, 手のひら静脈認識は抽出可能な特徴量が多く, 近年, 広く研究されている。 しかし、従来の認識手法は頑丈で、反射や騒音などの環境の影響を受けやすい。 本稿では,VGG-16伝達学習の融合注意機構に基づく畳み込みニューラルネットワークを,赤外線ヤシ静脈データセットの特徴抽出ネットワークとして利用する。 パーム静脈分類タスクは,まずパームプリント分類法を用いて訓練し,その後類似度関数を用いてマッチングし,マッチングタスクの精度を向上させるマルチタスク損失関数を提案する。 モデルのロバスト性を検証するため、異なるソースからのデータセットに対していくつかの実験を行った。 次に,適応マッチング閾値を決定するためにK平均クラスタリングを用い,予測セットの精度98.89%を達成した。 同時に、マッチングは、ヤシ静脈対あたり平均0.13秒の効率が高く、つまり、我々の手法を実際に適用できることを意味している。

With the improvement of arithmetic power and algorithm accuracy of personal devices, biological features are increasingly widely used in personal identification, and palm vein recognition has rich extractable features and has been widely studied in recent years. However, traditional recognition methods are poorly robust and susceptible to environmental influences such as reflections and noise. In this paper, a convolutional neural network based on VGG-16 transfer learning fused attention mechanism is used as the feature extraction network on the infrared palm vein dataset. The palm vein classification task is first trained using palmprint classification methods, followed by matching using a similarity function, in which we propose the multi-task loss function to improve the accuracy of the matching task. In order to verify the robustness of the model, some experiments were carried out on datasets from different sources. Then, we used K-means clustering to determine the adaptive matching threshold and finally achieved an accuracy rate of 98.89% on prediction set. At the same time, the matching is with high efficiency which takes an average of 0.13 seconds per palm vein pair, and that means our method can be adopted in practice.
翻訳日:2022-11-14 15:49:21 公開日:2022-11-11
# マスキングコントラスト表現学習

Masked Contrastive Representation Learning ( http://arxiv.org/abs/2211.06012v1 )

ライセンス: Link先を確認
Yuchong Yao, Nandakishor Desai, Marimuthu Palaniswami(参考訳) マスク画像モデリング(例:マスクオートエンコーダ)とコントラスト学習(例:運動量コントラスト)は教師なし視覚表現学習において印象的なパフォーマンスを示している。 本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。 特に、MACRLはマスク画像モデリングとコントラスト学習の両方の有効性を活用している。 両枝のエンコーダ-デコーダ構造)に対して非対称な設定を採り、一方の枝はマスク比が高く、他方はより弱いデータ破損を採用する。 両ブランチのエンコーダから学習した特徴に基づいて,コントラスト学習目標を最適化する。 さらに、デコーダの出力に応じて、$L_1$再構成損失を最小化する。 実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットなど、様々なビジョンベンチマークにおいて優れた結果を示す。 我々のフレームワークは、自己監督型視覚前訓練と将来の研究に関する統一的な洞察を提供する。

Masked image modelling (e.g., Masked AutoEncoder) and contrastive learning (e.g., Momentum Contrast) have shown impressive performance on unsupervised visual representation learning. This work presents Masked Contrastive Representation Learning (MACRL) for self-supervised visual pre-training. In particular, MACRL leverages the effectiveness of both masked image modelling and contrastive learning. We adopt an asymmetric setting for the siamese network (i.e., encoder-decoder structure in both branches), where one branch with higher mask ratio and stronger data augmentation, while the other adopts weaker data corruptions. We optimize a contrastive learning objective based on the learned features from the encoder in both branches. Furthermore, we minimize the $L_1$ reconstruction loss according to the decoders' outputs. In our experiments, MACRL presents superior results on various vision benchmarks, including CIFAR-10, CIFAR-100, Tiny-ImageNet, and two other ImageNet subsets. Our framework provides unified insights on self-supervised visual pre-training and future research.
翻訳日:2022-11-14 15:49:04 公開日:2022-11-11
# strokegan+:ストロークエンコーディングを用いた半教師付き中国語フォント生成

StrokeGAN+: Few-Shot Semi-Supervised Chinese Font Generation with Stroke Encoding ( http://arxiv.org/abs/2211.06198v1 )

ライセンス: Link先を確認
Jinshan Zeng, Yefei Wang, Qi Chen, Yunxin Liu, Mingwen Wang, Yuan Yao(参考訳) 中国語フォントの生成には幅広い応用がある。 現在主流となっている手法は、主に深層生成モデル、特にgans(generative adversarial network)に基づいている。 しかし、既存のGANベースのモデルはよく知られたモード崩壊問題に悩まされる。 モードが崩壊すると、ganベースのモデルでは正しいフォントが得られなくなる。 そこで本研究では,漢字の局所的および大域的構造情報を探索するために,1ビットのストローク符号化と数ショットの半教師付きスキーム(例えば,少数のペアデータを用いた半教師付き情報)を導入し,ストロークと文字が漢字の特定の局所的および大域的なモードを直接具現化するという直観性に動機づけられた。 これらの考え方に基づき,ストローク符号化と半教師付きスキームをサイクルガンモデルに組み込んだ実効モデルである \textit{ strokegan+} を提案する。 提案モデルの有効性は実験によって実証された。 実験の結果, モード崩壊問題は, 導入した1ビットのストロークエンコーディングと少数ショットの半教師付きトレーニングスキームによって効果的に緩和でき, 提案モデルは, 4つの重要な評価指標と生成文字の品質から, 14のフォント生成タスクにおける最先端モデルよりも優れていることがわかった。 また,CycleGANの他に,提案手法が既存のモデルに適応して性能を向上できることを示す。 本論文では, ゼロショット中国語フォント生成のためのモデルの有効性も評価した。

The generation of Chinese fonts has a wide range of applications. The currently predominated methods are mainly based on deep generative models, especially the generative adversarial networks (GANs). However, existing GAN-based models usually suffer from the well-known mode collapse problem. When mode collapse happens, the kind of GAN-based models will be failure to yield the correct fonts. To address this issue, we introduce a one-bit stroke encoding and a few-shot semi-supervised scheme (i.e., using a few paired data as semi-supervised information) to explore the local and global structure information of Chinese characters respectively, motivated by the intuition that strokes and characters directly embody certain local and global modes of Chinese characters. Based on these ideas, this paper proposes an effective model called \textit{StrokeGAN+}, which incorporates the stroke encoding and the few-shot semi-supervised scheme into the CycleGAN model. The effectiveness of the proposed model is demonstrated by amounts of experiments. Experimental results show that the mode collapse issue can be effectively alleviated by the introduced one-bit stroke encoding and few-shot semi-supervised training scheme, and that the proposed model outperforms the state-of-the-art models in fourteen font generation tasks in terms of four important evaluation metrics and the quality of generated characters. Besides CycleGAN, we also show that the proposed idea can be adapted to other existing models to improve their performance. The effectiveness of the proposed model for the zero-shot traditional Chinese font generation is also evaluated in this paper.
翻訳日:2022-11-14 15:48:46 公開日:2022-11-11
# point cloud 3d semantic segmentationにおけるout of distribution detectionのベンチマーク

A Benchmark for Out of Distribution Detection in Point Cloud 3D Semantic Segmentation ( http://arxiv.org/abs/2211.06241v1 )

ライセンス: Link先を確認
Lokesh Veeramacheneni and Matias Valdenegro-Toro(参考訳) 自律運転のような安全クリティカルなアプリケーションは、オブジェクトの検出とセグメンテーションにDeep Neural Networks(DNN)を使用する。 DNNは、アウト・オブ・ディストリビューション(OOD)の入力が破滅的な結果をもたらすと予測できない。 既存のOOD検出法は画像入力では広く研究されているが,LiDARではあまり研究されていない。 そこで本研究では,3次元セマンティックセグメンテーションにおけるOOD検出のベンチマークのための2つのデータセットを提案する。 我々は,OODスコアとして,Deep EnsemblesとRandLA-NetのFlipoutバージョンを用いて生成した最大ソフトマックス確率とエントロピースコアを使用した。 両データセットのaurocスコアが大きいood検出において,深いアンサンブルがフリップアウトモデルを実行することを観測した。

Safety-critical applications like autonomous driving use Deep Neural Networks (DNNs) for object detection and segmentation. The DNNs fail to predict when they observe an Out-of-Distribution (OOD) input leading to catastrophic consequences. Existing OOD detection methods were extensively studied for image inputs but have not been explored much for LiDAR inputs. So in this study, we proposed two datasets for benchmarking OOD detection in 3D semantic segmentation. We used Maximum Softmax Probability and Entropy scores generated using Deep Ensembles and Flipout versions of RandLA-Net as OOD scores. We observed that Deep Ensembles out perform Flipout model in OOD detection with greater AUROC scores for both datasets.
翻訳日:2022-11-14 15:48:16 公開日:2022-11-11
# 優先的柔軟需要面を考慮した深層強化学習マイクログリッド最適化戦略

Deep Reinforcement Learning Microgrid Optimization Strategy Considering Priority Flexible Demand Side ( http://arxiv.org/abs/2211.05946v1 )

ライセンス: Link先を確認
Jinsong Sang, Hongbin Sun and Lei Kou(参考訳) 複数の分散エネルギー資源とユーザ側を統合する効率的な方法として、マイクログリッドは主に、DERの小規模変動性、不確実性、断続性、需要側の不確実性といった問題に直面している。 従来のマイクログリッドは単一形態であり、複雑な需要側とマイクログリッド間の柔軟なエネルギー供給に対応できない。 この問題への対応として, 風力, 静熱制御負荷, エネルギー貯蔵システム, 価格対応負荷, メイングリッドの全体環境を提案する。 第二に、マイクログリッド動作の集中制御は、分散電源の反応性電力と電圧の制御とグリッド周波数の調整に便利である。 しかし,電力価格の谷間において,フレキシブル負荷が集積してピークを発生させる問題がある。 既存の研究はマイクログリッドの電力制約を考慮に入れており、単一の柔軟な負荷に対して十分な電力供給を確保できていない。 本稿では、マイクログリッドの全体的な環境動作に基づいて、tclおよびessの各ユニットコンポーネントの応答優先度を考慮し、マイクログリッドの柔軟な負荷の電力供給を確実にし、電力入力コストを最大限に節約する。 最後に、環境のシミュレーション最適化をマルコフ決定プロセスとして表現することができる。 トレーニングプロセスでは、オフラインとオンラインの2つのステージを組み合わせる。 履歴データ学習の欠如による複数のスレッドの追加は、学習効率の低下につながる。 トレーニング中のデータ相関と非定常分布問題を解決するために、経験リプレイプールメモリライブラリによる非同期アドバンテージアクタ批判が追加された。

As an efficient way to integrate multiple distributed energy resources and the user side, a microgrid is mainly faced with the problems of small-scale volatility, uncertainty, intermittency and demand-side uncertainty of DERs. The traditional microgrid has a single form and cannot meet the flexible energy dispatch between the complex demand side and the microgrid. In response to this problem, the overall environment of wind power, thermostatically controlled loads, energy storage systems, price-responsive loads and the main grid is proposed. Secondly, the centralized control of the microgrid operation is convenient for the control of the reactive power and voltage of the distributed power supply and the adjustment of the grid frequency. However, there is a problem in that the flexible loads aggregate and generate peaks during the electricity price valley. The existing research takes into account the power constraints of the microgrid and fails to ensure a sufficient supply of electric energy for a single flexible load. This paper considers the response priority of each unit component of TCLs and ESSs on the basis of the overall environment operation of the microgrid so as to ensure the power supply of the flexible load of the microgrid and save the power input cost to the greatest extent. Finally, the simulation optimization of the environment can be expressed as a Markov decision process process. It combines two stages of offline and online operations in the training process. The addition of multiple threads with the lack of historical data learning leads to low learning efficiency. The asynchronous advantage actor-critic with the experience replay pool memory library is added to solve the data correlation and nonstatic distribution problems during training.
翻訳日:2022-11-14 15:47:22 公開日:2022-11-11
# 教師付き学習モデルにおける個人不公平の識別・測定・緩和と信用リスクモデルへの応用

Identifying, measuring, and mitigating individual unfairness for supervised learning models and application to credit risk models ( http://arxiv.org/abs/2211.06106v1 )

ライセンス: Link先を確認
Rasoul Shahsavarifar, Jithu Chandran, Mario Inchiosa, Amit Deshpande, Mario Schlener, Vishal Gossain, Yara Elias, Vinaya Murali(参考訳) ここ数年、人工知能(AI)は金融サービス(FS)を含む様々な産業から注目を集めてきた。 AIは生産性を高め、リスク管理を改善することで、金融サービスに肯定的な影響を与えた。 AIは効率的なソリューションを提供するが、意図しない結果をもたらす可能性がある。 そのような結果の1つは、ai関連不公平と付随するフェアネス関連害の発音効果である。 これらの公平性に関連した損害は、個人の異なる扱いを伴う可能性がある。例えば、特定の個人または個人のグループへの不当な融資を拒否するなど。 本稿では,個人の不公平性を特定し,緩和することに着目し,この領域で最近発表された技術,特に信用判断のユースケースに適用する。 また,グループフェアネスを達成するために,個人フェアネスを達成する技術が有効である範囲についても検討した。 本研究の主な貢献は、生データのごく一部を用いてグループ感覚から公正な類似度メトリックを学習し、機密性を排除したデータの残りの部分を用いて個別に「公正」分類器を訓練する2段階の学習プロセスを機能化することである。 この2段階法の鍵となる特徴は、その柔軟性、すなわち、第1ステップで得られたフェアメトリックは、第2ステップで他の任意の個別フェアネスアルゴリズムで使用できることである。 さらに、モデルが類似した個人をどのように扱うかを決定するための第2の指標(公正類似度測定値とは異なる)を開発した。 この計量を用いて、それぞれの公正度値の基準モデルと「フェア」モデルを比較します。 最後に、個々の不公平性軽減技術に対応する実験結果を示す。

In the past few years, Artificial Intelligence (AI) has garnered attention from various industries including financial services (FS). AI has made a positive impact in financial services by enhancing productivity and improving risk management. While AI can offer efficient solutions, it has the potential to bring unintended consequences. One such consequence is the pronounced effect of AI-related unfairness and attendant fairness-related harms. These fairness-related harms could involve differential treatment of individuals; for example, unfairly denying a loan to certain individuals or groups of individuals. In this paper, we focus on identifying and mitigating individual unfairness and leveraging some of the recently published techniques in this domain, especially as applicable to the credit adjudication use case. We also investigate the extent to which techniques for achieving individual fairness are effective at achieving group fairness. Our main contribution in this work is functionalizing a two-step training process which involves learning a fair similarity metric from a group sense using a small portion of the raw data and training an individually "fair" classifier using the rest of the data where the sensitive features are excluded. The key characteristic of this two-step technique is related to its flexibility, i.e., the fair metric obtained in the first step can be used with any other individual fairness algorithms in the second step. Furthermore, we developed a second metric (distinct from the fair similarity metric) to determine how fairly a model is treating similar individuals. We use this metric to compare a "fair" model against its baseline model in terms of their individual fairness value. Finally, some experimental results corresponding to the individual unfairness mitigation techniques are presented.
翻訳日:2022-11-14 15:46:55 公開日:2022-11-11
# 共有e-Mobilityシステムの拡張のためのFleet Rebalancing: マルチエージェントディープ強化学習アプローチ

Fleet Rebalancing for Expanding Shared e-Mobility Systems: A Multi-agent Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2211.06136v1 )

ライセンス: Link先を確認
Man Luo, Bowen Du, Wenzhe Zhang, Tianyou Song, Kun Li, Hongming Zhu, Mark Birkin, Hongkai Wen(参考訳) 共有モビリティの電化は世界中で人気を集めている。 多くの都市は、新しいe-mobilityシステムを展開しており、中央地域から市境まで継続的に範囲を広げている。 これらのシステムの運用において重要な課題は、将来の需要を満たすためにEVをどのように再配置すべきかという、艦隊の再バランスである。 これは、システム拡大の文脈において特に難しいことです。 一 充電時間が典型的には長い間、EVの範囲が限られており、かつ、実行可能な再バランス作業が制限されていること。 二 システムのEVステーションが動的に変化していること、即ち、再バランス運用の正当な目標が経時的に変化しうること。 まず,実世界の共有e-mobilityシステムから収集したリッチなデータ集合を1年間調査し,この新しいモビリティモードの運用モデル,利用パターン,拡張ダイナミクスを分析した。 学習した知識で我々は、EV共有の重要な操作詳細を粒度で抽象化できる高忠実度シミュレータを設計する。 次に,複数エージェント強化学習(marl)問題として,連続展開下での共有e-mobilityシステムのリバランスタスクをモデル化し,evsの範囲と充電特性を直接考慮する。 さらに, 拡張力学に対処し, 定式化されたMARLを解く, アクションカスケードを用いた新しいポリシー最適化手法を提案する。 提案手法を広範に評価し,本手法が現状よりも優れており,満足需要と純収益の両方において大きなパフォーマンス向上をもたらすことを示した。

The electrification of shared mobility has become popular across the globe. Many cities have their new shared e-mobility systems deployed, with continuously expanding coverage from central areas to the city edges. A key challenge in the operation of these systems is fleet rebalancing, i.e., how EVs should be repositioned to better satisfy future demand. This is particularly challenging in the context of expanding systems, because i) the range of the EVs is limited while charging time is typically long, which constrain the viable rebalancing operations; and ii) the EV stations in the system are dynamically changing, i.e., the legitimate targets for rebalancing operations can vary over time. We tackle these challenges by first investigating rich sets of data collected from a real-world shared e-mobility system for one year, analyzing the operation model, usage patterns and expansion dynamics of this new mobility mode. With the learned knowledge we design a high-fidelity simulator, which is able to abstract key operation details of EV sharing at fine granularity. Then we model the rebalancing task for shared e-mobility systems under continuous expansion as a Multi-Agent Reinforcement Learning (MARL) problem, which directly takes the range and charging properties of the EVs into account. We further propose a novel policy optimization approach with action cascading, which is able to cope with the expansion dynamics and solve the formulated MARL. We evaluate the proposed approach extensively, and experimental results show that our approach outperforms the state-of-the-art, offering significant performance gain in both satisfied demand and net revenue.
翻訳日:2022-11-14 15:46:30 公開日:2022-11-11
# CR-LSO:入力凸ニューラルネットを用いたグラフ変分オートエンコーダの潜時空間における凸ニューラルアーキテクチャ最適化

CR-LSO: Convex Neural Architecture Optimization in the Latent Space of Graph Variational Autoencoder with Input Convex Neural Networks ( http://arxiv.org/abs/2211.05950v1 )

ライセンス: Link先を確認
Xuan Rao, Bo Zhao, Xiaosong Yi and Derong Liu(参考訳) 潜時空間最適化(LSO)に基づくニューラルアーキテクチャ探索(NAS)法では、離散的ニューラルアーキテクチャを連続潜時空間に埋め込むために深層生成モデルを訓練する。 この場合、連続空間で動作する異なる最適化アルゴリズムは、ニューラルネットワークを探索するために実装できる。 しかし、潜在空間からアーキテクチャ性能へのマッピングは一般的に凸でないため、勾配に基づくlsoでは潜在変数の最適化は困難である。 この問題に対処するために、凸アーキテクチャ性能マッピングを得るために、遅延空間の学習過程を正規化することを目的とした凸正則化潜時空間最適化法(CR-LSO)を開発した。 具体的には、CR-LSOは離散アーキテクチャの連続表現を学ぶためにグラフ変分オートエンコーダ(G-VAE)を訓練する。 同時に、入力凸ニューラルネットワーク(ICNN)の確実な凸性により、潜伏空間の学習プロセスが規則化される。 このようにして、G-VAEはアーキテクチャ表現からアーキテクチャ性能への凸写像を学習せざるを得ない。 その後、CR-LSOはICNNを用いて性能マッピングを近似し、推定勾配を利用してニューラルネットワーク表現を最適化する。 3つのNASベンチマークによる実験結果から,CR-LSOは計算複雑性とアーキテクチャ性能の両面での競合評価結果が得られることが示された。

In neural architecture search (NAS) methods based on latent space optimization (LSO), a deep generative model is trained to embed discrete neural architectures into a continuous latent space. In this case, different optimization algorithms that operate in the continuous space can be implemented to search neural architectures. However, the optimization of latent variables is challenging for gradient-based LSO since the mapping from the latent space to the architecture performance is generally non-convex. To tackle this problem, this paper develops a convexity regularized latent space optimization (CR-LSO) method, which aims to regularize the learning process of latent space in order to obtain a convex architecture performance mapping. Specifically, CR-LSO trains a graph variational autoencoder (G-VAE) to learn the continuous representations of discrete architectures. Simultaneously, the learning process of latent space is regularized by the guaranteed convexity of input convex neural networks (ICNNs). In this way, the G-VAE is forced to learn a convex mapping from the architecture representation to the architecture performance. Hereafter, the CR-LSO approximates the performance mapping using the ICNN and leverages the estimated gradient to optimize neural architecture representations. Experimental results on three popular NAS benchmarks show that CR-LSO achieves competitive evaluation results in terms of both computational complexity and architecture performance.
翻訳日:2022-11-14 15:40:12 公開日:2022-11-11
# 深層学習の非深層学習は生理的時系列の予測に優れているか?

Does Deep Learning REALLY Outperform Non-deep Machine Learning for Clinical Prediction on Physiological Time Series? ( http://arxiv.org/abs/2211.06034v1 )

ライセンス: Link先を確認
Ke Liao, Wei Wang, Armagan Elibol, Lingzhong Meng, Xu Zhao, and Nak Young Chong(参考訳) 機械学習は医療応用において、臨床診断、予後、治療などの複雑なモデルを近似するために広く用いられている。 深層学習は時系列から情報を抽出する能力に優れており、スパース、不規則なサンプル、多変量、不均衡な生理データに対する真の能力はまだ十分に解明されていない。 本稿では,ERH,特に生理的時系列に基づく臨床予測タスクにおける機械学習モデルの性能を体系的に検討する。 physionet 2019 challenge public datasetを選択して、icuユニットの敗血症結果を予測する。 臨床予測領域で一般的に使用される3つの深層学習法と7つの非深層学習法を含む10のベースライン機械学習モデルを比較した。 特定の臨床的意味を持つ9つの評価指標を用いて、モデルの性能を評価する。 さらに、トレーニングデータセットのサイズをサブサンプル化し、学習曲線を適合させて、トレーニングデータセットサイズが機械学習モデルのパフォーマンスに与える影響を調べます。 また,生理学時系列データの一般的な前処理法を提案し,データセットの不均衡問題にdiceロスを用いて対処する。 その結果、深層学習は非深層学習よりも優れているが、特定の評価指標(AUROC、AUPRC、Sensitivity、FNR)で評価する条件がいくつかある。

Machine learning has been widely used in healthcare applications to approximate complex models, for clinical diagnosis, prognosis, and treatment. As deep learning has the outstanding ability to extract information from time series, its true capabilities on sparse, irregularly sampled, multivariate, and imbalanced physiological data are not yet fully explored. In this paper, we systematically examine the performance of machine learning models for the clinical prediction task based on the EHR, especially physiological time series. We choose Physionet 2019 challenge public dataset to predict Sepsis outcomes in ICU units. Ten baseline machine learning models are compared, including 3 deep learning methods and 7 non-deep learning methods, commonly used in the clinical prediction domain. Nine evaluation metrics with specific clinical implications are used to assess the performance of models. Besides, we sub-sample training dataset sizes and use learning curve fit to investigate the impact of the training dataset size on the performance of the machine learning models. We also propose the general pre-processing method for the physiology time-series data and use Dice Loss to deal with the dataset imbalanced problem. The results show that deep learning indeed outperforms non-deep learning, but with certain conditions: firstly, evaluating with some particular evaluation metrics (AUROC, AUPRC, Sensitivity, and FNR), but not others; secondly, the training dataset size is large enough (with an estimation of a magnitude of thousands).
翻訳日:2022-11-14 15:39:48 公開日:2022-11-11
# 予測処理近位政策最適化による高効率深層強化学習

Efficient Deep Reinforcement Learning with Predictive Processing Proximal Policy Optimization ( http://arxiv.org/abs/2211.06236v1 )

ライセンス: Link先を確認
Burcu K\"u\c{c}\"uko\u{g}lu, Walraaf Borkent, Bodo Rueckauer, Nasir Ahmad, Umut G\"u\c{c}l\"u and Marcel van Gerven(参考訳) 強化学習(RL)の進歩は、しばしば大量の計算資源に依存し、非効率なサンプルとして悪名高い。 対照的に、人間の脳は限られた資源を使って効果的な制御戦略を効率的に学習することができる。 これにより、現在のRL法を改善するために神経科学からの洞察が使えるかどうかという疑問が提起される。 予測処理は、人間の脳がサプライズを最小化しようと積極的に試みているという一般的な理論フレームワークである。 それぞれの感覚状態を予測するリカレントニューラルネットワークは、サプライズを最小限に抑え、累積報酬の実質的なゲインを得られることを示す。 具体的には,世界モデルを隠れた状態に統合することにより,ppoアルゴリズムの反復的変種に予測処理を適用するアクタ-批判的強化学習エージェントである予測処理近位政策最適化(p4o)エージェントを提案する。 P4Oは1つのGPUを用いて複数のAtariゲーム上でPPOアルゴリズムのベースラインリカレント変動を著しく上回る。 また、同じウォールクロックの時間に与えられる最先端のエージェントを上回り、atariドメインで特に困難な環境であるseaquestを含む複数のゲームで人間のゲーマーのパフォーマンスを上回っている。 私たちの研究は、神経科学の分野からの洞察が、より有能で効率的な人工エージェントの開発にどのように役立つかを強調しています。

Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from neuroscience can be used to improve current RL methods. Predictive processing is a popular theoretical framework which maintains that the human brain is actively seeking to minimize surprise. We show that recurrent neural networks which predict their own sensory states can be leveraged to minimise surprise, yielding substantial gains in cumulative reward. Specifically, we present the Predictive Processing Proximal Policy Optimization (P4O) agent; an actor-critic reinforcement learning agent that applies predictive processing to a recurrent variant of the PPO algorithm by integrating a world model in its hidden state. P4O significantly outperforms a baseline recurrent variant of the PPO algorithm on multiple Atari games using a single GPU. It also outperforms other state-of-the-art agents given the same wall-clock time and exceeds human gamer performance on multiple games including Seaquest, which is a particularly challenging environment in the Atari domain. Altogether, our work underscores how insights from the field of neuroscience may support the development of more capable and efficient artificial agents.
翻訳日:2022-11-14 15:39:23 公開日:2022-11-11
# 能力に配慮した深層強化学習における興味のグローバルおよび局所的分析

Global and Local Analysis of Interestingness for Competency-Aware Deep Reinforcement Learning ( http://arxiv.org/abs/2211.06376v1 )

ライセンス: Link先を確認
Pedro Sequeira, Jesse Hostetler, Melinda Gervasio(参考訳) 近年, 深層学習の進歩は, 高次元入力を用いた複雑な逐次決定課題の解決に強化学習(RL)を用いることで, 数多くの成功をもたらしている。 しかし、既存のシステムは、人間に能力の全体像を提供するために必要なメカニズムを欠いており、特にエージェントが決定を下す重要なアプリケーションにおいて、その採用に障害を与えている。 しかし、既存のRLベースのシステムは、人間のオペレーターがその能力についての洞察に富み、総合的な見解を持てるために必要な解釈機構が欠如していることに、本質的には認識できない。 本稿では,最近提案された「興味」の分析に基づく説明可能なRLフレームワークを拡張した。 我々の新しいフレームワークは、興味深い分析から派生したRLエージェント能力の様々な測定方法を提供し、幅広いRLアルゴリズムに適用できる。 また,rlエージェントの能力を評価するための新しいメカニズムを提案する。 1)興味データのみを用いたクラスタリングエージェント行動トレースによるエージェント行動パターンと能力制御条件の同定 2) SHAP値を用いたグローバルおよびローカル分析を行うことにより, エージェントの行動に主に責任を持つタスク要素を, 面白さによって測定した。 全体として、我々のツールは、RLエージェントの能力、能力と制限の両方に関する洞察を提供しており、ユーザーは、人間と機械の協調的な設定において、介入、追加のトレーニング、その他のインタラクションに関するより情報的な決定をすることができる。

In recent years, advances in deep learning have resulted in a plethora of successes in the use of reinforcement learning (RL) to solve complex sequential decision tasks with high-dimensional inputs. However, existing systems lack the necessary mechanisms to provide humans with a holistic view of their competence, presenting an impediment to their adoption, particularly in critical applications where the decisions an agent makes can have significant consequences. Yet, existing RL-based systems are essentially competency-unaware in that they lack the necessary interpretation mechanisms to allow human operators to have an insightful, holistic view of their competency. In this paper, we extend a recently-proposed framework for explainable RL that is based on analyses of "interestingness." Our new framework provides various measures of RL agent competence stemming from interestingness analysis and is applicable to a wide range of RL algorithms. We also propose novel mechanisms for assessing RL agents' competencies that: 1) identify agent behavior patterns and competency-controlling conditions by clustering agent behavior traces solely using interestingness data; and 2) identify the task elements mostly responsible for an agent's behavior, as measured through interestingness, by performing global and local analyses using SHAP values. Overall, our tools provide insights about RL agent competence, both their capabilities and limitations, enabling users to make more informed decisions about interventions, additional training, and other interactions in collaborative human-machine settings.
翻訳日:2022-11-14 15:39:01 公開日:2022-11-11
# 連続潜在変数推定器としての深部平衡モデル

Deep equilibrium models as estimators for continuous latent variables ( http://arxiv.org/abs/2211.05943v1 )

ライセンス: Link先を確認
Russell Tsuchida and Cheng Soon Ong(参考訳) 主成分分析(PCA)とその指数関数族拡張は、線形変換の観測、潜伏、パラメータの3つの成分を持つ。 指数族の正準パラメータが潜在体の非線形変換であるような一般化された設定を考える。 特定のニューラルネットワークアーキテクチャと対応する統計モデルとの明確な関係を示す。 最近導入された暗黙のニューラルネットワークのクラスであるDeep equilibrium Modelは、潜伏者および変換のパラメータの最大a-posteriori(MAP)推定を解く。 本分析は, 活性化関数, ドロップアウト, および層構造を観測に関する統計的仮定と結びつける体系的な方法を提供し, 教師なしのdeqの基本原理を提供する。 階層的な潜伏状態の場合、個々のニューロンは深いグラフィカルモデルでノードとして解釈できる。 私たちのDEC機能マップはエンドツーエンドで微分可能で、下流タスクの微調整を可能にします。

Principal Component Analysis (PCA) and its exponential family extensions have three components: observations, latents and parameters of a linear transformation. We consider a generalised setting where the canonical parameters of the exponential family are a nonlinear transformation of the latents. We show explicit relationships between particular neural network architectures and the corresponding statistical models. We find that deep equilibrium models -- a recently introduced class of implicit neural networks -- solve maximum a-posteriori (MAP) estimates for the latents and parameters of the transformation. Our analysis provides a systematic way to relate activation functions, dropout, and layer structure, to statistical assumptions about the observations, thus providing foundational principles for unsupervised DEQs. For hierarchical latents, individual neurons can be interpreted as nodes in a deep graphical model. Our DEQ feature maps are end-to-end differentiable, enabling fine-tuning for downstream tasks.
翻訳日:2022-11-14 15:38:38 公開日:2022-11-11
# ストリームスパース線形回帰

Streaming Sparse Linear Regression ( http://arxiv.org/abs/2211.06039v1 )

ライセンス: Link先を確認
Shuoguang Yang, Yuhao Yan, Xiuneng Zhu, Qiang Sun(参考訳) スパース回帰は、変数選択を行い、結果の統計モデルの予測精度と解釈可能性を高めるための一般的なアプローチである。 既存のアプローチはオフラインの正規化回帰にフォーカスしているが、オンラインのシナリオはほとんど研究されていない。 本稿では,データポイントが順次到着したときのストリーミングデータを解析するオンライン疎線形回帰フレームワークを提案する。 提案手法はメモリ効率が高く,厳密な制約付き凸性仮定を必要とする。 理論的には、適切に選択された正規化パラメータでは、推定子の$\ell_2$-norm統計誤差は、$s$がスパーシティレベル、$t$がストリーミングサンプルサイズ、$\tilde{o}(\cdot)$が対数項を隠蔽する$\tilde{o}({\sqrt{s/t}})$の最適な順序でゼロに減少する。 数値実験により,本アルゴリズムの有効性が示された。

Sparse regression has been a popular approach to perform variable selection and enhance the prediction accuracy and interpretability of the resulting statistical model. Existing approaches focus on offline regularized regression, while the online scenario has rarely been studied. In this paper, we propose a novel online sparse linear regression framework for analyzing streaming data when data points arrive sequentially. Our proposed method is memory efficient and requires less stringent restricted strong convexity assumptions. Theoretically, we show that with a properly chosen regularization parameter, the $\ell_2$-norm statistical error of our estimator diminishes to zero in the optimal order of $\tilde{O}({\sqrt{s/t}})$, where $s$ is the sparsity level, $t$ is the streaming sample size, and $\tilde{O}(\cdot)$ hides logarithmic terms. Numerical experiments demonstrate the practical efficiency of our algorithm.
翻訳日:2022-11-14 15:38:26 公開日:2022-11-11
# ニューラルネットワークにおけるベイズ推論の近似の理解

Understanding Approximation for Bayesian Inference in Neural Networks ( http://arxiv.org/abs/2211.06139v1 )

ライセンス: Link先を確認
Sebastian Farquhar(参考訳) ベイズ推論は、信念を推論するための原理的枠組みとして理論的に魅力的である。 しかし、それが唯一の「合理的な」推論であると主張するベイズ推論の動機は、実際には適用されない。 それらは、全ての近似推論が等しく「非合理的」な二分分割を生成する。 代わりに我々は、なぜベイズ近似を別のベイズ近似に好むのかを説明する、より合理的でない推論のスペクトルをどのように定義するかを自問すべきである。 ベイズニューラルネットワークの近似推論について検討し,確率モデル,近似分布,最適化アルゴリズム,データセット間の意図しない相互作用について考察する。 これらの相互作用の複雑さは、特定のデータセットや意思決定問題のコンテキスト外の手法に完全に焦点を絞ったベイズ近似を評価するためのあらゆる戦略の難しさを浮き彫りにしている。 任意の応用の場合、近似後部の期待効用は推論品質を測定することができる。 ベイズフレームワークの異なる部分を組み込むモデルの能力を評価するために、ベイズ推論の望ましい特徴的振る舞いを識別し、それらの振る舞いを多用する意思決定を選択できる。 ここでは,連続学習(連続的に更新する能力をテストする)とアクティブ学習(信頼を表す能力をテストする)を用いる。 しかし、既存の連続的およびアクティブな学習セットアップは、ベイズ近似を評価する能力を歪ませる後方品質とは無関係な課題をもたらす。 これらの無関係な課題は取り除くことも減らすこともでき、近似推論法をより良く評価できる。

Bayesian inference has theoretical attractions as a principled framework for reasoning about beliefs. However, the motivations of Bayesian inference which claim it to be the only 'rational' kind of reasoning do not apply in practice. They create a binary split in which all approximate inference is equally 'irrational'. Instead, we should ask ourselves how to define a spectrum of more- and less-rational reasoning that explains why we might prefer one Bayesian approximation to another. I explore approximate inference in Bayesian neural networks and consider the unintended interactions between the probabilistic model, approximating distribution, optimization algorithm, and dataset. The complexity of these interactions highlights the difficulty of any strategy for evaluating Bayesian approximations which focuses entirely on the method, outside the context of specific datasets and decision-problems. For given applications, the expected utility of the approximate posterior can measure inference quality. To assess a model's ability to incorporate different parts of the Bayesian framework we can identify desirable characteristic behaviours of Bayesian reasoning and pick decision-problems that make heavy use of those behaviours. Here, we use continual learning (testing the ability to update sequentially) and active learning (testing the ability to represent credence). But existing continual and active learning set-ups pose challenges that have nothing to do with posterior quality which can distort their ability to evaluate Bayesian approximations. These unrelated challenges can be removed or reduced, allowing better evaluation of approximate inference methods.
翻訳日:2022-11-14 15:38:07 公開日:2022-11-11
# ガウス過程における学習改善に向けて : 2つの世界のベスト

Towards Improved Learning in Gaussian Processes: The Best of Two Worlds ( http://arxiv.org/abs/2211.06260v1 )

ライセンス: Link先を確認
Rui Li, ST John, Arno Solin(参考訳) ガウス過程の訓練は、(およそ)後方の推論とハイパーパラメータの学習に分解される。 非ガウス的(非共役的)確率に対して、近似推論の一般的な選択は、相補的な強みと弱みを持つ期待伝播(EP)と変分推論(VI)である。 VIの限界準位への下界は近似後続推定に適した目的であるが、自動的にハイパーパラメータ最適化の学習目的であることを示すものではない。 我々は,推論が共役計算viを活用し,学習がep様辺縁近似を用いるハイブリッド学習手順を設計する。 我々は、二項分類が優れた学習目標を提供し、より良い一般化をもたらすことを実証的に実証した。

Gaussian process training decomposes into inference of the (approximate) posterior and learning of the hyperparameters. For non-Gaussian (non-conjugate) likelihoods, two common choices for approximate inference are Expectation Propagation (EP) and Variational Inference (VI), which have complementary strengths and weaknesses. While VI's lower bound to the marginal likelihood is a suitable objective for inferring the approximate posterior, it does not automatically imply it is a good learning objective for hyperparameter optimization. We design a hybrid training procedure where the inference leverages conjugate-computation VI and the learning uses an EP-like marginal likelihood approximation. We empirically demonstrate on binary classification that this provides a good learning objective and generalizes better.
翻訳日:2022-11-14 15:37:43 公開日:2022-11-11
# データモデル効率を追求する: グループパフォーマンスにおけるデータ外部性同定

Striving for data-model efficiency: Identifying data externalities on group performance ( http://arxiv.org/abs/2211.06348v1 )

ライセンス: Link先を確認
Esther Rolf, Ben Packer, Alex Beutel, Fernando Diaz(参考訳) 信頼できる、効果的、責任のある機械学習システムの構築は、トレーニングデータとモデリング決定の相違が予測パフォーマンスにどのように影響するかを理解することにかかっている。 この研究では、データモデルシナジーの特徴付け、検出、設計についてより深く理解することを目指している。 我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要サブグループで評価されるパフォーマンスを実際に低下させることができる。 このような外部性は、標準的な学習設定で発生し、トレーニングセットのサイズとモデルサイズの間の条件によって異なる。 データ外部性は、実現可能なモデル改善のバウンダリが低いことを意味するが、モデルの改善には基礎となるデータモデルの緊張を理解する必要がある。 より広い視点から見ると、データ効率は正確かつ信頼性の高い機械学習のキーコンポーネントであることを示している。

Building trustworthy, effective, and responsible machine learning systems hinges on understanding how differences in training data and modeling decisions interact to impact predictive performance. In this work, we seek to better understand how we might characterize, detect, and design for data-model synergies. We focus on a particular type of data-model inefficiency, in which adding training data from some sources can actually lower performance evaluated on key sub-groups of the population, a phenomenon we refer to as negative data externalities on group performance. Such externalities can arise in standard learning settings and can manifest differently depending on conditions between training set size and model size. Data externalities directly imply a lower bound on feasible model improvements, yet improving models efficiently requires understanding the underlying data-model tensions. From a broader perspective, our results indicate that data-efficiency is a key component of both accurate and trustworthy machine learning.
翻訳日:2022-11-14 15:37:28 公開日:2022-11-11
# RFFNet:ランダムフーリエ機能によるスケーラブルで解釈可能なカーネルメソッド

RFFNet: Scalable and interpretable kernel methods via Random Fourier Features ( http://arxiv.org/abs/2211.06410v1 )

ライセンス: Link先を確認
Mateus P. Otto, Rafael Izbicki(参考訳) カーネル法は非線形および非パラメトリック学習に対する柔軟で理論的なアプローチを提供する。 メモリ要件は大規模なデータセットに適用できないが、最近、ランダムなフーリエ機能などのカーネルメソッドのスケールアップのために多くの近似解法が開発された。 しかし、これらのスケーラブルなアプローチは、おそらく無関係な特徴の影響を取り除くことができない等方性核の近似に基づいている。 本研究では、変数選択に広く用いられている自動関連性判定カーネルのためのランダムなフーリエ機能を設計し、カーネルマシンパラメータとカーネル関連性の合同最適化に基づく新しい手法を提案する。 さらに, 目的関数(非凸関数)を効率的に取り扱う新しい最適化アルゴリズムを提案する。 合成および実世界のデータに対する数値検証により,予測誤差が低く,関連する予測要因を効果的に特定できることを示す。 我々のソリューションはモジュラーであり、pytorchフレームワークを使用しています。

Kernel methods provide a flexible and theoretically grounded approach to nonlinear and nonparametric learning. While memory requirements hinder their applicability to large datasets, many approximate solvers were recently developed for scaling up kernel methods, such as random Fourier features. However, these scalable approaches are based on approximations of isotropic kernels, which are incapable of removing the influence of possibly irrelevant features. In this work, we design random Fourier features for automatic relevance determination kernels, widely used for variable selection, and propose a new method based on joint optimization of the kernel machine parameters and the kernel relevances. Additionally, we present a new optimization algorithm that efficiently tackles the resulting objective function, which is non-convex. Numerical validation on synthetic and real-world data shows that our approach achieves low prediction error and effectively identifies relevant predictors. Our solution is modular and uses the PyTorch framework.
翻訳日:2022-11-14 15:37:11 公開日:2022-11-11
# MF2-MVQA: 医用視覚質問応答のための多段階特徴融合法

MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering ( http://arxiv.org/abs/2211.05991v1 )

ライセンス: Link先を確認
Shanshan Song, Jiangyun Li, Jing Wang, Yuanxiu Cai, Wenkai Dong(参考訳) 限られたデータセットで言語と医用画像の特徴融合を効果的に実現するための医療視覚的質問応答タスクには重要な問題がある。 医療画像のマルチスケール情報を活用するため,従来の手法では,多段階視覚特徴マップを同一サイズのトークンとして直接埋め込み,テキスト表現と融合する。 しかし、これは異なる段階における視覚的特徴の混乱を引き起こす。 そこで本研究では,テキスト・セマンティクスによる多段階視覚特徴を段階的に融合する,シンプルだが強力なマルチステージ機能融合手法MF2-MVQAを提案する。 MF2-MVQAは、VQA-Med 2019とVQA-RADデータセット上でのState-Of-The-Artパフォーマンスを達成する。 ビジュアライゼーションの結果は、私たちのモデルが以前の作業より優れていることも確認します。

There is a key problem in the medical visual question answering task that how to effectively realize the feature fusion of language and medical images with limited datasets. In order to better utilize multi-scale information of medical images, previous methods directly embed the multi-stage visual feature maps as tokens of same size respectively and fuse them with text representation. However, this will cause the confusion of visual features at different stages. To this end, we propose a simple but powerful multi-stage feature fusion method, MF2-MVQA, which stage-wise fuses multi-level visual features with textual semantics. MF2-MVQA achieves the State-Of-The-Art performance on VQA-Med 2019 and VQA-RAD dataset. The results of visualization also verify that our model outperforms previous work.
翻訳日:2022-11-14 15:30:46 公開日:2022-11-11
# SNNとANNの踊り:スパイクタイミングと再構成注意を組み合わせた結合問題の解決

Dance of SNN and ANN: Solving binding problem by combining spike timing and reconstructive attention ( http://arxiv.org/abs/2211.06027v1 )

ライセンス: Link先を確認
Hao Zheng, Hui Lin, Rong Zhao, Luping Shi(参考訳) 結合問題(英: binding problem)は、人工ニューラルネットワーク(anns)が人間の知覚のような世界を理解することを妨げる根本的な課題の1つである。 本稿では,スパイクタイミングダイナミクス(スパイクニューラルネットワーク(sns)によるスパイクタイミングダイナミクス)と再構成的注意(annによる)の統合により,神経科学に由来する時間的結合理論をannに導入する,脳にインスパイアされたハイブリッドニューラルネットワーク(hnn)を提案する。 スパイクタイミングはグループ化のための追加次元を提供し、再構成フィードバックはスパイクを時間的コヒーレントな状態に調整する。 ANNとSNNの反復的相互作用により、モデルはSNN符号化空間において、代替の同期発射時間で複数のオブジェクトを連続的にバインドする。 モデルの有効性をバイナリ画像の合成データセット上で評価する。 可視化と解析により,結合が説明可能,ソフト,フレキシブル,階層的であることを実証する。 特に、モデルはグルーピングを明示的に監視せずに単一のオブジェクトデータセットでトレーニングされるが、テストデータセットに複数のオブジェクトをバインドすることに成功し、構成の一般化能力を示している。 さらに,動的状況下での結合性を示す。

The binding problem is one of the fundamental challenges that prevent the artificial neural network (ANNs) from a compositional understanding of the world like human perception, because disentangled and distributed representations of generative factors can interfere and lead to ambiguity when complex data with multiple objects are presented. In this paper, we propose a brain-inspired hybrid neural network (HNN) that introduces temporal binding theory originated from neuroscience into ANNs by integrating spike timing dynamics (via spiking neural networks, SNNs) with reconstructive attention (by ANNs). Spike timing provides an additional dimension for grouping, while reconstructive feedback coordinates the spikes into temporal coherent states. Through iterative interaction of ANN and SNN, the model continuously binds multiple objects at alternative synchronous firing times in the SNN coding space. The effectiveness of the model is evaluated on synthetic datasets of binary images. By visualization and analysis, we demonstrate that the binding is explainable, soft, flexible, and hierarchical. Notably, the model is trained on single object datasets without explicit supervision on grouping, but successfully binds multiple objects on test datasets, showing its compositional generalization capability. Further results show its binding ability in dynamic situations.
翻訳日:2022-11-14 15:30:32 公開日:2022-11-11
# rgb-tサルエント物体検出のための対話型コンテキストアウェアネットワーク

Interactive Context-Aware Network for RGB-T Salient Object Detection ( http://arxiv.org/abs/2211.06097v1 )

ライセンス: Link先を確認
Yuxuan Wang, Feng Dong, Jinchao Zhu(参考訳) サリアントオブジェクト検出(SOD)は、シーンで最も目立つオブジェクトを区別することに焦点を当てる。 しかし、ほとんどの関連作品はRGB画像に基づいており、膨大な有用な情報が失われている。 そのため、熱技術の成熟に伴い、RGB-T(RGB-Thermal)マルチモーダルタスクがますます注目されるようになる。 熱赤外画像は、SOD予測の精度を向上させるために使用できる重要な情報を持っている。 そのために,マルチモーダル情報を統合し,ノイズを抑制する手法が重要である。 本稿では,Interactive Context-Aware Network (ICANet) と呼ばれる新しいネットワークを提案する。 クロスモーダルおよびクロススケール融合を効果的に行うことができる3つのモジュールを含んでいる。 2種類の特徴抽出を利用する2つのモダリティの特徴を統合するために,ハイブリッド機能融合(hff)モジュールを設計した。 マルチスケール注意強化(MSAR)とアッパーフュージョン(UF)ブロックは、異なるレベルの特徴を収束させ、予測マップを生成するクロススケールフュージョンに責任を持つ。 また、予測と基底真実(GT)の間のコンテンツ損失を計算するために、新しいコンテキスト対応マルチスーパーバイザネットワーク(CAMSNet)も立ち上げる。 実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。

Salient object detection (SOD) focuses on distinguishing the most conspicuous objects in the scene. However, most related works are based on RGB images, which lose massive useful information. Accordingly, with the maturity of thermal technology, RGB-T (RGB-Thermal) multi-modality tasks attain more and more attention. Thermal infrared images carry important information which can be used to improve the accuracy of SOD prediction. To accomplish it, the methods to integrate multi-modal information and suppress noises are critical. In this paper, we propose a novel network called Interactive Context-Aware Network (ICANet). It contains three modules that can effectively perform the cross-modal and cross-scale fusions. We design a Hybrid Feature Fusion (HFF) module to integrate the features of two modalities, which utilizes two types of feature extraction. The Multi-Scale Attention Reinforcement (MSAR) and Upper Fusion (UF) blocks are responsible for the cross-scale fusion that converges different levels of features and generate the prediction maps. We also raise a novel Context-Aware Multi-Supervised Network (CAMSNet) to calculate the content loss between the prediction and the ground truth (GT). Experiments prove that our network performs favorably against the state-of-the-art RGB-T SOD methods.
翻訳日:2022-11-14 15:30:08 公開日:2022-11-11
# HOReeNet: 3D対応のハンドオブジェクトグラッピングの再現

HOReeNet: 3D-aware Hand-Object Grasping Reenactment ( http://arxiv.org/abs/2211.06195v1 )

ライセンス: Link先を確認
Changhwa Lee, Junuk Cha, Hansol Lee, Seongyeong Lee, Donguk Kim, Seungryul Baek(参考訳) 本稿では,手,オブジェクト,インタラクションを含む画像を操作する新しいタスクに取り組むHOReeNetを提案する。 特に,光源画像の物体を対象画像に移動させ,三次元手姿勢を操作して移動物体を密に把握することに関心がある。 さらに、操作を2d画像空間に反映する必要がある。 手と物体の相互作用を含む再現シナリオでは、3次元の接触推論が密接な把握を達成するために必要となるため、3次元再構成が不可欠となる。 同時に、3D空間から高品質な2D画像を得るには、よく設計された3D-to-2Dプロジェクションと画像の精細化が必要である。 私たちのHOReeNetは、そのようなタスクのために提案された最初の完全に差別化可能なフレームワークです。 ハンドオブジェクトインタラクションデータセットでは,従来の画像翻訳アルゴリズムと再現アルゴリズムと比較した。 提案手法が提案課題の最先端を達成できることを実証した。

We present HOReeNet, which tackles the novel task of manipulating images involving hands, objects, and their interactions. Especially, we are interested in transferring objects of source images to target images and manipulating 3D hand postures to tightly grasp the transferred objects. Furthermore, the manipulation needs to be reflected in the 2D image space. In our reenactment scenario involving hand-object interactions, 3D reconstruction becomes essential as 3D contact reasoning between hands and objects is required to achieve a tight grasp. At the same time, to obtain high-quality 2D images from 3D space, well-designed 3D-to-2D projection and image refinement are required. Our HOReeNet is the first fully differentiable framework proposed for such a task. On hand-object interaction datasets, we compared our HOReeNet to the conventional image translation algorithms and reenactment algorithm. We demonstrated that our approach could achieved the state-of-the-art on the proposed task.
翻訳日:2022-11-14 15:29:49 公開日:2022-11-11
# 低リソースシナリオ下での生物医学的名前の認識のためのハードネス誘導ドメイン適応

Hardness-guided domain adaptation to recognise biomedical named entities under low-resource scenarios ( http://arxiv.org/abs/2211.05980v1 )

ライセンス: Link先を確認
Ngoc Dang Nguyen, Lan Du, Wray Buntine, Changyou Chen, Richard Beare(参考訳) ドメイン適応は、低リソースシナリオにおけるデータ不足に対する効果的な解決策です。 しかし、bioNERのようなトークンレベルのタスクに適用する場合、ドメイン適応手法は、臨床物語が持つ難易度の高い言語的特徴に悩まされ、不満足なパフォーマンスをもたらすことが多い。 本稿では、低リソースシナリオにおける学習モデルの適応性を向上させるために、ドメインの硬度情報を効果的に活用できる、バイオNERタスクのための単純で効果的な硬度誘導型ドメイン適応(HGDA)フレームワークを提案する。 バイオメディカルデータセットの実験結果から、我々のモデルは、最近発表されたSOTA(State-of-the-art) MetaNERモデルよりも顕著な性能向上を達成できることが示された。

Domain adaptation is an effective solution to data scarcity in low-resource scenarios. However, when applied to token-level tasks such as bioNER, domain adaptation methods often suffer from the challenging linguistic characteristics that clinical narratives possess, which leads to unsatisfactory performance. In this paper, we present a simple yet effective hardness-guided domain adaptation (HGDA) framework for bioNER tasks that can effectively leverage the domain hardness information to improve the adaptability of the learnt model in low-resource scenarios. Experimental results on biomedical datasets show that our model can achieve significant performance improvement over the recently published state-of-the-art (SOTA) MetaNER model
翻訳日:2022-11-14 15:29:36 公開日:2022-11-11
# ヒンディー語ツイートにおける絵文字予測へのフェデレートアプローチ

A Federated Approach to Predicting Emojis in Hindi Tweets ( http://arxiv.org/abs/2211.06401v1 )

ライセンス: Link先を確認
Deep Gandhi and Jash Mehta and Nirali Parekh and Karan Waghela and Lynette D'Mello and Zeerak Talat(参考訳) 絵文字の使用は、しばしばプライベートなテキストコミュニケーションに視覚的なモダリティを与える。 しかし、絵文字を予測するタスクは、頻繁に使われる絵文字とめったに使われない絵文字に群がる傾向があるため、機械学習にとって課題となる。 絵文字使用に関する機械学習研究の多くは、高リソース言語に重点を置いており、従来のサーバーサイド機械学習アプローチに関する絵文字予測のタスクの概念化を行っている。 しかしながら、従来のプライベート通信のための機械学習アプローチは、すべてのデータを中央ストレージに送信する必要があるため、プライバシー上の懸念をもたらす可能性がある。 本稿では,絵文字予測のための高資源言語を強調し,人々のデータのプライバシーを危険にさらすという2つの懸念に対処する。 私たちはヒンディー語で絵文字の予測を行うために118ドル(25ドル)のツイート(ユニークツイートから推測される)の新しいデータセットを導入し、モデルのパフォーマンスとユーザーのプライバシーのバランスを取ることを目的としたfederated learningアルゴリズムであるcausalfedgsdの修正を提案する。 提案手法では,モデル最適化に必要なデータ量を削減し,ユーザプライバシのリスクを最小限に抑えるとともに,より複雑な集中型モデルによる比較スコアを得る。

The use of emojis affords a visual modality to, often private, textual communication. The task of predicting emojis however provides a challenge for machine learning as emoji use tends to cluster into the frequently used and the rarely used emojis. Much of the machine learning research on emoji use has focused on high resource languages and has conceptualised the task of predicting emojis around traditional server-side machine learning approaches. However, traditional machine learning approaches for private communication can introduce privacy concerns, as these approaches require all data to be transmitted to a central storage. In this paper, we seek to address the dual concerns of emphasising high resource languages for emoji prediction and risking the privacy of people's data. We introduce a new dataset of $118$k tweets (augmented from $25$k unique tweets) for emoji prediction in Hindi, and propose a modification to the federated learning algorithm, CausalFedGSD, which aims to strike a balance between model performance and user privacy. We show that our approach obtains comparative scores with more complex centralised models while reducing the amount of data required to optimise the models and minimising risks to user privacy.
翻訳日:2022-11-14 15:29:23 公開日:2022-11-11
# アーキテクチャボトルネックの原則

The Architectural Bottleneck Principle ( http://arxiv.org/abs/2211.06420v1 )

ライセンス: Link先を確認
Tiago Pimentel, Josef Valvoda, Niklas Stoehr, Ryan Cotterell(参考訳) 本稿では、ニューラルネットワークのコンポーネントが入力した表現からどれだけの情報を抽出することができるかを測定する。 私たちの研究は、モデル表現がどれだけの情報を含んでいるかを調べる事前調査とは対照的です。 この視点の変化は、探索のための新しい原則、すなわちアーキテクチャボトルネックの原則を提案している: あるコンポーネントがどれだけの情報を引き出すことができるかを見積もるために、プローブはコンポーネントと全く同じように見えるべきである。 この原理に依拠して、我々はトランスフォーマーの自己着脱ヘッドと正確に類似したプローブである注意プローブを通して、トランスフォーマーにどの程度の構文情報が得られるかを推定する。 実験により、3つのモデル(bert、albert、roberta)において、文の構文木は、主にプローブによって抽出可能であり、これらのモデルが文脈表現を合成しながら構文情報にアクセス可能であることを示唆する。 しかし、この情報が実際にこれらのモデルで使われているかどうかは未解決のままだ。

In this paper, we seek to measure how much information a component in a neural network could extract from the representations fed into it. Our work stands in contrast to prior probing work, most of which investigates how much information a model's representations contain. This shift in perspective leads us to propose a new principle for probing, the architectural bottleneck principle: In order to estimate how much information a given component could extract, a probe should look exactly like the component. Relying on this principle, we estimate how much syntactic information is available to transformers through our attentional probe, a probe that exactly resembles a transformer's self-attention head. Experimentally, we find that, in three models (BERT, ALBERT, and RoBERTa), a sentence's syntax tree is mostly extractable by our probe, suggesting these models have access to syntactic information while composing their contextual representations. Whether this information is actually used by these models, however, remains an open question.
翻訳日:2022-11-14 15:29:03 公開日:2022-11-11
# 説得的書き方を用いた誤情報検出

Misinformation Detection using Persuasive Writing Strategies ( http://arxiv.org/abs/2211.05985v1 )

ライセンス: Link先を確認
Joseph Romain, Huiyi Liu, Wei Peng, Jingbo Meng, Parisa Kordjamshidi(参考訳) 誤報の拡散は今日の社会で顕著な問題であり、学術や産業の多くの研究者がそれと戦おうとしている。 毎日生成される膨大な誤った情報のために、このタスクを人間のファクトチェックに委ねるのは非現実的です。 データ科学者と研究者は何年もの間、誤情報の自動検出に取り組んできたが、今日でも難しい問題だ。 本研究の目的は,文章のセグメントを説得力のある書き方で分類することで,なぜ記事が誤情報としてマークされるのかを解釈可能な推論を行うことである。 そこで本研究では,人間のアノテーションを用いたデータセットと共に,多くの一般的な説得力のある記述戦術を含む新しいアノテーションスキームを提案する。 そこで本研究では,テキスト分類にRoBERTaモデルを用いる。 言語モデルに基づくベースラインを複数開発し,提案する説得戦略ラベル予測の結果と,それらの中間ラベルが誤情報を検出し,解釈可能な結果を生成するための改善点を示す。

The spread of misinformation is a prominent problem in today's society, and many researchers in academia and industry are trying to combat it. Due to the vast amount of misinformation that is created every day, it is unrealistic to leave this task to human fact-checkers. Data scientists and researchers have been working on automated misinformation detection for years, and it is still a challenging problem today. The goal of our research is to add a new level to automated misinformation detection; classifying segments of text with persuasive writing techniques in order to produce interpretable reasoning for why an article can be marked as misinformation. To accomplish this, we present a novel annotation scheme containing many common persuasive writing tactics, along with a dataset with human annotations accordingly. For this task, we make use of a RoBERTa model for text classification, due to its high performance in NLP. We develop several language model-based baselines and present the results of our persuasive strategy label predictions as well as the improvements these intermediate labels make in detecting misinformation and producing interpretable results.
翻訳日:2022-11-14 15:22:06 公開日:2022-11-11
# ペルシャ代名詞分解に対するハイブリッドエンティティ中心アプローチ

A hybrid entity-centric approach to Persian pronoun resolution ( http://arxiv.org/abs/2211.06257v1 )

ライセンス: Link先を確認
Hassan Haji Mohammadi, Alireza Talebpour, Ahmad Mahmoudi Aznaveh, Samaneh Yazdani(参考訳) 代名詞分解は、コア参照分解(coreference resolution)と呼ばれる自然言語処理において不可欠な部分集合である。 coreference resolutionは、同じ現実世界のエンティティを参照するテキスト中のすべてのエンティティを見つけることである。 本稿では,複数のルールベースシーブと代名詞用機械学習シーブを組み合わせたハイブリッドモデルを提案する。 この目的のために、7つの高度な規則に基づくシーブがペルシャ語のために設計されている。 そして、ランダムな森林分類器が代名詞を前の部分クラスタにリンクする。 提案手法は,パイプライン設計と機械学習とルールベース手法の利点を組み合わせた模範的性能を示す。 この手法はエンドツーエンドモデルにおけるいくつかの課題を解決した。 本研究では,400文書の形で,ペルシア語のコリファレンスコーパスであるmehrを開発した。 このコーパスはペルシア語の以前のコーパスのいくつかの弱点を修正している。 最後に,mehrおよびuppsalaテストセットにおける提案手法を評価することにより,ペルシャの先行モデルと比較して,提案システムの効率を報告した。

Pronoun resolution is a challenging subset of an essential field in natural language processing called coreference resolution. Coreference resolution is about finding all entities in the text that refers to the same real-world entity. This paper presents a hybrid model combining multiple rulebased sieves with a machine-learning sieve for pronouns. For this purpose, seven high-precision rule-based sieves are designed for the Persian language. Then, a random forest classifier links pronouns to the previous partial clusters. The presented method demonstrates exemplary performance using pipeline design and combining the advantages of machine learning and rulebased methods. This method has solved some challenges in end-to-end models. In this paper, the authors develop a Persian coreference corpus called Mehr in the form of 400 documents. This corpus fixes some weaknesses of the previous corpora in the Persian language. Finally, the efficiency of the presented system compared to the earlier model in Persian is reported by evaluating the proposed method on the Mehr and Uppsala test sets.
翻訳日:2022-11-14 15:21:47 公開日:2022-11-11
# ベイジアンニューラルネットワークは、完全に確率的である必要があるか?

Do Bayesian Neural Networks Need To Be Fully Stochastic? ( http://arxiv.org/abs/2211.06291v1 )

ライセンス: Link先を確認
Mrinank Sharma, Sebastian Farquhar, Eric Nalisnick, Tom Rainforth(参考訳) ベイズニューラルネットワークにおける全てのパラメータを統計的に扱うことの有効性について検討し、この標準構成が不要であることを示す説得力のある理論的および実証的な証拠を見出す。 この目的のために、表現的予測分布は少量の確率性しか必要としないことを示す。 特に、わずか$n$の確率バイアスを持つ部分確率ネットワークは、$n$次元予測問題に対する普遍確率予測器である。 実験的な調査では、4つの異なる推論モダリティと8つのデータセットにまたがる完全な確率性の体系的な利点は見つからない。

We investigate the efficacy of treating all the parameters in a Bayesian neural network stochastically and find compelling theoretical and empirical evidence that this standard construction may be unnecessary. To this end, we prove that expressive predictive distributions require only small amounts of stochasticity. In particular, partially stochastic networks with only $n$ stochastic biases are universal probabilistic predictors for $n$-dimensional predictive problems. In empirical investigations, we find no systematic benefit of full stochasticity across four different inference modalities and eight datasets; partially stochastic networks can match and sometimes even outperform fully stochastic networks, despite their reduced memory costs.
翻訳日:2022-11-14 15:21:35 公開日:2022-11-11
# RaLiBEV:アンカーボックス自由物体検出システムのためのレーダーとLiDARのBEV融合学習

RaLiBEV: Radar and LiDAR BEV Fusion Learning for Anchor Box Free Object Detection System ( http://arxiv.org/abs/2211.06108v1 )

ライセンス: Link先を確認
Yanlong Yang, Jianan Liu, Tao Huang, Qing-Long Han, Gang Ma and Bing Zhu(参考訳) レーダ(Radar)は、あらゆる気象条件で信頼性の高い認識能力を安価に提供できる唯一のセンサーであり、現代の先進運転支援システム(ADAS)や自律運転システムにおいて、カメラとLiDARの重要なサプリメントとして広く受け入れられている。 最近の最先端の研究は、レーダーとLiDARの融合が霧のような悪天候の堅牢な検出につながることを明らかにしている。 しかし、これらの手法は依然としてバウンディングボックス推定の精度が低い。 本稿では,レーダーレンジ方位熱マップとLiDAR点雲から推定した特徴を応用したアンカーボックスフリー物体検出システムのための鳥眼ビュー(BEV)融合学習を提案する。 異なるラベル割り当て戦略は、前景や背景アンカーポイントの分類と対応する境界ボックスの回帰との整合性を促進するように設計されている。 さらに、新しい対話型トランスモジュールを用いることで、提案したオブジェクト検出器の性能をさらに向上することができる。 本稿では,最近発表されたOxford Radar RobotCar(ORR)データセットを用いて提案手法の優れた性能を示す。 その結果,本システムの精度は,他の最先端手法よりも大幅に優れていた。

Radar, the only sensor that could provide reliable perception capability in all weather conditions at an affordable cost, has been widely accepted as a key supplement to camera and LiDAR in modern advanced driver assistance systems (ADAS) and autonomous driving systems. Recent state-of-the-art works reveal that fusion of radar and LiDAR can lead to robust detection in adverse weather, such as fog. However, these methods still suffer from low accuracy of bounding box estimations. This paper proposes a bird's-eye view (BEV) fusion learning for an anchor box-free object detection system, which uses the feature derived from the radar range-azimuth heatmap and the LiDAR point cloud to estimate the possible objects. Different label assignment strategies have been designed to facilitate the consistency between the classification of foreground or background anchor points and the corresponding bounding box regressions. Furthermore, the performance of the proposed object detector can be further enhanced by employing a novel interactive transformer module. We demonstrated the superior performance of the proposed methods in this paper using the recently published Oxford Radar RobotCar (ORR) dataset. We showed that the accuracy of our system significantly outperforms the other state-of-the-art methods by a large margin.
翻訳日:2022-11-14 15:21:01 公開日:2022-11-11
# アクティブタスクのランダム化:実行可能タスクと新規タスクの提案による逐次操作のためのバイスモータスキルの学習

Active Task Randomization: Learning Visuomotor Skills for Sequential Manipulation by Proposing Feasible and Novel Tasks ( http://arxiv.org/abs/2211.06134v1 )

ライセンス: Link先を確認
Kuan Fang, Toki Migimatsu, Ajay Mandlekar, Li Fei-Fei, Jeannette Bohg(参考訳) 現実のシーケンシャルな操作タスクを解決するためには、ロボットは幅広い状況に適用可能なスキルのレパートリーを持つ必要がある。 このようなスキルをデータ駆動のアプローチで獲得するには,労働集約的かつ非自明な,大規模かつ多様なトレーニングデータが必要である。 本研究では,実行可能かつ新規なタスクをシミュレーションで自動生成することにより,逐次操作のためのヴィゾモータのスキルを学習する手法であるアクティブタスクランダム化(atr)を提案する。 学習中、グラフに基づくタスクパラメータ化を用いてタスクを手続き的に生成する。 サンプルタスクの実現可能性と新規性を適応的に推定するために,各タスクパラメータをコンパクトな埋め込みにマッピングする関係ニューラルネットワークを開発した。 このアプローチは,さまざまなオブジェクトを用いた多様なシナリオを扱うためのスキルポリシを効率的にトレーニングするための適切なタスクを自動生成できることを実証する。 タスクプランナーを用いて学習スキルを構成することにより,シミュレーションおよび実世界の逐次操作タスクの評価を行う。 ベースライン手法と比較して、私たちのアプローチで学んだスキルは、一貫してより良い成功率を達成します。

Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
翻訳日:2022-11-14 15:20:40 公開日:2022-11-11
# 低リソース情報抽出のための勾配模倣強化学習

Gradient Imitation Reinforcement Learning for General Low-Resource Information Extraction ( http://arxiv.org/abs/2211.06014v1 )

ライセンス: Link先を確認
Xuming Hu, Shiao Meng, Chenwei Zhang, Xiangli Yang, Lijie Wen, Irwin King, Philip S. Yu(参考訳) 情報抽出(IE)は異種情報源から構造化情報を抽出することを目的としている。 自然言語テキストからのIEには、名前付きエンティティ認識(NER)、関係抽出(RE)、イベント抽出(EE)などのサブタスクが含まれる。 ほとんどのIEシステムは、文構造、暗黙のセマンティクス、ドメイン知識の包括的な理解を必要とするため、IEタスクは常に適切な外部リソースとアノテーションが必要である。 しかし、より人間のアノテーションを得るには時間と労力を要する。 低リソース情報抽出(LRIE)は、教師なしのデータを使用し、必要なリソースと人間のアノテーションを減らす。 実際には、既存のシステムは自己学習方式を使用して、段階的なドリフト問題を引き起こす擬似ラベルを生成するか、あるいは必然的に確証バイアスを持つ一貫性の正則化手法を利用する。 既存のLRIE学習パラダイムにおけるフィードバックループの欠如による確認バイアスを軽減するため,ラベル付きデータに勾配降下方向を模した擬ラベル付きデータを奨励するグラディエント・イミテーション・強化学習(GIRL)法を開発した。 ラベル付きデータから得られた指示的勾配降下方向を擬似ラベル付きデータがいかによく模倣するかに基づき、模倣過程を定量化し、試行錯誤により擬似ラベル付きデータの最適化能力をブートストラップする報酬をデザインする。 学習パラダイムに加えて、GIRLは特定のサブタスクに限らず、GIRLを利用して低リソース環境(準教師付きIEと少数ショットIE)におけるすべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決する。

Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
翻訳日:2022-11-14 15:19:55 公開日:2022-11-11
# 英語のコントラスト学習は、普遍的な言語間文埋め込みを学習できる

English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings ( http://arxiv.org/abs/2211.06127v1 )

ライセンス: Link先を確認
Yau-Shian Wang and Ashley Wu and Graham Neubig(参考訳) 共通言語間文埋め込みは意味的に類似した言語間文を共有埋め込み空間にマッピングする。 言語間埋め込みの調整は通常、教師付き言語間並列文を必要とする。 本研究では,simcseを多言語環境に拡張したmsimcseを提案し,英語データを用いたコントラスト学習が,並列データを用いずに驚くほど高品質な万能クロスリンガル文埋め込みを学習できることを明らかにする。 教師なしおよび弱教師付き設定では、mSimCSEは、言語間検索や多言語STSタスクに対する従来の文埋め込み法を大幅に改善する。 教師なしmSimCSEの性能は、低リソース言語と多言語STSを検索する完全教師付き手法に匹敵する。 言語間NLIデータが利用可能であれば、パフォーマンスをさらに向上することができる。 私たちのコードはhttps://github.com/yaushian/msimcseで公開されています。

Universal cross-lingual sentence embeddings map semantically similar cross-lingual sentences into a shared embedding space. Aligning cross-lingual sentence embeddings usually requires supervised cross-lingual parallel sentences. In this work, we propose mSimCSE, which extends SimCSE to multilingual settings and reveal that contrastive learning on English data can surprisingly learn high-quality universal cross-lingual sentence embeddings without any parallel data. In unsupervised and weakly supervised settings, mSimCSE significantly improves previous sentence embedding methods on cross-lingual retrieval and multilingual STS tasks. The performance of unsupervised mSimCSE is comparable to fully supervised methods in retrieving low-resource languages and multilingual STS. The performance can be further enhanced when cross-lingual NLI data is available. Our code is publicly available at https://github.com/yaushian/mSimCSE.
翻訳日:2022-11-14 15:19:25 公開日:2022-11-11
# 集約型入力サリエンスを用いたテキスト分類データとモデル理解

Understanding Text Classification Data and Models Using Aggregated Input Salience ( http://arxiv.org/abs/2211.05485v2 )

ライセンス: Link先を確認
Sebastian Ebert, Alice Shoshana Jakobovits, Katja Filippova(参考訳) モデルが間違った理由で正しいと認識することは自明ではなく、モデル開発者による多大な努力を必要とする。 場合によっては、入力の最も重要な部分を強調する入力サリエンス法が問題となる可能性がある。 しかし、多くのデータインスタンスに対するハイライトの精査は退屈で、しばしば実現不可能である。 さらに、サンプルを分離して分析することは、データの一般的なパターンやモデルの振る舞いを明らかにしない。 本稿では,これらの課題に対処し,単一事例の理解からデータセットやモデル全体の理解へと向かう。 提案手法は,集計されたサリエンスマップに基づく。 この方法論を用いることで、複数の異なるが一般的なモデル開発者のニーズに対処し、問題のあるデータとモデルの振る舞いをいかに特定できるかを示す。

Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior. In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
翻訳日:2022-11-14 15:13:17 公開日:2022-11-11
# MoNET: 対話状態追跡のためのノイズ強化トレーニングによるタックル状態モメンタム

MoNET: Tackle State Momentum via Noise-Enhanced Training for Dialogue State Tracking ( http://arxiv.org/abs/2211.05503v2 )

ライセンス: Link先を確認
Haoning Zhang, Junwei Bao, Haipeng Sun, Youzheng Wu, Wenye Li, Shuguang Cui, Xiaodong He(参考訳) 対話状態追跡(DST)は、対話履歴をスロット値ペアからなる対話状態に変換することを目的としている。 全ての履歴情報を記憶する複合構造情報として、dstモデルによる現在の状態を予測する入力として、最後の順番の対話状態が典型的に採用される。 しかし, このモデルでは, 予測されたスロット値が変化せず, 状態モーメントとして定義される傾向がみられた。 具体的には、モデルが変更が必要なスロット値の更新に苦労し、最後のターンで間違った予測スロット値を修正します。 この目的のために,ノイズ強化トレーニングにより状態運動量に対処するMoNETを提案する。 まず、トレーニングデータの各ターンの前の状態は、スロット値の一部を置き換えることでノイズが発生する。 そして、ノイズの多い前の状態を入力として使用して、現在の状態を予測し、モデルがスロット値を更新して修正する能力を改善する。 さらに、コントラスト的コンテキストマッチングフレームワークは、状態とそれに対応する雑音変動との表現距離を狭め、ノイズ状態の影響を低減し、モデルに対話履歴をよりよく理解させるように設計されている。 MultiWOZデータセットの実験結果は、MoNETが従来のDSTメソッドより優れていることを示している。 アブレーションと解析は、状態運動量軽減と反雑音能力向上におけるmonetの有効性を検証する。

Dialogue state tracking (DST) aims to convert the dialogue history into dialogue states which consist of slot-value pairs. As condensed structural information memorizing all history information, the dialogue state in the last turn is typically adopted as the input for predicting the current state by DST models. However, these models tend to keep the predicted slot values unchanged, which is defined as state momentum in this paper. Specifically, the models struggle to update slot values that need to be changed and correct wrongly predicted slot values in the last turn. To this end, we propose MoNET to tackle state momentum via noise-enhanced training. First, the previous state of each turn in the training data is noised via replacing some of its slot values. Then, the noised previous state is used as the input to learn to predict the current state, improving the model's ability to update and correct slot values. Furthermore, a contrastive context matching framework is designed to narrow the representation distance between a state and its corresponding noised variant, which reduces the impact of noised state and makes the model better understand the dialogue history. Experimental results on MultiWOZ datasets show that MoNET outperforms previous DST methods. Ablations and analysis verify the effectiveness of MoNET in alleviating state momentum and improving anti-noise ability.
翻訳日:2022-11-14 15:13:04 公開日:2022-11-11
# 新しい構造的不確実性尺度と誤差保持曲線:多発性硬化症への応用

Novel structural-scale uncertainty measures and error retention curves: application to multiple sclerosis ( http://arxiv.org/abs/2211.04825v2 )

ライセンス: Link先を確認
Nataliia Molchanova, Vatsal Raina, Andrey Malinin, Francesco La Rosa, Henning Muller, Mark Gales, Cristina Granziera, Mara Graziani, Meritxell Bach Cuadra(参考訳) 磁気共鳴画像(MRI)における白質病変(WML)セグメンテーションの不確実性の評価に焦点をあてる。 一方、ボクセルスケールのセグメンテーションエラーは、病変の誤行を引き起こすが、他方では、病変サイズの検出エラーは間違った病変数を引き起こす。 どちらの因子も多発性硬化症患者の診断に臨床的に有用である。 本研究の目的は,セグメンテーションと病変検出に関する誤りを捉えるために,異なるvoxeland病巣スケールの不確実性尺度の能力を比較することである。 私たちの主な貢献は 一 ボクセル規模の不確実性を利用しない病変規模不確実性の新しい措置を提案すること。 (ii)病変スケールの不確実性評価のための誤差保持曲線分析フレームワークの拡張 58例の多施設試験で得られた結果から, 提案した病変尺度は, 解析結果の中で最高の成績を示した。 すべてのコード実装はhttps://github.com/NataliiaMolch/MS_WML_uncsで提供される。

This paper focuses on the uncertainty estimation for white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion-scale uncertainty measures to capture errors related to segmentation and lesion detection, respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measure achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
翻訳日:2022-11-14 15:12:43 公開日:2022-11-11
# 近似モデルのためのベイズスコアキャリブレーション

Bayesian score calibration for approximate models ( http://arxiv.org/abs/2211.05357v2 )

ライセンス: Link先を確認
Joshua J Bon, David J Warne, David J Nott, Christopher Drovandi(参考訳) 科学者は、より現実的な知識を反映する、ますます複雑な力学モデルを開発し続けている。 これらのモデルを用いた統計的推論は、対応する公理関数がしばしば難解であり、モデルシミュレーションは計算上負担または実現不可能であるため、非常に困難である。 幸運なことに、これらの状況の多くでは、代理モデルや近似的近似関数を採用することができる。 ベイズ推論を直接サーロゲート上で行うのは便利であるが、バイアスと不確かさの定量化に繋がる可能性がある。 本稿では, バイアスを低減し, より正確な不確実性定量化を実現するために, 近似後続サンプルを調整する新しい手法を提案する。 我々は、スコアリングルールを最小化する近似後続の変換を最適化することでこれを行う。 我々のアプローチでは、(固定)少数の複雑なモデルシミュレーションしか必要とせず、数値的に安定である。 複雑さが増大するいくつかの例において,新しい手法の優れた性能を示す。

Scientists continue to develop increasingly complex mechanistic models to reflect their knowledge more realistically. Statistical inference using these models can be highly challenging, since the corresponding likelihood function is often intractable, and model simulation may be computationally burdensome or infeasible. Fortunately, in many of these situations, it is possible to adopt a surrogate model or approximate likelihood function. It may be convenient to base Bayesian inference directly on the surrogate, but this can result in bias and poor uncertainty quantification. In this paper we propose a new method for adjusting approximate posterior samples to reduce bias and produce more accurate uncertainty quantification. We do this by optimising a transform of the approximate posterior that minimises a scoring rule. Our approach requires only a (fixed) small number of complex model simulations and is numerically stable. We demonstrate good performance of the new method on several examples of increasing complexity.
翻訳日:2022-11-14 15:12:28 公開日:2022-11-11
# グラフニューラルネットワークの分散トレーニングに関する総合調査

A Comprehensive Survey on Distributed Training of Graph Neural Networks ( http://arxiv.org/abs/2211.05368v2 )

ライセンス: Link先を確認
Haiyang Lin, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Shirui Pan, Wenguang Chen, Yuan Xie(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習する上で有効であるために、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。 gnnトレーニングを大規模かつ成長を続けるグラフにスケールアップするには、最も有望なソリューションは、複数のコンピューティングノードにトレーニングのワークロードを分散する分散トレーニングである。 しかし、分散GNNトレーニングのワークフロー、計算パターン、通信パターン、最適化技術は、まだ未熟である。 本稿では,分散GNNトレーニングにおける各種最適化手法を探索し,分散GNNトレーニングの総合的な調査を行う。 まず、分散GNNトレーニングはワークフローに応じていくつかのカテゴリに分類される。 また,それらの計算パターンと通信パターン,および最近の研究で提案されている最適化手法についても紹介する。 第二に、分散GNNトレーニングのソフトウェアフレームワークとハードウェアプラットフォームもより深く理解するために導入されています。 第3に、分散GNNトレーニングは、分散GNNトレーニングの独自性を強調したディープニューラルネットワークの分散トレーニングと比較される。 最後に、この分野における興味深い問題と機会について論じる。

Graph neural networks (GNNs) have been demonstrated to be a powerful algorithmic model in broad application fields for their effectiveness in learning over graphs. To scale GNN training up for large-scale and ever-growing graphs, the most promising solution is distributed training which distributes the workload of training across multiple computing nodes. However, the workflows, computational patterns, communication patterns, and optimization techniques of distributed GNN training remain preliminarily understood. In this paper, we provide a comprehensive survey of distributed GNN training by investigating various optimization techniques used in distributed GNN training. First, distributed GNN training is classified into several categories according to their workflows. In addition, their computational patterns and communication patterns, as well as the optimization techniques proposed by recent work are introduced. Second, the software frameworks and hardware platforms of distributed GNN training are also introduced for a deeper understanding. Third, distributed GNN training is compared with distributed training of deep neural networks, emphasizing the uniqueness of distributed GNN training. Finally, interesting issues and opportunities in this field are discussed.
翻訳日:2022-11-14 15:12:04 公開日:2022-11-11
# 自動エンコーダ潜在空間埋め込みによる協調的データ共有のためのプライバシ保存機械学習

Privacy-Preserving Machine Learning for Collaborative Data Sharing via Auto-encoder Latent Space Embeddings ( http://arxiv.org/abs/2211.05717v2 )

ライセンス: Link先を確認
Ana Mar\'ia Quintero-Ossa and Jes\'us Solano and Hern\'an Jarc\'ia and David Zarruk and Alejandro Correa Bahnsen and Carlos Valencia(参考訳) データ共有プロセスにおけるプライバシ保護機械学習は、オリジナルのデータソースを共有する必要なく、機械学習(ML)モデルの協調トレーニングを可能にする、極めて重要なタスクである。 機密データがMLパイプライン全体、すなわちトレーニングと推論フェーズを通してプライベートであることを保証する必要がある場合、特に関連性が高い。 本稿では,自動エンコーダによる表現学習を用いて,プライバシを保存した組込みデータを生成する革新的なフレームワークを提案する。 これにより、組織はデータ表現を共有して、共有予測下流タスクのために複数のデータソースを持つシナリオにおける機械学習モデルのパフォーマンスを向上させることができる。

Privacy-preserving machine learning in data-sharing processes is an ever-critical task that enables collaborative training of Machine Learning (ML) models without the need to share the original data sources. It is especially relevant when an organization must assure that sensitive data remains private throughout the whole ML pipeline, i.e., training and inference phases. This paper presents an innovative framework that uses Representation Learning via autoencoders to generate privacy-preserving embedded data. Thus, organizations can share the data representation to increase machine learning models' performance in scenarios with more than one data source for a shared predictive downstream task.
翻訳日:2022-11-14 15:11:39 公開日:2022-11-11
# 進化的アルゴリズムに最適化されたリザーバコンピューティングアーキテクチャの再訪

Re-visiting Reservoir Computing architectures optimized by Evolutionary Algorithms ( http://arxiv.org/abs/2211.06254v1 )

ライセンス: Link先を確認
Sebasti\'an Basterrech and Tarun Kumar Sharma(参考訳) 進化的アルゴリズム(EA)は長年、ニューラルネットワーク(NN)アーキテクチャの改善に用いられてきた。 ネットワークのトレーニング(重みの調整)、ネットワークトポロジの設計、グローバルパラメータの最適化、特徴の選択など、さまざまな問題を解決するために使用されている。 本稿では,Reservoir Computing (RC) という名前のリカレントNNの特定の領域におけるEAの応用について,系統的な簡単な調査を行う。 2000年代初め、RCパラダイムはトレーニングアルゴリズムの不便さに対処することなく、繰り返しNNを採用するための良い選択肢として現れた。 RCモデルは、‘textit{reservoir}’と呼ばれる固定リカレントニューラルネットワークを備えた非線形力学系を使用し、学習過程は線形パラメトリック関数の調整に制限される。 %であり,学習性能は迅速かつ正確である。 しかし、RCモデルは複数のハイパーパラメータを持つため、EAは最適なRCアーキテクチャを見つけるのに役立つ。 本研究は,この領域における成果の概要と,新たな進歩について論じ,新たなトレンドとオープンな疑問に関するビジョンを提示する。

For many years, Evolutionary Algorithms (EAs) have been applied to improve Neural Networks (NNs) architectures. They have been used for solving different problems, such as training the networks (adjusting the weights), designing network topology, optimizing global parameters, and selecting features. Here, we provide a systematic brief survey about applications of the EAs on the specific domain of the recurrent NNs named Reservoir Computing (RC). At the beginning of the 2000s, the RC paradigm appeared as a good option for employing recurrent NNs without dealing with the inconveniences of the training algorithms. RC models use a nonlinear dynamic system, with fixed recurrent neural network named the \textit{reservoir}, and learning process is restricted to adjusting a linear parametric function. %so the performance of learning is fast and precise. However, an RC model has several hyper-parameters, therefore EAs are helpful tools to figure out optimal RC architectures. We provide an overview of the results on the area, discuss novel advances, and we present our vision regarding the new trends and still open questions.
翻訳日:2022-11-14 15:11:29 公開日:2022-11-11
# 財務報告における数値整合性チェックの自動化に向けて

Towards automating Numerical Consistency Checks in Financial Reports ( http://arxiv.org/abs/2211.06112v1 )

ライセンス: Link先を確認
Lars Hillebrand, Tobias Deu{\ss}er, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Christian Bauckhage, Rafet Sifa(参考訳) KPI-Checkは,実世界のドイツ財務報告において,意味論的に等価なキーパフォーマンス指標(KPI)を自動的に識別し,相互チェックする新しいシステムである。 ファイナンシャル名付きエンティティと関係抽出モジュールをBERTベースのフィルタリングとテキストペア分類コンポーネントと組み合わせて、未構造化文からKPIを抽出し、バランスシートと利益と損失ステートメントの同義語にリンクする。 このツールは、ホールドアウトテストセットで73.00$%のマイクロF$_1ドルという高いマッチング性能を達成し、現在、グローバルに運用されている大手監査会社に対して、財務諸表の監査手続きを支援するためにデプロイされている。

We introduce KPI-Check, a novel system that automatically identifies and cross-checks semantically equivalent key performance indicators (KPIs), e.g. "revenue" or "total costs", in real-world German financial reports. It combines a financial named entity and relation extraction module with a BERT-based filtering and text pair classification component to extract KPIs from unstructured sentences before linking them to synonymous occurrences in the balance sheet and profit & loss statement. The tool achieves a high matching performance of $73.00$% micro F$_1$ on a hold out test set and is currently being deployed for a globally operating major auditing firm to assist the auditing procedure of financial statements.
翻訳日:2022-11-14 15:10:46 公開日:2022-11-11
# ブレッドスファーストパイプライン並列処理

Breadth-First Pipeline Parallelism ( http://arxiv.org/abs/2211.05953v1 )

ライセンス: Link先を確認
Joel Lamy-Poirier(参考訳) パイプラインとデータ並列性の組み合わせを最適化する,新たなトレーニングスケジュールであるBreadth-First Pipeline Parallelismを導入する。 Breadth-First Pipeline Parallelismは、GPU使用率の高いGPUとGPU毎のバッチサイズを併用し、完全なシャードデータ並列性を使用することで、トレーニング時間、コスト、メモリ使用率を低下させる。 実験では,最大53%のトレーニング速度の増加が観察された。

We introduce Breadth-First Pipeline Parallelism, a novel training schedule which optimizes the combination of pipeline and data parallelism. Breadth-First Pipeline Parallelism lowers training time, cost and memory usage by combining a high GPU utilization with a small batch size per GPU, and by making use of fully sharded data parallelism. Experimentally, we observed increases of up to 53% in training speed.
翻訳日:2022-11-14 15:10:32 公開日:2022-11-11
# スパイキングニューラルネットワーク決定フィードバック等化

Spiking Neural Network Decision Feedback Equalization ( http://arxiv.org/abs/2211.04756v2 )

ライセンス: Link先を確認
Eike-Manuel Bansbach, Alexander von Bank, Laurent Schmalen(参考訳) 近年では、従来の手法では解決が難しい通信工学の課題を解決するために、人工知能(anns)がデファクトスタンダードとなっている。 並行して、人工知能コミュニティは生物学に触発された脳のようなスパイクニューラルネットワーク(SNN)の研究を推進している。 本稿では,超低複雑性受信機におけるチャネル等化の文脈におけるSNNの利用について検討する。 決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。 実世界のデータをスパイク信号に変換するために,新たな3次符号化を導入し,従来のログスケールエンコーディングと比較する。 提案手法は, 従来の線形等化器よりも明らかに優れていることを示す。 我々は、主にチャンネル出力からスパイクへの変換は、小さなパフォーマンス上のペナルティをもたらすことを強調する。 決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。

In the past years, artificial neural networks (ANNs) have become the de-facto standard to solve tasks in communications engineering that are difficult to solve with traditional methods. In parallel, the artificial intelligence community drives its research to biology-inspired, brain-like spiking neural networks (SNNs), which promise extremely energy-efficient computing. In this paper, we investigate the use of SNNs in the context of channel equalization for ultra-low complexity receivers. We propose an SNN-based equalizer with a feedback structure akin to the decision feedback equalizer (DFE). For conversion of real-world data into spike signals we introduce a novel ternary encoding and compare it with traditional log-scale encoding. We show that our approach clearly outperforms conventional linear equalizers for three different exemplary channels. We highlight that mainly the conversion of the channel output to spikes introduces a small performance penalty. The proposed SNN with a decision feedback structure enables the path to competitive energy-efficient transceivers.
翻訳日:2022-11-14 15:01:31 公開日:2022-11-11