このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220627となっている論文です。

PDF登録状況(公開日: 20220627)

TitleAuthorsAbstract論文公表日・翻訳日
# 因果ダイナミクスは局所相互作用を意味するか?

Does causal dynamics imply local interactions? ( http://arxiv.org/abs/2006.10707v5 )

ライセンス: Link先を確認
Zolt\'an Zimbor\'as, Terry Farrelly, Szil\'ard Farkas, Lluis Masanes(参考訳) 離散時空における因果ダイナミクスを持つ量子系を、量子セルオートマトン(QCA)と呼ぶ。 時間的離散性のため、このタイプの動力学はハミルトニアンではなくワンタイムステップユニタリによって特徴づけられる。 これはハミルトニアンの指数として書くことができるが、非常に非特異な方法で書くことができる。 QCAユニタリを生成するハミルトニアンは、ある意味で局所的かどうかを問うとともに、2つの全く異なる答えを得る。 一方、QCAの例として、相互作用が距離と崩壊しないという意味で、すべての生成ハミルトン群が完全に非局所であることを示す。 この結果は、実効的なハミルトニアンに依存することから、フロッケ系における位相相の分類に関連のある結果をもたらすと期待する。 一方,すべての一次元準自由フェルミオン qcas は準局所生成ハミルトニアンを持ち,その相互作用は巨大ケースでは指数関数的に崩壊し,臨界ケースでは代数的に崩壊することを示した。 また、いくつかの可積分系は局所的、準局所的、あるいは低ウェイトな運動定数を持たないことを証明し、その結果は可積分性の標準的な定義に挑戦する。

We consider quantum systems with causal dynamics in discrete spacetimes, also known as quantum cellular automata (QCA). Due to time-discreteness this type of dynamics is not characterized by a Hamiltonian but by a one-time-step unitary. This can be written as the exponential of a Hamiltonian but in a highly non-unique way. We ask if any of the Hamiltonians generating a QCA unitary is local in some sense, and we obtain two very different answers. On one hand, we present an example of QCA for which all generating Hamiltonians are fully non-local, in the sense that interactions do not decay with the distance. We expect this result to have relevant consequences for the classification of topological phases in Floquet systems, given that this relies on the effective Hamiltonian. On the other hand, we show that all one-dimensional quasi-free fermionic QCAs have quasi-local generating Hamiltonians, with interactions decaying exponentially in the massive case and algebraically in the critical case. We also prove that some integrable systems do not have local, quasi-local nor low-weight constants of motion; a result that challenges the standard definition of integrability.
翻訳日:2023-05-13 13:35:39 公開日:2022-06-27
# ウィットネスの絡み合いにおける負性対純度とエントロピー

Negativity vs. Purity and Entropy in Witnessing Entanglement ( http://arxiv.org/abs/2009.06765v2 )

ライセンス: Link先を確認
James Schneeloch, H Shelton Jacinto, Christopher C. Tison, and Paul M. Alsing(参考訳) 本研究は,すべての混合尺度が絡み合いを目撃するために用いられるが,そのような絡み合った状態は負の部分転置 (npt) を持つ必要があることを示す。 部分転置体のネガティビティの計算は高次元で十分にスケールするが、それは完全な量子状態を知ることに依存している。 これを解決するために、異なる次元のジョイント量子状態の均一なアンサンブルに対する混合度の比較を行い、その相対的な成功度を評価する。 その結果,ジョイント・フォン・ノイマンのエントロピーとジョイント・フォン・ノイマンのエントロピーを比較するよりも,ジョイントとマージンの純度を比較する方が高い次元でエンタングルメントを特定するのに圧倒的に成功していることがわかった。 結果が相関関係と絡み合いと関連する目撃者との基本的な関係にどのように影響するかを示すことで締めくくります。

In this work, we show that while all measures of mixedness may be used to witness entanglement, all such entangled states must have a negative partial transpose (NPT). Though computing the negativity of the partial transpose scales well at high dimension, it relies on knowing the complete quantum state, which does not. To address this, we compare different measures of mixedness over uniform ensembles of joint quantum states at varying dimension to gauge their relative success in witnessing entanglement. In doing so, we find that comparing joint and marginal purities is overwhelmingly more successful at high dimension at identifying entanglement than comparing joint and marginal von Neumann entropies, in spite of requiring fewer resources. We conclude by showing how our results impact the fundamental relationship between correlation and entanglement and related witnesses.
翻訳日:2023-05-02 06:26:50 公開日:2022-06-27
# 線形回帰のための改良量子インスパイアアルゴリズム

An improved quantum-inspired algorithm for linear regression ( http://arxiv.org/abs/2009.07268v4 )

ライセンス: Link先を確認
Andr\'as Gily\'en and Zhao Song and Ewin Tang(参考訳) 低ランク行列 [wossnig, zhao, prakash, physical review letters'18, arxiv:1704.06174] に対して、入力行列 $a$ が qram ベースの状態準備に適用可能なデータ構造に格納されているとき、量子行列反転アルゴリズム [harrow, hassidim, lloyd, physical review letters'09, arxiv:0811.3171] に類似した線形回帰アルゴリズムを与える。 すなわち、$A \in \mathbb{C}^{m\times n}$ を最小零でない特異値 $\sigma$ とし、$b \in \mathbb{C}^m$ とともに、ある効率的な $\ell_2$-norm 重要なサンプリングクエリをサポートする。 すると、$x \in \mathbb{c}^n$ を満たす$\|x - a^+b\| \leq \varepsilon\|a^+b\|$ に対して、計算ベースで$|x\rangle$ の測定値を出力することができ、それぞれ$\tilde{\mathcal{o}}\big(\frac{\|a\|_{\mathrm{f}}^6\|a\|^6}{\sigma^{12}\varepsilon^4}\big)$および$\tilde{\mathcal{o}}\big(\frac{\|a\|_{\mathrm {f}}^6\|a\|^2}{\sigma^8\varepsilon^4}\big) で動作する古典的アルゴリズムで$x$ の入力を出力することができる。 これは、この研究における従来の量子インスパイアされたアルゴリズムを、少なくとも$\frac{\|A\|^{16}}{\sigma^{16}\varepsilon^2}$ [Chia, Gily\'en, Li, Lin, Tang, and Wang, STOC'20, arXiv:1910.06151] で改善する。 その結果、量子コンピュータは、このQRAMデータ構造設定と関連する設定において、線形回帰の最大12倍の高速化を達成できることを示した。 我々の研究は、スケッチアルゴリズムや最適化の技法を量子に着想を得た文献に適用している。 初期の作品とは異なり、これは将来の量子コンピュータと比較するために、量子にインスパイアされた設定で古典回帰を実現可能にする有望な方法である。

We give a classical algorithm for linear regression analogous to the quantum matrix inversion algorithm [Harrow, Hassidim, and Lloyd, Physical Review Letters'09, arXiv:0811.3171] for low-rank matrices [Wossnig, Zhao, and Prakash, Physical Review Letters'18, arXiv:1704.06174], when the input matrix $A$ is stored in a data structure applicable for QRAM-based state preparation. Namely, suppose we are given an $A \in \mathbb{C}^{m\times n}$ with minimum non-zero singular value $\sigma$ which supports certain efficient $\ell_2$-norm importance sampling queries, along with a $b \in \mathbb{C}^m$. Then, for some $x \in \mathbb{C}^n$ satisfying $\|x - A^+b\| \leq \varepsilon\|A^+b\|$, we can output a measurement of $|x\rangle$ in the computational basis and output an entry of $x$ with classical algorithms that run in $\tilde{\mathcal{O}}\big(\frac{\|A\|_{\mathrm{F}}^6\|A\|^6}{\sigma^{12}\varepsilon^4}\big)$ and $\tilde{\mathcal{O}}\big(\frac{\|A\|_{\mathrm{F}}^6\|A\|^2}{\sigma^8\varepsilon^4}\big)$ time, respectively. This improves on previous "quantum-inspired" algorithms in this line of research by at least a factor of $\frac{\|A\|^{16}}{\sigma^{16}\varepsilon^2}$ [Chia, Gily\'en, Li, Lin, Tang, and Wang, STOC'20, arXiv:1910.06151]. As a consequence, we show that quantum computers can achieve at most a factor-of-12 speedup for linear regression in this QRAM data structure setting and related settings. Our work applies techniques from sketching algorithms and optimization to the quantum-inspired literature. Unlike earlier works, this is a promising avenue that could lead to feasible implementations of classical regression in a quantum-inspired settings, for comparison against future quantum computers.
翻訳日:2023-05-02 04:30:26 公開日:2022-06-27
# 可積分ビリヤードにおけるWang-Casati-Prosenカウンタの成長

Growth of the Wang-Casati-Prosen counter in an integrable billiard ( http://arxiv.org/abs/2011.09467v4 )

ライセンス: Link先を確認
Zaijong Hwang, Christoph A. Marx, Joseph Seaward, Svetlana Jitomirskaya, Maxim Olshanii(参考訳) この研究は、wang, casati, prosen [phys. rev. e vol. 89, 042918 (2014)]の2次元不合理な右三角ビリヤードにおけるエルゴード性の研究に関する論文に動機づけられている。 数値的な結果は、これらのビリヤードは一般にエルゴードではないことを示唆している。 しかし、ビリヤード角がリウヴィリア不合理数、リウヴィリア不合理数、有理数によってよく近似された不合理数の類である$\pi/2$倍のときにエルゴードとなる。 特に、王らは速度方向への不合理な寄与を反映した特別な整数カウンタを研究し、彼らはこのカウンタが一般の場合において局所化されるが、リウヴィリアの場合では成長すると予想する。 本稿では,Wang-Casati-Prosenカウンタの一般化を提案する。 では、$45^{\circ} \! \! : \! 45^{\circ} \! \! : \! 90^{\circ}$ billiard、カウンターは無期限に成長し、wangらによって提案されたliouvillianのシナリオと一致する。

This work is motivated by an article by Wang, Casati, and Prosen [Phys. Rev. E vol. 89, 042918 (2014)] devoted to a study of ergodicity in two-dimensional irrational right-triangular billiards. Numerical results presented there suggest that these billiards are generally not ergodic. However, they become ergodic when the billiard angle is equal to $\pi/2$ times a Liouvillian irrational, a Liouvillian irrational, a class of irrational numbers which are well approximated by rationals. In particular, Wang et al. study a special integer counter that reflects the irrational contribution to the velocity orientation; they conjecture that this counter is localized in the generic case, but grows in the Liouvillian case. We propose a generalization of the Wang-Casati-Prosen counter: this generalization allows to include rational billiards into consideration. We show that in the case of a $45^{\circ} \!\! : \! 45^{\circ} \!\! : \! 90^{\circ}$ billiard, the counter grows indefinitely, consistent with the Liouvillian scenario suggested by Wang et al.
翻訳日:2023-04-23 19:19:20 公開日:2022-06-27
# スパイクニューラルネットワークのためのエネルギー効率の高い知識蒸留

Energy-efficient Knowledge Distillation for Spiking Neural Networks ( http://arxiv.org/abs/2106.07172v2 )

ライセンス: Link先を確認
Dongjin Lee, Seongsik Park, Jongwan Kim, Wuhyeong Doh, Sungroh Yoon(参考訳) スパイキングニューラルネットワーク(snn)は、イベント駆動計算によって従来の人工ニューラルネットワーク(anns)のエネルギー効率のよい代替手段として注目されている。 制約されたニューロモルフィックデバイスへのSNNモデルの今後の展開を考えると、ネットワーク量子化、プルーニング、知識蒸留などのANNモデル圧縮に使用される技術がSNNに適用されることが多い。 その中でも既存の知識蒸留研究はsnnモデルの精度向上を報告している。 しかし,SNNの重要な特徴であるエネルギー効率の分析は行われなかった。 本稿では, 蒸留SNNモデルの性能を精度とエネルギー効率の観点から徹底的に解析する。 本プロセスでは,従来の知識蒸留法を用いて,スパイク数が大幅に増加し,エネルギー効率が低下するのを観察する。 この分析に基づいて, エネルギー効率を向上させるために, 異種温度パラメータを用いた新しい知識蒸留法を提案する。 提案手法を2つの異なるデータセットで評価し,結果のsnn学生がスパイク数の減少と精度向上の両方を満足できることを示す。 MNISTデータセットでは,提案した学生SNNの精度は最大0.09%向上し,従来の知識蒸留法で訓練した学生SNNに比べて65%低下した。 また,他のsn圧縮技術とトレーニング手法との比較を行った。

Spiking neural networks (SNNs) have been gaining interest as energy-efficient alternatives of conventional artificial neural networks (ANNs) due to their event-driven computation. Considering the future deployment of SNN models to constrained neuromorphic devices, many studies have applied techniques originally used for ANN model compression, such as network quantization, pruning, and knowledge distillation, to SNNs. Among them, existing works on knowledge distillation reported accuracy improvements of student SNN model. However, analysis on energy efficiency, which is also an important feature of SNN, was absent. In this paper, we thoroughly analyze the performance of the distilled SNN model in terms of accuracy and energy efficiency. In the process, we observe a substantial increase in the number of spikes, leading to energy inefficiency, when using the conventional knowledge distillation methods. Based on this analysis, to achieve energy efficiency, we propose a novel knowledge distillation method with heterogeneous temperature parameters. We evaluate our method on two different datasets and show that the resulting SNN student satisfies both accuracy improvement and reduction of the number of spikes. On MNIST dataset, our proposed student SNN achieves up to 0.09% higher accuracy and produces 65% less spikes compared to the student SNN trained with conventional knowledge distillation method. We also compare the results with other SNN compression techniques and training methods.
翻訳日:2023-03-26 17:57:29 公開日:2022-06-27
# 相互作用する$d$次元同質ボース気体のサブnK温度測定

Sub-nK thermometry of an interacting $d$-dimensional homogeneous Bose gas ( http://arxiv.org/abs/2108.01754v2 )

ライセンス: Link先を確認
Muhammad Miskeen Khan, Mohammad Mehboudi, Hugo Tercas, Maciej Lewenstein, Miguel-Angel Garcia-March(参考訳) 異なる空間次元(d\in\{1,2,3\}$)における均質なボースアインシュタイン凝縮の非破壊的温度測定法を実験的に提案する。 不純物ベースのプロトコルは、サブナノケルビンドメインにおける温度測定の基本的な誤差が次元に大きく依存しており、次元が高ければ高いほど精度が向上することを示唆している。 さらに, 実験的に実現可能な測定による凝縮物の準最適温度測定について検討した。 特にガウス測定の族に属する不純物の位置と運動量を測定することに注力する。 一般に, 位置測定が本当に最適である1Dを除いて, 実験的に実現可能な測定は最適とは程遠いことを示す。 これにより、現実的な実験はあらゆる次元のナノケルビン温度とサブナノケルビン温度で1次元のシナリオにおいて非常によく機能する。 これらの結果は、ボース・アインシュタイン凝縮体のプローブベースの量子温度測定の実験的実現に向けて大きな一歩を踏み出し、それらを1次元、2次元、および3次元で扱い、現在の実験で適用可能な測定結果を用いている。

We propose experimentally feasible means for non-destructive thermometry of homogeneous Bose Einstein condensates in different spatial dimensions ($d\in\{1,2,3\}$). Our impurity based protocol suggests that the fundamental error bound on thermometry at the sub nano Kelvin domain depends highly on the dimension, in that the higher the dimension the better the precision. Furthermore, sub-optimal thermometry of the condensates by using measurements that are experimentally feasible is explored. We specifically focus on measuring position and momentum of the impurity that belong to the family of Gaussian measurements. We show that, generally, experimentally feasible measurements are far from optimal, except in 1D, where position measurements are indeed optimal. This makes realistic experiments perform very well at few nano Kelvin temperatures for all dimensions, and at sub nano Kelvin temperatures in the one dimensional scenario. These results take a significant step towards experimental realisation of probe-based quantum thermometry of Bose Einstein condensates, as it deals with them in one, two and three dimensions and uses feasible measurements applicable in current experimental setups.
翻訳日:2023-03-20 00:26:49 公開日:2022-06-27
# 階層型量子測定における多パラメータ量子推定の不整合性測定

Incompatibility measures in multi-parameter quantum estimation under hierarchical quantum measurements ( http://arxiv.org/abs/2109.05807v3 )

ライセンス: Link先を確認
Hongzhen Chen, Yu Chen, Haidong Yuan(参考訳) 測定の非互換性は、マルチパラメータ量子推定における達成可能な精度を制約する。 このような非互換性によって引き起こされるトレードオフを理解することは、量子論において中心的な話題である。 ここでは、量子状態の最大$p$コピーで集合的に実施できる測定値である、一般の$p$-local測定の下での非互換性を研究するためのアプローチを提案する。 異なるパラメータの精度限界間のトレードオフに関する解析的境界の階層を提示することにより、アプローチのパワーを実証する。 これらの境界は、 p=1 の部分可換条件と $p=\infty$ の弱い可換条件を回復する p$-局所測定値の下で束縛された量子クレー=ラオの飽和に必要条件をもたらす。 フレームワークのさらなる力の実証として、右対数演算子(RLD)との別のトレードオフ関係を示す。

The incompatibility of the measurements constraints the achievable precisions in multi-parameter quantum estimation. Understanding the tradeoff induced by such incompatibility is a central topic in quantum metrology. Here we provide an approach to study the incompatibility under general $p$-local measurements, which are the measurements that can be performed collectively on at most $p$ copies of quantum states. We demonstrate the power of the approach by presenting a hierarchy of analytical bounds on the tradeoff among the precision limits of different parameters. These bounds lead to a necessary condition for the saturation of the quantum Cram\'er-Rao bound under $p$-local measurements, which recovers the partial commutative condition at p=1 and the weak commutative condition at $p=\infty$. As a further demonstration of the power of the framework, we present another set of tradeoff relations with the right logarithmic operators(RLD).
翻訳日:2023-03-15 05:29:56 公開日:2022-06-27
# ガウス観測によるガウス量子系の温度計測

Thermometry of Gaussian quantum systems using Gaussian measurements ( http://arxiv.org/abs/2110.02098v4 )

ライセンス: Link先を確認
Marina F.B. Cenni, Ludovico Lami, Antonio Acin, Mohammad Mehboudi(参考訳) 本研究では,ガウス系系の温度を実測で推定する問題,すなわちガウス系および光検出型測定を考察する。 ガウス測定のために, 最適測定を数値的に同定し, 解析解を導出する一般的な手法を開発した。 熱を含む単モード状態のクラスでは、最適ガウス測度は温度状態によってヘテロダインまたはホモデインのいずれかである。 これは、ハミルトニアンの固有基底における射影測度が温度に関係なく最適である一般的な設定とは対照的である。 一般的な多モードの場合、関節計測が熱測定に役立たない(パラメータ推定にも役立たない)一般的な非制限シナリオとは異なり、関節ガウス測定が局所的な測定に有利であるかどうかは明らかである。 熱システムには役に立たないと推測し, 部分解析的および数値的証拠で裏付ける。 さらに、ガウス測度は高温の限界において最適となる一方、オン/オフ光検出のような測度は温度がゼロになる傾向にあることを示す。 その結果,ガウス量子系の有効温度測定は実験的に実現可能であることがわかった。

We study the problem of estimating the temperature of Gaussian systems with feasible measurements, namely Gaussian and photo-detection-like measurements. For Gaussian measurements, we develop a general method to identify the optimal measurement numerically, and derive the analytical solutions in some relevant cases. For a class of single-mode states that includes thermal ones, the optimal Gaussian measurement is either Heterodyne or Homodyne, depending on the temperature regime. This is in contrast to the general setting, in which a projective measurement in the eigenbasis of the Hamiltonian is optimal regardless of temperature. In the general multi-mode case, and unlike the general unrestricted scenario where joint measurements are not helpful for thermometry (nor for any parameter estimation task), it is open whether joint Gaussian measurements provide an advantage over local ones. We conjecture that they are not useful for thermal systems, supported by partial analytical and numerical evidence. We further show that Gaussian measurements become optimal in the limit of large temperatures, while on/off photo-detection-like measurements do it for when the temperature tends to zero. Our results therefore pave the way for effective thermometry of Gaussian quantum systems using experimentally realizable measurements.
翻訳日:2023-03-12 12:10:59 公開日:2022-06-27
# 非線形光学系における三成分空間およびエネルギー時間絡み合いの定量化

Quantifying Tripartite Spatial and Energy-Time Entanglement in Nonlinear Optics ( http://arxiv.org/abs/2110.06781v2 )

ライセンス: Link先を確認
James Schneeloch, Richard J. Birrittella, Christopher C. Tison, Gregory A. Howland, Michael L. Fanto, and Paul M. Alsing(参考訳) 本研究では, 任意の(純粋かつ混合的な)連続変数状態における真の三部体の絡み合いを, ゲビット (gebits) と呼ばれる基本グリーンベルガー・ホルン・ザイリンガー (GHZ) 状態の単位における真の多部体の絡み合いを定量化するリソースベースの尺度である, 形成の絡み合いによって測定される。 さらに, 自然パラメトリックダウンコンバージョン(SPDC)で発生する光子三重項の空間的・エネルギー的絡み合いを定量化する効果を予測し, 通常の非線形光学が三重項の絡み合いの重要な資源となることを発見した。

In this work, we provide a means to quantify genuine tripartite entanglement in arbitrary (pure and mixed) continuous-variable states as measured by the Tripartite Entanglement of formation -- a resource-based measure quantifying genuine multi-partite entanglement in units of elementary Greenberger-Horne-Zeilinger (GHZ) states called gebits. Furthermore, we predict its effectiveness in quantifying the tripartite spatial and energy-time entanglement in photon triplets generated in cascaded spontaneous parametric down-conversion (SPDC), and find that ordinary nonlinear optics can be a substantial resource of tripartite entanglement.
翻訳日:2023-03-11 14:32:12 公開日:2022-06-27
# 固定結合を持つ量子ビットアレイ上のスケーラブルでロバストな量子コンピューティング

Scalable and robust quantum computing on qubit arrays with fixed coupling ( http://arxiv.org/abs/2110.07737v2 )

ライセンス: Link先を確認
Nguyen H. Le, Max Cykiert, Eran Ginossar(参考訳) 固定長手結合を持つ2次元量子ビットアレイ上でのスケーラブルでロバストな量子計算手法を提案する。 これにより、従来の量子コンピューティングハードウェアに必要なチューニング可能なカプラに関連するデバイスの複雑さを回避できる可能性がある。 我々のアプローチは、全マルチキュービットハミルトニアンを可換数キュービットブロックの和に分解し、各ブロック内のユニタリ進化の効率的な最適化を可能にするようなキュービットのサブアレイを駆動することに基づいている。 各駆動パルスは、駆動する量子ビット上の目標ゲートを実装できると同時に、隣接する非駆動量子ビット上の同一性ゲートを実装でき、一定の量子ビット-量子ビット相互作用のために望ましくない進化をキャンセルできる。 基底ブロック上で高い忠実度を持つ量子ゲートの普遍的な集合を実現することができ、駆動パターンをシフトすることで配列上の任意の量子回路を実現できることを示す。 量子ビット結合と駆動量子ビット結合の1%の不確かさと、量子ビット結合強度の0.1%の縮退不確かさにもかかわらず、不完全ハミルトニアンのキャラクタリゼーションは99.99%の忠実度を得るために頑健な最適制御を用いる。 パラメータの不確実性が大きなデバイスで重要であるため、この堅牢な機能はスケールアップに不可欠である。

We propose a scheme for scalable and robust quantum computing on two-dimensional arrays of qubits with fixed longitudinal coupling. This opens the possibility for bypassing the device complexity associated with tunable couplers required in conventional quantum computing hardware. Our approach is based on driving a subarray of qubits such that the total multi-qubit Hamiltonian can be decomposed into a sum of commuting few-qubit blocks, and then efficient optimization of the unitary evolution within each block. Each driving pulse can implement a target gate on the driven qubits, and at the same time implement identity gates on the neighbouring undriven qubits, cancelling any unwanted evolution due to the constant qubit-qubit interaction. We show that it is possible to realise a universal set of quantum gates with high fidelity on the basis blocks, and by shifting the driving pattern one can realise an arbitrary quantum circuit on the array. Allowing for imperfect Hamiltonian characterisation, we use robust optimal control to obtain fidelities around 99.99% despite 1% uncertainty in the qubit-qubit and drive-qubit couplings, and a detuning uncertainty at 0.1% of the qubit-qubit coupling strength. This robust feature is crucial for scaling up as parameter uncertainty is significant in large devices.
翻訳日:2023-03-11 11:59:36 公開日:2022-06-27
# 安定位相非感受性量子フィルタによる干渉計の感度向上

Enhancing the sensitivity of interferometers with stable phase-insensitive quantum filters ( http://arxiv.org/abs/2110.15354v2 )

ライセンス: Link先を確認
Artemiy Dmitriev, Haixing Miao, Denis Martynov(参考訳) 光干渉計のショットノイズ制限感度を高めるための新しい量子制御戦略を提案する。 この戦略は干渉計内部の信号のアクティブ位相非感受性量子フィルタリングを利用しており、光学スクイーズに依存しない。 重力波検出器に使用される共振器の例では、完全な因果性および安定な位相非感受性フィルタは干渉計感度を1桁以上向上させることができる。 このようなシステムにおける位相感応成分の役割は、位置検出光学共振器によって導入された不要な分散の周波数依存補償を提供することである。 システムの安定性は、この補償の周波数帯域を制限することで達成される。 安定なPT対称フィルタは位相非感受性デバイスの特別なサブクラスであり、PT対称フィルタの感度を克服する全く新しい解を見出す。 この方式は検出器の出力とキャビティにおける光学損失に対して堅牢である。

We present a new quantum control strategy for increasing the shot-noise-limited sensitivity of optical interferometers. The strategy utilizes active phase-insensitive quantum filtering of the signal inside the interferometer and does not rely on optical squeezing. On the example of the coupled-cavity resonators, employed in the gravitational-wave detectors, we show that fully causal and stable phase-insensitive filters can improve the interferometer sensitivity by more than an order of magnitude. The role of the phase-insensitive component in such systems is to provide frequency-dependent compensation for the unwanted dispersion introduced by the position-sensing optical cavity. The system's stability is achieved by limiting the frequency band of this compensation. We demonstrate that stable optomechanical PT-symmetric filters comprise a special subclass of such phase-insensitive devices and find entirely new solutions which overcome the sensitivity of PT-symmetric filters. This scheme is robust against optical loss at the output of the detectors and in the cavities.
翻訳日:2023-03-10 00:47:24 公開日:2022-06-27
# 量子探索-決定還元と状態合成問題

Quantum search-to-decision reductions and the state synthesis problem ( http://arxiv.org/abs/2111.02999v2 )

ライセンス: Link先を確認
Sandy Irani, Anand Natarajan, Chinmay Nirkhe, Sujit Rao, Henry Yuen(参考訳) 古典的計算機科学において、多くの探索問題は決定問題に還元可能であることは有用な事実であり、これは複雑性理論を研究するために$\textit{defacto}$計算タスクと見なされる。 本研究では、量子探索問題に対する探索-決定の削減について検討し、量子アルゴリズムは古典的な決定託へのクエリを所望の量子状態に出力する。 特に,$\mathsf{qma}$ に対する探索から決定までの削減に着目し,$\mathsf{qma}$ に対する1つのクエリを$\mathsf{pp}$ 決定オラクルにすることで,$\mathsf{qma}$ 問題に対する証人を生成する量子多項式時間アルゴリズムが存在することを示す。 この結果を補うために、$\mathsf{qma}$-searchが$\textit{not}$ reduceから$\mathsf{qma}$-decisionを多項式時間で、量子オラクルと比較して示す。 さらに,より一般的な$\textit{state synthesis problem}$ についても検討する。 我々は、任意の量子状態が1つのoracleクエリのみを使用して逆多項式精度に合成され、2つのoracleクエリを使用して逆指数精度に合成できる古典的なoracleが存在することを証明した。 この質問に対してaaronson氏は,従来のoracleに対して$n$-qubitの状態を準備するために$o(n)$クエリを生成する状態合成アルゴリズムを提示し,クエリの複雑さをサブリニアにできるかどうかを問うた。

It is a useful fact in classical computer science that many search problems are reducible to decision problems; this has led to decision problems being regarded as the $\textit{de facto}$ computational task to study in complexity theory. In this work, we explore search-to-decision reductions for quantum search problems, wherein a quantum algorithm makes queries to a classical decision oracle to output a desired quantum state. In particular, we focus on search-to-decision reductions for $\mathsf{QMA}$, and show that there exists a quantum polynomial-time algorithm that can generate a witness for a $\mathsf{QMA}$ problem up to inverse polynomial precision by making one query to a $\mathsf{PP}$ decision oracle. We complement this result by showing that $\mathsf{QMA}$-search does $\textit{not}$ reduce to $\mathsf{QMA}$-decision in polynomial-time, relative to a quantum oracle. We also explore the more general $\textit{state synthesis problem}$, in which the goal is to efficiently synthesize a target state by making queries to a classical oracle encoding the state. We prove that there exists a classical oracle with which any quantum state can be synthesized to inverse polynomial precision using only one oracle query and to inverse exponential precision using two oracle queries. This answers an open question of Aaronson from 2016, who presented a state synthesis algorithm that makes $O(n)$ queries to a classical oracle to prepare an $n$-qubit state, and asked if the query complexity could be made sublinear.
翻訳日:2023-03-09 04:22:15 公開日:2022-06-27
# 弱カオスモデルにおける固有状態相転移時の量子メモリ

Quantum memory at an eigenstate phase transition in a weakly chaotic model ( http://arxiv.org/abs/2112.07631v2 )

ライセンス: Link先を確認
M. R. Lambert, Shan-Wen Tsai, and Shane P. Kelly(参考訳) 非相互作用スピンの小さな環境に共鳴結合した完全連結量子スピンモデルについて検討し,初期状態特性の長期記憶について検討した。 初期状態特性の記憶は、総エネルギーに加えて、ダイナミクスによって保存されない。 このメモリは、エネルギーの関数として固有状態量子位相遷移(esqpt)が起こるスペクトルの中央で発生する。 スペクトル中のそのエネルギーにおけるメモリ効果は、ESQPTのエネルギーが変化するまでシステム環境結合に対して堅牢である。 本研究は,esqptメモリの可積分性に依存しない効果を示し,esqptsにおける熱化防止機構のより広範な一般化を示唆する。

We study a fully connected quantum spin model resonantly coupled to a small environment of non-interacting spins, and investigate how initial state properties are remembered at long times. We find memory of initial state properties, in addition to the total energy, that are not conserved by the dynamics. This memory occurs in the middle of the spectrum where an eigenstate quantum phase transition (ESQPT) occurs as a function of energy. The memory effect at that energy in the spectrum is robust to system-environment coupling until the coupling changes the energy of the ESQPT. This work demonstrates the effect of ESQPT memory as independent of integrability and suggests a wider generality of this mechanism for preventing thermalization at ESQPTs.
翻訳日:2023-03-04 14:03:47 公開日:2022-06-27
# 位相空間反射作用素によるエネルギー遷移

Energy transitions driven by phase space reflection operators ( http://arxiv.org/abs/2201.01812v4 )

ライセンス: Link先を確認
Alfredo M. Ozorio de Almeida(参考訳) 位相空間反射作用素は密度作用素と可観測物のウィグナー・ワイル表現の中核に位置する。 対応する古典的反射の役割は、純粋固有状態のウィグナー函数に対する半古典的近似と、古典的に可積分系に制限されない粗粒マイクロカノニカル重ね合わせの構築において知られている。 ユニタリ作用素としてのアクティブな役割において、遷移ウィグナー関数(またはクロスウィグナー関数)によって特定される固有状態の対間の遷移を生成する: 位相空間の各点における遷移ウィグナー関数の平方モジュラーは、その点を通る反射の遷移確率である。 初期および最終エネルギーの粗粒化は位相空間経路積分としての遷移確率密度を与える。 これは、マイクロカノニカルウィグナー関数を含む最も単純な古典近似で研究されている。 反射作用素は、ポアソンブラケットの逆弾性率の積分によって与えられる確率密度を持つ一対のエネルギー殻間の遷移を、その対の反射とシェルの交叉上で生成する。 ウィグナー函数のそれらの支配的因果関係における特異性は、一自由度を除いてその交点上でうまく積分可能である。 このケースはカオス系の将来の研究に直接は関係しないが、エアリー関数の観点からのスペクトルウィグナー関数の近似が特異点をいかに改善したかが示されている。

Phase space reflection operators lie at the core of the Wigner-Weyl representation of density operators and observables. The role of the corresponding classical reflections is known in the construction of semiclassical approximations to Wigner functions of pure eigenstates and their coarsegrained microcanonical superpositions, which are not restricted to classically integrable systems. In their active role as unitary operators, they generate transitions between pairs of eigenstates specified by transition Wigner functions (or cross-Wigner functions): The square modulus of the transition Wigner function at each point in phase space is the transition probability for the reflection through that point. Coarsegraining the initial and final energies provides a transition probability density as a phase space path integral. It is here investigated in the simplest classical approximation involving microcanonical Wigner functions. A reflection operator generates a transition between a pair of energy shells with a probability density given by the integral of the inverse modulus of a Poisson bracket over the intersection of a shell with the reflection of its pair. The singularity of the pair of Wigner functions at their dominant caustics is nicely integrable over their intersection, except for a single degree of freedom. Even though this case is not directly relevant for future investigations of chaotic systems, it is shown here how the improved approximation of the spectral Wigner functions in terms of Airy functions resolves the singularity.
翻訳日:2023-03-02 05:24:21 公開日:2022-06-27
# ファイナンスのための量子コンピューティングに関する調査

A Survey of Quantum Computing for Finance ( http://arxiv.org/abs/2201.02773v4 )

ライセンス: Link先を確認
Dylan Herman, Cody Googin, Xiaoyuan Liu, Alexey Galda, Ilya Safro, Yue Sun, Marco Pistoia, Yuri Alexeev(参考訳) 量子コンピュータはこの10年間で古典的なコンピュータの計算能力を超え、多くの産業、特に金融に変革をもたらすと予想されている。 実際、金融は、中長期だけでなく、短期においても量子コンピューティングの恩恵を受ける最初の産業であると推定されている。 本稿では,金融アプリケーションにおける量子コンピューティングの現状,特に確率的モデリング,最適化,機械学習を包括的に要約し,これらのソリューションが量子コンピュータ上での動作にどのように適応し,デリバティブ価格やリスクモデリング,ポートフォリオ最適化,自然言語処理,不正検出といった金融問題のより効率的かつ正確な解決に役立つかを述べる。 また、これらのアルゴリズムが様々なハードウェア実装を持つ短期量子コンピュータ上で実現可能であることについても論じ、ファイナンスにおける幅広いユースケースとの関連性を実証する。 本稿は、学術研究者や業界実践者への参考となるだけでなく、今後の研究に新たなアイデアをもたらすことを願っている。

Quantum computers are expected to surpass the computational capabilities of classical computers during this decade and have transformative impact on numerous industry sectors, particularly finance. In fact, finance is estimated to be the first industry sector to benefit from quantum computing, not only in the medium and long terms, but even in the short term. This survey paper presents a comprehensive summary of the state of the art of quantum computing for financial applications, with particular emphasis on stochastic modeling, optimization, and machine learning, describing how these solutions, adapted to work on a quantum computer, can potentially help to solve financial problems, such as derivative pricing, risk modeling, portfolio optimization, natural language processing, and fraud detection, more efficiently and accurately. We also discuss the feasibility of these algorithms on near-term quantum computers with various hardware implementations and demonstrate how they relate to a wide range of use cases in finance. We hope this article will not only serve as a reference for academic researchers and industry practitioners but also inspire new ideas for future research.
翻訳日:2023-03-01 23:30:57 公開日:2022-06-27
# 次元縮小の確率的グラフ結合ビュー

A Probabilistic Graph Coupling View of Dimension Reduction ( http://arxiv.org/abs/2201.13053v2 )

ライセンス: Link先を確認
Hugues van Assel (UMPA-ENSL, LBMC UMR 5239), Thibault Espinasse (ICJ), Julien Chiquet (MIA Paris-Saclay), Franck Picard (LBMC UMR 5239)(参考訳) t-SNEやUMAPのような一般的な次元還元(DR)法は、入力と潜在ペアの類似性の間のコストを最小化することに基づいている。 広く使われているが、これらのアプローチは、その特性と制限を完全に理解するための明確な確率的基盤を欠いている。 そこで我々は,クロスエントロピーを用いた隠れグラフの結合に基づく統一統計的枠組みを提案する。 これらのグラフは、入力空間と潜在空間の両方で観測されるマルコフ確率場依存性構造を誘導する。 既存のペアワイズ類似性DR法は,グラフの事前選択に際し,我々のフレームワークから検索可能であることを示す。 さらに, この手法は, 粗粒依存性の保存性能の低下を説明する統計学的欠陥に苦しむことが明らかとなった。 我々のモデルはこの問題に対処するために活用され拡張され、新しいリンクはラプラシア固有写像とPCAで描画される。

Most popular dimension reduction (DR) methods like t-SNE and UMAP are based on minimizing a cost between input and latent pairwise similarities. Though widely used, these approaches lack clear probabilistic foundations to enable a full understanding of their properties and limitations. To that extent, we introduce a unifying statistical framework based on the coupling of hidden graphs using cross entropy. These graphs induce a Markov random field dependency structure among the observations in both input and latent spaces. We show that existing pairwise similarity DR methods can be retrieved from our framework with particular choices of priors for the graphs. Moreover this reveals that these methods suffer from a statistical deficiency that explains poor performances in conserving coarse-grain dependencies. Our model is leveraged and extended to address this issue while new links are drawn with Laplacian eigenmaps and PCA.
翻訳日:2023-02-27 05:22:05 公開日:2022-06-27
# 自由大な$N$ゲージ理論と弦に対するスペクトル形状因子

Spectral form factor for free large $N$ gauge theory and strings ( http://arxiv.org/abs/2202.04741v3 )

ライセンス: Link先を確認
Yiming Chen(参考訳) 2つの異なる系のスペクトル形状因子、自由大N$ゲージ理論と高励起ストリングガスについて検討する。 どちらの場合でも、早期にスペクトル型因子が急速に崩壊した後、新たな寄与が生まれ、スペクトル型因子が指数関数的に小さくなるのを防ぐ。 u(n)$ ゲージ理論を随伴物質のみを持つものとし、熱ホロノミー $u$ の行列積分を用いてスペクトル形式因子を計算する。 新しいサドルは、中心対称性のある種の部分群を保存することで、初期のサドルとは異なる。 弦の気体の場合、スペクトル形成因子の短時間の崩壊は連続したハゲゴルンの状態密度によって制御され、これは巻数$\pm 1$の熱巻きモードに関連付けられる。 スペクトル形状因子の上昇は、時間方向に沿って運動量を持つ他の巻線モードに由来することを示す。 我々は、これらの弦モードに対する古典解の族の存在を、ホロウィッツ・ポルチンスキー解と同様に推測する。 我々はブラックホールに関する同様の問題を概観する。 特に、スペクトル形式因子に寄与する複雑なブラックホールのコンツェビッチ・セガルの基準について検討する。 標準アンサンブル量 $Z(\beta+it)$ では、ブラックホールは $t\sim \mathcal{O}(\beta)$ で許可されない。 これを避ける方法の1つは、ブラックホールが許容可能なマイクロカノニカルアンサンブルを考えることである。

We investigate the spectral form factor in two different systems, free large $N$ gauge theories and highly excited string gas. In both cases, after a rapid decay of the spectral form factor at early time, new contributions come in, preventing the spectral form factor from ever becoming exponentially small. We consider $U(N)$ gauge theories with only adjoint matter and compute the spectral form factor using a matrix integral of the thermal holonomy $U$. The new saddles differ from the early time saddle by preserving certain subgroups of the center symmetry. For a gas of strings, the short time decay of the spectral form factor is governed by the continuous Hagedorn density of states, which can be associated to the thermal winding mode with winding number $\pm 1$. We show that the rise of the spectral form factor comes from other winding modes that also carry momentum along the time direction. We speculate on the existence of a family of classical solutions for these string modes, similar to the Horowitz-Polchinski solution. We review a similar problem for black holes. In particular, we examine the Kontsevich-Segal criterion on complex black holes that contribute to the spectral form factor. In the canonical ensemble quantity $Z(\beta+it)$, the black hole becomes unallowed at $t\sim \mathcal{O}(\beta)$. A way to avoid this is to consider the microcanonical ensemble, where the black hole stays allowable.
翻訳日:2023-02-26 06:48:32 公開日:2022-06-27
# 散逸型集団スピンモデルにおける例外スペクトル位相

Exceptional Spectral Phase in a Dissipative Collective Spin Model ( http://arxiv.org/abs/2202.09337v2 )

ライセンス: Link先を確認
\'Alvaro Rubio-Garc\'ia, \'Angel L. Corps, Armando Rela\~no, Rafael A. Molina, Francisco P\'erez-Bernal, Jos\'e Enrique Garc\'ia-Ramos, Jorge Dukelsky(参考訳) 我々は、スピン偏極マルコフ環境に弱結合した量子集団スピンのモデルを調べ、スペクトルを正規位相と例外的なリウビリアンスペクトル位相と呼ばれる2つの領域に分割することを発見した。 熱力学の極限において、例外スペクトル位相は、2階の例外点のみで構成されたユニークな性質を示す。 その結果、この領域に分布する任意の初期密度行列の進化は遅くなり、指数的崩壊の線形結合によって説明できない。 この位相は、いくつかの閉じた量子系で観測される励起状態の量子相転移に類似した現象である、リウヴィリア固有値の密度が分岐する臨界線によって通常のものから分離される。 浴の分極のない限界において、この臨界度は定常状態に移行し、散逸性量子相転移と境界時間結晶の形成を暗示する。

We study a model of a quantum collective spin weakly coupled to a spin-polarized Markovian environment and find that the spectrum is divided into two regions that we name normal and exceptional Liouvillian spectral phases. In the thermodynamic limit, the exceptional spectral phase displays the unique property of being made up exclusively of second order exceptional points. As a consequence, the evolution of any initial density matrix populating this region is slowed down and cannot be described by a linear combination of exponential decays. This phase is separated from the normal one by a critical line in which the density of Liouvillian eigenvalues diverges, a phenomenon analogous to that of excited-state quantum phase transitions observed in some closed quantum systems. In the limit of no bath polarization, this criticality is transferred onto the steady state, implying a dissipative quantum phase transition and the formation of a boundary time crystal.
翻訳日:2023-02-24 17:24:23 公開日:2022-06-27
# 凸ルーフ近似のための変分量子アルゴリズム

A Variational Quantum Algorithm For Approximating Convex Roofs ( http://arxiv.org/abs/2203.02099v3 )

ライセンス: Link先を確認
George Androulakis and Ryan McGaha(参考訳) 多くの絡み合い測度は、まずバイパートイトヒルベルト空間の純粋な状態に対して定義され、その後凸屋根拡大を通じて混合状態に拡張される。 本稿では、エンタングルメント測度の凸屋根拡大を変更して、$f$-$d$拡張と呼ばれる拡張列を生成し、$d \in \mathbb{N}$に対して$f:[0,1]\to [0, \infty)$ は 0 でしか消えない固定連続函数である。 そのような函数に対して、任意の連続で忠実で非負な函数(例えば、エンタングルメント測度)に対して、有限次元二成分ヒルベルト空間の純状態の集合上の$\mu$ は、$\mu$の拡張のコレクションがエンタングルメントを検出すること、すなわち、有限次元二成分ヒルベルト空間上の混合状態$\rho$ が分離可能であることを証明し、かつ、$d \in \mathbb{n}$ が存在して、$\mu$ が $\rho$ に適用されるような$f$-$d$ の拡張が 0 に等しいことを保証する。 純状態上で定義された絡み合い尺度の$f$-$d$拡張を近似することを目的とした量子変分アルゴリズムを導入する。 しかし、アルゴリズムには欠点がある。 このアルゴリズムは、一定の関数 $f$ とユニタリの ansatz $u(\theta)$ に対して tsallis のエンタングルメントエントロピーの$f$-$d$ 拡張の族を近似するために使われると、不毛高原を示す。 実際には、状態に関する追加情報が知られている場合、回路の長い深さで提案されているアンサッツを使用するのを避ける必要がある。

Many entanglement measures are first defined for pure states of a bipartite Hilbert space, and then extended to mixed states via the convex roof extension. In this article we alter the convex roof extension of an entanglement measure, to produce a sequence of extensions that we call $f$-$d$ extensions, for $d \in \mathbb{N}$, where $f:[0,1]\to [0, \infty)$ is a fixed continuous function which vanishes only at zero. We prove that for any such function $f$, and any continuous, faithful, non-negative function, (such as an entanglement measure), $\mu$ on the set of pure states of a finite dimensional bipartite Hilbert space, the collection of $f$-$d$ extensions of $\mu$ detects entanglement, i.e. a mixed state $\rho$ on a finite dimensional bipartite Hilbert space is separable, if and only if there exists $d \in \mathbb{N}$ such that the $f$-$d$ extension of $\mu$ applied to $\rho$ is equal to zero. We introduce a quantum variational algorithm which aims to approximate the $f$-$d$ extensions of entanglement measures defined on pure states. However, the algorithm does have its drawbacks. We show that this algorithm exhibits barren plateaus when used to approximate the family of $f$-$d$ extensions of the Tsallis entanglement entropy for a certain function $f$ and unitary ansatz $U(\theta)$ of sufficient depth. In practice, if additional information about the state is known, then one needs to avoid using the suggested ansatz for long depth of circuits.
翻訳日:2023-02-23 03:47:43 公開日:2022-06-27
# メタバースを可能とした拡張現実とインターネットによる教育の促進:応用,課題,オープンな課題

Advancing Education Through Extended Reality and Internet of Everything Enabled Metaverses: Applications, Challenges, and Open Issues ( http://arxiv.org/abs/2207.01512v1 )

ライセンス: Link先を確認
Senthil Kumar Jagatheesaperumal, Kashif Ahmad, Ala Al-Fuqaha, Junaid Qadir(参考訳) metaverseは、ユーザーがネットワーク化された3d没入型バーチャルワールドで学び、交流し、コラボレーションできる一般的な研究課題の1つとして進化してきた。 マルチメディアストリーミング機能と高速通信による没入型ユーザエクスペリエンスのため、メタバースは教育、トレーニング、スキル開発タスクに理想的なモデルである。 この分野での研究を容易にするために,様々な教育利用事例の総合的なレビューを行い,将来のメタバースにおける教育サービスにおいて,拡張現実感(xr)やiot(internet of everything)といった技術がいかに大きな役割を果たすかを検討する。 第二に,教育,教育,スキル開発に焦点を当てたメタバースベースの教育アプリケーションの概要と,その基盤となる技術の分析について述べる。 ドメイン内の共通研究問題と今後の研究方向性を同定する。 また,メタバースの教育的考察と潜在的な落とし穴についても考察した。 この調査は、メタバース駆動教育の万能性を十分に証明できると信じており、これは研究者のガイドラインとなる可能性がある。

Metaverse has evolved as one of the popular research agendas that let the users learn, socialize, and collaborate in a networked 3D immersive virtual world. Due to the rich multimedia streaming capability and immersive user experience with high-speed communication, the metaverse is an ideal model for education, training, and skill development tasks. To facilitate research in this area, we provide a comprehensive review of the various educational use cases and explore how enabling technologies such as Extended reality (XR) and Internet of Everything (IoE) will play a major role in educational services in future metaverses. Secondly, we provide an overview of metaverse-based educational applications focusing on education, training, and skill development and analyze the technologies they are built upon. We identify common research problems and future research directions in the domain. The paper also identifies core ethical considerations of metaverse for education and potential pitfalls. We believe this survey can fully demonstrate the versatility of metaverse-driven education, which could serve as a potential guideline for the researchers.
翻訳日:2023-02-19 09:41:13 公開日:2022-06-27
# Analisis Kepuasan Pengguna Aplikasi Bintang Cash & Credit Menggunakan Metode End User Computing Satisfaction (EUCS)

Analisis Kepuasan Pengguna Aplikasi Bintang Cash & Credit Menggunakan Metode End User Computing Satisfaction (EUCS) ( http://arxiv.org/abs/2207.00642v1 )

ライセンス: Link先を確認
Rahayu Agustina, Leon Andretti Abdillah(参考訳) アンドロイドアプリケーション技術の使用は近年急速に進歩しており、消費者がいつでもあらゆる場所からアクセスできる電子商取引を含む様々な業界で情報を配信するための代替メディアの1つとなっている。 PalembangのBintang Cash & Creditストアは、すでにAndroidアプリケーションを使っているストアの1つだ。 EUCSには、コンテンツ、正確性、フォーマット、使いやすさ、タイムライン、セキュリティ、応答速度の7つの変数がある。 本研究は,無作為サンプリング手法を用いて95名にアンケートを配布することで得られた。 さらに得られたデータはSPSSバージョン25ソフトウェアで処理された。 データ分析法は、妥当性および信頼性テスト、古典的な仮定テスト、複数の回帰テスト、仮説テストを用いた定量的分析法である。 本研究の結果から,Bintang Cash & Credit アプリケーションのユーザ満足度に肯定的な影響が認められた。

The use of android application technology has advanced rapidly in recent years, making it one of the alternative media for distributing information in a variety of industries, including e-commerce, that consumers may access at any time and from any location. The Bintang Cash & Credit store in Palembang is one of the stores that has already used the Android application. In EUCS there are seven variables: content, accuracy, format, ease of use and timeliness, security, and speed of response. The data of this research were collected by distributing questionnaires to 95 respondents using a random sampling technique. Furthermore, the data obtained were processed using SPSS version 25 software. The data analysis method used was a quantitative analysis method using validity and reliability tests, classical assumption tests, multiple regression tests, and hypothesis testing. From the results of this study, there is a positive influence on the satisfaction of users of the Bintang Cash & Credit application.
翻訳日:2023-02-19 09:34:30 公開日:2022-06-27
# 制約を伴う公衆衛生介入に対する離散確率最適化

Discrete Stochastic Optimization for Public Health Interventions with Constraints ( http://arxiv.org/abs/2206.13634v1 )

ライセンス: Link先を確認
Zewei Li, James C. Spall(参考訳) 多くの公衆衛生上の脅威があり、最適な介入戦略を見つける必要がある。 脅威の確率的性質(例えば、パンデミックインフルエンザの拡散、薬物過剰摂取の発生、アルコール関連脅威の流行)を考えると、決定論的最適化アプローチは不適切かもしれない。 本稿では,2009年のh1n1とcovid-19のパンデミックに対処し,オープンソースのモンテカルロシミュレーション,フルート,コバシムをモデルとした疾患の拡散に対応する確率的最適化手法を提案する。 あらゆる可能な選択肢をテストせずに、最適化の目的は、社会への経済的損失を最小限に抑えるために介入戦略の最良の組み合わせを決定することである。 この目的を達成するために、本論文では、再帰的シミュレーションに基づく最適化アルゴリズムである離散的摂動確率近似法(DSPSA)を用いて、病気シミュレーションソフトウェアにおける入力パラメータを更新し、出力が最小の経済損失に反復的に近づくようにする。 感染拡大シミュレーションモデル(FluTE for H1N1,Covasim for COVID-19)が研究対象の人口の正確な表現であることを前提として,本研究のシミュレーションベースの戦略は,疫病の潜在的な人的・経済的損失を軽減する強力なツールを提供する。 基本的なアプローチは、オピオイド乱用や飲酒運転といった他の公衆衛生問題にも適用できる。

Many public health threats exist, motivating the need to find optimal intervention strategies. Given the stochastic nature of the threats (e.g., the spread of pandemic influenza, the occurrence of drug overdoses, and the prevalence of alcohol-related threats), deterministic optimization approaches may be inappropriate. In this paper, we implement a stochastic optimization method to address aspects of the 2009 H1N1 and the COVID-19 pandemics, with the spread of disease modeled by the open source Monte Carlo simulations, FluTE and Covasim, respectively. Without testing every possible option, the objective of the optimization is to determine the best combination of intervention strategies so as to result in minimal economic loss to society. To reach our objective, this application-oriented paper uses the discrete simultaneous perturbation stochastic approximation method (DSPSA), a recursive simulation-based optimization algorithm, to update the input parameters in the disease simulation software so that the output iteratively approaches minimal economic loss. Assuming that the simulation models for the spread of disease (FluTE for H1N1 and Covasim for COVID-19 in our case) are accurate representations for the population being studied, the simulation-based strategy we present provides decision makers a powerful tool to mitigate potential human and economic losses from any epidemic. The basic approach is also applicable in other public health problems, such as opioid abuse and drunk driving.
翻訳日:2023-02-19 09:30:01 公開日:2022-06-27
# ソーシャルメディアによる大規模時空間記述の抽出

Extracting Large Scale Spatio-Temporal Descriptions from Social Media ( http://arxiv.org/abs/2206.13281v1 )

ライセンス: Link先を確認
Carlo Bono, Barbara Pernici(参考訳) 大規模イベントの追跡能力は、それらを理解し、適切なタイミングで反応を調整するために不可欠である。 これは、例えば、緊急管理と意思決定のサポートにおいて、抽出された情報の質とレイテンシの制約を厳格化することができる。 一部の状況では、リアルタイムおよび大規模センサーデータと予測が利用可能である。 この種のデータは、ソーシャルメディアのような半構造化データソースの取り込みによって拡張できるという仮説を探求している。 ソーシャルメディアは、直接目撃者や専門家の意見のような貴重な知識を広めるが、そのうるさい性質は管理が容易ではない。 この知識は、イベントの他の時空間的記述を補完し、確認するために使用することができ、以前は見当たらなかった、あるいは過小評価された側面を強調することができる。 イベントセンシング,多言語主義,視覚的エビデンスの選択,位置情報など,この研究の重要な側面は,現在,多モーダル記述の時空間的統一表現の基礎として研究されている。 本論文は,本研究の成果と合わせて,本研究の成果を概説するとともに,自然災害による緊急事態に焦点をあてた課題に関する事例研究を提示する。

The ability to track large-scale events as they happen is essential for understanding them and coordinating reactions in an appropriate and timely manner. This is true, for example, in emergency management and decision-making support, where the constraints on both quality and latency of the extracted information can be stringent. In some contexts, real-time and large-scale sensor data and forecasts may be available. We are exploring the hypothesis that this kind of data can be augmented with the ingestion of semi-structured data sources, like social media. Social media can diffuse valuable knowledge, such as direct witness or expert opinions, while their noisy nature makes them not trivial to manage. This knowledge can be used to complement and confirm other spatio-temporal descriptions of events, highlighting previously unseen or undervalued aspects. The critical aspects of this investigation, such as event sensing, multilingualism, selection of visual evidence, and geolocation, are currently being studied as a foundation for a unified spatio-temporal representation of multi-modal descriptions. The paper presents, together with an introduction on the topics, the work done so far on this line of research, also presenting case studies relevant to the posed challenges, focusing on emergencies caused by natural disasters.
翻訳日:2023-02-19 09:29:36 公開日:2022-06-27
# 相互作用型2体結合振動子系の絡み合い

Entanglement in interacting quenched two-body coupled oscillator system ( http://arxiv.org/abs/2204.05326v3 )

ライセンス: Link先を確認
Sayantan Choudhury, Rakshit Mandish Gharat, Saptarshi Mandal, Nilesh Pandey, Abhishek Roy, Partha Sarker(参考訳) 本研究では,量子クエンチが4次相互作用を有する2体結合発振器の絡み合い測度に与える影響について検討する。 このシステムの基底状態の計算には、摂動的枠組みの下で不変演算子法を用いる。 非ガウス的、クォート的相互作用項を持つ系の総密度行列と減少密度行列の解析式を与える。 この還元密度行列を用いて, 2つのエンタングルメント測度viz, von neumann エンタングルメントエントロピーのレプリカトリックとrenyi エンタングルメントエントロピーを用いて解析計算を行った。 さらに、これらの絡み合い測度を次元のないパラメータ $(t/\delta t$) に関して数値的に推定し、その挙動を3つのレジーム、すなわち、待ち点付近の遅い挙動、および初期の挙動で示す。 結合強度の異なる順序に対するこれらの絡み合いの変動についてコメントする。 異なる順序のレニイエントロピーの変化についても議論されている。

In this work, we explore the effects of a quantum quench on the entanglement measures of a two-body coupled oscillator system having quartic interaction. We use the invariant operator method, under a perturbative framework, for computing the ground state of this system. We give the analytical expressions for the total and reduced density matrix of the system having non-Gaussian, quartic interaction terms. Using this reduced density matrix, we show the analytical calculation of two entanglement measures viz., Von Neumann entanglement entropy using replica trick and Renyi entanglement entropy. Further, we give a numerical estimate of these entanglement measures with respect to the dimensionless parameter $(t/\delta t$) and show its behaviour in the three regimes, i.e; late time behaviour, around the quench point and the early time behaviour. We comment on the variation of these entanglement measures for different orders of coupling strength. The variation of Renyi entropy of different orders has also been discussed.
翻訳日:2023-02-17 08:01:43 公開日:2022-06-27
# 共振・非共振統合3次パラメトリックダウンコンバージョン

Resonant and non-resonant integrated third order parametric down-conversion ( http://arxiv.org/abs/2204.09159v2 )

ライセンス: Link先を確認
Milica Banic, Marco Liscidini, J.E. Sipe(参考訳) 第三次パラメトリックダウン変換は、ポンプ光子を三重項に変換する非線形過程のクラスを記述する。 非古典光源として同定されており、自発的4波混合のようなより確立されたプロセスによって提供される能力を超えている。 本稿では,統合フォトニックシステムにおけるTOPDCの実装について論じる。 非共振器(導波路)および共振器(マイクロリング)プラットフォームにおけるTOPDCの速度の方程式を導出し、実験パラメータによるスケーリングをはっきりと見ることができる。 一般に非共振プラットフォームは自発的topdc(sptopdc)に追従すべきであるが、共振プラットフォームは刺激的topdc(sttopdc)に向いている。 保守的でアクセス可能なパラメータを持つサンプルシステムにおけるTOPDCレートのサンプル計算を行う。 StTOPDCは現在の製造技術で観測可能であるべきであり、TOPDCプラットフォームの設計の進歩により、統合されたSpTOPDCも近い将来に実演できることが判明した。

Third order parametric down-conversion describes a class of nonlinear processes in which a pump photon can be down-converted into triplets of photons. It has been identified as a source of non-classical light, with capabilities beyond those offered by better-established processes such as spontaneous four-wave mixing. Here we discuss the implementation of TOPDC in integrated photonic systems. We derive equations for the rates of TOPDC in a non-resonant (waveguide) and resonant (microring) platform, such that the scaling with experimental parameters can be plainly seen. We find that generally non-resonant platforms should be pursued for spontaneous TOPDC (SpTOPDC), whereas resonant platforms are more suitable for stimulated TOPDC (StTOPDC). We present a sample calculation for TOPDC rates in sample systems with conservative and accessible parameters. We find that StTOPDC should be observable with the current fabrication technology, and that with some progress in the design of TOPDC platforms, integrated SpTOPDC too could be demonstrated in the near term.
翻訳日:2023-02-16 08:39:14 公開日:2022-06-27
# エンタングルメント強化カバーセンシングの実証

Demonstration of Entanglement-Enhanced Covert Sensing ( http://arxiv.org/abs/2205.12890v2 )

ライセンス: Link先を確認
Shuhong Hao, Haowei Shi, Christos N. Gagatsos, Mayank Mishra, Boulat Bash, Ivan Djordjevic, Saikat Guha, Quntao Zhuang, Zheshen Zhang(参考訳) 量子センシングは非古典的資源を利用して、古典的センシングと一致しない測定精度を可能にするが、量子暗号は、処理された情報の機密性を無条件に保護することを目的としている。 本稿では,アンタグルメントエンハンスドカバートセンシングの理論と実験について述べる。このパラダイムは,プローブ信号を環境雑音背景に隠して高い測定精度とデータ完全性を同時に提供し,プロトコルの実行を高い確率で検出できないようにするものである。 また,同一被覆レベルにおける古典プロトコルと比較して,エンタングルメントは被検体による付与位相の推定に性能向上をもたらすことを示した。 実装された絡み付き包絡検出プロトコルは、その近最適絡み線源と量子受信機により、基本量子限界に近く動作する。 我々の研究は、前例のないセキュリティとパフォーマンスレベルで量子情報処理の機会を産み出すと期待されている。

The laws of quantum physics endow superior performance and security for information processing: quantum sensing harnesses nonclassical resources to enable measurement precision unmatched by classical sensing, whereas quantum cryptography aims to unconditionally protect the secrecy of the processed information. Here, we present the theory and experiment for entanglement-enhanced covert sensing, a paradigm that simultaneously offers high measurement precision and data integrity by concealing the probe signal in an ambient noise background so that the execution of the protocol is undetectable with a high probability. We show that entanglement offers a performance boost in estimating the imparted phase by a probed object, as compared to a classical protocol at the same covertness level. The implemented entanglement-enhanced covert sensing protocol operates close to the fundamental quantum limit by virtue of its near-optimum entanglement source and quantum receiver. Our work is expected to create ample opportunities for quantum information processing at unprecedented security and performance levels.
翻訳日:2023-02-11 19:16:02 公開日:2022-06-27
# 量子コンピュータにおける単位ステップ関数の振幅に基づく実装

An Amplitude-Based Implementation of the Unit Step Function on a Quantum Computer ( http://arxiv.org/abs/2206.03053v2 )

ライセンス: Link先を確認
Jonas Koppe, Mark-Oliver Wolf(参考訳) 量子コンピュータ上で非線形活性化関数をモデル化することは、完全量子ニューラルネットワークで使用される量子ニューロンにとって不可欠である。 量子コンピュータ上での単位ステップ関数の形で非線形性を近似するための振幅に基づく実装を提案する。 提案手法は再帰的成功プロトコルを拡張し,単一の測定のみを必要とする修正を示唆する。 より先進的な量子アルゴリズムに埋め込まれた場合、古典的コンピュータから直接入力を受ける2つの異なる回路タイプを量子状態として記述する。 全ての量子回路は数値シミュレーションを用いて理論的に評価され、ノイズ中間スケール量子ハードウェア上で実行される。 8量子ビットまでの量子回路から高精度で信頼性の高い実験データを得ることができ、最新のハードウェア最適化技術と測定誤差軽減により最大25のcxゲート応用が可能となる。

Modelling non-linear activation functions on quantum computers is vital for quantum neurons employed in fully quantum neural networks, however, remains a challenging task. We introduce an amplitude-based implementation for approximating non-linearity in the form of the unit step function on a quantum computer. Our approach expands upon repeat-until-success protocols, suggesting a modification that requires a single measurement only. We describe two distinct circuit types which receive their input either directly from a classical computer, or as a quantum state when embedded in a more advanced quantum algorithm. All quantum circuits are theoretically evaluated using numerical simulation and executed on Noisy Intermediate-Scale Quantum hardware. We demonstrate that reliable experimental data with high precision can be obtained from our quantum circuits involving up to 8 qubits, and up to 25 CX-gate applications, enabled by state-of-the-art hardware-optimization techniques and measurement error mitigation.
翻訳日:2023-02-10 06:54:22 公開日:2022-06-27
# 測定依存性と隠蔽性のトレードオフ関係としての緩和ベル不等式

Relaxed Bell inequalities as a trade-off relation between measurement dependence and hiddenness ( http://arxiv.org/abs/2206.06196v2 )

ライセンス: Link先を確認
Gen Kimura, Yugo Susuki and Kei Morisue(参考訳) ベルの不等式に反する量子相関は、任意の(測定独立な)局所隠れ変数理論では説明できない。 しかし、この違反は、現実、局所性、測定の独立性という基礎となる仮定の不一致を暗示し、各仮定が定量的に違反する程度を扱わない。 対照的に、ホール (2010, 2011) はそれぞれの仮定を定量化し、基礎となる仮定の間のトレードオフ関係を与えるベル-CHSH不等式を一般化した。 本稿では,隠蔽変数(隠蔽性)の定量化を導入し,任意の局所隠蔽変数理論に当てはまる隠蔽変数と測定依存性との間の新たなトレードオフ関係を導出する。

Quantum correlations that violate the Bell inequality cannot be explained by any (measurement independent) local hidden variable theory. However, the violation only implies incompatibility of the underlying assumptions of reality, locality, and measurement independence, and does not address the extent to which each assumption is violated quantitatively. In contrast, Hall (2010,2011) gave a quantification of each assumption and generalized the Bell-CHSH inequality that gives a trade-off relationship between the underlying assumptions. In this paper, we introduce a quantification of hidden variables (hiddenness) and derive a new trade-off relation between the hiddenness and the measurement dependency that holds for any local hidden variable theory.
翻訳日:2023-02-09 12:48:48 公開日:2022-06-27
# サイト依存$g-$factorによるホール量子ドットのゲートベーススピン読み出し

Gate-based spin readout of hole quantum dots with site-dependent $g-$factors ( http://arxiv.org/abs/2206.13125v1 )

ライセンス: Link先を確認
Angus Russell and Alexander Zotov and Ruichen Zhao and Andrew S. Dzurak and M. Fernando Gonzalez-Zalba and Alessandro Rossi(参考訳) グループIV半導体におけるホールスピン量子ビットの急速な進歩は、スケーラビリティのポテンシャルによって引き起こされている。 これは工業的製造基準との互換性と、全電動ドライブによる操作の容易さと対応性に起因している。 しかし、強いスピン軌道相互作用のため、これらの系はLand\'e $g-$factorのようなキー量子ビット制御パラメータに可変性と異方性を示し、実現可能な量子ビット演算に注意を要する。 本研究では,ゲート型反射率計を用いてスピン読み出しを行い,シリコン中のホールダブル量子ドットを実験的に検討する。 磁気分光法により生じる反射位相信号の特徴は,2点のサイト依存の$g-$factorに関する情報を伝達する。 解析モデルを用いて, システムの物理パラメータを抽出し, 数値計算により, 局所的な$g-$factorsに関する情報を反射率測定から簡便に抽出する可能性を示す。

The rapid progress of hole spin qubits in group IV semiconductors has been driven by their potential for scalability. This is owed to the compatibility with industrial manufacturing standards, as well as the ease of operation and addressability via all-electric drives. However, owing to a strong spin-orbit interaction, these systems present variability and anisotropy in key qubit control parameters such as the Land\'e $g-$factor, requiring careful characterisation for realiable qubit operation. Here, we experimentally investigate a hole double quantum dot in silicon by carrying out spin readout with gate-based reflectometry. We show that characteristic features in the reflected phase signal arising from magneto-spectroscopy convey information on site-dependent $g-$factors in the two dots. Using analytical modeling, we extract the physical parameters of our system and, through numerical calculations, we extend the results to point out the prospect of conveniently extracting information about the local $g-$factors from reflectometry measurements.
翻訳日:2023-02-07 21:36:01 公開日:2022-06-27
# チューナブルカプラを用いた超伝導量子プロセッサ上での一般化Aubry-Andr\e-Harperモデルにおける臨界相転移の観察

Observation of critical phase transition in a generalized Aubry-Andr\'e-Harper model on a superconducting quantum processor with tunable couplers ( http://arxiv.org/abs/2206.13107v1 )

ライセンス: Link先を確認
Hao Li, Yong-Yi Wang, Yun-Hao Shi, Kaixuan Huang, Xiaohui Song, Gui-Han Liang, Zheng-Yang Mei, Bozhen Zhou, He Zhang, Jia-Chi Zhang, Shu Chen, Shiping Zhao, Ye Tian, Zhan-Ying Yang, Zhongcheng Xiang, Kai Xu, Dongning Zheng and Heng Fan(参考訳) 量子シミュレーションは、制御可能な量子システムにマッピングすることで、非平衡の多体系の研究を可能にし、計算難解問題のための新しいツールを提供する。 ここで,10個の超伝導量子ビットのチェーンを持つプログラム可能な量子プロセッサを用いて,3つの異なる位相,すなわち拡張相,局所相,臨界相について1次元一般化オーブリー・アンド・エ・ハーパーモデルをシミュレートする。 カップリングの強度とキュービット周波数の調整によりそれぞれ制御されるモデルのオフ対角ホッピング係数とオンサイト電位の両方に対する準周期変調の存在下で,相転移と多体運動の性質について検討した。 異なる相における初期単励起状態と多励起状態のスピン輸送を観察し、参加エントロピーのダイナミクスを実験的に測定することで相転移を特徴づける。 実験結果から,超伝導プロセッサのチューナブルカップリングアーキテクチャは,様々なハミルトニアンのシミュレーション領域を大きく拡張し,様々な量子およびトポロジカル現象についてさらなる研究が引き起こされる可能性が示唆された。

Quantum simulation enables study of many-body systems in non-equilibrium by mapping to a controllable quantum system, providing a new tool for computational intractable problems. Here, using a programmable quantum processor with a chain of 10 superconducting qubits interacted through tunable couplers, we simulate the one-dimensional generalized Aubry-Andr\'e-Harper model for three different phases, i.e., extended, localized and critical phases. The properties of phase transitions and many-body dynamics are studied in the presence of quasi-periodic modulations for both off-diagonal hopping coefficients and on-site potentials of the model controlled respectively by adjusting strength of couplings and qubit frequencies. We observe the spin transport for initial single- and multi-excitation states in different phases, and characterize phase transitions by experimentally measuring dynamics of participation entropies. Our experimental results demonstrate that the newly developed tunable coupling architecture of superconducting processor extends greatly the simulation realms for a wide variety of Hamiltonians, and may trigger further investigations on various quantum and topological phenomena.
翻訳日:2023-02-07 21:35:43 公開日:2022-06-27
# 階層的量子計測における情報幾何

Information geometry under hierarchical quantum measurement ( http://arxiv.org/abs/2206.13095v1 )

ライセンス: Link先を確認
Hongzhen Chen, Yu Chen, Haidong Yuan(参考訳) ほとんどの量子技術では、量子情報を古典的情報に変換するためにパラメータ化された量子状態上で測定を行う必要がある。 しかし、測定は必然的に情報を歪めてしまう。 この違いの特徴付けは量子情報科学において重要なテーマであり、量子情報と古典情報の構造の違いを理解する上で重要な役割を果たす。 本稿では,フィッシャー情報計量の観点からの差を解析し,階層的量子計測下での差に関する解析的境界を提供する枠組みを提案する。 具体的には,階層的p-局所的量子測定において,量子状態の最大pコピー上で集合的に実施可能な,量子と古典的フィッシャー情報距離の差に関する一連の解析的境界を示す。 結果は、マルチパラメータ量子メートル法における精度限界に直接変換することができ、異なるパラメータの精度のトレードオフを特徴づけることができる。 フレームワークはまた、特別なケースとしてそれらを含めることで、様々な既存の結果の一貫性のある図を提供する。

In most quantum technologies, measurements need to be performed on the parametrized quantum states to transform the quantum information to classical information. The measurements, however, inevitably distort the information. The characterization of the discrepancy is an important subject in quantum information science, which plays a key role in understanding the difference between the structures of the quantum and classical information. Here we analyze the discrepancy in terms of the Fisher information metric and present a framework that can provide analytical bounds on the difference under hierarchical quantum measurements. Specifically, we present a set of analytical bounds on the difference between the quantum and classical Fisher information metric under hierarchical p-local quantum measurements, which are measurements that can be performed collectively on at most p copies of quantum states. The results can be directly transformed to the precision limit in multi-parameter quantum metrology, which leads to characterizations of the tradeoff among the precision of different parameters. The framework also provides a coherent picture for various existing results by including them as special cases.
翻訳日:2023-02-07 21:35:20 公開日:2022-06-27
# パウリ作用素のコレクションをミニマルレジスタ上のパウリ作用素の等価コレクションに変換する

Transforming Collections of Pauli Operators into Equivalent Collections of Pauli Operators over Minimal Registers ( http://arxiv.org/abs/2206.13040v1 )

ライセンス: Link先を確認
Lane G. Gunderman(参考訳) フェルミオンモードと量子ビット演算を変換する変換は、系をシミュレートする量子アルゴリズムにおいてユビキタスなツールとなっている。 同様に、パウリ作用素の集合は非局所ゲームや満足度問題の解から得られる。 エンタングルメント支援の量子誤り訂正符号と量子畳み込み符号のアイデアに基づき、そのようなポーリ操作を表すのに必要な量子ビット数に対して、取得可能な下限を証明し、そのような最小レジスタポーリ演算の集合を決定する手順を提供する。

Transformations which convert between Fermionic modes and qubit operations have become a ubiquitous tool in quantum algorithms for simulating systems. Similarly, collections of Pauli operators might be obtained from solutions of non-local games and satisfiability problems. Drawing on ideas from entanglement-assisted quantum error-correcting codes and quantum convolutional codes, we prove the obtainable lower-bound for the number of qubits needed to represent such Pauli operations which are equivalent and provide a procedure for determining such a set of minimal register Pauli operations.
翻訳日:2023-02-07 21:35:05 公開日:2022-06-27
# プラズモンによるナノファイバー誘導モードへの発光に基づく光ファイバーインライン単光子源

Bright and polarized fiber in-line single photon source based on plasmon-enhanced emission into nanofiber guided modes ( http://arxiv.org/abs/2206.13029v1 )

ライセンス: Link先を確認
K. Muhammed Shafi, Ramachandrarao Yalla, and Kali P. Nayak(参考訳) 光ナノファイバーへのコロイド単一量子ドットのプラズモン励起発光に基づく、明るく偏光したインライン単一光子源を実証する。 単一量子ドットの発光特性は、単一金ナノロッドの存在下で強く強化され、明るく、強く偏光した単一光子放出につながることを示す。 単一光子はナノファイバーの誘導モードに効率よく結合され、最終的には単一モードの光ファイバに結合される。 単一光子源の輝度(ファイバー結合光子数率)は12.2(0.6MHz)と推定され、高い単一光子純度(g2(0) = 0.20(0.04))と94-97%の偏光度を有する。 このデバイスは、量子ネットワークにおける潜在的な応用の道を開くファイバーネットワークに統合することができる。

We demonstrate a bright and polarized fiber in-line single photon source based on plasmon-enhanced emission of colloidal single quantum dots into an optical nanofiber. We show that emission properties of single quantum dots can be strongly enhanced in the presence of single gold nanorods leading to a bright and strongly polarized single photon emission. The single photons are efficiently coupled to guided modes of the nanofiber and eventually to a single mode optical fiber. The brightness (fiber-coupled photon count rate) of the single photon source is estimated to be 12.2(0.6) MHz, with high single photon purity (g2(0) = 0.20(0.04)) and degree of polarization as high as 94-97%. The present device can be integrated into fiber networks paving the way for potential applications in quantum networks.
翻訳日:2023-02-07 21:34:54 公開日:2022-06-27
# 1次元強相互作用フェルミオンの遠方平衡における量子輸送

Quantum transport of strongly interacting fermions in one dimension at far-out-of-equilibrium ( http://arxiv.org/abs/2206.13023v1 )

ライセンス: Link先を確認
Jie Zou and Xiaopeng Li(参考訳) 量子輸送の研究では、熱平衡付近の力学で多くのことが知られている。 しかし、量子輸送は平衡から遠く離れており、線形応答近似は一般の物理学では平衡から外れた物理では成り立たない。 この研究は、1次元のXXZスピン鎖の量子多体ダイナミクスを探索する最近の冷原子実験に動機付けられ、XXZスピン鎖と双対である1次元のスピンレスフェルミオンモデルの強い相互作用限界について研究する。 本研究では,この系の非平衡ダイナミクスを正確にシミュレートする高効率な計算アルゴリズムを開発し,密度変調量子状態から発生する非平衡ダイナミクスについて検討する。 この強く相関した設定で弾道輸送を見いだし、長期進化で平面波の記述が現れることを示した。 また, 相互作用効果によって引き起こされる短時間と長時間の輸送速度の鋭い区別を観察し, 長時間輸送速度の定量的解釈を提供する。

In the study of quantum transport, much has been known for dynamics near thermal equilibrium. However, quantum transport far away from equilibrium is much less well understood--the linear response approximation does not hold for physics far-out-of-equilibrium in general. In this work, motivated by recent cold atom experiments on probing quantum many-body dynamics of a one-dimensional XXZ spin chain, we study the strong interaction limit of the one-dimensional spinless fermion model, which is dual to the XXZ spin chain. We develop a highly efficient computation algorithm for simulating the non-equilibrium dynamics of this system exactly, and examine the non-equilibrium dynamics starting from a density modulation quantum state. We find ballistic transport in this strongly correlated setting, and show a plane-wave description emerges at long-time evolution. We also observe sharp distinction between transport velocities in short and long times as induced by interaction effects, and provide a quantitative interpretation for the long-time transport velocity.
翻訳日:2023-02-07 21:34:35 公開日:2022-06-27
# 超対称ポテンシャルにおける量子制御と量子速度限界

Quantum control and quantum speed limits in supersymmetric potentials ( http://arxiv.org/abs/2206.13020v1 )

ライセンス: Link先を確認
Christopher Campbell, Jing Li, Thomas Busch, and Thom\'as Fogarty(参考訳) 超対称性により、同じスペクトル特性を共有し、共通の超ポテンシャルを通してペアで連結されるハミルトンの階層を構築することができる。 これらのハミルトニアンのアイソスペクトル特性は、異なる固有状態のダイナミクスと制御が超対称性の相互関係を通して連結であることを示している。 本研究では, 無限成分を例として, 一般動力学, 断熱(sta)への近道, 異なる超対称パートナーポテンシャルの状態の量子速度制限などについて検討する。

Supersymmetry allows one to build a hierarchy of Hamiltonians that share the same spectral properties and which are pairwise connected through common superpotentials. The iso-spectral properties of these Hamiltonians imply that the dynamics and therefore control of different eigenstates are connected through supersymmetric intertwining relations. In this work we explore how this enables one to study general dynamics, shortcuts to adiabaticity (STA) and quantum speed limits for distinct states of different supersymmetric partner potentials by using the infinite box as an example.
翻訳日:2023-02-07 21:34:19 公開日:2022-06-27
# 仕立て動的フェルミオン化:トンクス・ジラードガスのデルタキック冷却

Tailoring Dynamical Fermionization: Delta kick cooling of a Tonks-Girardeau gas ( http://arxiv.org/abs/2206.13015v1 )

ライセンス: Link先を確認
L\'eonce Dupays, Jing Yang, Adolfo del Campo(参考訳) 1つの空間次元では、量子交換統計と相互作用は不可分に絡み合っている。 現示として、トンクス・ジラルドー気体の膨張ダイナミクスは動的フェルミオン化(DF)によって特徴づけられ、運動量分布はスピン偏極フェルミガスに近づく。 位相空間解析と一体還元密度行列のユニタリ進化を用いて、DFはデルタキック冷却(DKC)の相互作用系への一般化を用いて調整・反転可能であることを示し、初期運動量分布を再スケールするための単純なプロトコルを確立した。 このプロトコルは拡張と圧縮の両方に適用され、量子相関の顕微鏡に使用できる。

In one spatial dimension, quantum exchange statistics and interactions are inextricably intertwined. As a manifestation, the expansion dynamics of a Tonks-Girardeau gas is characterized by dynamical fermionization (DF), whereby the momentum distribution approaches that of a spin-polarized Fermi gas. Using a phase-space analysis and the unitary evolution of the one-body reduced density matrix, we show that DF can be tailored and reversed, using a generalization of delta kick cooling (DKC) to interacting systems, establishing a simple protocol to rescale the initial momentum distribution. The protocol applies to both expansions and compressions and can be used for microscopy of quantum correlations.
翻訳日:2023-02-07 21:34:08 公開日:2022-06-27
# 量子論、熱勾配および曲線ユークリッド空間

Quantum theory, thermal gradients and the curved Euclidean space ( http://arxiv.org/abs/2206.13324v1 )

ライセンス: Link先を確認
S. Ganesh(参考訳) 時間の解析的継続によって得られるユークリッド空間は、熱システムのモデル化に使用される。 本研究は, 熱浴における温度の空間変動とユークリッド空間の曲率との同値性を発達させることにより, 空間熱変化を伴う系にさらに一歩踏み出したものである。 温度の変化は計量の変動として再キャストされ、曲ったユークリッド空間へと繋がる。 この等価性は、ポリアコフループ、分配関数、相関関数の周期性を分析することによって決定される。 エネルギー、エントロピー、ヘルムホルツ自由エネルギーなどのバルク熱力学特性は、中性スカラー場に対する小さな計量摂動に対して分配関数から計算される。 曲面ユークリッド空間では、空間的熱勾配のある熱浴中を横切るディラックスピノルのディラック方程式が解かれる。 ディラックスピノル固有状態によって示される基本的な挙動は、バルク熱力学特性のみを調べるよりも、より基礎的なレベルで理論を検証できるメカニズムを提供するかもしれない。 さらに、古典力学のレベルでの等価性を検証するために、測地方程式は古典的な背景から解析される。 数学的装置は重力誘起時空曲率の量子論の物理学から借用されている。 空間熱変化はQCDやQEDエネルギーで得ることができるため、提案した定式化を実験的に検証することが可能である。

The Euclidean space, obtained by the analytical continuation of time, to an imaginary time, is used to model thermal systems. In this work, it is taken a step further to systems with spatial thermal variation, by developing an equivalence between the spatial variation of temperature in a thermal bath and the curvature of the Euclidean space. The variation in temperature is recast as a variation in the metric, leading to a curved Euclidean space. The equivalence is substantiated by analyzing the Polyakov loop, the partition function and the periodicity of the correlation function. The bulk thermodynamic properties like the energy, entropy and the Helmholtz free energy are calculated from the partition function, for small metric perturbations, for a neutral scalar field. The Dirac equation for an external Dirac spinor, traversing in a thermal bath with spatial thermal gradients, is solved in the curved Euclidean space. The fundamental behavior exhibited by the Dirac spinor eigenstate, may provide a possible mechanism to validate the theory, at a more basal level, than examining only bulk thermodynamic properties. Furthermore, in order to verify the equivalence at the level of classical mechanics, the geodesic equation is analyzed in a classical backdrop. The mathematical apparatus is borrowed from the physics of quantum theory in a gravity-induced space-time curvature. As spatial thermal variations are obtainable at QCD or QED energies, it may be feasible for the proposed formulation to be validated experimentally.
翻訳日:2023-02-07 21:28:49 公開日:2022-06-27
# 超高真空環境における磁気光学トラップ装荷の小型化

A compact setup for loading magneto-optical trap in ultrahigh vacuum environment ( http://arxiv.org/abs/2206.13271v1 )

ライセンス: Link先を確認
Kavish Bharadwaj, Sourabh Sarkar, S. P. Ram, V. B. Tiwari and S. R. Mishra(参考訳) 我々は,超高真空(UHV)環境下で磁気光学トラップ(MOT)を搭載可能な小型装置を開発した。 約$1087}Rb$の1 \times 10^{8}$原子は、MOTの室内のTorr基底圧力$\sim 2 \times 10^{-10}$で閉じ込められている。 MOT負荷後、このチャンバー内の4重極磁気トラップの寿命が$\sim 8 $ sの動作を成功裏に実証した。

We have developed a compact setup which enables loading a magneto-optical trap (MOT) in ultra-high vacuum (UHV) environment. Nearly $1 \times 10^{8}$ atoms of $^{87}Rb$ are trapped in the MOT at $\sim 2 \times 10^{-10}$ Torr base pressure in the chamber. After the MOT loading, we have successfully demonstrated working of quadrupole magnetic trap in this chamber with a lifetime of $\sim 8 $ s
翻訳日:2023-02-07 21:28:23 公開日:2022-06-27
# 線形および非線形光学応答に対する非エルミートハミルトニアン:プレキシトンに対するモデル

Non-Hermitian Hamiltonians for Linear and Nonlinear Optical Response: a Model for Plexcitons ( http://arxiv.org/abs/2206.13265v1 )

ライセンス: Link先を確認
Daniel Finkelstein-Shapiro, Pierre-Adrien Mante, Sinan Balci, Donatas Zigmantas and T\~onu Pullerits(参考訳) ポラリトンでは、物質の性質はキャビティ内の光モードと分子遷移を混合することによって変化する。 結果として生じるハイブリッド光マター状態はエネルギー準位シフトを示し、多くの分子単位にわたって非局在化され、励起状態のエネルギー場が異なるため、励起子ダイナミクスが変化する。 以前は、非エルミートハミルトニアンは表面プラズモンと結合する分子の励起状態(すなわちプレクシトン)を記述するために導かれており、これらの作用素は線形および3次光学応答の記述に成功している。 本稿では、フェシュバッハ作用素を用いて非線形分光の応答関数形式論において、非エルミートハミルトニアンを厳格に導出し、これらを複素シトン分光シグネチャの探索に応用する。 特に, プラズモンおよび分子成分の遷移エネルギーを整合させるために生じる異常点以下の光応答を解析し, 両側ファインマン図を用いてそれらの分解を考察した。 線形分光における干渉とラビ分裂の明確な区別と、3次信号の例外点を横断する際のラインシェイプの対称性の質的変化を見出した。 この非線形信号の対称性の変化は、ハミルトニアンの固有値の対称性の変化に対応する。 本研究は,電子系におけるサブレベルの光学応答をシミュレーションするためのアプローチ的手法を提案し,非エルミートハミルトニアンスペクトルの異なる状態を調べるための非線形分光の新しい応用を開拓する。

In polaritons, the properties of matter are modified by mixing the molecular transitions with light modes inside a cavity. Resultant hybrid light-matter states exhibit energy level shifts, are delocalized over many molecular units and have a different excited-state potential energy landscape which leads to modified exciton dynamics. Previously, non-Hermitian Hamiltonians have been derived to describe the excited states of molecules coupled to surface plasmons (i.e. plexcitons), and these operators have been successfully used in the description of linear and third order optical response. In this article, we rigorously derive non-Hermitian Hamiltonians in the response function formalism of nonlinear spectroscopy by means of Feshbach operators, and apply them to explore spectroscopic signatures of plexcitons. In particular we analyze the optical response below and above the exceptional point that arises for matching transition energies for plasmon and molecular components, and study their decomposition using double-sided Feynman diagrams. We find a clear distinction between interference and Rabi splitting in linear spectroscopy, and a qualitative change in the symmetry of the lineshape when crossing the exceptional point for third-order signals. This change of symmetry of the nonlinear signal corresponds to a change in the symmetry of the eigenvalues of the Hamiltonian. Our work presents an approach novel methodology for simulating the optical response of sublevels within an electronic system, and opens new applications of nonlinear spectroscopy to examine the different regimes of the spectrum of non-Hermitian Hamiltonians.
翻訳日:2023-02-07 21:28:15 公開日:2022-06-27
# ニュートリノ振動における非局所性とエントロピー不確かさの関係

Nonlocality and entropic uncertainty relations in neutrino oscillations ( http://arxiv.org/abs/2206.13218v1 )

ライセンス: Link先を確認
Massimo Blasone, Silvio De Siena, Cristina Matrella(参考訳) ニュートリノ振動に対するwave-packet法を用いて、量子メモリ支援のエントロピー不確かさ関係を分析し、不確かさと量子コヒーレンスの非局所的利点が反相関であることを示す。 さらに,L1-ノルム,相対エントロピー,スキュー情報コヒーレンス尺度に基づくNAQCの3つの定義の階層構造について検討し,L1-ノルムに基づくNAQCが検出したコヒーレンス内容が他の2つを克服することを確認した。 QMA-EURとNAQCの接続は、これまでに得られた結果の物理的意味をよりよく理解し、量子場理論への拡張を提案する。

Using the wave-packet approach to neutrino oscillations, we analyze Quantum-Memory-Assisted Entropic Uncertainty Relations and show that uncertainty and the Non-local Advantage of Quantum Coherence are anti-correlated. Furthermore, we explore the hierarchy among three different definitions of NAQC, those based on the l1-norm, relative entropy and skew information coherence measures, and we find that the coherence content detected by the l1-norm based NAQC overcomes the other two. The connection between QMA-EUR and NAQC could provide a better understanding of the physical meaning of the results so far obtained, and suggest a their extension to quantum field theory.
翻訳日:2023-02-07 21:27:36 公開日:2022-06-27
# 2成分純量子状態における絡み合い測度の感度

Sensitivity of entanglement measures in bipartite pure quantum states ( http://arxiv.org/abs/2206.13180v1 )

ライセンス: Link先を確認
Danko D. Georgiev, Stanley P. Gudder(参考訳) 絡み合い測定は、量子状態に含まれる量子絡み合いの量を定量化する。 通常、異なる絡み合い測度を部分的に順序付けする必要はない。 しかしながら、全ての量子状態に対する2つの絡み合い測度の間の明確な部分順序の存在は、より大きい数値を生成する絡み合い測度においてより大きいエンタングルメントに対する感受性の有意義な概念化を可能にする。 そこで本研究では,二成分純量子状態のシュミット分解に基づく4つのエンタングルメント測度の正規化版間の部分次数,すなわち共起,絡み合い,エンタングルネス,シュミット数について検討した。 これらの4つの測度のうち、コンカレンスとシュミット数はそれぞれ、量子絡みに対する最も高い感度と最も低い感度を持つことを示した。 さらに、これらの測定方法を用いて、2つのキュートリットからなる単純な量子玩具モデルにおいて量子絡み合いのダイナミクスを追跡できることを示した。 最後に,不確実性原理に則って,量子観測結果間の測定可能な相関を計算するために,状態依存の絡み合い統計を用いた。 提案した結果は、最大絡み合いやシステム分離性の時間的点を鋭く識別するために利用可能な量子資源のモニタリングを必要とする量子アプリケーションで役立つ。

Entanglement measures quantify the amount of quantum entanglement that is contained in quantum states. Typically, different entanglement measures do not have to be partially ordered. The presence of a definite partial order between two entanglement measures for all quantum states, however, allows for meaningful conceptualization of sensitivity to entanglement, which will be greater for the entanglement measure that produces the larger numerical values. Here, we have investigated the partial order between the normalized versions of four entanglement measures based on Schmidt decomposition of bipartite pure quantum states, namely, concurrence, tangle, entanglement robustness and Schmidt number. We have shown that among those four measures, the concurrence and the Schmidt number have the highest and the lowest sensitivity to quantum entanglement, respectively. Further, we have demonstrated how these measures could be used to track the dynamics of quantum entanglement in a simple quantum toy model composed of two qutrits. Lastly, we have employed state-dependent entanglement statistics to compute measurable correlations between the outcomes of quantum observables in agreement with the uncertainty principle. The presented results could be helpful in quantum applications that require monitoring of the available quantum resources for sharp identification of temporal points of maximal entanglement or system separability.
翻訳日:2023-02-07 21:27:04 公開日:2022-06-27
# 演算子代数におけるデータ同化

Data Assimilation in Operator Algebras ( http://arxiv.org/abs/2206.13659v1 )

ライセンス: Link先を確認
David Freeman, Dimitrios Giannakis, Brian Mintz, Abbas Ourmazd, Joanna Slawinska(参考訳) 部分観測力学系の逐次データ同化のための代数的フレームワークを開発した。 この枠組みでは、ベイズデータ同化は非アーベル作用素代数に埋め込まれ、乗算作用素による可観測性の表現と密度作用素(量子状態)による確率密度を提供する。 代数的アプローチでは、データ同化の予測ステップは力学系のクープマン作用素によって引き起こされる量子演算によって表される。 さらに、解析ステップは、ベイズ観測更新規則を一般化する量子効果によって記述される。 この定式化を有限次元行列代数に投影すると、新しい計算データ同化スキームが生まれる。 (i)自動肯定保存,及び (II) 機械学習のためのカーネル手法を用いた一貫したデータ駆動近似 さらに、これらの手法は量子コンピュータの実装の自然な候補である。 ロレンツ96多スケールシステムとエルニーニョ南方振動の気候モデルにおけるデータ同化への応用は、予測スキルと不確実性定量化の観点から有望な結果を示す。

We develop an algebraic framework for sequential data assimilation of partially observed dynamical systems. In this framework, Bayesian data assimilation is embedded in a non-abelian operator algebra, which provides a representation of observables by multiplication operators and probability densities by density operators (quantum states). In the algebraic approach, the forecast step of data assimilation is represented by a quantum operation induced by the Koopman operator of the dynamical system. Moreover, the analysis step is described by a quantum effect, which generalizes the Bayesian observational update rule. Projecting this formulation to finite-dimensional matrix algebras leads to new computational data assimilation schemes that are (i) automatically positivity-preserving; and (ii) amenable to consistent data-driven approximation using kernel methods for machine learning. Moreover, these methods are natural candidates for implementation on quantum computers. Applications to data assimilation of the Lorenz 96 multiscale system and the El Nino Southern Oscillation in a climate model show promising results in terms of forecast skill and uncertainty quantification.
翻訳日:2023-02-07 21:20:27 公開日:2022-06-27
# 因子化ヒルベルト空間計量と非可換準エルミート可観測性

Factorized Hilbert-space metrics and non-commutative quasi-Hermitian observables ( http://arxiv.org/abs/2206.13576v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 実固有値を持つ非エルミート作用素 $\lambda_j$ の(一般には非可換な)集合が可観測性を表す必要はないことはよく知られている。 これらの作用素と基礎となる物理ヒルベルト空間計量 $\Theta$ が補助作用素 $(N+1)-$plet $Z_k$, $k=0,1,\ldots,N$ で表される特定の量子モデルのクラスを記述する。 我々の形式は、${\cal PT}-$symmetric quantum mechanics at $N=2$, with metric $\Theta=Z_2Z_1$, parity ${\cal P}=Z_2$, charge ${\cal C}=Z_1$,および Hamiltonian $H=Z_0$に縮退する。

It is well known that an (in general, non-commutative) set of non-Hermitian operators $\Lambda_j$ with real eigenvalues need not necessarily represent observables. We describe a specific class of quantum models in which these operators plus the underlying physical Hilbert-space metric $\Theta$ are all represented in terms of an auxiliary operator $(N+1)-$plet $Z_k$, $k=0,1,\ldots,N$. Our formalism degenerates to the ${\cal PT}-$symmetric quantum mechanics at $N=2$, with metric $\Theta=Z_2Z_1$, parity ${\cal P}=Z_2$, charge ${\cal C}=Z_1$ and Hamiltonian $H=Z_0$.
翻訳日:2023-02-07 21:19:45 公開日:2022-06-27
# ツイスト付き等変微分(TED)K理論における任意の位相秩序

Anyonic Topological Order in Twisted Equivariant Differential (TED) K-Theory ( http://arxiv.org/abs/2206.13563v1 )

ライセンス: Link先を確認
Hisham Sati, Urs Schreiber(参考訳) 等変K-理論による非相互作用性結晶性トポロジカル絶縁相の分類は広く受け入れられているが、それ故に、トポロジカルブレイド量子ゲートを支持する位相的に秩序づけられた基底状態を持つ位相への一般化は、広く行われている。 それとは対照的に、相互作用しない位相を分類するK-理論の成功は、相互作用する位相秩序のK-理論的な分類を先導するものとして暗黙的に認識され、代わりに他の提案の混合が検討されている。 しかし、k-理論のみが原子価電子の実際の物理学と密接な関係にあり、自己矛盾は、他のいかなる提案もk-理論と接続することを要求する。 ここでは、特に相互作用する2次元半金属において、結晶のブリルアントーラス・オービ・オリエンテンフォールド内の節点の補数における点の構成空間のねじれ同変微分(ted) k-理論により、対称性を保護/強化したsu(2)-アノニカル位相秩序の分類に関する詳細な議論を提供する。 We argue, in particular, that: (1) topological 2d semi-metal phases modulo global mass terms are classified by the flat differential twisted equivariant K-theory of the complement of the nodal points; (2) n-electron interacting phases are classified by the K-theory of configuration spaces of n points in the Brillouin torus; (3) the somewhat neglected twisting of equivariant K-theory by "inner local systems" reflects the effective "fictitious" gauge interaction of Chen, Wilczeck, Witten & Halperin (1989), which turns fermions into anyonic quanta; (4) the induced su(2)-anyonic topological order is reflected in the twisted Chern classes of the interacting valence bundle over configuration space, constituting the hypergeometric integral construction of monodromy braid representations.

While the classification of non-interacting crystalline topological insulator phases by equivariant K-theory has become widely accepted, its generalization to anyonic interacting phases -- hence to phases with topologically ordered ground states supporting topological braid quantum gates -- has remained wide open. On the contrary, the success of K-theory with classifying non-interacting phases seems to have tacitly been perceived as precluding a K-theoretic classification of interacting topological order; and instead a mix of other proposals has been explored. However, only K-theory connects closely to the actual physics of valence electrons; and self-consistency demands that any other proposal must connect to K-theory. Here we provide a detailed argument for the classification of symmetry protected/enhanced su(2)-anyonic topological order, specifically in interacting 2d semi-metals, by the twisted equivariant differential (TED) K-theory of configuration spaces of points in the complement of nodal points inside the crystal's Brillouin torus orbi-orientifold. We argue, in particular, that: (1) topological 2d semi-metal phases modulo global mass terms are classified by the flat differential twisted equivariant K-theory of the complement of the nodal points; (2) n-electron interacting phases are classified by the K-theory of configuration spaces of n points in the Brillouin torus; (3) the somewhat neglected twisting of equivariant K-theory by "inner local systems" reflects the effective "fictitious" gauge interaction of Chen, Wilczeck, Witten & Halperin (1989), which turns fermions into anyonic quanta; (4) the induced su(2)-anyonic topological order is reflected in the twisted Chern classes of the interacting valence bundle over configuration space, constituting the hypergeometric integral construction of monodromy braid representations.
翻訳日:2023-02-07 21:19:27 公開日:2022-06-27
# 相関レンズ画像アーキテクチャにおける信号-雑音比の比較解析

Comparative analysis of signal-to-noise ratio in correlation plenoptic imaging architectures ( http://arxiv.org/abs/2206.13412v1 )

ライセンス: Link先を確認
Gianlorenzo Massaro, Giovanni Scala, Milena D'Angelo, Francesco V. Pepe(参考訳) correlation plenoptic imaging (cpi) は、相関光源の特異性を利用した走査型無回折制限3次元光学イメージング技術である。 CPIは、相関光場顕微鏡(CLM)と呼ばれる改良されたアーキテクチャにおいて、蛍光や散乱物体などの顕微鏡のサンプルにさらに拡張されている。 興味深いことに、CLMのノイズ性能は元のCPI方式よりも大幅に改善され、画像の精度が向上し、取得が高速化された。 本研究では,CLMの信号対雑音特性と,元のCPI設定の信号対背景比の両方について検討し,その利点を理論的に考察する。

Correlation plenoptic imaging (CPI) is a scanning-free diffraction-limited 3D optical imaging technique exploiting the peculiar properties of correlated light sources. CPI has been further extended to samples of interest to microscopy, such as fluorescent or scattering objects, in a modified architecture named correlation light-field microscopy (CLM). Interestingly, experiments have shown that the noise performances of CLM are significantly improved over the original CPI scheme, leading to better images and faster acquisition. In this work, we provide a theoretical foundation to such advantage by investigating the properties of both the signal-to-noise and the signal-to-background ratios of CLM and the original CPI setup.
翻訳日:2023-02-07 21:17:10 公開日:2022-06-27
# 超低温量子ガス中の非線形スピードアップ

Nonlinear speed-ups in ultracold quantum gases ( http://arxiv.org/abs/2206.13362v1 )

ライセンス: Link先を確認
Sebastian Deffner(参考訳) 量子力学は本質的に線形理論である。 しかし、多くの体量子系における集合効果は、効果的に非線形力学を引き起こす。 本研究では,量子進化の速度を高めるために,そのような非線形効果をどの程度活用できるかを解析する。 この目的のために、数値および解析的な例に対する量子速度制限の適切なバージョンを計算する。 量子速度の限界は、非線形性の強さとともに大きくなるが、非線形性の ``degree'' では自明にスケールしない。 これは、gross-piteavskiiとkolomeisky dynamicsに従うパラメトリック調和振動子に対して数値的に示され、gross-pitaevskiiダイナミクスの下でボックスを拡張する解析的に示される。

Quantum mechanics is an inherently linear theory. However, collective effects in many body quantum systems can give rise to effectively nonlinear dynamics. In the present work, we analyze whether and to what extent such nonlinear effects can be exploited to enhance the rate of quantum evolution. To this end, we compute a suitable version of the quantum speed limit for numerical and analytical examples. We find that the quantum speed limit grows with the strength of the nonlinearity, yet it does not trivially scale with the ``degree'' of nonlinearity. This is numerically demonstrated for the parametric harmonic oscillator obeying Gross-Piteavskii and Kolomeisky dynamics, and analytically for expanding boxes under Gross-Pitaevskii dynamics.
翻訳日:2023-02-07 21:16:55 公開日:2022-06-27
# 量子不確実性ダイナミクス

Quantum Uncertainty Dynamics ( http://arxiv.org/abs/2206.14620v1 )

ライセンス: Link先を確認
Md. Manirul Ali(参考訳) 量子の不確かさの関係は、量子力学の形式論に深く根付いている。 ハイゼンベルクの不確実性関係は、量子情報科学への応用に新たな関心を惹きつけた。 ロバートソンは、エルミート作用素によって表される任意の観測可能な一対の対に対するハイゼンベルクの不確実性関係の一般形式を導出した。 本研究では,2つの観測可能点を2つの異なる時間に測定するためのハイゼンベルク・ロバートソンの不確かさ関係の時間的バージョンを発見し,その動的不確実性は観測可能点の時間発展に大きく依存することを示した。 不確実性は観測対象の選択に依存するだけでなく、観測対象が測定される時間にも依存する。 時間相関二時間整流器は、動的不確実性の間のトレードオフを決定する。 スピン1/2系および量子調和振動子のこれらの不確かさ関係のダイナミクスを実証する。 この研究で発見された時間的不確実性関係は、現在の量子技術で実験的に検証することができる。

Quantum uncertainty relations have deep-rooted significance on the formalism of quantum mechanics. Heisenberg's uncertainty relations attracted a renewed interest for its applications in quantum information science. Robertson derived a general form of Heisenberg's uncertainty relations for a pair of arbitrary observables represented by Hermitian operators. In the present work, we discover a temporal version of the Heisenberg-Robertson uncertainty relations for the measurement of two observables at two different times, where the dynamical uncertainties crucially depend on the time evolution of the observables. The uncertainties not only depend on the choice of observables, but they also depend on the times at which the physical observables are measured. The time correlated two-time commutator dictates the trade-off between the dynamical uncertainties. We demonstrate the dynamics of these uncertainty relations for a spin-1/2 system and for a quantum harmonic oscillator. The temporal uncertainty relations discovered in this work can be experimentally verified with the present quantum technology.
翻訳日:2023-02-07 21:08:03 公開日:2022-06-27
# リーマン多様体上のシュタイン法への拡散的アプローチ

A diffusion approach to Stein's method on Riemannian manifolds ( http://arxiv.org/abs/2003.11497v2 )

ライセンス: Link先を確認
Huiling Le, Alexander Lewis, Karthik Bharath and Christopher Fallaize(参考訳) 我々は、リーマン多様体 $\mathbf m$ 上で定義される確率測度上の積分計量を境界化するスタインの方法を開発するアプローチを詳述する。 我々のアプローチは、ターゲット不変測度を持つ$\mathbf M$上の拡散の生成元と、その特徴付けスタイン作用素の関係を利用する。 我々は、異なる出発点を持つそのような拡散の対を考え、その対の間の距離過程の解析を通じて、スタイン方程式とその微分に解を束縛するシュタイン因子を導出する。 スタイン因子は曲率依存項を含み、現在$\mathbb r^m$ で得られるものまで減少し、さらに$\mathbf m$ が平坦多様体であるとき、$\mathbb r^m$ の境界は有効であることを意味する。

We detail an approach to develop Stein's method for bounding integral metrics on probability measures defined on a Riemannian manifold $\mathbf M$. Our approach exploits the relationship between the generator of a diffusion on $\mathbf M$ with target invariant measure and its characterising Stein operator. We consider a pair of such diffusions with different starting points, and through analysis of the distance process between the pair, derive Stein factors, which bound the solution to the Stein equation and its derivatives. The Stein factors contain curvature-dependent terms and reduce to those currently available for $\mathbb R^m$, and moreover imply that the bounds for $\mathbb R^m$ remain valid when $\mathbf M$ is a flat manifold
翻訳日:2022-12-20 03:49:23 公開日:2022-06-27
# サイバー物理システムの統計的検証のための微分プライベートアルゴリズム

Differentially Private Algorithms for Statistical Verification of Cyber-Physical Systems ( http://arxiv.org/abs/2004.00275v2 )

ライセンス: Link先を確認
Yu Wang, Hussein Sibai, Mark Yen, Sayan Mitra, Geir E. Dullerud(参考訳) 統計モデルチェック(英: statistics model check)は、サイバー物理システムのアンサンブル(例えば、バッチの99%の車が彼らのエネルギー効率の要求を満たすかどうか)の仕様を検証できるシーケンシャルアルゴリズムのクラスである。 これらのアルゴリズムは、与えられた仕様が証明可能な統計的保証を持つシステムによって満たされる確率を、十分な数の独立および同一の分散サンプルを描画することによって推測する。 統計モデル検査の過程では、サンプル(例えば、車のエネルギー効率)の値は侵入者によって推測され、消費者レベルのアプリケーション(例えば、自動車や医療機器)におけるプライバシーの懸念を引き起こす。 本稿では,微分プライバシーの観点から統計モデル検査アルゴリズムのプライバシーについて述べる。 これらのアルゴリズムはシーケンシャルであり、値の条件が満たされるまでサンプルを描画する。 得られたサンプルの数を明らかにすることは、プライバシーを侵害する可能性がある。 また,差分プライバシーを実現するアルゴリズムの出力をランダム化する標準的な指数関数機構は,逐次アルゴリズムの文脈では実現できないことを示した。 代わりに、差分プライバシーにおける保守的な要件を緩和し、アルゴリズムの出力の感度は任意のデータセットの摂動に拘束されるべきである。 予測差分プライバシーと呼ばれる新しい差分プライバシーの概念を提案する。 そこで本研究では,シーケンシャルアルゴリズムの新しい期待感度解析法を提案し,その終了時間をランダム化し,期待する差分プライバシーを実現する指数関数的メカニズムを提案する。 提案手法を統計モデル検査アルゴリズムに適用し,抽出したサンプルのプライバシを保護する。 提案アルゴリズムの実用性はケーススタディで実証された。

Statistical model checking is a class of sequential algorithms that can verify specifications of interest on an ensemble of cyber-physical systems (e.g., whether 99% of cars from a batch meet a requirement on their energy efficiency). These algorithms infer the probability that given specifications are satisfied by the systems with provable statistical guarantees by drawing sufficient numbers of independent and identically distributed samples. During the process of statistical model checking, the values of the samples (e.g., a user's car energy efficiency) may be inferred by intruders, causing privacy concerns in consumer-level applications (e.g., automobiles and medical devices). This paper addresses the privacy of statistical model checking algorithms from the point of view of differential privacy. These algorithms are sequential, drawing samples until a condition on their values is met. We show that revealing the number of the samples drawn can violate privacy. We also show that the standard exponential mechanism that randomizes the output of an algorithm to achieve differential privacy fails to do so in the context of sequential algorithms. Instead, we relax the conservative requirement in differential privacy that the sensitivity of the output of the algorithm should be bounded to any perturbation for any data set. We propose a new notion of differential privacy which we call expected differential privacy. Then, we propose a novel expected sensitivity analysis for the sequential algorithm and proposed a corresponding exponential mechanism that randomizes the termination time to achieve the expected differential privacy. We apply the proposed mechanism to statistical model checking algorithms to preserve the privacy of the samples they draw. The utility of the proposed algorithm is demonstrated in a case study.
翻訳日:2022-12-17 18:18:34 公開日:2022-06-27
# 量子オートエンコーダの圧縮速度について:制御設計,数値および実験的実現

On compression rate of quantum autoencoders: Control design, numerical and experimental realization ( http://arxiv.org/abs/2005.11149v3 )

ライセンス: Link先を確認
Hailan Ma, Chang-Jiang Huang, Chunlin Chen, Daoyi Dong, Yuanlong Wang, Re-Bing Wu, Guo-Yong Xiang(参考訳) 低次元の潜在空間で量子情報を圧縮することを目的とした量子オートエンコーダは、量子情報分野における自動データ圧縮の中心にある。 本稿では、与えられた量子オートエンコーダの圧縮率の上限を設定し、最大圧縮率を達成するためにオートエンコーダを訓練するための学習制御手法を提案する。 圧縮速度の上界は固有分解と行列微分を用いて理論的に証明され、これは入力状態の密度行列表現の固有値によって決定される。 理論的に最大圧縮を実現するために量子オートエンコーダをトレーニングする方法を示すために, 2-qubit および 3-qubit システムの数値計算結果を示し, 異なる機械学習アルゴリズムを用いたトレーニング性能を比較した。 2つの2量子ビット状態を2つの1量子ビット状態に圧縮する量子光学系を用いた量子オートエンコーダの実験結果を示す。

Quantum autoencoders which aim at compressing quantum information in a low-dimensional latent space lie in the heart of automatic data compression in the field of quantum information. In this paper, we establish an upper bound of the compression rate for a given quantum autoencoder and present a learning control approach for training the autoencoder to achieve the maximal compression rate. The upper bound of the compression rate is theoretically proven using eigen-decomposition and matrix differentiation, which is determined by the eigenvalues of the density matrix representation of the input states. Numerical results on 2-qubit and 3-qubit systems are presented to demonstrate how to train the quantum autoencoder to achieve the theoretically maximal compression, and the training performance using different machine learning algorithms is compared. Experimental results of a quantum autoencoder using quantum optical systems are illustrated for compressing two 2-qubit states into two 1-qubit states.
翻訳日:2022-11-30 09:55:20 公開日:2022-06-27
# (参考訳) ソーシャル・ネットワーク・マイニング(SNM) : 資源とSNAの関係の定義

Social Network Mining (SNM): A Definition of Relation between the Resources and SNA ( http://arxiv.org/abs/2207.06234v1 )

ライセンス: CC BY 4.0
Mahyuddin K. M. Nasution(参考訳) ソーシャルネットワークマイニング(SNM)は、ビッグデータアジェンダの主要なテーマのひとつとなっている。 その結果、異なる情報源からソーシャルネットワークを抽出することができるが、情報ソースは動的に成長しており、柔軟なアプローチが求められている。 適切なアプローチを決定するには、データに関連する振る舞いを得るためにデータエンジニアリングが必要です。 各ソーシャルネットワークはリソースと情報ソースを持っているが、リソースと情報ソースの関係は説明を必要とする。 本稿では,ソーシャルネットワークの成長におけるSNA(Social Network Analysis)の一部としての資源の挙動を,統計計算を用いて解析し,進化のメカニズムを説明することを目的とした。 SNAの分析単位を表すために,本論文では,SNAのすべての解析のコアとなる頂点の度合いのみを考察し,SNMにおける資源とSNAの関係を定義するための基礎となる。 ソーシャルネットワークの資源の成長には強い影響がある。 総じて、資源の挙動は肯定的な効果を持つ。 このように、異なる情報ソースも同様に振舞い、SNAと関係を持つ。

Social Network Mining (SNM) has become one of the main themes in big data agenda. As a resultant network, we can extract social network from different sources of information, but the information sources were growing dynamically require a flexible approach. To determine the appropriate approach needs the data engineering in order to get the behavior associated with the data. Each social network has the resources and the information source, but the relationship between resources and information sources requires explanation. This paper aimed to address the behavior of the resource as a part of social network analysis (SNA) in the growth of social networks by using the statistical calculations to explain the evolutionary mechanisms. To represent the analysis unit of the SNA, this paper only considers the degree of a vertex, where it is the core of all the analysis in the SNA and it is basic for defining the relation between resources and SNA in SNM. There is a strong effect on the growth of the resources of social networks. In total, the behavior of resources has positive effects. Thus, different information sources behave similarly and have relations with SNA.
翻訳日:2022-07-17 20:07:23 公開日:2022-06-27
# (参考訳) 進化アルゴリズムにおける新奇性の出現

Emergence of Novelty in Evolutionary Algorithms ( http://arxiv.org/abs/2207.04857v1 )

ライセンス: CC BY 4.0
David Herel, Dominika Zogatova, Matej Kripner, Tomas Mikolov(参考訳) 進化的アルゴリズムの大きな問題の1つは、人口の局所的なミニマへの収束である。 本稿では,共有報酬システムを通じてエージェントの多様な行動を促すことにより,この問題を回避する手法を検討する。 報酬は環境にランダムに分配され、エージェントはまずそれらを集めることでのみ報酬を受ける。 これにより、エージェントの新たな振る舞いが出現する。 本手法を迷路問題に適用し, ノベルティ・サーチ (Lehman and Stanley, 2011a) と呼ばれる従来提案されていた解と比較する。 私たちのソリューションでは、パフォーマンスが大幅に向上し、さらにシンプルになりました。 これに基づいて問題を一般化し、より高度なタスクセットであるAtari Gamesにアプローチを適用する。

One of the main problems of evolutionary algorithms is the convergence of the population to local minima. In this paper, we explore techniques that can avoid this problem by encouraging a diverse behavior of the agents through a shared reward system. The rewards are randomly distributed in the environment, and the agents are only rewarded for collecting them first. This leads to an emergence of a novel behavior of the agents. We introduce our approach to the maze problem and compare it to the previously proposed solution, denoted as Novelty Search (Lehman and Stanley, 2011a). We find that our solution leads to an improved performance while being significantly simpler. Building on that, we generalize the problem and apply our approach to a more advanced set of tasks, Atari Games, where we observe a similar performance quality with much less computational power needed.
翻訳日:2022-07-17 19:56:40 公開日:2022-06-27
# (参考訳) 計算画像における深部光学符号化設計

Deep Optical Coding Design in Computational Imaging ( http://arxiv.org/abs/2207.00164v1 )

ライセンス: CC BY 4.0
Henry Arguello, Jorge Bacca, Hasindu Kariyawasam, Edwin Vargas, Miguel Marquez, Ramith Hettiarachchi, Hans Garcia, Kithmini Herath, Udith Haputhanthri, Balpreet Singh Ahluwalia, Peter So, Dushan N. Wadduwage, Chamira U. S. Edussooriya(参考訳) 計算光学イメージング(coi)システムは、単一または複数のスナップショットで高次元のシーンを符号化し、計算アルゴリズムを用いて復号する光学符号化素子(ce)をセットアップで利用する。 COIシステムの性能は、CEパターンと与えられたタスクを実行するために使用される計算方法という主要なコンポーネントの設計に大きく依存する。 従来のアプローチはCEの分布を設定するためにランダムパターンや分析設計に依存していた。 しかし、深層ニューラルネットワーク(dnn)の利用可能なデータとアルゴリズム能力は、光エンコーダと計算デコーダを共同で考慮するceデータ駆動設計の新たな地平を開いた。 具体的には、光の物理伝播とCEとの相互作用を考慮した、完全に微分可能な画像形成モデルを用いてCOI測定をモデル化することにより、CEと計算デコーダを定義するパラメータをエンドツーエンド(E2E)で最適化することができる。 さらに、同じフレームワークでCEだけを最適化することで、純粋な光学から推論タスクを実行することができる。 本稿では、CEデータ駆動設計の最近の進歩を調査し、異なる光学素子をE2Eフレームワークに組み込む方法に関するガイドラインを提供する。 e2eフレームワークは損失関数とdnnを変更することで異なる推論アプリケーションを処理できるため、スペクトル画像再構成やプライバシ保護によるポーズ推定のような低レベルタスクを最適タスクベースの光学アーキテクチャを用いて実現している。 最後に、全光学DNNを用いて、光の速度で行われる分類と3次元オブジェクト認識の応用について述べる。

Computational optical imaging (COI) systems leverage optical coding elements (CE) in their setups to encode a high-dimensional scene in a single or multiple snapshots and decode it by using computational algorithms. The performance of COI systems highly depends on the design of its main components: the CE pattern and the computational method used to perform a given task. Conventional approaches rely on random patterns or analytical designs to set the distribution of the CE. However, the available data and algorithm capabilities of deep neural networks (DNNs) have opened a new horizon in CE data-driven designs that jointly consider the optical encoder and computational decoder. Specifically, by modeling the COI measurements through a fully differentiable image formation model that considers the physics-based propagation of light and its interaction with the CEs, the parameters that define the CE and the computational decoder can be optimized in an end-to-end (E2E) manner. Moreover, by optimizing just CEs in the same framework, inference tasks can be performed from pure optics. This work surveys the recent advances on CE data-driven design and provides guidelines on how to parametrize different optical elements to include them in the E2E framework. Since the E2E framework can handle different inference applications by changing the loss function and the DNN, we present low-level tasks such as spectral imaging reconstruction or high-level tasks such as pose estimation with privacy preserving enhanced by using optimal task-based optical architectures. Finally, we illustrate classification and 3D object recognition applications performed at the speed of the light using all-optics DNN.
翻訳日:2022-07-10 13:44:10 公開日:2022-06-27
# (参考訳) マルチファミリーマルウェアモデル

Multifamily Malware Models ( http://arxiv.org/abs/2207.00620v1 )

ライセンス: CC BY 4.0
Samanvitha Basole and Fabio Di Troia and Mark Stamp(参考訳) 機械学習モデルをトレーニングする場合、精度とデータセットの多様性の間にはトレードオフがある可能性が高い。 これまでの研究では、ある特定のマルウェアファミリーを検知するためにモデルをトレーニングすると、一般的に、複数の異なるファミリーで単一のモデルをトレーニングする場合と比較して、より強力な結果が得られることが示されている。 しかし、検出フェーズの間は、複数のモデルに対して各サンプルをスコア付けするよりも、確実に複数のファミリーを検出できる単一のモデルを持つ方が効率的である。 本研究では,学習データセットの汎用性と対応する機械学習モデルの精度の関係を,マルウェア検出問題の文脈内で定量化するために,バイト$n$-gramの特徴に基づく実験を行う。 近所のアルゴリズムは驚くほど一般化し、他の機械学習技術よりもはるかに優れています。

When training a machine learning model, there is likely to be a tradeoff between accuracy and the diversity of the dataset. Previous research has shown that if we train a model to detect one specific malware family, we generally obtain stronger results as compared to a case where we train a single model on multiple diverse families. However, during the detection phase, it would be more efficient to have a single model that can reliably detect multiple families, rather than having to score each sample against multiple models. In this research, we conduct experiments based on byte $n$-gram features to quantify the relationship between the generality of the training dataset and the accuracy of the corresponding machine learning models, all within the context of the malware detection problem. We find that neighborhood-based algorithms generalize surprisingly well, far outperforming the other machine learning techniques considered.
翻訳日:2022-07-10 13:18:23 公開日:2022-06-27
# (参考訳) 遷移経路サンプリングのための経路積分確率最適制御

Path Integral Stochastic Optimal Control for Sampling Transition Paths ( http://arxiv.org/abs/2207.02149v1 )

ライセンス: CC BY 4.0
Lars Holdijk, Yuanqi Du, Ferry Hooft, Priyank Jaini, Bernd Ensing, Max Welling(参考訳) 我々は遷移経路のサンプリング問題を考える。 分子系の2つの準安定な配座状態、例えば。 折り畳まれたタンパク質は 2つの状態間の最も可能性が高い 遷移経路をサンプリングすることを目的としています このような遷移経路のサンプリングは、2つの状態の間に高い自由エネルギー障壁が存在するため計算的に高価である。 これを回避するため、以前の研究は、コグニティブ変数(cvs)と呼ばれる特定の分子ディスクリプタに沿って発生する軌道を単純化することに焦点を当ててきた。 しかし、CVの発見は簡単ではなく、化学的直観を必要とする。 直観が不十分な大きな分子の場合、これらのcvベースの手法は、おそらく無関係な次元に沿って遷移を偏らせる。 そこで本研究では,分子全体の構造を考慮した遷移経路のサンプリング法を提案する。 そこで本研究では,この問題をシュロディンガー橋問題と確率的最適制御の最近の研究と結びつける。 この関係を用いて、二階ダイナミクスや回転や変換に対する不変性といった分子系の重要な特性を考慮した手法を構築する。 我々は、一般的に研究されているアラニンジペプチドについて、またポリプロリンやチグノリンのような大きなタンパク質についても検討した。

We consider the problem of Sampling Transition Paths. Given two metastable conformational states of a molecular system, eg. a folded and unfolded protein, we aim to sample the most likely transition path between the two states. Sampling such a transition path is computationally expensive due to the existence of high free energy barriers between the two states. To circumvent this, previous work has focused on simplifying the trajectories to occur along specific molecular descriptors called Collective Variables (CVs). However, finding CVs is not trivial and requires chemical intuition. For larger molecules, where intuition is not sufficient, using these CV-based methods biases the transition along possibly irrelevant dimensions. Instead, this work proposes a method for sampling transition paths that consider the entire geometry of the molecules. To achieve this, we first relate the problem to recent work on the Schrodinger bridge problem and stochastic optimal control. Using this relation, we construct a method that takes into account important characteristics of molecular systems such as second-order dynamics and invariance to rotations and translations. We demonstrate our method on the commonly studied Alanine Dipeptide, but also consider larger proteins such as Polyproline and Chignolin.
翻訳日:2022-07-10 13:04:16 公開日:2022-06-27
# (参考訳) 解説」は技術的用語ではない:XAIにおける曖昧さの問題

"Explanation" is Not a Technical Term: The Problem of Ambiguity in XAI ( http://arxiv.org/abs/2207.00007v1 )

ライセンス: CC BY-SA 4.0
Leilani H. Gilpin, Andrew R. Paley, Mohammed A. Alam, Sarah Spurlock, Kristian J. Hammond(参考訳) 人工知能(AI)システム、特に機械学習(ML)を使用しているシステムは、その振る舞いを"説明"できるべきだという広い合意がある。 残念ながら、「説明」を構成するものについてはほとんど合意が得られていない。 このことは、システムが説明可能な人工知能(XAI)を運用しているという説明と、ユーザや他のオーディエンスが実際に必要とする説明とを、機能的な役割、オーディエンス、説明能力の完全な範囲で定義するべきものである。 本稿では,説明の特徴と,それらの機能を有用性評価に利用する方法について検討する。 我々は,機能的役割によって定義された説明の要件,理解しようとするユーザの知識状態,それらの生成に必要な情報の提供に焦点をあてる。 また,XAIの信頼性を確立せずにシステムへの信頼を可能にするリスクについて論じ,システム生成説明の有用性の指針と基礎となる指標を確立する上で,XAI分野にとって重要な次のステップを定義する。

There is broad agreement that Artificial Intelligence (AI) systems, particularly those using Machine Learning (ML), should be able to "explain" their behavior. Unfortunately, there is little agreement as to what constitutes an "explanation." This has caused a disconnect between the explanations that systems produce in service of explainable Artificial Intelligence (XAI) and those explanations that users and other audiences actually need, which should be defined by the full spectrum of functional roles, audiences, and capabilities for explanation. In this paper, we explore the features of explanations and how to use those features in evaluating their utility. We focus on the requirements for explanations defined by their functional role, the knowledge states of users who are trying to understand them, and the availability of the information needed to generate them. Further, we discuss the risk of XAI enabling trust in systems without establishing their trustworthiness and define a critical next step for the field of XAI to establish metrics to guide and ground the utility of system-generated explanations.
翻訳日:2022-07-10 12:43:14 公開日:2022-06-27
# 変分オートエンコーダを用いたニューラルネットワーク類似RSRP予測モデル

Variational Autoencoder Assisted Neural Network Likelihood RSRP Prediction Model ( http://arxiv.org/abs/2207.00166v1 )

ライセンス: Link先を確認
Peizheng Li, Xiaoyang Wang, Robert Piechocki, Shipra Kapoor, Angela Doufexi, Arjun Parekh(参考訳) モバイルデータにおける顧客エクスペリエンスの測定は,グローバルモバイルオペレータにとって極めて重要である。 参照信号受信電力(RSRP)は,現在のモバイルネットワーク管理,評価,監視において重要な指標の一つである。 3GPP標準技術であるドライブテスト(MDT)の最小化を通じて収集された無線データは、無線ネットワーク解析に一般的に使用される。 地理的に異なる領域でMDTデータを収集することは、地形条件やユーザの存在によって非効率で制約されるため、動的無線環境には適さない。 本稿では,mdtデータとデジタルツイン(dt)を利用したrsrp予測のための生成モデルを検討し,データ駆動型2層ニューラルネットワーク(nn)モデルを提案する。 第1階層では、変動オートエンコーダ(VAE)を介して、ユーザ機器(UE)、基地局(BS)、ネットワークキーパフォーマンスインジケータ(KPI)に関する環境情報を抽出する。 第2層は可能性モデルとして設計されている。 ここでは、環境特徴と実際のMDTデータ特徴を採用し、統合トレーニングプロセスを定式化する。 検証において,実世界データを用いた提案モデルでは,実験モデルと比較して約20%以上,完全連結予測ネットワークと比較して約10%の精度向上が示された。

Measuring customer experience on mobile data is of utmost importance for global mobile operators. The reference signal received power (RSRP) is one of the important indicators for current mobile network management, evaluation and monitoring. Radio data gathered through the minimization of drive test (MDT), a 3GPP standard technique, is commonly used for radio network analysis. Collecting MDT data in different geographical areas is inefficient and constrained by the terrain conditions and user presence, hence is not an adequate technique for dynamic radio environments. In this paper, we study a generative model for RSRP prediction, exploiting MDT data and a digital twin (DT), and propose a data-driven, two-tier neural network (NN) model. In the first tier, environmental information related to user equipment (UE), base stations (BS) and network key performance indicators (KPI) are extracted through a variational autoencoder (VAE). The second tier is designed as a likelihood model. Here, the environmental features and real MDT data features are adopted, formulating an integrated training process. On validation, our proposed model that uses real-world data demonstrates an accuracy improvement of about 20% or more compared with the empirical model and about 10% when compared with a fully connected prediction network.
翻訳日:2022-07-10 11:40:26 公開日:2022-06-27
# エスノメソロジー, 会話分析, 人工知能の両立

Navigating Incommensurability Between Ethnomethodology, Conversation Analysis, and Artificial Intelligence ( http://arxiv.org/abs/2206.11899v2 )

ライセンス: Link先を確認
Stuart Reeves(参考訳) 多くの研究コミュニティと同様に、エスノメソジストや会話アナリストも、人工知能(AI)への関心の高まりにに追いつき始めています。 このような関心を抱くエスノメソドロジー(EM)と会話分析(CA)の研究者のネットワーク間の議論に触発されて、私は、EMと会話分析のもっとEMの終端が、AI研究の分野、あるいはそれに対して何をしているのかを考え始めました。 ですからこの記事は、遭遇する可能性のある規律的、概念的な疑問に関するもので、ai研究とそのアフィリエイトとの関わりに対処する必要がある、と私は考えています。 主に意識すべきことや、まったくの危険に関心がありますが、後でいくつかの機会について考えることができます。 EM&CAの研究者について話すのに'We'を使い続けますが、これは本当に便利のためだけなのです。 以下は、私の特定の研究履歴、立場等から引用して、EMやCAの研究者たちがテクノロジーやAIに目を向けるさらなる議論の招待状として(願わくば)扱われるべきです。

Like many research communities, ethnomethodologists and conversation analysts have begun to get caught up -- yet again -- in the pervasive spectacle of surging interests in Artificial Intelligence (AI). Inspired by discussions amongst a growing network of researchers in ethnomethodology (EM) and conversation analysis (CA) traditions who nurse such interests, I started thinking about what things EM and the more EM end of conversation analysis might be doing about, for, or even with, fields of AI research. So, this piece is about the disciplinary and conceptual questions that might be encountered, and -- in my view -- may need addressing for engagements with AI research and its affiliates. Although I'm mostly concerned with things to be aware of as well as outright dangers, later on we can think about some opportunities. And throughout I will keep using 'we' to talk about EM&CA researchers; but this really is for convenience only -- I don't wish to ventriloquise for our complex research communities. All of the following should be read as emanating from my particular research history, standpoint etc., and treated (hopefully) as an invitation for further discussion amongst EM and CA researchers turning to technology and AI specifically.
翻訳日:2022-07-04 01:16:00 公開日:2022-06-27
# (参考訳) 転写報告からのnlp対応健康状態診断による臨床効率の向上と医療ミスの低減

Improving Clinical Efficiency and Reducing Medical Errors through NLP-enabled diagnosis of Health Conditions from Transcription Reports ( http://arxiv.org/abs/2206.13516v1 )

ライセンス: CC BY 4.0
Krish Maniar, Shafin Haque, Kabir Ramzan(参考訳) 誤診率は病院の医療ミスの主な原因の一つで、全米で1200万人以上の成人に影響を与えている。 本研究は,NLPに基づく4つのアルゴリズムを用いて,非構造的転写報告に基づいて適切な健康状態を決定する。 ロジスティック回帰、ランダムフォレスト、LSTM、CNNLSTMモデルから、CNN-LSTMモデルは97.89%の精度で最高の性能を示した。 このモデルをWebプラットフォームにパッケージ化して,臨床医が利用できるようにした。 全体として、医療診断の標準化と転写レポートの構造化により、我々のNLPプラットフォームは世界中の病院の臨床的効率と精度を大幅に改善します。

Misdiagnosis rates are one of the leading causes of medical errors in hospitals, affecting over 12 million adults across the US. To address the high rate of misdiagnosis, this study utilizes 4 NLP-based algorithms to determine the appropriate health condition based on an unstructured transcription report. From the Logistic Regression, Random Forest, LSTM, and CNNLSTM models, the CNN-LSTM model performed the best with an accuracy of 97.89%. We packaged this model into a authenticated web platform for accessible assistance to clinicians. Overall, by standardizing health care diagnosis and structuring transcription reports, our NLP platform drastically improves the clinical efficiency and accuracy of hospitals worldwide.
翻訳日:2022-07-03 00:43:44 公開日:2022-06-27
# (参考訳) トランスファタブル音素埋め込みを用いたFew-Shot Inter-Lingual TTS

Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding ( http://arxiv.org/abs/2206.15427v1 )

ライセンス: CC BY 4.0
Wei-Ping Huang, Po-Chun Chen, Sung-Feng Huang, Hung-yi Lee(参考訳) 本稿では,tts(cross-lingual text-to-speech)問題に対処することを目的とした,トランスファー可能な音素埋め込みフレームワークについて検討する。 転校学習は、単発トレーニングデータのスクラッチからのトレーニングが過剰に合致するので、単発学習に関して一般的なアプローチである。 それでも、ナイーブな転送学習アプローチは、8分未満のデータを提供する極端に少数の設定では、見当たらない言語に適応できないことが分かりました。 我々は,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案することで,この問題に対処する。 さらに,音素レベルの平均教師付き学習特徴を利用して,合成音声の品質を効果的に向上する。 実験により、約30秒のデータである4つの発話を使用することで、我々のフレームワークを使って見えない言語に適応する際には、知的な音声を合成するのに十分であることがわかった。

This paper studies a transferable phoneme embedding framework that aims to deal with the cross-lingual text-to-speech (TTS) problem under the few-shot setting. Transfer learning is a common approach when it comes to few-shot learning since training from scratch on few-shot training data is bound to overfit. Still, we find that the naive transfer learning approach fails to adapt to unseen languages under extremely few-shot settings, where less than 8 minutes of data is provided. We deal with the problem by proposing a framework that consists of a phoneme-based TTS model and a codebook module to project phonemes from different languages into a learned latent space. Furthermore, by utilizing phoneme-level averaged self-supervised learned features, we effectively improve the quality of synthesized speeches. Experiments show that using 4 utterances, which is about 30 seconds of data, is enough to synthesize intelligible speech when adapting to an unseen language using our framework.
翻訳日:2022-07-03 00:36:43 公開日:2022-06-27
# (参考訳) Twitter上でのCOVID-19ワクチン接種態度の多言語データセット

A Multilingual Dataset of COVID-19 Vaccination Attitudes on Twitter ( http://arxiv.org/abs/2206.14619v1 )

ライセンス: CC BY 4.0
Ninghan Chen, Xihui Chen, Jun Pang(参考訳) ワクチンの供給が十分である欧州と米国では、新型コロナウイルスの感染率の低下の主な原因の一つとしてワクチンの忌避性が考えられている。 ワクチン接種に対する公衆の態度の迅速かつ正確な把握は、ワクチンの欠如に対処するために重要であり、ソーシャルメディアプラットフォームは、世論の効果的な情報源であることが証明されている。 本稿では、新型コロナウイルスワクチンに関連するツイートのデータセットの収集と公開について述べる。 このデータセットは、西ヨーロッパから収集された2,198,090のツイートのIDで構成され、そのうち17,934件は原住民の予防接種姿勢に注釈付けされている。 我々のアノテーションは、ソーシャルメディア投稿から予防接種態度を抽出するためのデータ駆動モデルの使用と開発を容易にし、公衆衛生監視におけるソーシャルメディアの力をさらに確認する。 今後の研究の基盤となるために,我々のデータセットの統計的解析と可視化を行うだけでなく,予防接種姿勢抽出における既存のテキストベースのベンチマークの性能を評価し比較する。 我々は、新型コロナウイルス(covid-19)の予防接種態度の時間的変化を追跡するためのデータの利用の可能性を示す。

Vaccine hesitancy is considered as one main cause of the stagnant uptake ratio of COVID-19 vaccines in Europe and the US where vaccines are sufficiently supplied. Fast and accurate grasp of public attitudes toward vaccination is critical to address vaccine hesitancy, and social media platforms have proved to be an effective source of public opinions. In this paper, we describe the collection and release of a dataset of tweets related to COVID-19 vaccines. This dataset consists of the IDs of 2,198,090 tweets collected from Western Europe, 17,934 of which are annotated with the originators' vaccination stances. Our annotation will facilitate using and developing data-driven models to extract vaccination attitudes from social media posts and thus further confirm the power of social media in public health surveillance. To lay the groundwork for future research, we not only perform statistical analysis and visualisation of our dataset, but also evaluate and compare the performance of established text-based benchmarks in vaccination stance extraction. We demonstrate one potential use of our data in practice in tracking the temporal changes of public COVID-19 vaccination attitudes.
翻訳日:2022-07-03 00:18:49 公開日:2022-06-27
# (参考訳) 機械学習を用いたラマン分光法による最小調製細菌の高精度・高速同定

Accurate and fast identification of minimally prepared bacteria phenotypes using Raman spectroscopy assisted by machine learning ( http://arxiv.org/abs/2206.13933v1 )

ライセンス: CC0 1.0
Benjamin Lundquist Thomsen, Jesper B. Christensen, Olga Rodenko, Iskander Usenov, Rasmus Birkholm Gr{\o}nnemose, Thomas Emil Andersen, and Mikael Lassen(参考訳) 世界の抗微生物抵抗性(AMR)の増大は、人間の健康にとって深刻な脅威である。 AMRの普及を避けるために、最適な抗生物質のスチュワードシップを促進する高速で信頼性の高い診断ツールが不必要である。 この点において、ラマン分光法は、迅速かつ無培養な識別と抗微生物感受性試験(AST)を単一のステップで約束する。 しかしながら、多くのラマン系細菌の同定と AST 研究は印象的な結果を示したが、いくつかの欠点に対処する必要がある。 概念実証研究と臨床応用のギャップを埋めるために, 最小限の細菌表現型を高速に同定し, メチシリン耐性(mr)をメチシリン感受性(ms)菌と区別するために, 新たなデータ提示アルゴリズムと組み合わせた機械学習手法を開発した。 そこで我々は,細菌の超スペクトルラマン画像に対するスペクトル変換モデルを実装した。 我々のモデルは、精度とトレーニング時間の両方において、様々な分類問題において、標準的な畳み込みニューラルネットワークモデルよりも優れていることを示す。 6種のmr-ms細菌の分類精度は,15の異なる分類群と95.6$\%$の分類精度からなるデータセットで96$\%$以上の分類精度を得た。 より重要なことに、我々の結果は、高速で容易に生産できるトレーニングとテストデータのみを使用して得られる。

The worldwide increase of antimicrobial resistance (AMR) is a serious threat to human health. To avert the spread of AMR, fast reliable diagnostics tools that facilitate optimal antibiotic stewardship are an unmet need. In this regard, Raman spectroscopy promises rapid label- and culture-free identification and antimicrobial susceptibility testing (AST) in a single step. However, even though many Raman-based bacteria-identification and AST studies have demonstrated impressive results, some shortcomings must be addressed. To bridge the gap between proof-of-concept studies and clinical application, we have developed machine learning techniques in combination with a novel data-augmentation algorithm, for fast identification of minimally prepared bacteria phenotypes and the distinctions of methicillin-resistant (MR) from methicillin-susceptible (MS) bacteria. For this we have implemented a spectral transformer model for hyper-spectral Raman images of bacteria. We show that our model outperforms the standard convolutional neural network models on a multitude of classification problems, both in terms of accuracy and in terms of training time. We attain more than 96$\%$ classification accuracy on a dataset consisting of 15 different classes and 95.6$\%$ classification accuracy for six MR-MS bacteria species. More importantly, our results are obtained using only fast and easy-to-produce training and test data
翻訳日:2022-07-03 00:08:18 公開日:2022-06-27
# (参考訳) エントロピーに基づくモデリング制約のキャラクタリゼーション

Entropy-based Characterization of Modeling Constraints ( http://arxiv.org/abs/2206.14105v1 )

ライセンス: CC BY 4.0
Orestis Loukas, Ho Ryun Chung(参考訳) 多くのデータ科学的なアプローチでは、最大エントロピー(MaxEnt)の原理は、経験、事前知識、計算の単純さに基づいて既に選択されたパラメトリックなモデルを正当化するために用いられる。 従来のモデル構築への垂直な定式化では、現象論的制約の線形系から始まり、与えられた制約の集合を満たすすべての実行可能な分布を漸近的に導出する。 MaxEnt分布は、大きなN技法のよい展開点を表すすべての現象学的に実行可能な分布の中で最も典型的なため、特別な役割を果たす。 これにより、完全にデータ駆動の方法で一貫して仮説テストを定式化できます。 データによって支えられる適切なパラメトリックモデルは、常にモデル選択の最後に導出することができる。 MaxEntフレームワークでは、複数のアプリケーションで使用される主要なスコアと選択手順を復元し、データ生成プロセスにおける関連を捕捉し、最も一般化可能なモデルを特定する能力を評価する。 このデータ駆動型標準モデル選択は、マクセント原理が提唱する帰納論理の統一可能性を示し、逆問題に対する新たな洞察を与える。

In most data-scientific approaches, the principle of Maximum Entropy (MaxEnt) is used to a posteriori justify some parametric model which has been already chosen based on experience, prior knowledge or computational simplicity. In a perpendicular formulation to conventional model building, we start from the linear system of phenomenological constraints and asymptotically derive the distribution over all viable distributions that satisfy the provided set of constraints. The MaxEnt distribution plays a special role, as it is the most typical among all phenomenologically viable distributions representing a good expansion point for large-N techniques. This enables us to consistently formulate hypothesis testing in a fully-data driven manner. The appropriate parametric model which is supported by the data can be always deduced at the end of model selection. In the MaxEnt framework, we recover major scores and selection procedures used in multiple applications and assess their ability to capture associations in the data-generating process and identify the most generalizable model. This data-driven counterpart of standard model selection demonstrates the unifying prospective of the deductive logic advocated by MaxEnt principle, while potentially shedding new insights to the inverse problem.
翻訳日:2022-07-02 23:44:33 公開日:2022-06-27
# (参考訳) ProGen2: タンパク質言語モデルの境界を探る

ProGen2: Exploring the Boundaries of Protein Language Models ( http://arxiv.org/abs/2206.13517v1 )

ライセンス: CC BY 4.0
Erik Nijkamp, Jeffrey Ruffolo, Eli N. Weinstein, Nikhil Naik, Ali Madani(参考訳) タンパク質配列を訓練した注意に基づくモデルは、人工知能によるタンパク質設計に関連する分類と生成のタスクで驚くべき成功を収めている。 しかし、我々は、非常に大規模なモデルとデータが効果的なタンパク質モデル開発にどのように貢献するかを十分に理解していない。 ProGen2と呼ばれる一連のタンパク質言語モデルを導入し、最大6.4Bのパラメータをスケールし、ゲノム、メッサージノミクス、免疫レパートリーデータベースから10億以上のタンパク質から抽出された異なる配列データセットに基づいて訓練する。 progen2モデルは、観察された進化配列の分布を捉え、新しい生存可能な配列を生成し、追加の微調整なしでタンパク質の適合性を予測する。 モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。 ProGen2モデルとコードはhttps://github.com/salesforce/progen.comでリリースしています。

Attention-based models trained on protein sequences have demonstrated incredible success at classification and generation tasks relevant for artificial intelligence-driven protein design. However, we lack a sufficient understanding of how very large-scale models and data play a role in effective protein model development. We introduce a suite of protein language models, named ProGen2, that are scaled up to 6.4B parameters and trained on different sequence datasets drawn from over a billion proteins from genomic, metagenomic, and immune repertoire databases. ProGen2 models show state-of-the-art performance in capturing the distribution of observed evolutionary sequences, generating novel viable sequences, and predicting protein fitness without additional finetuning. As large model sizes and raw numbers of protein sequences continue to become more widely accessible, our results suggest that a growing emphasis needs to be placed on the data distribution provided to a protein sequence model. We release the ProGen2 models and code at https://github.com/salesforce/progen.
翻訳日:2022-07-02 23:26:52 公開日:2022-06-27
# (参考訳) パラメータ効率の良い画像間移動学習

Parameter-Efficient Image-to-Video Transfer Learning ( http://arxiv.org/abs/2206.13559v1 )

ライセンス: CC BY 4.0
Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, Hongsheng Li(参考訳) 様々な下流タスクのための大規模な事前学習モデルの資本化は、最近、有望なパフォーマンスで現れている。 モデルサイズが拡大するにつれ、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略は極めて高価になる。 これはパラメータ効率の伝達学習における新たな研究の方向性につながった。 しかし、既存の試みは、通常、訓練済みモデルの同じモダリティ(例えば画像理解)から下流タスクに焦点を当てる。 これは、ある特定のモダリティ(例えば、ビデオ理解)において、十分な知識を持つ強い事前訓練されたモデルが入手できない、あるいは利用できないため、限界を生み出す。 本研究では, パラメータ効率の高い映像から映像への転送学習という, 新たなクロスモダリティ伝達学習設定について検討する。 この問題を解決するために,ビデオタスク毎にパラメータ効率の良い微調整を行う新しい時空間適応器(ST-Adapter)を提案する。 コンパクトな設計で時空間推論機能を組み込んだST-Adapterは、時間的知識のない事前訓練された画像モデルで、タスク毎のパラメータコストが小さく(〜8%)、以前の作業に比べて20倍の更新パラメータを必要とする。 ビデオ行動認識タスクに関する大規模な実験は、パラメータ効率の利点を享受しながら、我々のST-Adapterが強力なフルチューニング戦略や最先端のビデオモデルに適合し、さらに優れることを示した。

Capitalizing on large pre-trained models for various downstream tasks of interest have recently emerged with promising performance. Due to the ever-growing model size, the standard full fine-tuning based task adaptation strategy becomes prohibitively costly in terms of model training and storage. This has led to a new research direction in parameter-efficient transfer learning. However, existing attempts typically focus on downstream tasks from the same modality (e.g., image understanding) of the pre-trained model. This creates a limit because in some specific modalities, (e.g., video understanding) such a strong pre-trained model with sufficient knowledge is less or not available. In this work, we investigate such a novel cross-modality transfer learning setting, namely parameter-efficient image-to-video transfer learning. To solve this problem, we propose a new Spatio-Temporal Adapter (ST-Adapter) for parameter-efficient fine-tuning per video task. With a built-in spatio-temporal reasoning capability in a compact design, ST-Adapter enables a pre-trained image model without temporal knowledge to reason about dynamic video content at a small (~8%) per-task parameter cost, requiring approximately 20 times fewer updated parameters compared to previous work. Extensive experiments on video action recognition tasks show that our ST-Adapter can match or even outperform the strong full fine-tuning strategy and state-of-the-art video models, whilst enjoying the advantage of parameter efficiency.
翻訳日:2022-07-02 22:54:50 公開日:2022-06-27
# (参考訳) ヨガ姿勢の視点独立分類枠組み

A View Independent Classification Framework for Yoga Postures ( http://arxiv.org/abs/2206.13577v1 )

ライセンス: CC BY 4.0
Mustafa Chasmai, Nirjhar Das, Aman Bhardwaj, Rahul Garg(参考訳) ヨガは世界的に評価され、健康な生活のために広く推奨される実践である。 ヨガサナの実行中に正しい姿勢を維持することが最も重要である。 本研究では,人間のポーズ推定モデルから転置学習を行い,体全体に広がる136個のキーポイントを抽出し,ヨガサナ推定に用いるランダム森林分類器を訓練する。 4つの異なるカメラアングルから51名の被験者を収集したヨガ映像データベースを用いて評価した。 ヨガ分類器の一般化性を評価するための3段階構成法を提案する。 1) 見えないフレーム, 2)未発見の科目,及び 3) カメラアングルが見えない。 ほとんどのアプリケーションでは、見えない被写体と見えないカメラアングルに対する検証の精度が最も重要であると我々は主張する。 我々は3つの公開データセット、転送学習の利点とターゲット漏洩の可能性について実証的に分析した。 さらに, 分類の精度は, 採用するクロス検証手法に致命的に依存し, 誤解を招くこともしばしばある。 さらなる研究を促進するため、キーポイントデータセットとコードを公開しました。

Yoga is a globally acclaimed and widely recommended practice for a healthy living. Maintaining correct posture while performing a Yogasana is of utmost importance. In this work, we employ transfer learning from Human Pose Estimation models for extracting 136 key-points spread all over the body to train a Random Forest classifier which is used for estimation of the Yogasanas. The results are evaluated on an in-house collected extensive yoga video database of 51 subjects recorded from 4 different camera angles. We propose a 3 step scheme for evaluating the generalizability of a Yoga classifier by testing it on 1) unseen frames, 2) unseen subjects, and 3) unseen camera angles. We argue that for most of the applications, validation accuracies on unseen subjects and unseen camera angles would be most important. We empirically analyze over three public datasets, the advantage of transfer learning and the possibilities of target leakage. We further demonstrate that the classification accuracies critically depend on the cross validation method employed and can often be misleading. To promote further research, we have made key-points dataset and code publicly available.
翻訳日:2022-07-02 22:28:26 公開日:2022-06-27
# (参考訳) ニューラルネットワークの特定スペクトルノルム規則化

Exact Spectral Norm Regularization for Neural Networks ( http://arxiv.org/abs/2206.13581v1 )

ライセンス: CC BY 4.0
Anton Johansson, Claes Stranneg{\aa}rd, Niklas Engsner, Petter Mostad(参考訳) 我々は、ディープニューラルネットワークの入出力マッピングにおけるヤコビアンのスペクトルノルムを規則化するための一連の研究を追求する。 従来の研究は上界の手法に依存していたが、正確なスペクトルノルムを目標とするスキームを提供する。 提案手法は,従来のスペクトル正規化手法に比べて一般化性能が向上し,同時に自然雑音や逆雑音に対する強い保護性が維持できることを示した。 さらに、ヤコビアン正則化が提供する強い敵対的保護に関する以前の推論についても検討し、誤解を招く可能性があることを示す。

We pursue a line of research that seeks to regularize the spectral norm of the Jacobian of the input-output mapping for deep neural networks. While previous work rely on upper bounding techniques, we provide a scheme that targets the exact spectral norm. We showcase that our algorithm achieves an improved generalization performance compared to previous spectral regularization techniques while simultaneously maintaining a strong safeguard against natural and adversarial noise. Moreover, we further explore some previous reasoning concerning the strong adversarial protection that Jacobian regularization provides and show that it can be misleading.
翻訳日:2022-07-02 22:13:26 公開日:2022-06-27
# (参考訳) コープマン作用素の近似部分空間不変性に対する辞書関数の不均一混合

Heterogeneous mixtures of dictionary functions to approximate subspace invariance in Koopman operators ( http://arxiv.org/abs/2206.13585v1 )

ライセンス: CC BY 4.0
Charles A. Johnson, Shara Balakrishnan, Enoch Yeung(参考訳) クープマン作用素は非線形関数を状態として作用する線形力学系として非線形力学をモデル化する。 この非標準状態はしばしばkoopman observableと呼ばれ、通常は \textit{dictionary} から引き出された関数の重ね合わせによって近似される。 広く使われているアルゴリズムは「textit{Extended Dynamic Mode Decomposition」であり、辞書関数は固定された同質な関数のクラスから引き出される。 近年,深層学習とEDMDを組み合わせることで,Deep Dynamic Mode decomposition (deepDMD)と呼ばれるアルゴリズムで新しい辞書関数を学習している。 学習された表現は(1)正確なモデルと(2)元の非線形システムの次元とよく合致する。 本稿では,deepdmdから得られた学習辞書を分析し,その強力な性能の理論的基礎を考察する。 クープマン可観測関数を近似する新しい辞書関数のクラスを発見する。 これらの辞書関数の誤り解析は、部分空間近似の性質を満たすことを示し、これは一様有限近似閉包として定義する。 非線形関数の異なるクラスから引き出された異種辞書関数の構造的混合はディープDMDと同じ精度と次元的スケーリングを実現する。 この混合辞書は、幾何学的解釈可能性を維持しながら、パラメータの桁違いの減少を伴う。 この結果は,クープマン演算子に対する数値近似学習におけるディープニューラルネットワークの成功を説明する仮説を提供する。

Koopman operators model nonlinear dynamics as a linear dynamic system acting on a nonlinear function as the state. This nonstandard state is often called a Koopman observable and is usually approximated numerically by a superposition of functions drawn from a \textit{dictionary}. A widely used algorithm, is \textit{Extended Dynamic Mode Decomposition}, where the dictionary functions are drawn from a fixed, homogeneous class of functions. Recently, deep learning combined with EDMD has been used to learn novel dictionary functions in an algorithm called deep dynamic mode decomposition (deepDMD). The learned representation both (1) accurately models and (2) scales well with the dimension of the original nonlinear system. In this paper we analyze the learned dictionaries from deepDMD and explore the theoretical basis for their strong performance. We discover a novel class of dictionary functions to approximate Koopman observables. Error analysis of these dictionary functions show they satisfy a property of subspace approximation, which we define as uniform finite approximate closure. We discover that structured mixing of heterogeneous dictionary functions drawn from different classes of nonlinear functions achieve the same accuracy and dimensional scaling as deepDMD. This mixed dictionary does so with an order of magnitude reduction in parameters, while maintaining geometric interpretability. Our results provide a hypothesis to explain the success of deep neural networks in learning numerical approximations to Koopman operators.
翻訳日:2022-07-02 21:49:49 公開日:2022-06-27
# (参考訳) マルチデバイス音声処理における課題と機会

Challenges and Opportunities in Multi-device Speech Processing ( http://arxiv.org/abs/2206.15432v1 )

ライセンス: CC BY 4.0
Gregory Ciccarelli, Jarred Barber, Arun Nair, Israel Cohen, Tao Zhang(参考訳) 本稿では,マルチデバイスホーム環境における自動音声認識,キーワードスポッティング,デバイス調停,音声強調,ソースローカライズに関する現状と課題について検討し,interspeech 2022特別セッション "challenges and opportunities for signal processing and machine learning for multiple smart devices" のコンテキストを提供する。 また、これらの研究分野をサポートするために必要なデータセットも特定します。 マルチデバイス領域におけるレビューと研究経験に基づいて、今後の発展を展望する。

We review current solutions and technical challenges for automatic speech recognition, keyword spotting, device arbitration, speech enhancement, and source localization in multidevice home environments to provide context for the INTERSPEECH 2022 special session, "Challenges and opportunities for signal processing and machine learning for multiple smart devices". We also identify the datasets needed to support these research areas. Based on the review and our research experience in the multi-device domain, we conclude with an outlook on the future evolution
翻訳日:2022-07-02 21:23:25 公開日:2022-06-27
# (参考訳) Fowler-Nordheim量子チューニングを用いたオンデバイスシンプティックメモリ統合

On-device Synaptic Memory Consolidation using Fowler-Nordheim Quantum-tunneling ( http://arxiv.org/abs/2206.14581v1 )

ライセンス: CC BY 4.0
Mustafizur Rahman, Subhankar Bose and Shantanu Chakrabartty(参考訳) シナプス記憶の統合は、ニューロモルフィック人工知能(AI)システムにおける連続学習を支える重要なメカニズムの1つとして認識されている。 本稿では,Fowler-Nordheim(FN)量子トンネル装置が,カスケードや弾性重み付け(EWC)モデルのようなアルゴリズム的整合モデルで実現可能なようなシナプスメモリ整合性を実現することができることを報告する。 提案するfn-synapseはシナプスの重量を蓄積するだけでなく、シナプスの歴史的な使用統計をデバイス自体に保存する。 また,fn-synapseの動作はシナプス寿命の観点でほぼ最適であることを示し,fn-synapsesを構成するネットワークが,小さなベンチマーク連続学習タスクにおいて同等のewcネットワークを上回ることを実証する。 シナプス更新毎のフェムトジュールのエネルギーフットプリントにより,提案するfn-シナプスはシナプスメモリ統合と永続学習の両方を実装するための超エネルギー効率の高いアプローチを提供すると信じている。

Synaptic memory consolidation has been heralded as one of the key mechanisms for supporting continual learning in neuromorphic Artificial Intelligence (AI) systems. Here we report that a Fowler-Nordheim (FN) quantum-tunneling device can implement synaptic memory consolidation similar to what can be achieved by algorithmic consolidation models like the cascade and the elastic weight consolidation (EWC) models. The proposed FN-synapse not only stores the synaptic weight but also stores the synapse's historical usage statistic on the device itself. We also show that the operation of the FN-synapse is near-optimal in terms of the synaptic lifetime and we demonstrate that a network comprising FN-synapses outperforms a comparable EWC network for a small benchmark continual learning task. With an energy footprint of femtojoules per synaptic update, we believe that the proposed FN-synapse provides an ultra-energy-efficient approach for implementing both synaptic memory consolidation and persistent learning.
翻訳日:2022-07-02 21:09:56 公開日:2022-06-27
# (参考訳) テキストによるペンキの(イン)一貫性

Perspective (In)consistency of Paint by Text ( http://arxiv.org/abs/2206.14617v1 )

ライセンス: CC BY 4.0
Hany Farid(参考訳) a sea otter with a pearl earring by johannes vermeer"または"a photo of a teddy bear on a skateboard in times square"をopenaiのdall-e-2ペイント・バイ・テキスト合成エンジンにタイプする。 非常にリアルなイメージを合成する能力 -- 想像力以外に制限がないように見える – は、多くのエキサイティングで創造的な応用をもたらすだろう。 これらの画像は、フォトフォレンシックなコミュニティに新たな課題をもたらす可能性も高い。 テキストによるペンキは明示的な幾何学的モデリングに基づいていないことや、人間の視覚系がしばしばグラマーな幾何学的不一致をしばしば無視していることに動機づけられ、dall-e-2合成画像の視点の一貫性を初期的に探究し、この新しい種類の合成メディアの検出に幾何学的ベースの分析が実りあるかどうかを判断する。

Type "a sea otter with a pearl earring by Johannes Vermeer" or "a photo of a teddy bear on a skateboard in Times Square" into OpenAI's DALL-E-2 paint-by-text synthesis engine and you will not be disappointed by the delightful and eerily pertinent results. The ability to synthesize highly realistic images -- with seemingly no limitation other than our imagination -- is sure to yield many exciting and creative applications. These images are also likely to pose new challenges to the photo-forensic community. Motivated by the fact that paint by text is not based on explicit geometric modeling, and the human visual system's often obliviousness to even glaring geometric inconsistencies, we provide an initial exploration of the perspective consistency of DALL-E-2 synthesized images to determine if geometric-based forensic analyses will prove fruitful in detecting this new breed of synthetic media.
翻訳日:2022-07-02 21:08:21 公開日:2022-06-27
# (参考訳) テスト時間拡張によるテキスト分類の改善

Improved Text Classification via Test-Time Augmentation ( http://arxiv.org/abs/2206.13607v1 )

ライセンス: CC BY 4.0
Helen Lu, Divya Shanmugam, Harini Suresh, John Guttag(参考訳) テスト時間拡張 -- 変換されたテスト入力の例にまたがる予測の集約 - は、画像分類モデルの性能を改善するための確立された技術である。 重要な点として、TTAは追加のトレーニングなしでモデルパフォーマンスを改善するために使用することができる。 TTA(Test-time augmentation)は任意のデータモダリティに適用できるが、ラベル保存変換の特定が困難であることから、NLPでは限定的に採用されている。 本稿では,言語モデルにおいて大幅に精度が向上する拡張ポリシーを提案する。 重要な発見は、拡張ポリシー設計 -- 例えば、単一の非決定論的拡張から生成されたサンプルの数 -- が、TTAの利益に大きな影響を与えることである。 バイナリ分類タスクとデータセットによる実験は、テスト時間拡張が現在の最先端アプローチよりも一貫した改善をもたらすことを示している。

Test-time augmentation -- the aggregation of predictions across transformed examples of test inputs -- is an established technique to improve the performance of image classification models. Importantly, TTA can be used to improve model performance post-hoc, without additional training. Although test-time augmentation (TTA) can be applied to any data modality, it has seen limited adoption in NLP due in part to the difficulty of identifying label-preserving transformations. In this paper, we present augmentation policies that yield significant accuracy improvements with language models. A key finding is that augmentation policy design -- for instance, the number of samples generated from a single, non-deterministic augmentation -- has a considerable impact on the benefit of TTA. Experiments across a binary classification task and dataset show that test-time augmentation can deliver consistent improvements over current state-of-the-art approaches.
翻訳日:2022-07-02 20:59:28 公開日:2022-06-27
# (参考訳) 肺結節診断のための自己説明モデルにおけるアノテーションニーズの低減

Reducing Annotation Need in Self-Explanatory Models for Lung Nodule Diagnosis ( http://arxiv.org/abs/2206.13608v1 )

ライセンス: CC BY-SA 4.0
Jiahao Lu, Chong Yin, Oswin Krause, Kenny Erleben, Michael Bachmann Nielsen, Sune Darkner(参考訳) 特徴に基づく自己説明法は、人間の理解可能な特徴の観点から分類を説明する。 医用画像のコミュニティでは、この臨床的知識のセマンティックマッチングがAIの信頼性を著しく向上させる。 しかし、機能追加のアノテーションのコストは依然として差し迫った問題である。 肺結節診断のためのデータ/アノテーション効率の自己説明的アプローチであるcRedAnnoを提案することでこの問題に対処する。 cRedAnnoは、アノテーションからほとんどのパラメータを学習する負担を軽減し、エンドツーエンドのトレーニングを2段階のトレーニングに置き換えることで、アノテーションの必要性を大幅に減らす。 何百ものノジュールサンプルとアノテーションのわずか1%でトレーニングを行うと、クレダンノは悪性度の予測において競争力のある正確さを達成し、一方、ノジュール属性の予測において以前のほとんどの作業を大幅に上回っている。 学習空間の可視化は悪性腫瘍のクラスタリングと結節属性の相関が臨床知識と一致していることを示している。 私たちの完全なコードは、オープンソースで利用可能です。

Feature-based self-explanatory methods explain their classification in terms of human-understandable features. In the medical imaging community, this semantic matching of clinical knowledge adds significantly to the trustworthiness of the AI. However, the cost of additional annotation of features remains a pressing issue. We address this problem by proposing cRedAnno, a data-/annotation-efficient self-explanatory approach for lung nodule diagnosis. cRedAnno considerably reduces the annotation need by introducing self-supervised contrastive learning to alleviate the burden of learning most parameters from annotation, replacing end-to-end training with two-stage training. When training with hundreds of nodule samples and only 1% of their annotations, cRedAnno achieves competitive accuracy in predicting malignancy, meanwhile significantly surpassing most previous works in predicting nodule attributes. Visualisation of the learned space further indicates that the correlation between the clustering of malignancy and nodule attributes coincides with clinical knowledge. Our complete code is open-source available: https://github.com/ludles/credanno.
翻訳日:2022-07-02 20:49:44 公開日:2022-06-27
# (参考訳) 中相互作用ハニーポットを用いたネットワークアタッカーの測定とクラスタリング

Measuring and Clustering Network Attackers using Medium-Interaction Honeypots ( http://arxiv.org/abs/2206.13614v1 )

ライセンス: CC BY-SA 4.0
Zain Shamsi, Daniel Zhang, Daehyun Kyoung, Alex Liu(参考訳) ネットワークハニーポットは情報セキュリティチームによって、ネットワークを保護するために脅威の風景を測定するためにしばしば使用される。 ハニーポットの開発の進展により、今日の中規模のハニーポットは、セキュリティチームや研究者が様々なプロトコルのメンテナンスをほとんど必要としないアクティブな防御ツールを配備する方法を提供する。 本研究では,ハチミツバチをインターネット上の5つの異なるプロトコル上に配置し,我々が観察する攻撃の意図と洗練について検討する。 次に得られた情報を用いて,攻撃行動の相関関係を識別し,単一のオペレータが制御する可能性の高いipを検出するクラスタリング手法を開発し,これらのハニーポットをデータ収集に用いるメリットを明らかにした。

Network honeypots are often used by information security teams to measure the threat landscape in order to secure their networks. With the advancement of honeypot development, today's medium-interaction honeypots provide a way for security teams and researchers to deploy these active defense tools that require little maintenance on a variety of protocols. In this work, we deploy such honeypots on five different protocols on the public Internet and study the intent and sophistication of the attacks we observe. We then use the information gained to develop a clustering approach that identifies correlations in attacker behavior to discover IPs that are highly likely to be controlled by a single operator, illustrating the advantage of using these honeypots for data collection.
翻訳日:2022-07-02 20:34:19 公開日:2022-06-27
# (参考訳) DeepPerF: ソフトウェアパフォーマンスを改善するためのディープラーニングベースのアプローチ

DeepPERF: A Deep Learning-Based Approach For Improving Software Performance ( http://arxiv.org/abs/2206.13619v1 )

ライセンス: CC BY 4.0
Spandan Garg, Roshanak Zilouchian Moghaddam, Colin B. Clement, Neel Sundaresan, Chen Wu(参考訳) ソフトウェア開発サイクルにおいて、ソフトウェアのパフォーマンス向上は重要だが困難な部分である。 今日、パフォーマンスの非効率性の大部分は、パフォーマンス専門家によって特定され、パッチされている。 ディープラーニングアプローチの最近の進歩と、オープンソースデータの広範な可用性は、パフォーマンス問題の識別とパッチングを自動化する大きな機会を生み出します。 本稿では,C#アプリケーションのパフォーマンス改善を提案するトランスフォーマーベースのアプローチであるDeepPERFを提案する。 我々は、英語とソースコードコーパスでDeepPERFを事前訓練し、その後C#アプリケーションのパフォーマンス改善パッチを生成するタスクを微調整した。 私たちの評価では、c#開発者が行ったパフォーマンス変更のエキスパート検証データセットで、私たちのモデルが開発者が修正したケースの約53%と同じパフォーマンス改善提案を生成できることが示されています。 さらに、github上の50のオープンソースc#リポジトリにおいて、ベンチマークとユニットテストの両方を使用してdeepperfを評価し、このモデルがcpu使用量とメモリ割り当ての両方を改善する有効なパフォーマンス改善を提案できることを見出した。 これまでのところ、28の異なるパフォーマンス最適化を備えた19のプルリクエストを提出しており、11のprがプロジェクトオーナによって承認されています。

Improving software performance is an important yet challenging part of the software development cycle. Today, the majority of performance inefficiencies are identified and patched by performance experts. Recent advancements in deep learning approaches and the wide-spread availability of open source data creates a great opportunity to automate the identification and patching of performance problems. In this paper, we present DeepPERF, a transformer-based approach to suggest performance improvements for C# applications. We pretrain DeepPERF on English and Source code corpora and followed by finetuning for the task of generating performance improvement patches for C# applications. Our evaluation shows that our model can generate the same performance improvement suggestion as the developer fix in ~53% of the cases, getting ~34% of them verbatim in our expert-verified dataset of performance changes made by C# developers. Additionally, we evaluate DeepPERF on 50 open source C# repositories on GitHub using both benchmark and unit tests and find that our model is able to suggest valid performance improvements that can improve both CPU usage and Memory allocations. So far we've submitted 19 pull-requests with 28 different performance optimizations and 11 of these PRs have been approved by the project owners.
翻訳日:2022-07-02 19:50:29 公開日:2022-06-27
# (参考訳) 学習制御可能な3次元レベル発電機

Learning Controllable 3D Level Generators ( http://arxiv.org/abs/2206.13623v1 )

ライセンス: CC BY 4.0
Zehua Jiang, Sam Earle, Michael C. Green, Julian Togelius(参考訳) 強化学習(pcgrl)による手続き的コンテンツ生成は、大規模な人間によるデータセットの必要性を予見し、エージェントがターゲットの出力ではなく、計算可能でユーザが定義した品質尺度を使用して、機能的な制約を明示的にトレーニングできるようにする。 コンテンツ生成タスクが自然に現実世界のアプリケーションと密接な関係を持つ3dドメインへのpcgrlの適用について検討する。 本稿では3DドメインであるMinecraft(Mojang Studios, 2009)のPCGRLタスクについて紹介する。 これらのタスクは、ジャンプ、多次元運動、重力といった3D環境でよく見られる余裕を使って、RLベースのジェネレータに挑戦する。 エージェントにこれらのタスクを最適化させ、PCGRLにおける以前の研究の能力を探求する。 このエージェントは比較的複雑で多様なレベルを生成し、ランダムな初期状態と制御ターゲットに一般化することができる。 提案したタスクにおける制御性テストは、3Dジェネレータの成功と失敗を分析するために有用であることを示す。

Procedural Content Generation via Reinforcement Learning (PCGRL) foregoes the need for large human-authored data-sets and allows agents to train explicitly on functional constraints, using computable, user-defined measures of quality instead of target output. We explore the application of PCGRL to 3D domains, in which content-generation tasks naturally have greater complexity and potential pertinence to real-world applications. Here, we introduce several PCGRL tasks for the 3D domain, Minecraft (Mojang Studios, 2009). These tasks will challenge RL-based generators using affordances often found in 3D environments, such as jumping, multiple dimensional movement, and gravity. We train an agent to optimize each of these tasks to explore the capabilities of previous research in PCGRL. This agent is able to generate relatively complex and diverse levels, and generalize to random initial states and control targets. Controllability tests in the presented tasks demonstrate their utility to analyze success and failure for 3D generators.
翻訳日:2022-07-02 19:32:13 公開日:2022-06-27
# (参考訳) メラノーマ分類のためのパッチ選択

Patch Selection for Melanoma Classification ( http://arxiv.org/abs/2206.13626v1 )

ライセンス: CC BY 4.0
Guillaume Lachaud, Patricia Conde-Cespedes, Maria Trocan(参考訳) 医用画像処理において、最も重要な情報は画像の小さな部分に置かれることが多い。 パッチベースのアプローチは、イメージの最も関連する部分のみを使用することを目標としている。 パッチを自動的に選択する方法を見つけることは難しい。 本稿では,パッチ選択のための2つの基準,エントロピーとスペクトル類似性基準について検討する。 我々は異なるレベルのパッチサイズで実験を行う。 パッチのサブセット上で畳み込みニューラルネットワークをトレーニングし、トレーニング時間を解析する。 その結果,前処理時間が少ないことに加えて,エントロピーに基づいて選択されたパッチのデータセットに基づいて訓練された分類器は,スペクトル類似度基準に基づいて選択されたデータセットよりも収束が速く,さらに精度も高いことがわかった。 さらに、高いエントロピーのパッチは、低いエントロピーのパッチよりも高速な収束と精度をもたらす。

In medical image processing, the most important information is often located on small parts of the image. Patch-based approaches aim at using only the most relevant parts of the image. Finding ways to automatically select the patches is a challenge. In this paper, we investigate two criteria to choose patches: entropy and a spectral similarity criterion. We perform experiments at different levels of patch size. We train a Convolutional Neural Network on the subsets of patches and analyze the training time. We find that, in addition to requiring less preprocessing time, the classifiers trained on the datasets of patches selected based on entropy converge faster than on those selected based on the spectral similarity criterion and, furthermore, lead to higher accuracy. Moreover, patches of high entropy lead to faster convergence and better accuracy than patches of low entropy.
翻訳日:2022-07-02 19:18:20 公開日:2022-06-27
# (参考訳) ポイントクラウドセマンティクスセグメンテーションのための注意深いマルチレゾリューション融合を用いたマルチスケールネットワーク

Multi-scale Network with Attentional Multi-resolution Fusion for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2206.13628v1 )

ライセンス: CC BY 4.0
Yuyan Li, Ye Duan(参考訳) 本稿では,ローカルとグローバルの両方のマルチスケール情報を集約する包括的ポイントクラウドセマンティクスセグメンテーションネットワークを提案する。 まず,点の局所的な形状を効果的に学習するアングル相関点変換 (ACPConv) モジュールを提案する。 次に, ACPConvに基づいて, 局所的マルチスケールスプリット(MSS)ブロックを導入し, 単一ブロック内の特徴を階層的に結合し, 局所的コンテキストを活用できる受容領域を徐々に拡大する。 第3に、2Dイメージビジョンタスクのパフォーマンスに優れたHRNetにインスパイアされた私たちは、ポイントクラウド用にカスタマイズされたHRNetを構築し、グローバルなマルチスケールコンテキストを学習します。 最後に,マルチレゾリューション予測を融合し,ポイントクラウドのセマンティクスセグメンテーション性能をさらに向上させるポイントワイズアテンション融合手法を提案する。 実験結果といくつかのベンチマークデータセットの短縮により,提案手法は既存手法と比較して有効であり,最先端性能を達成可能であることが示された。

In this paper, we present a comprehensive point cloud semantic segmentation network that aggregates both local and global multi-scale information. First, we propose an Angle Correlation Point Convolution (ACPConv) module to effectively learn the local shapes of points. Second, based upon ACPConv, we introduce a local multi-scale split (MSS) block that hierarchically connects features within one single block and gradually enlarges the receptive field which is beneficial for exploiting the local context. Third, inspired by HRNet which has excellent performance on 2D image vision tasks, we build an HRNet customized for point cloud to learn global multi-scale context. Lastly, we introduce a point-wise attention fusion approach that fuses multi-resolution predictions and further improves point cloud semantic segmentation performance. Our experimental results and ablations on several benchmark datasets show that our proposed method is effective and able to achieve state-of-the-art performances compared to existing methods.
翻訳日:2022-07-02 19:06:07 公開日:2022-06-27
# (参考訳) グローバル最適化ベンチマークのためのImageNetライブラリを目指して

Toward an ImageNet Library of Functions for Global Optimization Benchmarking ( http://arxiv.org/abs/2206.13630v1 )

ライセンス: CC BY 4.0
Boris Yazmir and Ofer M. Shir(参考訳) BlackBox Optimization (BBO) 問題の検索ランドスケープ機能に関する知識は、アルゴリズムの選択や設定の問題に照らして貴重な情報を提供する。 探索的ランドスケープ分析(ela)モデルは、事前定義された人間由来の特徴を特定し、これらの課題に対処するポートフォリオセレクタの促進に成功しています。 elaのアプローチとは異なり、この研究は識別問題を画像認識問題に変換し、概念のないマシン駆動のランドスケープ特徴を検出する可能性を示唆している。 この目的のために,ランドスケープイメージの概念を導入し,ベンチマーク関数毎に画像インスタンスを生成し,関数の多様な汎用データセット上での分類課題を対象とする。 教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。 提案手法の有効性をノイズフリーなBBOBとIOH prominentrベンチマークスイートで検証した。 この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。 ランドスケープ画像の定義を利用し,画像認識アルゴリズムの既存の機能を活用することにより,マシン駆動機能に依存する汎用検出器を訓練するためのイメージネットライクな関数ライブラリの構築を予見する。

Knowledge of search-landscape features of BlackBox Optimization (BBO) problems offers valuable information in light of the Algorithm Selection and/or Configuration problems. Exploratory Landscape Analysis (ELA) models have gained success in identifying predefined human-derived features and in facilitating portfolio selectors to address those challenges. Unlike ELA approaches, the current study proposes to transform the identification problem into an image recognition problem, with a potential to detect conception-free, machine-driven landscape features. To this end, we introduce the notion of Landscape Images, which enables us to generate imagery instances per a benchmark function, and then target the classification challenge over a diverse generalized dataset of functions. We address it as a supervised multi-class image recognition problem and apply basic artificial neural network models to solve it. The efficacy of our approach is numerically validated on the noise free BBOB and IOHprofiler benchmarking suites. This evident successful learning is another step toward automated feature extraction and local structure deduction of BBO problems. By using this definition of landscape images, and by capitalizing on existing capabilities of image recognition algorithms, we foresee the construction of an ImageNet-like library of functions for training generalized detectors that rely on machine-driven features.
翻訳日:2022-07-02 18:51:55 公開日:2022-06-27
# (参考訳) セマンティクスの学習-人間によるロコモーションスキルの認識

Learning Semantics-Aware Locomotion Skills from Human Demonstration ( http://arxiv.org/abs/2206.13631v1 )

ライセンス: CC BY 4.0
Yuxiang Yang, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots(参考訳) 地形の種類や特性などの環境の意味論は、脚のあるロボットが行動を調整する上で重要な情報を明らかにする。 本研究では,四足歩行ロボットの知覚からセマンティクスを意識した歩行スキルを学習するフレームワークを提案する。 高忠実な屋外シミュレーションが欠如しているため、我々のフレームワークは現実世界で直接訓練する必要がある。 サンプル効率を確保するため、オフロード駆動データセットを用いて知覚モデルを事前学習する。 実世界の政策探索のリスクを回避するため、人間の実証を利用してカメラ画像から所望の前進速度を選択する速度ポリシーを訓練する。 最大走行性のために,各前進速度に対してロバストな移動歩行を選択する歩行セレクタと,速度ポリシをペアリングする。 人間の実演データのたった40分で、認識された地形のセマンティクスに基づいてロボットの速度と歩行を調節し、ロボットが最適に近い速度で失敗することなく6km以上歩けるようにする。

The semantics of the environment, such as the terrain type and property, reveals important information for legged robots to adjust their behaviors. In this work, we present a framework that learns semantics-aware locomotion skills from perception for quadrupedal robots, such that the robot can traverse through complex offroad terrains with appropriate speeds and gaits using perception information. Due to the lack of high-fidelity outdoor simulation, our framework needs to be trained directly in the real world, which brings unique challenges in data efficiency and safety. To ensure sample efficiency, we pre-train the perception model with an off-road driving dataset. To avoid the risks of real-world policy exploration, we leverage human demonstration to train a speed policy that selects a desired forward speed from camera image. For maximum traversability, we pair the speed policy with a gait selector, which selects a robust locomotion gait for each forward speed. Using only 40 minutes of human demonstration data, our framework learns to adjust the speed and gait of the robot based on perceived terrain semantics, and enables the robot to walk over 6km without failure at close-to-optimal speed.
翻訳日:2022-07-02 18:32:10 公開日:2022-06-27
# (参考訳) 逐次意思決定のための効用理論

Utility Theory for Sequential Decision Making ( http://arxiv.org/abs/2206.13637v1 )

ライセンス: CC BY 4.0
Mehran Shakerinava, Siamak Ravanbakhsh(参考訳) von Neumann-Morgenstern (VNM) の効用定理は、ある有理性の公理の下では、決定はいくつかの効用関数の期待を最大化するために縮小されることを示している。 これらの公理をより構造化された逐次意思決定設定に拡張し,対応するユーティリティ関数の構造を同定する。 特に,メモリレスな選好は,トランジッション当たりの報酬という形でユーティリティにつながり,将来のリターンに乗算的要因をもたらすことを示す。 この結果は、エージェントの戻り値にこの構造を持つマルコフ決定過程(MDPs)の一般化を動機付け、Affine-Reward MDPsと呼ぶ。 MDPのスカラー報酬の累積和を回復するためには、選好に対する強い制約が必要である。 より強い制約は、潜在的関数と呼ばれる状態のある種の関数の違いの形でゴール探索エージェントのユーティリティ関数を単純化する。 我々は,vnmの合理性公理に公理を加えることで,強化学習における合理的エージェントの設計の基盤となる報酬仮説を解明し,逐次意思決定を含むai研究の新たな方向性を示唆する。

The von Neumann-Morgenstern (VNM) utility theorem shows that under certain axioms of rationality, decision-making is reduced to maximizing the expectation of some utility function. We extend these axioms to increasingly structured sequential decision making settings and identify the structure of the corresponding utility functions. In particular, we show that memoryless preferences lead to a utility in the form of a per transition reward and multiplicative factor on the future return. This result motivates a generalization of Markov Decision Processes (MDPs) with this structure on the agent's returns, which we call Affine-Reward MDPs. A stronger constraint on preferences is needed to recover the commonly used cumulative sum of scalar rewards in MDPs. A yet stronger constraint simplifies the utility function for goal-seeking agents in the form of a difference in some function of states that we call potential functions. Our necessary and sufficient conditions demystify the reward hypothesis that underlies the design of rational agents in reinforcement learning by adding an axiom to the VNM rationality axioms and motivates new directions for AI research involving sequential decision making.
翻訳日:2022-07-02 18:16:34 公開日:2022-06-27
# (参考訳) 高精細化による高精細化

Feature Refinement to Improve High Resolution Image Inpainting ( http://arxiv.org/abs/2206.13644v1 )

ライセンス: CC BY 4.0
Prakhar Kulshreshtha, Brian Pugh and Salma Jiddi(参考訳) 本稿では,高分解能で動作するニューラルネットワークの塗装品質の劣化問題に対処する。 塗装ネットワークは、トレーニングセットよりも高い解像度でグローバルコヒーレントな構造を生成できないことが多い。 これは画像解像度が増大しているにもかかわらず、受容野が静止しているためである。 塗装前の画像の縮小はコヒーレントな構造を生み出すが、高解像度で現れる詳細は本質的に欠落している。 両世界を最大限に活用するために、推論におけるマルチスケールの一貫性損失を最小限に抑えて、ネットワークの中間機能マップを最適化する。 このランタイム最適化は、塗装結果を改善し、高解像度塗装のための新しい最先端技術を確立する。 コードは、https://github.com/geomagical/lama-with-refiner/tree/refinementで入手できる。

In this paper, we address the problem of degradation in inpainting quality of neural networks operating at high resolutions. Inpainting networks are often unable to generate globally coherent structures at resolutions higher than their training set. This is partially attributed to the receptive field remaining static, despite an increase in image resolution. Although downscaling the image prior to inpainting produces coherent structure, it inherently lacks detail present at higher resolutions. To get the best of both worlds, we optimize the intermediate featuremaps of a network by minimizing a multiscale consistency loss at inference. This runtime optimization improves the inpainting results and establishes a new state-of-the-art for high resolution inpainting. Code is available at: https://github.com/geomagical/lama-with-refiner/tree/refinement.
翻訳日:2022-07-02 17:53:30 公開日:2022-06-27
# (参考訳) Wav2Vec-Aug: 限られたデータによる自己教師型トレーニングの改善

Wav2Vec-Aug: Improved self-supervised training with limited data ( http://arxiv.org/abs/2206.13654v1 )

ライセンス: CC BY 4.0
Anuroop Sriram, Michael Auli, Alexei Baevski(参考訳) 音声表現の自己教師あり学習(ssl)はここ数年で大きな注目を集めているが、ほとんどの研究はラベルなしのデータが豊富にある言語やドメインに焦点を当てている。 しかし、多くの言語ではSSLの有効性を制限するラベルのないデータでさえ不足している。 本稿では,wav2vec 2.0 事前学習のためのデータ拡張を活用することで,データ制限のある領域にsslを適用する問題に注目する。 さらに,librispeech test-clean / otherのwav2vec 2.0と比較して,単語誤り率 (wer) を最大13%向上させるモデルの各コンポーネントの改良を提案する。

Self-supervised learning (SSL) of speech representations has received much attention over the last few years but most work has focused on languages and domains with an abundance of unlabeled data. However, for many languages there is a shortage even in the unlabeled data which limits the effectiveness of SSL. In this work, we focus on the problem of applying SSL to domains with limited available data by leveraging data augmentation for Wav2Vec 2.0 pretraining. Further, we propose improvements to each component of the model which result in a combined relative word error rate (WER) improvement of up to 13% compared to Wav2Vec 2.0 on Librispeech test-clean / other.
翻訳日:2022-07-02 17:46:57 公開日:2022-06-27
# (参考訳) 異なるクラウドプロバイダ上でKubeflowを使用したMLモデルのデプロイ

Deployment of ML Models using Kubeflow on Different Cloud Providers ( http://arxiv.org/abs/2206.13655v1 )

ライセンス: CC BY 4.0
Aditya Pandey, Maitreya Sonawane, Sumit Mamtani(参考訳) このプロジェクトの目的は、Kubeflow [1] – エンドツーエンドのML Stackオーケストレーションツールキットというオープンソースのツールを使用して、マシンラーニングモデルをKubernetes上にデプロイするプロセスを検討することだ。 Kubeflow上でパイプライン形式でエンドツーエンドの機械学習モデルを作成し、セットアップの容易さ、デプロイメントモデル、パフォーマンス、制限、ツールの機能など、さまざまなポイントを分析します。 私たちは、Kubeflowに関する知識のないバニラクラウド/KubernetesユーザがKubeflowを使ってMLモデルをデプロイするのに役立つセミナー/イントロダクティブレポートのように振る舞うことを願っています。 さまざまなクラウドのセットアップから、インターネット上でトレーニングされたモデルを提供するまで、Kubeflowのパフォーマンスの詳細とメトリクスを提供します。

This project aims to explore the process of deploying Machine learning models on Kubernetes using an open-source tool called Kubeflow [1] - an end-to-end ML Stack orchestration toolkit. We create end-to-end Machine Learning models on Kubeflow in the form of pipelines and analyze various points including the ease of setup, deployment models, performance, limitations and features of the tool. We hope that our project acts almost like a seminar/introductory report that can help vanilla cloud/Kubernetes users with zero knowledge on Kubeflow use Kubeflow to deploy ML models. From setup on different clouds to serving our trained model over the internet - we give details and metrics detailing the performance of Kubeflow.
翻訳日:2022-07-02 17:37:58 公開日:2022-06-27
# (参考訳) 知識グラフにおけるジオイベントの因果関係のモデル化のための測位法

Geo-Situation for Modeling Causality of Geo-Events in Knowledge Graphs ( http://arxiv.org/abs/2206.13658v1 )

ライセンス: CC BY 4.0
Shirly Stephen, Wenwen Li, Torsten Hahmann(参考訳) 本稿では,地理的事象間の因果関係を表現・推論する枠組みを提案する。 この概念は条件の集合を表す観察スナップショットと関連しており、ジオイベントの設定として機能するか、ジオイベントの開始に影響を与える。 地理的事象が発生した理由に関する重要な質問に答える上で,地理的実体を表す知識グラフ内でこのフレームワークを使用することを想定している。

This paper proposes a framework for representing and reasoning causality between geographic events by introducing the notion of Geo-Situation. This concept links to observational snapshots that represent sets of conditions, and either acts as the setting of a geo-event or influences the initiation of a geo-event. We envision the use of this framework within knowledge graphs that represent geographic entities will help answer the important question of why a geographic event occurred.
翻訳日:2022-07-02 17:25:48 公開日:2022-06-27
# 機械学習モデルのVVUQにおける深部ニューラルネットワーク予測の不確かさの定量化

Quantification of Deep Neural Network Prediction Uncertainties for VVUQ of Machine Learning Models ( http://arxiv.org/abs/2206.14615v1 )

ライセンス: Link先を確認
Mahmoud Yaseen, Xu Wu(参考訳) 近年の人工知能(AI)と機械学習(ML)のパフォーマンスのブレークスルー、特にディープラーニング(DL)の進歩、パワフルで使いやすいMLライブラリ(例えば、スキキット・ラーン、TensorFlow、PyTorch)の可用性、計算能力の増大は、原子力技術者の間でAI/MLへの前例のない関心につながっている。 物理学に基づく計算モデルでは、検証、検証、不確実性定量化(VVUQ)が広く研究され、多くの方法論が開発されている。 しかし、特に核工学において、MLモデルのVVUQは比較的研究されていない。 本稿では,ML VVUQの予備ステップとしてMLモデルのUQに着目し,より具体的には,回帰処理と分類処理の両方に最も広く使用されているMLアルゴリズムであるディープニューラルネットワーク(DNN)について述べる。 本研究の目的は、高価な物理モデルの代理モデルとして使用される場合、DNNの予測や近似の不確かさの定量化である。 DNNの3つのUQ技術、すなわちMonte Carlo Dropout(MCD)、Deep Ensembles(DE)、Bayesian Neural Networks(BNN)を比較した。 これらの手法のベンチマークには,(1)バイソンコードを用いた時間依存核分裂ガス放出データ,(2)トレースコードを用いたbfbtベンチマークに基づく空白分数シミュレーションという2つの核工学的例が用いられている。 3つの手法は、通常、性能を最適化するために異なるDNNアーキテクチャとハイパーパラメータを必要とする。 UQの結果は、利用可能なトレーニングデータの量とデータの性質にも依存する。 全体として、これら3つの方法は全て近似の不確かさを合理的に推定することができる。 平均予測がテストデータに近い場合、不確実性は一般的に小さく、bnn法は一般的にmcdやdeよりも大きな不確実性を生み出す。

Recent performance breakthroughs in Artificial intelligence (AI) and Machine learning (ML), especially advances in Deep learning (DL), the availability of powerful, easy-to-use ML libraries (e.g., scikit-learn, TensorFlow, PyTorch.), and increasing computational power have led to unprecedented interest in AI/ML among nuclear engineers. For physics-based computational models, Verification, Validation and Uncertainty Quantification (VVUQ) have been very widely investigated and a lot of methodologies have been developed. However, VVUQ of ML models has been relatively less studied, especially in nuclear engineering. In this work, we focus on UQ of ML models as a preliminary step of ML VVUQ, more specifically, Deep Neural Networks (DNNs) because they are the most widely used supervised ML algorithm for both regression and classification tasks. This work aims at quantifying the prediction, or approximation uncertainties of DNNs when they are used as surrogate models for expensive physical models. Three techniques for UQ of DNNs are compared, namely Monte Carlo Dropout (MCD), Deep Ensembles (DE) and Bayesian Neural Networks (BNNs). Two nuclear engineering examples are used to benchmark these methods, (1) time-dependent fission gas release data using the Bison code, and (2) void fraction simulation based on the BFBT benchmark using the TRACE code. It was found that the three methods typically require different DNN architectures and hyperparameters to optimize their performance. The UQ results also depend on the amount of training data available and the nature of the data. Overall, all these three methods can provide reasonable estimations of the approximation uncertainties. The uncertainties are generally smaller when the mean predictions are close to the test data, while the BNN methods usually produce larger uncertainties than MCD and DE.
翻訳日:2022-06-30 20:22:26 公開日:2022-06-27
# 自然言語用リカレントニューラルネットワークからの重み付き有限オートマタ抽出

Extracting Weighted Finite Automata from Recurrent Neural Networks for Natural Languages ( http://arxiv.org/abs/2206.14621v1 )

ライセンス: Link先を確認
Zeming Wei, Xiyue Zhang and Meng Sun(参考訳) リカレントニューラルネットワーク(RNN)はシーケンシャルなデータ処理において大きな成功を収めている。 しかし,RNNの動作を直接解釈し,検証することは極めて困難である。 この目的のために、RNNから有限オートマトンを抽出するための多くの努力がなされている。 完全学習のような既存のアプローチは、形式言語のためのRNNの状態力学を特徴付ける有限状態モデル抽出に有効であるが、自然言語処理のスケーラビリティには限界がある。 自然言語に適用可能な合成アプローチは抽出精度が不足している。 本稿では,抽出精度に大きな影響を及ぼす遷移スパーシティ問題を明らかにする。 そこで本研究では,自然言語処理モデルにスケーラブルで,抽出精度の向上に有効であるトランジションルール抽出手法を提案する。 具体的には,遷移図の欠落規則を補完する経験的手法を提案する。 さらに,抽出された重み付き有限オートマトン(wfa)の文脈認識能力を高めるために,遷移行列をさらに調整する。 最後に,ターゲットrnnのよりダイナミックな挙動を追跡するための2つのデータ拡張手法を提案する。 2つのポピュラーな自然言語データセットの実験により,提案手法は既存の手法よりも精度良く自然言語処理のためにRNNからWFAを抽出できることが示されている。

Recurrent Neural Networks (RNNs) have achieved tremendous success in sequential data processing. However, it is quite challenging to interpret and verify RNNs' behaviors directly. To this end, many efforts have been made to extract finite automata from RNNs. Existing approaches such as exact learning are effective in extracting finite-state models to characterize the state dynamics of RNNs for formal languages, but are limited in the scalability to process natural languages. Compositional approaches that are scablable to natural languages fall short in extraction precision. In this paper, we identify the transition sparsity problem that heavily impacts the extraction precision. To address this problem, we propose a transition rule extraction approach, which is scalable to natural language processing models and effective in improving extraction precision. Specifically, we propose an empirical method to complement the missing rules in the transition diagram. In addition, we further adjust the transition matrices to enhance the context-aware ability of the extracted weighted finite automaton (WFA). Finally, we propose two data augmentation tactics to track more dynamic behaviors of the target RNN. Experiments on two popular natural language datasets show that our method can extract WFA from RNN for natural language processing with better precision than existing approaches.
翻訳日:2022-06-30 19:44:00 公開日:2022-06-27
# beamsnet: ドップラー速度ログ計測を改良した自律水中車両ナビゲーションのためのデータ駆動アプローチ

BeamsNet: A data-driven Approach Enhancing Doppler Velocity Log Measurements for Autonomous Underwater Vehicle Navigation ( http://arxiv.org/abs/2206.13603v1 )

ライセンス: Link先を確認
Nadav Cohen and Itzik Klein(参考訳) 自律型水中車両 (AUV) は海底マッピングや水中構造物の健康モニタリングなどの様々な応用を行う。 一般的には、ドップラー速度ログ(DVL)によって補助される慣性ナビゲーションシステムが、車両のナビゲーションソリューションを提供するために使用される。 このような融合において、DVLはAUVの速度ベクトルを提供し、ナビゲーションソリューションの精度を決定し、ナビゲーション状態を推定する。 本稿では,推定DVL速度ベクトルを回帰するエンドツーエンドのディープラーニングフレームワークであるBeamsNetを提案する。 BeamsNetの2つのバージョンは、ネットワークへの入力が異なることを示唆している。 1つは現在のDVLビーム測定と慣性センサーデータを使用し、もう1つはDVLデータのみを使用し、現在のDVL測定と過去のDVL測定を回帰処理に用いた。 シミュレーションと海洋実験は,提案手法をモデルベースアプローチと比較して検証するために行われた。 地中海のSnapir AUVで海洋実験が行われ、約4時間のDVLと慣性センサーのデータが収集された。 その結果,提案手法はDVL速度ベクトルの推定において60%以上の改善を達成できた。

Autonomous underwater vehicles (AUV) perform various applications such as seafloor mapping and underwater structure health monitoring. Commonly, an inertial navigation system aided by a Doppler velocity log (DVL) is used to provide the vehicle's navigation solution. In such fusion, the DVL provides the velocity vector of the AUV, which determines the navigation solution's accuracy and helps estimate the navigation states. This paper proposes BeamsNet, an end-to-end deep learning framework to regress the estimated DVL velocity vector that improves the accuracy of the velocity vector estimate, and could replace the model-based approach. Two versions of BeamsNet, differing in their input to the network, are suggested. The first uses the current DVL beam measurements and inertial sensors data, while the other utilizes only DVL data, taking the current and past DVL measurements for the regression process. Both simulation and sea experiments were made to validate the proposed learning approach relative to the model-based approach. Sea experiments were made with the Snapir AUV in the Mediterranean Sea, collecting approximately four hours of DVL and inertial sensor data. Our results show that the proposed approach achieved an improvement of more than 60% in estimating the DVL velocity vector.
翻訳日:2022-06-29 15:08:59 公開日:2022-06-27
# 生成材料設計のための材料トランスフォーマー言語モデル:ベンチマーク研究

Materials Transformers Language Models for Generative Materials Design: a benchmark study ( http://arxiv.org/abs/2206.13578v1 )

ライセンス: Link先を確認
Nihang Fu, Lai Wei, Yuqi Song, Qinyang Li, Rui Xin, Sadman Sadeed Omee, Rongzhi Dong, Edirisuriya M. Dilanga Siriwardane, Jianjun Hu(参考訳) 大きなラベルのないコーパス上の事前学習されたトランスフォーマー言語モデルは、自然言語処理、有機分子設計、タンパク質配列生成において最先端の結果を生み出している。 しかし, 無機材料の組成パターンの学習にはそのようなモデルが適用されていない。 ここでは,ICSD,OQMD,Material Projectsデータベースに蓄積された資料から拡張された公式を用いて,近代トランスフォーマー言語モデル(GPT, GPT-2, GPT-Neo, GPT-J, BLMM, BART, RoBERTa)を訓練する。 非電荷ニュートラルまたは平衡電子陰性率サンプルを持つ6つの異なるデータセットを用いて、材料組成の生成設計のための現代のトランスフォーマーモデルの生成バイアスを明らかにする。 本実験により, 因果言語モデルに基づく材料トランスフォーマーは, 電荷中立度の高い97.54\%, 電子陰性度平衡度の高い91.40\%の化学的に有効な材料組成を生成でき, ベースラインの擬ランダムサンプリングアルゴリズムの6倍以上の濃縮率を有することがわかった。 これらのモデルはまた、高い新規性を示し、新しい材料発見におけるそのポテンシャルは、離脱材料を回収する能力によって証明されている。 また, 生成したサンプルの特性は, 高バンドギャップ材料など選択したトレーニングセットを用いてモデルをトレーニングすることで調整できることがわかった。 実験の結果, それぞれのモデルがそれぞれ, 生成したサンプルの特性や実行時間の複雑さの相違から, それぞれ独自の好みを持つことがわかった。 我々は,DFT計算を用いて新しい材料群を発見するために,材料トランスフォーマーモデルを適用した。

Pre-trained transformer language models on large unlabeled corpus have produced state-of-the-art results in natural language processing, organic molecule design, and protein sequence generation. However, no such models have been applied to learn the composition patterns of inorganic materials. Here we train a series of seven modern transformer language models (GPT, GPT-2, GPT-Neo, GPT-J, BLMM, BART, and RoBERTa) using the expanded formulas from material deposited in the ICSD, OQMD, and Materials Projects databases. Six different datasets with/out non-charge-neutral or balanced electronegativity samples are used to benchmark the performances and uncover the generation biases of modern transformer models for the generative design of materials compositions. Our extensive experiments showed that the causal language models based materials transformers can generate chemically valid materials compositions with as high as 97.54\% to be charge neutral and 91.40\% to be electronegativity balanced, which has more than 6 times higher enrichment compared to a baseline pseudo-random sampling algorithm. These models also demonstrate high novelty and their potential in new materials discovery has been proved by their capability to recover the leave-out materials. We also find that the properties of the generated samples can be tailored by training the models with selected training sets such as high-bandgap materials. Our experiments also showed that different models each have their own preference in terms of the properties of the generated samples and their running time complexity varies a lot. We have applied our materials transformer models to discover a set of new materials as validated using DFT calculations.
翻訳日:2022-06-29 14:39:50 公開日:2022-06-27
# 不揮発性メモリ技術を用いた効率的なディープラーニング

Efficient Deep Learning Using Non-Volatile Memory Technology ( http://arxiv.org/abs/2206.13601v1 )

ライセンス: Link先を確認
Ahmet Inci, Mehmet Meric Isgenc, Diana Marculescu(参考訳) ml(embedded machine learning)システムは、mlサービスタスクをデプロイするための主要なプラットフォームとなり、mlモデルのトレーニングに等しく重要であると予測されている。 これにより、全体的な効率的なデプロイメント、特に低消費電力と高スループットの実装が、厳格なメモリ制約の下で課題となる。 この文脈では、STT-MRAMやSOT-MRAMのような非揮発性メモリ(NVM)技術は、その非揮発性、セル密度、拡張性などにより従来のSRAMと比較して大きな利点がある。 従来,汎用アプリケーションにおけるNVMのアーキテクチャ的意味について検討してきたが,本研究では,テクノロジ固有の回路レベルモデルとさまざまなDLワークロードの実際のメモリ挙動を組み合わせることで,ディープラーニング(DL)アプリケーション用のGPUアーキテクチャにおけるNVMベースのキャッシュを特徴付け,モデル化し,解析する包括的なフレームワークであるDeepNVM++を紹介する。 DeepNVM++は、従来のSRAMと新興STT-MRAMおよびSOT-MRAM技術を用いて実装された最後のレベルキャッシュに対して、アイソ容量とアイソ領域性能とエネルギーモデルに依存している。 アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のSRAMと比較して最大3.8xと4.7xのエネルギー遅延生成物(EDP)と2.4xと2.8xの面積減少を提供する。 STT-MRAMとSOT-MRAMはSRAMと比較して最大2.2xと2.4xのEDPを削減し、2.3xと3.3xのキャッシュ容量を持つ。 また,STT-MRAMとSOT-MRAMは大規模キャッシュ容量のSRAMと比較して,桁違いのEDP削減を実現していることを示す。 DeepNVM++は、STT-/SOT-MRAM技術で実証されており、DLアプリケーション用のGPUにおける最後のレベルキャッシュのためのNVM技術のキャラクタリゼーション、モデリング、分析に使用できる。

Embedded machine learning (ML) systems have now become the dominant platform for deploying ML serving tasks and are projected to become of equal importance for training ML models. With this comes the challenge of overall efficient deployment, in particular low power and high throughput implementations, under stringent memory constraints. In this context, non-volatile memory (NVM) technologies such as STT-MRAM and SOT-MRAM have significant advantages compared to conventional SRAM due to their non-volatility, higher cell density, and scalability features. While prior work has investigated several architectural implications of NVM for generic applications, in this work we present DeepNVM++, a comprehensive framework to characterize, model, and analyze NVM-based caches in GPU architectures for deep learning (DL) applications by combining technology-specific circuit-level models and the actual memory behavior of various DL workloads. DeepNVM++ relies on iso-capacity and iso-area performance and energy models for last-level caches implemented using conventional SRAM and emerging STT-MRAM and SOT-MRAM technologies. In the iso-capacity case, STT-MRAM and SOT-MRAM provide up to 3.8x and 4.7x energy-delay product (EDP) reduction and 2.4x and 2.8x area reduction compared to conventional SRAM, respectively. Under iso-area assumptions, STT-MRAM and SOT-MRAM provide up to 2.2x and 2.4x EDP reduction and accommodate 2.3x and 3.3x cache capacity when compared to SRAM, respectively. We also perform a scalability analysis and show that STT-MRAM and SOT-MRAM achieve orders of magnitude EDP reduction when compared to SRAM for large cache capacities. DeepNVM++ is demonstrated on STT-/SOT-MRAM technologies and can be used for the characterization, modeling, and analysis of any NVM technology for last-level caches in GPUs for DL applications.
翻訳日:2022-06-29 14:39:18 公開日:2022-06-27
# 再パラメータ付きrelu人工ニューラルネットワークパラメータのノルムの境界について:ネットワークパラメータベクトルを制御するリプシッツノルムの分数和について

On bounds for norms of reparameterized ReLU artificial neural network parameters: sums of fractional powers of the Lipschitz norm control the network parameter vector ( http://arxiv.org/abs/2206.13646v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Timo Kr\"oger(参考訳) フィードフォワード完全連結整流線形ユニット(ReLU)人工ニューラルネットワーク(ANN)の実現関数のリプシッツノルムは、乗算定数まで、ANNパラメータベクトルのノルムの和によって上から有界にすることができることは、科学文献における基本的な事実である。 大まかに言えば、この研究において、浅い ANN の場合、逆不等式も真であることを明らかにする。 より正式には、同じ実現関数を持つANNパラメータベクトルの同値類のノルムが、ANN実現関数のリプシッツノルムの和の和によって上から有界な乗法定数まで(指数は1/2$と1$)であることが証明される。 さらに、この上限はリプシッツノルムを用いる場合にのみ成立するが、H\"古いノルムやソボレフ・スロボデッキーノルムについては成り立たないことを証明している。 さらに、この上限がリプシッツノルムの和に対してのみ成り立つことを証明し、指数 1/2 $ と 1 $ が成立するが、リプシッツノルムだけでは成立しないことを示す。

It is an elementary fact in the scientific literature that the Lipschitz norm of the realization function of a feedforward fully-connected rectified linear unit (ReLU) artificial neural network (ANN) can, up to a multiplicative constant, be bounded from above by sums of powers of the norm of the ANN parameter vector. Roughly speaking, in this work we reveal in the case of shallow ANNs that the converse inequality is also true. More formally, we prove that the norm of the equivalence class of ANN parameter vectors with the same realization function is, up to a multiplicative constant, bounded from above by the sum of powers of the Lipschitz norm of the ANN realization function (with the exponents $ 1/2 $ and $ 1 $). Moreover, we prove that this upper bound only holds when employing the Lipschitz norm but does neither hold for H\"older norms nor for Sobolev-Slobodeckij norms. Furthermore, we prove that this upper bound only holds for sums of powers of the Lipschitz norm with the exponents $ 1/2 $ and $ 1 $ but does not hold for the Lipschitz norm alone.
翻訳日:2022-06-29 14:37:25 公開日:2022-06-27
# アタック・アグノスティック・データセット:オーディオディープフェイク検出の一般化と安定化を目指して

Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake Detection ( http://arxiv.org/abs/2206.13979v1 )

ライセンス: Link先を確認
Piotr Kawa, Marcin Plata, Piotr Syga(参考訳) オーディオDeepFakesは高品質で説得力のある発話を作成できるため、偽造や偽ニュースなどの潜在的な応用のために脅威となる。 これらの操作を検出する方法は、トレーニングに明示的に含まれないテクニックで実行された攻撃に対する堅牢性をもたらす優れた一般化と安定性によって特徴付けられるべきである。 本稿では,アタック非依存データセットを紹介する。2つのオーディオディープフェイクと1つのアンチスプーフィングデータセットの組み合わせにより,アタックの非協力的利用により,検出方法をより一般化することができる。 本稿では,現在のDeepFake検出手法を徹底的に分析し,様々な音声特徴(フロントエンド)について考察する。 さらに,LCNN と LFCC と mel-spectrogram のフロントエンドを用いたモデルを提案する。これは,優れた一般化と安定性を特徴とするだけでなく,LFCC のモードよりも改善され,すべての折り畳みと EER の標準偏差を最大5%まで低減する。

Audio DeepFakes allow the creation of high-quality, convincing utterances and therefore pose a threat due to its potential applications such as impersonation or fake news. Methods for detecting these manipulations should be characterized by good generalization and stability leading to robustness against attacks conducted with techniques that are not explicitly included in the training. In this work, we introduce Attack Agnostic Dataset - a combination of two audio DeepFakes and one anti-spoofing datasets that, thanks to the disjoint use of attacks, can lead to better generalization of detection methods. We present a thorough analysis of current DeepFake detection methods and consider different audio features (front-ends). In addition, we propose a model based on LCNN with LFCC and mel-spectrogram front-end, which not only is characterized by a good generalization and stability results but also shows improvement over LFCC-based mode - we decrease standard deviation on all folds and EER in two folds by up to 5%.
翻訳日:2022-06-29 14:35:29 公開日:2022-06-27
# グラフニューラルネットワークを用いた最適潮流の低減

Reduced Optimal Power Flow Using Graph Neural Network ( http://arxiv.org/abs/2206.13591v1 )

ライセンス: Link先を確認
Thuan Pham, Xingpeng Li(参考訳) OPF問題は電力系統の運用、特に生成したディスパッチポイントをリアルタイムで決定するために定式化され、解決される。 多数の変数と制約を持つ大規模で複雑な電力系統ネットワークでは、リアルタイムOPFの最適解をタイムリーに見つけるには、膨大な計算能力が必要である。 本稿では,グラフニューラルネットワーク(GNN)を用いて,元のOPF問題における制約数を削減する手法を提案する。 GNNは、ノード、エッジ、ネットワークトポロジの機能を活用してパフォーマンスを最大化する革新的な機械学習モデルである。 本稿では,負荷プロファイルと生成能力により,どのラインが重畳されるかを予測するGNNモデルを提案する。 これらのクリティカルラインだけがOPF問題で監視され、OPF (ROPF) の問題を減少させる。 提案したROPFモデルから計算時間の大幅な削減が期待できる。 また,GNNモデルによる予測の包括的解析を行った。 ROPFに対するGNNの適用は、ソリューションの品質を維持しながら計算時間を短縮できると結論付けている。

OPF problems are formulated and solved for power system operations, especially for determining generation dispatch points in real-time. For large and complex power system networks with large numbers of variables and constraints, finding the optimal solution for real-time OPF in a timely manner requires a massive amount of computing power. This paper presents a new method to reduce the number of constraints in the original OPF problem using a graph neural network (GNN). GNN is an innovative machine learning model that utilizes features from nodes, edges, and network topology to maximize its performance. In this paper, we proposed a GNN model to predict which lines would be heavily loaded or congested with given load profiles and generation capacities. Only these critical lines will be monitored in an OPF problem, creating a reduced OPF (ROPF) problem. Significant saving in computing time is expected from the proposed ROPF model. A comprehensive analysis of predictions from the GNN model was also made. It is concluded that the application of GNN for ROPF is able to reduce computing time while retaining solution quality.
翻訳日:2022-06-29 14:33:57 公開日:2022-06-27
# 水平不確実性下におけるオンライン資源配分

Online Resource Allocation under Horizon Uncertainty ( http://arxiv.org/abs/2206.13606v1 )

ライセンス: Link先を確認
Santiago Balseiro, Christian Kroer, Rachitesh Kumar(参考訳) 意思決定者は、報酬を最大化するために、確率的に生成される逐次的な要求に限られたリソースを割り当てる必要がある。 実際にモチベーションとして,意思決定者にとって未知の分布から要求を独立して引き出す,データ駆動型設定を考える。 オンラインリソースの割り当てとその特別事例は過去に広く研究されてきたが、これらの以前の結果は極めて重要かつ普遍的に、事実上不可能な仮定に依存している。 収益管理やオンライン広告といった多くのアプリケーションでは、需要の変動やユーザートラフィックの強度のためにリクエスト数が大きく変化する可能性がある。 本研究では,地平線不確実性に頑健なオンラインアルゴリズムを開発する。 既知の水平配置とは対照的に、地平線の不確実性に依存しない漸近的な競合比を達成するアルゴリズムは存在しない。 次に, 二重ミラー降下と, 慎重な目標消費列を組み合わせた新しいアルゴリズムを導入し, 有界な競合比を達成することを証明した。 我々のアルゴリズムは、その競合比が地平線の不確かさが大きくなると最適な成長速度に達するという意味で、ほぼ最適である。

We study stochastic online resource allocation: a decision maker needs to allocate limited resources to stochastically-generated sequentially-arriving requests in order to maximize reward. Motivated by practice, we consider a data-driven setting in which requests are drawn independently from a distribution that is unknown to the decision maker. Online resource allocation and its special cases have been studied extensively in the past, but these previous results crucially and universally rely on a practically-untenable assumption: the total number of requests (the horizon) is known to the decision maker in advance. In many applications, such as revenue management and online advertising, the number of requests can vary widely because of fluctuations in demand or user traffic intensity. In this work, we develop online algorithms that are robust to horizon uncertainty. In sharp contrast to the known-horizon setting, we show that no algorithm can achieve a constant asymptotic competitive ratio that is independent of the horizon uncertainty. We then introduce a novel algorithm that combines dual mirror descent with a carefully-chosen target consumption sequence and prove that it achieves a bounded competitive ratio. Our algorithm is near-optimal in the sense that its competitive ratio attains the optimal rate of growth when the horizon uncertainty grows large.
翻訳日:2022-06-29 14:33:40 公開日:2022-06-27
# SE(3)-invariant denoising Distance Matching による分子形状予測

Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching ( http://arxiv.org/abs/2206.13602v1 )

ライセンス: Link先を確認
Shengchao Liu, Hongyu Guo, Jian Tang(参考訳) 分子表現の事前学習は、ラベル付き分子の数が限られているため、薬物や物質発見の様々な応用において重要であるが、既存の研究の多くは2次元分子グラフの事前学習に焦点を当てている。 しかし、3次元幾何学的構造を事前学習する力は、幾何学的構造から本質的な特徴を効果的に抽出する事前訓練を力づける十分なプロキシタスクを見つけることの難しさから、あまり研究されていない。 3次元ユークリッド空間内の分子の連続運動が滑らかなポテンシャルエネルギー面を形成する3d分子の動的性質に動機づけられ、そのようなエネルギー景観をモデル化するための3d座標の事前学習フレームワークを提案する。 そこで,se(3)不変スコアマッチング法を用いて,分子内の一対の原子距離の分別により,座標分位プロキシタスクを効果的に沸騰させるse(3)-ddmを提案する。 提案手法の有効性とロバスト性を確認した。

Pretraining molecular representations is critical in a variety of applications in drug and material discovery due to the limited number of labeled molecules, yet most of existing work focuses on pretraining on 2D molecular graphs. The power of pretraining on 3D geometric structures, however, has been less explored, owning to the difficulty of finding a sufficient proxy task to empower the pretraining to effectively extract essential features from the geometric structures. Motivated by the dynamic nature of 3D molecules, where the continuous motion of a molecule in the 3D Euclidean space forms a smooth potential energy surface, we propose a 3D coordinate denoising pretraining framework to model such an energy landscape. Leveraging a SE(3)-invariant score matching method, we propose SE(3)-DDM where the coordinate denoising proxy task is effectively boiled down to the denoising of the pairwise atomic distances in a molecule. Our comprehensive experiments confirm the effectiveness and robustness of our proposed method.
翻訳日:2022-06-29 13:57:51 公開日:2022-06-27
# GPSによる道路地図の作成

Haul Road Mapping from GPS Traces ( http://arxiv.org/abs/2206.13936v1 )

ライセンス: Link先を確認
Konstantin M. Seiler(参考訳) マイニングの自動化には、現場の道路網の正確な地図が必要である。 オープンカット鉱山の道路は自然に動的であり、継続的に変化するので、手動で道路地図を更新するのは面倒で間違いやすい。 本稿では,道路網の正確な表現を,現場のトラックから取得したGPSデータを用いて自動的に導き出す可能性について検討する。 本稿では, 現場で走行するトラックから収集したGPSデータについて, 文献的アプローチの概要と, 公開手法の性能試験を行う。 全ての試験アルゴリズムで見られる欠点に基づいて,鉱山地におけるフリードライブの典型的な工芸品の道路地図を幾何学的に解析し,最終道路網グラフの品質を著しく向上させる後処理ステップを開発した。

Automation in mining requires accurate maps of road networks on site. Because roads on open-cut mines are dynamic in nature and continuously changing, manually updating road maps is tedious and error-prone. This paper investigates the possibility of automatically deriving an accurate representation of the road network using GPS data available from haul trucks operating on site. We present an overview of approaches proposed in literature and test the performance of publicly available methods on GPS data collected from trucks operating on site. Based on shortcomings seen in all tested algorithms, a post-processing step is developed which geometrically analyses the created road map for artefacts typical of free-drive areas on mine sites and significantly improves the quality of the final road network graph.
翻訳日:2022-06-29 13:57:03 公開日:2022-06-27
# モーションリファインメントとフレームレベルビットアロケーションを併用したフレキシブルレート学習型階層型双方向ビデオ圧縮

Flexible-Rate Learned Hierarchical Bi-Directional Video Compression With Motion Refinement and Frame-Level Bit Allocation ( http://arxiv.org/abs/2206.13613v1 )

ライセンス: Link先を確認
Eren Cetin, M. Akin Yilmaz, A. Murat Tekalp(参考訳) 本稿では, エンドツーエンドに最適化された階層型双方向ビデオ圧縮に関する最近の研究に対する改良と新たな追加について述べる。 改良として, 動き推定と予測モジュールを併用し, 改良された残留運動ベクトルを圧縮し, 速度歪み性能を向上する。 さらに,画像圧縮のために提案するゲインユニットを2つの方法でフレキシブルレートビデオ圧縮に適用した。1つはゲインユニットにより,単一のエンコーダモデルが複数のレートゆらぎ操作点で動作することを可能にし,もう1つはゲインユニットを利用して,真にフレキシブルレート学習ビデオ符号化のための対応するモデルを微調整することにより,符号化内対双方向符号化フレーム間のビット割り当てを制御する。 実験の結果,学習ビデオ符号化において,先行技術よりも最先端のレートゆらぎ性能が得られた。

This paper presents improvements and novel additions to our recent work on end-to-end optimized hierarchical bi-directional video compression to further advance the state-of-the-art in learned video compression. As an improvement, we combine motion estimation and prediction modules and compress refined residual motion vectors for improved rate-distortion performance. As novel addition, we adapted the gain unit proposed for image compression to flexible-rate video compression in two ways: first, the gain unit enables a single encoder model to operate at multiple rate-distortion operating points; second, we exploit the gain unit to control bit allocation among intra-coded vs. bi-directionally coded frames by fine tuning corresponding models for truly flexible-rate learned video coding. Experimental results demonstrate that we obtain state-of-the-art rate-distortion performance exceeding those of all prior art in learned video coding.
翻訳日:2022-06-29 13:54:04 公開日:2022-06-27
# Omni-Seg+: 画像分割のための大規模動的ネットワーク

Omni-Seg+: A Scale-aware Dynamic Network for Pathological Image Segmentation ( http://arxiv.org/abs/2206.13632v1 )

ライセンス: Link先を確認
Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Jun Long, Zuhayr Asad, R. Michael Womick, Zheyu Zhu, Agnes B. Fogo, Shilin Zhao, Haichun Yang, Yuankai Huo(参考訳) 腎病理像の包括的セマンティックセグメンテーションは,物体の不均一なスケールのため困難である。 例えば、スライド画像全体(WSI)では、糸球体の断面領域は管周囲の毛細血管の64倍の大きさであり、同じスケールで両方の物体を分割することは不可能である。 このスケーリング問題に対処するために、従来の研究では、異種組織タイプの最適なピクセル解像度に合うように、複数のセグメンテーションネットワークを訓練してきた。 このマルチネットワークソリューションは資源集約的で、組織タイプ間の空間的関係をモデル化できない。 本稿では,マルチオブジェクト(6つの組織型)とマルチスケール(5Xから40Xスケール)の病理画像セグメント化を実現する,スケール対応の動的ニューラルネットワークであるOmni-Seg+ネットワークを提案する。 The contribution of this paper is three-fold: (1) a novel scale-aware controller is proposed to generalize the dynamic neural network from single-scale to multi-scale; (2) semi-supervised consistency regularization of pseudo-labels is introduced to model the inter-scale correlation of unannotated tissue types into a single end-to-end learning paradigm; and (3) superior scale-aware generalization is evidenced by directly applying a model trained on human kidney images to mouse kidney images, without retraining. 3つの異なる解像度で6種類の組織から約150,000個のヒトの病理像パッチから学習し、ヒトの視覚的評価と画像美学(空間転写学)の評価により、より優れたセグメンテーション性能を得た。 公式実装はhttps://github.com/ddrrnn123/Omni-Segで公開されている。

Comprehensive semantic segmentation on renal pathological images is challenging due to the heterogeneous scales of the objects. For example, on a whole slide image (WSI), the cross-sectional areas of glomeruli can be 64 times larger than that of the peritubular capillaries, making it impractical to segment both objects on the same patch, at the same scale. To handle this scaling issue, prior studies have typically trained multiple segmentation networks in order to match the optimal pixel resolution of heterogeneous tissue types. This multi-network solution is resource-intensive and fails to model the spatial relationship between tissue types. In this paper, we propose the Omni-Seg+ network, a scale-aware dynamic neural network that achieves multi-object (six tissue types) and multi-scale (5X to 40X scale) pathological image segmentation via a single neural network. The contribution of this paper is three-fold: (1) a novel scale-aware controller is proposed to generalize the dynamic neural network from single-scale to multi-scale; (2) semi-supervised consistency regularization of pseudo-labels is introduced to model the inter-scale correlation of unannotated tissue types into a single end-to-end learning paradigm; and (3) superior scale-aware generalization is evidenced by directly applying a model trained on human kidney images to mouse kidney images, without retraining. By learning from ~150,000 human pathological image patches from six tissue types at three different resolutions, our approach achieved superior segmentation performance according to human visual assessment and evaluation of image-omics (i.e., spatial transcriptomics). The official implementation is available at https://github.com/ddrrnn123/Omni-Seg.
翻訳日:2022-06-29 13:53:43 公開日:2022-06-27
# NeuRIS: 通常のプライオリティを用いた屋内シーンのニューラルリコンストラクション

NeuRIS: Neural Reconstruction of Indoor Scenes Using Normal Priors ( http://arxiv.org/abs/2206.13597v1 )

ライセンス: Link先を確認
Jiepeng Wang, Peng Wang, Xiaoxiao Long, Christian Theobalt, Taku Komura, Lingjie Liu, Wenping Wang(参考訳) 2D画像から3D屋内シーンを再構成することは、多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要な課題である。 この課題の主な課題は、典型的な屋内シーンの大きなテクスチャのない領域は、既存の方法が十分な復元結果を生み出すのに苦労することである。 本研究では,室内シーンの高品質再現のためのニューロリスという新しい手法を提案する。 NeuRISの鍵となる考え方は、大きなテクスチャのない形状を再構築するニューラルネットワークの枠組みにおいて、屋内の風景の通常の推定と、それを適応的に行うことで、細部で不規則な形状の復元を可能にすることである。 具体的には, 最適化過程における再構築の多視点一貫性を検証し, 実機上における通常の優先順位の忠実性を評価する。 忠実として受け入れられる通常の前駆体だけが3D再構成に利用されるが、これはおそらく弱いテクスチャを持つ滑らかな形状の領域で起こる。 しかし、通常、通常の先行が信頼できないような小さな物体や細い構造を持つ領域では、そのような領域は一般的に比較的リッチな視覚的特徴(例えば、日陰変化や境界輪郭)を含むため、入力画像の視覚的特徴にのみ依存する。 大規模な実験により、NeuRISは再建品質の点で最先端の手法を著しく上回っていることが示された。

Reconstructing 3D indoor scenes from 2D images is an important task in many computer vision and graphics applications. A main challenge in this task is that large texture-less areas in typical indoor scenes make existing methods struggle to produce satisfactory reconstruction results. We propose a new method, named NeuRIS, for high quality reconstruction of indoor scenes. The key idea of NeuRIS is to integrate estimated normal of indoor scenes as a prior in a neural rendering framework for reconstructing large texture-less shapes and, importantly, to do this in an adaptive manner to also enable the reconstruction of irregular shapes with fine details. Specifically, we evaluate the faithfulness of the normal priors on-the-fly by checking the multi-view consistency of reconstruction during the optimization process. Only the normal priors accepted as faithful will be utilized for 3D reconstruction, which typically happens in the regions of smooth shapes possibly with weak texture. However, for those regions with small objects or thin structures, for which the normal priors are usually unreliable, we will only rely on visual features of the input images, since such regions typically contain relatively rich visual features (e.g., shade changes and boundary contours). Extensive experiments show that NeuRIS significantly outperforms the state-of-the-art methods in terms of reconstruction quality.
翻訳日:2022-06-29 13:38:28 公開日:2022-06-27
# AutoInit: Jacobian Tuningによる自動初期化

AutoInit: Automatic Initialization via Jacobian Tuning ( http://arxiv.org/abs/2206.13568v1 )

ライセンス: Link先を確認
Tianyu He, Darshil Doshi and Andrey Gromov(参考訳) ディープニューラルネットワーク(DNN)のトレーニングには、優れた初期化が不可欠だ。 多くの場合、このような初期化は試行錯誤のアプローチによって行われ、アーキテクチャが実質的に変更される度に再適用されるか、あるいはより小さなネットワークから継承される。 本研究では,一般的なフィードフォワードDNNに対して,優れた初期化を自動的に見つけることのできる,新しい安価なアルゴリズムを提案する。 このアルゴリズムは、隣接するネットワークブロック間のヤコビアンを利用して、ネットワークハイパーパラメータを臨界にチューニングする。 完全連結ネットワークに対するReLUを用いたアルゴリズムの動的解法と収束条件の導出について述べる。 次に、BatchNormと残留接続を持つより一般的なアーキテクチャに議論を拡張します。 最後に,提案手法をResMLPおよびVGGアーキテクチャに適用し,本手法で検出したワンショット初期化が視覚タスクに優れた性能を示す。

Good initialization is essential for training Deep Neural Networks (DNNs). Oftentimes such initialization is found through a trial and error approach, which has to be applied anew every time an architecture is substantially modified, or inherited from smaller size networks leading to sub-optimal initialization. In this work we introduce a new and cheap algorithm, that allows one to find a good initialization automatically, for general feed-forward DNNs. The algorithm utilizes the Jacobian between adjacent network blocks to tune the network hyperparameters to criticality. We solve the dynamics of the algorithm for fully connected networks with ReLU and derive conditions for its convergence. We then extend the discussion to more general architectures with BatchNorm and residual connections. Finally, we apply our method to ResMLP and VGG architectures, where the automatic one-shot initialization found by our method shows good performance on vision tasks.
翻訳日:2022-06-29 13:05:24 公開日:2022-06-27
# 帯域制限関数に対する Paley-Wiener カーネルを用いた非パラメトリック・非漸近信頼バンド

Nonparametric, Nonasymptotic Confidence Bands with Paley-Wiener Kernels for Band-Limited Functions ( http://arxiv.org/abs/2206.13629v1 )

ライセンス: Link先を確認
Bal\'azs Csan\'ad Cs\'aji, B\'alint Horv\'ath(参考訳) 本稿では、入出力対の有限サンプルに基づく有界な帯域制限関数に対する信頼帯域を構成する手法を提案する。 このアプローチは分布のないw.r.t.観測ノイズであり、入力分布の知識のみを仮定する。 これは非パラメトリックであり、つまり回帰関数のパラメトリックモデルを必要としないし、領域は漸近的でない保証を持つ。 このアルゴリズムは、Paley-Wiener再生カーネルヒルベルト空間の理論に基づいている。 この論文は、観測にノイズがなく、入力だけがランダムである場合、完全な観測可能な変種を最初に研究し、勾配摂動法を用いてノイズケースへのアイデアを一般化する。 最後に, 両事例の数値実験を行った。

The paper introduces a method to construct confidence bands for bounded, band-limited functions based on a finite sample of input-output pairs. The approach is distribution-free w.r.t. the observation noises and only the knowledge of the input distribution is assumed. It is nonparametric, that is, it does not require a parametric model of the regression function and the regions have non-asymptotic guarantees. The algorithm is based on the theory of Paley-Wiener reproducing kernel Hilbert spaces. The paper first studies the fully observable variant, when there are no noises on the observations and only the inputs are random; then it generalizes the ideas to the noisy case using gradient-perturbation methods. Finally, numerical experiments demonstrating both cases are presented.
翻訳日:2022-06-29 13:05:08 公開日:2022-06-27
# Discrete Morse Sandwich: Scalarデータに対する永続化ダイアグラムの高速計算 - アルゴリズムとベンチマーク

Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for Scalar Data -- An Algorithm and A Benchmark ( http://arxiv.org/abs/2206.13932v1 )

ライセンス: Link先を確認
Pierre Guillou, Jules Vidal, and Julien Tierny(参考訳) 本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を$d \leq 3$ で割った永続図計算の効率的なアルゴリズムを提案する。 提案手法は,3つの主加速度を導入し,半音素の"PairCells"アルゴリズムを拡張した。 まず、このアルゴリズムを離散モース理論の設定の中で表現することで、考慮すべき入力単純化の数を大幅に削減する。 第二に、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。 具体的には、1-saddlesの不安定なセットと(d-1)-saddlesの安定なセットをUnion-Findでそれぞれ処理することにより、ミニマサドル永続ペア(D_0(f)$)とサドル最大永続ペア(D_{d-1}(f)$)を効率的に計算する。 この次元 0 と (d-1) の高速な処理により、サンドイッチの中間層である$D_1(f)$の計算について考慮すべき臨界単純さの数が大幅に減少する。 第3に,共有メモリ並列処理による性能改善について述べる。 再現性を目的としたアルゴリズムのオープンソース実装を提供する。 また,公開リポジトリからの3次元データを利用した再現可能なベンチマークパッケージをコントリビュートし,そのアルゴリズムをさまざまな公開実装と比較する。 拡張実験により,提案アルゴリズムは拡張したセミナル"PairCells"アルゴリズムの2桁の時間性能を向上することが示された。 さらに、14の競合アプローチよりもメモリフットプリントと時間パフォーマンスが向上し、最速のアプローチよりも大幅に向上し、厳密に同一の出力を生成する。 本稿では,表面,体積データ,高次元点雲上での持続的な1次元ジェネレータの高速かつロバストな抽出への応用について述べる。

This paper introduces an efficient algorithm for persistence diagram computation, given an input piecewise linear scalar field f defined on a d-dimensional simplicial complex K, with $d \leq 3$. Our method extends the seminal "PairCells" algorithm by introducing three main accelerations. First, we express this algorithm within the setting of discrete Morse theory, which considerably reduces the number of input simplices to consider. Second, we introduce a stratification approach to the problem, that we call "sandwiching". Specifically, minima-saddle persistence pairs ($D_0(f)$) and saddle-maximum persistence pairs ($D_{d-1}(f)$) are efficiently computed by respectively processing with a Union-Find the unstable sets of 1-saddles and the stable sets of (d-1)-saddles. This fast processing of the dimensions 0 and (d-1) further reduces, and drastically, the number of critical simplices to consider for the computation of $D_1(f)$, the intermediate layer of the sandwich. Third, we document several performance improvements via shared-memory parallelism. We provide an open-source implementation of our algorithm for reproducibility purposes. We also contribute a reproducible benchmark package, which exploits three-dimensional data from a public repository and compares our algorithm to a variety of publicly available implementations. Extensive experiments indicate that our algorithm improves by two orders of magnitude the time performance of the seminal "PairCells" algorithm it extends. Moreover, it also improves memory footprint and time performance over a selection of 14 competing approaches, with a substantial gain over the fastest available approaches, while producing a strictly identical output. We illustrate the utility of our contributions with an application to the fast and robust extraction of persistent 1-dimensional generators on surfaces, volume data and high-dimensional point clouds.
翻訳日:2022-06-29 13:01:31 公開日:2022-06-27
# ゲーテッド状態空間による長距離言語モデリング

Long Range Language Modeling via Gated State Spaces ( http://arxiv.org/abs/2206.13947v1 )

ライセンス: Link先を確認
Harsh Mehta, Ankit Gupta, Ashok Cutkosky, Behnam Neyshabur(参考訳) 状態空間モデルは、特にシーケンス分類タスクにおいて、長距離依存のモデリングに有効であることが示されている。 本研究は,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点を当てる。 ゲートアクティベーション関数の有効性に関する最近の進歩に基づき、Gated State Space (GSS) と呼ばれる新しいレイヤを提案し、TPU上のS4の対角線(すなわちDSS)よりもはるかに高速で、よく調整されたTransformerベースのベースラインとかなり競合し、実装が容易で、より長い入力に対してゼロショットの一般化を示すことを示す。 最後に,局所的な依存関係をモデル化するための自己意識の活用により,GASの性能をさらに向上させることを示す。

State space models have shown to be effective at modeling long range dependencies, specially on sequence classification tasks. In this work we focus on autoregressive sequence modeling over English books, Github source code and ArXiv mathematics articles. Based on recent developments around the effectiveness of gated activation functions, we propose a new layer named Gated State Space (GSS) and show that it trains significantly faster than the diagonal version of S4 (i.e. DSS) on TPUs, is fairly competitive with several well-tuned Transformer-based baselines and exhibits zero-shot generalization to longer inputs while being straightforward to implement. Finally, we show that leveraging self-attention to model local dependencies improves the performance of GSS even further.
翻訳日:2022-06-29 12:34:41 公開日:2022-06-27
# マルチモーダルペアワイズ比較によるランキング

Rankings from multimodal pairwise comparisons ( http://arxiv.org/abs/2206.13580v1 )

ライセンス: Link先を確認
M. E. J. Newman(参考訳) ペア間の一連の比較に基づいて個人やチームをランク付けするタスクは、スポーツ競技や動物や人間の支配階層の分析など、さまざまな文脈で発生する。 ライバルが他社に勝っているデータを考えると、競争相手をベストから最悪のレベルにランク付けすることが課題だ。 本稿では,動物間における複数種類の支配行動など,比較モードが複数存在する場合のランキング計算の問題について検討する。 我々は、各行動がランクについてどのような情報を伝えるか、あるいはそれらが全く情報を伝達するかどうかの優先順位を知らないと仮定する。 それにもかかわらず、この状況下でランキングを計算することは可能であり、期待最大化アルゴリズムと修正ブラッドレー・テリーモデルの組み合わせに基づいて、それを行うための高速な方法を示す。 動物と人間の両方の競争に応用する例を挙げる。

The task of ranking individuals or teams, based on a set of comparisons between pairs, arises in various contexts, including sporting competitions and the analysis of dominance hierarchies among animals and humans. Given data on which competitors beat which others, the challenge is to rank the competitors from best to worst. Here we study the problem of computing rankings when there are multiple, potentially conflicting modes of comparison, such as multiple types of dominance behaviors among animals. We assume that we do not know a priori what information each behavior conveys about the ranking, or even whether they convey any information at all. Nonetheless we show that it is possible to compute a ranking in this situation and present a fast method for doing so, based on a combination of an expectation-maximization algorithm and a modified Bradley-Terry model. We give a selection of example applications to both animal and human competition.
翻訳日:2022-06-29 12:31:18 公開日:2022-06-27
# リスク関数を用いた教師付き学習

Supervised Learning with General Risk Functionals ( http://arxiv.org/abs/2206.13648v1 )

ライセンス: Link先を確認
Liu Leqi, Audrey Huang, Zachary C. Lipton, Kamyar Azizzadenesheli(参考訳) 標準一様収束結果は、予想される損失の仮説クラスに対する一般化ギャップを束縛する。 リスクに敏感な学習の出現は、期待を超えて損失分布の機能の一般化を要求する。 先行研究は特定の汎関数の一様収束を専門とするが、本研究は、累積分布関数(cdf)の近接性がリスクの近さを伴うh\"older risk functionalsの一般クラスに対して一様収束を与える。 我々は、損失分布のCDFを推定するための最初の一様収束結果を確立し、すべてのH\"古いリスク関数と全ての仮説の両方に同時に保持する保証を与える。 そこで, 経験的リスク最小化を許可し, ひずみリスク(平均, 条件値, 累積予測理論リスクなど, スペクトルリスクを仮定したh\"より古いリスクのサブセットを広く研究した)を最小化するための, 実用的な勾配に基づく手法を開発し, 収束保証を提供する。 実験では、一様収束結果が保持される設定と、深層ネットワークを用いた高次元設定の両方において、学習手順の有効性を示す。

Standard uniform convergence results bound the generalization gap of the expected loss over a hypothesis class. The emergence of risk-sensitive learning requires generalization guarantees for functionals of the loss distribution beyond the expectation. While prior works specialize in uniform convergence of particular functionals, our work provides uniform convergence for a general class of H\"older risk functionals for which the closeness in the Cumulative Distribution Function (CDF) entails closeness in risk. We establish the first uniform convergence results for estimating the CDF of the loss distribution, yielding guarantees that hold simultaneously both over all H\"older risk functionals and over all hypotheses. Thus licensed to perform empirical risk minimization, we develop practical gradient-based methods for minimizing distortion risks (widely studied subset of H\"older risks that subsumes the spectral risks, including the mean, conditional value at risk, cumulative prospect theory risks, and others) and provide convergence guarantees. In experiments, we demonstrate the efficacy of our learning procedure, both in settings where uniform convergence results hold and in high-dimensional settings with deep networks.
翻訳日:2022-06-29 12:31:05 公開日:2022-06-27
# (参考訳) 雑音ラベルを用いたロバスト学習のための高調な特徴埋め込みに向けて

Towards Harnessing Feature Embedding for Robust Learning with Noisy Labels ( http://arxiv.org/abs/2206.13025v1 )

ライセンス: CC BY 4.0
Chuang Zhang, Li Shen, Jian Yang, Chen Gong(参考訳) ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。 この効果を活かすために、モデル予測に基づく手法が広く採用され、学習初期にDNNの出力を利用してノイズラベルを補正することを目的としている。 しかし、ラベル予測中にモデルが誤りを犯し、不満足な性能をもたらすことが観察された。 対照的に、学習の初期段階で生み出された特徴は、より堅牢性を示している。 本稿では,この観察に触発されて,ラベル雑音を伴う深層学習のための特徴埋め込み型手法であるlendを提案する。 具体的には、まず、現在の組み込み機能に基づいて類似度行列を計算し、トレーニングデータの局所構造をキャプチャする。 そして、誤ラベル付きデータによって運ばれる雑音の監視信号は、近傍の正確なラベル付き信号 (\textit{i.e.}, label noise dilution) によって圧倒され、その効果は特徴埋め込みの本質的な堅牢性によって保証される。 最後に、希薄ラベルを用いたトレーニングデータをロバスト分類器のトレーニングに使用する。 実験では,いくつかの代表的なロバストな学習手法と比較し,合成データと実世界の雑音データの両方について広範な実験を行った。 結果は我々の貸出の有効性を検証します。

The memorization effect of deep neural networks (DNNs) plays a pivotal role in recent label noise learning methods. To exploit this effect, the model prediction-based methods have been widely adopted, which aim to exploit the outputs of DNNs in the early stage of learning to correct noisy labels. However, we observe that the model will make mistakes during label prediction, resulting in unsatisfactory performance. By contrast, the produced features in the early stage of learning show better robustness. Inspired by this observation, in this paper, we propose a novel feature embedding-based method for deep learning with label noise, termed LabEl NoiseDilution (LEND). To be specific, we first compute a similarity matrix based on current embedded features to capture the local structure of training data. Then, the noisy supervision signals carried by mislabeled data are overwhelmed by nearby correctly labeled ones (\textit{i.e.}, label noise dilution), of which the effectiveness is guaranteed by the inherent robustness of feature embedding. Finally, the training data with diluted labels are further used to train a robust classifier. Empirically, we conduct extensive experiments on both synthetic and real-world noisy datasets by comparing our LEND with several representative robust learning approaches. The results verify the effectiveness of our LEND.
翻訳日:2022-06-29 03:51:03 公開日:2022-06-27
# (参考訳) 相互情報を用いたショートカット学習のモニタリング

Monitoring Shortcut Learning using Mutual Information ( http://arxiv.org/abs/2206.13034v1 )

ライセンス: CC BY 4.0
Mohammed Adnan, Yani Ioannou, Chuan-Yung Tsai, Angus Galloway, H.R. Tizhoosh, Graham W. Taylor(参考訳) 分散データに一般化するディープニューラルネットワークの失敗は、よく知られた問題であり、医療、金融、自動運転車といった安全クリティカルな領域におけるトレーニング済みネットワークの展開に関する懸念を提起している。 我々は、トレーニングデータ内の特定の種類の分散シフト$\unicode{x2013}$ショートカットやスプリアス相関を研究した。 ショートカット学習は、しばしば、AI実践者が実世界のアプリケーションでトレーニングされたモデルの有効性を適切に評価する深刻なジレンマとなるように、同じ刺激的な相関関係を含まない実世界のデータでモデルを評価する場合にのみ公開される。 本研究では,学習表現と入力間の相互情報(mi)をメトリクスとして使用し,学習中にネットワークが近道にラッチする場所を見つけることを提案する。 実験により、MIはショートカット学習を監視するためのドメインに依存しない指標として利用できることが示された。

The failure of deep neural networks to generalize to out-of-distribution data is a well-known problem and raises concerns about the deployment of trained networks in safety-critical domains such as healthcare, finance and autonomous vehicles. We study a particular kind of distribution shift $\unicode{x2013}$ shortcuts or spurious correlations in the training data. Shortcut learning is often only exposed when models are evaluated on real-world data that does not contain the same spurious correlations, posing a serious dilemma for AI practitioners to properly assess the effectiveness of a trained model for real-world applications. In this work, we propose to use the mutual information (MI) between the learned representation and the input as a metric to find where in training, the network latches onto shortcuts. Experiments demonstrate that MI can be used as a domain-agnostic metric for monitoring shortcut learning.
翻訳日:2022-06-29 03:29:37 公開日:2022-06-27
# (参考訳) SAR-to-Optical画像変換タスクにおけるPix2pix手法の最適化

A Strategy Optimized Pix2pix Approach for SAR-to-Optical Image Translation Task ( http://arxiv.org/abs/2206.13042v1 )

ライセンス: CC BY 4.0
Fujian Cheng, Yashu Kang, Chunlei Chen, Kezhao Jiang(参考訳) 本稿では,時系列情報とゲーティング機構を活用し,作物分類問題に対する最先端の枠組みであるtgcnn(time gated convolutional neural network)を提案する。 さらに、入力データの次元を拡大してスペクトル情報を活用するために、いくつかの植生指標を構築した。 tgcnnでは、空間的(チャネル的)と時間的(ステップ的)の相関が考慮される。 具体的には,このデータセットにおいてステップワイズ情報がより重要であることを示す予備分析を行った。 最後に、ゲーティング機構は高次関係を捉えるのに役立つ。 我々のTGCNNソリューションは、それぞれ0.973$F1スコア、0.977$AUC ROC、0.948$IoUを得る。 さらに、別のローカルタスク(ケニア、ブラジル、トーゴ)で他の3つのベンチマークを上回っている。 この地球観測時系列分類作業において,TGCNNが有利であることを示す実験を行った。

This paper presented a state-of-the-art framework, Time Gated Convolutional Neural Network (TGCNN) that takes advantage of temporal information and gating mechanisms for the crop classification problem. Besides, several vegetation indices were constructed to expand dimensions of input data to take advantage of spectral information. Both spatial (channel-wise) and temporal (step-wise) correlation are considered in TGCNN. Specifically, our preliminary analysis indicates that step-wise information is of greater importance in this data set. Lastly, the gating mechanism helps capture high-order relationship. Our TGCNN solution achieves $0.973$ F1 score, $0.977$ AUC ROC and $0.948$ IoU, respectively. In addition, it outperforms three other benchmarks in different local tasks (Kenya, Brazil and Togo). Overall, our experiments demonstrate that TGCNN is advantageous in this earth observation time series classification task.
翻訳日:2022-06-29 03:19:37 公開日:2022-06-27
# (参考訳) DPOAD:反復感度学習による異常検出の個人的アウトソーシング

DPOAD: Differentially Private Outsourcing of Anomaly Detection through Iterative Sensitivity Learning ( http://arxiv.org/abs/2206.13046v1 )

ライセンス: CC BY 4.0
Meisam Mohammady, Han Wang, Lingyu Wang, Mengyuan Zhang, Yosr Jarraya, Suryadipta Majumdar, Makan Pourzandi, Mourad Debbabi, Yuan Hong(参考訳) サードパーティに異常検出をアウトソーシングすることで、データ所有者はリソース制約(軽量IoTデバイスなど)を克服し、コラボレーティブ分析(分散あるいはマルチパーティシナリオなど)を容易にし、コストの低減と専門的専門知識(マネージドセキュリティサービスプロバイダなど)の恩恵を受けることができる。 このようなメリットにもかかわらず、データ所有者は、十分なプライバシー保護なしに異常検出をアウトソースすることを嫌うかもしれない。 そのためには、既存のプライバシソリューションのほとんどが、新たな課題に直面することになる。すなわち、プライバシの保存には、通常、データエントリ間の差異の排除や削減が必要となるが、異常検出は、その差に極めて依存する。 このような対立は、信頼されたアナリスト(アウトソーシングが関与しない)とのローカル分析設定の下で解決され、差分プライバシー(DP)の焦点を"すべて"から"良質"のエントリだけに移行する。 本稿では、データ所有者は、アウトソーシング前にどのエントリが「良」であるかを知らないため、データエントリにDPを選択的に適用できないため、アウトソーシング設定にそのようなアプローチが直接適用されないことを観察する。 そこで,本研究では,データ所有者が異常なエントリを良質なエントリから徐々に「不連続」し,第三者のアナリストが十分なdp保証で正確な異常結果が得られるような,新しい反復的ソリューションを提案する。 我々は,dpoad(anomaly detection)フレームワークの設計と実装を行い,異なるアプリケーションドメインの実データを用いた実験を通じて,ベースラインラプラスやペインフリーメカニズムよりもそのメリットを実証する。

Outsourcing anomaly detection to third-parties can allow data owners to overcome resource constraints (e.g., in lightweight IoT devices), facilitate collaborative analysis (e.g., under distributed or multi-party scenarios), and benefit from lower costs and specialized expertise (e.g., of Managed Security Service Providers). Despite such benefits, a data owner may feel reluctant to outsource anomaly detection without sufficient privacy protection. To that end, most existing privacy solutions would face a novel challenge, i.e., preserving privacy usually requires the difference between data entries to be eliminated or reduced, whereas anomaly detection critically depends on that difference. Such a conflict is recently resolved under a local analysis setting with trusted analysts (where no outsourcing is involved) through moving the focus of differential privacy (DP) guarantee from "all" to only "benign" entries. In this paper, we observe that such an approach is not directly applicable to the outsourcing setting, because data owners do not know which entries are "benign" prior to outsourcing, and hence cannot selectively apply DP on data entries. Therefore, we propose a novel iterative solution for the data owner to gradually "disentangle" the anomalous entries from the benign ones such that the third-party analyst can produce accurate anomaly results with sufficient DP guarantee. We design and implement our Differentially Private Outsourcing of Anomaly Detection (DPOAD) framework, and demonstrate its benefits over baseline Laplace and PainFree mechanisms through experiments with real data from different application domains.
翻訳日:2022-06-29 03:14:45 公開日:2022-06-27
# (参考訳) Guillain-Barre症候群に対する結合回路設計

A Coupled Neural Circuit Design for Guillain-Barre Syndrome ( http://arxiv.org/abs/2206.13056v1 )

ライセンス: CC BY 4.0
Oguzhan Derebasi, Murat Isik, Oguzhan Demirag, Dilek Goksel Duru, Anup Das(参考訳) ギラン・バレー症候群(guillain-barre syndrome)は、ヒト免疫系が末梢神経系を攻撃するまれな神経疾患である。 末梢神経系は、ニューロンモデルの数学的モデルの拡散連結系として現れ、系周期は各神経回路の周期よりも短くなる。 機能を失ったミエリンシースに対処する伝導経路の刺激は軸索によって受容され、神経伝導の低下の問題を解決することを目的として、標的臓器に外部に伝達される。 NEURONシミュレーション環境では、ニューロンモデルを作成し、研究のためのシステム内で起こる生物物理学的な事象を定義することができる。 この環境では、細胞と樹状突起の間の信号伝達をグラフィカルに得る。 シミュレーションされたカリウムとナトリウムのコンダクタンスは適切に複製され、電子作用電位は実験的に測定されたものと非常に同等である。 本研究では、低コストでエネルギー効率のよいシステムのために、個々の興奮性および抑制性神経回路ブロックからなるアナログおよびデジタル結合ニューロンモデルを提案する。 ディジタル設計と比較して、アナログ設計は低い周波数で動作するが、エネルギー効率は32.3倍に低下する。 したがって、結果として生じるアナログハードウェアニューロンモデルは、神経伝導の減少をシミュレーションするためのモデルとして提案できる。 その結果、アナログ結合ニューロン(その設計の複雑さも大きい)は、ギラン・バレー症候群やその他の神経疾患の予防に役立つウェアラブルセンサーデバイスの開発に真剣な競争を繰り広げた。

Guillain-Barre syndrome is a rare neurological condition in which the human immune system attacks the peripheral nervous system. A peripheral nervous system appears as a diffusively connected system of mathematical models of neuron models, and the system's period becomes shorter than the periods of each neural circuit. The stimuli in the conduction path that will address the myelin sheath that has lost its function are received by the axons and are conveyed externally to the target organ, aiming to solve the problem of decreased nerve conduction. In the NEURON simulation environment, one can create a neuron model and define biophysical events that take place within the system for study. In this environment, signal transmission between cells and dendrites is obtained graphically. The simulated potassium and sodium conductance are replicated adequately, and the electronic action potentials are quite comparable to those measured experimentally. In this work, we propose an analog and digital coupled neuron model comprising individual excitatory and inhibitory neural circuit blocks for a low-cost and energy-efficient system. Compared to digital design, our analog design performs in lower frequency but gives a 32.3\% decreased energy efficiency. Thus, the resulting coupled analog hardware neuron model can be a proposed model for the simulation of reduced nerve conduction. As a result, the analog coupled neuron, (even with its greater design complexity) serious contender for the future development of a wearable sensor device that could help with Guillain-Barre syndrome and other neurologic diseases.
翻訳日:2022-06-29 02:46:24 公開日:2022-06-27
# (参考訳) ツール操作の高速化学習のための言語活用

Leveraging Language for Accelerated Learning of Tool Manipulation ( http://arxiv.org/abs/2206.13074v1 )

ライセンス: CC BY 4.0
Allen Z. Ren, Bharat Govil, Tsung-Yen Yang, Karthik Narasimhan, Anirudha Majumdar(参考訳) 堅牢で汎用的なツール操作には、さまざまなツールの特性と余裕を理解する必要がある。 ツールに関する言語情報(例えば、その幾何学、共通用途)が、与えられたタスクに対して新しいツールに迅速に適応する制御ポリシーに役立つかどうかを検討する。 自然言語における各種ツールの多様な記述を入手し,事前学習した言語モデルを用いて特徴表現を生成する。 次に、言語条件のメタラーニングを行い、対応するテキスト記述から新しいツールに効率的に適応できるポリシーを学習する。 この結果から,言語情報とメタラーニングを組み合わせることで,プッシュ,リフト,スイーピング,ハンマーなどの操作タスクにおいて,ツール学習が大幅に促進されることが示された。

Robust and generalized tool manipulation requires an understanding of the properties and affordances of different tools. We investigate whether linguistic information about a tool (e.g., its geometry, common uses) can help control policies adapt faster to new tools for a given task. We obtain diverse descriptions of various tools in natural language and use pre-trained language models to generate their feature representations. We then perform language-conditioned meta-learning to learn policies that can efficiently adapt to new tools given their corresponding text descriptions. Our results demonstrate that combining linguistic information and meta-learning significantly accelerates tool learning in several manipulation tasks including pushing, lifting, sweeping, and hammering.
翻訳日:2022-06-29 02:33:53 公開日:2022-06-27
# (参考訳) Video2StyleGAN:ラテントスペースで動画をエンコードして操作

Video2StyleGAN: Encoding Video in Latent Space for Manipulation ( http://arxiv.org/abs/2206.13078v1 )

ライセンス: CC BY 4.0
Jiyang Yu, Jingen Liu, Jing Huang, Wei Zhang, Tao Mei(参考訳) 事前訓練されたGANの潜伏空間を利用した顔画像編集のための最近の多くの研究が提案されている。 しかし、ビデオに直接適用する試みはほとんど行われていない。 1) 時間的一貫性を保証しない。 2)ビデオの処理速度に制限がある。 3) 顔の動きや表情の詳細を正確にエンコードすることはできない。 そこで本研究では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。 視覚トランスフォーマに基づいて,潜在ベクトルの高分解能部分を再利用し,時間的一貫性を実現する。 微妙な顔の動きや表情を捉えるために、顔のランドマークや密集した3d顔メッシュなど新しい損失をデザインする。 提案手法を徹底的に評価し,様々な顔映像操作への応用を実証した。 特に,3次元座標系におけるポーズ/表現制御のための新しいネットワークを提案する。 定性的かつ定量的な結果から,本手法は実時間(66 fps)の速度を達成しつつ,既存の単一画像法よりも大幅に優れることが示された。

Many recent works have been proposed for face image editing by leveraging the latent space of pretrained GANs. However, few attempts have been made to directly apply them to videos, because 1) they do not guarantee temporal consistency, 2) their application is limited by their processing speed on videos, and 3) they cannot accurately encode details of face motion and expression. To this end, we propose a novel network to encode face videos into the latent space of StyleGAN for semantic face video manipulation. Based on the vision transformer, our network reuses the high-resolution portion of the latent vector to enforce temporal consistency. To capture subtle face motions and expressions, we design novel losses that involve sparse facial landmarks and dense 3D face mesh. We have thoroughly evaluated our approach and successfully demonstrated its application to various face video manipulations. Particularly, we propose a novel network for pose/expression control in a 3D coordinate system. Both qualitative and quantitative results have shown that our approach can significantly outperform existing single image methods, while achieving real-time (66 fps) speed.
翻訳日:2022-06-29 02:15:20 公開日:2022-06-27
# (参考訳) 音響モデルファクトリー:生成音声モデリングのための統合システムアーキテクチャ

Sound Model Factory: An Integrated System Architecture for Generative Audio Modelling ( http://arxiv.org/abs/2206.13085v1 )

ライセンス: CC BY 4.0
Lonce Wyse, Purnima Kamath, Chitralekha Gupta(参考訳) 本稿では,GAN(Generative Adversarial Network)とRNN(Recurrent Neural Network)という,2つの異なるニューラルネットワークアーキテクチャを中心に構築されたデータ駆動型音声モデル設計システムを紹介する。 システムの目的は,対話的に制御可能な音モデルを生成することである (a)モデルが合成できるべき音の範囲、及び (b)その音の空間をナビゲートするためのパラメトリック制御の仕様 音の範囲は設計者が提供するデータセットによって定義され、ナビゲーションの手段はganによって学習された潜在空間からデータラベルとサブマニフォールドの選択の組み合わせによって定義される。 Our proposed system takes advantage of the rich latent space of a GAN that consists of sounds that fill out the spaces ''between" real data-like sounds. This augmented data from the GAN is then used to train an RNN for its ability to respond immediately and continuously to parameter changes and to generate audio over unlimited periods of time. Furthermore, we develop a self-organizing map technique for ``smoothing" the latent space of GAN that results in perceptually smooth interpolation between audio timbres. このプロセスはユーザスタディを通じて検証する。 このシステムは、補間を改善するためのシステム構成とコンポーネントを含む生成音響モデル設計のための技術の発展に寄与し、音のピッチや打楽器の音以外の音響モデリング能力をより複雑な音質空間に拡張する。

We introduce a new system for data-driven audio sound model design built around two different neural network architectures, a Generative Adversarial Network(GAN) and a Recurrent Neural Network (RNN), that takes advantage of the unique characteristics of each to achieve the system objectives that neither is capable of addressing alone. The objective of the system is to generate interactively controllable sound models given (a) a range of sounds the model should be able to synthesize, and (b) a specification of the parametric controls for navigating that space of sounds. The range of sounds is defined by a dataset provided by the designer, while the means of navigation is defined by a combination of data labels and the selection of a sub-manifold from the latent space learned by the GAN. Our proposed system takes advantage of the rich latent space of a GAN that consists of sounds that fill out the spaces ''between" real data-like sounds. This augmented data from the GAN is then used to train an RNN for its ability to respond immediately and continuously to parameter changes and to generate audio over unlimited periods of time. Furthermore, we develop a self-organizing map technique for ``smoothing" the latent space of GAN that results in perceptually smooth interpolation between audio timbres. We validate this process through user studies. The system contributes advances to the state of the art for generative sound model design that include system configuration and components for improving interpolation and the expansion of audio modeling capabilities beyond musical pitch and percussive instrument sounds into the more complex space of audio textures.
翻訳日:2022-06-29 02:12:55 公開日:2022-06-27
# (参考訳) RankSEG: セグメンテーションのための一貫性のあるランキングベースのフレームワーク

RankSEG: A Consistent Ranking-based Framework for Segmentation ( http://arxiv.org/abs/2206.13086v1 )

ライセンス: CC BY 4.0
Ben Dai and Chunlin Li(参考訳) セグメンテーションはコンピュータビジョンと自然言語処理の基本的な分野として登場し、画像/テキストから興味のある領域を抽出するために全てのピクセル/フィーチャーにラベルを割り当てる。 セグメンテーションの性能を評価するために、Dice と IoU のメトリクスを用いて、地下の真実と予測セグメンテーションの重複度を測定する。 本稿では,分節化の理論的基礎をベイズ則やダイス/iou分割を含むダイス/iouメトリクスに関して確立し,分類における分節化やフィッシャー一貫性と類似する。 Dice/IoU測定値に関して,運用損失がほとんどである既存のしきい値ベースのフレームワークは一致していないことが証明された。 そこで我々は,この落とし穴に対処するために,ベイズ分割規則のプラグインルールに触発された,新しいランキングベースフレームワークrankdice/rankiouを提案する。 大規模かつ高次元のセグメンテーションにおいて提案するフレームワークを実装するために,GPU並列実行を用いた3つの数値アルゴリズムを開発した。 提案手法の統計的特性について検討する。 我々は,dice-/iou-calibratedであり,その過大なリスク境界と収束率も示している。 RankDice/mRankDiceの数値的効果は、様々なシミュレートされた例や、最先端のディープラーニングアーキテクチャを用いたファインアノテートされたCityScapesとPascal VOCデータセットで示される。

Segmentation has emerged as a fundamental field of computer vision and natural language processing, which assigns a label to every pixel/feature to extract regions of interest from an image/text. To evaluate the performance of segmentation, the Dice and IoU metrics are used to measure the degree of overlap between the ground truth and the predicted segmentation. In this paper, we establish a theoretical foundation of segmentation with respect to the Dice/IoU metrics, including the Bayes rule and Dice/IoU-calibration, analogous to classification-calibration or Fisher consistency in classification. We prove that the existing thresholding-based framework with most operating losses are not consistent with respect to the Dice/IoU metrics, and thus may lead to a suboptimal solution. To address this pitfall, we propose a novel consistent ranking-based framework, namely RankDice/RankIoU, inspired by plug-in rules of the Bayes segmentation rule. Three numerical algorithms with GPU parallel execution are developed to implement the proposed framework in large-scale and high-dimensional segmentation. We study statistical properties of the proposed framework. We show it is Dice-/IoU-calibrated, and its excess risk bounds and the rate of convergence are also provided. The numerical effectiveness of RankDice/mRankDice is demonstrated in various simulated examples and Fine-annotated CityScapes and Pascal VOC datasets with state-of-the-art deep learning architectures.
翻訳日:2022-06-29 02:00:18 公開日:2022-06-27
# (参考訳) ライン上のコンセンサス:分散シフトによるニューラルネットワークの性能予測

Agreement-on-the-Line: Predicting the Performance of Neural Networks under Distribution Shift ( http://arxiv.org/abs/2206.13089v1 )

ライセンス: CC BY 4.0
Christina Baek, Yiding Jiang, Aditi Raghunathan, Zico Kolter(参考訳) ミラーらは最近、oodベンチマークにおいてモデルの分布内精度 (id) が、その分布外精度 (ood) と強い線形相関を持つことを示した("accuracy-on-the-line")。 モデル選択に有用なツール(つまり、最高のOODを実行する可能性が最も高いモデルは、最高のID精度を持つモデルである)であるが、この事実はラベル付きOOD検証セットにアクセスせずに実際のOOD性能を推定するのに役立ちません。 本稿では,類似するが驚くべき現象として,ニューラルネットワークの分類器のペア間の一致も示している: 精度が維持されるたびに,任意の2組のニューラルネットワーク(潜在的に異なるアーキテクチャを持つ)の予測間のood合意も,そのid合意と強い線形相関を観測する。 さらに,OOD対ID契約の傾きと偏りがOOD対IDの精度と密接に一致していることが観察された。 この現象はアグリーメント・オン・ザ・ラインと呼ばれており、ラベル付きデータがないと、oodアグリーメントはラベル付きデータだけで推定できるため、分類器のood精度を予測することができる。 予測アルゴリズムは,ライン上の一致が保持されるシフトと,精度がライン上でない場合の両方において,従来の手法よりも優れています。 この現象はまた、ディープニューラルネットワークに対する新たな洞察を与えている: 精度のオン・ザ・ラインとは異なり、コンセンサス・オン・ザ・ラインはニューラルネットワーク分類器のみを保持するように見える。

Recently, Miller et al. showed that a model's in-distribution (ID) accuracy has a strong linear correlation with its out-of-distribution (OOD) accuracy on several OOD benchmarks -- a phenomenon they dubbed ''accuracy-on-the-line''. While a useful tool for model selection (i.e., the model most likely to perform the best OOD is the one with highest ID accuracy), this fact does not help estimate the actual OOD performance of models without access to a labeled OOD validation set. In this paper, we show a similar but surprising phenomenon also holds for the agreement between pairs of neural network classifiers: whenever accuracy-on-the-line holds, we observe that the OOD agreement between the predictions of any two pairs of neural networks (with potentially different architectures) also observes a strong linear correlation with their ID agreement. Furthermore, we observe that the slope and bias of OOD vs ID agreement closely matches that of OOD vs ID accuracy. This phenomenon, which we call agreement-on-the-line, has important practical applications: without any labeled data, we can predict the OOD accuracy of classifiers}, since OOD agreement can be estimated with just unlabeled data. Our prediction algorithm outperforms previous methods both in shifts where agreement-on-the-line holds and, surprisingly, when accuracy is not on the line. This phenomenon also provides new insights into deep neural networks: unlike accuracy-on-the-line, agreement-on-the-line appears to only hold for neural network classifiers.
翻訳日:2022-06-29 01:59:02 公開日:2022-06-27
# (参考訳) AdaSparse: マルチドメインクリックスルーレート予測のための適応スパース構造学習

AdaSparse: Learning Adaptively Sparse Structures for Multi-Domain Click-Through Rate Prediction ( http://arxiv.org/abs/2206.13108v1 )

ライセンス: CC BY 4.0
Xuanhua Yang, Xiaoyu Peng, Penghui Wei, Shaoguo Liu, Liang Wang and Bo Zheng(参考訳) クリックスルー率(CTR)予測はレコメンデーションおよび広告システムにおける基本的な手法である。 近年の研究では、複数のドメインに対応する統一モデルを学ぶことが全体的なパフォーマンス向上に有効であることが証明されている。 しかし、限られたトレーニングデータの下でドメイン間の一般化を改善することは依然として困難であり、計算の複雑さのために現在のソリューションをデプロイすることは困難である。 本稿では,各領域の適応的スパース構造を学習し,計算コストの少ない領域をまたいだより良い一般化を実現するマルチドメイン ctr 予測のための,単純かつ効果的なフレームワーク adasparse を提案する。 adasparseでは、ニューロンの重要性を測定するために、ドメイン認識ニューロンレベルの重み付け因子を導入します。 さらに,学習構造のスパーシティ比を制御するために,柔軟なスパーシティ正規化も追加する。 オフラインおよびオンライン実験により、AdaSparseは従来のマルチドメインCTRモデルよりも大幅に優れていた。

Click-through rate (CTR) prediction is a fundamental technique in recommendation and advertising systems. Recent studies have proved that learning a unified model to serve multiple domains is effective to improve the overall performance. However, it is still challenging to improve generalization across domains under limited training data, and hard to deploy current solutions due to their computational complexity. In this paper, we propose a simple yet effective framework AdaSparse for multi-domain CTR prediction, which learns adaptively sparse structure for each domain, achieving better generalization across domains with lower computational cost. In AdaSparse, we introduce domain-aware neuron-level weighting factors to measure the importance of neurons, with that for each domain our model can prune redundant neurons to improve generalization. We further add flexible sparsity regularizations to control the sparsity ratio of learned structures. Offline and online experiments show that AdaSparse outperforms previous multi-domain CTR models significantly.
翻訳日:2022-06-29 01:29:41 公開日:2022-06-27
# (参考訳) k-Nearest Neighbors を用いた確率的ペトリネットによる残留時間予測の強化

Enhancing Stochastic Petri Net-based Remaining Time Prediction using k-Nearest Neighbors ( http://arxiv.org/abs/2206.13109v1 )

ライセンス: CC BY 4.0
Jarne Vandenabeele, Gilles Vermaut, Jari Peeperkorn, Jochen De Weerdt(参考訳) 進行中のビジネスプロセスの信頼性の高い残留時間予測は、非常に関連するトピックです。 例えば注文配送は、小売業における重要な競争要因であり、顧客満足度の主要な要因である。 タイムリーなデリバリを実現するためには、デリバリプロセスの残り時間の正確な予測が不可欠です。 プロセスマイニングの分野ではすでに様々な時間予測技術が提案されている。 本研究は,k-ネアレスト近傍との一般分布遷移を伴う確率ペトリネットに基づく残時間予測を拡張したものである。 k-nearest neighborsアルゴリズムは、前のアクティビティに渡された時間を保存した単純なベクター上で実行される。 インスタンスのサブセットを取るだけで、より代表的で安定なペトリネットが得られるので、より正確な時間予測が得られる。 提案手法とPythonの基本実装について論じ,拡張の予測能力を評価するために,異なる実世界のデータセットを使用する。 これらの実験は,両手法を予測力と組み合わせることの利点を示す。

Reliable remaining time prediction of ongoing business processes is a highly relevant topic. One example is order delivery, a key competitive factor in e.g. retailing as it is a main driver of customer satisfaction. For realising timely delivery, an accurate prediction of the remaining time of the delivery process is crucial. Within the field of process mining, a wide variety of remaining time prediction techniques have already been proposed. In this work, we extend remaining time prediction based on stochastic Petri nets with generally distributed transitions with k-nearest neighbors. The k-nearest neighbors algorithm is performed on simple vectors storing the time passed to complete previous activities. By only taking a subset of instances, a more representative and stable stochastic Petri Net is obtained, leading to more accurate time predictions. We discuss the technique and its basic implementation in Python and use different real world data sets to evaluate the predictive power of our extension. These experiments show clear advantages in combining both techniques with regard to predictive power.
翻訳日:2022-06-29 01:21:33 公開日:2022-06-27
# (参考訳) 関係推論を用いたマルチエージェント軌道予測のための動的グループ認識ネットワーク

Dynamic-Group-Aware Networks for Multi-Agent Trajectory Prediction with Relational Reasoning ( http://arxiv.org/abs/2206.13114v1 )

ライセンス: CC BY 4.0
Chenxin Xu, Yuxi Wei, Bohan Tang, Sheng Yin, Ya Zhang, Siheng Chen(参考訳) 過去の軌道から複数のエージェント間の相互作用をデミステレーションすることは、正確かつ解釈可能な軌道予測の基礎となる。 しかしながら、以前の著作は主に、限定的な関係推論を伴う静的かつペアワイズな相互作用を考察している。 より包括的な相互作用モデリングと関係推論を促進するために,動的グループ認識ネットワークDynGroupNetを提案する。 一 高ダイナミックな場面における時間変化相互作用のモデル化 二 対関係及び群相互作用の双方を捕獲すること。 三 直接監督することなく、相互作用の強さ及びカテゴリーの両方を理由とする。 DynGroupNetをベースとして,動的リレーショナル推論を用いた社会的に妥当な軌道の予測システムをさらに設計する。 提案手法では, ガウス混合モデル, 多重サンプリング, 予測精度を活用し, 予測の多様性, トレーニング安定性, 軌道の滑らかさをそれぞれ促進できる。 Extensive experiments show that: 1)DynGroupNet can capture time-varying group behaviors, infer time-varying interaction category and interaction strength during trajectory prediction without any relation supervision on physical simulation datasets; 2)DynGroupNet outperforms the state-of-the-art trajectory prediction methods by a significant improvement of 22.6%/28.0%, 26.9%/34.9%, 5.1%/13.0% in ADE/FDE on the NBA, NFL Football and SDD datasets and achieve the state-of-the-art performance on the ETH-UCY dataset.

Demystifying the interactions among multiple agents from their past trajectories is fundamental to precise and interpretable trajectory prediction. However, previous works mainly consider static, pair-wise interactions with limited relational reasoning. To promote more comprehensive interaction modeling and relational reasoning, we propose DynGroupNet, a dynamic-group-aware network, which can i) model time-varying interactions in highly dynamic scenes; ii) capture both pair-wise and group-wise interactions; and iii) reason both interaction strength and category without direct supervision. Based on DynGroupNet, we further design a prediction system to forecast socially plausible trajectories with dynamic relational reasoning. The proposed prediction system leverages the Gaussian mixture model, multiple sampling and prediction refinement to promote prediction diversity, training stability and trajectory smoothness, respectively. Extensive experiments show that: 1)DynGroupNet can capture time-varying group behaviors, infer time-varying interaction category and interaction strength during trajectory prediction without any relation supervision on physical simulation datasets; 2)DynGroupNet outperforms the state-of-the-art trajectory prediction methods by a significant improvement of 22.6%/28.0%, 26.9%/34.9%, 5.1%/13.0% in ADE/FDE on the NBA, NFL Football and SDD datasets and achieve the state-of-the-art performance on the ETH-UCY dataset.
翻訳日:2022-06-29 01:01:26 公開日:2022-06-27
# (参考訳) アンサンブルのための伝達学習:計算時間削減と多様性維持

Transfer learning for ensembles: reducing computation time and keeping the diversity ( http://arxiv.org/abs/2206.13116v1 )

ライセンス: CC0 1.0
Ilya Shashkov and Nikita Balabin and Evgeny Burnaev and Alexey Zaytsev(参考訳) ある問題でトレーニングされたディープニューラルネットワークを別の問題に転送するには、少量のデータと追加の計算時間が必要だ。 同じ振る舞いは、一般的に1つのモデルよりも優れたディープラーニングモデルのアンサンブルに当てはまる。 しかし、ディープニューラルネットワークのアンサンブルの転送は比較的高い計算コストを必要とする。 オーバーフィッティングの確率も増加する。 アンサンブルの伝達学習への我々のアプローチは2つのステップから構成される。 (a)アンサンブル内の全てのモデルのエンコーダの重みを1つのシフトベクトルでシフトし、 (b)その後、各モデルごとに微調整を行う。 この戦略はトレーニングプロセスのスピードアップにつながり、シフトベクトルを使用してトレーニング時間を大幅に短縮したアンサンブルにモデルを追加する機会を与える。 提案手法は,計算時間,アンサンブルの精度,不確実性推定,不一致による異なる戦略を比較し,従来の手法と同等の計算複雑性を用いた競合結果を与えると結論づける。 また,本手法では,アンサンブルモデルの多様性を向上する。

Transferring a deep neural network trained on one problem to another requires only a small amount of data and little additional computation time. The same behaviour holds for ensembles of deep learning models typically superior to a single model. However, a transfer of deep neural networks ensemble demands relatively high computational expenses. The probability of overfitting also increases. Our approach for the transfer learning of ensembles consists of two steps: (a) shifting weights of encoders of all models in the ensemble by a single shift vector and (b) doing a tiny fine-tuning for each individual model afterwards. This strategy leads to a speed-up of the training process and gives an opportunity to add models to an ensemble with significantly reduced training time using the shift vector. We compare different strategies by computation time, the accuracy of an ensemble, uncertainty estimation and disagreement and conclude that our approach gives competitive results using the same computation complexity in comparison with the traditional approach. Also, our method keeps the ensemble's models' diversity higher.
翻訳日:2022-06-29 00:21:05 公開日:2022-06-27
# (参考訳) 集中型ゲームにおけるコミットに対する最適プライベートペイオフ操作

Optimal Private Payoff Manipulation against Commitment in Extensive-form Games ( http://arxiv.org/abs/2206.13119v1 )

ライセンス: CC BY 4.0
Yurong Chen, Xiaotie Deng, Yuhao Li(参考訳) 戦略のコミットメント(ゲームプレイの有用な戦術)を利用するには、リーダーはフォロワーの支払い機能に関する十分な情報を学ぶ必要がある。 しかし、これはフォロワーにフェイク情報を提供し、最終ゲーム結果に影響を与える機会を与える。 学習リーダーに誤って報告された注意深い報酬関数を通じて、フォロワーは、真に振る舞うときと比較して、より多くの利益をもたらす結果を引き起こす可能性がある。 広義のゲームにおいて,このような戦略行動を通じて従者の最適操作について検討する。 フォロワーの異なる態度が考慮される。 楽観的なフォロワーは、あるペイオフ関数によって引き起こされる全てのゲーム結果の中で、彼の真の有用性を最大化する。 悲観的なフォロワーは、ユニークなゲーム結果をもたらす誤報のペイオフ機能のみを考慮する。 本稿では,本論文で考慮したすべての設定に対して,成功に導出可能なゲーム結果をすべて特徴付ける。 従者が自己の個人的報酬情報を誤報する最適な方法を見つけることは,多項式時間にかかわることを示す。 我々の研究は、広義のゲームツリー上のこの追従者の最適操作問題を完全に解決する。

To take advantage of strategy commitment, a useful tactic of playing games, a leader must learn enough information about the follower's payoff function. However, this leaves the follower a chance to provide fake information and influence the final game outcome. Through a carefully contrived payoff function misreported to the learning leader, the follower may induce an outcome that benefits him more, compared to the ones when he truthfully behaves. We study the follower's optimal manipulation via such strategic behaviors in extensive-form games. Followers' different attitudes are taken into account. An optimistic follower maximizes his true utility among all game outcomes that can be induced by some payoff function. A pessimistic follower only considers misreporting payoff functions that induce a unique game outcome. For all the settings considered in this paper, we characterize all the possible game outcomes that can be induced successfully. We show that it is polynomial-time tractable for the follower to find the optimal way of misreporting his private payoff information. Our work completely resolves this follower's optimal manipulation problem on an extensive-form game tree.
翻訳日:2022-06-29 00:12:25 公開日:2022-06-27
# (参考訳) 医用画像分類のための特徴分散とGCNを用いた教師なし領域適応

Unsupervised Domain Adaptation Using Feature Disentanglement And GCNs For Medical Image Classification ( http://arxiv.org/abs/2206.13123v1 )

ライセンス: CC0 1.0
Dwarikanath Mahapatra(参考訳) ディープラーニングの成功は、多くの医療画像分析タスクのための新しいベンチマークを設定した。 しかし、深層モデルは、トレーニング(ソース)データとテスト(ターゲット)データの間の分散シフトの存在を一般化できないことが多い。 分布シフトに対応するために一般的に使用される方法のひとつがドメイン適応(domain adaptation)である。 本研究では,非教師なし領域適応手法を提案する。この手法では,グラフニューラルネットワークとアンタングル型セマンティックおよびドメイン不変な構造的特徴を用いて,分散シフト間の性能向上を実現する。 より識別的な特徴を得るために,スワップされたオートエンコーダの拡張を提案する。 そこで本研究では,マルチセンター胸部X線像と病理像の2つの挑戦的医用画像データセットの分類法を検討した。 実験により,本手法は他の領域適応法と比較して最先端の結果を得た。

The success of deep learning has set new benchmarks for many medical image analysis tasks. However, deep models often fail to generalize in the presence of distribution shifts between training (source) data and test (target) data. One method commonly employed to counter distribution shifts is domain adaptation: using samples from the target domain to learn to account for shifted distributions. In this work we propose an unsupervised domain adaptation approach that uses graph neural networks and, disentangled semantic and domain invariant structural features, allowing for better performance across distribution shifts. We propose an extension to swapped autoencoders to obtain more discriminative features. We test the proposed method for classification on two challenging medical image datasets with distribution shifts - multi center chest Xray images and histopathology images. Experiments show our method achieves state-of-the-art results compared to other domain adaptation methods.
翻訳日:2022-06-29 00:11:13 公開日:2022-06-27
# (参考訳) アーキテクチャを意識した知識蒸留: 小さなモデルとより高速な探索

Revisiting Architecture-aware Knowledge Distillation: Smaller Models and Faster Search ( http://arxiv.org/abs/2206.13130v1 )

ライセンス: CC0 1.0
Taehyeon Kim, Heesoo Myeong, Se-Young Yun(参考訳) ニューラルネットワークを圧縮する一般的な方法として、KD(Knowledge Distillation)が最近登場した。 近年,学生モデルのパラメータと構造を同時に発見する汎用蒸留法が提案されている。 しかし、この探索法はアーキテクチャの探索に多くの計算を必要とするため、その探索空間における畳み込みブロックのみを考慮するという欠点がある。 本稿では,信頼領域のベイズ最適化手法を用いて,複数の最先端アーキテクチャから有効な学生アーキテクチャを迅速に発見できる,信頼領域認識アーキテクチャ探索(Trust Region Aware Architecture Search to Distill Knowledge Effectively,TRADE)を提案する。 実験の結果,提案手法は従来のnasアプローチとkdトレーニングによる事前定義アーキテクチャとを一貫して上回っていることがわかった。

Knowledge Distillation (KD) has recently emerged as a popular method for compressing neural networks. In recent studies, generalized distillation methods that find parameters and architectures of student models at the same time have been proposed. Still, this search method requires a lot of computation to search for architectures and has the disadvantage of considering only convolutional blocks in their search space. This paper introduces a new algorithm, coined as Trust Region Aware architecture search to Distill knowledge Effectively (TRADE), that rapidly finds effective student architectures from several state-of-the-art architectures using trust region Bayesian optimization approach. Experimental results show our proposed TRADE algorithm consistently outperforms both the conventional NAS approach and pre-defined architecture under KD training.
翻訳日:2022-06-28 23:51:44 公開日:2022-06-27
# (参考訳) 脊椎癌検出・放射線治療用コンテキスト対応トランス

Context-Aware Transformers For Spinal Cancer Detection and Radiological Grading ( http://arxiv.org/abs/2206.13173v1 )

ライセンス: CC BY 4.0
Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman(参考訳) 本稿では,脊椎分析に関わる医療画像問題に対するトランスフォーマーモデルアーキテクチャを提案する。 MR画像におけるそのようなモデルの2つの応用について考察する。 (a)脊椎転移の検出と脊椎骨折および転移性脊髄圧迫の関連状況 b) 椎間板の一般的な変性変化の放射線学的評価 私たちの貢献は次のとおりです。 (i)椎体(vbs)などの医用画像における繰り返し解剖学的構造の分析に適した深層学習アーキテクチャである脊椎コンテクストトランスフォーマ(sct)を提案する。 従来の関連手法とは異なり、SCTは全てのVBを、すべての利用可能な画像モダリティで一緒に見るものとみなし、他の柱のコンテキストと全ての利用可能な画像モダリティに基づいて予測を行う。 (II) 脊髄転移と脊髄圧迫・脊椎骨折・骨折の関連病態を多系統MR画像から検出し, 新規かつ重要な課題にアーキテクチャを適用した。 これは自発的なアノテーションとは対照的に、フリーテキストの放射線レポートから抽出されたアノテーションを使って行われる。 しかし, 得られたモデルでは, テストセット上の脊椎レベルのビースポーク放射線学アノテーションと強い一致を示した。 (iii)腰椎mriにおける椎間板(ivd)の放射線分解を共通の変性変化に応用し,画像中の椎間板のコンテクストを考慮すれば,前報のモデルと比較して数グレーディングの精度が向上することを示す。

This paper proposes a novel transformer-based model architecture for medical imaging problems involving analysis of vertebrae. It considers two applications of such models in MR images: (a) detection of spinal metastases and the related conditions of vertebral fractures and metastatic cord compression, (b) radiological grading of common degenerative changes in intervertebral discs. Our contributions are as follows: (i) We propose a Spinal Context Transformer (SCT), a deep-learning architecture suited for the analysis of repeated anatomical structures in medical imaging such as vertebral bodies (VBs). Unlike previous related methods, SCT considers all VBs as viewed in all available image modalities together, making predictions for each based on context from the rest of the spinal column and all available imaging modalities. (ii) We apply the architecture to a novel and important task: detecting spinal metastases and the related conditions of cord compression and vertebral fractures/collapse from multi-series spinal MR scans. This is done using annotations extracted from free-text radiological reports as opposed to bespoke annotation. However, the resulting model shows strong agreement with vertebral-level bespoke radiologist annotations on the test set. (iii) We also apply SCT to an existing problem: radiological grading of inter-vertebral discs (IVDs) in lumbar MR scans for common degenerative changes.We show that by considering the context of vertebral bodies in the image, SCT improves the accuracy for several gradings compared to previously published model.
翻訳日:2022-06-28 23:30:00 公開日:2022-06-27
# (参考訳) 組合せ最適化のための局所探索制御の学習

Learning to Control Local Search for Combinatorial Optimization ( http://arxiv.org/abs/2206.13181v1 )

ライセンス: CC BY 4.0
Jonas K. Falkner, Daniela Thyssens, Ahmad Bdeir, and Lars Schmidt-Thieme(参考訳) 組合せ最適化問題はロジスティクスや生産といった多くの実践的な文脈で遭遇するが、厳密な解を見つけることは特に困難であり、問題のサイズではnp困難である。 近似解を計算するために、一般の動物園や局所探索の問題を特定できる変種が一般的に用いられる。 しかしながら、特定の問題に適用すべきバリエーションは、専門家であっても決定が難しい。 本稿では,これらの局所探索アルゴリズムの3つの独立したアルゴリズム的側面を同定し,マルコフ決定プロセス(MDP)として最適化プロセス上での逐次選択を形式化する。 我々は、このMDPのポリシーモデルとしてディープグラフニューラルネットワークを設計し、NeuroLSと呼ばれるローカルサーチのための学習コントローラを得る。 実験的な証拠は、NeuroLSがOperations Researchの一般的なローカルサーチコントローラと最新の機械学習ベースのアプローチの両方より優れていることを示している。

Combinatorial optimization problems are encountered in many practical contexts such as logistics and production, but exact solutions are particularly difficult to find and usually NP-hard for considerable problem sizes. To compute approximate solutions, a zoo of generic as well as problem-specific variants of local search is commonly used. However, which variant to apply to which particular problem is difficult to decide even for experts. In this paper we identify three independent algorithmic aspects of such local search algorithms and formalize their sequential selection over an optimization process as Markov Decision Process (MDP). We design a deep graph neural network as policy model for this MDP, yielding a learned controller for local search called NeuroLS. Ample experimental evidence shows that NeuroLS is able to outperform both, well-known general purpose local search controllers from Operations Research as well as latest machine learning-based approaches.
翻訳日:2022-06-28 22:32:22 公開日:2022-06-27
# (参考訳) 個人化フェデレーション学習の実証的研究

An Empirical Study of Personalized Federated Learning ( http://arxiv.org/abs/2206.13190v1 )

ライセンス: CC BY 4.0
Koji Matsuda, Yuya Sasaki, Chuan Xiao, Makoto Onizuka(参考訳) フェデレートラーニング(Federated Learning)とは、単一のサーバと複数のクライアントが、クライアントでデータセットを共有することなく、共同で機械学習モデルを構築する分散機械学習アプローチである。 フェデレーション学習の課題は、データ不均一性(すなわち、クライアント間でデータ分散が異なる場合がある)である。 この問題に対処するため、多数のフェデレーション学習手法は、パーソナライズされたフェデレーション学習を目標とし、クライアント向けに最適化されたモデルを構築する。 既存の研究が独自の手法を実証的に評価しているのに対して、これらの研究における実験的な設定(例:比較方法、データセット、クライアント設定)は互いに異なり、どの個人化されたフェデレート学習方法が最高の性能を達成するのか、そして、標準(すなわち非個人化)フェデレーション学習の代わりにこれらの方法を用いることで、どの程度進歩できるのかは明らかではない。 本稿では,各手法の特性を評価するための総合的な実験を通じて,既存の個人化フェデレーション学習の性能をベンチマークする。 実験の結果,(1)チャンピオン法は存在せず,(2)大規模データの不均一性は高い精度の予測につながることが多く,(3)ファインチューニングによる標準フェデレーション学習法(FedAvgなど)は,パーソナライズされたフェデレーション学習法よりも優れていることがわかった。 ベンチマークツールであるFedBenchを公開し、様々な実験環境を用いて実験実験を行う。

Federated learning is a distributed machine learning approach in which a single server and multiple clients collaboratively build machine learning models without sharing datasets on clients. A challenging issue of federated learning is data heterogeneity (i.e., data distributions may differ across clients). To cope with this issue, numerous federated learning methods aim at personalized federated learning and build optimized models for clients. Whereas existing studies empirically evaluated their own methods, the experimental settings (e.g., comparison methods, datasets, and client setting) in these studies differ from each other, and it is unclear which personalized federate learning method achieves the best performance and how much progress can be made by using these methods instead of standard (i.e., non-personalized) federated learning. In this paper, we benchmark the performance of existing personalized federated learning through comprehensive experiments to evaluate the characteristics of each method. Our experimental study shows that (1) there are no champion methods, (2) large data heterogeneity often leads to high accurate predictions, and (3) standard federated learning methods (e.g. FedAvg) with fine-tuning often outperform personalized federated learning methods. We open our benchmark tool FedBench for researchers to conduct experimental studies with various experimental settings.
翻訳日:2022-06-28 21:56:53 公開日:2022-06-27
# (参考訳) クラゲハンマーでナッツを割る:現代のグラフニューラルネットワークが古典的な欲求アルゴリズムよりも悪いとき

Cracking nuts with a sledgehammer: when modern graph neural networks do worse than classical greedy algorithms ( http://arxiv.org/abs/2206.13211v1 )

ライセンス: CC BY-SA 4.0
Maria Chiara Angelini, Federico Ricci-Tersenghi(参考訳) 近年の '‘Combinatorial Optimization with Physics-Inspired Graph Neural Networks'' [Nat Mach Intell 4 (2022) 367] は、スパースグラフの組合せ最適化問題を解決するために、物理にインスパイアされた教師なしグラフニューラルネットワーク (GNN) を導入している。 これらのGNNの性能をテストするため、著者らは最大カットと最大独立セット(MIS)という2つの基本的な問題に対して数値的な結果を示した。 彼らは、"グラフニューラルネットワークオプティマイザは、既存のソルバを同等あるいは上回るパフォーマンスで実行し、最先端のスケールを数百万の変数の問題に拡張する能力を持つ"と結論付けている。このコメントでは、ほぼ線形時間で実行される単純なグレディアルゴリズムが、GNNよりもはるかに優れた品質のMIS問題の解決策を見つけることができることを示した。 グレディアルゴリズムは、100万変数の問題に対して、GNNに対して10^4$の係数で高速である。 これらのGNNでMISを解く理由や、ハンマーを使ってナッツを割る理由がよく分からない。 一般に、組合せ問題の解決におけるニューラルネットワークの優位性の主張の多くは、本当に難しい問題に基づく標準ベンチマークが欠如しているため、十分に堅固でないリスクがある。 このようなハードベンチマークの1つを提案し、優越性が主張される前に、将来のニューラルネットワークオプティマイザがこれらの問題でテストされることを望んでいる。

The recent work ``Combinatorial Optimization with Physics-Inspired Graph Neural Networks'' [Nat Mach Intell 4 (2022) 367] introduces a physics-inspired unsupervised Graph Neural Network (GNN) to solve combinatorial optimization problems on sparse graphs. To test the performances of these GNNs, the authors of the work show numerical results for two fundamental problems: maximum cut and maximum independent set (MIS). They conclude that "the graph neural network optimizer performs on par or outperforms existing solvers, with the ability to scale beyond the state of the art to problems with millions of variables." In this comment, we show that a simple greedy algorithm, running in almost linear time, can find solutions for the MIS problem of much better quality than the GNN. The greedy algorithm is faster by a factor of $10^4$ with respect to the GNN for problems with a million variables. We do not see any good reason for solving the MIS with these GNN, as well as for using a sledgehammer to crack nuts. In general, many claims of superiority of neural networks in solving combinatorial problems are at risk of being not solid enough, since we lack standard benchmarks based on really hard problems. We propose one of such hard benchmarks, and we hope to see future neural network optimizers tested on these problems before any claim of superiority is made.
翻訳日:2022-06-28 21:44:06 公開日:2022-06-27
# (参考訳) ターゲット認識型プロンプト蒸留による短距離スタンス検出

Few-Shot Stance Detection via Target-Aware Prompt Distillation ( http://arxiv.org/abs/2206.13214v1 )

ライセンス: CC BY 4.0
Yan Jiang, Jinhua Gao, Huawei Shen, Xueqi Cheng(参考訳) スタンス検出は、テキストの著者が特定のターゲットに対して有利か、反対か、中立かを特定することを目的としている。 このタスクの主な課題は2つある: さまざまなターゲットとターゲットのコンテキスト情報の欠如から生じる、わずかなショット学習。 既存の作業は主に注意ベースのモデルの設計やノイズの多い外部知識の導入による第2の問題の解決に重点を置いている。 本稿では,予備学習型言語モデル (plm) の知識ベースおよび少数学習者としての潜在能力に着想を得て,姿勢検出のためのプロンプトに基づく微調整を提案する。 PLMは、ターゲットに対して重要なコンテキスト情報を提供し、プロンプトを介して数発の学習を可能にする。 スタンス検出タスクにおけるターゲットの役割を考えると,ターゲット認識プロンプトを設計し,新しい言語化手法を提案する。 それぞれのラベルを具体的な単語にマッピングするのではなく、各ラベルをベクトルにマッピングし、スタンスとターゲットの相関を最もよく捉えるラベルを選択します。 さらに,複数のプロンプトから得られた情報を,手作りのプロンプトで処理することの欠点を解消するために,複数のプロンプトから得られた情報を蒸留することを提案する。 実験結果から,提案モデルの性能は実データと少数ショットの両方で良好であった。

Stance detection aims to identify whether the author of a text is in favor of, against, or neutral to a given target. The main challenge of this task comes two-fold: few-shot learning resulting from the varying targets and the lack of contextual information of the targets. Existing works mainly focus on solving the second issue by designing attention-based models or introducing noisy external knowledge, while the first issue remains under-explored. In this paper, inspired by the potential capability of pre-trained language models (PLMs) serving as knowledge bases and few-shot learners, we propose to introduce prompt-based fine-tuning for stance detection. PLMs can provide essential contextual information for the targets and enable few-shot learning via prompts. Considering the crucial role of the target in stance detection task, we design target-aware prompts and propose a novel verbalizer. Instead of mapping each label to a concrete word, our verbalizer maps each label to a vector and picks the label that best captures the correlation between the stance and the target. Moreover, to alleviate the possible defect of dealing with varying targets with a single hand-crafted prompt, we propose to distill the information learned from multiple prompts. Experimental results show the superior performance of our proposed model in both full-data and few-shot scenarios.
翻訳日:2022-06-28 21:37:31 公開日:2022-06-27
# (参考訳) 脳の中枢内包と構成と文脈自由言語の新たな特徴付け

Center-Embedding and Constituency in the Brain and a New Characterization of Context-Free Languages ( http://arxiv.org/abs/2206.13217v1 )

ライセンス: CC BY 4.0
Daniel Mitropolsky, Adiba Ejaz, Mirah Shi, Mihalis Yannakakis, Christos H. Papadimitriou(参考訳) ニューロンのスパイキングによってのみ実装された計算システムは、最近、単純な英語文の係り受け解析を実行するという構文の能力を示した。 我々は,その作業で残された2つの重要な質問に対処する: 選挙区(動詞句などの文のキー部分の識別)と,従属文,特に中心埋め込み文の処理である。 これら2つの言語側面は、言語器官の構造と機能に関する既知の、あるいは広く信じられているものと互換性のある方法で、ニューロンやシナプスによっても実装可能であることを示す。 驚いたことに、センタ埋め込みポイントの実装方法は、文脈自由言語の新たな特徴である。

A computational system implemented exclusively through the spiking of neurons was recently shown capable of syntax, that is, of carrying out the dependency parsing of simple English sentences. We address two of the most important questions left open by that work: constituency (the identification of key parts of the sentence such as the verb phrase) and the processing of dependent sentences, especially center-embedded ones. We show that these two aspects of language can also be implemented by neurons and synapses in a way that is compatible with what is known, or widely believed, about the structure and function of the language organ. Surprisingly, the way we implement center embedding points to a new characterization of context-free languages.
翻訳日:2022-06-28 21:19:55 公開日:2022-06-27
# (参考訳) クロスドメインレコメンデーションのための知識認識型ニューラルネットワーク行列分解

Knowledge-aware Neural Collective Matrix Factorization for Cross-domain Recommendation ( http://arxiv.org/abs/2206.13255v1 )

ライセンス: CC BY 4.0
Li Zhang, Yan Ge, Jun Ma, Jianmo Ni, Haiping Lu(参考訳) クロスドメインレコメンデーション(CDR)は、異なるドメインでより満足なアイテムを見つけるのに役立つ。 既存のcdrモデルは、主にドメイン間の橋渡しとして共通ユーザやマッピング機能を使用するが、ドメイン間の知識を十分に活用する探索は非常に限られている。 本稿では,CDRのための知識グラフ(KG)を導入することを提案する。 この目的のために、我々はまずFreebase KGとAmazon Review Dataのサブセット(2つのドメインペア:映画音楽、映画ブック)からAmazonKG4CDRのデータセットを構築した。 この新しいデータセットは、知識とcdrのブリッジ内およびクロスドメインアイテムのリンクを容易にする。 そこで本研究では,kg-aware neural collective matrix factorization (kg-neucmf) という新しい枠組みを提案する。 まず、グラフ畳み込みオートエンコーダを用いてアイテム埋め込みを学習し、KGの隣接および高次隣人からドメイン固有知識とドメイン一般知識の両方をキャプチャする。 そして,KGから学習した項目埋め込みとユーザ-イットマトリクスの相互情報を最大化し,ドメイン間関係を確立することにより,より優れたCDRを実現する。 最後に、新たに構築したデータセットに関する広範な実験を行い、我々のモデルが最高のパフォーマンスのベースラインを大幅に上回ることを示す。

Cross-domain recommendation (CDR) can help customers find more satisfying items in different domains. Existing CDR models mainly use common users or mapping functions as bridges between domains but have very limited exploration in fully utilizing extra knowledge across domains. In this paper, we propose to incorporate the knowledge graph (KG) for CDR, which enables items in different domains to share knowledge. To this end, we first construct a new dataset AmazonKG4CDR from the Freebase KG and a subset (two domain pairs: movies-music, movie-book) of Amazon Review Data. This new dataset facilitates linking knowledge to bridge within- and cross-domain items for CDR. Then we propose a new framework, KG-aware Neural Collective Matrix Factorization (KG-NeuCMF), leveraging KG to enrich item representations. It first learns item embeddings by graph convolutional autoencoder to capture both domain-specific and domain-general knowledge from adjacent and higher-order neighbours in the KG. Then, we maximize the mutual information between item embeddings learned from the KG and user-item matrix to establish cross-domain relationships for better CDR. Finally, we conduct extensive experiments on the newly constructed dataset and demonstrate that our model significantly outperforms the best-performing baselines.
翻訳日:2022-06-28 21:03:00 公開日:2022-06-27
# (参考訳) 有限小岩次元と有限情報複雑度

Finite Littlestone Dimension Implies Finite Information Complexity ( http://arxiv.org/abs/2206.13257v1 )

ライセンス: CC BY 4.0
Aditya Pradeep, Ido Nachum, Michael Gastpar(参考訳) 我々は、Littlestone次元のあらゆるオンライン学習可能な関数のクラスが、有限情報複雑性を持つ学習アルゴリズムを認めることを証明した。 この目的のために、グローバルに安定なアルゴリズムという概念を用いる。 一般に、このようなグローバル安定アルゴリズムの情報複雑性は大きいが有限であり、概ね指数関数的に$d$である。 標準的なオンライン学習可能なクラスでは、次元$d$のアフィン部分空間のインジケータ関数は、情報複雑性を$d$で対数的に上界化することができる。

We prove that every online learnable class of functions of Littlestone dimension $d$ admits a learning algorithm with finite information complexity. Towards this end, we use the notion of a globally stable algorithm. Generally, the information complexity of such a globally stable algorithm is large yet finite, roughly exponential in $d$. We also show there is room for improvement; for a canonical online learnable class, indicator functions of affine subspaces of dimension $d$, the information complexity can be upper bounded logarithmically in $d$.
翻訳日:2022-06-28 20:50:01 公開日:2022-06-27
# (参考訳) 二元系および三元系ニューラルネットワークの表現力

Expressive power of binary and ternary neural networks ( http://arxiv.org/abs/2206.13280v1 )

ライセンス: CC BY 4.0
Aleksandr Beknazaryan(参考訳) 3次重みの深いReLUネットワークと2次重みの深いReLUネットワークは、[0,1]^d$で$\beta$-H\"older関数を近似できることを示す。 また、[0,1]^d$ 上の H より古い連続函数は、二進活性化関数 $\mathds{1}_{[0,1)}$ を持つ深さ 2$ のネットワークによって近似することができる。

We show that deep sparse ReLU networks with ternary weights and deep ReLU networks with binary weights can approximate $\beta$-H\"older functions on $[0,1]^d$. Also, H\"older continuous functions on $[0,1]^d$ can be approximated by networks of depth $2$ with binary activation function $\mathds{1}_{[0,1)}$.
翻訳日:2022-06-28 20:39:16 公開日:2022-06-27
# (参考訳) 半透明ボリュームレンダリングのための単眼深度推定

Monocular Depth Estimation for Semi-Transparent Volume Renderings ( http://arxiv.org/abs/2206.13282v1 )

ライセンス: CC BY 4.0
Dominik Engel, Sebastian Hartwig, Timo Ropinski(参考訳) ニューラルネットワークは、カラー画像から幾何学的情報を抽出することに成功した。 特に,実世界のシーンでは,単眼深度推定ネットワークの信頼性が増している。 本研究では,このような単眼深度推定ネットワークの半透明ボリュームレンダリング画像への適用性について検討する。 表面が明確に定義されていないボリュームシーンでは、深度を定義できないため、実際に現れた異なる深度計算を考慮し、レンダリングにおける不透明度を考慮した評価において、これらの異なる解釈に対する最先端の単眼深度推定手法を比較した。 さらに,これらのネットワークを拡張して色や不透明度情報をさらに得ることにより,シーンの階層表現を単一カラー画像に基づいて作成する方法について検討する。 この階層表現は、空間的に分離された半透明区間からなり、元の入力レンダリングに合成される。 実験では,単眼深度推定への既存手法の適用が,科学的可視化の分野においていくつかの応用がある半透明ボリュームレンダリング上で有効であることを示す。

Neural networks have shown great success in extracting geometric information from color images. Especially, monocular depth estimation networks are increasingly reliable in real-world scenes. In this work we investigate the applicability of such monocular depth estimation networks to semi-transparent volume rendered images. As depth is notoriously difficult to define in a volumetric scene without clearly defined surfaces, we consider different depth computations that have emerged in practice, and compare state-of-the-art monocular depth estimation approaches for these different interpretations during an evaluation considering different degrees of opacity in the renderings. Additionally, we investigate how these networks can be extended to further obtain color and opacity information, in order to create a layered representation of the scene based on a single color image. This layered representation consists of spatially separated semi-transparent intervals that composite to the original input rendering. In our experiments we show that adaptions of existing approaches to monocular depth estimation perform well on semi-transparent volume renderings, which has several applications in the area of scientific visualization.
翻訳日:2022-06-28 20:31:58 公開日:2022-06-27
# (参考訳) どちらが有毒ですか。 ToxicコメントのJigsawレートの重大さからの発見

Which one is more toxic? Findings from Jigsaw Rate Severity of Toxic Comments ( http://arxiv.org/abs/2206.13284v1 )

ライセンス: CC BY 4.0
Millon Madhur Das, Punyajoy Saha, Mithun Das(参考訳) オンラインヘイトスピーチの普及は、毒性を検出するアルゴリズムの作成を必要とした。 過去の研究のほとんどは、この検出を分類タスクとして焦点を当てているが、絶対毒性ラベルの割り当ては難しいことが多い。 したがって、過去の作業のほとんどは、同じタスクを回帰に変換する。 本稿では,Jigsaw が最近リリースした毒性度測定データセットを用いて,異なるトランスフォーマーと従来の機械学習モデルの比較評価を行った。 さらに、説明可能性分析を用いてモデル予測の問題を示す。

The proliferation of online hate speech has necessitated the creation of algorithms which can detect toxicity. Most of the past research focuses on this detection as a classification task, but assigning an absolute toxicity label is often tricky. Hence, few of the past works transform the same task into a regression. This paper shows the comparative evaluation of different transformers and traditional machine learning models on a recently released toxicity severity measurement dataset by Jigsaw. We further demonstrate the issues with the model predictions using explainability analysis.
翻訳日:2022-06-28 20:25:57 公開日:2022-06-27
# (参考訳) トランスフォーマー言語モデルにおける符号化概念の解析

Analyzing Encoded Concepts in Transformer Language Models ( http://arxiv.org/abs/2206.13289v1 )

ライセンス: CC BY 4.0
Hassan Sajjad, Nadir Durrani, Fahim Dalvi, Firoj Alam, Abdul Rafae Khan, Jia Xu(参考訳) 本稿では,事前学習した言語モデルで学習した表現に潜在概念がどのようにエンコードされるかを分析するための新しいフレームワークであるconceptxを提案する。 クラスタリングを使用して、符号化された概念を発見し、人間の定義した概念の大規模なセットと整合してそれらを説明する。 7つのトランスフォーマー言語モデルの解析から、興味深い知見が得られます。 一 学習した表現の中の潜伏空間は、異なる言語概念と異なる程度に重複していること。 二 モデルの下位層は、語彙的概念(例えば、接尾辞)によって支配される一方、中層と上位層では、中型言語学的な概念(例えば、形態的・統語的関係)がよりよく表される。 三 符号化された概念のいくつかは多面的であり、既存の人間定義概念を用いて適切に説明できない。

We propose a novel framework ConceptX, to analyze how latent concepts are encoded in representations learned within pre-trained language models. It uses clustering to discover the encoded concepts and explains them by aligning with a large set of human-defined concepts. Our analysis on seven transformer language models reveal interesting insights: i) the latent space within the learned representations overlap with different linguistic concepts to a varying degree, ii) the lower layers in the model are dominated by lexical concepts (e.g., affixation), whereas the core-linguistic concepts (e.g., morphological or syntactic relations) are better represented in the middle and higher layers, iii) some encoded concepts are multi-faceted and cannot be adequately explained using the existing human-defined concepts.
翻訳日:2022-06-28 20:19:00 公開日:2022-06-27
# (参考訳) リプシッツの滑らかさを伴わないハイパーパラメータを用いたアダムの理論解析

Theoretical analysis of Adam using hyperparameters close to one without Lipschitz smoothness ( http://arxiv.org/abs/2206.13290v1 )

ライセンス: CC BY 4.0
Hideaki Iiduka(参考訳) アダプティブモーメント推定(Adam)などの適応的手法の収束と収束率解析は、非凸最適化のために広く研究されている。 解析は、期待値または経験値の平均損失関数がリプシッツ滑らか(つまり、その勾配はリプシッツ連続)であり、学習率はリプシッツ連続勾配のリプシッツ定数に依存するという仮定に基づいている。 一方、adamとその変異体の数値評価では、リプシッツ定数やハイパーパラメータに依存することなく小さな定数学習率(\beta_1$と$\beta_2$)を使用することで、ディープニューラルネットワークのトレーニングに有利であることが示されている。 リプシッツ定数の計算はNPハードであるため、リプシッツの滑らかさ条件は非現実的である。 本稿では,理論と実践のギャップを埋めるため,リプシッツ平滑性条件を仮定せずにアダムの理論解析を行う。 主な貢献は、アダムが小さい学習率と1に近いハイパーパラメータを使用するという理論的な証拠を示すことであるが、以前の理論結果はいずれも0に近いハイパーパラメータについてであった。 私たちの分析は、Adamが大きなバッチサイズでうまく機能していることにもつながります。 さらに,Adamは学習率の低下やハイパーパラメータが1に近い場合,その性能がよいことを示す。

Convergence and convergence rate analyses of adaptive methods, such as Adaptive Moment Estimation (Adam) and its variants, have been widely studied for nonconvex optimization. The analyses are based on assumptions that the expected or empirical average loss function is Lipschitz smooth (i.e., its gradient is Lipschitz continuous) and the learning rates depend on the Lipschitz constant of the Lipschitz continuous gradient. Meanwhile, numerical evaluations of Adam and its variants have clarified that using small constant learning rates without depending on the Lipschitz constant and hyperparameters ($\beta_1$ and $\beta_2$) close to one is advantageous for training deep neural networks. Since computing the Lipschitz constant is NP-hard, the Lipschitz smoothness condition would be unrealistic. This paper provides theoretical analyses of Adam without assuming the Lipschitz smoothness condition in order to bridge the gap between theory and practice. The main contribution is to show theoretical evidence that Adam using small learning rates and hyperparameters close to one performs well, whereas the previous theoretical results were all for hyperparameters close to zero. Our analysis also leads to the finding that Adam performs well with large batch sizes. Moreover, we show that Adam performs well when it uses diminishing learning rates and hyperparameters close to one.
翻訳日:2022-06-28 19:57:05 公開日:2022-06-27
# (参考訳) 幾何学習による放射線治療におけるセグメンテーション誤差の自動同定

Automatic identification of segmentation errors for radiotherapy using geometric learning ( http://arxiv.org/abs/2206.13317v1 )

ライセンス: CC BY 4.0
Edward G. A. Henderson, Andrew F. Green, Marcel van Herk, Eliana M. Vasquez Osorio(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたCTスキャンにおけるオルガン・アット・リスク(OAR)の自動セグメンテーションが放射線治療ワークフローに導入されている。 しかし、これらのセグメンテーションは、臨床使用に先立って臨床医による手作業による編集と承認を必要とする。 この研究の目的は、3D OARセグメンテーションにおけるエラーを自動的に識別するツールを開発することであった。 我々のツールは,CNNとグラフニューラルネットワーク(GNN)を組み合わせた新しいアーキテクチャを用いて,セグメンテーションの外観と形状を利用する。 提案モデルは,耳下腺の分節の合成データセットとリアルなコントゥーリング誤りを用いた自己教師学習を用いて訓練される。 本モデルの有効性をアブレーションテストで評価し,アーキテクチャの異なる部分の有効性を評価し,教師なし前文タスクからの転送学習の利用を評価した。 最高性能モデルでは耳下腺の誤差を85.0%, 内外誤差89.7%と予測し, 66.5%, 68.6%を再現した。 このオフラインQAツールは臨床経路で使用することができ、臨床医が注意を要する領域を検出して輪郭の修正に費やす時間を減少させる可能性がある。 すべてのコードはhttps://github.com/rrr-uom-projects/contour_auto_qatool.com/で公開されています。

Automatic segmentation of organs-at-risk (OARs) in CT scans using convolutional neural networks (CNNs) is being introduced into the radiotherapy workflow. However, these segmentations still require manual editing and approval by clinicians prior to clinical use, which can be time consuming. The aim of this work was to develop a tool to automatically identify errors in 3D OAR segmentations without a ground truth. Our tool uses a novel architecture combining a CNN and graph neural network (GNN) to leverage the segmentation's appearance and shape. The proposed model is trained using self-supervised learning using a synthetically-generated dataset of segmentations of the parotid and with realistic contouring errors. The effectiveness of our model is assessed with ablation tests, evaluating the efficacy of different portions of the architecture as well as the use of transfer learning from an unsupervised pretext task. Our best performing model predicted errors on the parotid gland with a precision of 85.0% & 89.7% for internal and external errors respectively, and recall of 66.5% & 68.6%. This offline QA tool could be used in the clinical pathway, potentially decreasing the time clinicians spend correcting contours by detecting regions which require their attention. All our code is publicly available at https://github.com/rrr-uom-projects/contour_auto_QATool.
翻訳日:2022-06-28 19:55:52 公開日:2022-06-27
# (参考訳) 先行ガイドによるワンショットニューラルアーキテクチャ探索

Prior-Guided One-shot Neural Architecture Search ( http://arxiv.org/abs/2206.13329v1 )

ライセンス: CC BY 4.0
Peijie Dong, Xin Niu, Lujun Li, Linzhen Xie, Wenbin Zou, Tian Ye, Zimian Wei, Hengyue Pan(参考訳) ニューラルネットワーク探索手法は、効率的な重み付けスーパーネットトレーニングによる最適候補を求める。 しかし、最近の研究では、スタンドアローンアーキテクチャと共有重みネットワークのパフォーマンスに関するランキング一貫性が低いことが示されている。 本稿では,スーパーネットのランキング相関を強化するために,プリエントガイドワンショットNAS(PGONAS)を提案する。 具体的には,まず活性化関数の効果を探求し,スーパーネットの重み結合を緩和するためのサンドウィッチ則に基づくバランスのとれたサンプリング戦略を提案する。 次に、FLOPとZen-Scoreを採用し、ランキング相関損失のあるスーパーネットのトレーニングを指導する。 我々のPGONASはCVPR2022のスーパーネットトラックの3位にランクインしている。 コードはhttps://github.com/pprp/CVPR2022-NAS? コンペティショントラック1-3th-solution。

Neural architecture search methods seek optimal candidates with efficient weight-sharing supernet training. However, recent studies indicate poor ranking consistency about the performance between stand-alone architectures and shared-weight networks. In this paper, we present Prior-Guided One-shot NAS (PGONAS) to strengthen the ranking correlation of supernets. Specifically, we first explore the effect of activation functions and propose a balanced sampling strategy based on the Sandwich Rule to alleviate weight coupling in the supernet. Then, FLOPs and Zen-Score are adopted to guide the training of supernet with ranking correlation loss. Our PGONAS ranks 3rd place in the supernet Track Track of CVPR2022 Second lightweight NAS challenge. Code is available in https://github.com/pprp/CVPR2022-NAS?competition-Track1-3th-solution.
翻訳日:2022-06-28 19:45:39 公開日:2022-06-27
# (参考訳) 競合フェデレーション型貯留層計算を用いた動的システムの連続学習

Continual Learning of Dynamical Systems with Competitive Federated Reservoir Computing ( http://arxiv.org/abs/2206.13336v1 )

ライセンス: CC BY 4.0
Leonard Bereska and Efstratios Gavves(参考訳) 機械学習は、データから微分方程式や力学系を学ぶのに効果的であることが最近証明された。 しかし、データは単一の変化しないシステムに由来すると一般的に考えられている。 対照的に、現実世界の動的プロセスのモデリングでは、基盤となるシステムダイナミクスの変化によってデータ分布が変化することが多い。 これらのプロセスの継続的な学習は、以前の動的体制を忘れずに、突然のシステム変更に迅速に適応することを目的としている。 本研究では, 複雑な時空間力学系上でのリカレントニューラルネットワークのトレーニング手法である貯水池計算に基づく連続学習手法を提案する。 貯留層計算は、繰り返し発生するネットワークの重み(したがってこれらは忘れられない)を修正し、線形射影ヘッドのみを出力に更新する。 我々は複数の競合予測ヘッドを同時に訓練することを提案する。 神経科学の予測的コーディングに触発されて、最も予測的な頭部のみが活性化し、左右に抑制され、パラメータ更新を干渉することで不活性な頭部が引き起こされるのを防いでいる。 本稿では,Van-der-Pol発振器,カオスロレンツ誘引器,高次元ロレンツ-96気象モデルなど,いくつかの力学系における干渉や破滅的な忘れを最小化できることを示す。 その結果,リザーバコンピューティングは,動的システムの継続的な学習に有望なフレームワークであることが示唆された。 我々は、データ生成、メソッド、比較のためのコードを \url{https://github.com/leonardbereska/multiheadreservoir} で提供します。

Machine learning recently proved efficient in learning differential equations and dynamical systems from data. However, the data is commonly assumed to originate from a single never-changing system. In contrast, when modeling real-world dynamical processes, the data distribution often shifts due to changes in the underlying system dynamics. Continual learning of these processes aims to rapidly adapt to abrupt system changes without forgetting previous dynamical regimes. This work proposes an approach to continual learning based on reservoir computing, a state-of-the-art method for training recurrent neural networks on complex spatiotemporal dynamical systems. Reservoir computing fixes the recurrent network weights - hence these cannot be forgotten - and only updates linear projection heads to the output. We propose to train multiple competitive prediction heads concurrently. Inspired by neuroscience's predictive coding, only the most predictive heads activate, laterally inhibiting and thus protecting the inactive heads from forgetting induced by interfering parameter updates. We show that this multi-head reservoir minimizes interference and catastrophic forgetting on several dynamical systems, including the Van-der-Pol oscillator, the chaotic Lorenz attractor, and the high-dimensional Lorenz-96 weather model. Our results suggest that reservoir computing is a promising candidate framework for the continual learning of dynamical systems. We provide our code for data generation, method, and comparisons at \url{https://github.com/leonardbereska/multiheadreservoir}.
翻訳日:2022-06-28 19:36:19 公開日:2022-06-27
# (参考訳) 分布ガウス過程による分布外検出

Distributional Gaussian Processes Layers for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.13346v1 )

ライセンス: CC BY 4.0
Sebastian G. Popescu, David J. Sharp, James H. Cole, Konstantinos Kamnitsas and Ben Glocker(参考訳) 医療画像タスクにデプロイされる機械学習モデルは、誤った予測を避けるために、分散検出機能を備えている必要がある。 深層ニューラルネットワークに依存した分布外検出モデルが医用画像の領域シフトを検出するのに適しているかは定かではない。 ガウス過程は、分布内データポイントと分布外データポイントを数学的構成で確実に分離することができる。 そこで本研究では,wasserstein-2 空間で動作するガウス過程を組み込んだ階層的畳み込みガウス過程に対するパラメータ効率の高いベイズ層を提案する。 これは、ガウス過程を分布上の距離保存アフィン作用素に置き換える。 脳組織セグメンテーション実験の結果,従来の階層的ガウス過程では達成されていない決定論的セグメンテーションアルゴリズム(u-net)の性能に接近した。 さらに,同じセグメンテーションモデルを分散データ(例えば脳腫瘍などの病理画像)に適用することにより,不確実性推定の結果,従来のベイズネットワークや正規分布を学習するレコンストラクションに基づくアプローチよりも優れる分布外検出が得られることを示す。 将来の作業を容易にするために、私たちのコードは公開されています。

Machine learning models deployed on medical imaging tasks must be equipped with out-of-distribution detection capabilities in order to avoid erroneous predictions. It is unsure whether out-of-distribution detection models reliant on deep neural networks are suitable for detecting domain shifts in medical imaging. Gaussian Processes can reliably separate in-distribution data points from out-of-distribution data points via their mathematical construction. Hence, we propose a parameter efficient Bayesian layer for hierarchical convolutional Gaussian Processes that incorporates Gaussian Processes operating in Wasserstein-2 space to reliably propagate uncertainty. This directly replaces convolving Gaussian Processes with a distance-preserving affine operator on distributions. Our experiments on brain tissue-segmentation show that the resulting architecture approaches the performance of well-established deterministic segmentation algorithms (U-Net), which has not been achieved with previous hierarchical Gaussian Processes. Moreover, by applying the same segmentation model to out-of-distribution data (i.e., images with pathology such as brain tumors), we show that our uncertainty estimates result in out-of-distribution detection that outperforms the capabilities of previous Bayesian networks and reconstruction-based approaches that learn normative distributions. To facilitate future work our code is publicly available.
翻訳日:2022-06-28 19:16:36 公開日:2022-06-27
# (参考訳) Recommendation Systemのための潜時不変制約による簡易かつスケーラブルなテンソル補完アルゴリズム

A Simple and Scalable Tensor Completion Algorithm via Latent Invariant Constraint for Recommendation System ( http://arxiv.org/abs/2206.13355v1 )

ライセンス: CC BY 4.0
Tung Nguyen, Sang T. Truong, and Jeffrey Uhlmann(参考訳) 本稿では, 妥当な解が満足すべき基本的性質の観点から, 推薦システム (RS) 問題に対する潜在変数の定式化と解を提供する。 具体的には、ユーザ評価の低い観測不能な個人の嗜好に対するモデルのパラメータを効率よく正確に学習する、新しいテンソル補完手法について検討する。 1つの潜在不変量でテンソル分解を正則化することにより,(1) 最小仮定によるテンソル完成結果の一意性,(2) ユーザの任意の選好とは無関係な単位整合性,(3) 観測値と観測値との一貫性のあるランク付けを提供するコンセンサス順序保証,の3つの特性を実現する。 提案アルゴリズムは,線形計算の複雑さとハイパーパラメータチューニングを伴わない,シンプルでエレガントな推薦フレームワークを実現する。 提案手法が現在の最先端手法よりも優れていることを示す実証実験結果を提供する。

In this paper we provide a latent-variable formulation and solution to the recommender system (RS) problem in terms of a fundamental property that any reasonable solution should be expected to satisfy. Specifically, we examine a novel tensor completion method to efficiently and accurately learn parameters of a model for the unobservable personal preferences that underly user ratings. By regularizing the tensor decomposition with a single latent invariant, we achieve three properties for a reliable recommender system: (1) uniqueness of the tensor completion result with minimal assumptions, (2) unit consistency that is independent of arbitrary preferences of users, and (3) a consensus ordering guarantee that provides consistent ranking between observed and unobserved rating scores. Our algorithm leads to a simple and elegant recommendation framework that has linear computational complexity and with no hyperparameter tuning. We provide empirical results demonstrating that the approach significantly outperforms current state-of-the-art methods.
翻訳日:2022-06-28 19:14:11 公開日:2022-06-27
# (参考訳) 新型コロナウイルス検出のための呼吸・音声信号の解釈可能な音響表現学習

Interpretable Acoustic Representation Learning on Breathing and Speech Signals for COVID-19 Detection ( http://arxiv.org/abs/2206.13365v1 )

ライセンス: CC BY 4.0
Debottam Dutta, Debarpan Bhattacharya, Sriram Ganapathy, Amir H. Poorjam, Deepak Mittal, Maneesh Singh(参考訳) 本稿では,covid-19検出タスクにおける音声信号表現学習のアプローチについて述べる。 生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。 これらのカーネルの選択により、フィルタバンクをスムーズなバンドパスフィルタとして解釈することができる。 フィルタされた出力はプールされ、ログ圧縮され、自己アテンションに基づく関連性重み付け機構で使用される。 関連度重み付けは、下流タスクにとって重要な時間周波数分解の重要な領域を強調する。 モデルの次のレイヤはリカレントアーキテクチャで構成され、モデルはcovid-19検出タスクのためにトレーニングされます。 筆者らは,coswaraデータセットを用いた実験において,提案モデルがベースラインシステムや表現学習手法よりも大幅に性能が向上することを示す。 さらに,提案手法は,発話・呼吸信号やより大きなデータセットからの学習の伝達に一様に適用できることを示した。

In this paper, we describe an approach for representation learning of audio signals for the task of COVID-19 detection. The raw audio samples are processed with a bank of 1-D convolutional filters that are parameterized as cosine modulated Gaussian functions. The choice of these kernels allows the interpretation of the filterbanks as smooth band-pass filters. The filtered outputs are pooled, log-compressed and used in a self-attention based relevance weighting mechanism. The relevance weighting emphasizes the key regions of the time-frequency decomposition that are important for the downstream task. The subsequent layers of the model consist of a recurrent architecture and the models are trained for a COVID-19 detection task. In our experiments on the Coswara data set, we show that the proposed model achieves significant performance improvements over the baseline system as well as other representation learning approaches. Further, the approach proposed is shown to be uniformly applicable for speech and breathing signals and for transfer learning from a larger data set.
翻訳日:2022-06-28 18:59:46 公開日:2022-06-27
# (参考訳) テスト時間ニューラルネットワークアグリゲーションによる転送学習

Transfer Learning via Test-Time Neural Networks Aggregation ( http://arxiv.org/abs/2206.13399v1 )

ライセンス: CC BY 4.0
Bruno Casella, Alessio Barbaro Chisari, Sebastiano Battiato, Mario Valerio Giuffrida(参考訳) ディープニューラルネットワークが従来の機械学習より優れていることが示されている。 しかし、ディープネットワークは一般性に欠けており、すなわち、ドメインシフトによって異なる分布から引き出された新しい(テスト)セットでは、パフォーマンスが良くない。 この既知の問題に取り組むために、トレーニングされたモデルの知識を別のモデルに移し、異なるデータでパフォーマンスを改善する、いくつかの転送学習アプローチが提案されている。 しかしながら、これらのアプローチのほとんどは、追加のトレーニングステップを必要とするか、あるいはトレーニングされたモデルが以前に学習した知識を上書きした時に発生する破滅的な忘れに苦しむ。 ネットワークアグリゲーションを用いた新しい移動学習手法を用いて,両問題に対処する。 データセット固有のネットワークと集約ネットワークを統合フレームワークでトレーニングする。 損失関数は、タスク固有の損失(クロスエントロピーなど)と集約損失の2つの主要コンポーネントを含む。 提案した集約損失により,集約演算子で深層ネットワークパラメータをどのように集約できるかを学習することができる。 提案手法は, モデルアグリゲーションをテスト時に学習し, 簡単な算術演算への移行学習の負担を軽減することを実証する。 提案手法はベースラインに匹敵する性能を実現する。 さらに、アグリゲーション演算子に逆が存在する場合、我々のモデルは本質的に選択的に、すなわち、アグリゲーションされたモデルがトレーニングしたデータセットの1つを忘れ、他のモデルに関する情報を保持することができることを示す。

It has been demonstrated that deep neural networks outperform traditional machine learning. However, deep networks lack generalisability, that is, they will not perform as good as in a new (testing) set drawn from a different distribution due to the domain shift. In order to tackle this known issue, several transfer learning approaches have been proposed, where the knowledge of a trained model is transferred into another to improve performance with different data. However, most of these approaches require additional training steps, or they suffer from catastrophic forgetting that occurs when a trained model has overwritten previously learnt knowledge. We address both problems with a novel transfer learning approach that uses network aggregation. We train dataset-specific networks together with an aggregation network in a unified framework. The loss function includes two main components: a task-specific loss (such as cross-entropy) and an aggregation loss. The proposed aggregation loss allows our model to learn how trained deep network parameters can be aggregated with an aggregation operator. We demonstrate that the proposed approach learns model aggregation at test time without any further training step, reducing the burden of transfer learning to a simple arithmetical operation. The proposed approach achieves comparable performance w.r.t. the baseline. Besides, if the aggregation operator has an inverse, we will show that our model also inherently allows for selective forgetting, i.e., the aggregated model can forget one of the datasets it was trained on, retaining information on the others.
翻訳日:2022-06-28 18:48:46 公開日:2022-06-27
# (参考訳) 機械学習分類器の破壊ロバスト性評価のためのクラス分離距離の利用

Utilizing Class Separation Distance for the Evaluation of Corruption Robustness of Machine Learning Classifiers ( http://arxiv.org/abs/2206.13405v1 )

ライセンス: CC BY 4.0
Georg Siedel, Silvia Vock, Andrey Morozov, Stefan Vo{\ss}(参考訳) ロバストネスは機械学習(ML)分類の基本的な柱であり、その信頼性を決定づけている。 したがって分類器の堅牢性を評価する方法が不可欠である。 本研究では、あるデータセットにおけるコンパラビリティと解釈可能性を実現する方法で、腐敗の堅牢性を評価するという課題に対処する。 本稿では,データセットの最小クラス分離距離に由来するロバストネス距離$\epsilon$を用いたテストデータ拡張手法を提案する。 結果として得られるMSCR(統計的な汚いロバスト性)の計量は、その汚いロバスト性に関して異なる分類器のデータセット固有の比較を可能にする。 mscr値は、統計的な腐敗による精度の損失を回避できる分類器を表すため、解釈可能である。 2D と画像データでは,測定値が異なる分類器の堅牢性を反映していることが示されている。 さらに,雑音レベルの異なる分類器の訓練および試験により,分類器の予期せぬ最適性を確認する。 研究者は、ロバストモデルのトレーニングにおいて正確性に関する重要なトレードオフを頻繁に報告しているが、正確性と腐敗の堅牢性の間のトレードオフは本質的ではないという見解を強化している。 以上の結果から, 単純なデータ拡張によるロバストネストレーニングにより, 精度が若干向上することが示唆された。

Robustness is a fundamental pillar of Machine Learning (ML) classifiers, substantially determining their reliability. Methods for assessing classifier robustness are therefore essential. In this work, we address the challenge of evaluating corruption robustness in a way that allows comparability and interpretability on a given dataset. We propose a test data augmentation method that uses a robustness distance $\epsilon$ derived from the datasets minimal class separation distance. The resulting MSCR (mean statistical corruption robustness) metric allows a dataset-specific comparison of different classifiers with respect to their corruption robustness. The MSCR value is interpretable, as it represents the classifiers avoidable loss of accuracy due to statistical corruptions. On 2D and image data, we show that the metric reflects different levels of classifier robustness. Furthermore, we observe unexpected optima in classifiers robust accuracy through training and testing classifiers with different levels of noise. While researchers have frequently reported on a significant tradeoff on accuracy when training robust models, we strengthen the view that a tradeoff between accuracy and corruption robustness is not inherent. Our results indicate that robustness training through simple data augmentation can already slightly improve accuracy.
翻訳日:2022-06-28 18:34:21 公開日:2022-06-27
# (参考訳) ダブルワクチン5gブースト!」:ソーシャルメディアからのcovid-19ワクチン接種に対する学習態度

"Double vaccinated, 5G boosted!": Learning Attitudes towards COVID-19 Vaccination from Social Media ( http://arxiv.org/abs/2206.13456v1 )

ライセンス: CC BY 4.0
Ninghan Chen, Xihui Chen, Zhiqiang Zhong, Jun Pang(参考訳) 新型コロナウイルスの予防接種キャンペーンの努力を損なうワクチンヘシタシーに対処するためには、公衆の予防接種態度を理解し、その変化をタイムリーに把握することが不可欠である。 信頼性と信頼性にもかかわらず、従来の調査に基づく態度収集は時間と費用がかかり、接種態度の急速な進化に追随できない。 我々は,ソーシャルメディア上のテキスト投稿を利用して,深層学習フレームワークを提案することで,ユーザの予防接種姿勢をほぼリアルタイムで抽出し追跡する。 ワクチン関連談話でよく使われる皮肉や皮肉といった言語的特徴の影響に対処するため,ユーザの近親者の最近の投稿をフレームワークに統合し,ユーザの真の態度を検出する。 Twitterの注釈付きデータセットに基づいて、我々のフレームワークからインスタンス化されたモデルは、最先端のテキストのみのモデルと比較して、姿勢抽出のパフォーマンスを最大23%向上させることができる。 この枠組みを用いて,実生活における予防接種態度の進化を追跡するためのソーシャルメディアの利用の可能性を検証する。 さらに, ソーシャルメディアから認識された情報を用いて, 利用者のワクチン依存度変化を予測できる可能性を検証することで, フレームワークの実用性を示す。

To address the vaccine hesitancy which impairs the efforts of the COVID-19 vaccination campaign, it is imperative to understand public vaccination attitudes and timely grasp their changes. In spite of reliability and trustworthiness, conventional attitude collection based on surveys is time-consuming and expensive, and cannot follow the fast evolution of vaccination attitudes. We leverage the textual posts on social media to extract and track users' vaccination stances in near real time by proposing a deep learning framework. To address the impact of linguistic features such as sarcasm and irony commonly used in vaccine-related discourses, we integrate into the framework the recent posts of a user's social network neighbours to help detect the user's genuine attitude. Based on our annotated dataset from Twitter, the models instantiated from our framework can increase the performance of attitude extraction by up to 23% compared to state-of-the-art text-only models. Using this framework, we successfully validate the feasibility of using social media to track the evolution of vaccination attitudes in real life. We further show one practical use of our framework by validating the possibility to forecast a user's vaccine hesitancy changes with information perceived from social media.
翻訳日:2022-06-28 18:19:57 公開日:2022-06-27
# (参考訳) 解釈の熱力学

Thermodynamics of Interpretation ( http://arxiv.org/abs/2206.13475v1 )

ライセンス: CC BY 4.0
Shams Mehdi and Pratyush Tiwary(参考訳) 過去数年間、さまざまなタイプのデータ駆動人工知能(AI)技術が、予測ブラックボックスモデルを生成するために様々な分野の科学で広く採用されてきた。 しかしながら、ブラックボックスの性質のため、これらのモデルに正確性を受け入れる前に信頼を確立することが不可欠である。 この目標を達成する1つの方法は、ブラックボックスモデル予測の背後にある理由を推論できるポストホックな解釈スキームの実装である。 本研究では,この目的のために古典的熱力学に基づくアプローチを提案する: 熱力学的に説明可能なAIおよび他のブラックボックスパラダイム(TERP)の表現。 TERPは、説明されるインスタンス周辺の小さな近傍でブラックボックスモデルの振る舞いを近似する線形局所代理モデルを構築することで機能する。 単純なフォワード特徴選択モンテカルロアルゴリズムを用いることで、TERPは最適解釈を選択するために可能な全てのサロゲートモデルに解釈可能性自由エネルギースコアを割り当てる。 さらに,画像の分類,心臓疾患の予測,生体分子のコンフォメーションの分類など,関連する領域のデータセットから学習したブラックボックスモデルの4つの異なるクラスをうまく解釈することにより,一般的に適用可能な手法としてterpを検証する。

Over the past few years, different types of data-driven Artificial Intelligence (AI) techniques have been widely adopted in various domains of science for generating predictive black-box models. However, because of their black-box nature, it is crucial to establish trust in these models before accepting them as accurate. One way of achieving this goal is through the implementation of a post-hoc interpretation scheme that can put forward the reasons behind a black-box model prediction. In this work, we propose a classical thermodynamics inspired approach for this purpose: Thermodynamically Explainable Representations of AI and other black-box Paradigms (TERP). TERP works by constructing a linear, local surrogate model that approximates the behaviour of the black-box model within a small neighborhood around the instance being explained. By employing a simple forward feature selection Monte Carlo algorithm, TERP assigns an interpretability free energy score to all the possible surrogate models in order to choose an optimal interpretation. Additionally, we validate TERP as a generally applicable method by successfully interpreting four different classes of black-box models trained on datasets coming from relevant domains, including classifying images, predicting heart disease and classifying biomolecular conformations.
翻訳日:2022-06-28 18:01:41 公開日:2022-06-27
# (参考訳) ディープニューラルネットワークを用いた混合量子状態の正定値パラメトリゼーション

Positive-definite parametrization of mixed quantum states with deep neural networks ( http://arxiv.org/abs/2206.13488v1 )

ライセンス: CC BY 4.0
Filippo Vicentini, Riccardo Rossi, Giuseppe Carleo(参考訳) 本稿では,指数ランクの正半定値密度演算子を多項式資源でエンコード可能な,新しいディープニューラルネットワークアーキテクチャであるGram-Hadamard Density Operator (GHDO)を紹介する。 次に、確率分布の直接サンプリングを可能にするために、ghdoに自己回帰構造を埋め込む方法を示す。 これらの性質は、環境と相互作用するシステムの混合量子状態の表現と変動最適化において特に重要である。 最後に、散逸的横フィールドイジングモデルの定常状態をシミュレートすることで、このアーキテクチャをベンチマークする。 局所観測量とr\'enyiエントロピーを推定した結果,従来の変分法に比べて有意な改善が見られた。

We introduce the Gram-Hadamard Density Operator (GHDO), a new deep neural-network architecture that can encode positive semi-definite density operators of exponential rank with polynomial resources. We then show how to embed an autoregressive structure in the GHDO to allow direct sampling of the probability distribution. These properties are especially important when representing and variationally optimizing the mixed quantum state of a system interacting with an environment. Finally, we benchmark this architecture by simulating the steady state of the dissipative transverse-field Ising model. Estimating local observables and the R\'enyi entropy, we show significant improvements over previous state-of-the-art variational approaches.
翻訳日:2022-06-28 17:40:46 公開日:2022-06-27
# ピンホールカメラ用のアトラス

An Atlas for the Pinhole Camera ( http://arxiv.org/abs/2206.13468v1 )

ライセンス: Link先を確認
Sameer Agarwal, Timothy Duff, Max Lieblich, Rekha Thomas(参考訳) ピンホールカメラにおける画像形成に伴うアルゲブロ幾何学的物体のアトラスを導入する。 アトラスのノードは、それぞれ射影、排除、制限または特殊化によって互いに関連づけられる代数多様体またはそれらの消滅イデアルである。 このatlasは、3dコンピュータビジョンにおける問題の研究のための統一フレームワークを提供する。 我々は三角測量問題に起因するアトラスの一部を完全に特徴付けることでアトラスの研究を開始する。 我々は、atlasのいくつかのオープン問題と一般化で締めくくった。

We introduce an atlas of algebro-geometric objects associated with image formation in pinhole cameras. The nodes of the atlas are algebraic varieties or their vanishing ideals related to each other by projection or elimination and restriction or specialization respectively. This atlas offers a unifying framework for the study of problems in 3D computer vision. We initiate the study of the atlas by completely characterizing a part of the atlas stemming from the triangulation problem. We conclude with several open problems and generalizations of the atlas.
翻訳日:2022-06-28 17:21:34 公開日:2022-06-27
# ディープオーディオ分類器の不確かさ校正

Uncertainty Calibration for Deep Audio Classifiers ( http://arxiv.org/abs/2206.13071v1 )

ライセンス: Link先を確認
Tong Ye, Shijing Si, Jianzong Wang, Ning Cheng and Jing Xiao(参考訳) ディープニューラルネットワーク(DNN)は、音声分類タスクにおいて大きな成功を収めているが、その不確実性校正はいまだに未調査である。 適切に校正されたモデルは、その予測が確実であるときに正確であり、不正確な場合に高い不確実性を示すべきである。 本研究では,深部オーディオ分類器における不確実性校正について検討する。 特に,一般的な校正法の性能を実証的に研究する。 (i)モンテカルロ・ドロップアウト (ii)アンサンブル。 (iii)焦点損失、及び (4)音声分類データセットにおけるスペクトル正規化ガウス過程(SNGP) この目的のために,環境音のタスクと音楽ジャンルの分類を (i-iv) 評価した。 以上の結果から,未分類のディープオーディオ分類器は過信であり,SNGPは最高の性能を示し,本論文の2つのデータセット上で非常に効率的であることがわかった。

Although deep Neural Networks (DNNs) have achieved tremendous success in audio classification tasks, their uncertainty calibration are still under-explored. A well-calibrated model should be accurate when it is certain about its prediction and indicate high uncertainty when it is likely to be inaccurate. In this work, we investigate the uncertainty calibration for deep audio classifiers. In particular, we empirically study the performance of popular calibration methods: (i) Monte Carlo Dropout, (ii) ensemble, (iii) focal loss, and (iv) spectral-normalized Gaussian process (SNGP), on audio classification datasets. To this end, we evaluate (i-iv) for the tasks of environment sound and music genre classification. Results indicate that uncalibrated deep audio classifiers may be over-confident, and SNGP performs the best and is very efficient on the two datasets of this paper.
翻訳日:2022-06-28 17:19:03 公開日:2022-06-27
# 深い入出力安定ダイナミクスの学習

Learning Deep Input-Output Stable Dynamics ( http://arxiv.org/abs/2206.13093v1 )

ライセンス: Link先を確認
Yuji Okamoto and Ryosuke Kojima(参考訳) 観測時系列データから安定したダイナミクスを学ぶことは、ロボット工学、物理モデリング、システム生物学において重要な問題である。 これらのダイナミクスの多くは、外部環境と通信する入出力システムとして表現される。 本研究では,入出力安定系に着目し,予期せぬ刺激や雑音に対して頑健性を示す。 入力出力安定性を保証する非線形システムの学習法を提案する。 提案手法はハミルトン-ヤコビ不等式を満たす空間への微分可能射影を利用して入力出力安定性を実現する。 この射影を見つける問題は二次制約二次計画問題として定式化でき、解析的に特定の解を導出する。 また,本手法をおもちゃの双安定モデルに適用し,グルコース-インスリンシミュレータから生成したベンチマークをトレーニングする。 その結果,ニューラルネットワークを用いた非線形システムは,ニューラルネットとは違って入力出力安定性を実現することがわかった。 私たちのコードはhttps://github.com/clinfo/deepiostabilityで利用可能です。

Learning stable dynamics from observed time-series data is an essential problem in robotics, physical modeling, and systems biology. Many of these dynamics are represented as an inputs-output system to communicate with the external environment. In this study, we focus on input-output stable systems, exhibiting robustness against unexpected stimuli and noise. We propose a method to learn nonlinear systems guaranteeing the input-output stability. Our proposed method utilizes the differentiable projection onto the space satisfying the Hamilton-Jacobi inequality to realize the input-output stability. The problem of finding this projection can be formulated as a quadratic constraint quadratic programming problem, and we derive the particular solution analytically. Also, we apply our method to a toy bistable model and the task of training a benchmark generated from a glucose-insulin simulator. The results show that the nonlinear system with neural networks by our method achieves the input-output stability, unlike naive neural networks. Our code is available at https://github.com/clinfo/DeepIOStability.
翻訳日:2022-06-28 17:18:49 公開日:2022-06-27
# SpeechEQ:マルチスケール統一データセットとマルチタスク学習に基づく音声感情認識

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning ( http://arxiv.org/abs/2206.13101v1 )

ライセンス: Link先を確認
Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao(参考訳) 音声感情認識(SER)には多くの課題があるが、主な課題の1つは、それぞれのフレームワークが統一された標準を持っていないことである。 本稿では,マルチスケール統一メトリックに基づくサータスク統一のためのフレームワークである speecheq を提案する。 このメトリクスは、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクと、音素認識と性認識の2つの補助タスクを含むマルチタスク学習(MTL)によって訓練することができる。 このフレームワークでは,マンダリンSERデータセット - SpeechEQ Dataset (SEQD) を構築している。 マンダリンの公開casiaデータセットとesdデータセットについて実験を行い,本手法がベースライン法を比較的大きなマージンで上回り,それぞれ8.0\%,6.5\%の精度向上を示した。 また、IEMOCAPの4つの感情カテゴリー(怒り、幸せ、悲しみ、中立)による追加実験により、提案手法は、重み付き精度(WA)が78.16%、未重み付き精度(UA)が77.47%の状態を達成している。

Speech emotion recognition (SER) has many challenges, but one of the main challenges is that each framework does not have a unified standard. In this paper, we propose SpeechEQ, a framework for unifying SER tasks based on a multi-scale unified metric. This metric can be trained by Multitask Learning (MTL), which includes two emotion recognition tasks of Emotion States Category (EIS) and Emotion Intensity Scale (EIS), and two auxiliary tasks of phoneme recognition and gender recognition. For this framework, we build a Mandarin SER dataset - SpeechEQ Dataset (SEQD). We conducted experiments on the public CASIA and ESD datasets in Mandarin, which exhibit that our method outperforms baseline methods by a relatively large margin, yielding 8.0\% and 6.5\% improvement in accuracy respectively. Additional experiments on IEMOCAP with four emotion categories (i.e., angry, happy, sad, and neutral) also show the proposed method achieves a state-of-the-art of both weighted accuracy (WA) of 78.16% and unweighted accuracy (UA) of 77.47%.
翻訳日:2022-06-28 17:18:34 公開日:2022-06-27
# 広帯域音声波形評価ネットワーク : 効率的・高精度な音声品質推定

Wideband Audio Waveform Evaluation Networks: Efficient, Accurate Estimation of Speech Qualities ( http://arxiv.org/abs/2206.13272v1 )

ライセンス: Link先を確認
Andrew Catellier and Stephen Voran(参考訳) 広帯域オーディオ波形評価ネットワーク (wawenets) は、広帯域オーディオ波形を直接操作し、それらの波形の評価を生成する畳み込みニューラルネットワークである。 本研究では,これらの評価により,電気通信音声の品質(例えば,ノイズ,不明瞭性,全体的な音声品質)が提供される。 WAWEnetは、評価する波形の ''reference' (オリジナルまたは非歪)' バージョンを必要としないため、参照ネットワークではない。 我々の最初のWAWEnetは4つのWAWEnetを導入し、それぞれが確立された完全参照音声品質またはインテリジェンス推定アルゴリズムの出力をエミュレートした。 我々はWAWEnetアーキテクチャをより効率的かつ効果的に更新した。 ここでは、7つの異なる品質とインテリジェンス値を密に追跡する単一のWAWEnetを示す。 4つの主観的音声品質の次元を追跡する第2のネットワークを構築する。 私たちは、主観的品質スコアのみに焦点を当て、非常に高いレベルの合意を達成する第3のネットワークを提供します。 この研究は13言語で334時間のスピーチ、200万以上の完全な参照目標値、93,000以上の主観的平均評価スコアを活用している。 また、WAWEnetの動作を解釈し、信号処理の言語を用いてその動作の鍵を識別する:ReLUは、スペクトル情報をDC成分からDC成分へ戦略的に移動させる。 96の出力信号の直流値は96-Dの潜在空間におけるベクトルを定義し、このベクトルを入力波形の品質または可視値にマッピングする。

Wideband Audio Waveform Evaluation Networks (WAWEnets) are convolutional neural networks that operate directly on wideband audio waveforms in order to produce evaluations of those waveforms. In the present work these evaluations give qualities of telecommunications speech (e.g., noisiness, intelligibility, overall speech quality). WAWEnets are no-reference networks because they do not require ``reference'' (original or undistorted) versions of the waveforms they evaluate. Our initial WAWEnet publication introduced four WAWEnets and each emulated the output of an established full-reference speech quality or intelligibility estimation algorithm. We have updated the WAWEnet architecture to be more efficient and effective. Here we present a single WAWEnet that closely tracks seven different quality and intelligibility values. We create a second network that additionally tracks four subjective speech quality dimensions. We offer a third network that focuses on just subjective quality scores and achieves very high levels of agreement. This work has leveraged 334 hours of speech in 13 languages, over two million full-reference target values and over 93,000 subjective mean opinion scores. We also interpret the operation of WAWEnets and identify the key to their operation using the language of signal processing: ReLUs strategically move spectral information from non-DC components into the DC component. The DC values of 96 output signals define a vector in a 96-D latent space and this vector is then mapped to a quality or intelligibility value for the input waveform.
翻訳日:2022-06-28 17:17:34 公開日:2022-06-27
# マルチチャネル音声強調のための深部非線形フィルタの検討

Insights into Deep Non-linear Filters for Improved Multi-channel Speech Enhancement ( http://arxiv.org/abs/2206.13310v1 )

ライセンス: Link先を確認
Kristina Tesch, Timo Gerkmann(参考訳) 音声強調のために複数のマイクを使用する利点は、空間フィルタリングを用いてテンポスペクトル処理を補完できる点である。 従来の構成では、線形空間フィルタリング (beamforming) と単一チャネルのポストフィルタリングは別々に行われる。 対照的に、ディープニューラルネットワーク(DNN)を用いて、線形処理モデルの制約と、空間およびテンポスペクトル情報の分離処理の制限を克服することができる、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。 しかし、マルチチャネル音声強調のためのデータ駆動フィルタの性能向上につながる内部メカニズムはよく理解されていない。 そこで本研究では,DNNが実現した非線形空間フィルタの特性と,その時間的およびスペクトル的処理との相互依存性を,ネットワークで利用可能な情報ソース(空間的,スペクトル的,時間的)を慎重に制御することによって解析する。 我々は、低数のマイクロホンに対して0.24 POLQAスコアで挑戦的な話者抽出シナリオにおいて、オラクル線形空間フィルタよりも優れた非線形空間処理モデルの優位性を確認する。 分析の結果,フィルタの空間選択性を高めるため,特にスペクトル情報を空間情報と併用して処理すべきであることが判明した。 提案手法は,話者抽出タスクにおける最先端ネットワークアーキテクチャを0.22 POLQA,CHiME3データにおける0.32 POLQAスコアで上回る,シンプルなネットワークアーキテクチャを実現する。

The key advantage of using multiple microphones for speech enhancement is that spatial filtering can be used to complement the tempo-spectral processing. In a traditional setting, linear spatial filtering (beamforming) and single-channel post-filtering are commonly performed separately. In contrast, there is a trend towards employing deep neural networks (DNNs) to learn a joint spatial and tempo-spectral non-linear filter, which means that the restriction of a linear processing model and that of a separate processing of spatial and tempo-spectral information can potentially be overcome. However, the internal mechanisms that lead to good performance of such data-driven filters for multi-channel speech enhancement are not well understood. Therefore, in this work, we analyse the properties of a non-linear spatial filter realized by a DNN as well as its interdependency with temporal and spectral processing by carefully controlling the information sources (spatial, spectral, and temporal) available to the network. We confirm the superiority of a non-linear spatial processing model, which outperforms an oracle linear spatial filter in a challenging speaker extraction scenario for a low number of microphones by 0.24 POLQA score. Our analyses reveal that in particular spectral information should be processed jointly with spatial information as this increases the spatial selectivity of the filter. Our systematic evaluation then leads to a simple network architecture, that outperforms state-of-the-art network architectures on a speaker extraction task by 0.22 POLQA score and by 0.32 POLQA score on the CHiME3 data.
翻訳日:2022-06-28 17:16:46 公開日:2022-06-27
# 混合整数計画を用いたニューラルネットワーク制御系の安定性検証

Stability Verification of Neural Network Controllers using Mixed-Integer Programming ( http://arxiv.org/abs/2206.13374v1 )

ライセンス: Link先を確認
Roland Schwan, Colin N. Jones, Daniel Kuhn(参考訳) 本稿では,milp(mixed-integer linear programming)表現可能な制御ポリシーの安定性検証のためのフレームワークを提案する。 このフレームワークは、効率的なパラメータ化を許容し、低い計算コストで評価できる固定候補ポリシーと、安定だが評価に費用がかかると知られている固定基準ポリシーを比較する。 我々は,基本方針に関して最悪の場合の近似誤差の観点から,候補政策の閉ループ安定性の十分条件を示し,混合整数二次プログラム (miqp) を解いて,これらの条件を検証できることを示す。 さらに、MILPを解くことで、候補ポリシーの安定性領域の外部近似を計算することができることを示す。 提案手法は,ReLUニューラルネットワーク (NN) やパラメトリック二次プログラムの最適解マップ,モデル予測制御 (MPC) ポリシなど,幅広い候補ポリシーに対応するのに十分な一般性を有している。 また,提案フレームワークに基づいたオープンソースツールボックスをPythonで提供し,カスタムNNアーキテクチャやMPCの定式化を容易に検証できるようにする。 本稿では,DC-DC電力変換器のケーススタディにおいて,我々のフレームワークの柔軟性と信頼性を示し,計算複雑性について検討する。

We propose a framework for the stability verification of Mixed-Integer Linear Programming (MILP) representable control policies. This framework compares a fixed candidate policy, which admits an efficient parameterization and can be evaluated at a low computational cost, against a fixed baseline policy, which is known to be stable but expensive to evaluate. We provide sufficient conditions for the closed-loop stability of the candidate policy in terms of the worst-case approximation error with respect to the baseline policy, and we show that these conditions can be checked by solving a Mixed-Integer Quadratic Program (MIQP). Additionally, we demonstrate that an outer approximation of the stability region of the candidate policy can be computed by solving an MILP. The proposed framework is sufficiently general to accommodate a broad range of candidate policies including ReLU Neural Networks (NNs), optimal solution maps of parametric quadratic programs, and Model Predictive Control (MPC) policies. We also present an open-source toolbox in Python based on the proposed framework, which allows for the easy verification of custom NN architectures and MPC formulations. We showcase the flexibility and reliability of our framework in the context of a DC-DC power convertor case study and investigate the computational complexity.
翻訳日:2022-06-28 17:16:19 公開日:2022-06-27
# 推薦システムにおける供給側平衡

Supply-Side Equilibria in Recommender Systems ( http://arxiv.org/abs/2206.13489v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Nikhil Garg, Jacob Steinhardt(参考訳) SpotifyやNetflixのようなデジタルレコメンデーションシステムは、消費者の行動だけでなく、プロデューサーのインセンティブにも影響を与えている。 しかし、どんなコンテンツが作られるのか? 本稿では,コンテンツ推薦システムにおける供給側平衡について検討する。 ユーザとコンテンツをD$次元ベクトルとしてモデル化し、各ユーザに対して最高のドット製品を持つコンテンツを推奨します。 本モデルの主な特徴は,生産者決定空間が高次元であり,ユーザベースが不均一であることである。 第一に、プロデューサーがユーザーのサブセットを競うために専門とするジャンルの形成である。 双対性論を用いて、この特殊化が起こるための必要十分条件を導出する。 第2に, 完全競争では一般的に不可能である均衡で生産者が利益を得られることを示す。 これが起こるのに十分な条件を導出し、コンテンツの特殊化と密接な関係があることを示す。 いずれの結果においても,ユーザ形状と生産コストの構造との相互作用は供給側平衡の構造に影響を及ぼす。 概念レベルでは,本研究は,生産者間の供給側競争をいかに形作るかを検討するための出発点となる。

Digital recommender systems such as Spotify and Netflix affect not only consumer behavior but also producer incentives: producers seek to supply content that will be recommended by the system. But what content will be produced? In this paper, we investigate the supply-side equilibria in content recommender systems. We model users and content as $D$-dimensional vectors, and recommend the content that has the highest dot product with each user. The main features of our model are that the producer decision space is high-dimensional and the user base is heterogeneous. This gives rise to new qualitative phenomena at equilibrium: First, the formation of genres, where producers specialize to compete for subsets of users. Using a duality argument, we derive necessary and sufficient conditions for this specialization to occur. Second, we show that producers can achieve positive profit at equilibrium, which is typically impossible under perfect competition. We derive sufficient conditions for this to occur, and show it is closely connected to specialization of content. In both results, the interplay between the geometry of the users and the structure of producer costs influences the structure of the supply-side equilibria. At a conceptual level, our work serves as a starting point to investigate how recommender systems shape supply-side competition between producers.
翻訳日:2022-06-28 17:15:57 公開日:2022-06-27
# (参考訳) 前方視によるカットへの学習: 模倣学習によるカットプレーン選択

Learning To Cut By Looking Ahead: Cutting Plane Selection via Imitation Learning ( http://arxiv.org/abs/2206.13414v1 )

ライセンス: CC BY 4.0
Max B. Paulus, Giulia Zarpellon, Andreas Krause, Laurent Charlin, Chris J. Maddison(参考訳) 混合整数線形問題 (milp) の解には, 最適解値に対する境界的改善が促進されるため, 切削面が不可欠である。 カットを選択するには、現代の解法はカットの有効性を評価するために調整された手動設計のヒューリスティックに依存する。 ベストバウンドな改善をもたらすカットの選択を明示的に検討している欲望の選択ルールは、カット選択に対して強い決定を与えるが、実際にデプロイするには高価すぎる。 そこで本研究では,表情のエキスパートに模倣学習を行うためのニューラル・アーキテクチャ(ニューラルカット)を提案する。 本モデルは,いくつかのMILPベンチマークにおいて,カット選択のための標準ベースラインよりも優れる。 ニューラルネットワーク検証のためのb&cソルバを用いた実験は,本手法をさらに検証し,学習手法の可能性を示す。

Cutting planes are essential for solving mixed-integer linear problems (MILPs), because they facilitate bound improvements on the optimal solution value. For selecting cuts, modern solvers rely on manually designed heuristics that are tuned to gauge the potential effectiveness of cuts. We show that a greedy selection rule explicitly looking ahead to select cuts that yield the best bound improvement delivers strong decisions for cut selection - but is too expensive to be deployed in practice. In response, we propose a new neural architecture (NeuralCut) for imitation learning on the lookahead expert. Our model outperforms standard baselines for cut selection on several synthetic MILP benchmarks. Experiments with a B&C solver for neural network verification further validate our approach, and exhibit the potential of learning methods in this setting.
翻訳日:2022-06-28 17:13:04 公開日:2022-06-27
# (参考訳) Benchopt: 再現可能、効率的、協調的な最適化ベンチマーク

Benchopt: Reproducible, efficient and collaborative optimization benchmarks ( http://arxiv.org/abs/2206.13424v1 )

ライセンス: CC BY 4.0
Thomas Moreau, Mathurin Massias, Alexandre Gramfort, Pierre Ablin, Pierre-Antoine Bannier Benjamin Charlier, Mathieu Dagr\'eou, Tom Dupr\'e la Tour, Ghislain Durif, Cassio F. Dantas, Quentin Klopfenstein, Johan Larsson, En Lai, Tanguy Lefort, Benoit Mal\'ezieux, Badr Moufad, Binh T. Nguyen, Alain Rakotomamonjy, Zaccharie Ramzi, Joseph Salmon, Samuel Vaiter(参考訳) 数値検証は、新しい手法の実際の影響を評価し、理論と実践の一致を確認することを可能にするため、機械学習研究の中核である。 しかし、この分野の急速な発展にはいくつかの課題がある。研究者は、ベストプラクティスに関する透明性とコンセンサスを限定する手法と、退屈な再実装作業に直面する。 その結果、検証は非常に部分的であることが多く、研究の進行を遅らせる間違った結論につながる可能性がある。 プログラミング言語とハードウェアアーキテクチャをまたいだ機械学習における最適化ベンチマークを自動化し、再現し、公開するための協調フレームワークであるbenchoptを提案する。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。 幅広いユーザビリティを示すために、イメージ分類のための$\ell_2$-regularized logistic regression、Lasso、ResNet18トレーニングの3つの標準学習タスクのベンチマークを示す。 これらのベンチマークは、これらの問題の最先端をより微妙に見るための重要な実践的な発見を浮き彫りにし、実際的な評価のために、悪魔が細部にあることを示す。 研究成果の再現性を向上させるため、コミュニティにおける共同作業の促進を期待する。

Numerical validation is at the core of machine learning research as it allows to assess the actual impact of new methods, and to confirm the agreement between theory and practice. Yet, the rapid development of the field poses several challenges: researchers are confronted with a profusion of methods to compare, limited transparency and consensus on best practices, as well as tedious re-implementation work. As a result, validation is often very partial, which can lead to wrong conclusions that slow down the progress of research. We propose Benchopt, a collaborative framework to automate, reproduce and publish optimization benchmarks in machine learning across programming languages and hardware architectures. Benchopt simplifies benchmarking for the community by providing an off-the-shelf tool for running, sharing and extending experiments. To demonstrate its broad usability, we showcase benchmarks on three standard learning tasks: $\ell_2$-regularized logistic regression, Lasso, and ResNet18 training for image classification. These benchmarks highlight key practical findings that give a more nuanced view of the state-of-the-art for these problems, showing that for practical evaluation, the devil is in the details. We hope that Benchopt will foster collaborative work in the community hence improving the reproducibility of research findings.
翻訳日:2022-06-28 16:45:40 公開日:2022-06-27
# デプロイツリーアンサンブルにおける逆例検出

Adversarial Example Detection in Deployed Tree Ensembles ( http://arxiv.org/abs/2206.13083v1 )

ライセンス: Link先を確認
Laurens Devos, Wannes Meert, Jesse Davis(参考訳) ツリーアンサンブルは広く使われている強力なモデルです。 しかし、それらは、モデルから誤った予測を引き出すために意図的に構築された例である、逆例に影響を受けやすい。 これはパフォーマンスを低下させ、モデルのユーザの信頼を損なう可能性がある。 通常は、学習したアンサンブルがどれほど堅牢であるかを検証するか、あるいは学習プロセスの堅牢化によって、この問題を緩和しようとする。 代替的なアプローチを採り、デプロイ後設定で敵の例を検知しようと試みる。 本稿では,アンサンブルの構成木による予測のセットである,見当たらない例の出力構成を分析することにより,このタスクの新しい手法を提案する。 我々のアプローチは任意の付加的なツリーアンサンブルで動作し、別々のモデルをトレーニングする必要がない。 我々は,3種類の木アンサンブル学習者に対するアプローチを評価する。 本手法は, 現在, ツリーアンサンブルにおける最善の逆検出手法であることを示す。

Tree ensembles are powerful models that are widely used. However, they are susceptible to adversarial examples, which are examples that purposely constructed to elicit a misprediction from the model. This can degrade performance and erode a user's trust in the model. Typically, approaches try to alleviate this problem by verifying how robust a learned ensemble is or robustifying the learning process. We take an alternative approach and attempt to detect adversarial examples in a post-deployment setting. We present a novel method for this task that works by analyzing an unseen example's output configuration, which is the set of predictions made by an ensemble's constituent trees. Our approach works with any additive tree ensemble and does not require training a separate model. We evaluate our approach on three different tree ensemble learners. We empirically show that our method is currently the best adversarial detection method for tree ensembles.
翻訳日:2022-06-28 16:43:38 公開日:2022-06-27
# 不均一領域における工学問題の解法としての物理情報ニューラルネットワークの混合定式化 : 有限要素法との比較

A mixed formulation for physics-informed neural networks as a potential solver for engineering problems in heterogeneous domains: comparison with finite element method ( http://arxiv.org/abs/2206.13103v1 )

ライセンス: Link先を確認
Shahed Rezaei, Ali Harandi, Ahmad Moeineddin, Bai-Xiang Xu, Stefanie Reese(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、与えられた境界値問題の解を見つけることができる。 工学的問題における既存のPINNの性能を高めるために,有限要素法(FEM)からいくつかのアイデアを取り入れた。 現在の研究の主な貢献は、プライマリ変数の空間勾配を分離したニューラルネットワークからの出力として利用することである。 その後、微分のより高い階数を持つ強形式は、物理的制約として一次変数の空間勾配に適用される。 さらに、この問題のいわゆるエネルギー形式は、訓練のための追加の制約として一次変数に適用される。 提案手法では、物理損失関数を構成するために一階微分しか必要としなかった。 異なるモデル間の様々な比較を通じて、この点が有益である理由を論じる。 混合定式化系ピンとfe法には類似性がある。 前者は、ニューラルネットワークによる複雑な非線形補間を利用して、与えられたコロケーション点におけるPDEとそのエネルギー形態を最小化するが、後者は、形状関数の助けを借りて、要素ノードで同じことをする。 本研究では,異なる境界条件下での複雑な環境下での解を予測するための深層学習の能力を示すため,異種固体に着目する。 提案したPINNモデルの性能は, 弾性率とポアソン方程式(定常拡散問題)の2つの試作問題に対してFEMの解に対して検証する。 我々は、PINNのネットワークアーキテクチャを適切に設計することで、ディープラーニングモデルは、他のソースから利用可能な初期データなしで異種領域の未知を解くことができると結論付けた。 最後に, 複合材料の高速かつ正確な設計に向けて, pinnとfemの組み合わせについて考察する。

Physics-informed neural networks (PINNs) are capable of finding the solution for a given boundary value problem. We employ several ideas from the finite element method (FEM) to enhance the performance of existing PINNs in engineering problems. The main contribution of the current work is to promote using the spatial gradient of the primary variable as an output from separated neural networks. Later on, the strong form which has a higher order of derivatives is applied to the spatial gradients of the primary variable as the physical constraint. In addition, the so-called energy form of the problem is applied to the primary variable as an additional constraint for training. The proposed approach only required up to first-order derivatives to construct the physical loss functions. We discuss why this point is beneficial through various comparisons between different models. The mixed formulation-based PINNs and FE methods share some similarities. While the former minimizes the PDE and its energy form at given collocation points utilizing a complex nonlinear interpolation through a neural network, the latter does the same at element nodes with the help of shape functions. We focus on heterogeneous solids to show the capability of deep learning for predicting the solution in a complex environment under different boundary conditions. The performance of the proposed PINN model is checked against the solution from FEM on two prototype problems: elasticity and the Poisson equation (steady-state diffusion problem). We concluded that by properly designing the network architecture in PINN, the deep learning model has the potential to solve the unknowns in a heterogeneous domain without any available initial data from other sources. Finally, discussions are provided on the combination of PINN and FEM for a fast and accurate design of composite materials in future developments.
翻訳日:2022-06-28 16:43:23 公開日:2022-06-27
# グラフ内の球に対するサンプル圧縮スキーム

Sample compression schemes for balls in graphs ( http://arxiv.org/abs/2206.13254v1 )

ライセンス: Link先を確認
J\'er\'emie Chalopin, Victor Chepoi, Fionn Mc Inerney, S\'ebastien Ratel, Yann Vax\`es(参考訳) 機械学習におけるオープンな問題の1つは、VC次元$d$のセットファミリーが、サイズ~$O(d)$のサンプル圧縮スキームを認めるかどうかである。 本稿では,球体グラフのこの問題について考察する。 任意半径$r$のボールについては、木のサイズが$$、サイクルサイズが$$、インターバルグラフが$$$、サイクルツリーが$$$、キューブフリーの中央値グラフが$$$2$という適切なサンプル圧縮スキームを設計します。 与えられた半径の球に対して、木に対して2ドル、インターバルグラフに対して4ドルという適切なラベル付きサンプル圧縮スキームを設計する。 また、$$\delta$-hyperbolic graph の球に対して、サイズ2の近似的なサンプル圧縮スキームを設計する。

One of the open problems in machine learning is whether any set-family of VC-dimension $d$ admits a sample compression scheme of size~$O(d)$. In this paper, we study this problem for balls in graphs. For balls of arbitrary radius $r$, we design proper sample compression schemes of size $2$ for trees, of size $3$ for cycles, of size $4$ for interval graphs, of size $6$ for trees of cycles, and of size $22$ for cube-free median graphs. For balls of a given radius, we design proper labeled sample compression schemes of size $2$ for trees and of size $4$ for interval graphs. We also design approximate sample compression schemes of size 2 for balls of $\delta$-hyperbolic graphs.
翻訳日:2022-06-28 16:42:52 公開日:2022-06-27
# 深層学習と回帰:限られたデータによる観光流れの予測

Deep-Learning vs Regression: Prediction of Tourism Flow with Limited Data ( http://arxiv.org/abs/2206.13274v1 )

ライセンス: Link先を確認
Julian Lemmel, Zahra Babaiee, Marvin Kleinlehner, Ivan Majic, Philipp Neubauer, Johannes Scholz, Radu Grosu, Sophie A. Neubauer(参考訳) 21世紀の近代観光は多くの課題に直面している。 これらの課題の1つは、歴史ある都市センター、博物館、狭い谷のような地理的ボトルネックのような、スペース限定の地域での観光客の急増である。 この文脈では、訪問者フロー制御や過密防止といったビジター管理業務において、特定のエリア内の観光量と観光フローの適正かつ正確な予測が重要である。 ホットスポットへのアクセス制限や従来の低レベルコントローラを使用するような静的フロー制御手法は、まだ解決できていない。 本稿では,観光地から提供された粒状データを用いて,従来の統計手法であるARIMAとの比較により,訪問者フロー予測の分野における最先端の深層学習手法の性能を,限られたデータで実証的に評価する。 以上の結果から, 学習モデルでは有馬法と比較して予測精度が向上し, 推論時間を短縮し, 追加入力機能を組み込むことが可能であった。

Modern tourism in the 21st century is facing numerous challenges. One of these challenges is the rapidly growing number of tourists in space limited regions such as historical city centers, museums or geographical bottlenecks like narrow valleys. In this context, a proper and accurate prediction of tourism volume and tourism flow within a certain area is important and critical for visitor management tasks such as visitor flow control and prevention of overcrowding. Static flow control methods like limiting access to hotspots or using conventional low level controllers could not solve the problem yet. In this paper, we empirically evaluate the performance of several state-of-the-art deep-learning methods in the field of visitor flow prediction with limited data by using available granular data supplied by a tourism region and comparing the results to ARIMA, a classical statistical method. Our results show that deep-learning models yield better predictions compared to the ARIMA method, while both featuring faster inference times and being able to incorporate additional input features.
翻訳日:2022-06-28 16:42:39 公開日:2022-06-27
# ニューラルネットワークモデルに基づく超新星光曲線近似

Supernova Light Curves Approximation based on Neural Network Models ( http://arxiv.org/abs/2206.13306v1 )

ライセンス: Link先を確認
Mariia Demianenko, Ekaterina Samorodova, Mikhail Sysak, Aleksandr Shiriaev, Konstantin Malanchev, Denis Derkach, Mikhail Hushchyn(参考訳) 光度データによる超新星の分類は、天文学におけるビッグデータのリアルタイム処理の出現によって課題となる。 近年の研究では、様々な機械学習モデルに基づくソリューションの品質が向上している。 これらのモデルは、光曲線を入力として超新星型を分類することを学ぶ。 これらの曲線の前処理は最終品質に大きな影響を及ぼす重要なステップである。 本稿では,多層パーセプトロン(MLP),ベイズニューラルネットワーク(BNN),正規化フロー(NF)の単一光曲線観測への応用について検討する。 我々はこれらの近似を超新星分類モデルの入力として使用し、Zwicky Transient Facility Bright Transient Survey光曲線に適用したガウス過程に基づいて提案手法が最先端の手法より優れていることを示す。 MLPはガウスのプロセスやスピードアップと似ている。 正規化フローは近似品質の観点からもガウス過程を超える。

Photometric data-driven classification of supernovae becomes a challenge due to the appearance of real-time processing of big data in astronomy. Recent studies have demonstrated the superior quality of solutions based on various machine learning models. These models learn to classify supernova types using their light curves as inputs. Preprocessing these curves is a crucial step that significantly affects the final quality. In this talk, we study the application of multilayer perceptron (MLP), bayesian neural network (BNN), and normalizing flows (NF) to approximate observations for a single light curve. We use these approximations as inputs for supernovae classification models and demonstrate that the proposed methods outperform the state-of-the-art based on Gaussian processes applying to the Zwicky Transient Facility Bright Transient Survey light curves. MLP demonstrates similar quality as Gaussian processes and speed increase. Normalizing Flows exceeds Gaussian processes in terms of approximation quality as well.
翻訳日:2022-06-28 16:42:20 公開日:2022-06-27
# (参考訳) EMVLight:緊急車両分散型ルーティング・交通信号制御システムのためのマルチエージェント強化学習フレームワーク

EMVLight: a Multi-agent Reinforcement Learning Framework for an Emergency Vehicle Decentralized Routing and Traffic Signal Control System ( http://arxiv.org/abs/2206.13441v1 )

ライセンス: CC BY 4.0
Haoran Su, Yaofeng D. Zhong, Joseph Y.J. Chow, Biswadip Dey, Li Jin(参考訳) 救急車(EMV)は、都市部における救急医療や火災発生などの時間的危機対応に重要な役割を果たしている。 既存のemvディスパッチ手法では,過去のトラヒックフローデータに基づいて経路を最適化し,それに従ってトラヒック信号のプリエンプションを設計するが,emvルーティングとトラヒック信号制御の結合に対処する体系的な手法に欠ける。 本稿では,共同動的EMVルーティングと交通信号プリエンプションのための分散強化学習(RL)フレームワークであるEMVLightを提案する。 ポリシー共有と空間割引係数を備えたマルチエージェント・アドバンテージ・アクター・クリティカルな手法を採用する。 本フレームワークは,マルチクラスRLエージェントの革新的な設計と新しい圧力に基づく報酬関数により,EMVナビゲーションと交通信号制御の結合に対処する。 提案手法により,emvの移動時間を短縮するだけでなく,非emvの移動時間を短縮するネットワークレベルの協調交通信号フェース戦略を学習できる。 シミュレーションに基づく実験により、emvlightは、既存のアプローチと比較して平均走行時間を23.5セント短縮するだけでなく、emvの走行時間を最大42.6セント削減できることが示された。

Emergency vehicles (EMVs) play a crucial role in responding to time-critical calls such as medical emergencies and fire outbreaks in urban areas. Existing methods for EMV dispatch typically optimize routes based on historical traffic-flow data and design traffic signal pre-emption accordingly; however, we still lack a systematic methodology to address the coupling between EMV routing and traffic signal control. In this paper, we propose EMVLight, a decentralized reinforcement learning (RL) framework for joint dynamic EMV routing and traffic signal pre-emption. We adopt the multi-agent advantage actor-critic method with policy sharing and spatial discounted factor. This framework addresses the coupling between EMV navigation and traffic signal control via an innovative design of multi-class RL agents and a novel pressure-based reward function. The proposed methodology enables EMVLight to learn network-level cooperative traffic signal phasing strategies that not only reduce EMV travel time but also shortens the travel time of non-EMVs. Simulation-based experiments indicate that EMVLight enables up to a $42.6\%$ reduction in EMV travel time as well as an $23.5\%$ shorter average travel time compared with existing approaches.
翻訳日:2022-06-28 16:40:54 公開日:2022-06-27
# クリッピングによる重機データのための効率的なプライベートSCO

Efficient Private SCO for Heavy-Tailed Data via Clipping ( http://arxiv.org/abs/2206.13011v1 )

ライセンス: Link先を確認
Chenhan Jin, Kaiwen Zhou, Bo Han, James Cheng, Ming-Chang Yang(参考訳) 重み付きデータに対する確率的凸最適化は、差分プライベート(DP)を保証する。 この問題の先行研究は、大規模問題に対して非効率な勾配降下法(GD)に限られている。 本稿では, この問題を解き, クリッピングを用いたプライベート確率法の最初の高確率境界を導出する。 一般的な凸問題では、過剰な人口のリスク$\tilde{o}\left(\frac{d^{1/7}\sqrt{\ln\frac{(n \epsilon)^2}{\beta d}}}{(n\epsilon)^{2/7}}\right)$と$\tilde{o}\left(\frac{d^{1/7}\ln\frac{(n\epsilon)^2}{\beta d}}{(n\epsilon)^{2/7}}\right)$が有界または非有界な仮定の下で導かれる(ここで$n$はサンプルサイズ、$d$はデータの次元、$\beta$は信頼レベル、$\epsilon$はプライベートレベル)。 すると、我々は解析を強凸ケースと非滑らかケース(H$\ddot{\text{o}}$lder-continuous gradients で一般化された滑らかな目的に対して機能する)にまで拡張する。 境界領域の仮定なしで新たな過剰リスク境界を確立する。 以上の結果から, 既存の手法に比べて, 余剰リスクや勾配複雑度は低い。 理論的改善を正当化するために数値実験が行われる。

We consider stochastic convex optimization for heavy-tailed data with the guarantee of being differentially private (DP). Prior work on this problem is restricted to the gradient descent (GD) method, which is inefficient for large-scale problems. In this paper, we resolve this issue and derive the first high-probability bounds for private stochastic method with clipping. For general convex problems, we derive excess population risks $\Tilde{O}\left(\frac{d^{1/7}\sqrt{\ln\frac{(n \epsilon)^2}{\beta d}}}{(n\epsilon)^{2/7}}\right)$ and $\Tilde{O}\left(\frac{d^{1/7}\ln\frac{(n\epsilon)^2}{\beta d}}{(n\epsilon)^{2/7}}\right)$ under bounded or unbounded domain assumption, respectively (here $n$ is the sample size, $d$ is the dimension of the data, $\beta$ is the confidence level and $\epsilon$ is the private level). Then, we extend our analysis to the strongly convex case and non-smooth case (which works for generalized smooth objectives with H$\ddot{\text{o}}$lder-continuous gradients). We establish new excess risk bounds without bounded domain assumption. The results above achieve lower excess risks and gradient complexities than existing methods in their corresponding cases. Numerical experiments are conducted to justify the theoretical improvement.
翻訳日:2022-06-28 16:36:21 公開日:2022-06-27
# (参考訳) SMCalFlowのセマンティックアノテーションの簡易化

Simplifying Semantic Annotations of SMCalFlow ( http://arxiv.org/abs/2206.13425v1 )

ライセンス: CC BY 4.0
Joram Meron(参考訳) SMCalFlowはタスク指向の自然な対話を意味的に詳細に記述した大量のコーパスである。 アノテーションはdataflowアプローチを使用しており、アノテーションはユーザ要求を表すプログラムである。 この注釈付きコーパスの可用性、サイズ、豊かさにもかかわらず、少なくともアノテーションの理解と使用の難しさから、対話システムの研究において非常に限られた使用しか見られていない。 これらの問題に対処するため,本稿では,smcalflowアノテーションの簡略化と,アノテーション付きデータフロープログラムの実行を検査するために必要なコードのリリースを提案する。

SMCalFlow is a large corpus of semantically detailed annotations of task-oriented natural dialogues. The annotations use a dataflow approach, in which the annotations are programs which represent user requests. Despite the availability, size and richness of this annotated corpus, it has seen only very limited use in dialogue systems research work, at least in part due to the difficulty in understanding and using the annotations. To address these difficulties, this paper suggests a simplification of the SMCalFlow annotations, as well as releases code needed to inspect the execution of the annotated dataflow programs, which should allow researchers of dialogue systems an easy entry point to experiment with various dataflow based implementations and annotations.
翻訳日:2022-06-28 16:33:33 公開日:2022-06-27
# iexam:顔検出と認識に基づく新しいオンライン受験監視・分析システム

iExam: A Novel Online Exam Monitoring and Analysis System Based on Face Detection and Recognition ( http://arxiv.org/abs/2206.13356v1 )

ライセンス: Link先を確認
Xu Yang and Daoyuan Wu and Xiao Yi and Jimmy H. M. Lee and Tan Lee(参考訳) Zoomのようなビデオ会議ソフトウェアによるオンライン試験は、新型コロナウイルス(COVID-19)の影響で多くの学校で採用されている。 便利ではあるが、同時に表示される学生Zoomウィンドウからオンライン試験を監督することは困難である。 本稿では,実時間学生識別におけるナビゲータ支援に顔検出を利用するだけでなく,顔の消失,回転顔,受験中の異なる人物との入れ替えなど,一般的な異常行動を検出することのできる,顔認識に基づくポストexamビデオ解析によるインテリジェントなオンライン受験監視・分析システムであるiexamを提案する。 このような新しいシステムを最初に構築するには、3つの課題を克服する。 まず,テストビデオストリームをリアルタイムで取得し,分析するための軽量なアプローチを見出す。 第二に、各学生のZoomウィンドウに表示される左コーナー名を用いて、動的位置で生徒の顔の真実を自動的に収集する改良されたOCR(Optical character recognition)技術を提案する。 第3に,教員のPC上での学習時間と試験時間を効率的に短縮するために,実験的な比較と最適化を行う。 評価の結果、iexamは高い精度を実現し、リアルタイム顔検出では90.4%、exam後の顔認識では98.4%であった。 iExamのソースコードはhttps://github.com/VPRLab/iExamで公開しています。

Online exams via video conference software like Zoom have been adopted in many schools due to COVID-19. While it is convenient, it is challenging for teachers to supervise online exams from simultaneously displayed student Zoom windows. In this paper, we propose iExam, an intelligent online exam monitoring and analysis system that can not only use face detection to assist invigilators in real-time student identification, but also be able to detect common abnormal behaviors (including face disappearing, rotating faces, and replacing with a different person during the exams) via a face recognition-based post-exam video analysis. To build such a novel system in its first kind, we overcome three challenges. First, we discover a lightweight approach to capturing exam video streams and analyzing them in real time. Second, we utilize the left-corner names that are displayed on each student's Zoom window and propose an improved OCR (optical character recognition) technique to automatically gather the ground truth for the student faces with dynamic positions. Third, we perform several experimental comparisons and optimizations to efficiently shorten the training and testing time required on teachers' PC. Our evaluation shows that iExam achieves high accuracy, 90.4% for real-time face detection and 98.4% for post-exam face recognition, while maintaining acceptable runtime performance. We have made iExam's source code available at https://github.com/VPRLab/iExam.
翻訳日:2022-06-28 16:26:02 公開日:2022-06-27
# avocodo:アーティファクトフリーvocoderのための生成的広告ネットワーク

Avocodo: Generative Adversarial Network for Artifact-free Vocoder ( http://arxiv.org/abs/2206.13404v1 )

ライセンス: Link先を確認
Taejun Bak, Junmo Lee, Hanbin Bae, Jinhyeok Yang, Jae-Sung Bae, Young-Sun Joo(参考訳) GAN(Generative Adversarial Neural Network)に基づくニューラルヴォコーダは、高速な推論速度と軽量なネットワークにより、高品質な音声波形を生成しながら広く利用されている。 知覚的に重要な音声成分は主に低周波帯域に集中しているため、ganベースのニューラルボコーダのほとんどは、ダウンサンプリングされた音声波形を評価するマルチスケール分析を行う。 このマルチスケール解析は、生成器の音声理解性を改善するのに役立つ。 しかし,予備実験では,低周波帯域に着目したマルチスケール解析が意図しないアーティファクト,例えばエイリアスやイメージングアーティファクトを引き起こし,これらのアーティファクトが合成音声波形品質を劣化させることがわかった。 そこで本稿では,これらの成果物とganに基づくニューラルボコーダの関係を調査し,アーティファクトを低減した高忠実性音声の合成を可能にするganベースのニューラルボコーダであるavocodoを提案する。 本稿では,多バンド識別器とサブバンド識別器の2種類の波形評価法を提案する。 また,擬似二次ミラーフィルタバンクを用いて,アリアシングを回避しつつ,ダウンサンプリングされたマルチバンド波形を得る。 実験の結果,Avocodo は従来の GAN ベースのニューラルボコーダを音声合成と歌唱の両方で上回り,人工音声を合成できることがわかった。 特にアボコドは、見当たらない話者の高品質な波形を再現できる。

Neural vocoders based on the generative adversarial neural network (GAN) have been widely used due to their fast inference speed and lightweight networks while generating high-quality speech waveforms. Since the perceptually important speech components are primarily concentrated in the low-frequency band, most of the GAN-based neural vocoders perform multi-scale analysis that evaluates downsampled speech waveforms. This multi-scale analysis helps the generator improve speech intelligibility. However, in preliminary experiments, we observed that the multi-scale analysis which focuses on the low-frequency band causes unintended artifacts, e.g., aliasing and imaging artifacts, and these artifacts degrade the synthesized speech waveform quality. Therefore, in this paper, we investigate the relationship between these artifacts and GAN-based neural vocoders and propose a GAN-based neural vocoder, called Avocodo, that allows the synthesis of high-fidelity speech with reduced artifacts. We introduce two kinds of discriminators to evaluate waveforms in various perspectives: a collaborative multi-band discriminator and a sub-band discriminator. We also utilize a pseudo quadrature mirror filter bank to obtain downsampled multi-band waveforms while avoiding aliasing. The experimental results show that Avocodo outperforms conventional GAN-based neural vocoders in both speech and singing voice synthesis tasks and can synthesize artifact-free speech. Especially, Avocodo is even capable to reproduce high-quality waveforms of unseen speakers.
翻訳日:2022-06-28 16:23:25 公開日:2022-06-27
# (参考訳) ターボファンエンジンの予測保守のための解釈可能な隠れマルコフモデルに基づく深層強化学習階層フレームワーク

Interpretable Hidden Markov Model-Based Deep Reinforcement Learning Hierarchical Framework for Predictive Maintenance of Turbofan Engines ( http://arxiv.org/abs/2206.13433v1 )

ライセンス: CC BY 4.0
Ammar N. Abbas, Georgios Chasparis, and John D. Kelleher(参考訳) 深層強化学習におけるオープンリサーチの質問は、スパースドメイン内の重要な決定のポリシー学習にフォーカスする方法である。 本稿では,インプットアウトプット隠れマルコフモデルの利点と,解釈可能なメンテナンス決定への強化学習を組み合わせることを重視する。 本研究では, ターボファンエンジンの故障の原因と健康劣化を高いレベルで検出し, 解釈する新しい階層モデル手法を提案する。 これは、生データに直接適用される深層強化学習法や、そのような特殊な階層を持たない隠れマルコフモデルを使用する場合のベースライン性能より優れる。 しかし、解釈可能性の付加的な利点と共に、以前の作業に匹敵するパフォーマンスを提供する。

An open research question in deep reinforcement learning is how to focus the policy learning of key decisions within a sparse domain. This paper emphasizes combining the advantages of inputoutput hidden Markov models and reinforcement learning towards interpretable maintenance decisions. We propose a novel hierarchical-modeling methodology that, at a high level, detects and interprets the root cause of a failure as well as the health degradation of the turbofan engine, while, at a low level, it provides the optimal replacement policy. It outperforms the baseline performance of deep reinforcement learning methods applied directly to the raw data or when using a hidden Markov model without such a specialized hierarchy. It also provides comparable performance to prior work, however, with the additional benefit of interpretability.
翻訳日:2022-06-28 16:20:50 公開日:2022-06-27
# TALCS: オープンソースのマンダリン英語コードスイッチングコーパスと音声認識ベースライン

TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline ( http://arxiv.org/abs/2206.13135v1 )

ライセンス: Link先を確認
Chengfei Li, Shuhao Deng, Yaoping Wang, Guangjing Wang, Yaguang Gong, Changbin Chen and Jinfeng Bai(参考訳) 本稿では,音声認識システムの訓練と評価に適した,マンダリン・イングリッシュ・コードスイッチング音声認識-TALCSコーパスについて紹介する。 TALCSコーパスは、約587時間の音声を16kHzでサンプリングするTAL教育グループにおける、実際のオンライン1対1の英語教育シーンに由来する。 我々の知る限り、TALCS corpusは世界でも最大規模のMandarin- English code-switching Open Source Automatic Speech Recognition (ASR)データセットである。 本稿では,音声キャプチャ装置やコーパス環境を含む記録手順を詳細に紹介する。 そしてTALCSコーパスはパーミッシブライセンス1の下で無料でダウンロードできる。 talcsコーパスを用いて2つの一般的な音声認識ツールキットを用いてasr実験を行い、espnetとwenetを含むベースラインシステムを構築する。 2つの音声認識ツールキットにおける混合誤り率(mer)性能をtalcsコーパスで比較した。 実験結果から,音声記録と書き起こしの品質は有望であり,ベースラインシステムも機能することが示唆された。

This paper introduces a new corpus of Mandarin-English code-switching speech recognition--TALCS corpus, suitable for training and evaluating code-switching speech recognition systems. TALCS corpus is derived from real online one-to-one English teaching scenes in TAL education group, which contains roughly 587 hours of speech sampled at 16 kHz. To our best knowledge, TALCS corpus is the largest well labeled Mandarin-English code-switching open source automatic speech recognition (ASR) dataset in the world. In this paper, we will introduce the recording procedure in detail, including audio capturing devices and corpus environments. And the TALCS corpus is freely available for download under the permissive license1. Using TALCS corpus, we conduct ASR experiments in two popular speech recognition toolkits to make a baseline system, including ESPnet and Wenet. The Mixture Error Rate (MER) performance in the two speech recognition toolkits is compared in TALCS corpus. The experimental results implies that the quality of audio recordings and transcriptions are promising and the baseline system is workable.
翻訳日:2022-06-28 16:04:27 公開日:2022-06-27
# 言語ファミリアリティは徐々に影響するのか? 計算モデリングのアプローチ

Is the Language Familiarity Effect gradual? A computational modelling approach ( http://arxiv.org/abs/2206.13415v1 )

ライセンス: Link先を確認
Maureen de Seyssel, Guillaume Wisniewski and Emmanuel Dupoux(参考訳) LFE(Language Familiarity Effect)によると、人々は母国語話者の区別がより優れている。 この認知的効果は文献で主に研究されたが、実験は限られた数の言語対でのみ行われており、それらの結果は言語対間で変化しうる段階的な尺度を与えることなく効果の存在を示すだけである。 本研究では、Thorburn, Feldmand and Schatz (2019) によって導入された LFE の計算モデルが、これらの2つの制限に対処可能であることを示す。 最初の実験では、ネイティブ音声とアクセント音声の振る舞いを再現することにより、LFEの段階的な測定値を得ることができることを示す。 第2の実験では、多くの言語対においてLFEを評価する。 この効果は幅広い言語にまたがって再現され、その普遍性のさらなる証拠となる。 また,LFEの段階的尺度に基づいて,同族に属する言語がより少ないスコアを得られることを示し,LFEに対する言語距離の影響を裏付ける。

According to the Language Familiarity Effect (LFE), people are better at discriminating between speakers of their native language. Although this cognitive effect was largely studied in the literature, experiments have only been conducted on a limited number of language pairs and their results only show the presence of the effect without yielding a gradual measure that may vary across language pairs. In this work, we show that the computational model of LFE introduced by Thorburn, Feldmand and Schatz (2019) can address these two limitations. In a first experiment, we attest to this model's capacity to obtain a gradual measure of the LFE by replicating behavioural findings on native and accented speech. In a second experiment, we evaluate LFE on a large number of language pairs, including many which have never been tested on humans. We show that the effect is replicated across a wide array of languages, providing further evidence of its universality. Building on the gradual measure of LFE, we also show that languages belonging to the same family yield smaller scores, supporting the idea of an effect of language distance on LFE.
翻訳日:2022-06-28 16:04:09 公開日:2022-06-27
# (参考訳) 機械学習におけるペンと紙のエクササイズ

Pen and Paper Exercises in Machine Learning ( http://arxiv.org/abs/2206.13446v1 )

ライセンス: CC BY 4.0
Michael U. Gutmann(参考訳) これは、機械学習における(ほとんど)ペン・アンド・ペーパーのエクササイズの集合です。 エクササイズは、線形代数、最適化、方向性のグラフィカルモデル、非方向性のグラフィカルモデル、グラフィカルモデルの表現力、因子グラフとメッセージパッシング、隠れマルコフモデルの推論、モデルベースの学習(ICAと非正規化モデルを含む)、サンプリングとモンテカルロの統合、変分推論である。

This is a collection of (mostly) pen-and-paper exercises in machine learning. The exercises are on the following topics: linear algebra, optimisation, directed graphical models, undirected graphical models, expressive power of graphical models, factor graphs and message passing, inference for hidden Markov models, model-based learning (including ICA and unnormalised models), sampling and Monte-Carlo integration, and variational inference.
翻訳日:2022-06-28 16:01:54 公開日:2022-06-27
# zero stability wellは畳み込みニューラルネットワークの性能を予測する

Zero Stability Well Predicts Performance of Convolutional Neural Networks ( http://arxiv.org/abs/2206.13100v1 )

ライセンス: Link先を確認
Liangming Chen, Long Jin, Mingsheng Shang(参考訳) どのような畳み込みニューラルネットワーク(CNN)構造がうまく機能するのかという疑問は興味深い。 本研究は,ゼロ安定性とモデル性能を接続することにより,さらなるステップで解を求めるものである。 具体的には、通常の微分方程式の離散解法がゼロ安定であれば、その解法に対応するCNNはよく機能する。 まず, 深層学習におけるゼロ安定性の解釈を行い, 異なるゼロ安定条件下での既存1次および2次cnnの性能について検討する。 予備観測に基づいて, cnnを構成する高次離散化を行い, ゼロ安定ネットワーク (zerosnet) を提案する。 zerosnetの安定性をゼロにするために、まず一貫性条件を満たす構造を推定し、トレーニングフリーパラメータのゼロ安定領域を与える。 特徴方程式の根を解析することにより,特徴写像の最適係数を理論的に求める。 我々は,特徴方程式の根のモジュラーが歴史的特徴を必要とするcnnの性能の鍵であることを示すために,異なるデータセットの深さに関する広範な実証的証拠を提供する。 ソースコードは \url{https://github.com/LongJin-lab/ZeroSNet} で入手できる。

The question of what kind of convolutional neural network (CNN) structure performs well is fascinating. In this work, we move toward the answer with one more step by connecting zero stability and model performance. Specifically, we found that if a discrete solver of an ordinary differential equation is zero stable, the CNN corresponding to that solver performs well. We first give the interpretation of zero stability in the context of deep learning and then investigate the performance of existing first- and second-order CNNs under different zero-stable circumstances. Based on the preliminary observation, we provide a higher-order discretization to construct CNNs and then propose a zero-stable network (ZeroSNet). To guarantee zero stability of the ZeroSNet, we first deduce a structure that meets consistency conditions and then give a zero stable region of a training-free parameter. By analyzing the roots of a characteristic equation, we theoretically obtain the optimal coefficients of feature maps. Empirically, we present our results from three aspects: We provide extensive empirical evidence of different depth on different datasets to show that the moduli of the characteristic equation's roots are the keys for the performance of CNNs that require historical features; Our experiments show that ZeroSNet outperforms existing CNNs which is based on high-order discretization; ZeroSNets show better robustness against noises on the input. The source code is available at \url{https://github.com/LongJin-lab/ZeroSNet}.
翻訳日:2022-06-28 15:57:37 公開日:2022-06-27
# 実生活の高度不均衡オンラインクレジットカード決済データセットにおける再サンプリング手法の評価

Evaluating resampling methods on a real-life highly imbalanced online credit card payments dataset ( http://arxiv.org/abs/2206.13152v1 )

ライセンス: Link先を確認
Fran\c{c}ois de la Bourdonnaye, Fabrice Daniel(参考訳) 機械学習に基づくクレジットカード不正検出のさまざまな問題は、トランザクションデータセットの不均衡な側面から生じる。 実際、通常のトランザクション数と比較して不正行為の数は少なく、学習のパフォーマンスを損なうことが示されている(例えば、最悪の場合、アルゴリズムはすべてのトランザクションを通常のトランザクションに分類することを学べる)。 再サンプリング手法とコストに敏感なアプローチは、この不均衡データセットの問題を活用するための良い候補であることが知られている。 本稿では,大規模なオンラインクレジットカード決済データセットにおいて,最先端のリサンプリング手法を数多く評価する。 メソッドは難易度が高いか、メトリクスが大幅に改善されないため、それらが非効率であることを示す。 本研究は,(1)大規模データセットにおける最先端のリサンプリング手法と(2)実生活のオンラインクレジットカード決済データセットとを比較することで,この領域に寄与する。

Various problems of any credit card fraud detection based on machine learning come from the imbalanced aspect of transaction datasets. Indeed, the number of frauds compared to the number of regular transactions is tiny and has been shown to damage learning performances, e.g., at worst, the algorithm can learn to classify all the transactions as regular. Resampling methods and cost-sensitive approaches are known to be good candidates to leverage this issue of imbalanced datasets. This paper evaluates numerous state-of-the-art resampling methods on a large real-life online credit card payments dataset. We show they are inefficient because methods are intractable or because metrics do not exhibit substantial improvements. Our work contributes to this domain in (1) that we compare many state-of-the-art resampling methods on a large-scale dataset and in (2) that we use a real-life online credit card payments dataset.
翻訳日:2022-06-28 15:56:26 公開日:2022-06-27
# 時系列異常検出アルゴリズムの局所評価

Local Evaluation of Time Series Anomaly Detection Algorithms ( http://arxiv.org/abs/2206.13167v1 )

ライセンス: Link先を確認
Alexis Huet and Jose Manuel Navarro and Dario Rossi(参考訳) 近年,古典的精度とリコールの限界に対処するため,時系列異常検出アルゴリズムの具体的な評価指標が開発されている。 しかしながら、これらのメトリクスはヒューリスティックに複数の望ましい側面の集約として構築され、パラメータを導入し、出力の解釈可能性を排除する。 この記事では、まず、古典的な精度/リコールの限界と、最近のイベントベースのメトリクスの主な問題を紹介します。例えば、敵アルゴリズムが高い精度に達し、弱い仮定の下でほぼすべてのデータセットをリコールできることを示します。 上記の問題に対処するために、基礎的真理と予測集合との'アフィリエーション'の概念に基づいて、精度/リコールメトリクスの理論的根拠、ロバスト、パラメータフリー、解釈可能な拡張を提案する。 提案手法は, 地上の真理と予測の期間を計測し, 直観的な解釈を行う。 ランダムサンプリングに対するさらなる比較により、与えられた結果セットがランダムなベースライン予測よりもどれだけ優れているかを定量化する正規化精度/リコールが得られる。 本手法は,基礎的真理事象を局所的に評価し,詳細な可視化とアルゴリズム的結果の解釈を可能にする。 提案手法を,各種公開時系列異常検出データセット,アルゴリズム,メトリクスと比較した。 我々はさらに,その行動に対する明確な期待を与え,敵戦略に対する堅牢性を確保するアフィリエーション指標の理論的特性を導出する。

In recent years, specific evaluation metrics for time series anomaly detection algorithms have been developed to handle the limitations of the classical precision and recall. However, such metrics are heuristically built as an aggregate of multiple desirable aspects, introduce parameters and wipe out the interpretability of the output. In this article, we first highlight the limitations of the classical precision/recall, as well as the main issues of the recent event-based metrics -- for instance, we show that an adversary algorithm can reach high precision and recall on almost any dataset under weak assumption. To cope with the above problems, we propose a theoretically grounded, robust, parameter-free and interpretable extension to precision/recall metrics, based on the concept of ``affiliation'' between the ground truth and the prediction sets. Our metrics leverage measures of duration between ground truth and predictions, and have thus an intuitive interpretation. By further comparison against random sampling, we obtain a normalized precision/recall, quantifying how much a given set of results is better than a random baseline prediction. By construction, our approach keeps the evaluation local regarding ground truth events, enabling fine-grained visualization and interpretation of algorithmic results. We compare our proposal against various public time series anomaly detection datasets, algorithms and metrics. We further derive theoretical properties of the affiliation metrics that give explicit expectations about their behavior and ensure robustness against adversary strategies.
翻訳日:2022-06-28 15:56:13 公開日:2022-06-27
# 自分のデバイスの囚人:モデルがどのようにデータバイアスを誘発するか

Prisoners of Their Own Devices: How Models Induce Data Bias in Performative Prediction ( http://arxiv.org/abs/2206.13183v1 )

ライセンス: Link先を確認
Jos\'e Pombal, Pedro Saleiro, M\'ario A.T. Figueiredo, Pedro Bizarro(参考訳) データからパターンを学習する機械学習アルゴリズムの非並列的な能力は、バイアスを組み込むこともできる。 偏見のあるモデルは、社会の特定のグループに不均等に害を与える決定を下すことができる。 多くの作業は、静的ML環境での不公平さを測定することに費やされているが、現実のほとんどのユースケースが動作する動的でパフォーマンスのよい予測には当てはまらない。 後者では、予測モデル自体がデータの分布を形成する上で重要な役割を果たす。 しかし、これらの相互作用に対する不公平さにはほとんど注意が払われていない。 そこで本研究では,これらの設定における不公平さの理解を深めるために,データの偏見を特徴付ける分類法を提案し,モデル行動によって形づくられるケースについて検討する。 実世界における不正検出ケーススタディを例として,分散シフトと選択ラベルの問題という,2つの典型的なバイアスのパフォーマンスと公平性の危険性について検討した。

The unparalleled ability of machine learning algorithms to learn patterns from data also enables them to incorporate biases embedded within. A biased model can then make decisions that disproportionately harm certain groups in society. Much work has been devoted to measuring unfairness in static ML environments, but not in dynamic, performative prediction ones, in which most real-world use cases operate. In the latter, the predictive model itself plays a pivotal role in shaping the distribution of the data. However, little attention has been heeded to relating unfairness to these interactions. Thus, to further the understanding of unfairness in these settings, we propose a taxonomy to characterize bias in the data, and study cases where it is shaped by model behaviour. Using a real-world account opening fraud detection case study as an example, we study the dangers to both performance and fairness of two typical biases in performative prediction: distribution shifts, and the problem of selective labels.
翻訳日:2022-06-28 15:55:46 公開日:2022-06-27
# バッチ多目的ベイズ最適化のためのペナリゼーション法と熱交換器設計への応用

A penalisation method for batch multi-objective Bayesian optimisation with application in heat exchanger design ( http://arxiv.org/abs/2206.13326v1 )

ライセンス: Link先を確認
Andrei Paleyes, Henry B. Moss, Victor Picheny, Piotr Zulawski, Felix Newman(参考訳) 本稿では,並列処理資源を効率的に活用する多目的ベイズ最適化法を実現するバッチ取得関数HIghly Parallelisable Pareto Optimisation (HIPPO)を提案する。 マルチオブジェクトベイズ最適化(MOBO)は高価なブラックボックス問題に対処するための非常に効率的なツールである。 しかし、ほとんどのmoboアルゴリズムは、純粋にシーケンシャルな戦略として設計されており、既存のバッチアプローチは、最小のバッチサイズ以外は、非常に高価である。 類似の予測対象値を用いて評価を行うことで,バッチの多様性を高めることにより,HIPPOは大量の情報ポイントを安価に構築できることを示す。 実験により,HIPPOは計算オーバーヘッドの桁違いを小さくし,バッチサイズにスケールアップし易い一方で,既存の代替品と同程度の効率性を示した。 さらに,熱交換器設計問題へのHIPPOの適用を実証し,MOBOへの並列性の高いアプローチの現実的有用性を強調した。

We present HIghly Parallelisable Pareto Optimisation (HIPPO) -- a batch acquisition function that enables multi-objective Bayesian optimisation methods to efficiently exploit parallel processing resources. Multi-Objective Bayesian Optimisation (MOBO) is a very efficient tool for tackling expensive black-box problems. However, most MOBO algorithms are designed as purely sequential strategies, and existing batch approaches are prohibitively expensive for all but the smallest of batch sizes. We show that by encouraging batch diversity through penalising evaluations with similar predicted objective values, HIPPO is able to cheaply build large batches of informative points. Our extensive experimental validation demonstrates that HIPPO is at least as efficient as existing alternatives whilst incurring an order of magnitude lower computational overhead and scaling easily to batch sizes considerably higher than currently supported in the literature. Additionally, we demonstrate the application of HIPPO to a challenging heat exchanger design problem, stressing the real-world utility of our highly parallelisable approach to MOBO.
翻訳日:2022-06-28 15:55:30 公開日:2022-06-27
# ギロチン規則化: 頭を取り除きディープネットワークの一般化を改善する

Guillotine Regularization: Improving Deep Networks Generalization by Removing their Head ( http://arxiv.org/abs/2206.13378v1 )

ライセンス: Link先を確認
Florian Bordes, Randall Balestriero, Quentin Garrido, Adrien Bardes, Pascal Vincent(参考訳) 近年の予期せぬテクニックの1つは、Deep Network(DN)を自己監視学習(SSL)メソッドでトレーニングし、このネットワークを下流タスクで使用するが、最後の数層を完全に削除したことである。 通常このスキミングオーバーのトリックは、sslメソッドが競合性能を示すために非常に重要です。 例えば、imagenetの分類では、30ポイント以上のパーセンテージを得ることができる。 トレーニング中にSSLの基準(最後のレイヤ)によって明確に不変性が強制されるネットワーク層が、下流で最高の一般化パフォーマンスのために使用されるべきだと期待するからです。 しかし、そうではないように思える。この研究は、その理由に光を当てている。 このトリックは、Guillotine Regularization (GR) と呼ばれ、実際には、転送学習シナリオにおける一般化性能を改善するためにも使われている一般的な正規化形式である。 本研究では、理論と実験を通じてGRを形式化し、SSLメソッドの成功の背景にある理由を特定する。 我々の研究によると、SSLのパフォーマンスには2つの主な理由がある。 (i)訓練中の正の対を定義するための不適切なデータ提供 (II)SSL損失のハイパーパラメータの最適部分選択。

One unexpected technique that emerged in recent years consists in training a Deep Network (DN) with a Self-Supervised Learning (SSL) method, and using this network on downstream tasks but with its last few layers entirely removed. This usually skimmed-over trick is actually critical for SSL methods to display competitive performances. For example, on ImageNet classification, more than 30 points of percentage can be gained that way. This is a little vexing, as one would hope that the network layer at which invariance is explicitly enforced by the SSL criterion during training (the last layer) should be the one to use for best generalization performance downstream. But it seems not to be, and this study sheds some light on why. This trick, which we name Guillotine Regularization (GR), is in fact a generically applicable form of regularization that has also been used to improve generalization performance in transfer learning scenarios. In this work, through theory and experiments, we formalize GR and identify the underlying reasons behind its success in SSL methods. Our study shows that the use of this trick is essential to SSL performance for two main reasons: (i) improper data-augmentations to define the positive pairs used during training, and/or (ii) suboptimal selection of the hyper-parameters of the SSL loss.
翻訳日:2022-06-28 15:55:12 公開日:2022-06-27
# タスク依存状態抽象化のための因果ダイナミクス学習

Causal Dynamics Learning for Task-Independent State Abstraction ( http://arxiv.org/abs/2206.13452v1 )

ライセンス: Link先を確認
Zizhao Wang, Xuesu Xiao, Zifan Xu, Yuke Zhu, Peter Stone(参考訳) モデルベース強化学習(MBRL)の重要な目標として,モデルに基づく強化学習(MBRL)を正確に学習することが重要である。 本稿では,タスク非依存状態抽象化のための因果ダイナミクス学習(CDL)を紹介し,まず,状態変数と動作間の不要な依存関係を除去する理論的に証明された因果ダイナミクスモデルについて述べる。 状態抽象化は、サンプル効率を向上させるだけでなく、既存の状態抽象化メソッドよりも幅広いタスクに適用できる、学習されたダイナミクスから導出することができる。 2つのシミュレート環境と下流タスクで評価し,提案手法で学習したダイナミクスモデルとポリシーは未認識の状態によく一般化し,導出状態抽象化は学習時よりもサンプル効率が向上する。

Learning dynamics models accurately is an important goal for Model-Based Reinforcement Learning (MBRL), but most MBRL methods learn a dense dynamics model which is vulnerable to spurious correlations and therefore generalizes poorly to unseen states. In this paper, we introduce Causal Dynamics Learning for Task-Independent State Abstraction (CDL), which first learns a theoretically proved causal dynamics model that removes unnecessary dependencies between state variables and the action, thus generalizing well to unseen states. A state abstraction can then be derived from the learned dynamics, which not only improves sample efficiency but also applies to a wider range of tasks than existing state abstraction methods. Evaluated on two simulated environments and downstream tasks, both the dynamics model and policies learned by the proposed method generalize well to unseen states and the derived state abstraction improves sample efficiency compared to learning without it.
翻訳日:2022-06-28 15:54:52 公開日:2022-06-27
# 入れ子型メタ学習における良性過剰の理解

Understanding Benign Overfitting in Nested Meta Learning ( http://arxiv.org/abs/2206.13482v1 )

ライセンス: Link先を確認
Lisha Chen, Songtao Lu, Tianyi Chen(参考訳) メタ学習は、限られた教師付きデータによる数発の学習で大きな成功を収めた。 これらの設定では、通常、メタモデルは過度にパラメータ化されます。 従来の統計学習理論では、過度にパラメータ化されたモデルは過度に適合する傾向があるが、経験的な証拠は過度にパラメータ化されたメタ学習法がまだうまく機能していることを示している。 この現象を理解するために,我々は,ネスト型メタ学習という,ネスト型構造を持つメタ学習環境に着目し,その一般化性能を過パラメータ型メタ学習モデルで解析する。 解析は,比較的扱いやすい線形モデルを用いるが,本理論は,入れ子型メタ学習タスクにおけるデータ不均一性,モデル適応性,良性オーバーフィットの微妙な相互作用を理解するのに寄与する。 数値シミュレーションにより理論的主張を裏付ける。

Meta learning has demonstrated tremendous success in few-shot learning with limited supervised data. In those settings, the meta model is usually overparameterized. While the conventional statistical learning theory suggests that overparameterized models tend to overfit, empirical evidence reveals that overparameterized meta learning methods still work well -- a phenomenon often called ``benign overfitting.'' To understand this phenomenon, we focus on the meta learning settings with a challenging nested structure that we term the nested meta learning, and analyze its generalization performance under an overparameterized meta learning model. While our analysis uses the relatively tractable linear models, our theory contributes to understanding the delicate interplay among data heterogeneity, model adaptation and benign overfitting in nested meta learning tasks. We corroborate our theoretical claims through numerical simulations.
翻訳日:2022-06-28 15:53:14 公開日:2022-06-27
# 極端にプライベートなコンドルセット投票

Differentially Private Condorcet Voting ( http://arxiv.org/abs/2206.13081v1 )

ライセンス: Link先を確認
Zhechen Li, Ao Liu, Lirong Xia, Yongzhi Cao, Hanpin Wang(参考訳) 民間の投票規則を設計することは、信頼できる民主主義にとって重要かつ差し迫った問題である。 本稿では,よく知られたcondorcet法に基づくランダム化投票ルールの3つのクラスを提案する: laplacian condorcet method (cm^{lap}_\lambda$), exponential condorcet method (cm^{exp}_\lambda$), randomized response condorcet method (cm^{rr}_\lambda$), ここで$\lambda$はノイズレベルを表す。 ランダム性によって生じる誤差を正確に推定することにより、ほとんどの場合、$CM^{EXP}_\lambda$が最も正確なメカニズムであることを示す。 これらの規則は, 絶対単調性, 語彙参加性, 確率論的パレート効率, 近似確率論的コンドルチェット基準, 近似SD安定度を満たす。 さらに、$CM^{RR}_\lambda$は(非近似的な)確率的コンドルセットの基準を満たす一方、$CM^{LAP}_\lambda$と$CM^{EXP}_\lambda$は強い語彙参加を満たす。 最後に,ディファレンシャルプライバシを投票公理とみなし,他の公理との関係について論じる。

Designing private voting rules is an important and pressing problem for trustworthy democracy. In this paper, under the framework of differential privacy, we propose three classes of randomized voting rules based on the well-known Condorcet method: Laplacian Condorcet method ($CM^{LAP}_\lambda$), exponential Condorcet method ($CM^{EXP}_\lambda$), and randomized response Condorcet method ($CM^{RR}_\lambda$), where $\lambda$ represents the level of noise. By accurately estimating the errors introduced by the randomness, we show that $CM^{EXP}_\lambda$ is the most accurate mechanism in most cases. We prove that all of our rules satisfy absolute monotonicity, lexi-participation, probabilistic Pareto efficiency, approximate probabilistic Condorcet criterion, and approximate SD-strategyproofness. In addition, $CM^{RR}_\lambda$ satisfies (non-approximate) probabilistic Condorcet criterion, while $CM^{LAP}_\lambda$ and $CM^{EXP}_\lambda$ satisfy strong lexi-participation. Finally, we regard differential privacy as a voting axiom, and discuss its relations to other axioms.
翻訳日:2022-06-28 15:52:10 公開日:2022-06-27
# (参考訳) ビデオフレーム補間による映像予測の最適化

Optimizing Video Prediction via Video Frame Interpolation ( http://arxiv.org/abs/2206.13454v1 )

ライセンス: CC BY 4.0
Yue Wu and Qiang Wen and Qifeng Chen(参考訳) ビデオ予測は、過去のフレームが与えた将来のフレームを予測する補間タスクであり、ビデオフレーム補間は、2つのフレーム間の中間フレームを推定する補間タスクである。 われわれは、ビデオフレーム補間が驚くほど進歩していることを見てきたが、野生での一般的なビデオ予測はまだ未解決の問題だ。 映像フレーム補間による写真リアルな結果に着想を得て,映像フレーム補間による映像予測のための新しい最適化フレームワークを提案し,補間モデルに基づく補間問題の解法を提案する。 我々のビデオ予測フレームワークは、トレーニングデータセットを必要とせず、事前訓練可能なビデオフレーム補間モジュールによる最適化に基づいているため、トレーニングデータとテストデータの間にはドメインギャップがない。 また,本手法ではセマンティックマップやインスタンスマップなどの追加情報を必要としないため,任意のビデオに適用できる。 cityscapes、kitti、davis、 middlebury、vimeo90kのデータセットに関する広範な実験では、一般的なシナリオではビデオ予測の結果が堅牢であり、大量のトレーニングデータや追加的な意味情報を必要とする他のビデオ予測手法よりも優れています。

Video prediction is an extrapolation task that predicts future frames given past frames, and video frame interpolation is an interpolation task that estimates intermediate frames between two frames. We have witnessed the tremendous advancement of video frame interpolation, but the general video prediction in the wild is still an open question. Inspired by the photo-realistic results of video frame interpolation, we present a new optimization framework for video prediction via video frame interpolation, in which we solve an extrapolation problem based on an interpolation model. Our video prediction framework is based on optimization with a pretrained differentiable video frame interpolation module without the need for a training dataset, and thus there is no domain gap issue between training and test data. Also, our approach does not need any additional information such as semantic or instance maps, which makes our framework applicable to any video. Extensive experiments on the Cityscapes, KITTI, DAVIS, Middlebury, and Vimeo90K datasets show that our video prediction results are robust in general scenarios, and our approach outperforms other video prediction methods that require a large amount of training data or extra semantic information.
翻訳日:2022-06-28 15:50:16 公開日:2022-06-27
# ロバストな海上障害物検出のための弱アノテーションによる学習

Learning with Weak Annotations for Robust Maritime Obstacle Detection ( http://arxiv.org/abs/2206.13263v1 )

ライセンス: Link先を確認
Lojze \v{Z}ust and Matej Kristan(参考訳) 海上障害物検出は、自律船の安全な航行と時間的衝突回避に不可欠である。 現在の最先端は、大規模なデータセットでトレーニングされたディープセグメンテーションネットワークに基づいている。 しかし、そのようなデータセットの1ピクセルあたりの真実ラベル付けは、労働集約的で高価である。 本研究では,分節に基づく障害物検出ネットワークを訓練するために,水辺,地平線,障害物境界ボックスからなる弱いアノテーションを活用した新しい足場学習手法(slr)を提案する。 SLRは弱いアノテーションから初期モデルを訓練し、セグメンテーションの擬似ラベルの再推定とネットワークパラメータの改善を交互に行う。 実験により,SLRを弱いラベルで訓練した海上障害物セグメンテーションネットワークが一致しただけでなく,密度の高い真実ラベルで訓練したのと同じネットワークを上回る性能を示した。 精度の向上に加えて、SLRはドメインの一般化も向上し、手動のアノテーション負荷の少ないドメイン適応にも利用できる。 コードと事前トレーニングされたモデルはhttps://github.com/lojzezust/SLR で公開されている。

Robust maritime obstacle detection is crucial for safe navigation of autonomous boats and timely collision avoidance. The current state-of-the-art is based on deep segmentation networks trained on large datasets. Per-pixel ground truth labeling of such datasets, however, is labor-intensive and expensive. We propose a new scaffolding learning regime (SLR), that leverages weak annotations consisting of water edge, horizon and obstacle bounding boxes to train segmentation-based obstacle detection networks, and thus reduces the required ground truth labelling effort by twenty-fold. SLR trains an initial model from weak annotations, then alternates between re-estimating the segmentation pseudo labels and improving the network parameters. Experiments show that maritime obstacle segmentation networks trained using SLR on weak labels not only match, but outperform the same networks trained with dense ground truth labels, which is a remarkable result. In addition to increased accuracy, SLR also increases domain generalization and can be used for domain adaptation with a low manual annotation load. The code and pre-trained models are available at https://github.com/lojzezust/SLR .
翻訳日:2022-06-28 15:37:18 公開日:2022-06-27
# 超音波映像を用いた甲状腺結節認識のためのキーフレーム誘導ネットワーク

Key-frame Guided Network for Thyroid Nodule Recognition using Ultrasound Videos ( http://arxiv.org/abs/2206.13318v1 )

ライセンス: Link先を確認
Yuchen Wang, Zhongyu Li, Xiangxiang Cui, Liangliang Zhang, Xiang Luo, Meng Yang, and Shi Chang(参考訳) 超音波検査は甲状腺結節(良性/悪性)の臨床診断に広く用いられている。 しかし、精度は放射線技師の経験に大きく依存している。 甲状腺結節認識のための深層学習技術が研究されている。 現在の解決策は主に静的超音波画像に基づいており、時間的情報が限られており、臨床診断と矛盾している。 本稿では,超音波ビデオとキーフレームの徹底的な探索による甲状腺結節の自動認識手法を提案する。 まず,超音波映像中の典型的結節を伴う臨床キーフレームを自動的に識別する検出局所化フレームワークを提案する。 局所化キーフレームに基づいて,甲状腺結節認識のためのキーフレーム誘導ビデオ分類モデルを開発した。 また,超音波映像中の重要なフレームにネットワークが焦点を合わせるのに役立つモーションアテンションモジュールも導入し,臨床診断と整合する。 本発明の甲状腺結節認識フレームワークは, 臨床検査による超音波検査において, 他の最先端法と比較して優れた性能を示した。

Ultrasound examination is widely used in the clinical diagnosis of thyroid nodules (benign/malignant). However, the accuracy relies heavily on radiologist experience. Although deep learning techniques have been investigated for thyroid nodules recognition. Current solutions are mainly based on static ultrasound images, with limited temporal information used and inconsistent with clinical diagnosis. This paper proposes a novel method for the automated recognition of thyroid nodules through an exhaustive exploration of ultrasound videos and key-frames. We first propose a detection-localization framework to automatically identify the clinical key-frames with typical nodules in each ultrasound video. Based on the localized key-frames, we develop a key-frame guided video classification model for thyroid nodule recognition. Besides, we introduce motion attention module to help network focus on significant frames in an ultrasound video, which is consistent with clinical diagnosis. The proposed thyroid nodule recognition framework is validated on clinically collected ultrasound videos, demonstrating superior performance compared with other state-of-the-art methods.
翻訳日:2022-06-28 15:36:58 公開日:2022-06-27
# TextDCT:離散コサイン変換マスクによる任意形テキスト検出

TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform Mask ( http://arxiv.org/abs/2206.13381v1 )

ライセンス: Link先を確認
Yuchen Su, Zhiwen Shao, Yong Zhou, Fanrong Meng, Hancheng Zhu, Bing Liu, and Rui Yao(参考訳) 任意の形のシーンのテキスト検出は、フォント、サイズ、色、方向のさまざまな変更のため、難しい課題である。 既存の回帰ベースのほとんどのメソッドは、テキストインスタンスをモデル化するために、テキスト領域のマスクや輪郭点を回帰する。 しかし、完全なマスクを補強するには高い訓練の複雑さが必要であり、輪郭点は高度に湾曲したテキストの詳細を捉えるのに十分ではない。 このような制約に対処するために,テキストマスクをコンパクトベクトルとして符号化するために離散コサイン変換(DCT)を採用するTextDCTという,新しい軽量アンカーフリーテキスト検出フレームワークを提案する。 さらに,ピラミッド層間のトレーニングサンプル数の不均衡を考慮すると,トップダウン予測には単層ヘッドのみを用いる。 本論文では,複数種類のテキストを単層ヘッドでモデル化するために,縮小したテキスト領域を正のサンプルとして扱うことにより,新たな正のサンプリング戦略を導入し,リッチな文脈情報を用いて空間認識とスケール認識のための特徴認識モジュール(fam)を設計し,より重要な機能に焦点を当てた。 さらに,低品質マスク回帰をフィルタできるセグメント化非最大抑圧法(S-NMS)を提案する。 大規模な実験を4つの挑戦的データセットで実施し、TextDCTが精度と効率の両面での競合性能を実証した。 具体的には、TextDCTは毎秒17.2フレームで85.1、CTW1500とTotal-Textデータセットで84.9のF測定を実現している。

Arbitrary-shaped scene text detection is a challenging task due to the variety of text changes in font, size, color, and orientation. Most existing regression based methods resort to regress the masks or contour points of text regions to model the text instances. However, regressing the complete masks requires high training complexity, and contour points are not sufficient to capture the details of highly curved texts. To tackle the above limitations, we propose a novel light-weight anchor-free text detection framework called TextDCT, which adopts the discrete cosine transform (DCT) to encode the text masks as compact vectors. Further, considering the imbalanced number of training samples among pyramid layers, we only employ a single-level head for top-down prediction. To model the multi-scale texts in a single-level head, we introduce a novel positive sampling strategy by treating the shrunk text region as positive samples, and design a feature awareness module (FAM) for spatial-awareness and scale-awareness by fusing rich contextual information and focusing on more significant features. Moreover, we propose a segmented non-maximum suppression (S-NMS) method that can filter low-quality mask regressions. Extensive experiments are conducted on four challenging datasets, which demonstrate our TextDCT obtains competitive performance on both accuracy and efficiency. Specifically, TextDCT achieves F-measure of 85.1 at 17.2 frames per second (FPS) and F-measure of 84.9 at 15.1 FPS for CTW1500 and Total-Text datasets, respectively.
翻訳日:2022-06-28 15:36:46 公開日:2022-06-27
# 注意・機械モデルと遺伝的情報に基づくキノコ画像認識と距離生成

Mushroom image recognition and distance generation based on attention-mechanism model and genetic information ( http://arxiv.org/abs/2206.13383v1 )

ライセンス: Link先を確認
Wenbin Liao, Jiewen Xiao, Chengbo Zhao, Yonggong Han, ZhiJie Geng, Jianxin Wang, Yihua Yang(参考訳) マクロファンギ、すなわちキノコの種識別は、常に困難な課題であった。 まだ発見されていない有毒なキノコが多数存在し、人々の生活に危険をもたらす。 しかし、従来の識別法では、手動識別の分類学の分野で多くの専門家が必要であり、非効率であるだけでなく、多くの人的力や資本コストも消費している。 本稿では,軽量ネットワークmobilenetv3をバックボーンモデルとして適用し,提案する注意構造を組み合わせることで,キノコ認識タスクにおいて優れた性能を実現する,注意機構に基づく新しいモデルであるキノコネットを提案する。 パブリックデータセットでは、キノコネットモデルのテスト精度が83.9%に達し、ローカルデータセットではテスト精度が77.4%に達した。 提案する注意機構は,混合チャンネル注意のためのキノコ画像とgrad-camで可視化された注意熱マップに注目した。 さらに,本研究では,キノコ画像認識タスクに遺伝的距離を付加し,その表現空間として遺伝的距離を用い,データセット中の各キノコ種間の遺伝的距離を遺伝的距離表現空間の埋め込みとして使用し,画像距離と種を予測した。 識別しろ その結果,MES活性化関数はキノコの遺伝的距離を非常に正確に予測できるが,精度はSoftMaxよりも低いことがわかった。 提案したMushroomNetは,オンラインキノコ画像とオンラインキノコ画像に非常に有意な可能性を示し,提案した自動処理が従来のキノコ分類の参考となることを実証した。

The species identification of Macrofungi, i.e. mushrooms, has always been a challenging task. There are still a large number of poisonous mushrooms that have not been found, which poses a risk to people's life. However, the traditional identification method requires a large number of experts with knowledge in the field of taxonomy for manual identification, it is not only inefficient but also consumes a lot of manpower and capital costs. In this paper, we propose a new model based on attention-mechanism, MushroomNet, which applies the lightweight network MobileNetV3 as the backbone model, combined with the attention structure proposed by us, and has achieved excellent performance in the mushroom recognition task. On the public dataset, the test accuracy of the MushroomNet model has reached 83.9%, and on the local dataset, the test accuracy has reached 77.4%. The proposed attention mechanisms well focused attention on the bodies of mushroom image for mixed channel attention and the attention heat maps visualized by Grad-CAM. Further, in this study, genetic distance was added to the mushroom image recognition task, the genetic distance was used as the representation space, and the genetic distance between each pair of mushroom species in the dataset was used as the embedding of the genetic distance representation space, so as to predict the image distance and species. identify. We found that using the MES activation function can predict the genetic distance of mushrooms very well, but the accuracy is lower than that of SoftMax. The proposed MushroomNet was demonstrated it shows great potential for automatic and online mushroom image and the proposed automatic procedure would assist and be a reference to traditional mushroom classification.
翻訳日:2022-06-28 15:36:17 公開日:2022-06-27
# RES: ビジュアルな説明をガイドするロバストなフレームワーク

RES: A Robust Framework for Guiding Visual Explanation ( http://arxiv.org/abs/2206.13413v1 )

ライセンス: Link先を確認
Yuyang Gao, Tong Steven Sun, Guangji Bai, Siyi Gu, Sungsoo Ray Hong, Liang Zhao(参考訳) 現代のディープ・ニューラル・ネットワーク(dnn)における説明手法の急速な進歩は「説明の生成方法」を扱っているにもかかわらず、説明自体の品質(例えば「説明が正確であるかどうか」)を検証し、説明品質(例えば「説明が不正確であるときにより正確な説明を生成するためにモデルを調整する方法」)を改善する高度な研究疑問は、比較的未熟である。 モデルをより良い説明へと導くため、モデル説明に監督信号を追加する説明監督技術は、ディープニューラルネットワークの一般化可能性と本質的解釈可能性の両方を改善することに有望な効果を見せ始めた。 しかし、特にサリエンシマップで表現される視覚ベースのアプリケーションにおける監視説明の研究は、いくつかの固有の課題のために初期段階にある。 1)人間の説明注釈境界の不正確性 2)人間の説明注釈領域の不完全性,及び 3)人間のアノテーションとモデル説明図間のデータ分布の不整合性。 そこで本研究では,不正確な境界,不完全領域,不整合分布を扱う新しい目的を,モデル一般化可能性に関する理論的正当化とともに開発し,視覚的説明を導くための汎用resフレームワークを提案する。 2つの実世界の画像データセットに対する大規模な実験は、提案フレームワークが説明の理性およびバックボーンDNNモデルの性能を向上させる上での有効性を示した。

Despite the fast progress of explanation techniques in modern Deep Neural Networks (DNNs) where the main focus is handling "how to generate the explanations", advanced research questions that examine the quality of the explanation itself (e.g., "whether the explanations are accurate") and improve the explanation quality (e.g., "how to adjust the model to generate more accurate explanations when explanations are inaccurate") are still relatively under-explored. To guide the model toward better explanations, techniques in explanation supervision - which add supervision signals on the model explanation - have started to show promising effects on improving both the generalizability as and intrinsic interpretability of Deep Neural Networks. However, the research on supervising explanations, especially in vision-based applications represented through saliency maps, is in its early stage due to several inherent challenges: 1) inaccuracy of the human explanation annotation boundary, 2) incompleteness of the human explanation annotation region, and 3) inconsistency of the data distribution between human annotation and model explanation maps. To address the challenges, we propose a generic RES framework for guiding visual explanation by developing a novel objective that handles inaccurate boundary, incomplete region, and inconsistent distribution of human annotations, with a theoretical justification on model generalizability. Extensive experiments on two real-world image datasets demonstrate the effectiveness of the proposed framework on enhancing both the reasonability of the explanation and the performance of the backbone DNNs model.
翻訳日:2022-06-28 15:35:46 公開日:2022-06-27
# 高速学習とセグメント化: icubロボットによる高速オブジェクトセグメンテーション学習

Learn Fast, Segment Well: Fast Object Segmentation Learning on the iCub Robot ( http://arxiv.org/abs/2206.13462v1 )

ライセンス: Link先を確認
Federico Ceola, Elisa Maiettini, Giulia Pasquale, Giacomo Meanti, Lorenzo Rosasco, Lorenzo Natale(参考訳) ロボットの視覚システムは、アプリケーションによって異なる要件を持つ:高い正確性や信頼性、限られたリソースによる制約、動的に変化する環境への迅速な適応を必要とする。 本稿では,インスタンスセグメンテーションタスクに着目し,新しいオブジェクトや異なるドメインの存在下でオブジェクトセグメンテーションモデルを適用することが可能な,さまざまなテクニックの包括的研究を行う。 我々は,データが流れてくるロボットアプリケーション用に設計された高速インスタンスセグメンテーション学習用パイプラインを提案する。 この手法は,事前学習したCNNを用いて特徴抽出と高速なカーネルベース分類を行うハイブリッド手法に基づいている。 また,データ取得時に特徴抽出を行うことで,学習時間を短縮できるトレーニングプロトコルを提案する。 提案したパイプラインを2つのロボットデータセット上でベンチマークし、実際のロボット、すなわちiCubのヒューマノイドにデプロイする。 そこで本研究では,ロボットが新しい物体をオンラインに学習するインクリメンタルな環境に,本手法を適用した。 実験を再現するコードはgithubで公開されている。

The visual system of a robot has different requirements depending on the application: it may require high accuracy or reliability, be constrained by limited resources or need fast adaptation to dynamically changing environments. In this work, we focus on the instance segmentation task and provide a comprehensive study of different techniques that allow adapting an object segmentation model in presence of novel objects or different domains. We propose a pipeline for fast instance segmentation learning designed for robotic applications where data come in stream. It is based on an hybrid method leveraging on a pre-trained CNN for feature extraction and fast-to-train Kernel-based classifiers. We also propose a training protocol that allows to shorten the training time by performing feature extraction during the data acquisition. We benchmark the proposed pipeline on two robotics datasets and we deploy it on a real robot, i.e. the iCub humanoid. To this aim, we adapt our method to an incremental setting in which novel objects are learned on-line by the robot. The code to reproduce the experiments is publicly available on GitHub.
翻訳日:2022-06-28 15:35:19 公開日:2022-06-27
# (参考訳) パラメトリックに再ターゲティング可能な意思決定ツール

Parametrically Retargetable Decision-Makers Tend To Seek Power ( http://arxiv.org/abs/2206.13477v1 )

ライセンス: CC BY 4.0
Alexander Matt Turner, Prasad Tadepalli(参考訳) 有能なaiエージェントが一般的に、私たちが指定した目的のために力を求めるインセンティブがある場合、これらのシステムは膨大な利益に加えて、大きなリスクをもたらすことになります。 完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。 しかし、現実世界は完全に観察可能でも、エージェントが完全に最適でもない。 我々は、最適なai意思決定からランダムな意思決定から、学習や環境とのインタラクションから得られる選択まで、さまざまなモデルを検討する。 多くの意思決定機能は再ターゲティング可能であり、再ターゲッティング性は電力探索の傾向を引き起こすのに十分である。 私たちの機能基準はシンプルで広範です。 定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。 モンテズマの復讐で学んだ政策インセンティブを推論し,結果の柔軟性を示す。 最終的に、高度に再ターゲティング可能な訓練手順は、人間の力を求める現実世界のエージェントを訓練する可能性がある。

If capable AI agents are generally incentivized to seek power in service of the objectives we specify for them, then these systems will pose enormous risks, in addition to enormous benefits. In fully observable environments, most reward functions have an optimal policy which seeks power by keeping options open and staying alive. However, the real world is neither fully observable, nor will agents be perfectly optimal. We consider a range of models of AI decision-making, from optimal, to random, to choices informed by learning and interacting with an environment. We discover that many decision-making functions are retargetable, and that retargetability is sufficient to cause power-seeking tendencies. Our functional criterion is simple and broad. We show that a range of qualitatively dissimilar decision-making procedures incentivize agents to seek power. We demonstrate the flexibility of our results by reasoning about learned policy incentives in Montezuma's Revenge. These results suggest a safety risk: Eventually, highly retargetable training procedures may train real-world agents which seek power over humans.
翻訳日:2022-06-28 15:30:13 公開日:2022-06-27
# 逆方向決定の複雑さについて

On the Complexity of Adversarial Decision Making ( http://arxiv.org/abs/2206.13063v1 )

ライセンス: Link先を確認
Dylan J. Foster and Alexander Rakhlin and Ayush Sekhari and Karthik Sridharan(参考訳) オンライン学習と意思決定における中心的な問題は、盗賊から強化学習まで、モデリング仮定がサンプル効率の学習保証につながるものを理解することである。 本稿では,対人報酬を伴う(構造化された)帯域幅問題と,対人力学による強化学習問題を含む一般対人意思決定フレームワークについて考察する。 我々の主な結果は、新しい上界と下界を通じて、フォスターらが確率的に導入した複雑性尺度である意思決定係数が、敵対的意思決定に対して低い後悔を得るのに必要かつ十分であることを示すことである。 しかし、確率的な設定と比較して、決定推定係数をモデル(または仮説)のクラスの凸殻に適用しなければならない。 これにより、敵対的報酬やダイナミクスを満たすコストは、凸化下のモデルクラスの振る舞いによって制御され、多くの既存の結果(正と負の両方)を回復する。 これらの保証を得るためには,russo と van roy の情報比や lattimore と gy\"{o}rgy の探索・最適化目標など,他のよく知られた複雑性尺度の変種と決定推定係数を結びつける新たな構造的結果を提供する。

A central problem in online learning and decision making -- from bandits to reinforcement learning -- is to understand what modeling assumptions lead to sample-efficient learning guarantees. We consider a general adversarial decision making framework that encompasses (structured) bandit problems with adversarial rewards and reinforcement learning problems with adversarial dynamics. Our main result is to show -- via new upper and lower bounds -- that the Decision-Estimation Coefficient, a complexity measure introduced by Foster et al. in the stochastic counterpart to our setting, is necessary and sufficient to obtain low regret for adversarial decision making. However, compared to the stochastic setting, one must apply the Decision-Estimation Coefficient to the convex hull of the class of models (or, hypotheses) under consideration. This establishes that the price of accommodating adversarial rewards or dynamics is governed by the behavior of the model class under convexification, and recovers a number of existing results -- both positive and negative. En route to obtaining these guarantees, we provide new structural results that connect the Decision-Estimation Coefficient to variants of other well-known complexity measures, including the Information Ratio of Russo and Van Roy and the Exploration-by-Optimization objective of Lattimore and Gy\"{o}rgy.
翻訳日:2022-06-28 15:27:34 公開日:2022-06-27
# アルゴリズム付きプラットフォームによるコンテンツクリエータインセンティブのモデリング

Modeling Content Creator Incentives on Algorithm-Curated Platforms ( http://arxiv.org/abs/2206.13102v1 )

ライセンス: Link先を確認
Jiri Hron, Karl Krauth, Michael I. Jordan, Niki Kilbertus, Sarah Dean(参考訳) コンテンツクリエイターはユーザーの注意を競います。 彼らのリーチは、オンラインプラットフォーム上で開発者が行うアルゴリズムの選択に大きく依存する。 露出を最大化するために、多くのクリエーターは、スプロールする検索エンジン最適化産業のような例によって証明されているように、戦略的に適応する。 これは有限ユーザアテンションプールの競争を招きます。 我々はこれらのダイナミクスを、現代の因数分解や(深い)2towerアーキテクチャを含むアルゴリズムによって誘導されるインセンティブのモデルである露光ゲームと呼ぶ形で形式化する。 一見無害なアルゴリズム選択(例えば、非負対非拘束因果化)は、露出ゲームにおける(nash)平衡の存在と特性に大きな影響を与えている。 デプロイ前監査(ex-ante)のために、私たちのようなクリエータの行動モデルが利用されています。 このような監査は、望ましいコンテンツとインセンティブのあるコンテンツのミスアライメントを特定し、コンテンツフィルタリングやモデレーションといったポストホックな措置を補完する。 そこで本研究では,露出ゲームにおける平衡を数値的に検出するツールを提案し,MovieLensおよびLastFMデータセットの監査結果を示す。 さらに, 戦略的に生成したコンテンツは, アルゴリズム探索とコンテンツの多様性, モデル表現率とジェンダーベースユーザとクリエーターグループへの偏見に強く依存していることが判明した。

Content creators compete for user attention. Their reach crucially depends on algorithmic choices made by developers on online platforms. To maximize exposure, many creators adapt strategically, as evidenced by examples like the sprawling search engine optimization industry. This begets competition for the finite user attention pool. We formalize these dynamics in what we call an exposure game, a model of incentives induced by algorithms including modern factorization and (deep) two-tower architectures. We prove that seemingly innocuous algorithmic choices -- e.g., non-negative vs. unconstrained factorization -- significantly affect the existence and character of (Nash) equilibria in exposure games. We proffer use of creator behavior models like ours for an (ex-ante) pre-deployment audit. Such an audit can identify misalignment between desirable and incentivized content, and thus complement post-hoc measures like content filtering and moderation. To this end, we propose tools for numerically finding equilibria in exposure games, and illustrate results of an audit on the MovieLens and LastFM datasets. Among else, we find that the strategically produced content exhibits strong dependence between algorithmic exploration and content diversity, and between model expressivity and bias towards gender-based user and creator groups.
翻訳日:2022-06-28 15:27:08 公開日:2022-06-27
# 高次元におけるwasserstein分布ロバストm推定器の性能

The Performance of Wasserstein Distributionally Robust M-Estimators in High Dimensions ( http://arxiv.org/abs/2206.13269v1 )

ライセンス: Link先を確認
Liviu Aolaritei, Soroosh Shafieezadeh-Abadeh, Florian D\"orfler(参考訳) Wassersteinの分散的ロバストな最適化は、近年、堅牢な推定のための強力なフレームワークとして登場し、優れたアウトオブサンプル性能保証、よく理解された正規化効果、そして計算的に抽出可能な2つの再構成を享受している。 そのような枠組みにおいて、推定子は、ワッサーシュタイン意味で近い全ての確率分布に対する最悪の損失を経験的分布に最小化することによって得られる。 本稿では,雑音のある線形測定値から未知パラメータを推定する,分散的に頑健なM推定フレームワークを提案する。 本研究は, 周辺次元と試料数の両方が無限大となる現代高次元比例法において, 問題の過度/過度なパラメータ化を符号化した比例率で実施する。 等方性ガウス特徴の仮定の下では、二乗誤差は4つのスカラー変数を含む凸凹最適化問題の解として回復できることを示した。 我々の知る限りでは、これはワッサーシュタイン分布論的にロバストなM-推定の文脈でこの問題を研究する最初の研究である。

Wasserstein distributionally robust optimization has recently emerged as a powerful framework for robust estimation, enjoying good out-of-sample performance guarantees, well-understood regularization effects, and computationally tractable dual reformulations. In such framework, the estimator is obtained by minimizing the worst-case expected loss over all probability distributions which are close, in a Wasserstein sense, to the empirical distribution. In this paper, we propose a Wasserstein distributionally robust M-estimation framework to estimate an unknown parameter from noisy linear measurements, and we focus on the important and challenging task of analyzing the squared error performance of such estimators. Our study is carried out in the modern high-dimensional proportional regime, where both the ambient dimension and the number of samples go to infinity, at a proportional rate which encodes the under/over-parametrization of the problem. Under an isotropic Gaussian features assumption, we show that the squared error can be recover as the solution of a convex-concave optimization problem which, surprinsingly, involves at most four scalar variables. To the best of our knowledge, this is the first work to study this problem in the context of Wasserstein distributionally robust M-estimation.
翻訳日:2022-06-28 15:26:44 公開日:2022-06-27
# 情報理論と変分推論のための二乗近似

Sum-of-Squares Relaxations for Information Theory and Variational Inference ( http://arxiv.org/abs/2206.13285v1 )

ライセンス: Link先を確認
Francis Bach (SIERRA)(参考訳) シャノン相対エントロピーの拡張について考察し, f-divergences と呼ぶ。 3つの古典的関連計算問題は、典型的にはこれらの発散と関連している。 (a)瞬間からの推定、 (b)積分の正規化計算、及び (c)確率モデルにおける変分推論。 これらの問題は凸双対性を通じて相互に関連しており、これら全てに対して、データサイエンス全体に多くの応用があり、ポテンシャル凸性や単調性といった元の問題の性質を保存する計算可能な近似アルゴリズムを目標としている。 In order to achieve this, we derive a sequence of convex relaxations for computing these divergences from non-centered covariance matrices associated with a given feature vector: starting from the typically non-tractable optimal lower-bound, we consider an additional relaxation based on ''sums-of-squares'', which is is now computable in polynomial time as a semidefinite program, as well as further computationally more efficient relaxations based on spectral information divergences from quantum information theory. 上述のすべてのタスクに対して、新しい緩和を提案すること以外は、拡張ラグランジアンと一階法に基づくトラクタブルアルゴリズムを導出し、ブールハイパーキューブ上の多変数三角多項式と関数に関する図示を示す。

We consider extensions of the Shannon relative entropy, referred to as f-divergences. Three classical related computational problems are typically associated with these divergences: (a) estimation from moments, (b) computing normalizing integrals, and (c) variational inference in probabilistic models. These problems are related to one another through convex duality, and for all them, there are many applications throughout data science, and we aim for computationally tractable approximation algorithms that preserve properties of the original problem such as potential convexity or monotonicity. In order to achieve this, we derive a sequence of convex relaxations for computing these divergences from non-centered covariance matrices associated with a given feature vector: starting from the typically non-tractable optimal lower-bound, we consider an additional relaxation based on ''sums-of-squares'', which is is now computable in polynomial time as a semidefinite program, as well as further computationally more efficient relaxations based on spectral information divergences from quantum information theory. For all of the tasks above, beyond proposing new relaxations, we derive tractable algorithms based on augmented Lagrangians and first-order methods, and we present illustrations on multivariate trigonometric polynomials and functions on the Boolean hypercube.
翻訳日:2022-06-28 15:26:19 公開日:2022-06-27
# 学習管理システムのためのチャットボットソリューションの実装

Implementing a Chatbot Solution for Learning Management System ( http://arxiv.org/abs/2206.13187v1 )

ライセンス: Link先を確認
Andreas Kilde Lien, Lars Martin Randem, Hans Petter Fauchald Taralrud, Maryam Edalati(参考訳) イノベーションは、生徒が効率的に学習するための新しいソリューションを試す上で重要な要素であり、チャットボットがこれらの新しいソリューションの1つである自身の経験に対応する方法である。 今日チャットボットが直面する主な問題の1つは、人間の言語を模倣することであり、入力に対する最良の答えを見つけようとする。 エクストリームプログラミング手法は、ChatterBot、Pyside2、Webスクレイピング、TampermonkeyをテストケースとしてBlackboardに統合するために選択された。 ボットで問題が発生し、ボットが完璧に動作するためにはより多くのトレーニングが必要でしたが、統合とWebスクレイピングがうまくいきました。 我々は、AIボットを教育環境に統合する可能性を示した。

Innovation is a key component in trying new solutions for the students to learn efficiently and in ways that correspond to their own experience, where chatbots are one of these new solutions. One of the main problem that chatbots face today is to mimic human language, where they try to find the best answer to an input, which is not how a human conversation usually works, rather taking into account the previous messages and building onto them. Extreme programming methodology was chosen to use integrate ChatterBot, Pyside2, web scraping and Tampermonkey into Blackboard as a test case. Problems occurred with the bot and more training was needed for the bot to work perfectly, but the integration and web scraping worked, giving us a chatbot that was able to talk with. We showed the plausibility of integrating an AI bot in an educational setting.
翻訳日:2022-06-28 15:24:52 公開日:2022-06-27
# 言語相関解析:deepnlpモデルにおけるサルエントニューロンの発見

Linguistic Correlation Analysis: Discovering Salient Neurons in deepNLP models ( http://arxiv.org/abs/2206.13288v1 )

ライセンス: Link先を確認
Nadir Durrani and Fahim Dalvi and Hassan Sajjad(参考訳) 深部NLPモデルで学んだ表現や、どの知識を捉えるかを理解するために多くの研究がなされてきたが、個々のニューロンにはほとんど注意が払われていない。 言語相関分析(英語版)と呼ばれる手法により、モデル内の有意な神経細胞を、いかなる外部特性に関しても抽出し、その知識がニューロン内でどのように保存されているかを理解することを目的としている。 以下の質問に答えるために、きめ細かい分析を行う。 (i)特定の言語特性を捉えたネットワーク内のニューロンのサブセットを特定できるか? (ii)ネットワークにまたがる局所化ニューロンや分散ニューロンはどの程度存在するか? iii)情報がどれだけ冗長に保存されているか。 iv)学習した言語知識が下流のnlpタスクにどのように影響するか? 四 異なる言語特性の学習において、建築はどのように変化するか。 我々のデータ駆動量分析は興味深い発見を照らす。 (i)異なる言語課題を予測できるニューロンの小さなサブセットを発見した。 二 下位の層に局在する基本的な語彙情報(接尾辞等)を捉えたニューロン 三 複雑な概念(統語的役割など)を学ぶ者は、主に中層及び上層に置かれる。 三 ネットワークがタスク特定情報のために上位層を保存するため、転送学習中に、高度層から下位層に言語ニューロンを移動させること。 iv)言語情報がどのように保存されているかに関して,事前学習したモデル間で興味深い違いを見出した。 v) 概念は多言語トランスフォーマーモデルにおいて, 異なる言語にまたがる類似のニューロン分布を示すことがわかった。 私たちのコードはneurox toolkitの一部として公開されています。

While a lot of work has been done in understanding representations learned within deep NLP models and what knowledge they capture, little attention has been paid towards individual neurons. We present a technique called as Linguistic Correlation Analysis to extract salient neurons in the model, with respect to any extrinsic property - with the goal of understanding how such a knowledge is preserved within neurons. We carry out a fine-grained analysis to answer the following questions: (i) can we identify subsets of neurons in the network that capture specific linguistic properties? (ii) how localized or distributed neurons are across the network? iii) how redundantly is the information preserved? iv) how fine-tuning pre-trained models towards downstream NLP tasks, impacts the learned linguistic knowledge? iv) how do architectures vary in learning different linguistic properties? Our data-driven, quantitative analysis illuminates interesting findings: (i) we found small subsets of neurons that can predict different linguistic tasks, ii) with neurons capturing basic lexical information (such as suffixation) localized in lower most layers, iii) while those learning complex concepts (such as syntactic role) predominantly in middle and higher layers, iii) that salient linguistic neurons are relocated from higher to lower layers during transfer learning, as the network preserve the higher layers for task specific information, iv) we found interesting differences across pre-trained models, with respect to how linguistic information is preserved within, and v) we found that concept exhibit similar neuron distribution across different languages in the multilingual transformer models. Our code is publicly available as part of the NeuroX toolkit.
翻訳日:2022-06-28 15:23:52 公開日:2022-06-27
# 知覚的推論と論理的推論の統一に向けて

Towards Unifying Perceptual Reasoning and Logical Reasoning ( http://arxiv.org/abs/2206.13174v1 )

ライセンス: Link先を確認
Hiroyuki Kido(参考訳) 科学実験が増加し、ヒルムホルツの無意識推論としての認識に根ざしたベイズ推論としての認識が支持されるようになった。 最近の論理学の研究は、論理推論をベイズ推論として捉えている。 本稿では,知覚的推論と論理的推論の両方に適用可能な単純な確率モデルを提案する。 一方,知覚的・論理的知識が他の知識から導き出される過程と,そのような知識がデータから導き出される過程という,知覚的・論理的システムに共通する2つの本質的なプロセスが一体化されていることを示す。 我々はそのモデルを論理的帰結関係の観点で完全に特徴づける。

An increasing number of scientific experiments support the view of perception as Bayesian inference, which is rooted in Helmholtz's view of perception as unconscious inference. Recent study of logic presents a view of logical reasoning as Bayesian inference. In this paper, we give a simple probabilistic model that is applicable to both perceptual reasoning and logical reasoning. We show that the model unifies the two essential processes common in perceptual and logical systems: on the one hand, the process by which perceptual and logical knowledge is derived from another knowledge, and on the other hand, the process by which such knowledge is derived from data. We fully characterise the model in terms of logical consequence relations.
翻訳日:2022-06-28 15:23:07 公開日:2022-06-27
# 骨格に基づく行動認識のためのマルチスケール時空間グラフ畳み込みネットワーク

Multi-Scale Spatial Temporal Graph Convolutional Network for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2206.13028v1 )

ライセンス: Link先を確認
Zhan Chen, Sicheng Li, Bing Yang, Qinghan Li, Hong Liu(参考訳) グラフ畳み込みネットワークは非ユークリッドデータの優れたモデリング能力のために骨格に基づく行動認識に広く利用されている。 グラフ畳み込みは局所的な操作であるため、短距離ジョイント依存性と短距離軌道のみを活用できるが、様々な動作の識別に不可欠な遠距離ジョイント関係や長距離時間情報を直接モデル化することができない。 この問題を解決するために,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。 具体的には、MS-GCとMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残留アーキテクチャを形成する。 追加パラメータを導入することなく、これらの特徴は一連のサブグラフ畳み込みで処理され、各ノードはその近傍で複数の空間的および時間的集約を完了できる。 最終的な等価受容場は拡大され、空間的および時間的領域における短距離および長距離の依存関係をキャプチャすることができる。 さらに,これら2つのモジュールを基本ブロックとして結合することにより,複数のブロックを積み重ねたマルチスケール空間時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。 提案したMST-GCNは,NTU RGB+D,NTU-120 RGB+D,Kinetics-Skeletonの3つのベンチマークデータセットにおいて,骨格に基づく行動認識のための顕著な性能を実現している。

Graph convolutional networks have been widely used for skeleton-based action recognition due to their excellent modeling ability of non-Euclidean data. As the graph convolution is a local operation, it can only utilize the short-range joint dependencies and short-term trajectory but fails to directly model the distant joints relations and long-range temporal information that are vital to distinguishing various actions. To solve this problem, we present a multi-scale spatial graph convolution (MS-GC) module and a multi-scale temporal graph convolution (MT-GC) module to enrich the receptive field of the model in spatial and temporal dimensions. Concretely, the MS-GC and MT-GC modules decompose the corresponding local graph convolution into a set of sub-graph convolution, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-graph convolutions, and each node could complete multiple spatial and temporal aggregations with its neighborhoods. The final equivalent receptive field is accordingly enlarged, which is capable of capturing both short- and long-range dependencies in spatial and temporal domains. By coupling these two modules as a basic block, we further propose a multi-scale spatial temporal graph convolutional network (MST-GCN), which stacks multiple blocks to learn effective motion representations for action recognition. The proposed MST-GCN achieves remarkable performance on three challenging benchmark datasets, NTU RGB+D, NTU-120 RGB+D and Kinetics-Skeleton, for skeleton-based action recognition.
翻訳日:2022-06-28 15:10:13 公開日:2022-06-27
# SearchMorph:変形可能な登録のためのマルチスケール相関反復ネットワーク

SearchMorph:Multi-scale Correlation Iterative Network for Deformable Registration ( http://arxiv.org/abs/2206.13076v1 )

ライセンス: Link先を確認
Xiao Fan, Shuxin Zhuang, Zhemin Zhuang, Shunmin Qiu, Alex Noel Joseph Raj and Yibiao Rong(参考訳) 変形可能な画像登録は、画像に関する動的情報を提供し、医用画像解析に必須である。 しかし、単時間脳MR画像と多時間心エコー図の異なる特徴から、同一のアルゴリズムやモデルを用いて正確に登録することは困難である。 本研究では,教師なしのマルチスケール相関型反復登録ネットワーク(searchmorph)を提案する。 1)特徴相関強化のためにコストボリュームを導入し,マルチスケール相関情報を補完する相関ピラミッドを構築した。 2) マルチスケールピラミッドにおける特徴の登録を検索するための検索モジュールを設計した。 (3) 変形場の繰り返し精製にはGRUモジュールを用いる。 提案するネットワークは,共通する単時間登録タスクにおけるリーダーシップを示し,多時間動作推定課題を解決する。 実験の結果,提案手法は,最先端手法よりも高い登録精度と低い折り畳み点比を実現することがわかった。

Deformable image registration provides dynamic information about the image and is essential in medical image analysis. However, due to the different characteristics of single-temporal brain MR images and multi-temporal echocardiograms, it is difficult to accurately register them using the same algorithm or model. We propose an unsupervised multi-scale correlation iterative registration network (SearchMorph), and the model has three highlights. (1)We introduced cost volumes to strengthen feature correlations and constructed correlation pyramids to complement multi-scale correlation information. (2) We designed the search module to search for the registration of features in multi-scale pyramids. (3) We use the GRU module for iterative refinement of the deformation field. The proposed network in this paper shows leadership in common single-temporal registration tasks and solves multi-temporal motion estimation tasks. The experimental results show that our proposed method achieves higher registration accuracy and a lower folding point ratio than the state-of-the-art methods.
翻訳日:2022-06-28 15:09:41 公開日:2022-06-27
# pst: プラントセグメンテーショントランスフォーマは, mlsオイルシードレイプポイント雲の表現型を強化した

PST: Plant Segmentation Transformer Enhanced Phenotyping of MLS Oilseed Rape Point Cloud ( http://arxiv.org/abs/2206.13082v1 )

ライセンス: Link先を確認
Ruiming Du, Zhihong Ma, Pengyao Xie, Haiyan Cen, Yong He(参考訳) 植物形質転換や作物の育種には, 植物点雲の分別による精密形態特性の獲得が不可欠である。 深層学習手法の興隆は植物点雲のセグメンテーションに関する多くの研究を加速させたが、ほとんどの研究はハード・ボキセル化法やダウン・サンプリング法といった一般的な手法に従っている。 それらは単純な植物器官を分割することに限定されており、複雑な植物点雲を高い空間分解能で解くことの難しさを見下ろしている。 本研究では, mls (mobile laser scanning) オイルシードレイプ点雲のセグメンテーションとインスタンスセグメンテーションを実現するための深層学習ネットワークプラントセグメンテーショントランスフォーマ(pst)を提案する。 PSTは以下の通りである。 (i)動的ボクセル特徴エンコーダ(DVFE)を用いて各点特徴を生空間分解能で集約すること。 (ii)デュアルウィンドウは、コンテキスト情報をキャプチャするために注意ブロックを設定します。 (iii)最終密点特徴写像を得るための密特徴伝播モジュール。 その結果, PST と PST-PointGroup (PG) は, セマンティックおよびインスタンスセグメンテーションタスクにおける最先端性能を達成した。 意味セグメンテーションでは、pstはそれぞれ93.96%、97.29%、96.52%、96.88%、97.07%、平均iou、平均リコール、平均f1-score、総合精度であった。 例えば、PST-PGは89.51%、89.85%、88.83%、mCov、mWCov、mPerc90、mRec90で82.53%に達した。 本研究は, 油種レイプの表現型化を終末的に拡張し, 深層学習法が複雑な形態的特徴を持つ高密度植物点雲の理解に大きな可能性があることを証明した。

Segmentation of plant point clouds to obtain high-precise morphological traits is essential for plant phenotyping and crop breeding. Although the bloom of deep learning methods has boosted much research on the segmentation of plant point cloud, most works follow the common practice of hard voxelization-based or down-sampling-based methods. They are limited to segmenting simple plant organs, overlooking the difficulties of resolving complex plant point clouds with high spatial resolution. In this study, we propose a deep learning network plant segmentation transformer (PST) to realize the semantic and instance segmentation of MLS (Mobile Laser Scanning) oilseed rape point cloud, which characterizes tiny siliques and dense points as the main traits targeted. PST is composed of: (i) a dynamic voxel feature encoder (DVFE) to aggregate per point features with raw spatial resolution; (ii) dual window sets attention block to capture the contextual information; (iii) a dense feature propagation module to obtain the final dense point feature map. The results proved that PST and PST-PointGroup (PG) achieved state-of-the-art performance in semantic and instance segmentation tasks. For semantic segmentation, PST reached 93.96%, 97.29%, 96.52%, 96.88%, and 97.07% in mean IoU, mean Precision, mean Recall, mean F1-score, and overall accuracy, respectively. For instance segmentation, PST-PG reached 89.51%, 89.85%, 88.83% and 82.53% in mCov, mWCov, mPerc90, and mRec90, respectively. This study extends the phenotyping of oilseed rape in an end-to-end way and proves that the deep learning method has a great potential for understanding dense plant point clouds with complex morphological traits.
翻訳日:2022-06-28 15:09:27 公開日:2022-06-27
# 全スライド画像解析のための病変認識コントラスト表現学習

Lesion-Aware Contrastive Representation Learning for Histopathology Whole Slide Images Analysis ( http://arxiv.org/abs/2206.13115v1 )

ライセンス: Link先を確認
Jun Li, Yushan Zheng, Kun Wu, Jun Shi, Fengying Xie, Zhiguo Jiang(参考訳) 局所表現学習は病理組織学的全スライド画像解析の性能向上に重要な課題である。 従来の表現学習方法は教師付き学習パラダイムに従っていた。 しかし、大規模wsisの手動アノテーションは時間と労力がかかる。 そのため,近年,自己指導型コントラスト学習が注目されている。 本研究の対比学習法は,各試料を1つのクラスとして扱い,特に病理組織学画像解析の領域において,クラス衝突問題に苦しむ。 本稿では,スライド画像解析における病理組織学全体を対象とした,LACL(Lesion-Aware Contrastive Learning)という新しいコントラスト学習フレームワークを提案する。 WSIの異なるクラスの表現を格納するために、メモリバンク構造に基づく障害キューを構築しました。 さらに,病巣キューに格納された表現を純化するために,キューリファインメント戦略を考案した。 実験の結果, LACLは, 異なるデータセット上での組織像表現学習において最高の性能を示し, 異なるWSI分類ベンチマークで最先端の手法より優れていた。 コードはhttps://github.com/junl21/laclで入手できる。

Local representation learning has been a key challenge to promote the performance of the histopathological whole slide images analysis. The previous representation learning methods followed the supervised learning paradigm. However, manual annotation for large-scale WSIs is time-consuming and labor-intensive. Hence, the self-supervised contrastive learning has recently attracted intensive attention. The present contrastive learning methods treat each sample as a single class, which suffers from class collision problems, especially in the domain of histopathology image analysis. In this paper, we proposed a novel contrastive representation learning framework named Lesion-Aware Contrastive Learning (LACL) for histopathology whole slide image analysis. We built a lesion queue based on the memory bank structure to store the representations of different classes of WSIs, which allowed the contrastive model to selectively define the negative pairs during the training. Moreover, We designed a queue refinement strategy to purify the representations stored in the lesion queue. The experimental results demonstrate that LACL achieves the best performance in histopathology image representation learning on different datasets, and outperforms state-of-the-art methods under different WSI classification benchmarks. The code is available at https://github.com/junl21/lacl.
翻訳日:2022-06-28 15:08:49 公開日:2022-06-27
# sarnet:大規模都市点雲のセマンティック拡張登録

SARNet: Semantic Augmented Registration of Large-Scale Urban Point Clouds ( http://arxiv.org/abs/2206.13117v1 )

ライセンス: Link先を確認
Chao Liu, Jianwei Guo, Dong-Ming Yan, Zhirong Liang, Xiaopeng Zhang, Zhanglin Cheng(参考訳) LiDARスキャンデータの大規模、ノイズ、データ不完全性のため、都市点雲の登録は非常に難しい作業である。 本稿では,都市規模での都市点雲の効率的な登録を実現するためのセマンティック登録ネットワークであるSARNetを提案する。 ポイントレベルの空間のみに対応を組み込む従来の手法とは異なり,本手法は,登録精度の向上を支援するため,意味的特徴を完全に活用する。 具体的には,高度な意味セグメンテーションネットワークを用いた点単位の意味ラベルを抽出し,先行する意味部分間対応を構築する。 Then we incorporate the semantic information into a learning-based registration pipeline, consisting of three core modules: a semantic-based farthest point sampling module to efficiently filter out outliers and dynamic objects; a semantic-augmented feature extraction module for learning more discriminative point descriptors; a semantic-refined transformation estimation module that utilizes prior semantic matching as a mask to refine point correspondences by reducing false matching for better convergence. 提案したSARNetを,都市域の広い地域からの実世界データを用いて広域に評価し,代替手法と比較した。 コードはhttps://github.com/WinterCodeForEverything/SARNetで公開されている。

Registering urban point clouds is a quite challenging task due to the large-scale, noise and data incompleteness of LiDAR scanning data. In this paper, we propose SARNet, a novel semantic augmented registration network aimed at achieving efficient registration of urban point clouds at city scale. Different from previous methods that construct correspondences only in the point-level space, our approach fully exploits semantic features as assistance to improve registration accuracy. Specifically, we extract per-point semantic labels with advanced semantic segmentation networks and build a prior semantic part-to-part correspondence. Then we incorporate the semantic information into a learning-based registration pipeline, consisting of three core modules: a semantic-based farthest point sampling module to efficiently filter out outliers and dynamic objects; a semantic-augmented feature extraction module for learning more discriminative point descriptors; a semantic-refined transformation estimation module that utilizes prior semantic matching as a mask to refine point correspondences by reducing false matching for better convergence. We evaluate the proposed SARNet extensively by using real-world data from large regions of urban scenes and comparing it with alternative methods. The code is available at https://github.com/WinterCodeForEverything/SARNet.
翻訳日:2022-06-28 15:08:32 公開日:2022-06-27
# 潜在性プリミティブ列を用いた時空間運動完了

Spatio-temporal motion completion using a sequence of latent primitives ( http://arxiv.org/abs/2206.13142v1 )

ライセンス: Link先を確認
Mathieu Marsot, Stefanie Wuhrer, Jean-Sebastien Franco, Anne H\'el\`ene Olivier(参考訳) 本研究では,追跡されていない3次元点雲のスパースサンプリング列から時間とともに変形するアクタの時間的コヒーレントな4次元表現を計算するマーカーレスパフォーマンスキャプチャ手法を提案する。 本手法は時空間運動に先行して潜在最適化を行う。 近年,タスク・ジェネリック・モーション・プリエントが導入され,単一の潜在コードに基づく人間の動作のコヒーレント表現が提案されている。 これらのメソッドを対応のない長いシーケンスに拡張するのは、ほとんど単純です。 ある潜伏符号は、長期の変動性を符号化する非効率さを証明し、潜伏空間最適化は、逆ポーズフィッティングの可能性があるため、誤った局所ミニマの影響を受けやすい。 4次元の人間の動き列を1つの潜在コードではなく、潜伏するプリミティブのシーケンスにエンコードする動きを事前に学習することで、両方の問題に対処する。 また,学習した潜在空間に直接点雲の列を投影し,推論時の潜在表現の優れた初期化を提供するマッピングエンコーダを提案する。 潜時空間からの時間復号は暗黙的かつ連続的であり、時間分解能の柔軟性を提供する。 本手法が最先端動作よりも優れていることを実験的に示す。

We propose a markerless performance capture method that computes a temporally coherent 4D representation of an actor deforming over time from a sparsely sampled sequence of untracked 3D point clouds. Our method proceeds by latent optimization with a spatio-temporal motion prior. Recently, task generic motion priors have been introduced and propose a coherent representation of human motion based on a single latent code, with encouraging results with short sequences and given temporal correspondences. Extending these methods to longer sequences without correspondences is all but straightforward. One latent code proves inefficient to encode longer term variability, and latent space optimization will be very susceptible to erroneous local minima due to possible inverted pose fittings. We address both problems by learning a motion prior that encodes a 4D human motion sequence into a sequence of latent primitives instead of one latent code. We also propose an additional mapping encoder which directly projects a sequence of point clouds into the learned latent space to provide a good initialization of the latent representation at inference time. Our temporal decoding from latent space is implicit and continuous in time, providing flexibility with temporal resolution. We show experimentally that our method outperforms state-of-the-art motion priors.
翻訳日:2022-06-28 15:08:12 公開日:2022-06-27
# 全画像分類のためのカーネル注意変換器(KAT)

Kernel Attention Transformer (KAT) for Histopathology Whole Slide Image Classification ( http://arxiv.org/abs/2206.13156v1 )

ライセンス: Link先を確認
Yushan Zheng, Jun Li, Jun Shi, Fengying Xie, Zhiguo Jiang(参考訳) トランスフォーマーは腫瘍グレーティング,予後解析などの目的で,病理組織学的全スライド画像(WSI)分類において広く用いられている。 しかし,共通トランスフォーマーにおけるトークン回りの自己アテンションと位置埋め込み戦略の設計は,ギガピクセルの病理組織像への適用における有効性と効率を制限している。 本稿では,病理組織学wsi分類のためのカーネルアテンショントランスフォーマ(kat)を提案する。 トークンの情報伝達は、トークンとWSI上の一連の位置アンカーに関連するカーネルの集合との交差アテンションによって達成される。 一般的なトランスフォーマー構造と比較して,提案するkatは,wsiの局所領域の階層的コンテキスト情報の記述が容易であり,一方で計算複雑性も低い。 提案法を2040wsisの胃データセットと2560wsisの子宮内膜データセットで評価し,6種類の最先端法と比較した。 実験により,本提案手法は病理組織学的WSI分類の課題において有効かつ効果的であり,最先端の手法よりも優れていることが示された。 コードはhttps://github.com/zhengyushan/kat.comで入手できる。

Transformer has been widely used in histopathology whole slide image (WSI) classification for the purpose of tumor grading, prognosis analysis, etc. However, the design of token-wise self-attention and positional embedding strategy in the common Transformer limits the effectiveness and efficiency in the application to gigapixel histopathology images. In this paper, we propose a kernel attention Transformer (KAT) for histopathology WSI classification. The information transmission of the tokens is achieved by cross-attention between the tokens and a set of kernels related to a set of positional anchors on the WSI. Compared to the common Transformer structure, the proposed KAT can better describe the hierarchical context information of the local regions of the WSI and meanwhile maintains a lower computational complexity. The proposed method was evaluated on a gastric dataset with 2040 WSIs and an endometrial dataset with 2560 WSIs, and was compared with 6 state-of-the-art methods. The experimental results have demonstrated the proposed KAT is effective and efficient in the task of histopathology WSI classification and is superior to the state-of-the-art methods. The code is available at https://github.com/zhengyushan/kat.
翻訳日:2022-06-28 15:07:51 公開日:2022-06-27
# リモートセンシングにおける自己指導型学習

Self-supervised Learning in Remote Sensing: A Review ( http://arxiv.org/abs/2206.13188v1 )

ライセンス: Link先を確認
Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham, Lichao Mou, Xiao Xiang Zhu(参考訳) 深層学習研究において、自己教師付き学習(SSL)はコンピュータビジョンとリモートセンシングコミュニティの両方に関心を惹きつけている。 コンピュータビジョンでは大きな成功を収めてきたが、地球観測領域におけるSSLの可能性の大部分は、まだロックされている。 本稿では、リモートセンシングの文脈におけるコンピュータビジョンのためのSSLの概念と最新の開発について紹介し、レビューする。 さらに、一般的なリモートセンシングデータセット上での最新のSSLアルゴリズムの予備ベンチマーク、リモートセンシングにおけるSSLの可能性の検証、データ拡張に関する広範な研究を提供する。 最後に、SSL for Earth Observation (SSL4EO) における将来的な研究の方向性のリストを特定し、両ドメイン間の実りある相互作用の道を開く。

In deep learning research, self-supervised learning (SSL) has received great attention triggering interest within both the computer vision and remote sensing communities. While there has been a big success in computer vision, most of the potential of SSL in the domain of earth observation remains locked. In this paper, we provide an introduction to, and a review of the concepts and latest developments in SSL for computer vision in the context of remote sensing. Further, we provide a preliminary benchmark of modern SSL algorithms on popular remote sensing datasets, verifying the potential of SSL in remote sensing and providing an extended study on data augmentations. Finally, we identify a list of promising directions of future research in SSL for earth observation (SSL4EO) to pave the way for fruitful interaction of both domains.
翻訳日:2022-06-28 15:07:22 公開日:2022-06-27
# MGNet:自律運転のための単眼の幾何学的シーン理解

MGNet: Monocular Geometric Scene Understanding for Autonomous Driving ( http://arxiv.org/abs/2206.13199v1 )

ライセンス: Link先を確認
Markus Sch\"on, Michael Buchholz, Klaus Dietmayer(参考訳) モノクロ幾何学的シーン理解のためのマルチタスクフレームワークmgnetを紹介する。 我々は、単眼の幾何学的シーン理解を、2つの既知のタスクの組合せとして定義する。 panopticのセグメンテーションは、意味的にだけでなく、インスタンスベースでも全シーンをキャプチャする。 自己教師付き単眼深度推定は、単眼映像列のみから深度を測定するためにカメラ計測モデルから導かれた幾何学的制約を用いる。 私たちの知る限りでは、この2つのタスクを1つのモデルで組み合わせることを最初に提案しました。 我々のモデルは、単一のコンシューマグレードGPU上でリアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。 展開中、我々のモデルは高解像度カメラ画像から高密度の3次元点雲を生成する。 我々は,Cityscapes と KITTI という2つの一般的な自律走行ベンチマークでモデルを評価し,他のリアルタイム能力のある方法と競合する性能を示す。 ソースコードはhttps://github.com/markusschoen/MGNetで入手できる。

We introduce MGNet, a multi-task framework for monocular geometric scene understanding. We define monocular geometric scene understanding as the combination of two known tasks: Panoptic segmentation and self-supervised monocular depth estimation. Panoptic segmentation captures the full scene not only semantically, but also on an instance basis. Self-supervised monocular depth estimation uses geometric constraints derived from the camera measurement model in order to measure depth from monocular video sequences only. To the best of our knowledge, we are the first to propose the combination of these two tasks in one single model. Our model is designed with focus on low latency to provide fast inference in real-time on a single consumer-grade GPU. During deployment, our model produces dense 3D point clouds with instance aware semantic labels from single high-resolution camera images. We evaluate our model on two popular autonomous driving benchmarks, i.e., Cityscapes and KITTI, and show competitive performance among other real-time capable methods. Source code is available at https://github.com/markusschoen/MGNet.
翻訳日:2022-06-28 15:07:09 公開日:2022-06-27
# (参考訳) iso-capsnet:脳グラフ表現学習のための同型カプセルネットワーク

Iso-CapsNet: Isomorphic Capsule Network for Brain Graph Representation Learning ( http://arxiv.org/abs/2206.13465v1 )

ライセンス: CC BY 4.0
Jiawei Zhang(参考訳) 脳グラフ表現学習は脳疾患診断の基本的な技術である。 近年、学術的・工業的コミュニティからの多大な努力が脳グラフ表現学習に費やされている。 最近導入されたisomorphic neural network(isonn)は、脳グラフにおけるサブグラフパターンの存在を自動的に学習することができる。 しかし、IsoNNはサブグラフパターンの向きを捉えないため、多くのケースで学習した表現が役に立たない可能性がある。 本稿では,脳グラフ表現学習に有効なグラフ同型カプセルを導入することで,新しいIso-CapsNet(Isomorphic Capsule Net)モデルを提案する。 カプセル動的ルーティングに基づいて、サブグラフパターンの存在感スコアに加えて、Iso-CapsNetは、クラスワイドのカプセルを計算するために、位置、サイズ、方向を含む他のサブグラフリッチな特性を学習することができる。 我々は、Iso-CapsNetと古典的および最先端の脳グラフ表現アプローチを比較し、4つの脳グラフベンチマークデータセットに関する広範な実験を行った。 実験結果はiso-capsnetの有効性も示している。

Brain graph representation learning serves as the fundamental technique for brain diseases diagnosis. Great efforts from both the academic and industrial communities have been devoted to brain graph representation learning in recent years. The isomorphic neural network (IsoNN) introduced recently can automatically learn the existence of sub-graph patterns in brain graphs, which is also the state-of-the-art brain graph representation learning method by this context so far. However, IsoNN fails to capture the orientations of sub-graph patterns, which may render the learned representations to be useless for many cases. In this paper, we propose a new Iso-CapsNet (Isomorphic Capsule Net) model by introducing the graph isomorphic capsules for effective brain graph representation learning. Based on the capsule dynamic routing, besides the subgraph pattern existence confidence scores, Iso-CapsNet can also learn other sub-graph rich properties, including position, size and orientation, for calculating the class-wise digit capsules. We have compared Iso-CapsNet with both classic and state-of-the-art brain graph representation approaches with extensive experiments on four brain graph benchmark datasets. The experimental results also demonstrate the effectiveness of Iso-CapsNet, which can out-perform the baseline methods with significant improvements.
翻訳日:2022-06-28 15:06:23 公開日:2022-06-27
# 意思決定における人間とAIのコラボレーション

Human-AI Collaboration in Decision-Making: Beyond Learning to Defer ( http://arxiv.org/abs/2206.13202v1 )

ライセンス: Link先を確認
Diogo Leit\~ao, Pedro Saleiro, M\'ario A.T. Figueiredo, Pedro Bizarro(参考訳) 意思決定におけるヒューマンAIコラボレーション(HAIC)は、人間の意思決定者とAIシステム間の相乗的チームを作ることを目的としている。 Learning to Defer(L2D)は、人間とAIのどちらがどの決定を下すべきかを判断し、システムの性能と公平性を最適化する、有望なフレームワークとして提示されている。 それでもL2Dには、すべてのケースで人間が予測できることや、意思決定者から独立した地道なラベルなど、しばしば実現不可能な要件がいくつか含まれている。 さらに、L2Dや代替アプローチは、キャパシティ管理や動的環境の処理など、現実の環境でHAICをデプロイするという根本的な問題に対処するものではない。 本稿では,haicにおける今後の研究の機会がどこにあるかを示し,これらその他の制約を特定し,検討することを目的とする。

Human-AI collaboration (HAIC) in decision-making aims to create synergistic teaming between human decision-makers and AI systems. Learning to Defer (L2D) has been presented as a promising framework to determine who among humans and AI should take which decisions in order to optimize the performance and fairness of the combined system. Nevertheless, L2D entails several often unfeasible requirements, such as the availability of predictions from humans for every instance or ground-truth labels independent from said decision-makers. Furthermore, neither L2D nor alternative approaches tackle fundamental issues of deploying HAIC in real-world settings, such as capacity management or dealing with dynamic environments. In this paper, we aim to identify and review these and other limitations, pointing to where opportunities for future research in HAIC may lie.
翻訳日:2022-06-28 14:25:05 公開日:2022-06-27
# 微分プライベート非凸最適化のための摂動を伴う正規化/傾斜sgd

Normalized/Clipped SGD with Perturbation for Differentially Private Non-Convex Optimization ( http://arxiv.org/abs/2206.13033v1 )

ライセンス: Link先を確認
Xiaodong Yang and Huishuai Zhang and Wei Chen and Tie-Yan Liu(参考訳) 学習アルゴリズムにおける差分プライバシを確保することで、センシティブなトレーニングデータを記憶する大規模モデルのリスクを厳格に軽減することができる。 本稿では,この目的のための2つのアルゴリズム,すなわちdp-sgdとdp-nsgdについて検討する。 これら2つのアルゴリズムの収束挙動を2つの共通の仮定で非凸最適化設定で解析し、d$-次元モデルに対する勾配ノルムのレート$\mathcal{o}\left(\sqrt[4]{\frac{d\log(1/\delta)}{n^2\epsilon^2}}\right)$d$-dimensional model, $n$ sample, $(\epsilon,\delta)$-dp を達成する。 具体的には,dp-nsgdの正則化因子を導入し,収束証明において重要であり,バイアスとノイズのトレードオフを微妙に制御できることを示す。 この証明は、プライベート設定で指定されたサンプル毎の勾配クリッピングと正規化を意図的に処理する。 実験により,DP-NSGDはDP-SGDよりも比較的チューニングが容易であり,チューニング作業を考慮した場合のプライバシ予算の削減に役立つことが示された。

By ensuring differential privacy in the learning algorithms, one can rigorously mitigate the risk of large models memorizing sensitive training data. In this paper, we study two algorithms for this purpose, i.e., DP-SGD and DP-NSGD, which first clip or normalize \textit{per-sample} gradients to bound the sensitivity and then add noise to obfuscate the exact information. We analyze the convergence behavior of these two algorithms in the non-convex optimization setting with two common assumptions and achieve a rate $\mathcal{O}\left(\sqrt[4]{\frac{d\log(1/\delta)}{N^2\epsilon^2}}\right)$ of the gradient norm for a $d$-dimensional model, $N$ samples and $(\epsilon,\delta)$-DP, which improves over previous bounds under much weaker assumptions. Specifically, we introduce a regularizing factor in DP-NSGD and show that it is crucial in the convergence proof and subtly controls the bias and noise trade-off. Our proof deliberately handles the per-sample gradient clipping and normalization that are specified for the private setting. Empirically, we demonstrate that these two algorithms achieve similar best accuracy while DP-NSGD is comparatively easier to tune than DP-SGD and hence may help further save the privacy budget when accounting the tuning effort.
翻訳日:2022-06-28 14:21:27 公開日:2022-06-27
# 人間はボルツマン分布ではない:強化学習における人間のフィードバックと相互作用をモデル化する挑戦と機会

Humans are not Boltzmann Distributions: Challenges and Opportunities for Modelling Human Feedback and Interaction in Reinforcement Learning ( http://arxiv.org/abs/2206.13316v1 )

ライセンス: Link先を確認
David Lindner and Mennatallah El-Assady(参考訳) 強化学習(Reinforcement Learning, RL)は、よく特定された報酬関数へのアクセスを前提としている。 最近、人間との対話から何をすべきかを学ぶ研究が増えている。 これまでのところ、これらのアプローチのほとんどは、人間を(当然)合理的であり、特に偏りのないフィードバックを与えるとモデル化している。 これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するためにより現実的な人間モデルを開発する必要がある。 特に、人間モデルは個人的、文脈的、動的でなければならないと我々は主張する。 本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。

Reinforcement learning (RL) commonly assumes access to well-specified reward functions, which many practical applications do not provide. Instead, recently, more work has explored learning what to do from interacting with humans. So far, most of these approaches model humans as being (nosily) rational and, in particular, giving unbiased feedback. We argue that these models are too simplistic and that RL researchers need to develop more realistic human models to design and evaluate their algorithms. In particular, we argue that human models have to be personal, contextual, and dynamic. This paper calls for research from different disciplines to address key questions about how humans provide feedback to AIs and how we can build more robust human-in-the-loop RL systems.
翻訳日:2022-06-28 14:20:54 公開日:2022-06-27
# 良性過剰と適応的非パラメトリック回帰

Benign overfitting and adaptive nonparametric regression ( http://arxiv.org/abs/2206.13347v1 )

ライセンス: Link先を確認
Julien Chhor, Suzanne Sigalla and Alexandre B. Tsybakov(参考訳) 非パラメトリック回帰設定では、データポイントを高い確率で補間する連続関数である推定器を構築し、未知の滑らかさに適応してh\"olderクラスのスケールにおいて平均二乗リスクの下で最小の最適レートを得る。

In the nonparametric regression setting, we construct an estimator which is a continuous function interpolating the data points with high probability, while attaining minimax optimal rates under mean squared risk on the scale of H\"older classes adaptively to the unknown smoothness.
翻訳日:2022-06-28 14:20:40 公開日:2022-06-27
# 4次元時間医用画像生成のための拡散変形モデル

Diffusion Deformable Model for 4D Temporal Medical Image Generation ( http://arxiv.org/abs/2206.13295v1 )

ライセンス: Link先を確認
Boah Kim, Jong Chul Ye(参考訳) 3D+t(4D)情報を持つ時間体積画像は、時間動態を統計的に分析したり、病気の進行を捉えるためにしばしば医療画像に使用される。 自然画像の深層学習に基づく生成モデルが広く研究されているが、4次元心臓容積データなどの時間的医療画像生成へのアプローチは限られている。 本研究では,ソースボリュームとターゲットボリュームの中間時間ボリュームを生成する新しい深層学習モデルを提案する。 具体的には,近年,現実的な画像生成のために広く研究されている拡散確率モデルを適応させて拡散変形モデル(DDM)を提案する。 提案したDDMは拡散および変形モジュールから構成されており,DDMはソースとターゲットボリューム間の空間的変形情報を学習し,測地線に沿って中間フレームを生成する潜時符号を提供する。 モデルが訓練されると、拡散モジュールから推定される潜時コードは単純に補間されて変形モジュールに入力され、DDMはソース画像の位相を保ちながら連続軌道に沿って時間的フレームを生成することができる。 そこで本研究では,各被験者のジアストリック相とシストリック相間の4次元心臓mr画像生成法を提案する。 既存の変形法と比較して,DDMは時間体積生成において高い性能を発揮する。

Temporal volume images with 3D+t (4D) information are often used in medical imaging to statistically analyze temporal dynamics or capture disease progression. Although deep-learning-based generative models for natural images have been extensively studied, approaches for temporal medical image generation such as 4D cardiac volume data are limited. In this work, we present a novel deep learning model that generates intermediate temporal volumes between source and target volumes. Specifically, we propose a diffusion deformable model (DDM) by adapting the denoising diffusion probabilistic model that has recently been widely investigated for realistic image generation. Our proposed DDM is composed of the diffusion and the deformation modules so that DDM can learn spatial deformation information between the source and target volumes and provide a latent code for generating intermediate frames along a geodesic path. Once our model is trained, the latent code estimated from the diffusion module is simply interpolated and fed into the deformation module, which enables DDM to generate temporal frames along the continuous trajectory while preserving the topology of the source image. We demonstrate the proposed method with the 4D cardiac MR image generation between the diastolic and systolic phases for each subject. Compared to the existing deformation methods, our DDM achieves high performance on temporal volume generation.
翻訳日:2022-06-28 14:17:39 公開日:2022-06-27
# 農業用リカレントネットワークへの空間情報の導入

Explicitly incorporating spatial information to recurrent networks for agriculture ( http://arxiv.org/abs/2206.13406v1 )

ライセンス: Link先を確認
Claus Smitt, Michael Halstead, Alireza Ahmadi, and Chris McCool(参考訳) 農業では、視覚系の大半は静止画像分類を行う。 しかし、最近の研究は、分類性能を向上させるための豊富な情報源としての空間的・時間的手がかりの可能性を強調している。 本稿では,深層畳み込みニューラルネットワークの分類を改善するために,空間情報と時間情報の両方を明示的に捉える新しい手法を提案する。 利用可能なRGB-D画像とロボット・オドメトリーを利用してフレーム間特徴マップ空間登録を行う。 この情報は、その正確性と堅牢性を改善するために、繰り返し発生するディープラーニングモデルに融合される。 作物雑草分画4.7の交雑種(IoU[%])と果実(サツマイモ)分画2.6の絶対的性能向上を達成し、最も優れた時空間モデル(ST-Atte)による分類性能を向上できることを実証した。 さらに,これらの手法は,実世界のアプリケーションでよく見られる可変フレームレートやオドメトリー誤差に対して堅牢であることを示す。

In agriculture, the majority of vision systems perform still image classification. Yet, recent work has highlighted the potential of spatial and temporal cues as a rich source of information to improve the classification performance. In this paper, we propose novel approaches to explicitly capture both spatial and temporal information to improve the classification of deep convolutional neural networks. We leverage available RGB-D images and robot odometry to perform inter-frame feature map spatial registration. This information is then fused within recurrent deep learnt models, to improve their accuracy and robustness. We demonstrate that this can considerably improve the classification performance with our best performing spatial-temporal model (ST-Atte) achieving absolute performance improvements for intersection-over-union (IoU[%]) of 4.7 for crop-weed segmentation and 2.6 for fruit (sweet pepper) segmentation. Furthermore, we show that these approaches are robust to variable framerates and odometry errors, which are frequently observed in real-world applications.
翻訳日:2022-06-28 14:17:18 公開日:2022-06-27
# DeStripe:光シート顕微鏡におけるStripeアーチファクト除去のための展開ヘシアンを用いた自己2Self比スペクトルグラフニューラルネットワーク

DeStripe: A Self2Self Spatio-Spectral Graph Neural Network with Unfolded Hessian for Stripe Artifact Removal in Light-sheet Microscopy ( http://arxiv.org/abs/2206.13419v1 )

ライセンス: Link先を確認
Yu Liu, Kurt Weiss, Nassir Navab, Carsten Marr, Jan Huisken, Tingying Peng(参考訳) 光シート蛍光顕微鏡(英: Light-sheet fluorescence microscopy, LSFM)は、メソスコピックな試料を3次元に撮像する技術である。 このような顕微鏡の選択的励起スキームは、焦点外蛍光背景と試料光損傷を最小化する固有の光学分割を提供するが、光吸収や散乱効果が生じやすいため、画像中の不均一な照明や剥ぎ取りが悪くなる。 この問題に対処するため,本稿では,自己教師付きスペーススペクトルグラフニューラルネットワークとヘッセン事前展開を組み合わせたLSFMにおけるブラインドストライプアーティファクト除去アルゴリズムであるDeStripeを提案する。 具体的には、ストリップ情報を周波数領域内の孤立値に縮合するフーリエ変換の望ましい性質から着想を得たDeStripeは、一方向ストリップアーティファクトとより等方的なフォアグラウンド画像の間の構造的差異を利用して、潜在的に破損したフーリエ係数をまず局所化する。 影響を受けるフーリエ係数は回復のためにグラフニューラルネットワークに供給され、標準画像空間の構造が十分に保存されるようにヘッセン正規化が展開されない。 リアルでストライプのないLSFMは、標準的な画像取得プロトコルではほとんど存在しないため、DeStripeは、Slf2Self denoising Los termを備えており、ストライプのない地上の真実画像にアクセスせずにアーティファクトの除去を可能にする。 比較実験の結果,lsfmにおける破壊的バイオマーカー回収におけるdestripeの有効性が示された。

Light-sheet fluorescence microscopy (LSFM) is a cutting-edge volumetric imaging technique that allows for three-dimensional imaging of mesoscopic samples with decoupled illumination and detection paths. Although the selective excitation scheme of such a microscope provides intrinsic optical sectioning that minimizes out-of-focus fluorescence background and sample photodamage, it is prone to light absorption and scattering effects, which results in uneven illumination and striping artifacts in the images adversely. To tackle this issue, in this paper, we propose a blind stripe artifact removal algorithm in LSFM, called DeStripe, which combines a self-supervised spatio-spectral graph neural network with unfolded Hessian prior. Specifically, inspired by the desirable properties of Fourier transform in condensing striping information into isolated values in the frequency domain, DeStripe firstly localizes the potentially corrupted Fourier coefficients by exploiting the structural difference between unidirectional stripe artifacts and more isotropic foreground images. Affected Fourier coefficients can then be fed into a graph neural network for recovery, with a Hessian regularization unrolled to further ensure structures in the standard image space are well preserved. Since in realistic, stripe-free LSFM barely exists with a standard image acquisition protocol, DeStripe is equipped with a Self2Self denoising loss term, enabling artifact elimination without access to stripe-free ground truth images. Competitive experimental results demonstrate the efficacy of DeStripe in recovering corrupted biomarkers in LSFM with both synthetic and real stripe artifacts.
翻訳日:2022-06-28 14:16:57 公開日:2022-06-27
# sim2realを一貫性を持たせるニューラルネットワークテクスチャ

Neural Neural Textures Make Sim2Real Consistent ( http://arxiv.org/abs/2206.13500v1 )

ライセンス: Link先を確認
Ryan Burgert, Jinghuan Shang, Xiang Li, and Michael Ryoo(参考訳) 非ペア画像変換アルゴリズムはsim2realタスクに使用できるが、時間的に一貫した結果が得られないものも多い。 本稿では,画像翻訳に微分可能レンダリングを併用して,表面の整合性損失と脳神経テクスチャを用いた時間的整合性を実現する手法を提案する。 このアルゴリズムをtriton (texture recoverying image translation network): 教師なし、エンドツーエンド、ステートレスsim2realアルゴリズムで、リアルに見える学習可能なニューラルネットワークテクスチャを生成することで、入力シーンの3dジオメトリを活用する。 シーン内のオブジェクトの特定のテクスチャにセッティングすることで、フレーム間の一貫性をステートレスに確保する。 従来のアルゴリズムとは異なり、TRITONはカメラの動きに限らず、物体の動きも扱えるので、ロボット操作のような下流のタスクにも役立ちます。

Unpaired image translation algorithms can be used for sim2real tasks, but many fail to generate temporally consistent results. We present a new approach that combines differentiable rendering with image translation to achieve temporal consistency over indefinite timescales, using surface consistency losses and \emph{neural neural textures}. We call this algorithm TRITON (Texture Recovering Image Translation Network): an unsupervised, end-to-end, stateless sim2real algorithm that leverages the underlying 3D geometry of input scenes by generating realistic-looking learnable neural textures. By settling on a particular texture for the objects in a scene, we ensure consistency between frames statelessly. Unlike previous algorithms, TRITON is not limited to camera movements -- it can handle the movement of objects as well, making it useful for downstream tasks such as robotic manipulation.
翻訳日:2022-06-28 14:16:24 公開日:2022-06-27
# マルチタスク学習フレームワークにおける音響イベントタグがシーン分類に及ぼす影響

Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning Framework ( http://arxiv.org/abs/2206.13476v1 )

ライセンス: Link先を確認
Rahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros Matsoukas(参考訳) 音響イベントは、適切に定義された分光時間特性を持つ音であり、それらを生成する物理オブジェクトと関連付けることができる。 音響シーンは、特定の時間順序でこのような音響イベントのコレクションである。 イベントとシーンの自然な結びつきを考えると、イベントを分類する能力はシーンの分類に有効である、という考え方が一般的である。 これにより,マルチタスクネットワークを用いた音響イベントタギング (AET) と音響シーン分類 (ASC) をうまく行おうとする試みがいくつか行われている。 しかし、これらの取り組みでは、一方のタスクの改善は他方のタスクの改善を保証するものではないため、ASCとAETの緊張関係が示唆される。 AETの改善がASCの改善に繋がるかどうかは不明である。 本研究では,AETをマルチタスクネットワークにおける補助的タスクとして用いることにより,ASCの性能が一貫して向上することを示す。 さらに、ASCのパフォーマンスはAETデータセットのサイズをさらに改善し、AETデータセット内のイベントの選択やイベントの数に敏感ではない。 ASCの性能改善は、AETの使用による正規化効果によるものであって、アコースティックイベントの識別能力の向上によるものではないと結論付けている。

Acoustic events are sounds with well-defined spectro-temporal characteristics which can be associated with the physical objects generating them. Acoustic scenes are collections of such acoustic events in no specific temporal order. Given this natural linkage between events and scenes, a common belief is that the ability to classify events must help in the classification of scenes. This has led to several efforts attempting to do well on Acoustic Event Tagging (AET) and Acoustic Scene Classification (ASC) using a multi-task network. However, in these efforts, improvement in one task does not guarantee an improvement in the other, suggesting a tension between ASC and AET. It is unclear if improvements in AET translates to improvements in ASC. We explore this conundrum through an extensive empirical study and show that under certain conditions, using AET as an auxiliary task in the multi-task network consistently improves ASC performance. Additionally, ASC performance further improves with the AET data-set size and is not sensitive to the choice of events or the number of events in the AET data-set. We conclude that this improvement in ASC performance comes from the regularization effect of using AET and not from the network's improved ability to discern between acoustic events.
翻訳日:2022-06-28 14:16:08 公開日:2022-06-27
# (参考訳) ディープニューラルネットワークのセンシングのための効果的なトレーニングタイムスタッキング

Effective training-time stacking for ensembling of deep neural networks ( http://arxiv.org/abs/2206.13491v1 )

ライセンス: CC0 1.0
Polina Proscura and Alexey Zaytsev(参考訳) 組み立ては機械学習(ML)モデルを改善するために人気があり効果的な方法である。 古典的なmlだけでなく、ディープラーニングでもその価値が証明される。 アンサンブルはMLソリューションの品質と信頼性を高め、不確実性評価を可能にする。 ディープラーニングモデルのトレーニングアンサンブルは、膨大な量の計算リソースを消費します。 スナップショットセンシングは、1つのトレーニングパスに沿ってアンサンブルでモデルを集めます。 1回だけトレーニングを行うため、計算時間は1つのモデルのトレーニングと類似している。 しかし、トレーニングパスに沿ったモデルの質は異なる。通常、後続のモデルは過度に適合しない方がよい。 そのため、モデルは多種多様である。 トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。 標準の積み重ねメソッドが行う検証サンプルエラーを見ることなく、トレーニング時間の確率に依存する。 Fashion MNIST、CIFAR-10、CIFAR-100データセットの実験的証拠は、提案された重み付けアンサンブルのより優れた品質を示す。

Ensembling is a popular and effective method for improving machine learning (ML) models. It proves its value not only in classical ML but also for deep learning. Ensembles enhance the quality and trustworthiness of ML solutions, and allow uncertainty estimation. However, they come at a price: training ensembles of deep learning models eat a huge amount of computational resources. A snapshot ensembling collects models in the ensemble along a single training path. As it runs training only one time, the computational time is similar to the training of one model. However, the quality of models along the training path is different: typically, later models are better if no overfitting occurs. So, the models are of varying utility. Our method improves snapshot ensembling by selecting and weighting ensemble members along the training path. It relies on training-time likelihoods without looking at validation sample errors that standard stacking methods do. Experimental evidence for Fashion MNIST, CIFAR-10, and CIFAR-100 datasets demonstrates the superior quality of the proposed weighted ensembles c.t. vanilla ensembling of deep learning models.
翻訳日:2022-06-28 14:15:02 公開日:2022-06-27
# シミュレータをいつ信頼するか:dynamics-aware hybrid offline-and-online reinforcement learning

When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning ( http://arxiv.org/abs/2206.13464v1 )

ライセンス: Link先を確認
Haoyi Niu, Shubham Sharma, Yiwen Qiu, Ming Li, Guyue Zhou, Jianming Hu, Xianyuan Zhan(参考訳) 実世界の複雑なタスクを解くための効果的な強化学習(RL)ポリシーを学習することは、高忠実なシミュレーション環境なしでは極めて困難である。 ほとんどの場合、単純化されたダイナミクスを備えた不完全なシミュレータしか与えられず、それは必然的にrlポリシー学習の厳しいsim対現実のギャップにつながる。 最近登場したオフラインrlの分野は、事前収集された履歴データから直接ポリシーを学ぶことができる。 しかし、適切な性能を達成するために、既存のオフラインRLアルゴリズムは、トレーニングに十分な状態-動作空間のカバレッジを備えた、急激な大規模なオフラインデータを必要とする。 オフラインRLにおける制限された実データからの学習と、オンラインRLにおける不完全なシミュレータによる無制限探索を組み合わせて、両方のアプローチの欠点に対処することは可能か? 本研究では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。 H2Oは動的ポリシー評価スキームを導入し、これはQ関数学習を、大きなダイナミックスギャップを持つシミュレーション状態-アクションペア上で適応的にペナルティ化すると同時に、固定された実世界のデータセットからの学習を可能にする。 シミュレーションや実世界のタスク、理論的解析を通じて、他のクロスドメインオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。 H2Oは、新しいハイブリッドオフラインおよびオンラインRLパラダイムを提供し、実用的な現実世界のタスクを解決するための将来のRLアルゴリズム設計に光を当てる可能性がある。

Learning effective reinforcement learning (RL) policies to solve real-world complex tasks can be quite challenging without a high-fidelity simulation environment. In most cases, we are only given imperfect simulators with simplified dynamics, which inevitably lead to severe sim-to-real gaps in RL policy learning. The recently emerged field of offline RL provides another possibility to learn policies directly from pre-collected historical data. However, to achieve reasonable performance, existing offline RL algorithms need impractically large offline data with sufficient state-action space coverage for training. This brings up a new question: is it possible to combine learning from limited real data in offline RL and unrestricted exploration through imperfect simulators in online RL to address the drawbacks of both approaches? In this study, we propose the Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O) framework to provide an affirmative answer to this question. H2O introduces a dynamics-aware policy evaluation scheme, which adaptively penalizes the Q function learning on simulated state-action pairs with large dynamics gaps, while also simultaneously allowing learning from a fixed real-world dataset. Through extensive simulation and real-world tasks, as well as theoretical analysis, we demonstrate the superior performance of H2O against other cross-domain online and offline RL algorithms. H2O provides a brand new hybrid offline-and-online RL paradigm, which can potentially shed light on future RL algorithm design for solving practical real-world tasks.
翻訳日:2022-06-28 14:07:12 公開日:2022-06-27
# スプリット局所化等角予測

Split Localized Conformal Prediction ( http://arxiv.org/abs/2206.13092v1 )

ライセンス: Link先を確認
Xing Han, Ziyang Tang, Joydeep Ghosh, Qiang Liu(参考訳) 共形予測は、分布的仮定なしに不確かさを定量化できる単純で強力なツールである。 しかし,既存の手法では,より強い条件付きカバレッジ保証に比べて理想的な平均カバレッジ保証しか提供できない。 正確な条件付きカバレッジは不可能であることが証明されているが、条件付きカバレッジの近似は依然として重要な研究方向である。 本稿では,条件分布の局所近似を利用して,修正された非整合性スコアを提案する。 修正されたスコアは分割型コンフォメーション法の精神を継承し、完全コンフォメーション法と比較してシンプルで効率的であるが、条件付きカバレッジの保証をよりよく近似する。 画像上の高次元年齢回帰を含む様々なデータセットにおける実験結果から,本手法が既存手法と比較して厳密な間隔を提供することを示す。

Conformal prediction is a simple and powerful tool that can quantify uncertainty without any distributional assumptions. However, existing methods can only provide an average coverage guarantee, which is not ideal compared to the stronger conditional coverage guarantee. Although achieving exact conditional coverage is proven to be impossible, approximating conditional coverage is still an important research direction. In this paper, we propose a modified non-conformity score by leveraging local approximation of the conditional distribution. The modified score inherits the spirit of split conformal methods, which is simple and efficient compared with full conformal methods but better approximates conditional coverage guarantee. Empirical results on various datasets, including a high dimension age regression on image, demonstrate that our method provides tighter intervals compared to existing methods.
翻訳日:2022-06-28 14:05:04 公開日:2022-06-27
# 雑音ラベルを用いた学習のための圧縮機能

Compressing Features for Learning with Noisy Labels ( http://arxiv.org/abs/2206.13140v1 )

ライセンス: Link先を確認
Yingyi Chen, Shell Xu Hu, Xi Shen, Chunrong Ai, Johan A.K. Suykens(参考訳) 教師付き学習は、入力データから特徴表現に関連情報を蒸留すると見なすことができる。 このプロセスは、蒸留された情報が関係しない可能性があるため、監視が騒がれると困難になる。 事実、最近の研究では、ネットワークは腐敗しているラベルを含む全てのラベルに簡単に適合し、したがって、データセットをクリーンに一般化することができないことが示されている。 本稿では,雑音ラベルによる学習の問題に着目し,この過度な問題を軽減するために,圧縮帰納バイアスをネットワークアーキテクチャに導入する。 より正確には、Dropoutという古典的な正規化と、その変種であるNested Dropoutを再検討する。 ドロップアウトは機能ドロップ機構の圧縮制約として機能し、Nested Dropoutは機能重要度に関する順序付き特徴表現をさらに学習する。 さらに、圧縮正規化を伴うトレーニングモデルと、パフォーマンス向上のためのコティーチングとを組み合わせる。 理論上,圧縮正規化下で対象関数の偏分散分解を行う。 単一モデルと共同学習の両方で分析します。 この分解は3つの洞察を与えます (i)騒音ラベルの学習において,過度に適合することが問題であることを示す。 (ii)情報ボトルネックの定式化を通じて,提案する特徴圧縮がラベルノイズ対策に役立つ理由を説明する。 (iii)コティーチングに圧縮正規化を組み込むことによる性能向上についての説明を与える。 実験の結果,wears1mやanimal-10nを含む実世界のラベルノイズのベンチマークにおいて,我々のアプローチは最先端の手法と同等,あるいはさらに優れた性能を示すことができた。 私たちの実装はhttps://yingyichen-cyy.github.io/CompressFeatNoisyLabels/で利用可能です。

Supervised learning can be viewed as distilling relevant information from input data into feature representations. This process becomes difficult when supervision is noisy as the distilled information might not be relevant. In fact, recent research shows that networks can easily overfit all labels including those that are corrupted, and hence can hardly generalize to clean datasets. In this paper, we focus on the problem of learning with noisy labels and introduce compression inductive bias to network architectures to alleviate this over-fitting problem. More precisely, we revisit one classical regularization named Dropout and its variant Nested Dropout. Dropout can serve as a compression constraint for its feature dropping mechanism, while Nested Dropout further learns ordered feature representations w.r.t. feature importance. Moreover, the trained models with compression regularization are further combined with Co-teaching for performance boost. Theoretically, we conduct bias-variance decomposition of the objective function under compression regularization. We analyze it for both single model and Co-teaching. This decomposition provides three insights: (i) it shows that over-fitting is indeed an issue for learning with noisy labels; (ii) through an information bottleneck formulation, it explains why the proposed feature compression helps in combating label noise; (iii) it gives explanations on the performance boost brought by incorporating compression regularization into Co-teaching. Experiments show that our simple approach can have comparable or even better performance than the state-of-the-art methods on benchmarks with real-world label noise including Clothing1M and ANIMAL-10N. Our implementation is available at https://yingyichen-cyy.github.io/CompressFeatNoisyLabels/.
翻訳日:2022-06-28 14:04:52 公開日:2022-06-27
# 制約付き微分的共役結合型バンディット

Differentially Private Federated Combinatorial Bandits with Constraints ( http://arxiv.org/abs/2206.13192v1 )

ライセンス: Link先を確認
Sambhav Solanki, Samhita Kanaparthy, Sankarshan Damle, Sujit Gujar(参考訳) オンライン学習環境,すなわちフェデレーション学習(fl)では,協調学習パラダイムが急速に向上している。 ほとんどのFL設定とは異なり、エージェントが競合する多くの状況がある。 それぞれのエージェントは、他の人から学びたいと思っているが、他の人から学ぶために共有する情報の一部は、センシティブであり、したがって、プライバシを欲しがる。 本研究は, 品質制約を維持しつつ, 類似の組合せ帯域問題を解決するために, 同時に作業するエージェント群について検討する。 これらのエージェントは、差分プライバシーを利用して機密情報を秘密にしながら、集合的に学習できるのか? 私たちはコミュニケーションが後悔を減らすことを観察する。 しかし、機密情報を保護するための差分プライバシー技術は、データを騒がしくし、後悔を改善するのに役立つほど劣化する可能性がある。 したがって、いつ通信するか、どの共有データを学習して、後悔とプライバシのバランスを取るかを決めることが不可欠である。 このような組み合わせMAB設定のために、プライバシ保存型フェデレーションコンビナート帯域幅アルゴリズムP-FCBを提案する。 シミュレーションによりp-fcbの有効性を示す。 さらに,本アルゴリズムは,品質のしきい値と有意義なプライバシー保証を保ちながら,後悔の点でも改善できることを示した。

There is a rapid increase in the cooperative learning paradigm in online learning settings, i.e., federated learning (FL). Unlike most FL settings, there are many situations where the agents are competitive. Each agent would like to learn from others, but the part of the information it shares for others to learn from could be sensitive; thus, it desires its privacy. This work investigates a group of agents working concurrently to solve similar combinatorial bandit problems while maintaining quality constraints. Can these agents collectively learn while keeping their sensitive information confidential by employing differential privacy? We observe that communicating can reduce the regret. However, differential privacy techniques for protecting sensitive information makes the data noisy and may deteriorate than help to improve regret. Hence, we note that it is essential to decide when to communicate and what shared data to learn to strike a functional balance between regret and privacy. For such a federated combinatorial MAB setting, we propose a Privacy-preserving Federated Combinatorial Bandit algorithm, P-FCB. We illustrate the efficacy of P-FCB through simulations. We further show that our algorithm provides an improvement in terms of regret while upholding quality threshold and meaningful privacy guarantees.
翻訳日:2022-06-28 14:04:28 公開日:2022-06-27
# Bi-VLDoc:ビジュアルリッチ文書理解のための双方向視覚言語モデリング

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding ( http://arxiv.org/abs/2206.13155v1 )

ライセンス: Link先を確認
Chuwei Luo, Guozhi Tang, Qi Zheng, Cong Yao, Lianwen Jin, Chenliang Li, Yang Xue, Luo Si(参考訳) マルチモーダル文書事前学習モデルは、視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。 既存の文書事前学習モデルは、VrDUの標準ベンチマークにおいて優れたパフォーマンスを達成しているが、それらがドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げている。 本稿では,VrDUにおける視覚言語共同表現学習の問題について,主に監視信号の観点から検討する。 具体的には,Bi-VLDocと呼ばれる事前学習パラダイムを提案し,双方向の視覚言語監視戦略と視覚言語ハイブリッドアテンション機構を考案し,これらの2つのモダリティ間の相互作用を十分に探求し,活用し,よりリッチなセマンティクスでより強力なクロスモーダル文書表現を学習する。 Bi-VLDocは、学習された情報的クロスモーダルな文書表現から恩恵を受け、フォーム理解(85.14%から93.44%)、レセプト情報抽出(96.01%から97.84%)、文書分類(96.08%から97.12%)を含む3つの広く使われている文書理解ベンチマークにおける最先端のパフォーマンスを大幅に向上させた。 Document Visual QAでは、Bi-VLDocは従来の単一モデル手法と比較して最先端のパフォーマンスを実現している。

Multi-modal document pre-trained models have proven to be very effective in a variety of visually-rich document understanding (VrDU) tasks. Though existing document pre-trained models have achieved excellent performance on standard benchmarks for VrDU, the way they model and exploit the interactions between vision and language on documents has hindered them from better generalization ability and higher accuracy. In this work, we investigate the problem of vision-language joint representation learning for VrDU mainly from the perspective of supervisory signals. Specifically, a pre-training paradigm called Bi-VLDoc is proposed, in which a bidirectional vision-language supervision strategy and a vision-language hybrid-attention mechanism are devised to fully explore and utilize the interactions between these two modalities, to learn stronger cross-modal document representations with richer semantics. Benefiting from the learned informative cross-modal document representations, Bi-VLDoc significantly advances the state-of-the-art performance on three widely-used document understanding benchmarks, including Form Understanding (from 85.14% to 93.44%), Receipt Information Extraction (from 96.01% to 97.84%), and Document Classification (from 96.08% to 97.12%). On Document Visual QA, Bi-VLDoc achieves the state-of-the-art performance compared to previous single model methods.
翻訳日:2022-06-28 14:03:37 公開日:2022-06-27
# 医用画像における一貫性保存型視覚質問応答

Consistency-preserving Visual Question Answering in Medical Imaging ( http://arxiv.org/abs/2206.13296v1 )

ライセンス: Link先を確認
Sergio Tascon-Morales, Pablo M\'arquez-Neila, Raphael Sznitman(参考訳) VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。 近年,患者のエンゲージメントや臨床医に対する第2の意見などにより,医用画像のVQAシステムが普及している。 ほとんどの研究は、アーキテクチャの改善とデータ関連の制限を克服することに重点を置いているが、信頼できるモデルを確立する上で重要な役割を果たすにもかかわらず、回答の一貫性は見過ごされている。 本研究では,課題間の関係を学習プロセスに組み込むための,新しい損失関数と対応する訓練手順を提案する。 具体的には、知覚と推論の問題の間に意味がある場合を考える。 本手法の利点を示すため, 基礎画像からの糖尿病性黄斑浮腫(DME)の経過について臨床的に検討した。 実験の結果,本手法はモデル整合性の向上だけでなく,モデル全体の精度も向上することがわかった。 私たちのコードとデータはhttps://github.com/sergiotasconmorales/consistency_vqaで入手できます。

Visual Question Answering (VQA) models take an image and a natural-language question as input and infer the answer to the question. Recently, VQA systems in medical imaging have gained popularity thanks to potential advantages such as patient engagement and second opinions for clinicians. While most research efforts have been focused on improving architectures and overcoming data-related limitations, answer consistency has been overlooked even though it plays a critical role in establishing trustworthy models. In this work, we propose a novel loss function and corresponding training procedure that allows the inclusion of relations between questions into the training process. Specifically, we consider the case where implications between perception and reasoning questions are known a-priori. To show the benefits of our approach, we evaluate it on the clinically relevant task of Diabetic Macular Edema (DME) staging from fundus imaging. Our experiments show that our method outperforms state-of-the-art baselines, not only by improving model consistency, but also in terms of overall model accuracy. Our code and data are available at https://github.com/sergiotasconmorales/consistency_vqa.
翻訳日:2022-06-28 14:00:24 公開日:2022-06-27
# PartICUL: 教師なし学習を用いた信頼度を用いた部分同定

PARTICUL: Part Identification with Confidence measure using Unsupervised Learning ( http://arxiv.org/abs/2206.13304v1 )

ライセンス: Link先を確認
Romain Xu-Darme (LSL, MRIM ), Georges Qu\'enot (MRIM ), Zakaria Chihani (LSL), Marie-Christine Rousset (SLIDE )(参考訳) 本稿では,細粒度認識に用いるデータセットから部分検出器を教師なし学習する新しいアルゴリズム particul を提案する。 トレーニングセット内のすべての画像のマクロ類似性を利用して、事前訓練された畳み込みニューラルネットワークの特徴空間における繰り返しパターンをマイニングする。 検出された部分の局所性と一意性を強制する新しい目的関数を提案する。 さらに,相関スコアに基づく信頼度尺度を検出器に組み込んで,各部分の可視性を推定する。 提案手法を2つの公開きめ細かなデータセット(Caltech-UCSD Bird 200とStanford Cars)に適用し,検出装置がオブジェクトの一部を一貫して強調し,その予測に対する信頼性の優れた指標を提供することを示す。 また,これらの検出器は,プロトタイプベースアプローチの透明性と解釈不能な手法の性能との間に良好な妥協をもたらす部分ベースの細粒度分類器を構築するために,直接使用できることを実証した。

In this paper, we present PARTICUL, a novel algorithm for unsupervised learning of part detectors from datasets used in fine-grained recognition. It exploits the macro-similarities of all images in the training set in order to mine for recurring patterns in the feature space of a pre-trained convolutional neural network. We propose new objective functions enforcing the locality and unicity of the detected parts. Additionally, we embed our detectors with a confidence measure based on correlation scores, allowing the system to estimate the visibility of each part. We apply our method on two public fine-grained datasets (Caltech-UCSD Bird 200 and Stanford Cars) and show that our detectors can consistently highlight parts of the object while providing a good measure of the confidence in their prediction. We also demonstrate that these detectors can be directly used to build part-based fine-grained classifiers that provide a good compromise between the transparency of prototype-based approaches and the performance of non-interpretable methods.
翻訳日:2022-06-28 14:00:05 公開日:2022-06-27
# ContraReg: マルチモダリティ非教師付きデフォルマブル画像登録のコントラスト学習

ContraReg: Contrastive Learning of Multi-modality Unsupervised Deformable Image Registration ( http://arxiv.org/abs/2206.13434v1 )

ライセンス: Link先を確認
Neel Dey, Jo Schlemper, Seyed Sadegh Mohseni Salehi, Bo Zhou, Guido Gerig, Michal Sofka(参考訳) 異なる画像モダリティにまたがってボクセルワイズな意味対応を確立することは、基本的なコンピュータビジョンタスクである。 現在の多モード登録技術は、手作りのドメイン間類似度関数を最大化し、非線形強度関係と変形のモデリングに制限され、新しいタスク、データセット、ドメインペアの大幅な再設計やアンダーパフォーマンスを必要とする可能性がある。 本稿では,マルチモダリティ変形可能な登録に対する教師なしコントラスト表現学習手法であるcontraregを提案する。 学習したマルチスケールなローカルパッチ機能をドメイン間埋め込み空間に投影することにより、ContraRegは非厳密なマルチモードアライメントに有用な表現を得る。 実験的に、ContraRegは、一連のベースラインにわたる滑らかで非可逆的な変形と新生児T1-T2脳MRI登録タスクにおけるアブレーションを、幅広い変形規則化強度で検証した全ての方法を用いて、正確で堅牢な結果を達成する。

Establishing voxelwise semantic correspondence across distinct imaging modalities is a foundational yet formidable computer vision task. Current multi-modality registration techniques maximize hand-crafted inter-domain similarity functions, are limited in modeling nonlinear intensity-relationships and deformations, and may require significant re-engineering or underperform on new tasks, datasets, and domain pairs. This work presents ContraReg, an unsupervised contrastive representation learning approach to multi-modality deformable registration. By projecting learned multi-scale local patch features onto a jointly learned inter-domain embedding space, ContraReg obtains representations useful for non-rigid multi-modality alignment. Experimentally, ContraReg achieves accurate and robust results with smooth and invertible deformations across a series of baselines and ablations on a neonatal T1-T2 brain MRI registration task with all methods validated over a wide range of deformation regularization strengths.
翻訳日:2022-06-28 13:59:48 公開日:2022-06-27
# LaRa:マルチカメラバードのEye-Viewセマンティックセマンティックセグメンテーションのための潜像と光

LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic Segmentation ( http://arxiv.org/abs/2206.13294v1 )

ライセンス: Link先を確認
Florent Bartoccioni, \'Eloi Zablocki, Andrei Bursuc, Patrick P\'erez, Matthieu Cord, Karteek Alahari(参考訳) 自律運転における最近の研究は、世界の中間表現として、鳥の目視(BEV)セマンティックマップを広く採用している。 これらのBEVマップのオンライン予測には、マルチカメラデータ抽出のような非自明な操作や、一般的なトップビューグリッドへの融合と投影が含まれる。 これは通常、誤差に富む幾何学演算(例えば、単眼深度推定によるホモグラフィやバックプロジェクション)や、bev内の画像画素と画素の間の高価な直接密マッピング(例えば、mlpや注意)によって行われる。 本研究では,複数のカメラから車両のセマンティクスセグメンテーションを行うための,効率的なエンコーダデコーダ・トランスフォーマモデルである'lara'を提案する。 我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを使用する。 これらの潜在表現は一連の自己アテンションブロックによって処理された後、bev空間で第2のクロスアテンションで再投影される。 我々のモデルは、トランスフォーマーを用いた最善の先行作品よりも優れていることを実証する。

Recent works in autonomous driving have widely adopted the bird's-eye-view (BEV) semantic map as an intermediate representation of the world. Online prediction of these BEV maps involves non-trivial operations such as multi-camera data extraction as well as fusion and projection into a common top-view grid. This is usually done with error-prone geometric operations (e.g., homography or back-projection from monocular depth estimation) or expensive direct dense mapping between image pixels and pixels in BEV (e.g., with MLP or attention). In this work, we present 'LaRa', an efficient encoder-decoder, transformer-based model for vehicle semantic segmentation from multiple cameras. Our approach uses a system of cross-attention to aggregate information over multiple sensors into a compact, yet rich, collection of latent representations. These latent representations, after being processed by a series of self-attention blocks, are then reprojected with a second cross-attention in the BEV space. We demonstrate that our model outperforms on nuScenes the best previous works using transformers.
翻訳日:2022-06-28 13:59:31 公開日:2022-06-27
# モジュラーロボットの集中制御と分散制御とその形態的影響

Centralized and Decentralized Control in Modular Robots and Their Effect on Morphology ( http://arxiv.org/abs/2206.13366v1 )

ライセンス: Link先を確認
Mia-Katrin Kvalsund, Kyrre Glette, Frank Veenstra(参考訳) 進化ロボティクスでは、進化的アルゴリズムは形態学と制御を共最適化するために用いられる。 入力や出力の数を頻繁に変更するボディのコントローラを最適化するには、どうすればよいのでしょう? 研究者は中央集権的制御と分散制御のどちらかを選択しなければならない。 本稿では,集中型および分散型コントローラがモジュール型ロボットの性能と形態に及ぼす影響について検討する。 これは、1つの集中型および2つの分散した連続時間リカレントニューラルネットワークコントローラと、ベースライン用の正弦波コントローラを実装することによって行われる。 その結果, 形態素サイズに依存しない分散的アプローチは, 他の手法よりも有意に優れていた。 様々な形態学的なサイズでもうまく機能した。 さらに,形態変化に対して集中制御を実装することの難しさを強調し,集中制御が他の手法よりも早期収束に苦しむことを見出した。 本研究は,モジュール型ロボットの形態と制御の両方を進化させる際に,重複分散ネットワークが有益であることを示す。 全体として、これらの結果が他のロボットシステムに変換された場合、我々の結果と問題は、将来の研究者が形態学と制御を共最適化する際に制御方法を選択するのに役立つ。

In Evolutionary Robotics, evolutionary algorithms are used to co-optimize morphology and control. However, co-optimizing leads to different challenges: How do you optimize a controller for a body that often changes its number of inputs and outputs? Researchers must then make some choice between centralized or decentralized control. In this article, we study the effects of centralized and decentralized controllers on modular robot performance and morphologies. This is done by implementing one centralized and two decentralized continuous time recurrent neural network controllers, as well as a sine wave controller for a baseline. We found that a decentralized approach that was more independent of morphology size performed significantly better than the other approaches. It also worked well in a larger variety of morphology sizes. In addition, we highlighted the difficulties of implementing centralized control for a changing morphology, and saw that our centralized controller struggled more with early convergence than the other approaches. Our findings indicate that duplicated decentralized networks are beneficial when evolving both the morphology and control of modular robots. Overall, if these findings translate to other robot systems, our results and issues encountered can help future researchers make a choice of control method when co-optimizing morphology and control.
翻訳日:2022-06-28 13:57:17 公開日:2022-06-27
# (参考訳) 脳機械インタフェースによる学習規則の廃止

Distinguishing Learning Rules with Brain Machine Interfaces ( http://arxiv.org/abs/2206.13448v1 )

ライセンス: CC BY 4.0
Jacob P. Portes, Christian Schmid, James M. Murray(参考訳) 生物学的に妥当な学習規則に関する広範な理論的研究にもかかわらず、そのような規則が脳にどのように実装されているかという明確な証拠を得るのは難しい。 生物学的に妥当な教師付き強化学習ルールを検討し,学習中のネットワーク活動の変化を利用して,どの学習ルールが使用されているのかを判断する。 教師付き学習には、神経活動から行動へのマッピングを推定する信用割り当てモデルが必要であり、生物学的生物では、このモデルは必然的に理想的なマッピングの不完全な近似となり、真の勾配に対する重量更新の方向のバイアスにつながる。 一方、強化学習は信用割り当てモデルを必要としないため、真の勾配方向に従って重みを更新する傾向がある。 脳から行動へのマッピングが実験者によって知られていることを考えると、学習中のネットワーク活動の変化を観察して学習規則を区別する指標を導出する。 脳-機械インタフェース(BMI)実験は、このマッピングの完全な知識を可能にするため、リカレントニューラルネットワークを用いてカーソル制御されたBMIタスクをモデル化することに集中し、神経科学実験者がアクセス可能なであろう観測のみを使用して、学習規則をシミュレーション実験で区別できることを示します。

Despite extensive theoretical work on biologically plausible learning rules, it has been difficult to obtain clear evidence about whether and how such rules are implemented in the brain. We consider biologically plausible supervised- and reinforcement-learning rules and ask whether changes in network activity during learning can be used to determine which learning rule is being used. Supervised learning requires a credit-assignment model estimating the mapping from neural activity to behavior, and, in a biological organism, this model will inevitably be an imperfect approximation of the ideal mapping, leading to a bias in the direction of the weight updates relative to the true gradient. Reinforcement learning, on the other hand, requires no credit-assignment model and tends to make weight updates following the true gradient direction. We derive a metric to distinguish between learning rules by observing changes in the network activity during learning, given that the mapping from brain to behavior is known by the experimenter. Because brain-machine interface (BMI) experiments allow for perfect knowledge of this mapping, we focus on modeling a cursor-control BMI task using recurrent neural networks, showing that learning rules can be distinguished in simulated experiments using only observations that a neuroscience experimenter would plausibly have access to.
翻訳日:2022-06-28 13:53:51 公開日:2022-06-27
# クラス不均衡を伴う半教師付きフェデレーション画像診断のための動的バンクラーニング

Dynamic Bank Learning for Semi-supervised Federated Image Diagnosis with Class Imbalance ( http://arxiv.org/abs/2206.13079v1 )

ライセンス: Link先を確認
Meirui Jiang, Hongzheng Yang, Xiaoxiao Li, Quande Liu, Pheng-Ann Heng, Qi Dou(参考訳) 医用画像診断のための半教師付きフェデレートラーニング(FL)の最近の進歩にもかかわらず、未ラベルクライアント間の不均衡なクラス分布の問題はまだ現実の用途では未解決である。 本稿では,クラス不均衡な半教師付きFL(imFed-Semi)の実践的かつ困難な問題について検討する。 このimf-semi問題は、クラス比例情報を利用してクライアントトレーニングを改善する新しい動的銀行学習スキームによって解決される。 このスキームは、ローカルクライアントごとに様々なクラス比例を蒸留するための動的バンク構築と、異なるクラス比例を学習するためのローカルモデルを課すサブバンク分類という2つの部分から構成される。 25,000個のctスライスによる頭蓋内出血診断と10,015枚の皮膚内視鏡画像による皮膚病変診断を含む2つの現実の医療データに対するアプローチを評価した。 本手法の有効性は, 総合的な解析研究と同様に, 精度第2位に比べ, 大幅な性能向上(7.61%と4.69%)が確認された。 コードはhttps://github.com/med-air/imfedsemiで入手できる。

Despite recent progress on semi-supervised federated learning (FL) for medical image diagnosis, the problem of imbalanced class distributions among unlabeled clients is still unsolved for real-world use. In this paper, we study a practical yet challenging problem of class imbalanced semi-supervised FL (imFed-Semi), which allows all clients to have only unlabeled data while the server just has a small amount of labeled data. This imFed-Semi problem is addressed by a novel dynamic bank learning scheme, which improves client training by exploiting class proportion information. This scheme consists of two parts, i.e., the dynamic bank construction to distill various class proportions for each local client, and the sub-bank classification to impose the local model to learn different class proportions. We evaluate our approach on two public real-world medical datasets, including the intracranial hemorrhage diagnosis with 25,000 CT slices and skin lesion diagnosis with 10,015 dermoscopy images. The effectiveness of our method has been validated with significant performance improvements (7.61% and 4.69%) compared with the second-best on the accuracy, as well as comprehensive analytical studies. Code is available at https://github.com/med-air/imFedSemi.
翻訳日:2022-06-28 13:25:14 公開日:2022-06-27
# グラフニューラルネットワークにおけるグラフ情報の利用の測定と改善

Measuring and Improving the Use of Graph Information in Graph Neural Networks ( http://arxiv.org/abs/2206.13170v1 )

ライセンス: Link先を確認
Yifan Hou, Jian Zhang, James Cheng, Kaili Ma, Richard T. B. Ma, Hongzhi Chen, Ming-Chang Yang(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータの表現学習に広く利用されている。 しかし、gnnがグラフデータから実際にどれだけのパフォーマンスを得るかについては、理解が限られている。 本稿では,グラフデータから得られる情報の量と質を測定するための2つのスムーズネス指標を提案する。 CS-GNNと呼ばれる新しいGNNモデルは、グラフの滑らかさ値に基づいてグラフ情報の利用を改善するように設計されている。 CS-GNNは実グラフの異なる種類の既存手法よりも優れた性能を示す。

Graph neural networks (GNNs) have been widely used for representation learning on graph data. However, there is limited understanding on how much performance GNNs actually gain from graph data. This paper introduces a context-surrounding GNN framework and proposes two smoothness metrics to measure the quantity and quality of information obtained from graph data. A new GNN model, called CS-GNN, is then designed to improve the use of graph information based on the smoothness values of a graph. CS-GNN is shown to achieve better performance than existing methods in different types of real graphs.
翻訳日:2022-06-28 13:18:36 公開日:2022-06-27
# プロパティグラフのための表現学習フレームワーク

A Representation Learning Framework for Property Graphs ( http://arxiv.org/abs/2206.13176v1 )

ライセンス: Link先を確認
Yifan Hou, Hongzhi Chen, Changji Li, James Cheng, Ming-Chang Yang(参考訳) グラフへの表現学習(グラフ埋め込みとも呼ばれる)は、分類、予測、レコメンデーションといった一連の機械学習アプリケーションにその影響を証明している。 しかし、現代のアプリケーションにおけるグラフのノードとエッジ(例えば、プロパティグラフで表されるもの)のプロパティ(または属性)に含まれるリッチな情報はほとんど無視されている。 これまで、既存のグラフ埋め込みメソッドは、グラフトポロジのみを持つプレーングラフにフォーカスするか、ノードのみの特性を考慮するかのどちらかだった。 本稿では,ノード特性とエッジ特性の両方をグラフ埋め込み処理に組み込む,グラフ表現学習フレームワークpgeを提案する。 PGEはノードクラスタリングを使用してバイアスを割り当て、ノードの隣人を区別し、複数のデータ駆動行列を活用して、バイアス戦略に基づいてサンプリングされた隣人のプロパティ情報を集約する。 PGEは、近隣集約に人気のある誘導モデルを採用する。 提案手法の有効性を詳細に分析し,PGEがノード分類や実世界のデータセット上でのリンク予測といったベンチマークアプリケーション上での最先端グラフ埋め込み手法よりも優れた埋め込み結果が得られることを示す。

Representation learning on graphs, also called graph embedding, has demonstrated its significant impact on a series of machine learning applications such as classification, prediction and recommendation. However, existing work has largely ignored the rich information contained in the properties (or attributes) of both nodes and edges of graphs in modern applications, e.g., those represented by property graphs. To date, most existing graph embedding methods either focus on plain graphs with only the graph topology, or consider properties on nodes only. We propose PGE, a graph representation learning framework that incorporates both node and edge properties into the graph embedding procedure. PGE uses node clustering to assign biases to differentiate neighbors of a node and leverages multiple data-driven matrices to aggregate the property information of neighbors sampled based on a biased strategy. PGE adopts the popular inductive model for neighborhood aggregation. We provide detailed analyses on the efficacy of our method and validate the performance of PGE by showing how PGE achieves better embedding results than the state-of-the-art graph embedding methods on benchmark applications such as node classification and link prediction over real-world datasets.
翻訳日:2022-06-28 13:18:27 公開日:2022-06-27
# (参考訳) Few-Shot Policy Generalizationのためのプロンプト決定変換器

Prompting Decision Transformer for Few-Shot Policy Generalization ( http://arxiv.org/abs/2206.13499v1 )

ライセンス: CC0 1.0
Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B. Tenenbaum, Chuang Gan(参考訳) 人間は事前の経験を活用して、少数のデモンストレーションから新しいタスクを学ぶことができる。 より優れたアルゴリズム設計による迅速な適応を目指すオフラインメタ強化学習とは対照的に,アーキテクチャ帰納バイアスが数ショット学習能力に与える影響について検討する。 我々は,オフラインrlで少数ショット適応を実現するために,トランスフォーマーアーキテクチャの逐次モデリング能力とプロンプトフレームワークを活用するプロンプトベース決定トランスフォーマ(prompt-dt)を提案する。 我々は,少数のデモのセグメントを含む軌道プロンプトを設計し,タスク固有の情報をエンコードしてポリシ生成を行う。 5つの MuJoCo 制御ベンチマークで行った実験から,Prompt-DT は未確認の目標タスクに余分な微調整を伴わない,強力な数発学習者であることがわかった。 Prompt-DTは、その変種と強力なメタオフラインRLベースラインを、わずかなタイムステップのみを含む軌道プロンプトで大きなマージンで上回る。 Prompt-DTは、長さの変化を促すためにも堅牢で、配布外環境(OOD)に一般化することができる。

Humans can leverage prior experience and learn novel tasks from a handful of demonstrations. In contrast to offline meta-reinforcement learning, which aims to achieve quick adaptation through better algorithm design, we investigate the effect of architecture inductive bias on the few-shot learning capability. We propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the sequential modeling ability of the Transformer architecture and the prompt framework to achieve few-shot adaptation in offline RL. We design the trajectory prompt, which contains segments of the few-shot demonstrations, and encodes task-specific information to guide policy generation. Our experiments in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot learner without any extra finetuning on unseen target tasks. Prompt-DT outperforms its variants and strong meta offline RL baselines by a large margin with a trajectory prompt containing only a few timesteps. Prompt-DT is also robust to prompt length changes and can generalize to out-of-distribution (OOD) environments.
翻訳日:2022-06-28 13:15:20 公開日:2022-06-27
# 小児の失書症自動診断システム : 調査と新しい枠組み

Automated Systems For Diagnosis of Dysgraphia in Children: A Survey and Novel Framework ( http://arxiv.org/abs/2206.13043v1 )

ライセンス: Link先を確認
Jayakanth Kunhoth, Somaya Al-Maadeed, Suchithra Kunhoth, and Younus Akbari(参考訳) 読書、読み書き、数学といった基本的な学習スキルを主に阻害する学習障害は、世界の子供の約10%に影響することが知られている。 神経発達障害の一部としての運動能力の低下と運動調整は、学習の困難さ(図学)の因果要因となり、個人の学術的軌跡を妨げる。 失読症の徴候や症状は、不規則な筆跡、筆記媒体の不適切な扱い、遅やかに書き直し、異常な手の位置などに限定されない。 あらゆる種類の学習障害に対する広く受け入れられている評価基準は、医療専門家による試験である。 本研究は,児童用自動失書症の診断システムについて概説する。 この研究の主な焦点は、小児の画像診断のための人工知能ベースのシステムを検討することである。 本研究は,データ収集手法,重要な筆跡特徴,画像診断のための文献に用いられている機械学習アルゴリズムについて論じる。 それとは別に、この記事では、非人工的なインテリジェンスベースの自動化システムについても論じる。 さらに,本論文では,既存システムの欠点について考察し,新しい診断枠組みを提案する。

Learning disabilities, which primarily interfere with the basic learning skills such as reading, writing and math, are known to affect around 10% of children in the world. The poor motor skills and motor coordination as part of the neurodevelopmental disorder can become a causative factor for the difficulty in learning to write (dysgraphia), hindering the academic track of an individual. The signs and symptoms of dysgraphia include but are not limited to irregular handwriting, improper handling of writing medium, slow or labored writing, unusual hand position, etc. The widely accepted assessment criterion for all the types of learning disabilities is the examination performed by medical experts. The few available artificial intelligence-powered screening systems for dysgraphia relies on the distinctive features of handwriting from the corresponding images.This work presents a review of the existing automated dysgraphia diagnosis systems for children in the literature. The main focus of the work is to review artificial intelligence-based systems for dysgraphia diagnosis in children. This work discusses the data collection method, important handwriting features, machine learning algorithms employed in the literature for the diagnosis of dysgraphia. Apart from that, this article discusses some of the non-artificial intelligence-based automated systems also. Furthermore, this article discusses the drawbacks of existing systems and proposes a novel framework for dysgraphia diagnosis.
翻訳日:2022-06-28 12:52:15 公開日:2022-06-27
# マルチモーダル知識グラフ表現を用いた固有言語モデル

Endowing Language Models with Multimodal Knowledge Graph Representations ( http://arxiv.org/abs/2206.13163v1 )

ライセンス: Link先を確認
Ningyuan Huang and Yash R. Deshpande and Yibo Liu and Houda Alberts and Kyunghyun Cho and Clara Vania and Iacer Calixto(参考訳) 本研究では,外部知識グラフ (kg) に知識を格納し, 高密度指標を用いて, 自然言語理解モデルをより効率的なパラメータにする方法を提案する。 ダウンストリームタスクデータ(ドイツ語の文など)が与えられた場合、kgからエンティティを取得し、そのマルチモーダル表現を使用してダウンストリームタスクのパフォーマンスを向上させる。 我々は最近リリースされた VisualSem KG を、Wikipedia と WordNet のエンティティのサブセットをカバーする外部知識リポジトリとして使用し、KG のマルチモーダル情報に基づくエンティティと関係表現の学習に、タプルベースのアルゴリズムとグラフベースのアルゴリズムの組み合わせを比較した。 2つの下流タスクにおける学習されたエンティティ表現の有用性を実証し、多言語名称のエンティティ認識タスクの性能を0.3\%$-$0.7\%$F1で向上させ、視覚感覚の曖昧化タスクにおいて最大2.5\%$精度の向上を達成する。 すべてのコードとデータは、下記のとおりです。

We propose a method to make natural language understanding models more parameter efficient by storing knowledge in an external knowledge graph (KG) and retrieving from this KG using a dense index. Given (possibly multilingual) downstream task data, e.g., sentences in German, we retrieve entities from the KG and use their multimodal representations to improve downstream task performance. We use the recently released VisualSem KG as our external knowledge repository, which covers a subset of Wikipedia and WordNet entities, and compare a mix of tuple-based and graph-based algorithms to learn entity and relation representations that are grounded on the KG multimodal information. We demonstrate the usefulness of the learned entity representations on two downstream tasks, and show improved performance on the multilingual named entity recognition task by $0.3\%$--$0.7\%$ F1, while we achieve up to $2.5\%$ improvement in accuracy on the visual sense disambiguation task. All our code and data are available in: \url{https://github.com/iacercalixto/visualsem-kg}.
翻訳日:2022-06-28 12:49:02 公開日:2022-06-27
# (参考訳) 可視化:異常な振る舞いを検出するための透明性手法

Auditing Visualizations: Transparency Methods Struggle to Detect Anomalous Behavior ( http://arxiv.org/abs/2206.13498v1 )

ライセンス: CC BY 4.0
Jean-Stanislas Denain, Jacob Steinhardt(参考訳) モデルビジュアライゼーションのような透明性手法は、ニューラルネットワークの内部を記述するため、出力だけで見逃す可能性のある情報を提供する。 しかし、モデルの振る舞いを反映するモデル説明を信用できますか? 例えば、バックドアや形状バイアスといった異常な行動を診断できるだろうか? モデル説明を評価するために、モデルが正規モデルの参照集合と異なるかどうかを異常と定義し、透明性手法が異常モデルと正規モデルに異なる説明を割り当てているかどうかを検証した。 既存の方法では形状バイアスや逆行訓練などのスターク異常を検出できるが、不完全なデータで訓練されたモデルのようなより微妙な異常を識別することは困難である。 さらに、一般的にはバックドアトリガーを含む画像など、異常な振る舞いを誘発する入力を区別できない。 これらの結果は、既存のモデル説明に新たな盲点があることを示し、さらなるメソッド開発の必要性を示している。

Transparency methods such as model visualizations provide information that outputs alone might miss, since they describe the internals of neural networks. But can we trust that model explanations reflect model behavior? For instance, can they diagnose abnormal behavior such as backdoors or shape bias? To evaluate model explanations, we define a model as anomalous if it differs from a reference set of normal models, and we test whether transparency methods assign different explanations to anomalous and normal models. We find that while existing methods can detect stark anomalies such as shape bias or adversarial training, they struggle to identify more subtle anomalies such as models trained on incomplete data. Moreover, they generally fail to distinguish the inputs that induce anomalous behavior, e.g. images containing a backdoor trigger. These results reveal new blind spots in existing model explanations, pointing to the need for further method development.
翻訳日:2022-06-28 12:46:06 公開日:2022-06-27
# 人間の動作記述と合成のためのプログラム概念学習

Programmatic Concept Learning for Human Motion Description and Synthesis ( http://arxiv.org/abs/2206.13502v1 )

ライセンス: Link先を確認
Sumith Kulal, Jiayuan Mao, Alex Aiken, Jiajun Wu(参考訳) 動作概念としての低レベル動作と高レベル記述の両方をキャプチャする,人間の行動の階層的な動作表現であるProgrammatic Motion Conceptsを紹介する。 この表現は、人間の動作記述、インタラクティブな編集、および単一のフレームワーク内で新規なビデオシーケンスの制御された合成を可能にする。 本稿では,この概念表現を半教師あり方式でペア映像とアクションシーケンスから学習するアーキテクチャを提案する。 表現のコンパクトさにより、データ効率の学習のための低リソースのトレーニングレシピも提示できる。 確立したベースライン,特に小さなデータ構造において,我々は,複数のアプリケーションに対するフレームワークの効率性と有効性を実証する。

We introduce Programmatic Motion Concepts, a hierarchical motion representation for human actions that captures both low-level motion and high-level description as motion concepts. This representation enables human motion description, interactive editing, and controlled synthesis of novel video sequences within a single framework. We present an architecture that learns this concept representation from paired video and action sequences in a semi-supervised manner. The compactness of our representation also allows us to present a low-resource training recipe for data-efficient learning. By outperforming established baselines, especially in the small data regime, we demonstrate the efficiency and effectiveness of our framework for multiple applications.
翻訳日:2022-06-28 12:22:54 公開日:2022-06-27
# データ依存型一般化境界によるロバストネスの一般化

Robustness Implies Generalization via Data-Dependent Generalization Bounds ( http://arxiv.org/abs/2206.13497v1 )

ライセンス: Link先を確認
Kenji Kawaguchi, Zhun Deng, Kyle Luh, Jiaoyang Huang(参考訳) 本稿では,データ依存的一般化境界を通した一般化がロバスト性を意味することを示す。 その結果、ロバスト性と一般化はデータ依存の方法で密接に接続されていることが示される。 2010年以来ほとんど開発されていないオープンな問題を解決するため、私たちの境界は2つの方向で以前の境界を改善します。 1つ目は、被覆数への依存を減らすことである。 2つ目は、仮説空間への依存を取り除くことである。 本稿では,LassoとDeep Learningのいくつかの例を紹介する。 実世界のデータと理論モデルに関する実験は、様々な状況でほぼ指数関数的な改善を示す。 これらの改善を達成するために、未知の分布に対する追加の仮定は必要とせず、トレーニングサンプルの可観測性と計算可能な特性だけを取り込んでいます。 重要な技術的革新は、ロバスト性や一般化を超えて独立した関心を持つ多項確率変数の集中性の改善である。

This paper proves that robustness implies generalization via data-dependent generalization bounds. As a result, robustness and generalization are shown to be connected closely in a data-dependent manner. Our bounds improve previous bounds in two directions, to solve an open problem that has seen little development since 2010. The first is to reduce the dependence on the covering number. The second is to remove the dependence on the hypothesis space. We present several examples, including ones for lasso and deep learning, in which our bounds are provably preferable. The experiments on real-world data and theoretical models demonstrate near-exponential improvements in various situations. To achieve these improvements, we do not require additional assumptions on the unknown distribution; instead, we only incorporate an observable and computable property of the training samples. A key technical innovation is an improved concentration bound for multinomial random variables that is of independent interest beyond robustness and generalization.
翻訳日:2022-06-28 12:22:43 公開日:2022-06-27
# 単語探索課題に対するゼロショット分類手法

A Zero-Shot Classification Approach for a Word-Guessing Challenge ( http://arxiv.org/abs/2206.13099v1 )

ライセンス: Link先を確認
Nicos Isaak(参考訳) 有名なTabooゲームに基づくタスクであるTaboo Challengeコンペティションは、AI分野の研究を促進するために提案されている。 この課題は、推測エージェントと記述エージェントの交換メッセージ間の暗黙の推論を理解することができるシステムを構築する必要がある。 説明者は事前に決められたヒントを間接的に都市を説明する推測者に送信し、推測者はヒントによって示唆される都市を返さなければならない。 スコアリング用の台帳を登るには、指定された時間枠で最小のヒントで最多の都市の解決が必要となる。 ここでは、ゼロショット設定に基づく課題に取り組むための言語モデルアプローチであるTabooLMを紹介する。 まず,このアプローチの結果を文献から得られた3つの研究と比較した。 提案手法はTabooの課題に対してSOTAの結果が得られ,TabooLMが既存手法よりも高速かつ精度の高い都市を推定できることが示唆された。

The Taboo Challenge competition, a task based on the well-known Taboo game, has been proposed to stimulate research in the AI field. The challenge requires building systems able to comprehend the implied inferences between the exchanged messages of guesser and describer agents. A describer sends pre-determined hints to guessers indirectly describing cities, and guessers are required to return the matching cities implied by the hints. Climbing up the scoring ledger requires the resolving of the highest amount of cities with the smallest amount of hints in a specified time frame. Here, we present TabooLM, a language-model approach that tackles the challenge based on a zero-shot setting. We start by presenting and comparing the results of this approach with three studies from the literature. The results show that our method achieves SOTA results on the Taboo challenge, suggesting that TabooLM can guess the implied cities faster and more accurately than existing approaches.
翻訳日:2022-06-28 12:21:55 公開日:2022-06-27
# 確率自由ベイズ最適化のための一般レシピ

A General Recipe for Likelihood-free Bayesian Optimization ( http://arxiv.org/abs/2206.13035v1 )

ライセンス: Link先を確認
Jiaming Song, Lantao Yu, Willie Neiswanger, Stefano Ermon(参考訳) ベイズ最適化(BO)において重要な要素である取得関数は、サロゲートモデルの下でのユーティリティ関数の期待として記述することができる。 しかし、取得関数が最適化するためには、サロゲートモデルとユーティリティ関数に制限を置く必要がある。 BOをより広範なモデルやユーティリティに拡張するために、確率自由推論に基づくアプローチである確率自由BO(LFBO)を提案する。 LFBOは、確率的代理モデルと個別に推論を行うことなく、取得関数を直接モデル化する。 LFBOにおける取得関数の計算は、重み付けされた分類問題を最適化し、重み付けが選択されるユーティリティに対応することを示せる。 期待される改善のためのユーティリティ関数(EI)を選択することで、LFBOはいくつかの実世界の最適化問題において、最先端のブラックボックス最適化手法よりも優れる。 LFBOは目的関数の合成構造を効果的に利用することができ、その後悔をさらに改善する。

The acquisition function, a critical component in Bayesian optimization (BO), can often be written as the expectation of a utility function under a surrogate model. However, to ensure that acquisition functions are tractable to optimize, restrictions must be placed on the surrogate model and utility function. To extend BO to a broader class of models and utilities, we propose likelihood-free BO (LFBO), an approach based on likelihood-free inference. LFBO directly models the acquisition function without having to separately perform inference with a probabilistic surrogate model. We show that computing the acquisition function in LFBO can be reduced to optimizing a weighted classification problem, where the weights correspond to the utility being chosen. By choosing the utility function for expected improvement (EI), LFBO outperforms various state-of-the-art black-box optimization methods on several real-world optimization problems. LFBO can also effectively leverage composite structures of the objective function, which further improves its regret by several orders of magnitude.
翻訳日:2022-06-28 12:21:38 公開日:2022-06-27
# (参考訳) 細粒度oct分類のための患者認識能動学習

Patient Aware Active Learning for Fine-Grained OCT Classification ( http://arxiv.org/abs/2206.11485v2 )

ライセンス: CC BY 4.0
Yash-yee Logan, Ryan Benkert, Ahmad Mustafa, Gukyeong Kwon and Ghassan AlRegib(参考訳) 本稿では,医学的観点から積極的学習をより合理的にすることを検討する。 実際には、疾患は患者のコホートにまたがって異なる形で現れる。 既存のフレームワークは、主に不確実性や多様性に基づく方法で最も有益なサンプルを選択するために数学的構造を使用してきた。 しかし、そのようなアルゴリズムは、医療コミュニティや医療提供者にとって自然に使えるものではない。 したがって、臨床環境での展開は非常に限られている。 そこで本研究では,既存のアルゴリズムに組み込むことができるアクティブラーニングのサンプル選択プロセスに臨床知見を取り入れたフレームワークを提案する。 医学的に解釈可能な能動学習フレームワークは, OCT分類の一般化性能を向上させるために, 患者から多様な疾患を抽出する。 包括的実験の結果、アクティブラーニングフレームワークに患者の洞察を組み込むことで、2つのアーキテクチャでよく使われる5つのパラダイムに一致または超える性能が得られることが報告された。 また、このフレームワークは既存の医療プラクティスに統合されており、医療提供者が利用できる。

This paper considers making active learning more sensible from a medical perspective. In practice, a disease manifests itself in different forms across patient cohorts. Existing frameworks have primarily used mathematical constructs to engineer uncertainty or diversity-based methods for selecting the most informative samples. However, such algorithms do not present themselves naturally as usable by the medical community and healthcare providers. Thus, their deployment in clinical settings is very limited, if any. For this purpose, we propose a framework that incorporates clinical insights into the sample selection process of active learning that can be incorporated with existing algorithms. Our medically interpretable active learning framework captures diverse disease manifestations from patients to improve generalization performance of OCT classification. After comprehensive experiments, we report that incorporating patient insights within the active learning framework yields performance that matches or surpasses five commonly used paradigms on two architectures with a dataset having imbalanced patient distributions. Also, the framework integrates within existing medical practices and thus can be used by healthcare providers.
翻訳日:2022-06-28 11:49:27 公開日:2022-06-27
# (参考訳) 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v2 )

ライセンス: CC BY 4.0
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem(参考訳) 過去10年間で、多くの組織が規範的な意味で標準化を意図したドキュメントを作成し、最近のAI開発へのガイダンスを促進してきました。 しかし、これらの文書で提示されるアイデアの完全な内容とばらつきは、いくつかのメタ分析と批判的レビューを除いてまだ分析されていない。 本研究では,過去の研究者による作業の拡大と,これらの文書の内容と性質をよりよく視覚化するツールの開発を目的とする。 また、本ツールの適用により得られた結果を200文書のサンプルサイズに分析する。

In the last decade, a great number of organizations have produced documents intended to standardize, in the normative sense, and promote guidance to our recent and rapid AI development. However, the full content and divergence of ideas presented in these documents have not yet been analyzed, except for a few meta-analyses and critical reviews of the field. In this work, we seek to expand on the work done by past researchers and create a tool for better data visualization of the contents and nature of these documents. We also provide our critical analysis of the results acquired by the application of our tool into a sample size of 200 documents.
翻訳日:2022-06-28 11:41:15 公開日:2022-06-27
# (参考訳) フェデレート平均化におけるデータ漏洩

Data Leakage in Federated Averaging ( http://arxiv.org/abs/2206.12395v2 )

ライセンス: CC BY 4.0
Dimitar I. Dimitrov, Mislav Balunovi\'c, Nikola Konstantinov, Martin Vechev(参考訳) 最近の攻撃は、ユーザーデータをFedSGDのアップデートから復元できることを示し、プライバシーを侵害している。 しかしながら、これらの攻撃はFedAvgアルゴリズムを使うフェデレーション学習の実践的関連性に制限がある。 FedSGDと比較すると、FedAvgの更新からデータを取得することは、次のように難しくなります。 i)更新は未観測の中間ネットワーク重みで計算される。 (ii)多数のバッチが使用され、 (iii)ラベルとネットワークの重み付けは、クライアントステップ間で同時に変化する。 そこで本研究では,FedAvgに対する新たな最適化ベースの攻撃を提案し,上記の課題に対処する。 まず、回収されたラベルと入力の未観測パラメータを生成し、受信したクライアント更新にマッチさせるクライアント更新のシミュレーションを強制する自動微分を用いて最適化問題を解く。 第2に,異なるエポックからの画像を予め置換不変量で関連付けることで,多数のバッチに対処する。 第三に、FedAvgの各ステップで既存のFedSGD攻撃のパラメータを推定することでラベルを復元する。 一般的なフェムニズムデータセットでは、ベースラインを使用した場合の10回のバッチで計算された10回のフェムニズム更新から、クライアントのイメージの45%以上が正常に回復できることが示されています。 その結果,fedavgに基づく実世界のフェデレーション学習実装の多くが脆弱であることが判明した。

Recent attacks have shown that user data can be recovered from FedSGD updates, thus breaking privacy. However, these attacks are of limited practical relevance as federated learning typically uses the FedAvg algorithm. Compared to FedSGD, recovering data from FedAvg updates is much harder as: (i) the updates are computed at unobserved intermediate network weights, (ii) a large number of batches are used, and (iii) labels and network weights vary simultaneously across client steps. In this work, we propose a new optimization-based attack which successfully attacks FedAvg by addressing the above challenges. First, we solve the optimization problem using automatic differentiation that forces a simulation of the client's update that generates the unobserved parameters for the recovered labels and inputs to match the received client update. Second, we address the large number of batches by relating images from different epochs with a permutation invariant prior. Third, we recover the labels by estimating the parameters of existing FedSGD attacks at every FedAvg step. On the popular FEMNIST dataset, we demonstrate that on average we successfully recover >45% of the client's images from realistic FedAvg updates computed on 10 local epochs of 10 batches each with 5 images, compared to only <10% using the baseline. Our findings show many real-world federated learning implementations based on FedAvg are vulnerable.
翻訳日:2022-06-28 11:16:38 公開日:2022-06-27
# (参考訳) ビデオオブジェクトのテキスト駆動スタイライゼーション

Text-Driven Stylization of Video Objects ( http://arxiv.org/abs/2206.12396v2 )

ライセンス: CC BY 4.0
Sebastian Loeschcke, Serge Belongie and Sagie Benaim(参考訳) ユーザが指定したテキストプロンプトに従ってビデオオブジェクトを直感的かつ意味的にスタイライゼーションするタスクに取り組む。 1) 時間的に一貫性があり、ジッタリングや類似したアーティファクトを避ける必要があり、(2) 結果のスタイリングは、オブジェクトのグローバルなセマンティクスとその微細な詳細の両方を保持し、(3) ユーザが指定したテキストプロンプトに従わなければならない。 この目的のために,本手法は2つのターゲットテキストに基づいて映像中のオブジェクトをスタイリングする。 第1のターゲットテキストプロンプトはグローバルセマンティクスを、第2のターゲットテキストプロンプトはローカルセマンティクスを記述します。 オブジェクトのスタイルを変更するために、クリップの表現力を利用して(1)局所的な対象テキストと局所的なスタイル化されたビューのセットと(2)グローバルなターゲットテキストとスタイル化されたグローバルビューのセットとの類似度スコアを得る。 我々は,事前訓練されたatlas分解ネットワークを用いて,編集を時間的に一貫した方法で伝達する。 本手法は,対象テキストの仕様に準拠したさまざまなオブジェクトやビデオに対して,時間とともに一貫したスタイル変化を生成できることを実証する。 また, 対象テキストの特異性の変化と, プレフィックスの集合によるテキストの増大が, 詳細度合いの異なるスタイル化をもたらすことを示す。 完全な結果はプロジェクトのWebページにある。 https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/

We tackle the task of stylizing video objects in an intuitive and semantic manner following a user-specified text prompt. This is a challenging task as the resulting video must satisfy multiple properties: (1) it has to be temporally consistent and avoid jittering or similar artifacts, (2) the resulting stylization must preserve both the global semantics of the object and its fine-grained details, and (3) it must adhere to the user-specified text prompt. To this end, our method stylizes an object in a video according to two target texts. The first target text prompt describes the global semantics and the second target text prompt describes the local semantics. To modify the style of an object, we harness the representational power of CLIP to get a similarity score between (1) the local target text and a set of local stylized views, and (2) a global target text and a set of stylized global views. We use a pretrained atlas decomposition network to propagate the edits in a temporally consistent manner. We demonstrate that our method can generate consistent style changes over time for a variety of objects and videos, that adhere to the specification of the target texts. We also show how varying the specificity of the target texts and augmenting the texts with a set of prefixes results in stylizations with different levels of detail. Full results are given on our project webpage: https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
翻訳日:2022-06-28 10:50:08 公開日:2022-06-27
# 条件付き拡散生成のためのエントロピー駆動サンプリングとトレーニング手法

Entropy-driven Sampling and Training Scheme for Conditional Diffusion Generation ( http://arxiv.org/abs/2206.11474v3 )

ライセンス: Link先を確認
Shengming Li, Guangcong Zheng, Hui Wang, Taiping Yao, Yang Chen, Shoudong Ding, Xi Li(参考訳) Denoising Diffusion Probabilistic Model (DDPM) は、独立ノイズ認識分類器を導入し、デノナイズプロセスの各段階で条件勾配ガイダンスを提供することにより、事前ノイズから実データへのフレキシブルな条件画像生成を可能にする。 しかし、分類器が不完全生成画像を高レベル構造のみで容易に判別できるため、クラス情報指導の一種である勾配は早期に消失する傾向にあり、条件生成プロセスから無条件プロセスへの崩壊に繋がる。 この問題に対処するために,2つの観点から,単純だが効果的なアプローチを提案する。 サンプリング手順では,予測分布のエントロピーをガイダンスの消失レベルとして導入し,条件付きセマンティックガイダンスを適応的に復元するエントロピー対応スケーリング手法を提案する。 imagenet1000 256x256では,提案するサンプリングスキームと訓練された分類器を用いて,プリトレーニング条件付きddpmモデルがそれぞれ10.89% (4.59から4.09) と43.5% (12から6.78) のfid改善を達成できる。

Denoising Diffusion Probabilistic Model (DDPM) is able to make flexible conditional image generation from prior noise to real data, by introducing an independent noise-aware classifier to provide conditional gradient guidance at each time step of denoising process. However, due to the ability of classifier to easily discriminate an incompletely generated image only with high-level structure, the gradient, which is a kind of class information guidance, tends to vanish early, leading to the collapse from conditional generation process into the unconditional process. To address this problem, we propose two simple but effective approaches from two perspectives. For sampling procedure, we introduce the entropy of predicted distribution as the measure of guidance vanishing level and propose an entropy-aware scaling method to adaptively recover the conditional semantic guidance. For training stage, we propose the entropy-aware optimization objectives to alleviate the overconfident prediction for noisy data.On ImageNet1000 256x256, with our proposed sampling scheme and trained classifier, the pretrained conditional and unconditional DDPM model can achieve 10.89% (4.59 to 4.09) and 43.5% (12 to 6.78) FID improvement respectively.
翻訳日:2022-06-28 10:31:39 公開日:2022-06-27
# マルチモダリティ医用画像分割のためのコンテクストディスカウントによるエビデンス融合

Evidence fusion with contextual discounting for multi-modality medical image segmentation ( http://arxiv.org/abs/2206.11739v2 )

ライセンス: Link先を確認
Ling Huang, Thierry Denoeux, Pierre Vera, Su Ruan(参考訳) 情報ソースは通常不完全であるため、マルチソース情報融合タスクにおける信頼性を考慮する必要がある。 本稿では,dempster-shafer理論の形式化を用いて,異なるクラスに対する異なるモダリティの信頼性を考慮しつつ,マルチmr画像分割結果の統合を可能にする新しい深層フレームワークを提案する。 このフレームワークは、エンコーダ・デコーダ特徴抽出モジュールと、各モダリティに対する各ボクセルにおける信念関数を計算する明示的セグメンテーションモジュールと、各モダリティエビデンスに割引率のベクトルを割り当て、デンプスターの規則を用いて割引エビデンスを組み合わせる多モードエビデンス融合モジュールとから構成される。 フレームワーク全体のトレーニングは、ディスカウントされたDiceインデックスに基づいて新しい損失関数を最小化し、セグメント化精度と信頼性を向上させる。 この方法は脳腫瘍1251例のBraTs 2021データベース上で評価された。 定量的および定性的な結果から,本手法は最先端技術よりも優れており,深層ニューラルネットワーク内での多情報統合に有効な新しいアイデアが実現されている。

As information sources are usually imperfect, it is necessary to take into account their reliability in multi-source information fusion tasks. In this paper, we propose a new deep framework allowing us to merge multi-MR image segmentation results using the formalism of Dempster-Shafer theory while taking into account the reliability of different modalities relative to different classes. The framework is composed of an encoder-decoder feature extraction module, an evidential segmentation module that computes a belief function at each voxel for each modality, and a multi-modality evidence fusion module, which assigns a vector of discount rates to each modality evidence and combines the discounted evidence using Dempster's rule. The whole framework is trained by minimizing a new loss function based on a discounted Dice index to increase segmentation accuracy and reliability. The method was evaluated on the BraTs 2021 database of 1251 patients with brain tumors. Quantitative and qualitative results show that our method outperforms the state of the art, and implements an effective new idea for merging multi-information within deep neural networks.
翻訳日:2022-06-28 10:31:14 公開日:2022-06-27
# 手術器具のセグメンテーションを再考:背景画像は必要なものすべて

Rethinking Surgical Instrument Segmentation: A Background Image Can Be All You Need ( http://arxiv.org/abs/2206.11804v2 )

ライセンス: Link先を確認
An Wang, Mobarakol Islam, Mengya Xu and Hongliang Ren(参考訳) データ多様性とボリュームはディープラーニングモデルのトレーニングの成功に不可欠であるが、医療画像分野では、データ収集とアノテーションの困難さとコストが特に大きい。 特にロボット手術において、データの不足と不均衡はモデルの精度に大きく影響を与え、手術器具のセグメンテーションのような深層学習に基づく手術アプリケーションの設計と展開を制限している。 本稿では,手術器具分割作業を再考し,ロボット手術からデータ収集とアノテーションを複雑かつ高価なプロセスから取り除いた1対多のデータ生成ソリューションを提案する。 本手法では,単一の外科的背景組織画像といくつかのオープンソース機器画像のみをシード画像として使用し,複数の増補およびブレンド技術を用いて画像変動量の合成を行う。 さらに,データ多様性をさらに向上するため,トレーニング中に連鎖強化ミキシングを導入する。 提案手法は,EndoVis-2018とEndoVis-2017の手術シーンセグメンテーションの実際のデータセットに基づいて評価される。 経験的分析から,高コストなデータ収集とアノテーションがなければ,適切な手術器具のセグメンテーション性能が達成できることが示唆された。 さらに,本手法がデプロイメント領域において新たな計測器予測に対処できることも確認した。 私たちは、クラス不均衡、ドメイン適応、インクリメンタル学習など、データ不足以外のディープラーニングの制限を克服するために、データ中心の方法を強調したいと考えています。

Data diversity and volume are crucial to the success of training deep learning models, while in the medical imaging field, the difficulty and cost of data collection and annotation are especially huge. Specifically in robotic surgery, data scarcity and imbalance have heavily affected the model accuracy and limited the design and deployment of deep learning-based surgical applications such as surgical instrument segmentation. Considering this, in this paper, we rethink the surgical instrument segmentation task and propose a one-to-many data generation solution that gets rid of the complicated and expensive process of data collection and annotation from robotic surgery. In our method, we only utilize a single surgical background tissue image and a few open-source instrument images as the seed images and apply multiple augmentations and blending techniques to synthesize amounts of image variations. In addition, we also introduce the chained augmentation mixing during training to further enhance the data diversities. The proposed approach is evaluated on the real datasets of the EndoVis-2018 and EndoVis-2017 surgical scene segmentation. Our empirical analysis suggests that without the high cost of data collection and annotation, we can achieve decent surgical instrument segmentation performance. Moreover, we also observe that our method can deal with novel instrument prediction in the deployment domain. We hope our inspiring results will encourage researchers to emphasize data-centric methods to overcome demanding deep learning limitations besides data shortage, such as class imbalance, domain adaptation, and incremental learning.
翻訳日:2022-06-28 10:30:50 公開日:2022-06-27
# QReg: 量子化の正規化効果について

QReg: On Regularization Effects of Quantization ( http://arxiv.org/abs/2206.12372v2 )

ライセンス: Link先を確認
MohammadHossein AskariHemmat, Reyhane Askari Hemmat, Alex Hoffman, Ivan Lazarevich, Ehsan Saboori, Olivier Mastropietro, Yvon Savaria, Jean-Pierre David(参考訳) 本稿では,DNNトレーニングにおける量子化の効果について検討する。 重み量子化は正則化の一形態であり、正則化の量は正定化レベルと相関していると仮定する(precision)。 我々は分析研究と実証結果を提供することで仮説を立証する。 重み付け雑音の一形態として重み量子化をモデル化することにより,この雑音がトレーニング時にネットワークを伝搬する方法について検討する。 このノイズの大きさは量子化のレベルと相関していることを示す。 本論文では, 様々な視覚タスクやモデルにおいて, 量子化の正規化効果が, 様々なデータセット上で見られることを示した。 本研究では,8ビット量子化が,様々な視覚タスクやモデルにおいて信頼性の高い正則化を実現することを提案する。

In this paper we study the effects of quantization in DNN training. We hypothesize that weight quantization is a form of regularization and the amount of regularization is correlated with the quantization level (precision). We confirm our hypothesis by providing analytical study and empirical results. By modeling weight quantization as a form of additive noise to weights, we explore how this noise propagates through the network at training time. We then show that the magnitude of this noise is correlated with the level of quantization. To confirm our analytical study, we performed an extensive list of experiments summarized in this paper in which we show that the regularization effects of quantization can be seen in various vision tasks and models, over various datasets. Based on our study, we propose that 8-bit quantization provides a reliable form of regularization in different vision tasks and models.
翻訳日:2022-06-28 10:30:23 公開日:2022-06-27