このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220104となっている論文です。

PDF登録状況(公開日: 20220104)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子制御時間に対する下限の解析と量子速度限界との関係

Analysis of lower bounds for quantum control times and their relation to the quantum speed limit ( http://arxiv.org/abs/2002.11147v2 )

ライセンス: Link先を確認
Pablo M. Poggi(参考訳) 量子系の進化の速度(一般に量子速度制限(QSL)と呼ばれる)に対する制限は、量子制御問題に重要な結果をもたらす。 しかし、標準定式化では、未知の制御パラメータを持つ時間依存ハミルトニアンの有意義なqsl境界を得るのは簡単ではない。 本稿では,ユニタリダイナミクスの量子速度限界と量子制御との関係について,簡単な入門概要を示す。 そこで我々は,QSLにインスパイアされた制御時間に対する新たな境界を求める潜在的手法を解析した。 Poggi, Lombardo and Wisniacki EPL 104 40005 (2013)]において、駆動された2レベル量子系の文脈におけるこれらの新しい境界の性質と制限を研究することによって、最終的に研究を拡張した。

Limitations to the speed of evolution of quantum systems, typically referred to as quantum speed limits (QSLs), have important consequences for quantum control problems. However, in its standard formulation, is not straightforward to obtain meaningful QSL bounds for time-dependent Hamiltonians with unknown control parameters. In this paper we present a short introductory overview of quantum speed limit for unitary dynamics and its connection to quantum control. We then analyze potential methods for obtaining new bounds on control times inspired by the QSL. We finally extend the work in [Poggi, Lombardo and Wisniacki EPL 104 40005 (2013)] by studying the properties and limitations of these new bounds in the context of a driven two-level quantum system
翻訳日:2023-06-01 23:44:54 公開日:2022-01-04
# 量子ルーター:光子レベルで光を保存およびリダイレクトする

Quantum-router: Storing and redirecting light at the photon level ( http://arxiv.org/abs/2003.03363v3 )

ライセンス: Link先を確認
Martin C. Korzeczek and Daniel Braun(参考訳) マイクロミラーアレイなどの機械装置を使わずに,光子数が少ないコヒーレントな状態の単一光子や光を純粋電子的手段で空間的に再描画する方法を提案する。 この方法は、入射光の量子状態を、光の量子記憶で行われている原子アンサンブル内のスピン波にマッピングすることに基づいている。 次に、スピン波のウェーブベクトルを印加磁場勾配により制御的に修正する。 最後に、記憶するのと同じ制御ビームを再適用することにより、スピン波の偏向波ベクトルに依存する新たな方向に信号パルスを解放する。 数値シミュレーションにより、単純な光子保存と前方再放出に匹敵する平面の任意の偏向角に対して効率性が得られ、量子記憶における非一貫性の源として記憶運動量を排除する新しい方法を提案する。 合理的なパラメータ構成では、振れ角によっては、数から$\sim100$マイクロ秒の順番で、再ルーティングはタイムスケールで達成可能であるべきである。 ゼーマン効果を用いて達成できるウェーブベクトルのシフトは、スピン波に最小限の変更を加えることで、既存の交流スタークスピン波操作法を補完するためにも使用できる。

We propose a method for spatially re-routing single photons or light in a coherent state with small average photon number by purely electronic means, i.e. without using mechanical devices such as micro-mirror arrays. The method is based on mapping the quantum state of the incoming light onto a spin-wave in an atomic ensemble as is done in quantum memories of light. Then the wavevector of the spin-wave is modified in a controlled way by an applied magnetic field gradient. Finally, by re-applying the same control beam as for storing, the signal pulse is released in a new direction that depends on the deflected wavevector of the spin-wave. We show by numerical simulation that efficiencies can be achieved for arbitrary deflection angles in the plane that are comparable with simple photon storage and re-emission in forward direction, and propose a new method for eliminating the stored momentum as source of decoherence in the quantum memory. In a reasonable parameter regime, the re-routing should be achievable on a time-scale on the order of few to $\sim100$ microseconds, depending on the deflection angle. The shifts in the wavevector that can be achieved using the Zeeman-effect, with otherwise minimal changes to the spin-wave, can also be used to complement existing ac-Stark spin-wave manipulation methods.
翻訳日:2023-05-30 08:59:52 公開日:2022-01-04
# 量子計測における情報と外乱の局所的トレードオフ

Local trade-off between information and disturbance in quantum measurements ( http://arxiv.org/abs/2009.10944v4 )

ライセンス: Link先を確認
Hiroaki Terashima(参考訳) 本研究では,量子計測における情報と乱れの局所的なトレードオフを確認する。 これは、測定がわずかに変更されたときの2つの量の変化の相関によって表される。 相関は,得られた情報量を増やすために測定値を変更すると,ほとんどの場合,乱れも増大することを示している。 しかし、相関が必ずしも完全ではないため、乱れを減少させながら情報を増やすことができる。 本稿では,不完全な相関を持つ測定値について,乱れを低減しつつ情報量を増加させる一般的なスキームについて論じる。

This study confirms a local trade-off between information and disturbance in quantum measurements. It is represented by the correlation between the changes in these two quantities when the measurement is slightly modified. The correlation indicates that when the measurement is modified to increase the obtained information, the disturbance also increases in most cases. However, the information can be increased while decreasing the disturbance because the correlation is not necessarily perfect. For measurements having imperfect correlations, this paper discusses a general scheme that raises the amount of information while decreasing the disturbance.
翻訳日:2023-05-01 05:04:45 公開日:2022-01-04
# 量子フィッシャー情報推定のための変分量子アルゴリズム

Variational Quantum Algorithm for Estimating the Quantum Fisher Information ( http://arxiv.org/abs/2010.10488v2 )

ライセンス: Link先を確認
Jacob L. Beckey, M. Cerezo, Akira Sone, Patrick J. Coles(参考訳) 量子フィッシャー情報(qfi)は、量子状態からパラメータを推定する最終的な精度を定量化し、量子センサーとしての量子システムの信頼性尺度と見なすことができる。 しかし、混合状態に対するQFIの推定は一般に計算に要求されるタスクである。 本研究では,この課題に対処するために,変量量量漁業情報推定(VQFIE)と呼ばれる変量量子アルゴリズムを提案する。 QFI上の下限と上限を、その忠実度に基づいて推定することにより、VQFIEは実際のQFIが属する範囲を出力する。 この結果は、量子センシングの応用のためにqfiを最大化する状態を変動的に準備するために使うことができる。 従来のアプローチとは対照的に、VQFIEはセンサダイナミクスの明示的な形式に関する知識を必要としない。 我々は磁力測定装置のアルゴリズムをシミュレートし、状態純度が増加するにつれて境界の締め付けを示す。 この例では、境界を文献境界と比較し、境界がより厳密であることを示す。

The Quantum Fisher information (QFI) quantifies the ultimate precision of estimating a parameter from a quantum state, and can be regarded as a reliability measure of a quantum system as a quantum sensor. However, estimation of the QFI for a mixed state is in general a computationally demanding task. In this work we present a variational quantum algorithm called Variational Quantum Fisher Information Estimation (VQFIE) to address this task. By estimating lower and upper bounds on the QFI, based on bounding the fidelity, VQFIE outputs a range in which the actual QFI lies. This result can then be used to variationally prepare the state that maximizes the QFI, for the application of quantum sensing. In contrast to previous approaches, VQFIE does not require knowledge of the explicit form of the sensor dynamics. We simulate the algorithm for a magnetometry setup and demonstrate the tightening of our bounds as the state purity increases. For this example, we compare our bounds to literature bounds and show that our bounds are tighter.
翻訳日:2023-04-28 05:32:52 公開日:2022-01-04
# 量子メトロロジーへの暗号的アプローチ

Cryptographic approach to Quantum Metrology ( http://arxiv.org/abs/2101.01762v2 )

ライセンス: Link先を確認
Nathan Shettell, Elham Kashefi and Damian Markham(参考訳) 我々は、悪意ある敵の存在下で量子力学の暗号的動機付けの枠組みを考える。 まず,(潜在的に)改変された資源(悪意のある敵対者による)の推定戦略を考案し,導入される不確実性の関数として,バイアスの量と精度の損失を定量化する。 適切な暗号プロトコルを組み込むことで、暗号プロトコルの健全性に関してリソースの不確実性をバウンドすることができる。 したがって、量子メトロロジー問題の有効性は暗号プロトコルの有効性に直接関連することができる。 一例として、安全でない量子チャネルを介して資源を交換する量子気象問題を考える。 次に、実装の困難さと効率性のトレードオフを提供する2つのプロトコルを構築します。

We consider a cryptographically motivated framework for quantum metrology in the presence of a malicious adversary. We begin by devising an estimation strategy for a (potentially) altered resource (due to a malicious adversary) and quantify the amount of bias and the loss in precision as a function of the introduced uncertainty in the resource. By incorporating an appropriate cryptographic protocol, the uncertainty in the resource can be bounded with respect to the soundness of the cryptographic protocol. Thus the effectiveness of the quantum metrology problem can be directly related to the effectiveness of the cryptography protocol. As an example, we consider a quantum metrology problem in which resources are exchanged through an unsecured quantum channel. We then construct two protocols for this task which offer a trade-off between difficulty of implementation and efficiency.
翻訳日:2023-04-17 19:49:44 公開日:2022-01-04
# 開量子系と混合状態逆エンジニアリングスキームに対する断熱のショートカット

Shortcuts to adiabaticity for open quantum systems and a mixed-state inverse engineering scheme ( http://arxiv.org/abs/2103.12336v2 )

ライセンス: Link先を確認
S. L. Wu, W. Ma, X. L. Huang, Xuexi Yi(参考訳) 本研究では,複数のデコヒーレンスノイズに対して頑健なヒルベルト空間において,設計可能な軌道に沿って量子状態を伝達する高速混合状態制御方式を提案する。 開量子系の動的不変量から始め、開量子系の断熱性(STAs)に対するショートカットを示し、その後、STAを適用して断熱定常過程を高速化する。 我々のスキームは、現在の実験で利用できる基準(元)と同じ形式を持つ制御されたリウビリアンにより、初期定常状態から目標定常状態へと開系を駆動する。 ダイヤモンド中の窒素空孔(NV)中心の現在のパラメータを用いた実験的な観察を提案し,考察した。

We propose a fast mixed-state control scheme to transfer the quantum state along designable trajectories in Hilbert space, which is robust to multiple decoherence noises. Starting with the dynamical invariants of open quantum systems, we present the shortcuts to adiabaticity (STAs) of open quantum systems at first, then apply the STAs to speed up the adiabatic steady process. Our scheme drives open systems from a initial steady state to a target steady state by a controlled Liouvillian that possesses the same form as the reference (original) one which is accessible in present-day experiments. The experimental observation with current available parameters for the nitrogen-vacancy (NV) center in diamond is suggested and discussed.
翻訳日:2023-04-07 02:25:43 公開日:2022-01-04
# 計算可能かつ運用上意義な多部絡み合い対策

Computable and operationally meaningful multipartite entanglement measures ( http://arxiv.org/abs/2104.06923v3 )

ライセンス: Link先を確認
Jacob L. Beckey, N. Gigena, Patrick J. Coles, M. Cerezo(参考訳) マルチパーティ・エンタングルメントは、量子通信、量子コンピューティング、量子センシング、量子ネットワークにとって不可欠なリソースである。 これらの応用に対する量子状態の効用である $|\psi\rangle$ は、しばしば $|\psi\rangle$ に存在するエンタングルの次数や型に直接関係している。 したがって、多成分の絡み合いを効率的に定量化し特徴付けることが重要となる。 本研究では,集中的絡み合い(Concentratable Entanglements)と呼ばれる多部的絡み合い対策のファミリーを紹介する。 いくつかのよく知られた絡み合い対策は、我々の測定ファミリーの特別な事例として回収され、多粒子絡み合いの定量化のための一般的な枠組みを提供する。 ローカル・オペレーションや古典的コミュニケーションでは,家族全体が平均して増加しないことを示す。 また,ベル対への絡み合いの確率的集中の観点から,これらの尺度の操作的意味についても述べる。 最後に, 並列スワップテストを実施し, 量子デバイス上で多成分の絡み合いを計測するための研究方向を開くことで, 量子コンピュータ上でこれらの量を効率的に推定できることを示す。

Multipartite entanglement is an essential resource for quantum communication, quantum computing, quantum sensing, and quantum networks. The utility of a quantum state, $|\psi\rangle$, for these applications is often directly related to the degree or type of entanglement present in $|\psi\rangle$. Therefore, efficiently quantifying and characterizing multipartite entanglement is of paramount importance. In this work, we introduce a family of multipartite entanglement measures, called Concentratable Entanglements. Several well-known entanglement measures are recovered as special cases of our family of measures, and hence we provide a general framework for quantifying multipartite entanglement. We prove that the entire family does not increase, on average, under Local Operations and Classical Communications. We also provide an operational meaning for these measures in terms of probabilistic concentration of entanglement into Bell pairs. Finally, we show that these quantities can be efficiently estimated on a quantum computer by implementing a parallelized SWAP test, opening up a research direction for measuring multipartite entanglement on quantum devices.
翻訳日:2023-04-03 21:01:33 公開日:2022-01-04
# 近似最小化オラクルによる鞍点最適化とそのロバストバーシング制御への応用

Saddle Point Optimization with Approximate Minimization Oracle and its Application to Robust Berthing Control ( http://arxiv.org/abs/2105.11586v4 )

ライセンス: Link先を確認
Youhei Akimoto, Yoshiki Miyauchi, Atsuo Maki(参考訳) 我々は,最小化問題を解決するoracleのみに依存するサドルポイント最適化手法を提案する。 我々は,強い凸-凹問題における収束特性を解析し,大域的なmin-maxサドル点への線形収束を示す。 収束分析に基づいて,学習率に適応するヒューリスティックな手法を開発した。 1+1)-CMA-ES を最小化オラクル、すなわち Adversarial-CMA-ES として開発した手法の実装は、テスト問題に対する既存のアプローチよりも優れている。 数値評価により,理論収束率の密着性と学習速度適応機構の効率性が確認された。 実世界の問題の一例として,提案手法をモデル不確実性の下での自動収差制御問題に適用し,不確実性に頑健な解を得る上での有用性を示した。

We propose an approach to saddle point optimization relying only on oracles that solve minimization problems approximately. We analyze its convergence property on a strongly convex--concave problem and show its linear convergence toward the global min--max saddle point. Based on the convergence analysis, we develop a heuristic approach to adapt the learning rate. An implementation of the developed approach using the (1+1)-CMA-ES as the minimization oracle, namely Adversarial-CMA-ES, is shown to outperform several existing approaches on test problems. Numerical evaluation confirms the tightness of the theoretical convergence rate bound as well as the efficiency of the learning rate adaptation mechanism. As an example of real-world problems, the suggested optimization method is applied to automatic berthing control problems under model uncertainties, showing its usefulness in obtaining solutions robust to uncertainty.
翻訳日:2023-03-29 21:18:28 公開日:2022-01-04
# 宇宙史上の量子場におけるUnruh-DeWitt検出器の動的応答

Dynamical Response of an Unruh-DeWitt Detector in a Quantum Field over the History of the Universe ( http://arxiv.org/abs/2107.04862v2 )

ライセンス: Link先を確認
Jen-Tsung Hsiang and Bei-Lok Hu(参考訳) 本研究では、調和振動子の内部自由度を持つunruh-dewitt(ud)検出器が、スケール係数$a(t)$の膨張宇宙において、進化する量子物質場$\phi(\bm{x}, t)$をどのように測定するかを問う。 動的時空によって圧縮された量子場に関するマルコフ情報を含む検出器の応答について検討する。 課題は、進化の歴史に蓄積された記憶効果にある。 まず、最初は量子場と共存して進化した '\textsl{Witness}' 検出器を考える。 非マルコフ量子ランゲヴィン方程式を、圧縮された量子場を積分することにより、検出器の$Q$に対して導出する。 この積分微分方程式の解は、原理的には我々の質問に答えるが、実際は非常に難しい。 妥協を打った後、我々は、過去記憶を解読する `\textsl{detective}' と呼ばれる、後期にどの程度$d$が導入されたかを問う。 この状況は、過去における特定の段階を探索する多くの宇宙実験に対応しており、例えば最後の散乱面におけるCOBEターゲティング活動である。 驚くべきことに、結果のスクイーズ、粒子の生成、量子コヒーレンス、相関など、ある程度のグローバルな物理量を取得することが可能であることが示されています。 理由は、量子場が宇宙力学の$a(t)$によって駆動された方法の初めから、きめ細かい情報を全て持っているからである。 過去の歴史の詳細がどれくらい量子場に残るかは、記憶時間に依存する。 圧縮された場が定常駆動下では完全な平衡に達することができないという事実は、進化する時空のように、実際には記憶を維持するのに役立つ。 宇宙論的な問題に対するこの「\textit{archaeological}」の視点の興味深い特徴と可能性について論じる。

In this work we ask how an Unruh-DeWitt (UD) detector with harmonic oscillator internal degrees of freedom $Q$ measuring an evolving quantum matter field $\Phi(\bm{x}, t)$ in an expanding universe with scale factor $a(t)$ responds. We investigate the detector's response which contains non-Markovian information about the quantum field squeezed by the dynamical spacetime. The challenge is in the memory effects accumulated over the evolutionary history. We first consider a detector $W$, the `\textsl{Witness}', which co-existed and evolved with the quantum field from the beginning. We derive a nonMarkovian quantum Langevin equation for the detector's $Q$ by integrating over the squeezed quantum field. The solution of this integro-differential equation would answer our question, in principle, but very challenging, in practice. Striking a compromise, we then ask, to what extent can a detector $D$ introduced at late times, called the `\textsl{Detective}', decipher past memories. This situation corresponds to many cosmological experiments today probing specific stages in the past, such as COBE targeting activities at the surface of last scattering. Somewhat surprisingly we show that it is possible to retrieve to some degree certain global physical quantities, such as the resultant squeezing, particles created, quantum coherence and correlations. The reason is because the quantum field has all the fine-grained information from the beginning in how it was driven by the cosmic dynamics $a(t)$. How long the details of past history can persist in the quantum field depends on the memory time. The fact that a squeezed field cannot come to complete equilibrium under constant driving, as in an evolving spacetime, actually helps to retain the memory. We discuss interesting features and potentials of this `\textit{archaeological}' perspective toward cosmological issues.
翻訳日:2023-03-22 21:57:46 公開日:2022-01-04
# 量子速度限界の分岐:古典主義のヘラルド

Diverging quantum speed limits: a herald of classicality ( http://arxiv.org/abs/2107.06318v2 )

ライセンス: Link先を確認
Pablo M. Poggi, Steve Campbell, Sebastian Deffner(参考訳) 量子速度制限(qsl)はいつ本当に量子なのか? 消失するqsl時間はしばしば創発的な古典的振る舞いを示すが、古典性の正確な側面がこの力学的特徴の原点であるかどうかは未だ完全には分かっていない。 ここでは、QSL時間の消滅(または量子速度のばらつき)は、量子可観測体の不確実性の低下に遡り、これらの特定の可観測体の古典性の出現の結果として理解できることを示す。 一般ガウス力学に基づく連続可変量子系に対するQSL定式化を開発することにより、この機構を説明する。 これらのシステムでは、QSL時間を消失させる3つの典型的なシナリオ、すなわち、大きなスクイーズ、小さな有効プランク定数、そして大きな粒子数が互いに根本的に接続可能であることを示す。 対照的に、オープン量子系と混合状態のダイナミクスを研究することで、古典的ノイズの付加による状態の不整合混合によって生じる古典性がQSL時間を増加させることが示される。

When is the quantum speed limit (QSL) really quantum? While vanishing QSL times often indicate emergent classical behavior, it is still not entirely understood what precise aspects of classicality are at the origin of this dynamical feature. Here, we show that vanishing QSL times (or, equivalently, diverging quantum speeds) can be traced back to reduced uncertainty in quantum observables and thus can be understood as a consequence of emerging classicality for these particular observables. We illustrate this mechanism by developing a QSL formalism for continuous variable quantum systems undergoing general Gaussian dynamics. For these systems, we show that three typical scenarios leading to vanishing QSL times, namely large squeezing, small effective Planck's constant, and large particle number, can be fundamentally connected to each other. In contrast, by studying the dynamics of open quantum systems and mixed states, we show that the classicality that emerges due to incoherent mixing of states from the addition of classical noise typically increases the QSL time.
翻訳日:2023-03-22 11:37:46 公開日:2022-01-04
# 多相量子干渉法 --全ての位相を同時に測定する実および明らかなゲイン

Multiple-phase quantum interferometry -- real and apparent gains of measuring all the phases simultaneously ( http://arxiv.org/abs/2107.10863v3 )

ライセンス: Link先を確認
Wojciech Gorecki, Rafal Demkowicz-Dobrzanski(参考訳) 本研究では,損失のない多相干渉法と,量子フィッシャー情報のみに基づく解析のストレス不足というパラダイムモデルにおいて,運用上有意な量子ゲインを特徴づける。 最適同時推定方式の利点は,各位相を別々に推定する方式と比較した場合の定数係数改善に比例することを示した。

We characterize operationally meaningful quantum gains in a paradigmatic model of lossless multiple-phase interferometry and stress insufficiency of the analysis based solely on the concept of quantum Fisher information. We show that the advantage of the optimal simultaneous estimation scheme amounts to a constant factor improvement when compared with schemes where each phase is estimated separately -- contrary to a widely cited results claiming a better precision scaling in terms of the number of phases involved.
翻訳日:2023-03-21 05:11:02 公開日:2022-01-04
# パラメトリック閉熱場における量子ブラウン振動子のゆらぎ-散逸関係

Fluctuation-Dissipation Relation for a Quantum Brownian Oscillator in a Parametrically Squeezed Thermal Field ( http://arxiv.org/abs/2107.13343v2 )

ライセンス: Link先を確認
Jen-Tsung Hsiang and Bei-Lok Hu(参考訳) 本稿では、量子ブラウン振動子の非平衡進化を研究し、高調波原子やunruh-dewitt検出器の内部自由度をモデル化し、非平衡非定常量子場と結合し、それが平衡に近づいた後にゆらぎ-散逸関係が存在するかどうかを問う。 これは非自明な問題であり、絞られた浴場は平衡に達することができないが、この研究が示すように、システム発振器はfdrにとって必要条件である。 a) 入浴場は基本的に、モードと時間に依存しない定数の3つの異なる熱状態のままである。 この状況は、量子光学や量子熱力学でしばしば発生する。 b) フィールドは最初、熱状態にあるが、モードと時間に依存したスクイーズにつながるパラメトリックなプロセスを受ける。 このシナリオは宇宙論と動的カシミール効果で満たされる。 どちらのプロセスでも浴槽内のスクイーズが振動子の非平衡進化に影響を及ぼす。 その結果,fdrの存在が保証される平衡に近づいたことが判明した。 スクイーズ特性は発振器の有効平衡温度によって特徴づけられ、FDRの要因はバスの雑音核の定常成分にのみ関係している。 有限の系-バス結合強度は、浴場が静止していてパラメトリックなプロセスに関わらない場合でも、振動子を絞られた状態に設定することができる。 この場合のシステムのスクイージングは一般に時間に依存しますが、内部ダイナミクスが完全に緩和されると一定になります。 熱浴を絞った幅広い物理過程に関するコメントから始まり、非平衡系における量子バックリアクションの本質を捉える上でFDRが重要であるといういくつかの意見で終わる。

In this paper we study the nonequilibrium evolution of a quantum Brownian oscillator, modeling the internal degree of freedom of a harmonic atom or an Unruh-DeWitt detector, coupled to a nonequilibrium, nonstationary quantum field and inquire whether a fluctuation-dissipation relation can exist after/if it approaches equilibration. This is a nontrivial issue since a squeezed bath field cannot reach equilibration and yet, as this work shows, the system oscillator indeed can, which is a necessary condition for FDRs. We discuss three different settings: A) The bath field essentially remains in a squeezed thermal state throughout, whose squeeze parameter is a mode- and time-independent constant. This situation is often encountered in quantum optics and quantum thermodynamics. B) The field is initially in a thermal state, but subjected to a parametric process leading to mode- and time-dependent squeezing. This scenario is met in cosmology and dynamical Casimir effect. The squeezing in the bath in both types of processes will affect the oscillator's nonequilibrium evolution. We show that at late times it approaches equilibration, which warrants the existence of an FDR. The trait of squeezing is marked by the oscillator's effective equilibrium temperature, and the factor in the FDR is only related to the stationary component of bath's noise kernel. Setting C) is more subtle: A finite system-bath coupling strength can set the oscillator in a squeezed state even the bath field is stationary and does not engage in any parametric process. The squeezing of the system in this case is in general time-dependent but becomes constant when the internal dynamics is fully relaxed. We begin with comments on the broad range of physical processes involving squeezed thermal baths and end with some remarks on the significance of FDRs in capturing the essence of quantum backreaction in nonequilibrium systems.
翻訳日:2023-03-20 17:12:22 公開日:2022-01-04
# ピオンを用いたハドロン散乱におけるエンタングルメント最小化

Entanglement minimization in hadronic scattering with pions ( http://arxiv.org/abs/2108.00646v2 )

ライセンス: Link先を確認
Silas R. Beane, Roland C. Farrell and Mira Varma(参考訳) 最近の研究 arXiv:1812.03138 [nucl-th] では、低エネルギーハドロン散乱過程において絡み合いが最小化されていると推測されている。 低エネルギーバリオンバリオン$S$-マトリクスの絡み合いパワー(EP)の最小化は、大きなN_c$QCD予測とは異なる新しいスピンフレーバー対称性を示し、高精度格子QCDシミュレーションによって確認されている。 ここでは、ピオンと核子を含む散乱過程について、最小絡み合いの予想を調査する。 S$-行列のEPは$\pi\pi$と$\pi N$システムのために構成され、絡み合いの最小化の結果は大きなN_c$ QCD期待値と比較される。

Recent work arXiv:1812.03138 [nucl-th] conjectured that entanglement is minimized in low-energy hadronic scattering processes. It was shown that the minimization of the entanglement power (EP) of the low-energy baryon-baryon $S$-matrix implies novel spin-flavor symmetries that are distinct from large-$N_c$ QCD predictions and are confirmed by high-precision lattice QCD simulations. Here the conjecture of minimal entanglement is investigated for scattering processes involving pions and nucleons. The EP of the $S$-matrix is constructed for the $\pi\pi$ and $\pi N$ systems, and the consequences of minimization of entanglement are discussed and compared with large-$N_c$ QCD expectations.
翻訳日:2023-03-20 03:29:09 公開日:2022-01-04
# 量子原子配列におけるトラップ効果

Trapping Effects in Quantum Atomic Arrays ( http://arxiv.org/abs/2108.01153v3 )

ライセンス: Link先を確認
Pengfei Zhang(参考訳) 量子エミッタ、特にサブ波長格子定数の原子配列は、光子と電気双極子との相互作用を研究するための理想的なプラットフォームとして提案されている。 本研究では,最近の実験に動機づけられて,深い光学格子内の原子の消滅と生成演算子を用いた微視的量子処理法を開発した。 ケルディッシュ輪郭の図式的アプローチを用いて、光の協調散乱を導出し、$s$行列の一般式を得る。 本手法はスピン演算子による前処理を超越したトラップ効果の研究に応用する。 光格子が魔法の波長の光場によって形成される場合、結果はスピン演算子を用いて以前の結果と一致する。 基底状態にある原子のトラップ電位と励起状態の間にミスマッチがある場合、原子ミラーは光学応答に複数の共鳴を持つ不完全となる。 さらに,大きなトラッピング周波数に対する反動の影響についても検討した。 我々の結果は既存の実験と一致している。

Quantum emitters, particularly atomic arrays with subwavelength lattice constant, have been proposed to be an ideal platform for studying the interplay between photons and electric dipoles. In this work, motivated by the recent experiment [1], we develop a microscopic quantum treatment using annihilation and creation operator of atoms in deep optical lattices. Using a diagrammatic approach on the Keldysh contour, we derive the cooperative scattering of the light and obtain the general formula for the $S$ matrix. We apply our method to study the trapping effect, which is beyond previous treatment with spin operators. If the optical lattices are formed by light fields with magical wavelength, the result matches previous results using spin operators. When there is a mismatch between the trapping potentials for atoms in the ground state and the excited state, atomic mirrors become imperfect, with multiple resonances in the optical response. We further study the effect of recoil for large but finite trapping frequency. Our results are consistent with existing experiments.
翻訳日:2023-03-20 02:51:42 公開日:2022-01-04
# PH-ファフィアン波動関数に対する近似二体ハミルトニアン

Approximate two-body generating Hamiltonian for the PH-Pfaffian wavefunction ( http://arxiv.org/abs/2108.01676v3 )

ライセンス: Link先を確認
Kiryl Pakrouski(参考訳) 我々は,この波動関数が数値的に構築された全ての系サイズについて,基底状態の正確なph-pfaffian波動関数を近似する2つの2体ハミルトニアンについて述べる。 近似波動関数はオリジナルと高い重なりを持ち、低次エンタングルメントスペクトルと構造因子をよく再現する。 近似生成ハミルトニアンは、第2ランダウレベルクーロン相互作用または非相互作用モデルの近傍で3〜4つの擬ポテンシャルが変化する最適化手順により得られる。 これらはハミルトニアンの変分空間の有限領域に属し、各点が略してph-pfaffianを生成する。 同定されたハミルトニアンを最大20個の電子で対角化し、ph-パフィアンシフトがエネルギー的に有利に見えることを発見した。 複合フェルミオンの観点からデータを解釈する可能性について論じる。

We present two 2-body Hamiltonians that approximate the exact PH-Pfaffian wavefunction with their ground states for all the system sizes where this wavefunction has been numerically constructed to date. The approximate wavefunctions have high overlap with the original and reproduce well the low-lying entanglement spectrum and structure factor. The approximate generating Hamiltonians are obtained by an optimisation procedure where three to four pseudopotentials are varied in the neighbourhood of second Landau level Coulomb interaction or of a non-interacting model. They belong to a finite region in the variational space of Hamiltonians where each point approximately generates the PH-Pfaffian. We diagonalize the identified Hamiltonians for up to 20 electrons and find that for them the PH-Pfaffian shift appears energetically more favorable. Possibility to interpret the data in terms of composite fermions is discussed.
翻訳日:2023-03-20 00:36:43 公開日:2022-01-04
# ランダム論理ネットワーク:古典ブールから量子力学へ

Random logic networks: from classical Boolean to quantum dynamics ( http://arxiv.org/abs/2108.10813v2 )

ライセンス: Link先を確認
Lucas Kluge, Joshua E. S. Socolar, Eckehard Sch\"oll(参考訳) 古典可逆ブールネットワークの量子一般化の力学特性について検討する。 各ノードの状態は単一キュービットとして符号化され、古典的なブール論理演算は制御されたビットフリップとアダマール演算によって補完される。 本稿では,前ステップからのキュービットの格納値に基づいて,各キュービットを各ステップで更新する同期更新方式を検討する。 量子ネットワークの周期的または準周期的挙動を調査し,入力次数1の量子ネットワークにおける単一サイト摂動の伝播を解析した。 摂動伝播の非古典的なメカニズムは、原点と摂動状態の間のハミング距離のかなり異なる進化をもたらす。

We investigate dynamical properties of a quantum generalization of classical reversible Boolean networks. The state of each node is encoded as a single qubit, and classical Boolean logic operations are supplemented by controlled bit-flip and Hadamard operations. We consider synchronous updating schemes in which each qubit is updated at each step based on stored values of the qubits from the previous step. We investigate the periodic or quasiperiodic behavior of quantum networks, and we analyze the propagation of single site perturbations through the quantum networks with input degree one. A non-classical mechanism for perturbation propagation leads to substantially different evolution of the Hamming distance between the original and perturbed states.
翻訳日:2023-03-17 07:38:35 公開日:2022-01-04
# マクロノードクラスタ状態による量子コンピューティング

Streamlined quantum computing with macronode cluster states ( http://arxiv.org/abs/2109.04668v3 )

ライセンス: Link先を確認
Blayney W. Walshe, Rafael N. Alexander, Nicolas C. Menicucci, Ben Q. Baragiola(参考訳) 連続可変クラスタ状態は、クォービットをボソニックモードに符号化するゴッテマン・キタエフ・プレスキル(GKP)とタンデムで使用する場合、フォールトトレラントな測定ベースの量子コンピューティングを可能にする。 固定された低深さビームスプリッタネットワークによって構成が定義される4重レール格子マクロノードクラスタ状態について、クリフォードゲートとgkp誤差補正を単一のテレポーテーションステップで同時に実装できることを示す。 Clifford生成セットを実現するための明確なレシピを提供し、クラスタ状態およびGKPリソースの有限スキューズによって得られる論理ゲートエラー率を算出する。 10^{-2}$-$10^{-3}$の論理エラー率は、位相符号のしきい値と互換性があり、11.9-13.7dbのスクイーズで達成できることがわかった。 提案したプロトコルは、従来のスキームに存在するノイズを排除し、現在の最先端の光学実験の範囲での耐故障性を求める。 最後に, 蒸留可能なGKPマジック状態をクラスタ内で直接生成する方法を示す。

Continuous-variable cluster states allow for fault-tolerant measurement-based quantum computing when used in tandem with the Gottesman-Kitaev-Preskill (GKP) encoding of a qubit into a bosonic mode. For quad-rail-lattice macronode cluster states, whose construction is defined by a fixed, low-depth beam splitter network, we show that a Clifford gate and GKP error correction can be simultaneously implemented in a single teleportation step. We give explicit recipes to realize the Clifford generating set, and we calculate the logical gate-error rates given finite squeezing in the cluster-state and GKP resources. We find that logical error rates of $10^{-2}$-$10^{-3}$, compatible with the thresholds of topological codes, can be achieved with squeezing of 11.9-13.7 dB. The protocol presented eliminates noise present in prior schemes and puts the required squeezing for fault tolerance in the range of current state-of-the-art optical experiments. Finally, we show how to produce distillable GKP magic states directly within the cluster state.
翻訳日:2023-03-15 11:54:54 公開日:2022-01-04
# 非平衡su(1,1)干渉計における干渉観測における識別性の計測依存性の消去

Measurement-dependent erasure of distinguishability for the observation of interference in an unbalanced SU(1,1) interferometer ( http://arxiv.org/abs/2109.10592v3 )

ライセンス: Link先を確認
Nan Huo, Liang Cui, Yunxiao Zhang, Wen Zhao, Xueshi Guo, Z. Y. Ou, and Xiaoying Li(参考訳) 量子干渉は、実際にその行為を行うことなく、単に区別可能性の可能性を伴って消えることが知られている。 このような識別性を不均衡なsu(1,1)干渉計で生成し、実際に出力の直接光検出に干渉しない。 一方、このような識別性は射影計測により消去することができる。 本稿では,干渉効果を回復できるホモダイン検出法について報告する。 我々は、振幅測定において干渉の回復につながる不明瞭さと、ホモダイン検出の量子的性質と検出器の応答時間の両方が重要な役割を果たすことを発見した。 これは前述の量子消去器スキームとは異なる。 これは、量子干渉が測定プロセスで起こることを示す。 経路補償を必要とせず、ここで研究された非平衡干渉計は量子力学とセンシングに実用的応用を期待できる。

It is known that quantum interference can disappear with the mere possibility of distinguishability without actually performing the act. We create such distinguishability in an unbalanced SU(1,1) interferometer and indeed observe no interference in the direct photodetection of the outputs. On the other hand, such distinguishability can be erased with a projective measurement. Here, we report a method of homodyne detection that can also recover interference effect. We find that it is the indistinguishability in amplitude measurement that leads to the recovery of interference, and the quantum nature of homodyne detection and the detector's slow response time both play an essential role. This is different from the quantum eraser schemes mentioned above. It demonstrates that quantum interference occurs in the measurement processes. With no need for path compensation, the unbalanced interferometers studied here should have practical applications in quantum metrology and sensing.
翻訳日:2023-03-14 01:27:35 公開日:2022-01-04
# 加熱冷却によるアンチバンチング

Antibunching via cooling by heating ( http://arxiv.org/abs/2109.10516v2 )

ライセンス: Link先を確認
M. Tahir Naseem and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 線形および非線形減衰過程におけるフォトン場(フォノン)の統計について検討する。 システム内の熱浴のスペクトルフィルタリングにより, 非線形減衰から, 有効2光子(フォノン)非線形冷却を実現する。 非コヒーレントな量子熱雑音によって駆動されるこの冷却過程は、光子場の量子状態を生成することができる。 実際、スペクトル濾過熱浴の高温においては、フォノン(フォノン)領域で強い反膨潤を示すポアソニアン準統計が報告されている。 非コヒーレント熱量子ノイズによる量子性の出現と制御の概念は、2レベル系と調和振動子または類似の光学的設定からなる量子系に適用される。 本解析は,非コヒーレントな熱量子ノイズで制御可能な非線形減衰による量子特性の生成と保護に有望な方向を与えるかもしれない。

We investigate statistics of the photon (phonon) field undergoing linear and nonlinear damping processes. An effective two-photon (phonon) nonlinear "cooling by heating" process is realized from linear damping by spectral filtering of the heat baths present in the system. This cooling process driven by incoherent quantum thermal noise can create quantum states of the photon field. In fact, for high temperatures of the spectrally filtered heat baths, sub-Poissonian statistics with strong antibunching in the photon (phonon) field are reported. This notion of the emergence and control of quantumness by incoherent thermal quantum noise is applied to a quantum system comprising of a two-level system and a harmonic oscillator or analogous optomechanical setting. Our analysis may provide a promising direction for the preparation and protection of quantum features via nonlinear damping that can be controlled with incoherent thermal quantum noise.
翻訳日:2023-03-14 01:26:34 公開日:2022-01-04
# 量子チャネル上の古典的状態マスキング

Classical State Masking over a Quantum Channel ( http://arxiv.org/abs/2109.12647v2 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, and Holger Boche(参考訳) エンコーダがチャネル側情報(CSI)を計測でき、デコーダから量子チャネル状態に関する情報を隠蔽する必要がある場合、量子状態依存チャネルを介して古典的な情報の伝送を考慮する。 この量子環境では、CSIの測定を隠蔽することが不可欠である。 マスキング等価領域に対して正規化式が導出され、測定チャネルのクラスに対して完全なキャラクタリゼーションが確立される。

Transmission of classical information over a quantum state-dependent channel is considered, when the encoder can measure channel side information (CSI) and is required to mask information on the quantum channel state from the decoder. In this quantum setting, it is essential to conceal the CSI measurement as well. A regularized formula is derived for the masking equivocation region, and a full characterization is established for a class of measurement channels.
翻訳日:2023-03-13 17:12:05 公開日:2022-01-04
# 深い非弾性散乱におけるエンタングルメントエントロピー生成

Entanglement entropy production in deep inelastic scattering ( http://arxiv.org/abs/2110.04881v2 )

ライセンス: Link先を確認
Kun Zhang, Kun Hao, Dmitri Kharzeev, Vladimir Korepin(参考訳) 深部非弾性散乱(DIS)は、光円錐近傍のハドロンの波動関数の一部をサンプリングする。 リパトフは対数近似におけるdisの振幅を記述するスピン鎖を構築した。 Kharzeev と Levin は、エンタングルメントエントロピーを DIS (Phys. Rev. D 95, 114008 (2017)) で観測可能なものとして提案し、エンタングルメントエントロピーとパルトン分布の関係を提案した。 ここでは、dis過程をリパトフのスピン鎖の局所的クエンチとして表現し、生成した絡み合いエントロピーの時間的進化を研究する。 結果として生じるエントロピーは時間対数的に、$\mathcal s(t)=1/3 \ln{(t/\tau)}$で$\tau = 1/m$ for $1/m \le t\le (mx)^{-1}$であり、ここで$m$は陽子質量、$x$はbjorken $x$である。 リパトフのスピン鎖の中心電荷 $c$ はここでは $c=1$ と決定され、エントロピーの絡み合いとパルトン分布の関係式を用いて、これは$x$ で$xg(x) \sim 1/x^{1/3}$ となるグルオン構造関数に対応する。

Deep inelastic scattering (DIS) samples a part of the wave function of a hadron in the vicinity of the light cone. Lipatov constructed a spin chain which describes the amplitude of DIS in leading logarithmic approximation. Kharzeev and Levin proposed the entanglement entropy as an observable in DIS [Phys. Rev. D 95, 114008 (2017)], and suggested a relation between the entanglement entropy and parton distributions. Here we represent the DIS process as a local quench in the Lipatov's spin chain, and study the time evolution of the produced entanglement entropy. We show that the resulting entanglement entropy depends on time logarithmically, $\mathcal S(t)=1/3 \ln{(t/\tau)}$ with $\tau = 1/m$ for $1/m \le t\le (mx)^{-1}$, where $m$ is the proton mass and $x$ is the Bjorken $x$. The central charge $c$ of Lipatov's spin chain is determined here to be $c=1$; using the proposed relation between the entanglement entropy and parton distributions, this corresponds to the gluon structure function growing at small $x$ as $xG(x) \sim 1/x^{1/3}$.
翻訳日:2023-03-11 21:18:45 公開日:2022-01-04
# 明示的に相関した変分dirac-coulombフレームワークにおけるbreit相互作用について

On the Breit interaction in an explicitly correlated variational Dirac-Coulomb framework ( http://arxiv.org/abs/2110.06647v3 )

ライセンス: Link先を確認
D\'avid Ferenc, P\'eter Jeszenszki, Edit M\'atyus(参考訳) ブライト相互作用は, 前回の論文 (Paper I: P. Jeszenszki, D. Ferenc, E. M\'atyus (2022)) で報告されたガウス基底を用いて, 非対変異ディラック・クーロン(DC)フレームワークで実装される。 摂動的かつ完全に変動的なブライト項の包含も考慮されている。 非ペアdc+摂動ブライトと非ペアdirac-coulomb-breitのエネルギーは、breit-pauliハミルトニアンやリード-オーダー非放射量子電磁力学による低z$値の補正を含む摂動理論の結果と比較される。 観測された偏差の潜在的理由について論じる。

The Breit interaction is implemented in the no-pair variational Dirac-Coulomb (DC) framework using an explicitly correlated Gaussian basis reported in the previous paper [Paper I: P. Jeszenszki, D. Ferenc, and E. M\'atyus (2022)]. Both a perturbative and a fully variational inclusion of the Breit term is considered. The no-pair DC plus perturbative Breit as well as the no-pair Dirac-Coulomb-Breit energies are compared with perturbation theory results including the Breit-Pauli Hamiltonian and leading-order non-radiative quantum electrodynamics corrections for low $Z$ values. Possible reasons for the observed deviations are discussed.
翻訳日:2023-03-11 14:52:18 公開日:2022-01-04
# インフレーション宇宙論的摂動の内在的デコヒーレンス

No intrinsic decoherence of inflationary cosmological perturbations ( http://arxiv.org/abs/2112.04092v2 )

ライセンス: Link先を確認
Jen-Tsung Hsiang and Bei-Lok Hu(参考訳) 宇宙論におけるデコヒーレンスと量子から古典への遷移を簡潔に要約した後、我々はインフレーション宇宙における宇宙論的摂動の量子デコヒーレンスの研究に焦点を当てる。 これは、タイトルの「内在的」が--閉量子系を指すものである。 問題は、その量子摂動は宇宙のインフレーション膨張と関係しているかである。 1世紀半にわたって伝播した支配的な見解は、インフレーションが続くと量子状態が大きく揺らぎ、システムが事実上古典的であるという信念に基づいてイエスを主張している。 本稿では,その導出における技術的欠陥線を特定し,その主張の落とし穴を明らかにすることで,この考え方を否定する。 位相空間の高度に圧縮された楕円二次は直線に単純化できず、ウィグナー関数はデルタ関数に置き換えることができない。 これらの量は、半古典的極限を求め、量子的特徴が存在する部分支配的な寄与を無視した上での先行的な貢献のみを取る。 そうすることはウィグナー関数の境界に反し、その波動関数は負の固有値を持つ。 さらに、純状態に対するロバートソン・シュロディンガーの不確実性関係を破る。 インフレーション宇宙論的摂動では、これらの特徴に加えて、生成した対の間に絡み合いが存在する。 このユニークな量子的特徴は容易に議論できない。 実際、宇宙論的摂動の量子的性質とインフラトン場の痕跡を再現することは、我々の最良の希望かもしれない。 これら全ては、閉じた量子系が、非常に圧縮された場合でも、コヒーレンスを失うことなく一元的に進化するという事実を示している。

After a brief summary of decoherence and quantum to classical transition in cosmology we focus on the study of quantum decoherence of cosmological perturbations in inflationary universe, that does not rely on any environment. This is what `intrinsic' in the title refers to -- a closed quantum system. The question is, does its quantum perturbations decohere with an inflationary expansion of the universe. A dominant view which had propagated for a quarter of a century asserts yes, based on the belief that the large squeezing of a quantum state after a duration of inflation renders the system effectively classical. This paper debunks this view by identifying the technical fault-lines in its derivations and revealing the pitfalls in its arguments which drew earlier authors to this wrong conclusion. We use a few simple quantum mechanical models to expound where the fallacy originated: The highly squeezed ellipse quadrature in phase space cannot be simplified to a line, and the Wigner function cannot be replaced by a delta function. These amount to taking only the leading order contributions in seeking the semiclassical limit and ignoring the subdominant contributions where quantum features reside. Doing so violates the bounds of the Wigner function, and its wave functions possess negative eigenvalues. Moreover, the Robertson-Schrodinger uncertainty relation for a pure state is violated. For inflationary cosmological perturbations, in addition to these features, entanglement exists between the created pairs. This uniquely quantum feature cannot be easily argued away. Indeed it could be our best hope to retroduce the quantum nature of cosmological perturbations and the trace of an inflaton field. All this point to the fact that a closed quantum system, even when highly squeezed, evolves unitarily without loss of coherence; quantum cosmological perturbations do not by itself decohere.
翻訳日:2023-03-05 03:21:15 公開日:2022-01-04
# 分子と原子のボース-アインシュタイン凝縮のコヒーレント反応:可積分モデル

Coherent reaction between molecular and atomic Bose-Einstein condensates: integrable model ( http://arxiv.org/abs/2112.12302v2 )

ライセンス: Link先を確認
Rajesh K. Malla, Vladimir Y. Chernyak, Chen Sun, and Nikolai A. Sinitsyn(参考訳) 我々は、超低温ボソニック原子と分子間の刺激的変換を記述するモデルを解く。 この反応は、フェシュバッハ共鳴全体の線形時間依存的な遷移によって引き起こされる。 我々の解は、遷移速度に対する反応効率の非指数依存性を動的相転移で予測する。 生成相は遷移速度によって定義された温度で熱化されたエネルギー分布を持つことができる。 しかし、この位相は強い純粋に量子相関を持つ。

We solve a model that describes a stimulated conversion between ultracold bosonic atoms and molecules. The reaction is triggered by a linearly time-dependent transition throughout the Feshbach resonance. Our solution predicts a nonexponential dependence, with a dynamic phase transition, of the reaction efficiency on the transition rate. We find that the emerging phase can have a thermalized energy distribution with the temperature defined by the rate of the transition. This phase, however, has strong purely quantum correlations.
翻訳日:2023-03-03 18:06:38 公開日:2022-01-04
# 周波数コムに基づく実装プロトコルを用いた光Schr\"{o}dinger cat状態の増幅

Amplification of optical Schr\"{o}dinger cat states with implementation protocol based on frequency comb ( http://arxiv.org/abs/2112.13791v2 )

ライセンス: Link先を確認
Hongbin Song, Guofeng Zhang, Xiaoqiang Wang, Hidehiro Yonezawa, Kaiquan Fan(参考訳) フォック状態, 圧縮真空状態, 条件測定値の線形演算に基づいて, 大型schr\"{o}dinger cat状態を生成する手法を提案し, 解析を行った。 光子数検出器を介して条件測定を行うことで、ビームスプリッターと組み合わせた2つの不均衡なシュルンディンガー子猫状態は、同じパリティの大型猫状態に増幅することができる。 シミュレーション結果によれば、1フォトンで差し引かれたスクイズド真空状態から生成される2つのschr\"{o}dingerodedkitten状態は$\beta=1.06$と$\beta=1.11$であり、$f=99\%$で$\beta=1.73$の奇妙な猫状態へと増幅される。 大きめのSchr\"{o}dinger奇猫状態と$\beta=2.51$と$F=97.30\%$は、入力された圧縮真空状態が$-5.91dBに増加すると予測される。 実験における不完全性の影響の分析によると、Schr\"{o}dinger odd cat state of $\beta>2$が利用可能である。 提案した大規模猫状態生成方式を実現するために,量子周波数コムに基づく実現可能な構成法を開発した。

We proposed and analyzed a scheme to generate large-size Schr\"{o}dinger cat states based on linear operations of Fock states and squeezed vacuum states and conditional measurements. By conducting conditional measurements via photon number detectors, two unbalanced Schr\"{o}dinger kitten states combined by a beam splitter can be amplified to a large-size cat state with the same parity. According to simulation results, two Schr\"{o}dinger odd kitten states of $\beta=1.06$ and $\beta=1.11$ generated from one-photon-subtracted squeezed vacuum states of $-$3 dB, are amplified to an odd cat state of $\beta=1.73$ with a fidelity of $F=99\%$. A large-size Schr\"{o}dinger odd cat state with $\beta=2.51$ and $F=97.30\%$ is predicted when the input squeezed vacuum states are increased to $-$5.91 dB. According to the analysis on the impacts of experimental imperfections in practice, Schr\"{o}dinger odd cat states of $\beta>2$ are available. A feasible configuration based on a quantum frequency comb is developed to realize the large-size cat state generation scheme we proposed.
翻訳日:2023-03-03 03:45:41 公開日:2022-01-04
# 量子参照フレームの階層としてのニューロン

Neurons as hierarchies of quantum reference frames ( http://arxiv.org/abs/2201.00921v1 )

ライセンス: Link先を確認
Chris Fields, James F. Glazebrook and Michael Levin(参考訳) ニューロンの概念と数学的モデルは、数十年間経験的理解に遅れを取ってきた。 ここでは,完全なスケールに依存しない量子情報理論ツールを用いて生体システムをモデル化し,シナプスの均一でスケーラブルな表現,樹状および軸索のプロセス,ニューロン,およびニューロンの局所ネットワークを構築する。 この表現において、量子参照フレームの階層は階層的アクティブ推論システムとして機能する。 その結果,シナプス活動,デンドリティックリモデリング,トロフィー報酬の相関関係の予測が可能となった。 発達的および再生的文脈において、このモデルがどのように非神経細胞や組織に一般化されるのかを概説する。

Conceptual and mathematical models of neurons have lagged behind empirical understanding for decades. Here we extend previous work in modeling biological systems with fully scale-independent quantum information-theoretic tools to develop a uniform, scalable representation of synapses, dendritic and axonal processes, neurons, and local networks of neurons. In this representation, hierarchies of quantum reference frames act as hierarchical active-inference systems. The resulting model enables specific predictions of correlations between synaptic activity, dendritic remodeling, and trophic reward. We summarize how the model may be generalized to nonneural cells and tissues in developmental and regenerative contexts.
翻訳日:2023-03-02 07:54:50 公開日:2022-01-04
# ファノ共鳴による散逸過程の解明とX線空洞における集団効果

Probing dissipation process via Fano resonance and collective effect in the X-ray cavity ( http://arxiv.org/abs/2201.01098v1 )

ライセンス: Link先を確認
Tian-Jun Li, Xin-Chao Huang, Zi-Ru Ma, Bo Li and Lin-Fan Zhu(参考訳) 時間反転対称性がない場合、ファノ共鳴の非対称パラメータ q は複素空間に拡張され、その軌道を利用してデコヒーレンス過程を研究することができる。 本研究において、m$\ddot{\rm{o}}$ssbauer核のアンサンブルを薄膜平面空洞に埋め込むことにより、非対称パラメータqの軌道は、核存在量と角度オフセットによって制御される核アンサンブルの集団効果によって研究される。 集合共振強度の様々な制御可能な方法により、複素平面には異なる直線と弧状の軌道があり、角度オフセットと核量によって傾斜と半径をそれぞれ調整することができる。 散逸過程は空洞と核アンサンブルの間の強いエネルギー交換によって同等に抑制できることが示されている。 その結果, 複素平面における非対称パラメータqの挙動が向上し, 薄膜平面キャビティによる非干渉研究に新たな可能性が示唆された。

In the absence of time-reversal symmetry, the asymmetric parameter q of the Fano resonance is extended into the complex space, where its trajectory can be utilized to investigate the decoherence process. By embedding the ensemble of M$\ddot{\rm{o}}$ssbauer nuclei in the thin-film planar cavity in this work, the trajectories of asymmetric parameter q are studied via the collective effect of the nuclear ensemble, which is regulated by the nuclear abundance and angle offset. Due to the diverse controllable methods of the collective resonant strength, there are different straight lines and arc-shape trajectories in the complex plane, in which the slopes and the radius can be respectively adjusted by the angle offset and nuclear abundance. It is demonstrated that the dissipation process can be suppressed equivalently by the strong energy exchange between the cavity and nuclear ensemble. The present results could enrich the behaviors of the asymmetric parameter q in the complex plane and would provide new possibility for the decoherence research through the thin-film planar cavity.
翻訳日:2023-03-02 07:52:39 公開日:2022-01-04
# 非慣性フレームにおけるN粒子粒子の量子コヒーレンスと分布

Quantum coherence and distribution of N-partite bosonic fields in noninertial frame ( http://arxiv.org/abs/2201.00986v1 )

ライセンス: Link先を確認
Shu-Min Wu, Hao-Sheng Zeng, Hui-Min Cao(参考訳) 任意の加速度オブザーバ数を持つ非慣性フレームにおけるボゾン場の量子コヒーレンスとそのN粒子GHZおよびW状態の分布について検討する。 GHZ 状態と W 状態のコヒーレンスは、無限加速の極限で加速と凍結によって減少する。 コヒーレンスの凍結値は加速された観測者の数に依存する。 n-partite ghz状態のコヒーレンスは本当にグローバルであり、どのサブシステムにもコヒーレンスは存在しない。 しかし、n-成分w状態の場合、コヒーレンスは本質的に二成分型であり、全コヒーレンスは全二成分サブシステムのコヒーレンス和に等しい。

We study the quantum coherence and its distribution of N-partite GHZ and W states of bosonic fields in the noninertial frames with arbitrary number of acceleration observers. We find that the coherence of both GHZ and W state reduces with accelerations and freezes in the limit of infinite accelerations. The freezing value of coherence depends on the number of accelerated observers. The coherence of N-partite GHZ state is genuinely global and no coherence exists in any subsystems. For the N-partite W state, however, the coherence is essentially bipartite types, and the total coherence is equal to the sum of coherence of all the bipartite subsystems.
翻訳日:2023-03-02 07:51:12 公開日:2022-01-04
# 非マルコフ量子系の軌道追跡

Trajectory tracking for non-Markovian quantum systems ( http://arxiv.org/abs/2201.00940v1 )

ライセンス: Link先を確認
S. L. Wu and W. Ma(参考訳) 時間畳み込みのない非マルコフマスター方程式によって支配される量子系の量子状態を設計するための体系的スキームを提案する。 逆エンジニアリングの考え方によれば、コヒーレントや非コヒーレントな制御場などの制御パラメータを決定する一般代数方程式が提示される。 時間依存の崩壊速度を人工的に工学し、環境が引き起こしたラムシフトを保たなければ、量子状態はヒルベルト空間の厳密な任意の設計軌道に沿って有限時間で目標状態に移すことができる。 その結果,本手法を駆動する2レベル非マルコフ系に適用し,瞬時定常状態追跡と制御パラメータを用いた完全集団反転を実現する。

We propose a systematic scheme to engineer quantum states of a quantum system governed by a time-convolutionless non-Markovian master equation. According to the idea of reverse engineering, the general algebraic equation to determine the control parameters, such as coherent and incoherent control fields, is presented. Without artificially engineering the time-dependent decay rates and retaining the environment-induced Lamb shifts, the quantum state can still be transferred into the target state in a finite period of time along an arbitrary designed trajectory strictly in Hilbert space. As an application, we apply our scheme to a driven two-level non-Markovian system and realize instantaneous-steady-state tracking and a complete population inversion with control parameters which are available in experimental settings.
翻訳日:2023-03-02 07:50:25 公開日:2022-01-04
# 偏光依存損失の存在下での安全な量子鍵分布実験

Experimental secure quantum key distribution in presence of polarization-dependent loss ( http://arxiv.org/abs/2201.00936v1 )

ライセンス: Link先を確認
Chunfeng Huang, Ye Chen, Long Jin, Minming Geng, Junwei Wang, Zhenrong Zhang, and Kejin Wei(参考訳) 量子鍵分布 (qkd) は量子力学の原理を用いて理論的に安全であるため、qkdは安全な通信の将来に有望な解決策である。 QKDの実験的実証はいくつか報告されているが、鍵レート推定における状態生成における偏極依存的な損失は考慮されていない。 本研究では,実状態準備装置における偏光依存損失を実験的に同定し,ファイバおよびシリコン系偏光変調器にかなりのpdlが存在することを確認した。 したがって、鍵レート過大評価のため、このようなQKDシステムのセキュリティは損なわれる。 さらに,偏光依存損失を考慮したデコイ状態BB84QKD実験を報告する。 最後に,最近提案されたセキュリティ証明を適用し,最大75kmのファイバリンクの厳密な有限鍵セキュリティを実現した。 本研究は、従来の実験よりも現実的な音源欠陥を考慮し、不完全な実用機器を備えた安全なQKDの実現に不可欠である。

Quantum key distribution (QKD) is theoretically secure using the principle of quantum mechanics; therefore, QKD is a promising solution for the future of secure communication. Although several experimental demonstrations of QKD have been reported, they have not considered the polarization-dependent loss in state preparation in the key-rate estimation. In this study, we experimentally characterized polarization-dependent loss in realistic state-preparation devices and verified that a considerable PDL exists in fiber- and silicon-based polarization modulators. Hence, the security of such QKD systems is compromised because of the secure key rate overestimation. Furthermore, we report a decoy-state BB84 QKD experiment considering polarization-dependent loss. Finally, we achieved rigorous finite-key security bound over up to 75 km fiber links by applying a recently proposed security proof. This study considers more realistic source flaws than most previous experiments; thus, it is crucial toward a secure QKD with imperfect practical devices.
翻訳日:2023-03-02 07:50:10 公開日:2022-01-04
# 超伝導プロセッサ上での量子回路アーキテクチャ探索

Quantum circuit architecture search on a superconducting processor ( http://arxiv.org/abs/2201.00934v1 )

ライセンス: Link先を確認
Kehuan Linghu, Yang Qian, Ruixia Wang, Meng-Jun Hu, Zhiyuan Li, Xuegang Li, Huikai Xu, Jingning Zhang, Teng Ma, Peng Zhao, Dong E. Liu, Min-Hsiu Hsieh, Xingyao Wu, Yuxuan Du, Dacheng Tao, Yirong Jin, and Haifeng Yu(参考訳) 変分量子アルゴリズム(VQA)は、金融、機械学習、化学といった様々な分野において、証明可能な計算上の優位性を得るための強力な証拠を示している。 しかし、現代のVQAで利用されるヒューリスティックアンサッツは、表現性と訓練性の間のトレードオフのバランスが取れないため、ノイズの多い中間スケール量子(NISQ)マシン上で実行された場合、性能が劣化する可能性がある。 この問題に対処するために、量子アーキテクチャサーチ(QAS)と呼ばれる効率的な自動アンサッツ設計技術を適用して、8量子量子量子プロセッサ上でのVQAを強化する最初の実証実験を示す。 特に、ハードウェア効率のよいアザッツを分類タスクに合わせるためにQASを適用する。 ヒューリスティックなansatzeと比較して、qasが設計したansatzはテスト精度を31%から98%に向上させる。 さらに,ロスランドスケープを可視化し,すべてのアンサットの有効パラメータを分析することにより,この優れた性能をさらに説明する。 本研究は,様々な大規模量子学習問題に取り組むための変数 ansatze の開発のための具体的ガイダンスを提供する。

Variational quantum algorithms (VQAs) have shown strong evidences to gain provable computational advantages for diverse fields such as finance, machine learning, and chemistry. However, the heuristic ansatz exploited in modern VQAs is incapable of balancing the tradeoff between expressivity and trainability, which may lead to the degraded performance when executed on the noisy intermediate-scale quantum (NISQ) machines. To address this issue, here we demonstrate the first proof-of-principle experiment of applying an efficient automatic ansatz design technique, i.e., quantum architecture search (QAS), to enhance VQAs on an 8-qubit superconducting quantum processor. In particular, we apply QAS to tailor the hardware-efficient ansatz towards classification tasks. Compared with the heuristic ansatze, the ansatz designed by QAS improves test accuracy from 31% to 98%. We further explain this superior performance by visualizing the loss landscape and analyzing effective parameters of all ansatze. Our work provides concrete guidance for developing variable ansatze to tackle various large-scale quantum learning problems with advantages.
翻訳日:2023-03-02 07:49:57 公開日:2022-01-04
# フォン・ノイマンの著書『コンプトン・サイモン実験と崩壊仮説』

Von Neumann's book, the Compton-Simon experiment and the collapse hypothesis ( http://arxiv.org/abs/2201.01299v1 )

ライセンス: Link先を確認
R. N. Sen(参考訳) 物理学において、フォン・ノイマンの崩壊仮説ほど多くの手洗いを引き起こしているものはほとんどない。 数学的に導出できず、フォン・ノイマンはそれを観察者の脳との相互作用に帰した。 物理学者はほとんど同意しなかったが、フォン・ノイマンの測定理論の微調整は崩壊に至らず、下谷とブラウンは「量子測定問題の解法」を確立する定理を証明した。 量子力学の多くの異なる「解釈」が提唱されたが、合意は得られず、一部の学者は量子力学の基礎に欠陥があることを示唆した。 しかし、過去90年間、フォン・ノイマンが崩壊仮説に到達した現在、誰も調査していない。 フォン・ノイマンの主張はコンプトンとサイモンの実験に基づいている。 しかし、フォン・ノイマンの本とコンプトン・シモンの論文の読みを比較することで、この実験は崩壊仮説の証拠を提供していないことが判明した。 我々は、フォン・ノイマンが印刷したコンプトン・サイモン紙ではなく、彼の驚くべき記憶に頼っていたことを示唆し、彼の記憶は一度も失敗していた。 私たちの発見は物理学に相当な意味を持ち、ここで簡単にスケッチしておきます。 Appendixは物理学の歴史学者にいくつかの疑問を投げかける。

Few things in physics have caused so much hand-wringing as von Neumann's collapse hypothesis. Unable to derive it mathematically, von Neumann attributed it to interaction with the observer's brain! Few physicists agreed, but tweaks of von Neumann's measurement theory did not lead to collapse, and Shimony and Brown proved theorems establishing `the insolubility of the quantum measurement problem'. Many different `interpretations' of quantum mechanics were put forward, none gained a consensus, and some scholars suggested that the foundations of quantum mechanics were flawed to begin with. Yet, in the last ninety years, no-one looked into now von Neumann had arrived at his collapse hypothesis! Von Neumann based his argument on the experiment of Compton and Simon. But, by comparing readings from von Neumann's book and the Compton-Simon paper, we find that the experiment provides no evidence for the collapse hypothesis; von Neumann had misread it completely! We suggest that von Neumann had relied on his phenomenal memory rather than the printed Compton-Simon paper, and his memory had failed him for once. Our finding has considerable implications for physics, which -- briefly sketched here -- will be discussed elsewhere in detail. An Appendix raises some questions for historians of physics.
翻訳日:2023-03-02 07:44:05 公開日:2022-01-04
# 量子トンネル共鳴による電子と核スピンの結合促進

Enhanced coupling of electron and nuclear spins by quantum tunneling resonances ( http://arxiv.org/abs/2201.01255v1 )

ライセンス: Link先を確認
Anatoli Tsinovoy, Or Katz, Arie Landau, and Nimrod Moiseyev(参考訳) noble-gasは環境からの隔離性が強いため、数時間のコヒーレンスタイムを特徴とし、様々な用途で実用的な用途を見出す。 しかし、この分離は極端に遅い準備時間をもたらし、電子スピンのアンサンブルからの弱いスピン移動に依存する。 本稿では、この転送率を高めるための制御可能なメカニズムを提案する。 熱光励起カリウム原子によるヘリウム3原子のスピンダイナミクスを解析し、共鳴二元衝突における準結合状態の形成を明らかにする。 スピン交換断面積を最大6等級と2等級に拡張し、熱的に平均された分極速度を効率良くした。 さらに, 様々な希ガスの影響について検討し, 拡張性は普遍的であることを示す。 本報告では, 拡張を実験的に観察し, 効果的に活用できる条件について概説する。

Noble-gas spins feature hours long coherence times owing to their great isolation from the environment, and find practical usage in various applications. However, this isolation leads to extremely slow preparation times, relying on weak spin transfer from an electron-spin ensemble. Here we propose a controllable mechanism to enhance this transfer rate. We analyze the spin dynamics of helium-3 atoms with hot, optically-excited potassium atoms and reveal the formation of quasi-bound states in resonant binary collisions. We find a resonant enhancement of the spin-exchange cross section by up to six orders of magnitude and two orders of magnitude enhancement for the thermally averaged, polarization rate-coefficient. We further examine the effect for various other noble gases and find that the enhancement is universal. We outline feasible conditions under which the enhancement may be experimentally observed and practically utilized.
翻訳日:2023-03-02 07:43:42 公開日:2022-01-04
# 導入型プログラミングモジュールのフィードバックと関与

Feedback and Engagement on an Introductory Programming Module ( http://arxiv.org/abs/2201.01240v1 )

ライセンス: Link先を確認
Beate Grawemeyer, John Halloran, Matthew England and David Croft(参考訳) 自動フィードバックを生成するタスクを含むオンライン学習環境を利用した1年生プログラミングモジュールの参加と達成に関する研究を行った。 学生は従来の研究室からのフィードバックにもアクセスできる。 参加と達成に関する定量的なデータを集め,コホートを6つのグループに分割することができた。 そして、モジュールの終了後、学生とインタビューを行い、フィードバックが何であるか、どの程度役に立つのか、その利用方法、そしてエンゲージメントにどのように影響するかについての質的データを作成した。 一般的な発見は、人間と自動化されたフィードバックは異なるが相補的であることだ。 しかし、グループごとに異なるフィードバックニーズがある。 1)人間によるフィードバックのブレンドアプローチがエンゲージメントを向上させること,(2)このアプローチは学生の種類に応じて差別化する必要があること,の2点が示唆された。 プログラミングモジュールに対するフィードバックの設計に意味を与えます。

We ran a study on engagement and achievement for a first year undergraduate programming module which used an online learning environment containing tasks which generate automated feedback. Students could also access human feedback from traditional labs. We gathered quantitative data on engagement and achievement which allowed us to split the cohort into 6 groups. We then ran interviews with students after the end of the module to produce qualitative data on perceptions of what feedback is, how useful it is, the uses made of it, and how it bears on engagement. A general finding was that human and automated feedback are different but complementary. However there are different feedback needs by group. Our findings imply: (1) that a blended human-automated feedback approach improves engagement; and (2) that this approach needs to be differentiated according to type of student. We give implications for the design of feedback for programming modules.
翻訳日:2023-03-02 07:43:28 公開日:2022-01-04
# 深層学習における離散的・連続的表現と処理

Discrete and continuous representations and processing in deep learning: Looking forward ( http://arxiv.org/abs/2201.01233v1 )

ライセンス: Link先を確認
Ruben Cartuyvels, Graham Spinks, Marie-Francine Moens(参考訳) コンテンツ(例えば言語や画像)の離散的かつ連続的な表現は、機械によるこの内容の理解や推論のために探求すべき興味深い性質を持っている。 本稿では,ディープラーニング分野における離散表現と連続表現の役割とその処理について考察する。 現在のニューラルネットワークモデルは、連続値データを計算する。 情報は密集した分散埋め込みに圧縮される。 対照的に、人間は言語とのコミュニケーションにおいて個別のシンボルを使用する。 このようなシンボルは、共有された文脈情報からその意味を導き出す世界の圧縮されたバージョンを表す。 さらに人間の推論には、抽象的な推論、知識と理解の合成、一般化、効率的な学習を促進する認知レベルでの記号操作が含まれる。 これらの知見に動機づけられた本論文では、離散的かつ連続的な表現とそれらの処理を組み合わせることが、汎用的なインテリジェンスを示すシステムを構築する上で不可欠であると論じる。 両タイプの表現の利点を組み合わせるために、離散要素を含めることで、現在のニューラルネットワークを改善するいくつかの方法を提案し、議論する。

Discrete and continuous representations of content (e.g., of language or images) have interesting properties to be explored for the understanding of or reasoning with this content by machines. This position paper puts forward our opinion on the role of discrete and continuous representations and their processing in the deep learning field. Current neural network models compute continuous-valued data. Information is compressed into dense, distributed embeddings. By stark contrast, humans use discrete symbols in their communication with language. Such symbols represent a compressed version of the world that derives its meaning from shared contextual information. Additionally, human reasoning involves symbol manipulation at a cognitive level, which facilitates abstract reasoning, the composition of knowledge and understanding, generalization and efficient learning. Motivated by these insights, in this paper we argue that combining discrete and continuous representations and their processing will be essential to build systems that exhibit a general form of intelligence. We suggest and discuss several avenues that could improve current neural networks with the inclusion of discrete elements to combine the advantages of both types of representations.
翻訳日:2023-03-02 07:43:12 公開日:2022-01-04
# メソスコピック系におけるブロイ二重溶液の試験

Testing de Broglie's double solution in the mesoscopic regime ( http://arxiv.org/abs/2201.01204v1 )

ライセンス: Link先を確認
Thomas Durt(参考訳) ここでは、任意の線型外部ポテンシャルが存在する非線形シュレーディンガー方程式の解を示す。 非線形性は自己焦点相互作用を表現する。 これらの解は、1926年にルイ・ド・ブロイ(Louis de Broglie)によって導かれた誘導方程式に従う速度のピークソリトンを持つパイロット波の積である。 ソリトンのサイズが小さくなり,パイロット波が変動する典型的な大きさに比べて無視されてしまうと,近似の妥当性は増大する。 メソスコピックシステムにおいて, ハンプティダンプティStern-Gerlach干渉計を実装することにより, それらの存在を明らかにする可能性について議論する。

We present here solutions of a non-linear Schroedinger equation in presence of an arbitrary linear external potential. The non-linearity expresses a self-focusing interaction. These solutions are the product of the pilot wave with peaked solitons the velocity of which obeys the guidance equation derived by Louis de Broglie in 1926. The degree of validity of our approximations increases when the size of the soliton decreases and becomes negligible compared to the typical size over which the pilot wave varies. We discuss the possibility to reveal their existence by implementing a humpty-dumpty Stern-Gerlach interferometer in the mesoscopic regime.
翻訳日:2023-03-02 07:42:25 公開日:2022-01-04
# 非相互作用光子エミッタアレイからの高次元絡み合い生成プロトコル

Protocol for generation of high-dimensional entanglement from an array of non-interacting photon emitters ( http://arxiv.org/abs/2201.01179v1 )

ライセンス: Link先を確認
Thomas J. Bell, Jacob F. F. Bulmer, Alex E. Jones, Stefano Paesani, Dara P. S. McCutcheon, Anthony Laing(参考訳) 高次元量子情報を単一光子に符号化することは、ノイズレジリエンスの改善など、量子技術に様々な利点をもたらす。 しかし、オンデマンドの高次元エンタングルメントの効率的な生成は、現在および近未来のフォトニック量子技術では手が届かないと考えられていた。 我々は,N$- Photon,$d$-dimensional Photonic Greenberger-Horne-Zeilinger(GHZ)状態のほぼ決定論的生成のためのプロトコルを,$d$非相互作用単光子エミッタの配列を用いて提案する。 我々は、光子スペクトルの識別性や時間的ミスマッチなどの量子エミッタの共通誤差源の性能への影響を分析し、時間分解検出により容易に補正でき、複数のクアディットの高忠実度GHZ状態が得られることを示した。 量子鍵分布シナリオに適用すると、バイナリエンコーディングを超えて次元を増加させる際の損失耐性と鍵レートが向上する。

Encoding high-dimensional quantum information into single photons can provide a variety of benefits for quantum technologies, such as improved noise resilience. However, the efficient generation of on-demand, high-dimensional entanglement was thought to be out of reach for current and near-future photonic quantum technologies. We present a protocol for the near-deterministic generation of $N$-photon, $d$-dimensional photonic Greenberger-Horne-Zeilinger (GHZ) states using an array of $d$ non-interacting single-photon emitters. We analyse the impact on performance of common sources of error for quantum emitters, such as photon spectral distinguishability and temporal mismatch, and find they are readily correctable with time-resolved detection to yield high fidelity GHZ states of multiple qudits. When applied to a quantum key distribution scenario, our protocol exhibits improved loss tolerance and key rates when increasing the dimensionality beyond binary encodings.
翻訳日:2023-03-02 07:42:13 公開日:2022-01-04
# 実験室での不正行為の防止

Preventing Cheating in Hands-on Lab Assignments ( http://arxiv.org/abs/2201.01154v1 )

ライセンス: Link先を確認
Jan Vykopal, Valdemar \v{S}v\'abensk\'y, Pavel Seda, Pavel \v{C}eleda(参考訳) ネットワーク、オペレーティングシステム、サイバーセキュリティスキルは、真正な環境において最も適している。 学生は実験室環境で実際のシステムやツールを使い、割り当てられたタスクを完了します。 すべての生徒が同じ課題を受講するので、インストラクターや指導システム、あるいは仲間とアプローチや進捗を相談することができる。 また、インターネット上の情報を検索することもできる。 授業中のすべての生徒に同じ課題を課すことは、学習とスキル開発に効率的である。 しかし、次級の宿題や中等試験、最終試験など、要約的な評価で使うと不正行為をしがちである。 学生は宿題を終えることなく、簡単に解答を共有して提出することができる。 本稿では,コンピュータラボ環境でのハンズオン作業における自動問題生成手法について述べる。 このアプローチを用いて、各生徒はパーソナライズされたタスクを受け取る。 パーソナライズされたタスクを生成・提出するためのソフトウェアを開発し,ケーススタディを実施した。 このソフトウェアは、207人の学生が登録した入門セキュリティコースで宿題の作成と評価に使用された。 このソフトウェアは、不審な提出の7つのケースを明らかにした。 さらに、学生やインストラクターはパーソナライズされた課題を歓迎した。 インストラクターは、このアプローチは大きなクラスでうまくスケールできるとコメントした。 学生はパーソナライズされた研究室環境を実行している間に問題に遭遇することは滅多にない。 最後に、他の教育者がコースや学習環境で使用できるように、オープンソースソフトウェアをリリースしました。

Networking, operating systems, and cybersecurity skills are exercised best in an authentic environment. Students work with real systems and tools in a lab environment and complete assigned tasks. Since all students typically receive the same assignment, they can consult their approach and progress with an instructor, a tutoring system, or their peers. They may also search for information on the Internet. Having the same assignment for all students in class is standard practice efficient for learning and developing skills. However, it is prone to cheating when used in a summative assessment such as graded homework, a mid-term test, or a final exam. Students can easily share and submit correct answers without completing the assignment. In this paper, we discuss methods for automatic problem generation for hands-on tasks completed in a computer lab environment. Using this approach, each student receives personalized tasks. We developed software for generating and submitting these personalized tasks and conducted a case study. The software was used for creating and grading a homework assignment in an introductory security course enrolled by 207 students. The software revealed seven cases of suspicious submissions, which may constitute cheating. In addition, students and instructors welcomed the personalized assignments. Instructors commented that this approach scales well for large classes. Students rarely encountered issues while running their personalized lab environment. Finally, we have released the open-source software to enable other educators to use it in their courses and learning environments.
翻訳日:2023-03-02 07:41:54 公開日:2022-01-04
# 3モード系に基づく複合光子遮断

Compound photon blockade based on three mode system ( http://arxiv.org/abs/2201.01127v1 )

ライセンス: Link先を確認
Hongyu Lin(参考訳) 4つの波動混合に基づいて3モード非線形システムを提案する。 単一光子遮断は解析解析と数値計算によって議論される。 解析解析の結果,従来の光子遮断と非伝統的な光子遮断は同時に実現でき,また2種類の光子遮断の分析条件は同じであることがわかった。 その結果, 本システムは遮断領域に最大平均光子数を持つだけでなく, 非線形結合係数の小さい領域に強い光子反束を持つことができ, システムの実験的難易度を大幅に低減できることがわかった。 複合光子遮断効果を実現できる光学系は、高純度単一光子源を実現するのに有用である。

Based on the four wave mixing, a three mode nonlinear system is proposed. The single photon blockade is discussed through analytical analysis and numerical calculation. The analytical analysis shows that the conventional photon blockade and unconventional photon blockade can be realized at the same time, and the analytical conditions of the two kinds of blockade are the same. The numerical results show that the system not only has the maximum average photon number in the blockade region, but also can have strong photon anti-bunching in the region with small nonlinear coupling coefficient, which greatly reduces the experimental difficulty of the system. This optical system which can realize the compound photon blockade effect is helpful to realize the high-purity single photon source.
翻訳日:2023-03-02 07:41:02 公開日:2022-01-04
# 四元数質量を持つ量子力学

Quantum mechanics with quaternionic mass ( http://arxiv.org/abs/2201.13239v1 )

ライセンス: Link先を確認
A. I. Arbab(参考訳) 四元数質量の量子力学を考察する。 四元質量を持つ運動量固有値方程式は、縦質量と横質量からなる質量を持つクライン・ゴルドン方程式を生成する。 スカラー場の総質量はこれらの質量の合計であることが分かる。 この場は、線形運動量を保存する2つの部分場に接続されているように見える。 実質量を持つ粒子は量子テレグラフ方程式を満たすのに対し、四元数質量を持つ粒子はクライン=ゴードン方程式を満たす。 粒子に作用する量子力は、その速度に比例する。 磁場が電磁場に結合されるとき、粒子のエネルギーにおける追加用語は、粒子の角運動量と磁場との相互作用を反映しているように見える。

Quantum mechanics with quaternionic mass is considered. The momentum eigen-value equation with quaternionic mass yields the Klein-Gordon equation with a mass consisting of longitudinal and traverse masses. The scalar field total mass is found to be a sum of these masses. This field appears to be connected with two subfields conserving linear momentum. It is found that a particle with real mass satisfies the quantum Telegraph equation, whereas that one with quaternionic mass satisfies the Klein-Gordon equation. A quantum force acting on the particle is found to be proportional to its velocity. When the particle field is coupled to an electromagnetic field, an additional term in the particle's energy appears reflecting the interaction of the particle's angular momentum with the magnetic field.
翻訳日:2023-03-02 07:33:32 公開日:2022-01-04
# 固定点量子モンテカルロ

Fixed Point Quantum Monte Carlo ( http://arxiv.org/abs/2201.01383v1 )

ライセンス: Link先を確認
Romain Chessex, Massimo Borrelli, Hans Christian \"Ottinger(参考訳) 我々は多体量子物理学における平衡特性の研究に新しいアプローチを提案する。 本手法は密度行列量子モンテカルロからインスピレーションを得て,新しい重要な特徴を取り入れている。 まず第一に、力学はラプラス表現に変換され、そこでは正確な方程式が導出され、ほとんどのモンテカルロ法とは異なり、事前の物理的有界でないシミュレーションステップで解かれる。 さらに、発生イベントは量子マスター方程式の2過程の確率的解法(英語版)によって定式化され、密度行列を扱う際に特に有用である。 そして最後に、これは自由部分を正確に統合し、相互作用パラメータが小さい場合に収束率を大きく増加させることができる相互作用図と等価である。 本手法を凝縮物物理学における2つのケーススタディに適用し,その精度を示し,さらにその効率性について検討した。

We present a new approach to the study of equilibrium properties in many-body quantum physics. Our method takes inspiration from Density Matrix Quantum Monte Carlo and incorporates new crucial features. First of all, the dynamics is transferred to the Laplace representation where an exact equation can be derived and solved using a simulation-step that, unlike most Monte Carlo methods, is not a priori physically bounded. Moreover, the spawning events are formulated in terms of two-process stochastic unravellings of quantum master equations, a formalism that is particularly useful when working with density matrices. And last, this is equivalent to an interaction picture, where the free part is integrated exactly and the convergence rate can be greatly increased if the interaction parameter is small. We benchmark our method by applying it to two case-studies in condensed matter physics, show its accuracy and further discuss its efficiency.
翻訳日:2023-03-02 07:33:21 公開日:2022-01-04
# 人体移動における予測可能性

Predictability states in human mobility ( http://arxiv.org/abs/2201.01376v1 )

ライセンス: Link先を確認
Diogo Pacheco, Marcos Oliveira, Zexun Chen, Hugo Barbosa, Brooke Foucault-Welles, Gourab Ghoshal, Ronaldo Menezes(参考訳) 時空間的制約と社会構造の組み合わせは、人間の移動パターンに対して流動的な予測可能性を生み出す可能性がある。 したがって、人体移動の予測可能性は非単調であり、この時空間的文脈によって異なる。 ここでは、人間の移動性の予測可能性は、個人の静的特性ではなく、状態であることを示す。 まず、時間(週)が、訪問する場所のシーケンスよりも人々の居場所を説明していることを示します。 そして、予測可能性は時間に依存するだけでなく、個人が関与している活動の種類にも依存し、人間の移動における文脈の重要性が確立されることを示す。

Spatio-temporal constraints coupled with social constructs have the potential to create fluid predictability to human mobility patterns. Accordingly, predictability in human mobility is non-monotonic and varies according to this spatio-socio-temporal context. Here, we propose that the predictability in human mobility is a {\em state} and not a static trait of individuals. First, we show that time (of the week) explains people's whereabouts more than the sequences of locations they visit. Then, we show that not only does predictability depend on time but also the type of activity an individual is engaged in, thus establishing the importance of contexts in human mobility.
翻訳日:2023-03-02 07:33:06 公開日:2022-01-04
# パラメトリック増幅におけるポンプの枯渇

Pump Depletion in Parametric Amplification ( http://arxiv.org/abs/2201.01372v1 )

ライセンス: Link先を確認
Wanli Xing and T.C.Ralph(参考訳) 我々は、相互作用強度において2階に正しいが全てのポンプ振幅に対して有効であるトリ線形パラメトリックハミルトニアンの下でハイゼンベルク進化の解析解を導出する。 このソリューションは、実験的なシナリオにおけるパラメトリック増幅の記述にポンプの消耗効果を組み込むことができ、結果として生じる新しい現象を厳格に記述することができる。

We derive analytic solutions for Heisenberg evolution under the trilinear parametric Hamiltonian which are correct to second order in the interaction strength but are valid for all pump amplitudes. The solutions allow pump depletion effects to be incorporated in the description of parametric amplification in experimentally relevant scenarios and the resulting new phenomena to be rigorously described.
翻訳日:2023-03-02 07:32:56 公開日:2022-01-04
# キャビティ量子電磁力学における凝縮物質系

Condensed Matter Systems in Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2201.01331v1 )

ライセンス: Link先を確認
Vasil Rokaj(参考訳) 凝縮物質物理学と量子電磁力学(qed)は長い間、異なる分野と見なされてきた。 この状況は空洞QED材料の進展によって変化している。 これらの進歩に動機づけられた私たちは、双方の基本的な概念を融合させることで、これらの分野を橋渡しすることを目指している。 論文の前半では、非相対論的QEDがいかに構築可能かを示し、異なるゲージにおける光-物質相互作用を議論し、特定の二次項を無視することは不安定性をもたらす。 第2部では、空洞QEDにおける自由電子ガスのソマーフェルトモデルを再検討し、空洞に結合したこのパラダイム系の解析解を提供する。 キャビティ場は電子ガスの光伝導率を変化させ、ドリュードピークを抑制することを示す。 さらに、光子モードの連続体において有効場理論を構築することにより、光子場が電子質量の多体再正規化にどのようにつながり、フェルミ液体のフェルミイオン準粒子励起を修飾するかを示す。 最後に, この問題をQEDに埋め込むことにより, 均一磁場中の周期材料の翻訳対称性を復元可能であることを示す。 これはブロッホの電子-光子系の理論の一般化につながり、我々がqed-ブロッホ理論(qed-bloch theory)と名付けた。 最初の応用として、ランダウ準粒子は空洞と結合し、ランダウ準粒子と光子の間の準粒子励起はランダウ偏光子(Landau polaritons)と呼ばれる。 さらに、このような構成の周期的物質について、qed-bloch理論はフラクタルポラリトンと呼ばれる新しいフラクタルポラリトニックエネルギースペクトルの出現を予測している。 フラクタル・ポラリトン(英: fractal polariton)はホフスタッター・バタフライの極性、QED類似体である。

Condensed matter physics and quantum electrodynamics (QED) have been long considered as distinct disciplines. This situation is changing by the progress in cavity QED materials. Motivated by these advances we aim to bridge these fields by merging fundamental concepts coming from both sides. In the first part of the thesis we present how non-relativistic QED can be constructed and we discuss the light-matter interaction in different gauges and that neglecting particular quadratic terms can lead to instabilities. In the second part, we revisit the Sommerfeld model of the free electron gas in cavity QED and provide the analytic solution for this paradigmatic system coupled to the cavity. We show that the cavity field modifies the optical conductivity of the electron gas and suppresses its Drude peak. Further, by constructing an effective field theory in the continuum of photon modes we show how the photon field leads to a many-body renormalization of the electron mass, which modifies the fermionic quasiparticle excitations of the Fermi liquid. In the last part, we show that translational symmetry for periodic materials in homogeneous magnetic fields can be restored by embedding the problem into QED. This leads to a generalization of Bloch's theory for electron-photon systems, that we named as QED-Bloch theory, which can be applied for the description of periodic materials in homogeneous magnetic fields and strongly coupled to the quantized cavity field. As a first application we consider Landau levels coupled to a cavity and we show that quasiparticle excitations between Landau levels and photons appear, called Landau polaritons. Further, for periodic materials in such setups, QED-Bloch theory predicts the emergence of novel fractal polaritonic energy spectra, which we name as fractal polaritons. The fractal polaritons are a polaritonic, QED analogue of the Hofstadter butterfly.
翻訳日:2023-03-02 07:32:21 公開日:2022-01-04
# Sliced Probability Divergencesの統計的および位相的性質

Statistical and Topological Properties of Sliced Probability Divergences ( http://arxiv.org/abs/2003.05783v3 )

ライセンス: Link先を確認
Kimia Nadjahi, Alain Durmus, L\'ena\"ic Chizat, Soheil Kolouri, Shahin Shahrampour, Umut \c{S}im\c{s}ekli(参考訳) 発散をスライシングするというアイデアは、生成モデリングを含む様々な機械学習アプリケーションにおける2つの確率測度を比較する際に成功し、これら2つの測度の1次元ランダム射影間の「ベース・ダイバージェンス」の期待値を計算することで得られる。 しかし、この手法のトポロジカル、統計、計算結果はまだ十分に確立されていない。 本稿では,このギャップを橋渡しし,スライス確率発散の様々な理論的性質を導出することを目的とする。 まず、スライシングが計量公理と発散の弱連続性を保存することを示し、スライスされた発散が同様の位相的性質を共有することを示唆する。 次に,基本偏差が積分確率測定値のクラスに属する場合の精度を検証した。 一方、軽度条件下では、スライスされた発散のサンプルの複雑さが問題次元に依存しないことを示す。 最終的に、我々の一般的な結果をいくつかの塩基多様性に適用し、合成データと実データ実験の両方で理論を説明する。

The idea of slicing divergences has been proven to be successful when comparing two probability measures in various machine learning applications including generative modeling, and consists in computing the expected value of a `base divergence' between one-dimensional random projections of the two measures. However, the topological, statistical, and computational consequences of this technique have not yet been well-established. In this paper, we aim at bridging this gap and derive various theoretical properties of sliced probability divergences. First, we show that slicing preserves the metric axioms and the weak continuity of the divergence, implying that the sliced divergence will share similar topological properties. We then precise the results in the case where the base divergence belongs to the class of integral probability metrics. On the other hand, we establish that, under mild conditions, the sample complexity of a sliced divergence does not depend on the problem dimension. We finally apply our general results to several base divergences, and illustrate our theory on both synthetic and real data experiments.
翻訳日:2022-12-24 13:56:00 公開日:2022-01-04
# モデル選択と仮説テストのためのマージナル確率計算 : 広範囲なレビュー

Marginal likelihood computation for model selection and hypothesis testing: an extensive review ( http://arxiv.org/abs/2005.08334v4 )

ライセンス: Link先を確認
Fernando Llorente, Luca Martino, David Delgado, Javier Lopez-Santiago(参考訳) これは、モデル選択と仮説テストのための限界確率計算の最新の導入であり、その概要である。 確率モデルの定数(あるいは定数の比率)を正規化する計算は、統計学、応用数学、信号処理、機械学習における多くの応用における基本的な問題である。 この記事では、このトピックの最先端に関する包括的な研究を紹介する。 さまざまなテクニックの制限、メリット、コネクション、差異を強調します。 また、不適切な事前利用の問題や解決法についても述べる。 最も関連する方法論のいくつかは、理論的比較と数値実験によって比較される。

This is an up-to-date introduction to, and overview of, marginal likelihood computation for model selection and hypothesis testing. Computing normalizing constants of probability models (or ratio of constants) is a fundamental issue in many applications in statistics, applied mathematics, signal processing and machine learning. This article provides a comprehensive study of the state-of-the-art of the topic. We highlight limitations, benefits, connections and differences among the different techniques. Problems and possible solutions with the use of improper priors are also described. Some of the most relevant methodologies are compared through theoretical comparisons and numerical experiments.
翻訳日:2022-12-02 06:01:15 公開日:2022-01-04
# 対立的特徴脱感作

Adversarial Feature Desensitization ( http://arxiv.org/abs/2006.04621v3 )

ライセンス: Link先を確認
Pouya Bashivan, Reza Bayat, Adam Ibrahim, Kartik Ahuja, Mojtaba Faramarzi, Touraj Laleh, Blake Aaron Richards, Irina Rish(参考訳) ニューラルネットワークは敵の攻撃に弱いことが知られている -- わずかながら慎重に構築された入力の摂動は、ネットワークのパフォーマンスを著しく損なう可能性がある。 深層ネットワークの強靭性を改善するために, 対向的摂動入力をトレーニングすることで, 多くの防衛手法が提案されている。 しかし、これらのモデルはトレーニング中に見られない新しいタイプの攻撃や、以前見られた攻撃のわずかに強力なバージョンに対しても脆弱であることが多い。 本稿では、ドメイン適応分野からの洞察を基盤とした、敵対的ロバストネスに対する新しいアプローチを提案する。 提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。 これは、予測的かつ堅牢(敵の攻撃に敏感でない)な特徴、すなわち自然データと敵データの区別に使用できないことを学ぶゲームによって達成される。 いくつかのベンチマークにおける実証的な結果は、幅広い攻撃タイプと攻撃強度に対する提案手法の有効性を示している。 私たちのコードはhttps://github.com/bashivanlab/afdで利用可能です。

Neural networks are known to be vulnerable to adversarial attacks -- slight but carefully constructed perturbations of the inputs which can drastically impair the network's performance. Many defense methods have been proposed for improving robustness of deep networks by training them on adversarially perturbed inputs. However, these models often remain vulnerable to new types of attacks not seen during training, and even to slightly stronger versions of previously seen attacks. In this work, we propose a novel approach to adversarial robustness, which builds upon the insights from the domain adaptation field. Our method, called Adversarial Feature Desensitization (AFD), aims at learning features that are invariant towards adversarial perturbations of the inputs. This is achieved through a game where we learn features that are both predictive and robust (insensitive to adversarial attacks), i.e. cannot be used to discriminate between natural and adversarial data. Empirical results on several benchmarks demonstrate the effectiveness of the proposed approach against a wide range of attack types and attack strengths. Our code is available at https://github.com/BashivanLab/afd.
翻訳日:2022-11-24 00:41:27 公開日:2022-01-04
# ベストレスポンス政策イテレーションでノープレス外交をプレイする学習

Learning to Play No-Press Diplomacy with Best Response Policy Iteration ( http://arxiv.org/abs/2006.04635v4 )

ライセンス: Link先を確認
Thomas Anthony, Tom Eccles, Andrea Tacchetti, J\'anos Kram\'ar, Ian Gemp, Thomas C. Hudson, Nicolas Porcel, Marc Lanctot, Julien P\'erolat, Richard Everett, Roman Werpachowski, Satinder Singh, Thore Graepel, and Yoram Bachrach(参考訳) 近年の強化学習(RL)の進歩は、Go、Poker、Starcraftなど、多くの2プレイヤーゼロサムゲームにおいて大きな進歩をもたらした。 そのようなゲームの純粋に敵対的な性質は、概念的に単純かつ原則的にrl法の応用を可能にする。 しかし、現実世界の設定は多目的であり、エージェントの相互作用は共通興味と競争の側面の複雑な混合である。 我々は,多エージェントインタラクションから生じるジレンマを強調するために設計された7人のボードゲームである外交を考える。 また、大きな組合せアクション空間と同時移動を備えており、RLアルゴリズムでは困難である。 そこで本稿では,大規模な組合せ行動空間と同時動作を扱うための,シンプルで効果的な最適応答演算子を提案する。 我々はまた、架空のプレーを近似するポリシー反復手法のファミリーも導入する。 これらの手法により、我々はRLを外交に応用することに成功し、我々のエージェントが従来の最先端技術よりも確実に優れていることを示すとともに、ゲーム理論平衡分析により、新しいプロセスが一貫した改善をもたらすことを示す。

Recent advances in deep reinforcement learning (RL) have led to considerable progress in many 2-player zero-sum games, such as Go, Poker and Starcraft. The purely adversarial nature of such games allows for conceptually simple and principled application of RL methods. However real-world settings are many-agent, and agent interactions are complex mixtures of common-interest and competitive aspects. We consider Diplomacy, a 7-player board game designed to accentuate dilemmas resulting from many-agent interactions. It also features a large combinatorial action space and simultaneous moves, which are challenging for RL algorithms. We propose a simple yet effective approximate best response operator, designed to handle large combinatorial action spaces and simultaneous moves. We also introduce a family of policy iteration methods that approximate fictitious play. With these methods, we successfully apply RL to Diplomacy: we show that our agents convincingly outperform the previous state-of-the-art, and game theoretic equilibrium analysis shows that the new process yields consistent improvements.
翻訳日:2022-11-24 00:15:48 公開日:2022-01-04
# オンライン深層強化学習のための適応的および多重時間スケール適性トレース

Adaptive and Multiple Time-scale Eligibility Traces for Online Deep Reinforcement Learning ( http://arxiv.org/abs/2008.10040v2 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 深層強化学習(DRL)は、複雑なタスクをロボットに教えるための有望なアプローチである。 保存された体験データを直接再利用する手法は,ロボット問題における環境変化に追従できないため,オンラインdrlが必要である。 本手法は, DRLではなく線形回帰器を用いた従来の強化学習において, サンプル効率を向上させるオンライン学習手法としてよく知られている。 ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。 勾配を勾配の累積ではなく最も影響力のあるものに置き換えることにより、可視性トレースがこの問題を軽減することができるが、置換操作は以前の経験の再利用回数を減らす。 これらの課題に対処するために, DRLにおいても高い試料効率を維持しつつ, 使用可能な新しい可視性トレース手法を提案する。 累積勾配が最新のパラメータで計算された値と異なる場合, 提案手法は過去のパラメータと最新のパラメータのばらつきを考慮に入れ, 適応的に可視性トレースを減衰させる。 過去に計算された出力と最新のパラメータの間でのブレグマンの発散は、過去のパラメータと最新のパラメータの発散の計算コストが非現実的なため悪用される。 また,複数の時間スケールトレースを持つ一般化手法を初めて設計した。 この設計により、最も適応的に蓄積された(分解された)可視性トレースを置き換えることができる。

Deep reinforcement learning (DRL) is one promising approach to teaching robots to perform complex tasks. Because methods that directly reuse the stored experience data cannot follow the change of the environment in robotic problems with a time-varying environment, online DRL is required. The eligibility traces method is well known as an online learning technique for improving sample efficiency in traditional reinforcement learning with linear regressors rather than DRL. The dependency between parameters of deep neural networks would destroy the eligibility traces, which is why they are not integrated with DRL. Although replacing the gradient with the most influential one rather than accumulating the gradients as the eligibility traces can alleviate this problem, the replacing operation reduces the number of reuses of previous experiences. To address these issues, this study proposes a new eligibility traces method that can be used even in DRL while maintaining high sample efficiency. When the accumulated gradients differ from those computed using the latest parameters, the proposed method takes into account the divergence between the past and latest parameters to adaptively decay the eligibility traces. Bregman divergences between outputs computed by the past and latest parameters are exploited due to the infeasible computational cost of the divergence between the past and latest parameters. In addition, a generalized method with multiple time-scale traces is designed for the first time. This design allows for the replacement of the most influential adaptively accumulated (decayed) eligibility traces.
翻訳日:2022-10-26 03:20:44 公開日:2022-01-04
# 特徴選択のためのフラクタルオートエンコーダ

Fractal Autoencoders for Feature Selection ( http://arxiv.org/abs/2010.09430v2 )

ライセンス: Link先を確認
Xinxing Wu and Qiang Cheng(参考訳) 特徴の選択は、最も有益な特徴のサブセットを識別することで、データの次元を減少させる。 本稿では,教師なし特徴選択のための革新的なフレームワークであるフラクタルオートエンコーダ(fae)を提案する。 ニューラルネットワークを訓練して、表現可能性のグローバルな探索や多様性の局所的な発掘のための情報的特徴を特定する。 アーキテクチャ的には、faeは1対1のスコアリング層と、教師なしの方法で特徴選択のための小さなサブニューラルネットワークを追加することでオートエンコーダを拡張する。 このような簡潔なアーキテクチャにより、FAEは最先端の性能を達成し、非常に高次元のデータを含む14のデータセットに対する広範な実験結果により、教師なし特徴選択のための既存の手法よりもFAEの方が優れていることが示された。 特に、faeは遺伝子発現データ探索において実質的な利点を示しており、広く使用されているl1000のランドマーク遺伝子よりも測定コストを約15セント下げている。 さらに、FAEフレームワークはアプリケーションで容易に拡張可能であることを示す。

Feature selection reduces the dimensionality of data by identifying a subset of the most informative features. In this paper, we propose an innovative framework for unsupervised feature selection, called fractal autoencoders (FAE). It trains a neural network to pinpoint informative features for global exploring of representability and for local excavating of diversity. Architecturally, FAE extends autoencoders by adding a one-to-one scoring layer and a small sub-neural network for feature selection in an unsupervised fashion. With such a concise architecture, FAE achieves state-of-the-art performances; extensive experimental results on fourteen datasets, including very high-dimensional data, have demonstrated the superiority of FAE over existing contemporary methods for unsupervised feature selection. In particular, FAE exhibits substantial advantages on gene expression data exploration, reducing measurement cost by about $15$\% over the widely used L1000 landmark genes. Further, we show that the FAE framework is easily extensible with an application.
翻訳日:2022-10-05 22:34:08 公開日:2022-01-04
# グラフ上の注意に基づく勧告

Attention-Based Recommendation On Graphs ( http://arxiv.org/abs/2201.05499v1 )

ライセンス: Link先を確認
Taher Hekmatfar, Saman Haratizadeh, Parsa Razban, Sama Goliaei(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなタスクで顕著なパフォーマンスを示している。 しかしながら、GNNのレコメンデーションシステムに関するいくつかの研究がある。 GNNの一種であるGCNは、グラフ内の異なるエンティティに対する高品質な埋め込みを抽出することができる。 協調フィルタリングタスクでは、対象ユーザの将来の振る舞いを予測するために、エンティティがどの程度情報的かを知ることが問題となる。 注意機構を用いて、基礎となるデータがグラフとしてモデル化された場合、GCNがそのような分析を行えるようにする。 本研究では,レコメンダグラフ上の空間gcnとともに注意機構を適用し,ユーザやアイテムへの埋め込みを抽出するモデルベースレコメンダシステムとしてgarecを提案する。 注意機構はGCNに、関連するユーザまたはアイテムがターゲットエンティティの最終的な表現にどの程度影響するかを伝える。 GARecの性能をRMSEのベースラインアルゴリズムと比較した。 提案手法は,既存のモデルベース非グラフニューラルネットワークとグラフニューラルネットワークを異なるMovieLensデータセットで比較した。

Graph Neural Networks (GNN) have shown remarkable performance in different tasks. However, there are a few studies about GNN on recommender systems. GCN as a type of GNNs can extract high-quality embeddings for different entities in a graph. In a collaborative filtering task, the core problem is to find out how informative an entity would be for predicting the future behavior of a target user. Using an attention mechanism, we can enable GCNs to do such an analysis when the underlying data is modeled as a graph. In this study, we proposed GARec as a model-based recommender system that applies an attention mechanism along with a spatial GCN on a recommender graph to extract embeddings for users and items. The attention mechanism tells GCN how much a related user or item should affect the final representation of the target entity. We compared the performance of GARec against some baseline algorithms in terms of RMSE. The presented method outperforms existing model-based, non-graph neural networks and graph neural networks in different MovieLens datasets.
翻訳日:2022-01-23 18:29:38 公開日:2022-01-04
# C2-CRS:会話レコメンダシステムのための粗大なコントラスト学習

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System ( http://arxiv.org/abs/2201.02732v1 )

ライセンス: Link先を確認
Yuanhang Zhou, Kun Zhou, Wayne Xin Zhao, Cheng Wang, Peng Jiang, He Hu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。 効果的なCRSを開発するためには、非常に限られた会話コンテキストからユーザの好みを正確に推測する方法が重要な技術的問題である。 問題に対処するには、コンテキスト情報を豊かにするために外部データを組み込むことが有望である。 しかし、以前の研究は主に特定の種類の外部データ用に調整された核融合モデルの設計に重点を置いている。 マルチタイプの外部データを効果的に活用するために,CRSのデータセマンティックフュージョンを改善するための,より粗いコントラスト学習フレームワークを提案する。 提案手法では,まず異なるデータ信号から多粒度意味単位を抽出し,次に,関連した多形意味単位を粗い方法で整列させる。 このフレームワークを実装するために、ユーザ嗜好をモデル化するための粗粒度と細粒度の両方の手順を設計し、前者はより汎用的で粗粒度の高いセマンティックフュージョンに、後者はより具体的で細粒度なセマンティックフュージョンに焦点をあてる。 このようなアプローチは、より多くの種類の外部データを組み込むように拡張できる。 2つの公開CRSデータセットに対する大規模な実験により,提案手法の有効性が示唆された。

Conversational recommender systems (CRS) aim to recommend suitable items to users through natural language conversations. For developing effective CRSs, a major technical issue is how to accurately infer user preference from very limited conversation context. To address issue, a promising solution is to incorporate external data for enriching the context information. However, prior studies mainly focus on designing fusion models tailored for some specific type of external data, which is not general to model and utilize multi-type external data. To effectively leverage multi-type external data, we propose a novel coarse-to-fine contrastive learning framework to improve data semantic fusion for CRS. In our approach, we first extract and represent multi-grained semantic units from different data signals, and then align the associated multi-type semantic units in a coarse-to-fine way. To implement this framework, we design both coarse-grained and fine-grained procedures for modeling user preference, where the former focuses on more general, coarse-grained semantic fusion and the latter focuses on more specific, fine-grained semantic fusion. Such an approach can be extended to incorporate more kinds of external data. Extensive experiments on two public CRS datasets have demonstrated the effectiveness of our approach in both recommendation and conversation tasks.
翻訳日:2022-01-16 16:05:00 公開日:2022-01-04
# (参考訳) カプセルネットワークを用いたパーキンソン病診断のための脳波法

An EEG-based approach for Parkinson's disease diagnosis using Capsule network ( http://arxiv.org/abs/2201.00628v2 )

ライセンス: CC BY 4.0
Shujie Wang, Gongshu Wang, Guangying Pei(参考訳) 2番目に多い神経変性疾患として、パーキンソン病は世界中で深刻な問題を引き起こしている。 しかし、PDの原因と機序は明らかではなく、PDの系統的早期診断や治療は確立されていない。 PD患者の多くは診断や誤診を受けていない。 本稿では,パーキンソン病の診断に脳波を用いたアプローチを提案する。 補間法を用いて脳波(EEG)信号の周波数帯エネルギーを2次元画像にマッピングし、カプセルネットワーク(CapsNet)を用いて分類し、短期脳波セクションの89.34%の分類精度を達成した。 異なる脳波帯域で異なる分類精度を比較すると、ガンマバンドの最も高い精度が示され、PDの初期段階におけるガンマバンドの変化により多くの注意を払う必要があることが示唆された。

As the second most common neurodegenerative disease, Parkinson's disease has caused serious problems worldwide. However, the cause and mechanism of PD are not clear, and no systematic early diagnosis and treatment of PD have been established. Many patients with PD have not been diagnosed or misdiagnosed. In this paper, we proposed an EEG-based approach to diagnosing Parkinson's disease. It mapped the frequency band energy of electroencephalogram(EEG) signals to 2-dimensional images using the interpolation method and identified classification using capsule network(CapsNet) and achieved 89.34% classification accuracy for short-term EEG sections. A comparison of separate classification accuracy across different EEG bands revealed the highest accuracy in the gamma bands, suggesting that we need to pay more attention to the changes in gamma band changes in the early stages of PD.
翻訳日:2022-01-09 14:55:53 公開日:2022-01-04
# (参考訳) 二重転写DNAのためのグラフニューラルネットワーク

Graph Neural Networks for Double-Strand DNA Breaks Prediction ( http://arxiv.org/abs/2201.01855v1 )

ライセンス: CC BY 4.0
XU Wang and Huan Zhao and Weiwei TU and Hao Li and Yu Sun and Xiaochen Bo(参考訳) 二重鎖DNA切断(Double-strand DNA breaks、DSBs)は、異常な染色体再構成を引き起こすDNA損傷の一種である。 本研究では,dna配列の特徴と染色体構造情報を用いてdsbs(graphdsb)を予測するグラフニューラルネットワークを設計,構築する。 モデルの表現能力を向上させるために,Jumping Knowledge Architectureといくつかの効果的な構造符号化手法を導入する。 正常ヒト表皮ケラチノサイト (NHEK) および慢性骨髄性白血病細胞株 (K562) からのデータセットを用いて, DSBs の予測に対する構造情報の寄与を検証し, さらに, 提案した GraphDSB フレームワークにおける設計成分の有効性について検討した。 最後に,gnnexplainerを用いてdsbs予測へのノード特徴とトポロジーの寄与を分析し,5-merのdna配列特徴と2つのクロマチン相互作用モードの高い寄与を証明した。

Double-strand DNA breaks (DSBs) are a form of DNA damage that can cause abnormal chromosomal rearrangements. Recent technologies based on high-throughput experiments have obvious high costs and technical challenges.Therefore, we design a graph neural network based method to predict DSBs (GraphDSB), using DNA sequence features and chromosome structure information. In order to improve the expression ability of the model, we introduce Jumping Knowledge architecture and several effective structural encoding methods. The contribution of structural information to the prediction of DSBs is verified by the experiments on datasets from normal human epidermal keratinocytes (NHEK) and chronic myeloid leukemia cell line (K562), and the ablation studies further demonstrate the effectiveness of the designed components in the proposed GraphDSB framework. Finally, we use GNNExplainer to analyze the contribution of node features and topology to DSBs prediction, and proved the high contribution of 5-mer DNA sequence features and two chromatin interaction modes.
翻訳日:2022-01-08 00:18:12 公開日:2022-01-04
# (参考訳) 時系列の弾性積量子化

Elastic Product Quantization for Time Series ( http://arxiv.org/abs/2201.01856v1 )

ライセンス: CC BY 4.0
Pieter Robberechts, Wannes Meert, Jesse Davis(参考訳) 多数の、あるいは長い時系列の分析は、高いストレージコストと計算要件のため、実際には困難である。 そのため、時系列のコンパクトな類似性保存表現を生成する手法が提案され、大規模なインメモリデータコレクション上でリアルタイムの類似性検索が可能となった。 しかし、既存の手法は、配列が位相外である場合の類似性を評価するのに理想的ではない。 本稿では,効率的な類似度に基づく時系列比較のための製品定量化手法を提案する。 まず、時系列を短いコードで表される同じ長さのサブシーケンスに分割することで、データを圧縮する。 2つの時系列間の距離は、コード間の事前計算された弾性距離によって効率よく近似することができる。 サブシーケンスへの分割は不要なアライメントを強制し、最大重なりの離散ウェーブレット変換(MODWT)を用いて事前アライメントステップで処理する。 提案手法の効率性と精度を実証するため,近隣の分類およびクラスタリングアプリケーションにおけるベンチマークデータセットの広範な評価を行った。 全体的に、提案されたソリューションは(メモリ使用量と計算時間の両方の観点から)時系列アプリケーションにおける弾力的測度の代替として現れる。

Analyzing numerous or long time series is difficult in practice due to the high storage costs and computational requirements. Therefore, techniques have been proposed to generate compact similarity-preserving representations of time series, enabling real-time similarity search on large in-memory data collections. However, the existing techniques are not ideally suited for assessing similarity when sequences are locally out of phase. In this paper, we propose the use of product quantization for efficient similarity-based comparison of time series under time warping. The idea is to first compress the data by partitioning the time series into equal length sub-sequences which are represented by a short code. The distance between two time series can then be efficiently approximated by pre-computed elastic distances between their codes. The partitioning into sub-sequences forces unwanted alignments, which we address with a pre-alignment step using the maximal overlap discrete wavelet transform (MODWT). To demonstrate the efficiency and accuracy of our method, we perform an extensive experimental evaluation on benchmark datasets in nearest neighbors classification and clustering applications. Overall, the proposed solution emerges as a highly efficient (both in terms of memory usage and computation time) replacement for elastic measures in time series applications.
翻訳日:2022-01-08 00:09:24 公開日:2022-01-04
# (参考訳) FCNN:反応拡散方程式を解くための5点ステンシルCNN

FCNN: Five-point stencil CNN for solving reaction-diffusion equations ( http://arxiv.org/abs/2201.01854v1 )

ライセンス: CC BY 4.0
Yongho Kim and Yongho Choi(参考訳) 本稿では,5点ステンシルカーネルとトレーニング可能な近似関数を含む5点ステンシルCNN(FCNN)を提案する。 我々は、熱、フィッシャー方程式、アレン・カーン方程式、三角関数を持つ反応拡散式を含む反応拡散型方程式を考察する。 提案するFCNNは, 少ないデータで十分に訓練され, 未確認初期条件で反応拡散進化を予測することができる。 また, 列車データを用いた場合, FCNNは良好に訓練されている。 提案するfcnnがうまく機能していることを示すため,様々なシミュレーション結果を示す。

In this paper, we propose Five-point stencil CNN (FCNN) containing a five-point stencil kernel and a trainable approximation function. We consider reaction-diffusion type equations including heat, Fisher's, Allen-Cahn equations, and reaction-diffusion equations with trigonometric functions. Our proposed FCNN is trained well using few data and then can predict reaction-diffusion evolutions with unseen initial conditions. Also, our FCNN is trained well in the case of using noisy train data. We present various simulation results to demonstrate that our proposed FCNN is working well.
翻訳日:2022-01-07 23:56:13 公開日:2022-01-04
# (参考訳) weibullに基づく損失関数を用いた知識情報機械学習

Knowledge Informed Machine Learning using a Weibull-based Loss Function ( http://arxiv.org/abs/2201.01769v1 )

ライセンス: CC BY 4.0
Tim von Hahn and Chris K Mechefske(参考訳) 機械学習は、外部知識の統合によって強化することができる。 この手法は知識情報機械学習と呼ばれ、PHM(Prognostics and Health Management)の分野にも適用できる。 本稿では,phmコンテキストから知識情報機械学習の様々な手法について,読者がドメインを理解するのを手助けする目的で検討する。 さらに、共通IMSとPronostiaのデータセットを用いて、有用な生活(RUL)予測のための知識情報機械学習手法を実証した。 特に、知識はワイブル分布を通して表現される信頼性工学の分野から得ている。 知識は、新しいweibullベースの損失関数を介してニューラルネットワークに統合される。 ワイブル型損失関数の詳細な統計的解析を行い,PronoSTIAデータセット上での有効性を実証した。 しかし、Weibullベースの損失関数はIMSデータセットでは効果が低い。 このアプローチの結果、欠点、メリットを長く議論する。 最後に、すべてのコードは、他の研究者の利益のために公開されています。

Machine learning can be enhanced through the integration of external knowledge. This method, called knowledge informed machine learning, is also applicable within the field of Prognostics and Health Management (PHM). In this paper, the various methods of knowledge informed machine learning, from a PHM context, are reviewed with the goal of helping the reader understand the domain. In addition, a knowledge informed machine learning technique is demonstrated, using the common IMS and PRONOSTIA bearing data sets, for remaining useful life (RUL) prediction. Specifically, knowledge is garnered from the field of reliability engineering which is represented through the Weibull distribution. The knowledge is then integrated into a neural network through a novel Weibull-based loss function. A thorough statistical analysis of the Weibull-based loss function is conducted, demonstrating the effectiveness of the method on the PRONOSTIA data set. However, the Weibull-based loss function is less effective on the IMS data set. The results, shortcomings, and benefits of the approach are discussed in length. Finally, all the code is publicly available for the benefit of other researchers.
翻訳日:2022-01-07 23:50:12 公開日:2022-01-04
# 深層強化学習

Deep Reinforcement Learning ( http://arxiv.org/abs/2201.02135v1 )

ライセンス: Link先を確認
Aske Plaat(参考訳) 深層強化学習は近年注目を集めている。 自動運転、ゲームプレイ、分子組換え、ロボティクスなど、さまざまな分野で素晴らしい成果が得られました。 これらすべての分野において、コンピュータプログラムは難しい問題を解くことを自ら教えている。 彼らは模型ヘリコプターを飛ばし、ループやロールのようなエアロバティックな操縦をすることを学んだ。 一部のアプリケーションでは、Atari、Go、ポーカー、StarCraftなど、最高の人間よりも優れています。 深層強化学習が複雑な環境を探索する方法は、子供たちがふざけて物事を試し、フィードバックを得て、もう一度挑戦することで、どのように学習するかを思い出させる。 コンピューターは本当に人間の学習の側面を持っているようで、これは人工知能の夢の核心にかかっている。 研究の成功は教育者によって気付かれず、大学はこのテーマのコースを提供し始めている。 本書の目的は,深層強化学習の分野の包括的概要を提供することである。 この本は人工知能の大学院生と、深層強化学習の方法とその課題をより深く理解したい研究者や実践者のために書かれている。 我々は、コンピュータ科学と人工知能の学部レベルの理解を想定し、この本のプログラミング言語はPythonである。 本稿では,深層強化学習の基礎,アルゴリズム,応用について述べる。 フィールドの基礎を形成する既定のモデルフリーおよびモデルベースメソッドについて紹介する。 開発は急速に進み、深層多エージェント強化学習、深層階層強化学習、深層メタ学習といった先進的なトピックもカバーしています。

Deep reinforcement learning has gathered much attention recently. Impressive results were achieved in activities as diverse as autonomous driving, game playing, molecular recombination, and robotics. In all these fields, computer programs have taught themselves to solve difficult problems. They have learned to fly model helicopters and perform aerobatic manoeuvers such as loops and rolls. In some applications they have even become better than the best humans, such as in Atari, Go, poker and StarCraft. The way in which deep reinforcement learning explores complex environments reminds us of how children learn, by playfully trying out things, getting feedback, and trying again. The computer seems to truly possess aspects of human learning; this goes to the heart of the dream of artificial intelligence. The successes in research have not gone unnoticed by educators, and universities have started to offer courses on the subject. The aim of this book is to provide a comprehensive overview of the field of deep reinforcement learning. The book is written for graduate students of artificial intelligence, and for researchers and practitioners who wish to better understand deep reinforcement learning methods and their challenges. We assume an undergraduate-level of understanding of computer science and artificial intelligence; the programming language of this book is Python. We describe the foundations, the algorithms and the applications of deep reinforcement learning. We cover the established model-free and model-based methods that form the basis of the field. Developments go quickly, and we also cover advanced topics: deep multi-agent reinforcement learning, deep hierarchical reinforcement learning, and deep meta learning.
翻訳日:2022-01-07 14:53:35 公開日:2022-01-04
# 分散型フェイクニュース検出のためのSwarm LearningへのHuman-in-the-loopの統合

Integrating Human-in-the-loop into Swarm Learning for Decentralized Fake News Detection ( http://arxiv.org/abs/2201.02048v1 )

ライセンス: Link先を確認
Xishuang Dong and Lijun Qian(参考訳) ソーシャルメディアは、人々を誤解させ、世論を歪めてしまう偽ニュースを生み出し広める効果的なプラットフォームになっている。 しかし、フェイクニュース検出の集中化手法は、トレーニングモデルの集中データ収集プロセスにおいて、ユーザのプライバシを効果的に保護することはできない。 さらに、フェイクニュース検出をさらに強化するために、学習検出モデルのループにユーザーフィードバックを完全に巻き込むことはできない。 これらの課題を克服するために,本研究では,ユーザのプライバシを分散的に侵害することなく,偽ニュースを認識するための学習と推論のループにユーザフィードバックを統合する,新たな分散化手法であるHBSLを提案する。 ローカルデータ上のフェイクニュースを独立して学習し検出できる分散ノードで構成されている。 さらに、これらのノードでトレーニングされた検出モデルは、分散モデルマージによって強化することができる。 実験の結果,提案手法は,ベンチマークデータセット上での偽ニュースの検出において,最先端の分散手法よりも優れていた。

Social media has become an effective platform to generate and spread fake news that can mislead people and even distort public opinion. Centralized methods for fake news detection, however, cannot effectively protect user privacy during the process of centralized data collection for training models. Moreover, it cannot fully involve user feedback in the loop of learning detection models for further enhancing fake news detection. To overcome these challenges, this paper proposed a novel decentralized method, Human-in-the-loop Based Swarm Learning (HBSL), to integrate user feedback into the loop of learning and inference for recognizing fake news without violating user privacy in a decentralized manner. It consists of distributed nodes that are able to independently learn and detect fake news on local data. Furthermore, detection models trained on these nodes can be enhanced through decentralized model merging. Experimental results demonstrate that the proposed method outperforms the state-of-the-art decentralized method in regard of detecting fake news on a benchmark dataset.
翻訳日:2022-01-07 14:40:34 公開日:2022-01-04
# (参考訳) Sim2Real Gap量子化による四足歩行歩行実験と評価

Test and Evaluation of Quadrupedal Walking Gaits through Sim2Real Gap Quantification ( http://arxiv.org/abs/2201.01323v1 )

ライセンス: CC BY 4.0
Prithvi Akella, Wyatt Ubellacker, and Aaron D. Ames(参考訳) 本報告では,実際のシステムの運用目標を満足する能力を評価し,検証するための2段階のアプローチを提案する。 具体的には、システム目標が満足度(すなわち信号時相論理仕様やバリア関数など)の定量値を持つ場合、著者らはベイズ最適化手順を通じて解決可能な2つの異なる最適化問題を開発する。 このデュアルアプローチは、システムシミュレータとハードウェアとのsim2現実のギャップを定量化する付加的な利点がある。 私たちの貢献は2倍です。 まず,これらの最適化問題の解法について,概略最適化手順に関して繰り返し可能性を示す。 第2に,シミュレータと異なる環境で動作するハードウェア間のsim2現実的ギャップを識別することにより,同一の手順で異なる環境を判別できることを示す。

In this letter, the authors propose a two-step approach to evaluate and verify a true system's capacity to satisfy its operational objective. Specifically, whenever the system objective has a quantifiable measure of satisfaction, i.e. a signal temporal logic specification, a barrier function, etc - the authors develop two separate optimization problems solvable via a Bayesian Optimization procedure detailed within. This dual approach has the added benefit of quantifying the Sim2Real Gap between a system simulator and its hardware counterpart. Our contributions are twofold. First, we show repeatability with respect to our outlined optimization procedure in solving these optimization problems. Second, we show that the same procedure can discriminate between different environments by identifying the Sim2Real Gap between a simulator and its hardware counterpart operating in different environments.
翻訳日:2022-01-06 20:29:14 公開日:2022-01-04
# (参考訳) 二足歩行における転倒防止と安全のための学習制御

Learning Control Policies for Fall prevention and safety in bipedal locomotion ( http://arxiv.org/abs/2201.01361v1 )

ライセンス: CC BY 4.0
Visak Kumar(参考訳) 予期せぬ外乱から回復する能力は、二足歩行における基本的な運動能力である。 効果的な応答は、バランスの回復と安定性の維持だけでなく、バランスの回復が物理的に不可能な場合に安全な方法で崩壊する能力を含む。 歩行を支援するヒューマノイドロボットや補助ロボットデバイスといった二足歩行に関連するロボットの場合、この安定性と安全性を提供するコントローラーの設計は、ロボットの損傷を防止したり、医療コストの障害を防ぐことができる。 これは、高次元、非線形、非作動系の接触を伴う高度にダイナミックな動きを生成するため、難しいタスクである。 モデルベースおよび最適化手法の事前の進歩にもかかわらず、広範なドメイン知識の要求、比較的大きな計算時間、ダイナミックスの変化に対するロバスト性といった課題は、まだオープンな問題である。 そこで本論文では,二足歩行を支援するヒューマノイドロボットと補助ロボットの2種類のロボットに対して,プッシュリカバリ制御ポリシを合成する学習ベースのアルゴリズムを開発した。 我々の研究は,(1)ヒューマノイドロボットの安全落下・転倒防止戦略の学習と,それに関連する2つの方向性に分岐することができる。 2)ロボット支援装置を用いた人間の転倒防止戦略の学習 そこで本研究では,これらのロボットを用いて安全性を向上させる制御ポリシーを学習するための,深層強化学習(DRL)アルゴリズムを提案する。

The ability to recover from an unexpected external perturbation is a fundamental motor skill in bipedal locomotion. An effective response includes the ability to not just recover balance and maintain stability but also to fall in a safe manner when balance recovery is physically infeasible. For robots associated with bipedal locomotion, such as humanoid robots and assistive robotic devices that aid humans in walking, designing controllers which can provide this stability and safety can prevent damage to robots or prevent injury related medical costs. This is a challenging task because it involves generating highly dynamic motion for a high-dimensional, non-linear and under-actuated system with contacts. Despite prior advancements in using model-based and optimization methods, challenges such as requirement of extensive domain knowledge, relatively large computational time and limited robustness to changes in dynamics still make this an open problem. In this thesis, to address these issues we develop learning-based algorithms capable of synthesizing push recovery control policies for two different kinds of robots : Humanoid robots and assistive robotic devices that assist in bipedal locomotion. Our work can be branched into two closely related directions : 1) Learning safe falling and fall prevention strategies for humanoid robots and 2) Learning fall prevention strategies for humans using a robotic assistive devices. To achieve this, we introduce a set of Deep Reinforcement Learning (DRL) algorithms to learn control policies that improve safety while using these robots.
翻訳日:2022-01-06 20:07:31 公開日:2022-01-04
# (参考訳) スパーススーパーレギュラーネットワーク

Sparse Super-Regular Networks ( http://arxiv.org/abs/2201.01363v1 )

ライセンス: CC BY 4.0
Andrew W.E. McDonald and Ali Shokoufandeh(参考訳) ThomとPalmは、疎結合ニューラルネットワーク(SCN)は完全接続ネットワーク(FCN)よりも性能が向上していると主張している。 超正則ネットワーク(super-regular network、srns)は、(epsilon、delta)超正則ペアの積み重ねられたスパース層と、ランダムに置換されたノード順序からなるニューラルネットワークである。 Blow-up Lemma を用いて、SRN は各層の個々の超規則性の結果、多くのタスクに対して FCN の置換を適切に行う多くの特性を保証することを証明した。 これらの保証には、すべての大容量サブセットのエッジ均一性、最小ノードのイン・アンド・アウト・ディフレクション、入出力感度、事前訓練されたコンストラクトを埋め込む機能が含まれる。 実際、SRNはFCNのように機能し、Dropoutのような高価な正規化スキームを必要としない能力を持っている。 我々は、SRNが容易に再現可能な実験により、X-Netと同じような性能を示し、ネットワーク構造に対するはるかに大きな保証と制御を提供する。

It has been argued by Thom and Palm that sparsely-connected neural networks (SCNs) show improved performance over fully-connected networks (FCNs). Super-regular networks (SRNs) are neural networks composed of a set of stacked sparse layers of (epsilon, delta)-super-regular pairs, and randomly permuted node order. Using the Blow-up Lemma, we prove that as a result of the individual super-regularity of each pair of layers, SRNs guarantee a number of properties that make them suitable replacements for FCNs for many tasks. These guarantees include edge uniformity across all large-enough subsets, minimum node in- and out-degree, input-output sensitivity, and the ability to embed pre-trained constructs. Indeed, SRNs have the capacity to act like FCNs, and eliminate the need for costly regularization schemes like Dropout. We show that SRNs perform similarly to X-Nets via readily reproducible experiments, and offer far greater guarantees and control over network structure.
翻訳日:2022-01-06 20:06:20 公開日:2022-01-04
# (参考訳) シミュレーション最適化によるクワッドロータのゼロショットポリシー転送の改善

Using Simulation Optimization to Improve Zero-shot Policy Transfer of Quadrotors ( http://arxiv.org/abs/2201.01369v1 )

ライセンス: CC BY 4.0
Sven Gronauer, Matthias Kissel, Luca Sacchetto, Mathias Korte, Klaus Diepold(参考訳) そこで本研究では,強化学習による低レベルの制御ポリシをシミュレーションで完全に訓練し,実世界のデータを使わずに四足歩行ロボットに展開することができることを示す。 ゼロショットポリシー転送を実現するために,シミュレーション最適化を適用し,現実のギャップを狭める。 私たちのニューラルネットワークベースのポリシーは、オンボードセンサーデータのみを使用し、組み込みドローンハードウェアで完全に動作します。 実世界の広範囲な実験では、低レベルパルス幅変調モータ指令からネスト比例積分導出制御に基づく高レベル姿勢制御までの3つの異なる制御構造を比較した。 実験の結果,強化学習で訓練された低レベルコントローラは,高レベル制御ポリシよりも正確なシミュレーションを必要とすることがわかった。

In this work, we show that it is possible to train low-level control policies with reinforcement learning entirely in simulation and, then, deploy them on a quadrotor robot without using real-world data to fine-tune. To render zero-shot policy transfers feasible, we apply simulation optimization to narrow the reality gap. Our neural network-based policies use only onboard sensor data and run entirely on the embedded drone hardware. In extensive real-world experiments, we compare three different control structures ranging from low-level pulse-width-modulated motor commands to high-level attitude control based on nested proportional-integral-derivative controllers. Our experiments show that low-level controllers trained with reinforcement learning require a more accurate simulation than higher-level control policies.
翻訳日:2022-01-06 19:50:12 公開日:2022-01-04
# (参考訳) コロナホールセグメンテーション、マッチング、マップ分類のための画像処理方法

Image Processing Methods for Coronal Hole Segmentation, Matching, and Map Classification ( http://arxiv.org/abs/2201.01380v1 )

ライセンス: CC BY 4.0
V. Jatla, M.S. Pattichis, and C.N. Arge(参考訳) 本稿では,太陽観測に基づく最適物理モデル選択のための画像処理手法を複数年にわたって開発・検証し,その成果について述べる。 アプローチは、画像から抽出されたコロナホールとの一致に基づいて物理モデルを選択することで構成される。 究極の目標は、物理モデルを使って地磁気嵐を予測することだ。 問題を3つの部分問題に分解します (i)物理的制約に基づくコロナホールセグメンテーション (二)異なる地図間のコロナホールのクラスタのマッチング (iii)物理地図の分類。 コロナホールのセグメンテーションのために,3つの異なる方法からのセグメンテーションマップを用いて,初期コロナホールセグメンテーションを磁気境界に進化させるレベルセット法を初期化するマルチモーダル法を開発した。 そこで我々は,コロナホールのクラスタをマッチングするための線形プログラミングに基づく新しい手法を提案する。 最終戦はランダム・フォレスト(Random Forests)で行われる。 提案手法は,複数リーダからのコンセンサスマップ,手動クラスタリング,手動マップ分類,50マップのメソッド検証などを用いて,慎重に検証された。 提案手法は,精度の高い境界検出を提供することで,SegNet,U-net,Henney-Harvey,FCNを著しく上回る性能を示した。 概して、この方法は95.5%の地図分類精度を示した。

The paper presents the results from a multi-year effort to develop and validate image processing methods for selecting the best physical models based on solar image observations. The approach consists of selecting the physical models based on their agreement with coronal holes extracted from the images. Ultimately, the goal is to use physical models to predict geomagnetic storms. We decompose the problem into three subproblems: (i) coronal hole segmentation based on physical constraints, (ii) matching clusters of coronal holes between different maps, and (iii) physical map classification. For segmenting coronal holes, we develop a multi-modal method that uses segmentation maps from three different methods to initialize a level-set method that evolves the initial coronal hole segmentation to the magnetic boundary. Then, we introduce a new method based on Linear Programming for matching clusters of coronal holes. The final matching is then performed using Random Forests. The methods were carefully validated using consensus maps derived from multiple readers, manual clustering, manual map classification, and method validation for 50 maps. The proposed multi-modal segmentation method significantly outperformed SegNet, U-net, Henney-Harvey, and FCN by providing accurate boundary detection. Overall, the method gave a 95.5% map classification accuracy.
翻訳日:2022-01-06 19:34:26 公開日:2022-01-04
# (参考訳) Graph Decipher: ノード分類のためのメッセージパッシング機構を理解するための透過的なデュアルアテンショングラフニューラルネットワーク

Graph Decipher: A transparent dual-attention graph neural network to understand the message-passing mechanism for the node classification ( http://arxiv.org/abs/2201.01381v1 )

ライセンス: CC BY 4.0
Yan Pang, Chao Liu(参考訳) グラフニューラルネットワークは、幅広い分野にわたる現実世界の多くの問題の解を見つけるために効果的に適用することができる。 グラフニューラルネットワークの成功は、グラフ上のメッセージパッシング機構と結びついているが、ほとんどのアルゴリズムでは、メッセージ集約の振る舞いは完全には明確ではない。 グラフ構造とノード属性,グラフ,特徴量,グローバルレベルという2つの主成分をノード分類タスクで優先順位付けすることにより,メッセージパッシング機構を調査するための,graph decipherと呼ばれる新しい透過ネットワークを提案する。 しかし、グラフ構造とノード属性の関連性がグラフ上で計算されるため、計算の負担が最も重要な問題となっている。 この問題を解決するために、関連する代表ノード属性のみをグラフ特徴フィルタによって抽出し、計算をカテゴリ指向で行えるようにする。 7つのデータセットに関する実験は、グラフ解読が最先端のパフォーマンスを達成し、ノード分類タスク下では計算負荷が大幅に低減することを示している。 さらに,本アルゴリズムは,カテゴリ別に代表ノード属性を探索できるので,マルチクラスグラフデータセット上での不均衡ノード分類問題を緩和するために利用される。

Graph neural networks can be effectively applied to find solutions for many real-world problems across widely diverse fields. The success of graph neural networks is linked to the message-passing mechanism on the graph, however, the message-aggregating behavior is still not entirely clear in most algorithms. To improve functionality, we propose a new transparent network called Graph Decipher to investigate the message-passing mechanism by prioritizing in two main components: the graph structure and node attributes, at the graph, feature, and global levels on a graph under the node classification task. However, the computation burden now becomes the most significant issue because the relevance of both graph structure and node attributes are computed on a graph. In order to solve this issue, only relevant representative node attributes are extracted by graph feature filters, allowing calculations to be performed in a category-oriented manner. Experiments on seven datasets show that Graph Decipher achieves state-of-the-art performance while imposing a substantially lower computation burden under the node classification task. Additionally, since our algorithm has the ability to explore the representative node attributes by category, it is utilized to alleviate the imbalanced node classification problem on multi-class graph datasets.
翻訳日:2022-01-06 19:16:17 公開日:2022-01-04
# (参考訳) Efficient-Dyn: イベントベース時空間注意ネットワークによる動的グラフ表現学習

Efficient-Dyn: Dynamic Graph Representation Learning via Event-based Temporal Sparse Attention Network ( http://arxiv.org/abs/2201.01384v1 )

ライセンス: CC BY 4.0
Yan Pang, Chao Liu(参考訳) 静的グラフニューラルネットワークは、グラフ構造データのモデリングと表現学習に広く利用されている。 しかし,ソーシャルネットワークや金融取引,レコメンデーションシステムなど,現実的な問題の多くは動的であり,ノードやエッジの追加や削除は時間とともに行われる。 そのため、近年、動的グラフニューラルネットワークは研究者からますます注目を集めている。 本研究では,新しい動的グラフニューラルネットワーク, efficient-dynを提案する。 時間的情報を同じ量の時間的トポロジー構造を持つパッチのシーケンスに適応的に符号化する。 したがって、情報損失の原因となるスナップショットの使用を避ける一方で、連続ネットワークが提供するものに近い、より微細な時間粒度を実現している。 さらに,構造近傍と時間ダイナミクスの両方を通してノード表現を計算するための軽量モジュールsparse temporal transformerを設計した。 完全接続された注意結合は単純化されているので、計算コストは現在の技術よりはるかに低い。 連続グラフデータセットと離散グラフデータセットの両方でリンク予測実験を行う。 いくつかの最先端グラフ埋め込みベースラインと比較することにより,実験結果から,効率的な推論速度が向上し,競争性能が向上した。

Static graph neural networks have been widely used in modeling and representation learning of graph structure data. However, many real-world problems, such as social networks, financial transactions, recommendation systems, etc., are dynamic, that is, nodes and edges are added or deleted over time. Therefore, in recent years, dynamic graph neural networks have received more and more attention from researchers. In this work, we propose a novel dynamic graph neural network, Efficient-Dyn. It adaptively encodes temporal information into a sequence of patches with an equal amount of temporal-topological structure. Therefore, while avoiding the use of snapshots to cause information loss, it also achieves a finer time granularity, which is close to what continuous networks could provide. In addition, we also designed a lightweight module, Sparse Temporal Transformer, to compute node representations through both structural neighborhoods and temporal dynamics. Since the fully-connected attention conjunction is simplified, the computation cost is far lower than the current state-of-the-arts. Link prediction experiments are conducted on both continuous and discrete graph datasets. Through comparing with several state-of-the-art graph embedding baselines, the experimental results demonstrate that Efficient-Dyn has a faster inference speed while having competitive performance.
翻訳日:2022-01-06 18:58:40 公開日:2022-01-04
# 新しい環境への一般化のための制御バリア関数を用いた可変安全臨界制御の学習

Learning Differentiable Safety-Critical Control using Control Barrier Functions for Generalization to Novel Environments ( http://arxiv.org/abs/2201.01347v1 )

ライセンス: Link先を確認
Hengbo Ma, Bike Zhang, Masayoshi Tomizuka, and Koushil Sreenath(参考訳) 制御バリア機能(CBF)は、制御システムの安全性を強制するための一般的なツールとなっている。 CBFは2次プログラム定式化(CBF-QP)において、安全クリティカルな制約として一般的に使用される。 cbfのクラス$\mathcal{k}$関数は通常、各環境のパフォーマンスと安全性のトレードオフのバランスをとるために手動で調整する必要がある。 しかし、この過程はしばしばヒューリスティックであり、高相対度系では難解となる。 さらに、CBF-QPが現実世界の異なる環境に一般化することを防ぐ。 CBF-QPの最適化手順を深層学習アーキテクチャに組み込むことにより、前向きな不変性を保証する新しい環境への一般化を可能にする、差別化可能な最適化ベースの安全クリティカル制御フレームワークを提案する。 最後に,各環境における2次元および4重積分器システムによる制御設計の検証を行った。

Control barrier functions (CBFs) have become a popular tool to enforce safety of a control system. CBFs are commonly utilized in a quadratic program formulation (CBF-QP) as safety-critical constraints. A class $\mathcal{K}$ function in CBFs usually needs to be tuned manually in order to balance the trade-off between performance and safety for each environment. However, this process is often heuristic and can become intractable for high relative-degree systems. Moreover, it prevents the CBF-QP from generalizing to different environments in the real world. By embedding the optimization procedure of the CBF-QP as a differentiable layer within a deep learning architecture, we propose a differentiable optimization-based safety-critical control framework that enables generalization to new environments with forward invariance guarantees. Finally, we validate the proposed control design with 2D double and quadruple integrator systems in various environments.
翻訳日:2022-01-06 14:55:53 公開日:2022-01-04
# CAMELSプロジェクト:公開データリリース

The CAMELS project: public data release ( http://arxiv.org/abs/2201.01300v1 )

ライセンス: Link先を確認
Francisco Villaescusa-Navarro, Shy Genel, Daniel Angl\'es-Alc\'azar, Lucia A. Perez, Pablo Villanueva-Domingo, Digvijay Wadekar, Helen Shao, Faizan G. Mohammad, Sultan Hassan, Emily Moser, Erwin T. Lau, Luis Fernando Machado Poletti Valle, Andrina Nicola, Leander Thiele, Yongseok Jo, Oliver H. E. Philcox, Benjamin D. Oppenheimer, Megan Tillman, ChangHoon Hahn, Neerav Kaushal, Alice Pisani, Matthew Gebhardt, Ana Maria Delgado, Joyce Caliendo, Christina Kreisch, Kaze W.K. Wong, William R. Coulton, Michael Eickenberg, Gabriele Parimbelli, Yueying Ni, Ulrich P. Steinwandel, Valentina La Torre, Romeel Dave, Nicholas Battaglia, Daisuke Nagai, David N. Spergel, Lars Hernquist, Blakesley Burkhart, Desika Narayanan, Benjamin Wandelt, Rachel S. Somerville, Greg L. Bryan, Matteo Viel, Yin Li, Vid Irsic, Katarina Kraljic, Mark Vogelsberger(参考訳) camels(cosslogy and astrophysics with machine learning simulations)プロジェクトは、宇宙論と天体物理学を何千もの宇宙流体力学シミュレーションと機械学習で組み合わせるために開発された。 CAMELSには4,233の宇宙学シミュレーション、2,049のNボディ、2,184の最先端の流体力学シミュレーションがあり、パラメータ空間の膨大な量をサンプリングしている。 本稿では,ラクダシミュレーションの特徴とそれらから生成される様々なデータ製品,ハロ,サブハロ,銀河,ボイドカタログ,パワースペクトル,ビスペクトラ,ライマン=$\alpha$スペクトル,確率分布関数,ハロ放射状プロファイル,x線光子リストについて述べる。 CAMELS-SAMはサンタクルーズ半分析モデルと組み合わせた大量のN体シミュレーションのコレクションです。 350テラバイト以上、スナップショット143,922枚、数百万のハロ、銀河、要約統計を含む全てのデータを公開しています。 データのアクセス、ダウンロード、読み込み、処理に関する技術的な詳細は、 \url{https://camels.readthedocs.io}で公開しています。

The Cosmology and Astrophysics with MachinE Learning Simulations (CAMELS) project was developed to combine cosmology with astrophysics through thousands of cosmological hydrodynamic simulations and machine learning. CAMELS contains 4,233 cosmological simulations, 2,049 N-body and 2,184 state-of-the-art hydrodynamic simulations that sample a vast volume in parameter space. In this paper we present the CAMELS public data release, describing the characteristics of the CAMELS simulations and a variety of data products generated from them, including halo, subhalo, galaxy, and void catalogues, power spectra, bispectra, Lyman-$\alpha$ spectra, probability distribution functions, halo radial profiles, and X-rays photon lists. We also release over one thousand catalogues that contain billions of galaxies from CAMELS-SAM: a large collection of N-body simulations that have been combined with the Santa Cruz Semi-Analytic Model. We release all the data, comprising more than 350 terabytes and containing 143,922 snapshots, millions of halos, galaxies and summary statistics. We provide further technical details on how to access, download, read, and process the data at \url{https://camels.readthedocs.io}.
翻訳日:2022-01-06 14:24:29 公開日:2022-01-04
# 機械学習による天体物理スケール関係の増大 : SZフラックス質量散乱低減への応用

Augmenting astrophysical scaling relations with machine learning : application to reducing the SZ flux-mass scatter ( http://arxiv.org/abs/2201.01305v1 )

ライセンス: Link先を確認
Digvijay Wadekar, Leander Thiele, Francisco Villaescusa-Navarro, J. Colin Hill, David N. Spergel, Miles Cranmer, Nicholas Battaglia, Daniel Angl\'es-Alc\'azar, Lars Hernquist, Shirley Ho(参考訳) 複雑な系(恒星、超新星、銀河、銀河団)は、観測可能な性質(例えば、光度、速度分散、振動周期、温度)の間の低い散乱関係を示す。 これらのスケーリング関係は基礎となる物理学を照らし、質量と距離を推定するための観測ツールを提供することができる。 機械学習は、抽象的な高次元パラメータ空間において、新しいスケーリング関係(または既存の関係への単純な拡張)を探索する体系的な方法を提供する。 我々は、あるデータセットのパターンを解析方程式の形でモデル化する、シンボル回帰(SR)と呼ばれる機械学習ツールを使用する。 我々は、クラスター存在量データから宇宙論的パラメータの推測に影響を与える散乱である、sunyaev-zeldovich flux$-$cluster mass relation (y_\mathrm{sz}-m$)に注目した。 illustristng hydrodynamical simulationのデータにsrを用い、y_\mathrm{sz}$とイオン化ガス(c_\mathrm{gas}$): $m \propto y_\mathrm{conc}^{3/5} \equiv y_\mathrm{sz}^{3/5} (1-a\, c_\mathrm{gas})$を組み合わせたクラスター質量の新しいプロキシを見つける。 y_\mathrm{conc}$は、$y_\mathrm{sz}$を使用する場合に比べて、大クラスタ (m\gtrsim 10^{14}\, h^{-1} \, m_\odot$) に対して、予測された$m$の散乱を$\sim 20-30$%削減する。 c_\mathrm{gas}$ への依存は、外部よりも大きな散乱を示すクラスタのコアと関連していることを示す。 最後に、camelsプロジェクトのシミュレーションからクラスタ上で$y_\mathrm{conc}$をテストし、$y_\mathrm{conc}$が宇宙論、天体物理学、サブグリッド物理学、宇宙分散のバリエーションに対して堅牢であることを示す。 提案手法は, ACT, SO, SPT, eROSITA, CMB-S4などのX線サーベイおよびCMB-S4の高精度クラスタ質量推定に有用である。

Complex systems (stars, supernovae, galaxies, and clusters) often exhibit low scatter relations between observable properties (e.g., luminosity, velocity dispersion, oscillation period, temperature). These scaling relations can illuminate the underlying physics and can provide observational tools for estimating masses and distances. Machine learning can provide a systematic way to search for new scaling relations (or for simple extensions to existing relations) in abstract high-dimensional parameter spaces. We use a machine learning tool called symbolic regression (SR), which models the patterns in a given dataset in the form of analytic equations. We focus on the Sunyaev-Zeldovich flux$-$cluster mass relation ($Y_\mathrm{SZ}-M$), the scatter in which affects inference of cosmological parameters from cluster abundance data. Using SR on the data from the IllustrisTNG hydrodynamical simulation, we find a new proxy for cluster mass which combines $Y_\mathrm{SZ}$ and concentration of ionized gas ($c_\mathrm{gas}$): $M \propto Y_\mathrm{conc}^{3/5} \equiv Y_\mathrm{SZ}^{3/5} (1-A\, c_\mathrm{gas})$. $Y_\mathrm{conc}$ reduces the scatter in the predicted $M$ by $\sim 20-30$% for large clusters ($M\gtrsim 10^{14}\, h^{-1} \, M_\odot$) at both high and low redshifts, as compared to using just $Y_\mathrm{SZ}$. We show that the dependence on $c_\mathrm{gas}$ is linked to cores of clusters exhibiting larger scatter than their outskirts. Finally, we test $Y_\mathrm{conc}$ on clusters from simulations of the CAMELS project and show that $Y_\mathrm{conc}$ is robust against variations in cosmology, astrophysics, subgrid physics, and cosmic variance. Our results and methodology can be useful for accurate multiwavelength cluster mass estimation from current and upcoming CMB and X-ray surveys like ACT, SO, SPT, eROSITA and CMB-S4.
翻訳日:2022-01-06 14:24:05 公開日:2022-01-04
# 独自のビューを実現する - プレハブのないグラフコントラスト学習

Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations ( http://arxiv.org/abs/2201.01702v1 )

ライセンス: Link先を確認
Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen(参考訳) 自己監督はグラフ学習の新しいフロンティアで最近急増している。 ダウンストリームタスクにとって有益なグラフ表現を容易にするが、その成功はハンドクラフトのドメイン知識やしばしば高価な試行錯誤にかかっている。 最先端の代表であるグラフコントラスト学習(GraphCL)でさえ、グラフデータ拡張のアドホックな手動選択によって事前に反映された事前表現を使用するため、そのニーズを完全には実現していない。 当社の目標は、グラフ拡張ビューの空間をどのように表現するか、という質問に回答することで、graphclを前進させることです。 その領域で事前学習するために、どのような原則を頼りにできますか? 対照的な学習で事前学習するために、どのようなフレームワークを構築することができるのか? そこで,グラフ生成器のパラメータ空間における学習可能な連続先行値まで拡張し,画像多様体の概念に類似したグラフ先行値がデータ生成によって学習可能であることを仮定した。 さらに,先行学習可能性による自明な解に崩壊することなくコントラストビューを形成するために,情報最小化(infomin)と情報ボトルネック(infobn)の2つの原則を活用し,学習した事前を定式化する。 最終的に、対照的な学習、InfoMin、InfoBNは、双レベル最適化の1つのフレームワークに有機的に組み込まれます。 私たちの原則と自動化されたアプローチは、graphclを含む最先端のグラフ自己スーパービジョン手法と、小さなグラフのベンチマークで競合することが証明されています。 私たちのコードはhttps://github.com/Shen-Lab/GraphCL_Automated.comで公開されています。

Self-supervision is recently surging at its new frontier of graph learning. It facilitates graph representations beneficial to downstream tasks; but its success could hinge on domain knowledge for handcraft or the often expensive trials and errors. Even its state-of-the-art representative, graph contrastive learning (GraphCL), is not completely free of those needs as GraphCL uses a prefabricated prior reflected by the ad-hoc manual selection of graph data augmentations. Our work aims at advancing GraphCL by answering the following questions: How to represent the space of graph augmented views? What principle can be relied upon to learn a prior in that space? And what framework can be constructed to learn the prior in tandem with contrastive learning? Accordingly, we have extended the prefabricated discrete prior in the augmentation set, to a learnable continuous prior in the parameter space of graph generators, assuming that graph priors per se, similar to the concept of image manifolds, can be learned by data generation. Furthermore, to form contrastive views without collapsing to trivial solutions due to the prior learnability, we have leveraged both principles of information minimization (InfoMin) and information bottleneck (InfoBN) to regularize the learned priors. Eventually, contrastive learning, InfoMin, and InfoBN are incorporated organically into one framework of bi-level optimization. Our principled and automated approach has proven to be competitive against the state-of-the-art graph self-supervision methods, including GraphCL, on benchmarks of small graphs; and shown even better generalizability on large-scale graphs, without resorting to human expertise or downstream validation. Our code is publicly released at https://github.com/Shen-Lab/GraphCL_Automated.
翻訳日:2022-01-06 14:17:37 公開日:2022-01-04
# 音声言語認識のための階層モデル

A Hierarchical Model for Spoken Language Recognition ( http://arxiv.org/abs/2201.01364v1 )

ライセンス: Link先を確認
Luciana Ferrer, Diego Castan, Mitchell McLaren, Aaron Lawson(参考訳) 音声言語認識(slr)は、音声サンプルに存在する言語を決定するのに使用される自動プロセスを指す。 SLRは、例えば大量の多言語データを分析または分類するためのツールとして、それ自体が重要なタスクである。 さらに、例えば適切な音声認識や機械翻訳モデルを選択する作業フローにおいて、下流アプリケーションを選択するための必須のツールでもある。 slrシステムは通常、音声サンプルを表す埋め込みが抽出される2つのステージと、各言語の最終スコアを計算する2つのステージで構成される。 本研究では,SLRタスクを検出問題としてアプローチし,確率線形判別分析(PLDA)モデルとして第2段階を実装した。 PLDAパラメータの識別訓練は,通常の生成訓練において大きな利益をもたらすことを示す。 さらに,2つのpldaモデルを訓練した新しい階層的アプローチを提案する。1つは高度に関連する言語の集合に対してスコアを生成し,もう1つは各クラスタに条件付きスコアを生成する。 最終言語検出スコアは、これら2つのスコアの組み合わせとして計算される。 完全なモデルは、クロスエントロピー目的を最適化するために差別的に訓練される。 この階層的アプローチは、しばしば大きなマージンによって、高関係言語を検出する非階層的アプローチよりも一貫して優れていることを示す。 100の言語を含むデータセットのコレクションでシステムをトレーニングし、マッチした条件とミスマッチした条件の両方でテストします。

Spoken language recognition (SLR) refers to the automatic process used to determine the language present in a speech sample. SLR is an important task in its own right, for example, as a tool to analyze or categorize large amounts of multi-lingual data. Further, it is also an essential tool for selecting downstream applications in a work flow, for example, to chose appropriate speech recognition or machine translation models. SLR systems are usually composed of two stages, one where an embedding representing the audio sample is extracted and a second one which computes the final scores for each language. In this work, we approach the SLR task as a detection problem and implement the second stage as a probabilistic linear discriminant analysis (PLDA) model. We show that discriminative training of the PLDA parameters gives large gains with respect to the usual generative training. Further, we propose a novel hierarchical approach were two PLDA models are trained, one to generate scores for clusters of highly related languages and a second one to generate scores conditional to each cluster. The final language detection scores are computed as a combination of these two sets of scores. The complete model is trained discriminatively to optimize a cross-entropy objective. We show that this hierarchical approach consistently outperforms the non-hierarchical one for detection of highly related languages, in many cases by large margins. We train our systems on a collection of datasets including 100 languages and test them both on matched and mismatched conditions, showing that the gains are robust to condition mismatch.
翻訳日:2022-01-06 14:16:58 公開日:2022-01-04
# DenseTact:Dense形状再構成のための光学触覚センサ

DenseTact: Optical Tactile Sensor for Dense Shape Reconstruction ( http://arxiv.org/abs/2201.01367v1 )

ライセンス: Link先を確認
Won Kyung Do and Monroe Kennedy III(参考訳) ロボットにおける触覚センシングの性能向上は、多目的で手動操作を可能にする。 視覚に基づく触覚センサは、リッチな触覚フィードバックが操作タスクのパフォーマンス向上と相関していることが示されている。 高解像度の既存の触覚センサーソリューションには、低い精度、高価なコンポーネント、スケーラビリティの欠如を含む制限がある。 本稿では,3次元センサの表面再構成のための高分解能表面変形モデリングによる安価でスケーラブルでコンパクトな触覚センサを提案する。 魚眼カメラから画像を測定することにより,深い畳み込みニューラルネットワークを用いて,センサがリアルタイム(1.8ms)の表面変形を推定できることが示されている。 このセンサの設計とセンシング能力は、高分解能形状再構成によってすべて可能となる、より優れたオブジェクトのローカライズ、分類、表面推定のための重要なステップである。

Increasing the performance of tactile sensing in robots enables versatile, in-hand manipulation. Vision-based tactile sensors have been widely used as rich tactile feedback has been shown to be correlated with increased performance in manipulation tasks. Existing tactile sensor solutions with high resolution have limitations that include low accuracy, expensive components, or lack of scalability. In this paper, an inexpensive, scalable, and compact tactile sensor with high-resolution surface deformation modeling for surface reconstruction of the 3D sensor surface is proposed. By measuring the image from the fisheye camera, it is shown that the sensor can successfully estimate the surface deformation in real-time (1.8ms) by using deep convolutional neural networks. This sensor in its design and sensing abilities represents a significant step toward better object in-hand localization, classification, and surface estimation all enabled by high-resolution shape reconstruction.
翻訳日:2022-01-06 14:16:37 公開日:2022-01-04
# 線形変分状態空間フィルタリング

Linear Variational State Space Filtering ( http://arxiv.org/abs/2201.01353v1 )

ライセンス: Link先を確認
Daniel Pfrommer, Nikolai Matni(参考訳) 原画素からの潜在マルコフ状態空間モデルの教師なし学習,識別,フィルタリングのための新しい手法である変分状態空間フィルタ(VSSF)を導入する。 不均一なセンサ構成下での潜在状態空間推定のための理論的に健全な枠組みを提案する。 結果として得られたモデルは、トレーニング中に使用されるセンサ測定の任意のサブセットを統合することができ、半教師状態表現の学習を可能にし、学習された潜在状態空間の特定の構成要素が解釈可能な測定と一致するようにする。 このフレームワークからL-VSSFを導出し、線形潜在力学とガウス分布パラメータ化を用いたモデルの明示的なインスタンス化を行う。 L-VSSFが複数の異なるテスト環境にわたってトレーニングデータセットのシーケンス長を超える潜時空間でフィルタリングできることを実験的に示す。

We introduce Variational State-Space Filters (VSSF), a new method for unsupervised learning, identification, and filtering of latent Markov state space models from raw pixels. We present a theoretically sound framework for latent state space inference under heterogeneous sensor configurations. The resulting model can integrate an arbitrary subset of the sensor measurements used during training, enabling the learning of semi-supervised state representations, thus enforcing that certain components of the learned latent state space to agree with interpretable measurements. From this framework we derive L-VSSF, an explicit instantiation of this model with linear latent dynamics and Gaussian distribution parameterizations. We experimentally demonstrate L-VSSF's ability to filter in latent space beyond the sequence length of the training dataset across several different test environments.
翻訳日:2022-01-06 13:52:56 公開日:2022-01-04
# ZeroBERTo -- トピックモデリングによるゼロショットテキスト分類の活用

ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling ( http://arxiv.org/abs/2201.01337v1 )

ライセンス: Link先を確認
Alexandre Alcoforado, Thomas Palmeira Ferraz, Rodrigo Gerber, Enzo Bustos, Andr\'e Seidel Oliveira, Bruno Miguel Veloso, Fabio Levy Siqueira, Anna Helena Reali Costa(参考訳) 従来のテキスト分類手法は、しばしば大量のラベル付きデータを必要とするが、特に制限されたドメインやあまり普及していない言語では入手が困難である。 このラベル付きデータの欠如は、自然言語処理における低データ可用性を前提とした低リソースメソッドの台頭につながった。 中でもゼロショット学習は際立っており、以前のラベル付きデータなしで分類器を学習する。 このアプローチで報告された最良の結果はトランスフォーマーのような言語モデルであるが、高い実行時間と長いテキストを入力として処理できないという2つの問題に陥る。 本稿では,分類タスクの前に圧縮データ表現を得るために教師なしクラスタリングステップを利用する新しいモデルであるzerobertoを提案する。 また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。 キーワード:低リソースNLP、ラベルなしデータ、ゼロショット学習、トピックモデリング、トランスフォーマー。

Traditional text classification approaches often require a good amount of labeled data, which is difficult to obtain, especially in restricted domains or less widespread languages. This lack of labeled data has led to the rise of low-resource methods, that assume low data availability in natural language processing. Among them, zero-shot learning stands out, which consists of learning a classifier without any previously labeled data. The best results reported with this approach use language models such as Transformers, but fall into two problems: high execution time and inability to handle long texts as input. This paper proposes a new model, ZeroBERTo, which leverages an unsupervised clustering step to obtain a compressed data representation before the classification task. We show that ZeroBERTo has better performance for long inputs and shorter execution time, outperforming XLM-R by about 12% in the F1 score in the FolhaUOL dataset. Keywords: Low-Resource NLP, Unlabeled data, Zero-Shot Learning, Topic Modeling, Transformers.
翻訳日:2022-01-06 13:28:20 公開日:2022-01-04
# (参考訳) クラウドソーシングによる半構造化音声記録からの自閉症の分類:機械学習アプローチ

Classifying Autism from Crowdsourced Semi-Structured Speech Recordings: A Machine Learning Approach ( http://arxiv.org/abs/2201.00927v1 )

ライセンス: CC BY 4.0
Nathan A. Chi, Peter Washington, Aaron Kline, Arman Husic, Cathy Hou, Chloe He, Kaitlyn Dunlap, and Dennis Wall(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、行動の変化、社会的発達、コミュニケーションパターンをもたらす神経発達障害である。 近年では自閉症の有病率は3倍になり、54人中1人が影響を受けた。 従来の診断が長く、労働集約的なプロセスであることを考えると、自閉症を自動スクリーニングするシステムの開発に重要な注意が向けられている。 韻律異常は自閉症の最も明確な兆候の一つであり、患児はエコー、単調なイントネーション、非典型的ピッチ、不規則な言語的ストレスパターンを含む音声の同調を示す。 本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。 まず,抽出音声の特徴(メル周波数ケプストラム係数を含む)を訓練したランダムフォレスト,分光法を訓練した第2の畳み込みニューラルネットワーク(CNN),第3の細調整wav2vec 2.0(最先端トランスフォーマーベースASRモデル)について検討した。 私たちは、スタンフォードのGuess What?から収集された携帯電話で録音された音声のデータセットに基づいて、分類器を訓練します。 モバイルゲーム(mobile game)は、自閉症や神経質な子供のビデオを、自然の家庭環境でクラウドソースするアプリだ。 ランダムフォレスト分類器は70%の精度、微調整されたwav2vec 2.0モデルは77%の精度、CNNは79%の精度で子供の音声をASDまたはNTに分類する。 本モデルでは, 実環境においてより一般化可能な, 録音品質の相容れない家庭内オーディオクリップの選択を訓練する際に, 自閉症状態を予測することができた。 これらの結果から,機械学習手法が音声から自閉症を自動的に検出する可能性を示唆している。

Autism spectrum disorder (ASD) is a neurodevelopmental disorder which results in altered behavior, social development, and communication patterns. In past years, autism prevalence has tripled, with 1 in 54 children now affected. Given that traditional diagnosis is a lengthy, labor-intensive process, significant attention has been given to developing systems that automatically screen for autism. Prosody abnormalities are among the clearest signs of autism, with affected children displaying speech idiosyncrasies including echolalia, monotonous intonation, atypical pitch, and irregular linguistic stress patterns. In this work, we present a suite of machine learning approaches to detect autism in self-recorded speech audio captured from autistic and neurotypical (NT) children in home environments. We consider three methods to detect autism in child speech: first, Random Forests trained on extracted audio features (including Mel-frequency cepstral coefficients); second, convolutional neural networks (CNNs) trained on spectrograms; and third, fine-tuned wav2vec 2.0--a state-of-the-art Transformer-based ASR model. We train our classifiers on our novel dataset of cellphone-recorded child speech audio curated from Stanford's Guess What? mobile game, an app designed to crowdsource videos of autistic and neurotypical children in a natural home environment. The Random Forest classifier achieves 70% accuracy, the fine-tuned wav2vec 2.0 model achieves 77% accuracy, and the CNN achieves 79% accuracy when classifying children's audio as either ASD or NT. Our models were able to predict autism status when training on a varied selection of home audio clips with inconsistent recording quality, which may be more generalizable to real world conditions. These results demonstrate that machine learning methods offer promise in detecting autism automatically from speech without specialized equipment.
翻訳日:2022-01-05 22:03:02 公開日:2022-01-04
# (参考訳) 畳み込みニューラルネットワークを用いた正常化乳腺病理画像認識によるがん検出

Stain Normalized Breast Histopathology Image Recognition using Convolutional Neural Networks for Cancer Detection ( http://arxiv.org/abs/2201.00957v1 )

ライセンス: CC BY 4.0
Sruthi Krishna, Suganthi S.S, Shivsubramani Krishnamoorthy, Arnav Bhavsar(参考訳) デジタル病理学におけるコンピュータ支援診断は、より効率的で客観的な医療診断を提供するため、広く普及している。 近年の進歩により、畳み込みニューラルネットワーク(CNN)アーキテクチャは、確立されたディープラーニングパラダイムであり、乳がん検出のためのコンピュータ支援診断(CAD)システムの設計に利用できることが示されている。 しかし, 染色の多様性や, このような深層学習フレームワークによる染色正規化の影響による課題については, まだ十分に検討されていない。 Moreover, performance analysis with arguably more efficient network models, which may be important for high throughput screening, is also not well explored.To address this challenge, we consider some contemporary CNN models for binary classification of breast histopathology images that involves (1) the data preprocessing with stain normalized images using an adaptive colour deconvolution (ACD) based color normalization algorithm to handle the stain variabilities; and (2) applying transfer learning based training of some arguably more efficient CNN models, namely Visual Geometry Group Network (VGG16), MobileNet and EfficientNet. 我々は,200倍,400倍に拡大した病理像に対して,トレーニング済みCNNネットワークを公開データセット上で検証した。 実験により, トレーニング済みのネットワークは, 染色正常化のない場合よりも, 染色正常化を伴う乳腺病理像の高画質化に寄与することがわかった。 さらに,steit正規化画像を用いて,人気のある軽量ネットワークの性能と効率を評価し,テスト精度とf1スコアの点でeffernetがvgg16やmobilenetよりも優れていることを発見した。 我々は,VGGNetやMobileNetなど他のネットワークに比べて,テスト時間の面での効率性は高いが,分類精度はそれほど低下しない。

Computer assisted diagnosis in digital pathology is becoming ubiquitous as it can provide more efficient and objective healthcare diagnostics. Recent advances have shown that the convolutional Neural Network (CNN) architectures, a well-established deep learning paradigm, can be used to design a Computer Aided Diagnostic (CAD) System for breast cancer detection. However, the challenges due to stain variability and the effect of stain normalization with such deep learning frameworks are yet to be well explored. Moreover, performance analysis with arguably more efficient network models, which may be important for high throughput screening, is also not well explored.To address this challenge, we consider some contemporary CNN models for binary classification of breast histopathology images that involves (1) the data preprocessing with stain normalized images using an adaptive colour deconvolution (ACD) based color normalization algorithm to handle the stain variabilities; and (2) applying transfer learning based training of some arguably more efficient CNN models, namely Visual Geometry Group Network (VGG16), MobileNet and EfficientNet. We have validated the trained CNN networks on a publicly available BreaKHis dataset, for 200x and 400x magnified histopathology images. The experimental analysis shows that pretrained networks in most cases yield better quality results on data augmented breast histopathology images with stain normalization, than the case without stain normalization. Further, we evaluated the performance and efficiency of popular lightweight networks using stain normalized images and found that EfficientNet outperforms VGG16 and MobileNet in terms of test accuracy and F1 Score. We observed that efficiency in terms of test time is better in EfficientNet than other networks; VGG Net, MobileNet, without much drop in the classification accuracy.
翻訳日:2022-01-05 21:51:49 公開日:2022-01-04
# (参考訳) ニューラルピースワイズ・コンスタント遅延微分方程式

Neural Piecewise-Constant Delay Differential Equations ( http://arxiv.org/abs/2201.00960v1 )

ライセンス: CC BY 4.0
Qunxi Zhu and Yifei Shen and Dongsheng Li and Wei Lin(参考訳) 近年、neural ordinary differential equation(odes)のような連続的な深層ニューラルネットワークは、ディープラーニングとデータサイエンスのコミュニティから大きな関心を集めており、ディープニューラルネットワークと動的システムの間の接続を橋渡ししている。 本稿では,PCDDE(Neural Piecewise-Constant Delay Differential Equations)と呼ばれる,連続深度ニューラルネットワークについて紹介する。 ここで,最近提案されたニューラル遅延微分方程式(ddes)の枠組みとは異なり,単一遅延を分割定数遅延に変換する。 このような変換を持つニューラルPCDDEは、ニューラルDDEの普遍近似能力の強さを継承する。 一方、ニューラルネットワークPCDDEは、過去の複数のステップからの情報提供を活用し、ネットワーク次元を増大させることなくモデリング能力をさらに向上させる。 このような促進により、Neural PCDDEは、MNIST、CIFAR10、SVHNなどの1次元の遅延人口動態と実世界のデータセットにおいて、既存の連続深度ニューラルネットワークフレームワークよりも優れていることを示す。

Continuous-depth neural networks, such as the Neural Ordinary Differential Equations (ODEs), have aroused a great deal of interest from the communities of machine learning and data science in recent years, which bridge the connection between deep neural networks and dynamical systems. In this article, we introduce a new sort of continuous-depth neural network, called the Neural Piecewise-Constant Delay Differential Equations (PCDDEs). Here, unlike the recently proposed framework of the Neural Delay Differential Equations (DDEs), we transform the single delay into the piecewise-constant delay(s). The Neural PCDDEs with such a transformation, on one hand, inherit the strength of universal approximating capability in Neural DDEs. On the other hand, the Neural PCDDEs, leveraging the contributions of the information from the multiple previous time steps, further promote the modeling capability without augmenting the network dimension. With such a promotion, we show that the Neural PCDDEs do outperform the several existing continuous-depth neural frameworks on the one-dimensional piecewise-constant delay population dynamics and real-world datasets, including MNIST, CIFAR10, and SVHN.
翻訳日:2022-01-05 21:40:55 公開日:2022-01-04
# (参考訳) ニッピング・イン・ザ・バッド:ソーシャルメディアにおけるヘイトスピーチの検出、拡散、緩和

Nipping in the Bud: Detection, Diffusion and Mitigation of Hate Speech on Social Media ( http://arxiv.org/abs/2201.00961v1 )

ライセンス: CC BY 4.0
Tanmoy Chakraborty, Sarah Masud(参考訳) ソーシャルメディアの利用が急増して以来、ヘイトスピーチは深刻な危機となっている。 不快なコンテンツは素早く広がり、苦痛と敵意の環境を作ることができる。 さらに、憎悪と見なされるものは文脈的であり、時間によって異なる。 オンラインヘイトスピーチは、既に疎外されたグループが自由に議論に参加する能力を減らすが、オフラインヘイトスピーチは、憎悪犯罪や個人やコミュニティに対する暴力につながる。 ヘイトスピーチの多面的な性質とその現実世界への影響は、データマイニングと機械学習コミュニティの関心をすでに高めている。 私たちのベストな努力にもかかわらず、ヘイトスピーチは研究者や実践者にとっても避けられない問題です。 本稿では,自動ヘイト緩和システムの構築を妨げる方法論的課題について述べる。 これらの課題は、web上の憎しみのあるコンテンツと戦う幅広い領域において、私たちの仕事に刺激を与えました。 ソーシャルメディア上でのヘイトスピーチの拡散を制限するための一連のソリューションについて論じる。

Since the proliferation of social media usage, hate speech has become a major crisis. Hateful content can spread quickly and create an environment of distress and hostility. Further, what can be considered hateful is contextual and varies with time. While online hate speech reduces the ability of already marginalised groups to participate in discussion freely, offline hate speech leads to hate crimes and violence against individuals and communities. The multifaceted nature of hate speech and its real-world impact have already piqued the interest of the data mining and machine learning communities. Despite our best efforts, hate speech remains an evasive issue for researchers and practitioners alike. This article presents methodological challenges that hinder building automated hate mitigation systems. These challenges inspired our work in the broader area of combating hateful content on the web. We discuss a series of our proposed solutions to limit the spread of hate speech on social media.
翻訳日:2022-01-05 21:18:14 公開日:2022-01-04
# (参考訳) ナノスケール顕微鏡におけるAI可視化

AI visualization in Nanoscale Microscopy ( http://arxiv.org/abs/2201.00966v1 )

ライセンス: CC BY 4.0
Rajagopal A (1), Nirmala V (2), Andrew J (3), Arun Muthuraj Vedamanickam. ((1) Indian Institute of Technology Madras, (2) Queen Marys College, (3) Karunya Institute of Technology and Sciences. India)(参考訳) 人工知能とナノテクノロジーは人類の未来に有望な分野である。 ディープラーニングをベースとするComputer Visionは、医学から自動車まで、多くの分野の応用を見出しているが、ナノテクノロジーの応用は、新しい科学的発見の扉を開くことができる。 ナノスケールサイズの物体など、目が見えない物体を探索するためにaiを応用できますか? ディープラーニングニューラルネットワークによって学習されるナノスケールパターンを視覚化するaiプラットフォームは、ナノテクノロジーの新しいフロンティアを開くことができる。 本研究の目的は,走査型電子顕微鏡により得られたナノ材料の画像を用いた深層学習に基づく可視化システムの開発である。 本稿では、ナノマテリアルのナノスケール形態の視覚的探索に、あらゆるナノサイエンス研究者がAIを利用できるようにするためのAIプラットフォームを提供する。 このaiは畳み込みオートエンコーダの中間アクティベーションを可視化する技術によって開発された。 この方法では、ナノスケールの検体画像が畳み込みニューラルネットワークによって特徴表現に変換される。 Convolutional AutoEncoderは100%SEMデータセットでトレーニングされ、CNNビジュアライゼーションが適用される。 このAIはナノマテリアルの様々な概念的特徴表現を生成する。 ディープラーニングに基づくSEM画像のイメージ分類は文献で広く公開されているが、ナノマテリアルのディープニューラルネットワークを視覚化した出版物はあまりない。 機械学習によって抽出された学習から洞察を得る大きな機会がある。 本稿では,Deep Learning based Visualization on Electron microscopyを応用し,様々なナノマテリアルのAI抽出特徴とアーキテクチャパターンを提供する。 これはナノスケールオブジェクトにおける説明可能なAIへの貢献である。 本稿では、URLで再現可能な結果を提供するオープンソースAI(https://sites.google.com/view/aifornanotechnology)を提案する。

Artificial Intelligence & Nanotechnology are promising areas for the future of humanity. While Deep Learning based Computer Vision has found applications in many fields from medicine to automotive, its application in nanotechnology can open doors for new scientific discoveries. Can we apply AI to explore objects that our eyes can't see such as nano scale sized objects? An AI platform to visualize nanoscale patterns learnt by a Deep Learning neural network can open new frontiers for nanotechnology. The objective of this paper is to develop a Deep Learning based visualization system on images of nanomaterials obtained by scanning electron microscope. This paper contributes an AI platform to enable any nanoscience researcher to use AI in visual exploration of nanoscale morphologies of nanomaterials. This AI is developed by a technique of visualizing intermediate activations of a Convolutional AutoEncoder. In this method, a nano scale specimen image is transformed into its feature representations by a Convolution Neural Network. The Convolutional AutoEncoder is trained on 100% SEM dataset, and then CNN visualization is applied. This AI generates various conceptual feature representations of the nanomaterial. While Deep Learning based image classification of SEM images are widely published in literature, there are not much publications that have visualized Deep neural networks of nanomaterials. There is a significant opportunity to gain insights from the learnings extracted by machine learning. This paper unlocks the potential of applying Deep Learning based Visualization on electron microscopy to offer AI extracted features and architectural patterns of various nanomaterials. This is a contribution in Explainable AI in nano scale objects. This paper contributes an open source AI with reproducible results at URL (https://sites.google.com/view/aifornanotechnology)
翻訳日:2022-01-05 21:06:57 公開日:2022-01-04
# (参考訳) 女性の安全における夜景理解のために、低照度写真を字幕に翻訳するInteractive Attention AI

Interactive Attention AI to translate low light photos to captions for night scene understanding in women safety ( http://arxiv.org/abs/2201.00969v1 )

ライセンス: CC BY 4.0
Rajagopal A, Nirmala V, Arun Muthuraj Vedamanickam(参考訳) 画像キャプションと低光画像強調のためのディープラーニングベースのモデルには驚くべき進歩があります。 文学において初めて、夜間シーンを文に変換するディープラーニングモデルを開発し、視覚障害者の安全におけるAI応用の可能性を広げる。 画像キャプションと視覚的質問応答にインスパイアされた新しいインタラクティブ画像キャプションを開発した。 ユーザは、注目スコアに影響を与えることで、選択した関係者にAIを集中させることができる。 cnn特徴ベクトルとユーザ提供開始語から注意コンテキストベクトルを算出する。 Encoder-Attention-Decoderニューラルネットワークは、低輝度画像からキャプションを生成することを学ぶ。 本稿では,夜の環境知覚のための対話型視覚言語モデルにおける新たなai能力の研究により,女性の安全を実現する方法を示す。

There is amazing progress in Deep Learning based models for Image captioning and Low Light image enhancement. For the first time in literature, this paper develops a Deep Learning model that translates night scenes to sentences, opening new possibilities for AI applications in the safety of visually impaired women. Inspired by Image Captioning and Visual Question Answering, a novel Interactive Image Captioning is developed. A user can make the AI focus on any chosen person of interest by influencing the attention scoring. Attention context vectors are computed from CNN feature vectors and user-provided start word. The Encoder-Attention-Decoder neural network learns to produce captions from low brightness images. This paper demonstrates how women safety can be enabled by researching a novel AI capability in the Interactive Vision-Language model for perception of the environment in the night.
翻訳日:2022-01-05 20:59:28 公開日:2022-01-04
# (参考訳) 水中物体の分類と検出:第一報と今後の課題

Underwater Object Classification and Detection: first results and open challenges ( http://arxiv.org/abs/2201.00977v1 )

ライセンス: CC BY 4.0
Andre Jesus, Claudio Zito, Claudio Tortorici, Eloy Roura, Giulia De Masi(参考訳) 本研究は,水中環境における物体検出の問題点を概観する。 我々は,この困難な環境に適用するコンピュータビジョンコミュニティにおける従来の最先端(sota)アルゴリズムの欠点を分析し,定量化するとともに,今後の研究に向けた洞察とガイドラインを提供する。 まず,物体検出装置を異なる特徴分布によって特徴付けられる環境に適用する必要がある場合に,従来のイメージネットによる事前学習が有用であるかどうかを評価する。 次に, 単段検出器について, 精度, 結合の交わり (IoU) , 浮動小数点演算 (FLOPS) , 推測時間の観点から, 2段検出器が良好な性能を発揮するかを検討した。 最後に、より厳しい条件を想定した実際のシナリオでの性能をシミュレートするために、各モデルの一般化能力を低品質データセットに評価した。 実験の結果, 水中物体検出には, 単にSOTAアーキテクチャを新しいデータで訓練するだけではなく, アドホックなアーキテクチャを探索する必要があるという証拠が得られた。

This work reviews the problem of object detection in underwater environments. We analyse and quantify the shortcomings of conventional state-of-the-art (SOTA) algorithms in the computer vision community when applied to this challenging environment, as well as providing insights and general guidelines for future research efforts. First, we assessed if pretraining with the conventional ImageNet is beneficial when the object detector needs to be applied to environments that may be characterised by a different feature distribution. We then investigate whether two-stage detectors yields to better performance with respect to single-stage detectors, in terms of accuracy, intersection of union (IoU), floating operation per second (FLOPS), and inference time. Finally, we assessed the generalisation capability of each model to a lower quality dataset to simulate performance on a real scenario, in which harsher conditions ought to be expected. Our experimental results provide evidence that underwater object detection requires searching for "ad-hoc" architectures than merely training SOTA architectures on new data, and that pretraining is not beneficial.
翻訳日:2022-01-05 20:51:53 公開日:2022-01-04
# (参考訳) 多様なビデオキャプションのための変動重畳ローカルアテンションネットワーク

Variational Stacked Local Attention Networks for Diverse Video Captioning ( http://arxiv.org/abs/2201.00985v1 )

ライセンス: CC BY 4.0
Tonmoay Deb, Akib Sadmanee, Kishor Kumar Bhaumik, Amin Ahsan Ali, M Ashraful Amin, A K M Mahbubur Rahman(参考訳) 時空間事象を自然言語で記述する一方で、ビデオキャプションモデルはエンコーダの潜在視覚表現に依存している。 エンコーダ-デコーダモデルの最近の進歩は、主にデコーダとの線形相互作用においてエンコーダの特徴に付随する。 しかしながら、視覚データに対するモデル複雑さの増大は、ビデオキャプション領域に現在存在しない、きめ細かい情報に対するより明示的な特徴相互作用を促進する。 さらに、特徴集約法は、連結または線形層を用いて、よりリッチな視覚表現を明らかにするために使われてきた。 ビデオの機能セットは意味論的にある程度重複するが、これらのアプローチは客観的なミスマッチと特徴冗長性をもたらす。 加えて、キャプションの多様性は、いくつかの意味ある視点から1つのイベントを表現する基本的な要素であり、現在は時間的、すなわちビデオキャプション領域に欠けている。 そこで本研究では,低ランクな双線形プールによる自己注意的特徴の相互作用と,複数のビデオ特徴ストリームを割引方式で積み重ねたVSLANを提案する。 各特徴スタックの学習属性は、提案した多様性符号化モジュールに寄与し、続いてデコードクエリステージにより、属性を明示的に監視することなく、エンドツーエンドの多様な自然なキャプションを容易にする。 構文および多様性の観点から,MSVDおよびMSR-VTTデータセット上でVSLANを評価する。 VSLANのCIDErスコアは、MSVDでは7.8 %、MSR-VTTでは4.5 %である。 同じデータセット上で、VSLANはキャプションの多様性メトリクスで競合する結果を達成する。

While describing Spatio-temporal events in natural language, video captioning models mostly rely on the encoder's latent visual representation. Recent progress on the encoder-decoder model attends encoder features mainly in linear interaction with the decoder. However, growing model complexity for visual data encourages more explicit feature interaction for fine-grained information, which is currently absent in the video captioning domain. Moreover, feature aggregations methods have been used to unveil richer visual representation, either by the concatenation or using a linear layer. Though feature sets for a video semantically overlap to some extent, these approaches result in objective mismatch and feature redundancy. In addition, diversity in captions is a fundamental component of expressing one event from several meaningful perspectives, currently missing in the temporal, i.e., video captioning domain. To this end, we propose Variational Stacked Local Attention Network (VSLAN), which exploits low-rank bilinear pooling for self-attentive feature interaction and stacking multiple video feature streams in a discount fashion. Each feature stack's learned attributes contribute to our proposed diversity encoding module, followed by the decoding query stage to facilitate end-to-end diverse and natural captions without any explicit supervision on attributes. We evaluate VSLAN on MSVD and MSR-VTT datasets in terms of syntax and diversity. The CIDEr score of VSLAN outperforms current off-the-shelf methods by $7.8\%$ on MSVD and $4.5\%$ on MSR-VTT, respectively. On the same datasets, VSLAN achieves competitive results in caption diversity metrics.
翻訳日:2022-01-05 20:39:45 公開日:2022-01-04
# (参考訳) ハイパースペクトル画像分類のためのハイブリッドデンスネットワークとの注意機構

Attention Mechanism Meets with Hybrid Dense Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2201.01001v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Adil Mehmood Khan, Manuel Mazzara, Salvatore Distefano, Swalpa Kumar Roy and Xin Wu(参考訳) 畳み込みニューラルネットワーク(CNN)は、実際より適している。 しかしながら、固定されたカーネルサイズは従来のcnnをあまりにも具体的であり、柔軟性も特徴学習にも寄与しないため、分類精度に影響を及ぼす。 異なるカーネルサイズネットワークの畳み込みは、より識別され関連する情報をキャプチャすることでこの問題を克服することができる。 提案手法は,3Dと2Dインセプションネットのコアアイデアとアテンション機構を組み合わせることで,ハイブリッドシナリオにおけるHSIC CNNの性能向上を図ることを目的としている。 結果として得られた \textit{attention-fused hybrid network} (afnet) は、各ブロックに異なるカーネルを持つ3つの注意操作された並列ハイブリッドサブネットに基づいている。 要するに、afnetは分類に不可欠な識別的特徴を選択的にフィルターすることができる。 HSIデータセットのいくつかのテストは、最先端のモデルと比較して、AfNetの競合結果を提供した。 提案するパイプラインは、実際には、インド松の97\%、ボツワナの100\%、パヴィア大学、パヴィアセンター、サリナスデータセットの99\%という全体的な精度を達成した。

Convolutional Neural Networks (CNN) are more suitable, indeed. However, fixed kernel sizes make traditional CNN too specific, neither flexible nor conducive to feature learning, thus impacting on the classification accuracy. The convolution of different kernel size networks may overcome this problem by capturing more discriminating and relevant information. In light of this, the proposed solution aims at combining the core idea of 3D and 2D Inception net with the Attention mechanism to boost the HSIC CNN performance in a hybrid scenario. The resulting \textit{attention-fused hybrid network} (AfNet) is based on three attention-fused parallel hybrid sub-nets with different kernels in each block repeatedly using high-level features to enhance the final ground-truth maps. In short, AfNet is able to selectively filter out the discriminative features critical for classification. Several tests on HSI datasets provided competitive results for AfNet compared to state-of-the-art models. The proposed pipeline achieved, indeed, an overall accuracy of 97\% for the Indian Pines, 100\% for Botswana, 99\% for Pavia University, Pavia Center, and Salinas datasets.
翻訳日:2022-01-05 20:38:36 公開日:2022-01-04
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v1 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaipin Lin, Shilin Zho(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/xinyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/XinyiYing/MoCoPnet.
翻訳日:2022-01-05 20:17:11 公開日:2022-01-04
# (参考訳) 間隔値q-rung直交ファジィ環境下での批判群決定法の統合

A integrating critic-waspas group decision making method under interval-valued q-rung orthogonal fuzzy enviroment ( http://arxiv.org/abs/2201.01027v1 )

ライセンス: CC BY 4.0
Benting Wan, Shufen Zhou(参考訳) 本稿では,重みと属性の重みが未知な多属性群意思決定のための新しいツールを提案する。 本稿では,Yager演算子とCRITIC-WASPAS法に基づいて,時間間隔値の一般化直交ファジィ群決定法を提案する。 この方法は、Yager演算子、CRITIC、WASPAS、および区間値一般化直交ファジィ群を統合する。 その利点は、意思決定者がより大きな自由を許容し、意思決定者の重みによる偏見を避け、正確な評価を得ることである。 本研究は、類似度測定と意思決定法の比較・適用のための区間値一般化距離測定方法の拡大、区間値一般化直交ファジィ数のサイズ比較のための新たなスコアリング関数の開発、およびさらに既存の研究を含む。 情報集約には、間隔値Yager重み付き平均演算子(IVq-ROFYWA)とYager重み付き幾何平均演算子(IVq-ROFYWG)が使用される。 CRITIC-WASPAS は、CRITIC と WASPAS の利点を組み合わせ、単一の決定で機能するだけでなく、グループ決定の基盤としても機能する。 意思決定者の重み行列の詳細な研究は、決定を全体として捉える際の欠点を克服し、意思決定者の情報集約を重み付けする。 最後に、群決定アルゴリズムは高血圧リスク管理に使用される。 結果は意思決定者の意見と一致している。 本論文では,本手法の有効性を実証し,実例分析を行った。 同時に、他の演算子や意思決定方法と比較し、その方法が効果的かつ実現可能であることを示す。

This paper provides a new tool for multi-attribute multi-objective group decision-making with unknown weights and attributes' weights. An interval-valued generalized orthogonal fuzzy group decision-making method is proposed based on the Yager operator and CRITIC-WASPAS method with unknown weights. The method integrates Yager operator, CRITIC, WASPAS, and interval value generalized orthogonal fuzzy group. Its merits lie in allowing decision-makers greater freedom, avoiding bias due to decision-makers' weight, and yielding accurate evaluation. The research includes: expanding the interval value generalized distance measurement method for comparison and application of similarity measurement and decision-making methods; developing a new scoring function for comparing the size of interval value generalized orthogonal fuzzy numbers,and further existing researches. The proposed interval-valued Yager weighted average operator (IVq-ROFYWA) and Yager weighted geometric average operator (IVq-ROFYWG) are used for information aggregation. The CRITIC-WASPAS combines the advantages of CRITIC and WASPAS, which not only work in the single decision but also serve as the basis of the group decision. The in-depth study of the decision-maker's weight matrix overcomes the shortcomings of taking the decision as a whole, and weighs the decision-maker's information aggregation. Finally, the group decision algorithm is used for hypertension risk management. The results are consistent with decision-makers' opinions. Practice and case analysis have proved the effectiveness of the method proposed in this paper. At the same time, it is compared with other operators and decision-making methods, which proves the method effective and feasible.
翻訳日:2022-01-05 19:43:31 公開日:2022-01-04
# (参考訳) クラスインクリメンタルセグメンテーションのための弱教師付き連続学習

Weakly-supervised continual learning for class-incremental segmentation ( http://arxiv.org/abs/2201.01029v1 )

ライセンス: CC BY 4.0
Gaston Lenczner, Adrien Chan-Hon-Tong, Nicola Luminari, Bertrand Le Saux(参考訳) 転送学習は、既存のディープラーニングモデルを新しいリモートセンシングのユースケースに適応させる強力な方法である。 すでにセマンティクスセグメンテーションのために訓練されたニューラルネットワークから始め、弱い監督下で新しいクラスに素早く適応するためにラベル空間を変更することを提案する。 このような連続学習に内在する背景シフトと破滅的な忘れ問題を軽減するために,異なる正規化項を比較し,擬似ラベル戦略を活用した。 3つのパブリックリモートセンシングデータセットに対するアプローチの有効性を実験的に示す。

Transfer learning is a powerful way to adapt existing deep learning models to new emerging use-cases in remote sensing. Starting from a neural network already trained for semantic segmentation, we propose to modify its label space to swiftly adapt it to new classes under weak supervision. To alleviate the background shift and the catastrophic forgetting problems inherent to this form of continual learning, we compare different regularization terms and leverage a pseudo-label strategy. We experimentally show the relevance of our approach on three public remote sensing datasets.
翻訳日:2022-01-05 19:42:14 公開日:2022-01-04
# (参考訳) DIAL:リモートセンシングにおけるセマンティックセグメンテーションのためのインタラクティブでアクティブな学習

DIAL: Deep Interactive and Active Learning for Semantic Segmentation in Remote Sensing ( http://arxiv.org/abs/2201.01047v1 )

ライセンス: CC BY 4.0
Gaston Lenczner, Adrien Chan-Hon-Tong, Bertrand Le Saux, Nicola Luminari, Guy Le Besnerais(参考訳) 本稿では,深層ニューラルネットワークとループ内の人間との協調関係を構築し,リモートセンシング画像の正確なセグメンテーションマップを迅速に取得することを提案する。 一言で言えば、エージェントはネットワークと反復的にやり取りし、最初の欠陥のある予測を修正する。 具体的には、これらの相互作用は意味ラベルを表すアノテーションである。 我々の方法論的な貢献は2つある。 まず,深層ニューラルネットワークにユーザ入力を統合する2つの対話型学習手法を提案する。 1つ目は、アノテーションを他のネットワークの入力と結合する。 2つめは、アノテーションをスパースな基盤として使用し、ネットワークを再トレーニングする。 第2に,アノテートする最も関連性の高い領域にユーザを誘導する,アクティブな学習戦略を提案する。 この目的のために、異なる最先端の取得関数を比較して、confidnet、entropy、odinといったニューラルネットワークの不確実性を評価する。 3つのリモートセンシングデータセットを用いた実験により,提案手法の有効性を示す。 特に,不確実性推定に基づくアクティブラーニングは,ユーザを素早くミスへと導くことが可能であり,ユーザ介入の指導に関係していることを示す。

We propose in this article to build up a collaboration between a deep neural network and a human in the loop to swiftly obtain accurate segmentation maps of remote sensing images. In a nutshell, the agent iteratively interacts with the network to correct its initially flawed predictions. Concretely, these interactions are annotations representing the semantic labels. Our methodological contribution is twofold. First, we propose two interactive learning schemes to integrate user inputs into deep neural networks. The first one concatenates the annotations with the other network's inputs. The second one uses the annotations as a sparse ground-truth to retrain the network. Second, we propose an active learning strategy to guide the user towards the most relevant areas to annotate. To this purpose, we compare different state-of-the-art acquisition functions to evaluate the neural network uncertainty such as ConfidNet, entropy or ODIN. Through experiments on three remote sensing datasets, we show the effectiveness of the proposed methods. Notably, we show that active learning based on uncertainty estimation enables to quickly lead the user towards mistakes and that it is thus relevant to guide the user interventions.
翻訳日:2022-01-05 19:35:58 公開日:2022-01-04
# (参考訳) 筋電図に基づく生体認証のためのオープンアクセスデータセット

Open Access Dataset for Electromyography based Multi-code Biometric Authentication ( http://arxiv.org/abs/2201.01051v1 )

ライセンス: CC BY 4.0
Ashirbad Pradhan, Jiayuan He, Ning Jiang(参考訳) 近年、表面筋電図 (emg) は、スプーフィングや活力といった現在の生体計測のいくつかの重要な制限に対処するための新しい生体計測特性として提案されている。 EMG信号は個人(バイオメトリックス)と本質的に異なる特徴を持ち、マルチ長のコードやパスワード(例えば、異なるジェスチャーを実行することで)を実現するようにカスタマイズできる。 しかし、現在のEMGベースの生体計測研究には2つの限界がある。 1)他のより確立された生体特性と比較して小さな被験者プール 2) シングルセッションまたはシングルデイデータセットに限定される。 本研究は,手指と手首のジェスチャーをしながら,3日間にわたり3つの異なる被験者から前腕筋電図と手首筋電図を収集した。 複数日間の生体認証の結果、前腕のEERは0.017、手首のEERは0.025となり、整合性のある生体認証特性に匹敵する性能を示した。 提示された大規模マルチデイデータセットと知見は、emgベースのバイオメトリックスや他のジェスチャー認識に基づくアプリケーションに関するさらなる研究を促進することができる。

Recently, surface electromyogram (EMG) has been proposed as a novel biometric trait for addressing some key limitations of current biometrics, such as spoofing and liveness. The EMG signals possess a unique characteristic: they are inherently different for individuals (biometrics), and they can be customized to realize multi-length codes or passwords (for example, by performing different gestures). However, current EMG-based biometric research has two critical limitations: 1) a small subject pool, compared to other more established biometric traits, and 2) limited to single-session or single-day data sets. In this study, forearm and wrist EMG data were collected from 43 participants over three different days with long separation while they performed static hand and wrist gestures. The multi-day biometric authentication resulted in a median EER of 0.017 for the forearm setup and 0.025 for the wrist setup, comparable to well-established biometric traits suggesting consistent performance over multiple days. The presented large-sample multi-day data set and findings could facilitate further research on EMG-based biometrics and other gesture recognition-based applications.
翻訳日:2022-01-05 19:15:10 公開日:2022-01-04
# (参考訳) FROTE: モデル編集のためのフィードバックルール駆動オーバーサンプリング

FROTE: Feedback Rule-Driven Oversampling for Editing Models ( http://arxiv.org/abs/2201.01070v1 )

ライセンス: CC BY 4.0
\"Oznur Alkan, Dennis Wei, Massimiliano Matteti, Rahul Nair, Elizabeth M. Daly, Diptikalyan Saha(参考訳) 機械学習モデルは、ローン承認やクレーム管理などの規則や規則の更新によって、時間とともに変化する決定境界を含む。 しかし、そのようなシナリオでは、新しい決定境界を反映するためにモデルを再トレーニングするために十分なトレーニングデータが蓄積されるのに時間がかかります。 既存の決定境界を強化する作業は行われているが、新しいルールを反映するためにMLモデルの決定境界を変更するシナリオをカバーするための作業はほとんど行われていない。 本稿では,MLモデルの更新プロセスを高速化する手段として,ユーザが提供するフィードバックルールに注目し,モデルが事前処理されたデータに再トレーニングされると,その決定境界がルールとより密接に一致するように,フィードバックルールに応じてMLモデルの編集を行うための事前処理トレーニングデータの問題を正式に導入する。 そこで本研究では,新しいデータ拡張法であるフィードバックルールに基づくオーバーサンプリング手法を提案する。 異なるMLモデルと実世界のデータセットを用いた大規模な実験は、この手法の有効性、特に拡張の利点と多くのフィードバックルールを扱う能力を示す。

Machine learning models may involve decision boundaries that change over time due to updates to rules and regulations, such as in loan approvals or claims management. However, in such scenarios, it may take time for sufficient training data to accumulate in order to retrain the model to reflect the new decision boundaries. While work has been done to reinforce existing decision boundaries, very little has been done to cover these scenarios where decision boundaries of the ML models should change in order to reflect new rules. In this paper, we focus on user-provided feedback rules as a way to expedite the ML models update process, and we formally introduce the problem of pre-processing training data to edit an ML model in response to feedback rules such that once the model is retrained on the pre-processed data, its decision boundaries align more closely with the rules. To solve this problem, we propose a novel data augmentation method, the Feedback Rule-Based Oversampling Technique. Extensive experiments using different ML models and real world datasets demonstrate the effectiveness of the method, in particular the benefit of augmentation and the ability to handle many feedback rules.
翻訳日:2022-01-05 18:55:46 公開日:2022-01-04
# (参考訳) マルチパーソン・ポーズ・レグレッションのための品質認識表現の学習

Learning Quality-aware Representation for Multi-person Pose Regression ( http://arxiv.org/abs/2201.01087v1 )

ライセンス: CC BY 4.0
Yabo Xiao, Dongdong Yu, Xiaojuan Wang, Lei Jin, Guoli Wang, Qian Zhang(参考訳) off-the-shelf single-stage multi-person pose regression methodは一般にインスタンススコア(すなわちインスタンスローカライゼーションの信頼度)を利用して、ポーズ候補を選択するポーズ品質を示す。 1) 既存のパラダイムには2つのギャップがあると考えている。 ~2) インスタンスの特徴表現は、インスタンススコアの予測に使われるが、ポーズ回帰品質を表す合理的なスコアを予測するために、構造的なポーズ情報を明示的にエンコードしていない。 上記の課題に対処するために,ポーズ回帰品質認識表現の学習を提案する。 具体的には、第1のギャップに対して、前のインスタンス信頼度ラベル(例えば離散 {1,0} やガウス表現)を使用して人のインスタンスの位置と信頼度を示す代わりに、まず、インスタンスのポーズ回帰品質スコアとバックグラウンドの信頼度を統合する一貫性インスタンス表現(cir)を画素単位のスコアマップに導入し、インスタンススコアとポーズ回帰品質の矛盾を対応付けます。 さらに、第2のギャップを埋めるために、各キーポイントの位置および意味情報をエンコードするキーポイントクエリエンコーディング(kqe)と、予測された構造的ポーズ情報を明示的にエンコードして一貫性のあるインスタンス表現(cir)に適合させるポーズクエリエンコーディング(pqe)を含むクエリエンコーディングモジュール(qem)を提案する。 提案するコンポーネントを用いることで,上記のギャップを大幅に緩和する。 提案手法は従来の単段回帰に基づくボトムアップ手法よりも優れており,MS COCOテストデブセットにおける71.7 APの最先端結果が得られる。

Off-the-shelf single-stage multi-person pose regression methods generally leverage the instance score (i.e., confidence of the instance localization) to indicate the pose quality for selecting the pose candidates. We consider that there are two gaps involved in existing paradigm:~1) The instance score is not well interrelated with the pose regression quality.~2) The instance feature representation, which is used for predicting the instance score, does not explicitly encode the structural pose information to predict the reasonable score that represents pose regression quality. To address the aforementioned issues, we propose to learn the pose regression quality-aware representation. Concretely, for the first gap, instead of using the previous instance confidence label (e.g., discrete {1,0} or Gaussian representation) to denote the position and confidence for person instance, we firstly introduce the Consistent Instance Representation (CIR) that unifies the pose regression quality score of instance and the confidence of background into a pixel-wise score map to calibrates the inconsistency between instance score and pose regression quality. To fill the second gap, we further present the Query Encoding Module (QEM) including the Keypoint Query Encoding (KQE) to encode the positional and semantic information for each keypoint and the Pose Query Encoding (PQE) which explicitly encodes the predicted structural pose information to better fit the Consistent Instance Representation (CIR). By using the proposed components, we significantly alleviate the above gaps. Our method outperforms previous single-stage regression-based even bottom-up methods and achieves the state-of-the-art result of 71.7 AP on MS COCO test-dev set.
翻訳日:2022-01-05 18:02:19 公開日:2022-01-04
# (参考訳) ABMにおける複雑な空間行動の学習 : 実験的観察研究

Learning Complex Spatial Behaviours in ABM: An Experimental Observational Study ( http://arxiv.org/abs/2201.01099v1 )

ライセンス: CC BY 4.0
Sedar Olmez, Dan Birks, Alison Heppenstall(参考訳) 空間的に明示的な個人モデル内での知的適応行動の捕獲とシミュレーションは、研究者にとって現在も進行中の課題である。 現実世界の行動データが大量に収集される一方で、重要な個々の行動の定量化と形式化、空間や時間とともにどのように変化するか、といったアプローチがいくつか存在する。 したがって、イベント・コンディション・アクション・ルールのような一般的に使用されるエージェント決定フレームワークは、狭い範囲の行動にのみ焦点を合わせる必要がある。 これらの行動フレームワークは現実世界のシナリオを反映しないことが多く、刺激に反応して行動がどのように発達するかを捉えることができない。 近年、機械学習の手法や、インテリジェントな適応行動をシミュレートする可能性への関心が高まっている。 この領域で注目を集め始めた方法の一つが強化学習(rl)である。 本稿では, 簡単な捕食者・捕食者モデル(ABM)を用いて, 創発的エージェント行動の生成にRLを適用する方法について検討する。 一連のシミュレーションを行い、新しいPPOアルゴリズムを用いて訓練されたエージェントが、隠蔽、回避、捕食などの現実世界の知的適応行動の特性を示す方法で行動することを示した。

Capturing and simulating intelligent adaptive behaviours within spatially explicit individual-based models remains an ongoing challenge for researchers. While an ever-increasing abundance of real-world behavioural data are collected, few approaches exist that can quantify and formalise key individual behaviours and how they change over space and time. Consequently, commonly used agent decision-making frameworks, such as event-condition-action rules, are often required to focus only on a narrow range of behaviours. We argue that these behavioural frameworks often do not reflect real-world scenarios and fail to capture how behaviours can develop in response to stimuli. There has been an increased interest in Machine Learning methods and their potential to simulate intelligent adaptive behaviours in recent years. One method that is beginning to gain traction in this area is Reinforcement Learning (RL). This paper explores how RL can be applied to create emergent agent behaviours using a simple predator-prey Agent-Based Model (ABM). Running a series of simulations, we demonstrate that agents trained using the novel Proximal Policy Optimisation (PPO) algorithm behave in ways that exhibit properties of real-world intelligent adaptive behaviours, such as hiding, evading and foraging.
翻訳日:2022-01-05 17:47:59 公開日:2022-01-04
# (参考訳) 極小変化を伴う移動可能非制限逆例に向けて

Towards Transferable Unrestricted Adversarial Examples with Minimum Changes ( http://arxiv.org/abs/2201.01102v1 )

ライセンス: CC BY 4.0
Fangcheng Liu, Chao Zhang, Hongyang Zhang(参考訳) transfer-based adversarial exampleはブラックボックス攻撃の最も重要なクラスの1つである。 しかし, 対向摂動の伝達可能性と非受容性の間にはトレードオフがある。 この方向の先行作業には、良好な転送成功率に達するためには、固定だが大きな$\ell_p$-norm摂動予算が必要となることが多い。 一方、セマンティック保存摂動を発生させようとする現在の非制限の敵攻撃のほとんどは、ターゲットモデルへのより弱い転送可能性に悩まされている。 本稿では,最小限の変更で転送可能な逆例を生成する幾何認識フレームワークを提案する。 統計的機械学習におけるモデル選択と同様に、各画像に対する最適な摂動予算を$\ell_{\infty}$-normとunrestricted threatモデルの両方の下で選択するために検証モデルを利用する。 大規模実験により,本フレームワークの有効性を検証し,その有効性を検証した。 cvpr'21 security ai challenger: unrestricted adversarial attack on imagenetでは,1,559チーム中1位にランクインし,最終スコアと平均画像品質レベルで,次点を4.59%,23.91%上回った。 コードはhttps://github.com/Equationliu/GA-Attack.comで入手できる。

Transfer-based adversarial example is one of the most important classes of black-box attacks. However, there is a trade-off between transferability and imperceptibility of the adversarial perturbation. Prior work in this direction often requires a fixed but large $\ell_p$-norm perturbation budget to reach a good transfer success rate, leading to perceptible adversarial perturbations. On the other hand, most of the current unrestricted adversarial attacks that aim to generate semantic-preserving perturbations suffer from weaker transferability to the target model. In this work, we propose a geometry-aware framework to generate transferable adversarial examples with minimum changes. Analogous to model selection in statistical machine learning, we leverage a validation model to select the optimal perturbation budget for each image under both the $\ell_{\infty}$-norm and unrestricted threat models. Extensive experiments verify the effectiveness of our framework on balancing imperceptibility and transferability of the crafted adversarial examples. The methodology is the foundation of our entry to the CVPR'21 Security AI Challenger: Unrestricted Adversarial Attacks on ImageNet, in which we ranked 1st place out of 1,559 teams and surpassed the runner-up submissions by 4.59% and 23.91% in terms of final score and average image quality level, respectively. Code is available at https://github.com/Equationliu/GA-Attack.
翻訳日:2022-01-05 17:23:29 公開日:2022-01-04
# (参考訳) Barker提案と他の局所平衡メトロポリス・ハスティングスアルゴリズムの最適設計

Optimal design of the Barker proposal and other locally-balanced Metropolis-Hastings algorithms ( http://arxiv.org/abs/2201.01123v1 )

ライセンス: CC BY 4.0
Jure Vogrinc, Samuel Livingstone and Giacomo Zanella(参考訳) リビングストン・アンド・ザネラ(英語版) (2021) で導入された一階の局所均衡メトロポリス-ハスティングアルゴリズムのクラスについて検討した。 クラス内で特定のアルゴリズムを選択するには、ユーザーはバランス関数 $g:\mathbb{R} \to \mathbb{R}$ を満足する $g(t) = tg(1/t)$ と、提案インクリメントのノイズ分布を選択する必要がある。 クラス内の一般的な選択は、メトロポリス調整ランゲヴィンアルゴリズムと最近導入されたバーカーの提案である。 まず57%の普遍的限界最適受入率を確立し、n$の次元は、g$の穏やかな滑らかさの仮定の下で、そしてアルゴリズムのターゲット分布が製品形式である場合、クラス全体の無限大になりがちであるとして、n^{-1/3}$をスケーリングする。 特に,クラス内の任意のアルゴリズムの漸近効率の明示的な式を,期待される2乗跳躍距離で測定する。 次に,この表現を様々な制約の下で最適化する方法を検討する。 本稿では,バーカー提案における雑音分布の最適選択,ガウス雑音分布下でのバランス関数の最適選択,およびクラス全体の一階局所バランスアルゴリズムの最適選択を導出する。 数値シミュレーションにより理論的な知見が確認され,特にbarker提案における雑音分布のバイモーダル選択は,ガウシアン版よりも一貫して効率的であることを示す。

We study the class of first-order locally-balanced Metropolis--Hastings algorithms introduced in Livingstone & Zanella (2021). To choose a specific algorithm within the class the user must select a balancing function $g:\mathbb{R} \to \mathbb{R}$ satisfying $g(t) = tg(1/t)$, and a noise distribution for the proposal increment. Popular choices within the class are the Metropolis-adjusted Langevin algorithm and the recently introduced Barker proposal. We first establish a universal limiting optimal acceptance rate of 57% and scaling of $n^{-1/3}$ as the dimension $n$ tends to infinity among all members of the class under mild smoothness assumptions on $g$ and when the target distribution for the algorithm is of the product form. In particular we obtain an explicit expression for the asymptotic efficiency of an arbitrary algorithm in the class, as measured by expected squared jumping distance. We then consider how to optimise this expression under various constraints. We derive an optimal choice of noise distribution for the Barker proposal, optimal choice of balancing function under a Gaussian noise distribution, and optimal choice of first-order locally-balanced algorithm among the entire class, which turns out to depend on the specific target distribution. Numerical simulations confirm our theoretical findings and in particular show that a bi-modal choice of noise distribution in the Barker proposal gives rise to a practical algorithm that is consistently more efficient than the original Gaussian version.
翻訳日:2022-01-05 16:45:04 公開日:2022-01-04
# (参考訳) 実用性とプライバシを向上させるためにRNNを用いたリアル人口のための合成モビリティデータの生成

Generating synthetic mobility data for a realistic population with RNNs to improve utility and privacy ( http://arxiv.org/abs/2201.01139v1 )

ライセンス: CC BY 4.0
Alex Berke, Ronan Doorley, Kent Larson, Esteban Moro(参考訳) モバイルデバイスから収集された位置情報は、個人および社会レベルでの移動行動を表す。 これらのデータには、交通計画から疫病モデルまで、重要な応用がある。 しかし、これらのユースケースに最善を尽くすには、問題が克服されなければならない。データは、しばしば、人口の限られたサンプルを表し、データの使用がプライバシーを脅かす。 そこで本研究では,実位置データに基づいて学習したディープリカレントニューラルネットワーク(rnn)を用いて,合成モビリティデータを生成するシステムを提案する。 本システムは,人口分布を入力として,対応する合成人口の移動トレースを生成する。 関連する生成的アプローチは、個人の移動行動のパターンと変動性を長期にわたって捉えながら、現実的なデータ生成とプライバシのバランスをとるという課題を解決していない。 本システムでは,トレーニングデータからパターンを保ちつつ,複雑な新しいシーケンスを生成するrnnの能力を活用する。 また、このモデルでは、個々のレベルでの合成データと実データの変動を校正するランダム性を導入する。 これは、人間の移動の多様性を捉え、ユーザーのプライバシーを保護するためである。 22,700以上のモバイルデバイスからの位置情報ベースのサービス(LBS)データは、ユーティリティとプライバシのメトリクスの実験的評価に使用された。 生成したモビリティデータは実際のデータの特徴を保ちながら、個々のレベルでの実際のデータから変化し、その変化量が実際のデータ内の変動と一致しているかを示す。

Location data collected from mobile devices represent mobility behaviors at individual and societal levels. These data have important applications ranging from transportation planning to epidemic modeling. However, issues must be overcome to best serve these use cases: The data often represent a limited sample of the population and use of the data jeopardizes privacy. To address these issues, we present and evaluate a system for generating synthetic mobility data using a deep recurrent neural network (RNN) which is trained on real location data. The system takes a population distribution as input and generates mobility traces for a corresponding synthetic population. Related generative approaches have not solved the challenges of capturing both the patterns and variability in individuals' mobility behaviors over longer time periods, while also balancing the generation of realistic data with privacy. Our system leverages RNNs' ability to generate complex and novel sequences while retaining patterns from training data. Also, the model introduces randomness used to calibrate the variation between the synthetic and real data at the individual level. This is to both capture variability in human mobility, and protect user privacy. Location based services (LBS) data from more than 22,700 mobile devices were used in an experimental evaluation across utility and privacy metrics. We show the generated mobility data retain the characteristics of the real data, while varying from the real data at the individual level, and where this amount of variation matches the variation within the real data.
翻訳日:2022-01-05 16:11:23 公開日:2022-01-04
# (参考訳) ラジオギャラクシー分類における深層学習手法の不確かさの定量化

Quantifying Uncertainty in Deep Learning Approaches to Radio Galaxy Classification ( http://arxiv.org/abs/2201.01203v1 )

ライセンス: CC BY 4.0
Devina Mohan, Anna M. M. Scaife, Fiona Porter, Mike Walmsley, Micah Bowles(参考訳) 本研究では,電波銀河分類の深層学習モデル予測における不確かさの程度を,変分推論を用いて定量化する。 個々の試料に対するモデル後方分散のレベルは、電波銀河のラベル付け時に人間の不確かさと相関することを示した。 種々の重み事前のモデル性能と不確実性校正について検討し、スパース事前がよりよく校正された不確実性推定を生成することを示唆する。 個々の重みに対する後部分布を用いて,低信号-雑音比 (SNR) の重みを除去することにより,完全連結層重みの30%を著しく損なうことなくプルークできることを示す。 我々は,フィッシャー情報に基づくランク付けにより,より多くのプルーニングが達成できることを実証するが,どちらのプルーニング方法もファナロフ・ライリー型銀河とii型電波銀河の不確実性校正に影響を与えることに留意する。 最後に, この分野での他の研究と同様, 後部効果が冷え込み, 後部が下降し, 良好な予測性能が得られることを示した。 モデル不特定性に対応するためにコスト関数を適用することで、この効果を補うことができるか検討するが、大きな違いはない。 また、原則データ拡張の効果を検証し、ベースラインに対して改善するが、観測した効果を補償しないことを示す。 我々はこれを、トレーニングサンプルが過度に効果的にキュレーションされ、誤った分類につながることによる寒冷後効果と解釈し、将来ベイズ深層学習による電波銀河分類の潜在的な問題として提起する。

In this work we use variational inference to quantify the degree of uncertainty in deep learning model predictions of radio galaxy classification. We show that the level of model posterior variance for individual test samples is correlated with human uncertainty when labelling radio galaxies. We explore the model performance and uncertainty calibration for a variety of different weight priors and suggest that a sparse prior produces more well-calibrated uncertainty estimates. Using the posterior distributions for individual weights, we show that we can prune 30% of the fully-connected layer weights without significant loss of performance by removing the weights with the lowest signal-to-noise ratio (SNR). We demonstrate that a larger degree of pruning can be achieved using a Fisher information based ranking, but we note that both pruning methods affect the uncertainty calibration for Fanaroff-Riley type I and type II radio galaxies differently. Finally we show that, like other work in this field, we experience a cold posterior effect, whereby the posterior must be down-weighted to achieve good predictive performance. We examine whether adapting the cost function to accommodate model misspecification can compensate for this effect, but find that it does not make a significant difference. We also examine the effect of principled data augmentation and find that this improves upon the baseline but also does not compensate for the observed effect. We interpret this as the cold posterior effect being due to the overly effective curation of our training sample leading to likelihood misspecification, and raise this as a potential issue for Bayesian deep learning approaches to radio galaxy classification in future.
翻訳日:2022-01-05 15:55:06 公開日:2022-01-04
# (参考訳) CNN学習のための効率的な量子特徴抽出

Efficient Quantum Feature Extraction for CNN-based Learning ( http://arxiv.org/abs/2201.01246v1 )

ライセンス: CC BY 4.0
Tong Dou, Guofeng Zhang, and Wei Cui(参考訳) 最近の研究は、一般関数近似器としてのパラメトリズド量子回路(pqcs)のポテンシャルを探求し始めた。 本研究では,古典的cnnモデルの識別性を高めるために,量子古典的深層ネットワーク構造を提案する。 畳み込み層は線形フィルタを用いて入力データをスキャンする。 さらに、より強力な関数近似器であるpqcを構築し、受容体内の特徴を捉えるためのより複雑な構造を構築する。 特徴マップは、cnnと似た方法でpqcを入力上でスライドさせることによって得られる。 また,提案モデルに対するトレーニングアルゴリズムを提案する。 本設計で使用されるハイブリッドモデルは数値シミュレーションにより検証した。 我々は,MNISTにおける適切な分類性能を示し,異なる設定のモデルと比較する。 その結果,ansatzの高表現性モデルが低コストかつ高精度に実現できることが判明した。

Recent work has begun to explore the potential of parametrized quantum circuits (PQCs) as general function approximators. In this work, we propose a quantum-classical deep network structure to enhance classical CNN model discriminability. The convolutional layer uses linear filters to scan the input data. Moreover, we build PQC, which is a more potent function approximator, with more complex structures to capture the features within the receptive field. The feature maps are obtained by sliding the PQCs over the input in a similar way as CNN. We also give a training algorithm for the proposed model. The hybrid models used in our design are validated by numerical simulation. We demonstrate the reasonable classification performances on MNIST and we compare the performances with models in different settings. The results disclose that the model with ansatz in high expressibility achieves lower cost and higher accuracy.
翻訳日:2022-01-05 15:18:33 公開日:2022-01-04
# (参考訳) 分散マルチエージェント政策勾配における潜在状態情報共有を伴う値関数の分解

Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients ( http://arxiv.org/abs/2201.01247v1 )

ライセンス: CC BY 4.0
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) 集中型トレーニングと分散実行による価値関数の分解は、協調型マルチエージェント強化タスクの解決に有効である。 この領域におけるアプローチの1つ、QMIXは最先端になり、StarCraft IIマイクロマネジメントベンチマークで最高のパフォーマンスを達成した。 しかし、QMIXにおけるエージェント1個当たりの単調混合は、表現できる共同動作 Q-値を制限することや、単一のエージェント値関数の推定に不十分な大域的状態情報を制限することが知られている。 そこで本研究では,変動推論に基づく情報共有機構を付加的な状態情報として活用し,価値関数因子化における個々のエージェントを支援する新しいフレームワーク lsf-sac を提案する。 このような潜在的な個々の状態情報共有は価値関数因子化の力を著しく拡大できるが、完全に分散化された実行はソフト・アクタ・クリティックな設計によってlsf-sacで維持できる。 我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。 さらに,その性能向上に寄与する重要な要因を特定するため,広範なアブレーション研究を行った。 この新たな洞察が,新たな局所値推定法や変分深層学習アルゴリズムに繋がると信じている。 デモビデオと実装コードはhttps://sites.google.com/view/sacmmで見ることができる。

Value function factorization via centralized training and decentralized execution is promising for solving cooperative multi-agent reinforcement tasks. One of the approaches in this area, QMIX, has become state-of-the-art and achieved the best performance on the StarCraft II micromanagement benchmark. However, the monotonic-mixing of per agent estimates in QMIX is known to restrict the joint action Q-values it can represent, as well as the insufficient global state information for single agent value function estimation, often resulting in suboptimality. To this end, we present LSF-SAC, a novel framework that features a variational inference-based information-sharing mechanism as extra state information to assist individual agents in the value function factorization. We demonstrate that such latent individual state information sharing can significantly expand the power of value function factorization, while fully decentralized execution can still be maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC on the StarCraft II micromanagement challenge and demonstrate that it outperforms several state-of-the-art methods in challenging collaborative tasks. We further set extensive ablation studies for locating the key factors accounting for its performance improvements. We believe that this new insight can lead to new local value estimation methods and variational deep learning algorithms. A demo video and code of implementation can be found at https://sites.google.com/view/sacmm.
翻訳日:2022-01-05 15:03:18 公開日:2022-01-04
# 分散ワイヤレス脳波サンプリングにおけるレジリエンス

Resilience Aspects in Distributed Wireless Electroencephalographic Sampling ( http://arxiv.org/abs/2201.01272v1 )

ライセンス: Link先を確認
R. Natarov, O. Sudakov, Z. Dyka, I. Kabin, O. Maksymyuk, O. Iegorova, O. Krishtal and P. Langend\"orfer(参考訳) 遠隔脳波サンプリングのレジリエンスの側面を考察する。 動作センサデータと産業用電力ネットワーク干渉の測定をサンプルチャネルの故障検出に利用する可能性を示した。 チャネルの故障信号とモーションセンサーデータの間に有意な相関は示されていない。 故障チャネルからの50Hzスペクトル成分のレベルは、通常動作チャネルの50Hz成分のレベルと大きく異なる。 以上の結果から,脳波サンプリングのレジリエンス向上への応用について考察した。

Resilience aspects of remote electroencephalography sampling are considered. The possibility to use motion sensors data and measurement of industrial power network interference for detection of failed sampling channels is demonstrated. No significant correlation between signals of failed channels and motion sensors data is shown. Level of 50 Hz spectral component from failed channels significantly differs from level of 50 Hz component of normally operating channel. Conclusions about application of these results for increasing resilience of electroencephalography sampling is made.
翻訳日:2022-01-05 14:38:51 公開日:2022-01-04
# 実世界深層ニューラルネットワークのフレキシブルエンド・ツー・エンド推論のための異種インメモリ計算クラスタ

A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks ( http://arxiv.org/abs/2201.01089v1 )

ライセンス: Link先を確認
Angelo Garofalo, Gianmarco Ottavi, Francesco Conti, Geethan Karunaratne, Irem Boybat, Luca Benini and Davide Rossi(参考訳) バッテリー制限の小さなIoTデバイスに最新のTinyMLタスクをデプロイするには、高い計算エネルギー効率が必要である。 非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論を大幅に効率化し、DNN重みのオンチップメモリストレージとして機能する。 しかし、IMCの機能的柔軟性の制限と性能、エネルギー、面積効率への影響は、システムレベルではまだ完全には理解されていない。 実用的なエンドツーエンドIoTアプリケーションをターゲットにするためには、MCアレイを異種プログラマブルシステムに囲まなければならない。 8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合クラスタアーキテクチャを提案する。 我々は,MobileNetV2 の Bottleneck 層のような高度に異質なワークロードをベンチマークし,コア上での並列実行に対して 11.5 倍の性能と 9.5 倍のエネルギー効率向上を示す。 さらに、IMCアレイリソースの観点からモバイルグレードDNN(MobileNetV2)のエンドツーエンド推論の要件について検討し、異種アーキテクチャをマルチアレイ加速器にスケールアップする。 この結果から,MobileNetV2のエンドツーエンド推論では,既存のプログラマブルアーキテクチャよりも実行レイテンシが1桁,インメモリ・アナログコアを統合した最先端の異種ソリューションよりも2桁よいことがわかった。

Deployment of modern TinyML tasks on small battery-constrained IoT devices requires high computational energy efficiency. Analog In-Memory Computing (IMC) using non-volatile memory (NVM) promises major efficiency improvements in deep neural network (DNN) inference and serves as on-chip memory storage for DNN weights. However, IMC's functional flexibility limitations and their impact on performance, energy, and area efficiency are not yet fully understood at the system level. To target practical end-to-end IoT applications, IMC arrays must be enclosed in heterogeneous programmable systems, introducing new system-level challenges which we aim at addressing in this work. We present a heterogeneous tightly-coupled clustered architecture integrating 8 RISC-V cores, an in-memory computing accelerator (IMA), and digital accelerators. We benchmark the system on a highly heterogeneous workload such as the Bottleneck layer from a MobileNetV2, showing 11.5x performance and 9.5x energy efficiency improvements, compared to highly optimized parallel execution on the cores. Furthermore, we explore the requirements for end-to-end inference of a full mobile-grade DNN (MobileNetV2) in terms of IMC array resources, by scaling up our heterogeneous architecture to a multi-array accelerator. Our results show that our solution, on the end-to-end inference of the MobileNetV2, is one order of magnitude better in terms of execution latency than existing programmable architectures and two orders of magnitude better than state-of-the-art heterogeneous solutions integrating in-memory computing analog cores.
翻訳日:2022-01-05 14:38:46 公開日:2022-01-04
# 音声信号による新型コロナウイルスの進行予測 : 縦断的研究

COVID-19 Disease Progression Prediction via Audio Signals: A Longitudinal Study ( http://arxiv.org/abs/2201.01232v1 )

ライセンス: Link先を確認
Ting Dang, Jing Han, Tong Xia, Dimitris Spathis, Erika Bondareva, Chlo\"e Brown, Jagmohan Chauhan, Andreas Grammenos, Apinan Hasthanasombat, Andres Floto, Pietro Cicuta, Cecilia Mascolo(参考訳) 最近の研究は、新型コロナウイルスのスクリーニングに音声データを使用することの可能性を示している。 しかし、病気の進行、特にオーディオによるcovid-19の回復をモニターする調査はほとんど行われていない。 疾患の進行特性や回復パターンの追跡は、素晴らしい洞察と、よりタイムリーな治療や治療調整、および医療システムにおけるより良い資源管理につながる可能性がある。 本研究の目的は, 進行予測, 特に回復傾向予測に焦点をあて, 逐次的深層学習技術を用いた新型コロナウイルスモニタリングにおける縦波オーディオダイナミックスの可能性を検討することである。 5日間から385日間にわたる212人を対象に, クラウドソーシングによる呼吸音声データの解析を行った。 まず、covid-19検出のためのオーディオバイオマーカーの経時的ダイナミクスを捉えることの利点について検討する。 強い性能は、AUC-ROCが0.79、感度が0.75、特異性が0.70であり、縦方向力学を使わない方法と比較して、アプローチの有効性を支持する。 さらに, 縦断試験結果と高い一貫性を示す予測疾患進行軌跡を, 検査コホートで0.76, テストコホートのサブセットで0.86と, 疾患回復を報告した12名との相関で検討した。 縦断的な音声データによる新型コロナウイルスの進行のモニタリングは、個人の疾患の進行と回復を追跡する上で大きな可能性を秘めていることが示唆された。

Recent work has shown the potential of the use of audio data in screening for COVID-19. However, very little exploration has been done of monitoring disease progression, especially recovery in COVID-19 through audio. Tracking disease progression characteristics and patterns of recovery could lead to tremendous insights and more timely treatment or treatment adjustment, as well as better resources management in health care systems. The primary objective of this study is to explore the potential of longitudinal audio dynamics for COVID-19 monitoring using sequential deep learning techniques, focusing on prediction of disease progression and, especially, recovery trend prediction. We analysed crowdsourced respiratory audio data from 212 individuals over 5 days to 385 days, alongside their self-reported COVID-19 test results. We first explore the benefits of capturing longitudinal dynamics of audio biomarkers for COVID-19 detection. The strong performance, yielding an AUC-ROC of 0.79, sensitivity of 0.75 and specificity of 0.70, supports the effectiveness of the approach compared to methods that do not leverage longitudinal dynamics. We further examine the predicted disease progression trajectory, which displays high consistency with the longitudinal test results with a correlation of 0.76 in the test cohort, and 0.86 in a subset of the test cohort with 12 participants who report disease recovery. Our findings suggest that monitoring COVID-19 progression via longitudinal audio data has enormous potential in the tracking of individuals' disease progression and recovery.
翻訳日:2022-01-05 14:38:17 公開日:2022-01-04
# (参考訳) deepfgs: 学習画像圧縮のための細粒度スケーラブルコーディング

DeepFGS: Fine-Grained Scalable Coding for Learned Image Compression ( http://arxiv.org/abs/2201.01173v1 )

ライセンス: CC BY 4.0
Yi Ma, Yongqi Zhai and Ronggang Wang(参考訳) チャネル帯域幅のばらつきに適応できるスケーラブルコーディングは、今日の複雑なネットワーク環境ではうまく機能する。 しかし、既存のスケーラブル圧縮手法は圧縮性能の低下とスケーラビリティの不足という2つの課題に直面している。 本稿では,上記の2つの欠点を克服するために,初めて学習された微細粒度スケーラブル画像圧縮モデル(DeepFGS)を提案する。 具体的には,画像情報を基本かつスケーラブルな特徴に分割する機能分離バックボーンを導入し,情報再構成戦略を通じて特徴チャネルをチャネル毎に再分配する。 このようにして、ワンパスエンコーディングによって連続的にスケーラブルなビットストリームを生成することができる。 さらに,DeepFGSのパラメータと計算複雑性を低減するためにデコーダを再利用する。 実験により,私たちのDeepFGSはPSNRおよびMS-SSIMメトリクスにおいて,学習ベースでスケーラブルな画像圧縮モデルや従来型のスケーラブルな画像コーデックよりも優れていることが示された。 私たちの知る限りでは、私たちのDeepFGSは、学習した細粒度でスケーラブルなコーディングを初めて探求したものです。

Scalable coding, which can adapt to channel bandwidth variation, performs well in today's complex network environment. However, the existing scalable compression methods face two challenges: reduced compression performance and insufficient scalability. In this paper, we propose the first learned fine-grained scalable image compression model (DeepFGS) to overcome the above two shortcomings. Specifically, we introduce a feature separation backbone to divide the image information into basic and scalable features, then redistribute the features channel by channel through an information rearrangement strategy. In this way, we can generate a continuously scalable bitstream via one-pass encoding. In addition, we reuse the decoder to reduce the parameters and computational complexity of DeepFGS. Experiments demonstrate that our DeepFGS outperforms all learning-based scalable image compression models and conventional scalable image codecs in PSNR and MS-SSIM metrics. To the best of our knowledge, our DeepFGS is the first exploration of learned fine-grained scalable coding, which achieves the finest scalability compared with learning-based methods.
翻訳日:2022-01-05 14:35:07 公開日:2022-01-04
# PSNR指向手法の知覚品質に障害があるか?

What Hinders Perceptual Quality of PSNR-oriented Methods? ( http://arxiv.org/abs/2201.01034v1 )

ライセンス: Link先を確認
Tianshuo Xu, Peng Mi, Xiawu Zheng, Lijiang Li, Fei Chao, Guannan Jiang, Wei Zhang, Yiyi Zhou, Rongrong Ji(参考訳) 本稿では,POMの知覚品質向上を阻害する2つの要因について述べる。 1)センター指向最適化(COO)問題 2)モデルの低周波傾向。 まず、pomは、特徴空間における位置が全ての高分解能画像の分布中心に最も近いsr画像を生成する傾向にあり、その結果、高周波数詳細が失われる。 第2に、画像の90\%$領域は低周波信号から成り、対照的に人間の知覚は画像の高周波詳細に依存している。 しかし、POMは異なる周波数領域を処理するために同じ計算を適用するため、POMは低周波数領域を復元する傾向がある。 これらの2つの要因に基づいて,高周波数拡張モジュールと空間コントラスト学習モジュールを組み合わせたDetail Enhanced Contrastive Loss (DECLoss)を提案し,COO問題と低周波数傾向の影響を低減する。 実験結果は,複数の正規srモデルにdeclossを適用する場合の効率と有効性を示す。 例えば、EDSRでは、視覚的品質の微妙な劣化を伴うGAN法と比較して3.60$\times$高速学習を実現する。 さらに,本研究の最終結果は,DECOsを組み込んだSRネットワークが,最先端の手法に比べて現実的で視覚的なテクスチャを生成することを示す。 % 提案手法のソースコードは補足資料に含まれており,今後公開される予定である。

In this paper, we discover two factors that inhibit POMs from achieving high perceptual quality: 1) center-oriented optimization (COO) problem and 2) model's low-frequency tendency. First, POMs tend to generate an SR image whose position in the feature space is closest to the distribution center of all potential high-resolution (HR) images, resulting in such POMs losing high-frequency details. Second, $90\%$ area of an image consists of low-frequency signals; in contrast, human perception relies on an image's high-frequency details. However, POMs apply the same calculation to process different-frequency areas, so that POMs tend to restore the low-frequency regions. Based on these two factors, we propose a Detail Enhanced Contrastive Loss (DECLoss), by combining a high-frequency enhancement module and spatial contrastive learning module, to reduce the influence of the COO problem and low-Frequency tendency. Experimental results show the efficiency and effectiveness when applying DECLoss on several regular SR models. E.g, in EDSR, our proposed method achieves 3.60$\times$ faster learning speed compared to a GAN-based method with a subtle degradation in visual quality. In addition, our final results show that an SR network equipped with our DECLoss generates more realistic and visually pleasing textures compared to state-of-the-art methods. %The source code of the proposed method is included in the supplementary material and will be made publicly available in the future.
翻訳日:2022-01-05 14:19:25 公開日:2022-01-04
# 複数の事前学習課題を用いた音・視覚表現学習

Sound and Visual Representation Learning with Multiple Pretraining Tasks ( http://arxiv.org/abs/2201.01046v1 )

ライセンス: Link先を確認
Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool(参考訳) 異なる自己管理タスク(SSL)は、データと異なる特徴を明らかにします。 学習された特徴表現は、下流タスク毎に異なるパフォーマンスを示すことができる。 この点から見て、この作業は、ダウンストリームのすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としています。 具体的には,両耳音と画像データを分離して検討する。 両耳音については,空間アライメント,フォアグラウンドオブジェクトの時間同期,バイノーラル音声と時間ギャップ予測という3つのsslタスクを提案する。 我々は,マルチsslのいくつかのアプローチを調査し,ビデオ検索,空間音の超解像,omniaudioデータセットにおける意味予測における下流タスク性能について考察する。 両耳的音声表現実験により,sslタスクのインクリメンタルラーニング(il)によるマルチsslが,単一sslタスクモデルと完全教師付きモデルを上回ることを示した。 また、他のモダリティの適用性を確認するため、画像表現学習のためのマルチSSLモデルを定式化し、最近提案されたSSLタスクであるMoCov2とDenseCLを使用する。 ここでは、Multi-SSLはMoCov2、DenseCL、DetCoといった最近の手法を2.06%、VOC07分類では3.27%、そして1.19%、COCO検出では+2.83、+1.56、+1.61 APで上回っている。 コードは公開される予定だ。

Different self-supervised tasks (SSL) reveal different features from the data. The learned feature representations can exhibit different performance for each downstream task. In this light, this work aims to combine Multiple SSL tasks (Multi-SSL) that generalizes well for all downstream tasks. Specifically, for this study, we investigate binaural sounds and image data in isolation. For binaural sounds, we propose three SSL tasks namely, spatial alignment, temporal synchronization of foreground objects and binaural audio and temporal gap prediction. We investigate several approaches of Multi-SSL and give insights into the downstream task performance on video retrieval, spatial sound super resolution, and semantic prediction on the OmniAudio dataset. Our experiments on binaural sound representations demonstrate that Multi-SSL via incremental learning (IL) of SSL tasks outperforms single SSL task models and fully supervised models in the downstream task performance. As a check of applicability on other modality, we also formulate our Multi-SSL models for image representation learning and we use the recently proposed SSL tasks, MoCov2 and DenseCL. Here, Multi-SSL surpasses recent methods such as MoCov2, DenseCL and DetCo by 2.06%, 3.27% and 1.19% on VOC07 classification and +2.83, +1.56 and +1.61 AP on COCO detection. Code will be made publicly available.
翻訳日:2022-01-05 14:19:04 公開日:2022-01-04
# ニューラルネットワーク学習の実現不可能性

An unfeasability view of neural network learning ( http://arxiv.org/abs/2201.00945v1 )

ライセンス: Link先を確認
Joos Heintz, Hvara Ocar, Luis Miguel Pardo, Andres Rojas Paredes, Enrique Carlos Segura(参考訳) 多層ニューラルネットワークアーキテクチャのための連続的微分可能な完全学習アルゴリズムの概念を定義し、データセットの長さが関連するパラメータの数を超え、アクティベーション関数がロジスティック、tanh、sinである場合、そのようなアルゴリズムは存在しないことを示す。

We define the notion of a continuously differentiable perfect learning algorithm for multilayer neural network architectures and show that such algorithms don't exist provided that the length of the data set exceeds the number of involved parameters and the activation functions are logistic, tanh or sin.
翻訳日:2022-01-05 14:15:52 公開日:2022-01-04
# 機械学習とブロックチェーンの収束性に関する調査

Survey on the Convergence of Machine Learning and Blockchain ( http://arxiv.org/abs/2201.00976v1 )

ライセンス: Link先を確認
Shengwen Ding, Chenhui Hu(参考訳) 機械学習(ML)は近年広く研究されており、現実の多くの面で応用されている。 それでも、モデルとデータの問題はmlの開発に伴うものだ。 例えば、従来のMLモデルのトレーニングは、一般的にプロプライエタリなデータセットへのアクセスに限られている。発行されたMLモデルは、新しいデータや継続的トレーニングを更新することなく、すぐに時代遅れになる可能性がある。 新興かつ迅速に開発される技術であるブロックチェーンを利用することで、これらの問題を効率的に解決することができる。 本稿では、協調型MLとブロックチェーンの収束に関する調査を行う。 これら2つの技術の組み合わせ方法と応用分野について検討する。 また、現在の研究の限界と今後の方向性についても論じる。

Machine learning (ML) has been pervasively researched nowadays and it has been applied in many aspects of real life. Nevertheless, issues of model and data still accompany the development of ML. For instance, training of traditional ML models is limited to the access of data sets, which are generally proprietary; published ML models may soon be out of date without update of new data and continuous training; malicious data contributors may upload wrongly labeled data that leads to undesirable training results; and the abuse of private data and data leakage also exit. With the utilization of blockchain, an emerging and swiftly developing technology, these problems can be efficiently solved. In this paper, we conduct a survey of the convergence of collaborative ML and blockchain. We investigate different ways of combination of these two technologies, and their fields of application. We also discuss the limitations of current research and their future directions.
翻訳日:2022-01-05 14:15:46 公開日:2022-01-04
# cherry : グラフエンコーダ-デコーダモデルを用いたウイルス-ウイルス相互作用の高精度予測法

CHERRY: a Computational metHod for accuratE pRediction of virus-pRokarYotic interactions using a graph encoder-decoder model ( http://arxiv.org/abs/2201.01018v1 )

ライセンス: Link先を確認
Jiayu Shang and Yanni Sun(参考訳) 細菌や古細菌に感染するプロカリアティックウイルスは、微生物コミュニティにおいて重要な役割を担っている。 原核生物ウイルスの宿主を予測することは、微生物間の動的関係の解明に役立つ。 ホストの同定には実験的な方法があるが、それらは労働集約的であるか、宿主細胞の培養を必要とするため、計算ホスト予測の必要性が生じる。 有望な結果にもかかわらず、計算ホスト予測は、高スループットシーケンシング技術による既知の相互作用と配列されたファージの量が限られているため、依然として課題である。 最先端の手法は種レベルでは43%の精度しか達成できない。 本研究は,リンク予測としてホスト予測を定式化したCHERRYを知識グラフに提示する。 ウイルス-原核生物相互作用予測ツールとして、新たに発見されたウイルスおよび抗生物質耐性細菌に感染するウイルスの宿主を予測するためにチェリーを適用することができる。 両アプリケーションにおけるCHERRYの有用性を実証し,その性能を異なるシナリオにおける最先端手法と比較した。 我々の知る限り、CHERRYはウイルス-プロカロライト相互作用の同定において最も正確である。 種レベルでは既存の方法よりも37%の精度で優れています。 加えて、CHERRYのパフォーマンスは他のツールよりも短時間で安定している。

Prokaryotic viruses, which infect bacteria and archaea, are key players in microbial communities. Predicting the hosts of prokaryotic viruses helps decipher the dynamic relationship between microbes. Although there are experimental methods for host identification, they are either labor-intensive or require the cultivation of the host cells, creating a need for computational host prediction. Despite some promising results, computational host prediction remains a challenge because of the limited known interactions and the sheer amount of sequenced phages by high-throughput sequencing technologies. The state-of-the-art methods can only achieve 43% accuracy at the species level. This work presents CHERRY, a tool formulating host prediction as link prediction in a knowledge graph. As a virus-prokaryotic interaction prediction tool, CHERRY can be applied to predict hosts for newly discovered viruses and also the viruses infecting antibiotic-resistant bacteria. We demonstrated the utility of CHERRY for both applications and compared its performance with the state-of-the-art methods in different scenarios. To our best knowledge, CHERRY has the highest accuracy in identifying virus-prokaryote interactions. It outperforms all the existing methods at the species level with an accuracy increase of 37%. In addition, CHERRY's performance is more stable on short contigs than other tools.
翻訳日:2022-01-05 14:15:35 公開日:2022-01-04
# 手術室における医療処置による機械学習結果の信頼

Trusting Machine Learning Results from Medical Procedures in the Operating Room ( http://arxiv.org/abs/2201.01060v1 )

ライセンス: Link先を確認
Ali El-Merhi, Helena Odenstedt Herg\'es, Linda Block, Mikael Elam, Richard Vithal, Jaquette Liljencrantz, Miroslaw Staron(参考訳) 機械学習は、いくつかの目的で生理データを分析するのに使うことができる。 脳虚血の検出は、患者のケアに高い影響を与える成果である。 急性期脳卒中における頸動脈内膜切除術および血管内血栓摘出術において,非侵襲的モニターからの連続的生理データの収集がthoの異なる設定で脳虚血を検出できるかどうかを,機械学習を用いて検討した。 2つの異なるグループからの結果と,各グループから1人の患者を詳細に比較した。 CEA患者の結果は一貫しているが、血栓摘出患者の患者は、正確性1.0などの極端な値を含んでいない。 これは、手順の短い期間と、品質の悪いデータが多いことによる、小さなデータセットの結果である、ということが分かっています。 これらの結果は信頼できない。

Machine learning can be used to analyse physiological data for several purposes. Detection of cerebral ischemia is an achievement that would have high impact on patient care. We attempted to study if collection of continous physiological data from non-invasive monitors, and analysis with machine learning could detect cerebral ischemia in tho different setting, during surgery for carotid endarterectomy and during endovascular thrombectomy in acute stroke. We compare the results from the two different group and one patient from each group in details. While results from CEA-patients are consistent, those from thrombectomy patients are not and frequently contain extreme values such as 1.0 in accuracy. We conlcude that this is a result of short duration of the procedure and abundance of data with bad quality resulting in small data sets. These results can therefore not be trusted.
翻訳日:2022-01-05 14:15:16 公開日:2022-01-04
# 進化的マルチタスクAUC最適化

Evolutionary Multitasking AUC Optimization ( http://arxiv.org/abs/2201.01145v1 )

ライセンス: Link先を確認
Chao Wang, Kai Wu, Jing Liu(参考訳) 近年,不均衡データに対する受信動作特性曲線(AUC)に基づく領域最適化の学習が注目されている。 AUC最適化の方法はいくつかあるが、ペアの学習スタイルのため、AUC最適化のスケールアップはまだ未解決である。 大規模データセットにおけるAUCの最大化は、非凸かつ高価な問題とみなすことができる。 ペアワイズ学習の特徴に着想を得て,大規模データセットからサンプル化した小型データセットを用いた安価なAUC最適化タスクを構築し,AUCの原型で大規模で高価な最適化タスクのAUC精度を向上させる。 本稿では,構築した安価で高価なタスクの情報をフル活用して高い性能を得るための進化的マルチタスク・フレームワーク(EMTAUC)を開発する。 EMTAUCでは、サンプルデータセットからAUCを最適化するミッションと、元のデータセットからAUCを最大化するミッションがある。 さらに、知識の少ない安価なタスクにより、低コストタスクのデータ構造を動的に調整する戦略を提案し、マルチタスクauc最適化環境にさらなる知識を導入する。 提案手法の性能は, 一連のバイナリ分類データセットを用いて評価した。 実験の結果,emtaucは単一タスクメソッドやオンラインメソッドと高い競合性を示す。 EMTAUCの補助資料とソースコードの実装はhttps://github.com/xiaofangxd/EMTAUCでアクセスできる。

Learning to optimize the area under the receiver operating characteristics curve (AUC) performance for imbalanced data has attracted much attention in recent years. Although there have been several methods of AUC optimization, scaling up AUC optimization is still an open issue due to its pairwise learning style. Maximizing AUC in the large-scale dataset can be considered as a non-convex and expensive problem. Inspired by the characteristic of pairwise learning, the cheap AUC optimization task with a small-scale dataset sampled from the large-scale dataset is constructed to promote the AUC accuracy of the original, large-scale, and expensive AUC optimization task. This paper develops an evolutionary multitasking framework (termed EMTAUC) to make full use of information among the constructed cheap and expensive tasks to obtain higher performance. In EMTAUC, one mission is to optimize AUC from the sampled dataset, and the other is to maximize AUC from the original dataset. Moreover, due to the cheap task containing limited knowledge, a strategy for dynamically adjusting the data structure of inexpensive tasks is proposed to introduce more knowledge into the multitasking AUC optimization environment. The performance of the proposed method is evaluated on a series of binary classification datasets. The experimental results demonstrate that EMTAUC is highly competitive to single task methods and online methods. Supplementary materials and source code implementation of EMTAUC can be accessed at https://github.com/xiaofangxd/EMTAUC.
翻訳日:2022-01-05 14:15:04 公開日:2022-01-04
# (参考訳) 変圧器型シャムネットワークによる変化検出

A Transformer-Based Siamese Network for Change Detection ( http://arxiv.org/abs/2201.01293v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) 本稿では,一対のリモートセンシング画像から変化検出のためのトランスフォーマーベースのSiameseネットワークアーキテクチャ(略してChangeFormer)を提案する。 完全畳み込みネットワーク(ConvNets)に基づく最近のCDフレームワークとは違って,提案手法は階層的に構造化されたトランスフォーマーエンコーダとマルチ層パーセプション(MLP)デコーダをシムズネットワークアーキテクチャで統合し,高精度CDに必要なマルチスケール長範囲詳細を効率的にレンダリングする。 2つのCDデータセットの実験は、提案されたエンドツーエンドのトレーニング可能なChangeFormerアーキテクチャが、以前のものよりも優れたCDパフォーマンスを実現することを示している。 私たちのコードはhttps://github.com/wgcban/changeformerで利用可能です。

This paper presents a transformer-based Siamese network architecture (abbreviated by ChangeFormer) for Change Detection (CD) from a pair of co-registered remote sensing images. Different from recent CD frameworks, which are based on fully convolutional networks (ConvNets), the proposed method unifies hierarchically structured transformer encoder with Multi-Layer Perception (MLP) decoder in a Siamese network architecture to efficiently render multi-scale long-range details required for accurate CD. Experiments on two CD datasets show that the proposed end-to-end trainable ChangeFormer architecture achieves better CD performance than previous counterparts. Our code is available at https://github.com/wgcban/ChangeFormer.
翻訳日:2022-01-05 14:14:12 公開日:2022-01-04
# 受容場にインスパイアされたロバストな視覚サンプリングモデル

A Robust Visual Sampling Model Inspired by Receptive Field ( http://arxiv.org/abs/2201.01030v1 )

ライセンス: Link先を確認
Liwen Hu, Lei Ma, Dawei Weng, Tiejun Huang(参考訳) 網膜窩を模したスパイクカメラは、発火スパイクによってピクセル当たりの輝度の蓄積を報告できる。 高時間分解能のバイオインスパイアされた視覚センサとして、コンピュータビジョンには大きな可能性を秘めている。 しかし、現在のスパイクカメラのサンプリングモデルは量子化やノイズの影響を受けやすく、オブジェクトのテクスチャの詳細を効果的に捉えることができない。 本研究では、受容場(RVSM)にインスパイアされた頑健な視覚サンプリングモデルを提案し、ガウスフィルタ(DoG)とガウスフィルタ(Gaussian filter)の違いによって生成されたウェーブレットフィルタを用いて受容場をシミュレートする。 逆ウェーブレット変換と同様の手法を用いて、RVSMからのスパイクデータを画像に変換することができる。 また,様々な動きシーンを含む高速モーションスパイクデータセット(HMD)を提案する。 HMDにおける再構成画像を比較することで、RVSMはスパイクカメラの情報収集能力を大幅に向上させることができる。 さらに,地域情報を収集するための受容場機構の模倣により,RVSMは高強度ノイズを効果的にフィルタリングすることができ,Spikeカメラがノイズに敏感であるという問題を改善することができる。 また、サンプリング構造の強い一般化により、RVSMは他のニューロモルフィック視覚センサにも適している。 上記の実験はスパイクカメラシミュレーターで完了する。

Spike camera mimicking the retina fovea can report per-pixel luminance intensity accumulation by firing spikes. As a bio-inspired vision sensor with high temporal resolution, it has a huge potential for computer vision. However, the sampling model in current Spike camera is so susceptible to quantization and noise that it cannot capture the texture details of objects effectively. In this work, a robust visual sampling model inspired by receptive field (RVSM) is proposed where wavelet filter generated by difference of Gaussian (DoG) and Gaussian filter are used to simulate receptive field. Using corresponding method similar to inverse wavelet transform, spike data from RVSM can be converted into images. To test the performance, we also propose a high-speed motion spike dataset (HMD) including a variety of motion scenes. By comparing reconstructed images in HMD, we find RVSM can improve the ability of capturing information of Spike camera greatly. More importantly, due to mimicking receptive field mechanism to collect regional information, RVSM can filter high intensity noise effectively and improves the problem that Spike camera is sensitive to noise largely. Besides, due to the strong generalization of sampling structure, RVSM is also suitable for other neuromorphic vision sensor. Above experiments are finished in a Spike camera simulator.
翻訳日:2022-01-05 14:05:48 公開日:2022-01-04
# 教師なしオープンワールドセグメンテーションに向けて

Towards Unsupervised Open World Semantic Segmentation ( http://arxiv.org/abs/2201.01073v1 )

ライセンス: Link先を確認
Svenja Uhlemeyer, Matthias Rottmann, Hanno Gottschalk(参考訳) 画像のセマンティックセグメンテーションのために、最先端のディープニューラルネットワーク(DNN)は、そのタスクが閉じたクラスのセットに制限されている場合、高いセグメンテーション精度を達成する。 しかし、現在、DNNは、未知のオブジェクトに属するピクセルを識別し、最終的に新しいクラスを漸進的に学習する、オープンな世界での運用能力に制限がある。 人間は言う能力を持っている:私はそれが何であるかわからないが、私はすでにそのようなものを見た。 したがって、このような漸進的な学習を教師なしの方法で行うことが望ましい。 視覚的類似性に基づいて未知のオブジェクトをクラスタ化する手法を提案する。 これらのクラスタは、新しいクラスを定義し、教師なしのインクリメンタル学習のトレーニングデータとして利用します。 より正確には、予測された意味セグメンテーションの連結成分をセグメンテーション品質推定により評価する。 予測品質の低い結合コンポーネントは、その後のクラスタリングの候補となる。 さらに、コンポーネント品質評価により、未知のオブジェクトを含む可能性のある画像領域の予測セグメンテーションマスクを得ることができる。 これらのマスクの各画素は疑似ラベル付けされ、その後、人間によって生成された根拠真理を使わずに、dnnの再訓練に使用される。 実験では、基礎的真理にアクセスせず、データも少ない場合でも、dnnのクラス空間を新しいクラスで拡張でき、かなりのセグメンテーション精度が得られることを実証した。

For the semantic segmentation of images, state-of-the-art deep neural networks (DNNs) achieve high segmentation accuracy if that task is restricted to a closed set of classes. However, as of now DNNs have limited ability to operate in an open world, where they are tasked to identify pixels belonging to unknown objects and eventually to learn novel classes, incrementally. Humans have the capability to say: I don't know what that is, but I've already seen something like that. Therefore, it is desirable to perform such an incremental learning task in an unsupervised fashion. We introduce a method where unknown objects are clustered based on visual similarity. Those clusters are utilized to define new classes and serve as training data for unsupervised incremental learning. More precisely, the connected components of a predicted semantic segmentation are assessed by a segmentation quality estimate. connected components with a low estimated prediction quality are candidates for a subsequent clustering. Additionally, the component-wise quality assessment allows for obtaining predicted segmentation masks for the image regions potentially containing unknown objects. The respective pixels of such masks are pseudo-labeled and afterwards used for re-training the DNN, i.e., without the use of ground truth generated by humans. In our experiments we demonstrate that, without access to ground truth and even with few data, a DNN's class space can be extended by a novel class, achieving considerable segmentation accuracy.
翻訳日:2022-01-05 14:05:24 公開日:2022-01-04
# 深層学習とデジタル画像処理による3次元地図上の建物外像の同定と標高情報抽出

Identifying the exterior image of buildings on a 3D map and extracting elevation information using deep learning and digital image processing ( http://arxiv.org/abs/2201.01081v1 )

ライセンス: Link先を確認
Donghwa Shon, Byeongjoon Noh and Nahyang Byun(参考訳) 韓国における建築管理情報は長年にわたって高品質な情報を提供してきたが、行政情報に焦点を当てた情報の実用性は高くない。 このような状況ではあるものの、高解像度の3次元マップが技術開発とともに出現している。 しかし、ビルの外見に焦点を絞った画像情報のみを含むため、視覚伝達よりは機能しない。 ビルの外装に関する情報を3dマップから抽出又は特定できるのであれば、国の建築管理情報がbim(building information modeling)のレベルにビル外装に関する情報を含めるように拡張できるため、その情報の有用性が高まることが期待される。 本研究では, 深層学習とデジタル画像処理を用いた3次元マッピングを目的とした, 建物外装の外観に関する情報抽出の基礎的手法を提示し, 評価することを目的とする。 地図から画像の抽出と前処理を行った後,Fast R-CNN(Regions with Convolutional Neuron Networks)モデルを用いて情報を同定した。 地図から画像抽出および前処理を行った後,より高速なr-cnnモデルを用いて情報を同定した。 その結果,建物の高さと窓部分の検出では,約93%,91%の精度を示し,建物の標高情報を抽出する実験では優れた性能を示した。 いずれにせよ,実験者の誤解による誤検出率やノイズデータとの混合確率を窓の曖昧な境界に関して補うことで,改良された結果が得られることが期待される。

Despite the fact that architectural administration information in Korea has been providing high-quality information for a long period of time, the level of utility of the information is not high because it focuses on administrative information. While this is the case, a three-dimensional (3D) map with higher resolution has emerged along with the technological development. However, it cannot function better than visual transmission, as it includes only image information focusing on the exterior of the building. If information related to the exterior of the building can be extracted or identified from a 3D map, it is expected that the utility of the information will be more valuable as the national architectural administration information can then potentially be extended to include such information regarding the building exteriors to the level of BIM(Building Information Modeling). This study aims to present and assess a basic method of extracting information related to the appearance of the exterior of a building for the purpose of 3D mapping using deep learning and digital image processing. After extracting and preprocessing images from the map, information was identified using the Fast R-CNN(Regions with Convolutional Neuron Networks) model. The information was identified using the Faster R-CNN model after extracting and preprocessing images from the map. As a result, it showed approximately 93% and 91% accuracy in terms of detecting the elevation and window parts of the building, respectively, as well as excellent performance in an experiment aimed at extracting the elevation information of the building. Nonetheless, it is expected that improved results will be obtained by supplementing the probability of mixing the false detection rate or noise data caused by the misunderstanding of experimenters in relation to the unclear boundaries of windows.
翻訳日:2022-01-05 14:05:02 公開日:2022-01-04
# 骨格に基づく歩行情報を用いた抑うつ検出のためのデータ拡張

Data Augmentation for Depression Detection Using Skeleton-Based Gait Information ( http://arxiv.org/abs/2201.01115v1 )

ライセンス: Link先を確認
Jingjing Yang and Haifeng Lu and Chengming Li and Xiping Hu and Bin Hu(参考訳) 近年、世界規模でうつ病の発生が急速に増加しているが、大規模なうつ病スクリーニングはいまだに困難である。 歩行分析は、非接触で低コストで効率的な早期スクリーニング法を提供する。 しかし,歩行分析に基づく抑うつの早期スクリーニングには十分な有効サンプルデータがない。 本稿では,うつ病のリスクを評価するための骨格データ拡張手法を提案する。 まず、骨格データを強化し、抑うつや感情データセットに適用する5つの手法を提案する。 そこで我々は,相互情報と分類精度に基づいて,拡張手法を2つのタイプ(非雑音増強と雑音増強)に分割する。 最後に,人間の骨格データの特徴をより効果的に捉えるための拡張戦略を検討する。 実験の結果,生の骨格データ特性を多く保持する強化トレーニングデータセットが検出モデルの性能を決定することがわかった。 具体的には、回転増強とチャネルマスク増強により、それぞれ92.15%と91.34%に達する。

In recent years, the incidence of depression is rising rapidly worldwide, but large-scale depression screening is still challenging. Gait analysis provides a non-contact, low-cost, and efficient early screening method for depression. However, the early screening of depression based on gait analysis lacks sufficient effective sample data. In this paper, we propose a skeleton data augmentation method for assessing the risk of depression. First, we propose five techniques to augment skeleton data and apply them to depression and emotion datasets. Then, we divide augmentation methods into two types (non-noise augmentation and noise augmentation) based on the mutual information and the classification accuracy. Finally, we explore which augmentation strategies can capture the characteristics of human skeleton data more effectively. Experimental results show that the augmented training data set that retains more of the raw skeleton data properties determines the performance of the detection model. Specifically, rotation augmentation and channel mask augmentation make the depression detection accuracy reach 92.15% and 91.34%, respectively.
翻訳日:2022-01-05 14:04:39 公開日:2022-01-04
# 1億の医用画像からの自己教師あり学習

Self-supervised Learning from 100 Million Medical Images ( http://arxiv.org/abs/2201.01283v1 )

ライセンス: Link先を確認
Florin C. Ghesu, Bogdan Georgescu, Awais Mansoor, Youngjin Yoo, Dominik Neumann, Pragneshkumar Patel, R.S. Vishwanath, James M. Balter, Yue Cao, Sasa Grbic, Dorin Comaniciu(参考訳) 医療画像評価のための正確で堅牢な人工知能システムの構築には、高度なディープラーニングモデルの研究と設計だけでなく、注釈付きトレーニング例の大規模かつキュレーションセットの作成が必要である。 しかし、このようなデータセットの構築は、しばしば非常にコストがかかる - アノテーションタスクの複雑な性質と、医療画像(例えば、専門家放射線科医)の解釈に必要な高度な専門知識のおかげで。 この制限に対応するために、コントラスト学習とオンライン特徴クラスタリングに基づくリッチ画像特徴の自己教師付き学習法を提案する。 この目的のために,X線撮影,CT,MRI,超音波などの様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを利用する。 本稿では,これらの特徴を,様々な下流タスクにおける教師付き・ハイブリッド型自己監督・教師付きシステムにおけるモデルトレーニングの指導に利用することを提案する。 画像診断, CT, MRにおける画像評価の課題に対して, この戦略の多くの利点を強調した。 1)最先端と比較しての精度の顕著な上昇(例:AUCによる胸部X線撮影による異常検出と脳CTでの出血検出の3-7%) 2)トレーニング中のモデル収束の促進は,事前トレーニングを行わない場合と比較して最大85%向上する(例,mrスキャンにおける脳転移検出モデルのトレーニング時83%)。 3)フィールドで見られるデータ変動の強度変化,回転,スケーリング反射などの画像強化に対するロバスト性の向上。

Building accurate and robust artificial intelligence systems for medical image assessment requires not only the research and design of advanced deep learning models but also the creation of large and curated sets of annotated training examples. Constructing such datasets, however, is often very costly -- due to the complex nature of annotation tasks and the high level of expertise required for the interpretation of medical images (e.g., expert radiologists). To counter this limitation, we propose a method for self-supervised learning of rich image features based on contrastive learning and online feature clustering. For this purpose we leverage large training datasets of over 100,000,000 medical images of various modalities, including radiography, computed tomography (CT), magnetic resonance (MR) imaging and ultrasonography. We propose to use these features to guide model training in supervised and hybrid self-supervised/supervised regime on various downstream tasks. We highlight a number of advantages of this strategy on challenging image assessment problems in radiography, CT and MR: 1) Significant increase in accuracy compared to the state-of-the-art (e.g., AUC boost of 3-7% for detection of abnormalities from chest radiography scans and hemorrhage detection on brain CT); 2) Acceleration of model convergence during training by up to 85% compared to using no pretraining (e.g., 83% when training a model for detection of brain metastases in MR scans); 3) Increase in robustness to various image augmentations, such as intensity variations, rotations or scaling reflective of data variation seen in the field.
翻訳日:2022-01-05 14:04:26 公開日:2022-01-04
# 教師なし再同定学習と咬合推定を用いたオンラインマルチオブジェクトトラッキング

Online Multi-Object Tracking with Unsupervised Re-Identification Learning and Occlusion Estimation ( http://arxiv.org/abs/2201.01297v1 )

ライセンス: Link先を確認
Qiankun Liu and Dongdong Chen and Qi Chu and Lu Yuan and Bin Liu and Lei Zhang and Nenghai Yu(参考訳) 異なるオブジェクト間のオクルージョンは、Multi-Object Tracking (MOT) において典型的な課題であり、検出されたオブジェクトの欠如による追跡結果の低下につながることが多い。 マルチオブジェクト追跡の一般的な実践は、再出現したオブジェクトを再識別することである。 追跡性能は再識別によって向上するが、モデルのトレーニングにはアイデンティティのアノテーションが必要である。 さらに、そのような再同定のプラクティスは、検出器に見逃されたときに、非常に隠蔽された物体を追跡することができない。 本稿では,オンラインのマルチオブジェクト追跡に着目し,教師なし再同定学習モジュールとオクルージョン推定モジュールという2つの新しいモジュールを設計した。 具体的には、教師なし再識別学習モジュールは、(疑似)識別情報を一切必要とせず、スケーラビリティの問題に悩まされることもない。 提案したオクルージョン推定モジュールは、オクルージョンが発生する場所を予測しようとするが、これは検出器によって見逃された物体の位置を推定するために用いられる。 本研究は,最先端mot法に適用した場合,提案する教師なし再同定学習は教師なし再識別学習と同等であり,提案する咬合推定モジュールにより追従性能がさらに向上することを示す。

Occlusion between different objects is a typical challenge in Multi-Object Tracking (MOT), which often leads to inferior tracking results due to the missing detected objects. The common practice in multi-object tracking is re-identifying the missed objects after their reappearance. Though tracking performance can be boosted by the re-identification, the annotation of identity is required to train the model. In addition, such practice of re-identification still can not track those highly occluded objects when they are missed by the detector. In this paper, we focus on online multi-object tracking and design two novel modules, the unsupervised re-identification learning module and the occlusion estimation module, to handle these problems. Specifically, the proposed unsupervised re-identification learning module does not require any (pseudo) identity information nor suffer from the scalability issue. The proposed occlusion estimation module tries to predict the locations where occlusions happen, which are used to estimate the positions of missed objects by the detector. Our study shows that, when applied to state-of-the-art MOT methods, the proposed unsupervised re-identification learning is comparable to supervised re-identification learning, and the tracking performance is further improved by the proposed occlusion estimation module.
翻訳日:2022-01-05 14:04:00 公開日:2022-01-04
# セメント:ロングテールラベルを用いた不完全多視点弱ラベル学習

CEMENT: Incomplete Multi-View Weak-Label Learning with Long Tail Labels ( http://arxiv.org/abs/2201.01079v1 )

ライセンス: Link先を確認
Zhiwei Li, Lu Sun(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 近年、それに対応し、大きな成功を収めるためにいくつかの方法が提案されているが、依然として2つの重要な問題を抱えている。 1) 不完全な多視点弱ラベルデータを扱う能力が欠如しており,各サンプルに特徴及びラベルのサブセットのみが提供される。 2) 現実問題に通常発生するノイズの多いビューやテールラベルの存在を無視する。 本稿では,その限界を克服するために,Cementという新しい手法を提案する。 1) セメントは不完全なビューと弱いラベルをそれぞれ異なる低次元部分空間に埋め込み、ヒルベルト・シュミット独立基準 (hsic) によってそれらを関連付ける。 例えば、CEMEMTは、ノイズの多いビューをキャプチャするための埋め込みの重みを適応的に学習し、テールラベルをモデル化するための余分なコンポーネントを探索し、低ランクをマルチラベル設定で利用できるようにする。 提案する最適化問題を解くための交互アルゴリズムを開発した。 7つの実世界のデータセットにおける実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. In recent years, several methods have been proposed to cope with it and achieve much success, but still suffer from two key problems: 1) lack the ability to deal with the incomplete multi-view weak-label data, in which only a subset of features and labels are provided for each sample; 2) ignore the presence of noisy views and tail labels usually occurring in real-world problems. In this paper, we propose a novel method, named CEMENT, to overcome the limitations. For 1), CEMENT jointly embeds incomplete views and weak labels into distinct low-dimensional subspaces, and then correlates them via Hilbert-Schmidt Independence Criterion (HSIC). For 2), CEMEMT adaptively learns the weights of embeddings to capture noisy views, and explores an additional sparse component to model tail labels, making the low-rankness available in the multi-label setting. We develop an alternating algorithm to solve the proposed optimization problem. Experimental results on seven real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-05 14:01:44 公開日:2022-01-04
# オートバランス:不均衡データに対する最適損失関数

AutoBalance: Optimized Loss Functions for Imbalanced Data ( http://arxiv.org/abs/2201.01212v1 )

ライセンス: Link先を確認
Mingchen Li, Xuechen Zhang, Christos Thrampoulidis, Jiasi Chen, Samet Oymak(参考訳) 不均衡データセットは、現代の機械学習問題でよく見られる。 センシティブな属性を持つクラスやグループの存在は、一般化と公平性に関する懸念をもたらす。 このような懸念は、大容量のディープネットがトレーニングデータに完全に適合し、トレーニング中に完全な正確さと公平性を達成できるが、テスト中は不十分であるという事実によってさらに悪化する。 これらの課題に対処するために,トレーニング損失関数を自動設計し,精度と公正性を求める目的のブレンドを最適化する,双方向最適化フレームワークであるAutoBalanceを提案する。 具体的には、下位の問題はモデル重みを訓練し、上位の問題は検証データ上で所望の目標を監視し最適化することで損失関数をチューニングする。 損失設計はパラメトリッククロスエントロピー損失と個別化データ拡張スキームを用いてクラス/グループをパーソナライズした処理を可能にする。 不均衡な分類とグループ敏感な分類の応用シナリオに対するアプローチの利点と性能を評価する。 大規模な実証評価は、最先端アプローチに対するAutoBalanceのメリットを示している。 実験結果は,損失関数設計と列車評価分割の利点に関する理論的知見を補足した。 すべてのコードはオープンソースである。

Imbalanced datasets are commonplace in modern machine learning problems. The presence of under-represented classes or groups with sensitive attributes results in concerns about generalization and fairness. Such concerns are further exacerbated by the fact that large capacity deep nets can perfectly fit the training data and appear to achieve perfect accuracy and fairness during training, but perform poorly during test. To address these challenges, we propose AutoBalance, a bi-level optimization framework that automatically designs a training loss function to optimize a blend of accuracy and fairness-seeking objectives. Specifically, a lower-level problem trains the model weights, and an upper-level problem tunes the loss function by monitoring and optimizing the desired objective over the validation data. Our loss design enables personalized treatment for classes/groups by employing a parametric cross-entropy loss and individualized data augmentation schemes. We evaluate the benefits and performance of our approach for the application scenarios of imbalanced and group-sensitive classification. Extensive empirical evaluations demonstrate the benefits of AutoBalance over state-of-the-art approaches. Our experimental findings are complemented with theoretical insights on loss function design and the benefits of train-validation split. All code is available open-source.
翻訳日:2022-01-05 14:01:25 公開日:2022-01-04
# 限られたデータを用いた多相脾血管損傷の外部注意支援

External Attention Assisted Multi-Phase Splenic Vascular Injury Segmentation with Limited Data ( http://arxiv.org/abs/2201.00942v1 )

ライセンス: Link先を確認
Yuyin Zhou, David Dreizin, Yan Wang, Fengze Liu, Wei Shen, Alan L. Yuille(参考訳) 脾臓は鈍的腹部外傷の最も一般的な固形臓器の1つである。 脾血管損傷に対する多相ctによる自動分画システムの開発は, 臨床判断支援と予後予測を改善するために, 重症度評価を増強する。 しかし,脾血管損傷の正確な分節は以下の理由により困難である。 1)脾臓血管障害は,形状,テクスチャ,サイズ,全体的な外観において非常に変化しうる。 2) データ取得は複雑で費用のかかる手続きであり、データ科学者と放射線科医の双方の集中的な努力を必要とする。 これらの課題を踏まえて,我々は,特に限られたデータを用いて,多相脾血管損傷セグメンテーションのための新しい枠組みを設計する。 一方, 脾臓損傷の分節化を導くために, 外部注意と呼ばれる空間的注意として, 仮設脾臓マスクをマイニングするための外部データを活用することを提案する。 一方,我々は,異なる位相間の関係を十分に活用して内部データをポピュレーションするための生成的逆ネットワークを基盤とする合成相加重モジュールを開発した。 提案手法は, 学習中に外部の注意を集中させ, 内部データ表現を投入することにより, 他の競合手法を上回り, 一般的なdeeplab-v3+ベースラインを平均dscで7%以上向上させ, その効果を確認した。

The spleen is one of the most commonly injured solid organs in blunt abdominal trauma. The development of automatic segmentation systems from multi-phase CT for splenic vascular injury can augment severity grading for improving clinical decision support and outcome prediction. However, accurate segmentation of splenic vascular injury is challenging for the following reasons: 1) Splenic vascular injury can be highly variant in shape, texture, size, and overall appearance; and 2) Data acquisition is a complex and expensive procedure that requires intensive efforts from both data scientists and radiologists, which makes large-scale well-annotated datasets hard to acquire in general. In light of these challenges, we hereby design a novel framework for multi-phase splenic vascular injury segmentation, especially with limited data. On the one hand, we propose to leverage external data to mine pseudo splenic masks as the spatial attention, dubbed external attention, for guiding the segmentation of splenic vascular injury. On the other hand, we develop a synthetic phase augmentation module, which builds upon generative adversarial networks, for populating the internal data by fully leveraging the relation between different phases. By jointly enforcing external attention and populating internal data representation during training, our proposed method outperforms other competing methods and substantially improves the popular DeepLab-v3+ baseline by more than 7% in terms of average DSC, which confirms its effectiveness.
翻訳日:2022-01-05 14:00:45 公開日:2022-01-04
# HWRCNet: CNN-BiLSTMネットワークを用いたJPEG圧縮領域における手書き単語認識

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network ( http://arxiv.org/abs/2201.00947v1 )

ライセンス: Link先を確認
Mudit Goyal, Abhishek Kumar Gupta, Shiv Kumar, Karan Chatwani, Shiv Ram Dubey, Satish Kumar Singh(参考訳) 深層学習を用いた画像からの手書き単語認識は,有望な性能を持つ活発な研究領域である。 実際のシナリオでは、セキュリティ上の理由から、圧縮されたドメインで手書きの画像を処理する必要があるかもしれない。 しかし, 圧縮画像の処理において, ディープラーニングの利用は依然として極めて限られている。 近年のディープラーニングを用いた圧縮領域における文書画像処理の必要性から,JPEG圧縮領域における手書き単語認識のためのHWRCNetモデルを提案する。 提案モデルは、畳み込みニューラルネットワーク(CNN)とBiLSTM(Bi-Directional Long Term Memory)をベースとしたリカレントニューラルネットワーク(RNN)を組み合わせたものである。 基本的に、圧縮されたドメイン画像を用いてモデルを訓練し、89.05%の単語認識精度と13.37%の文字誤り率で非常に魅力的な性能を示す。

The handwritten word recognition from images using deep learning is an active research area with promising performance. It practical scenario, it might be required to process the handwritten images in the compressed domain due to due to security reasons. However, the utilization of deep learning is still very limited for the processing of compressed images. Motivated by the need of processing document images in the compressed domain using recent developments in deep learning, we propose a HWRCNet model for handwritten word recognition in JPEG compressed domain. The proposed model combines the Convolutional Neural Network (CNN) and Bi-Directional Long Short Term Memory (BiLSTM) based Recurrent Neural Network (RNN). Basically, we train the model using compressed domain images and observe a very appealing performance with 89.05% word recognition accuracy and 13.37% character error rate.
翻訳日:2022-01-05 14:00:24 公開日:2022-01-04
# (参考訳) 逆検出における画像変換の効果の理解と活用に向けて

Towards Understanding and Harnessing the Effect of Image Transformation in Adversarial Detection ( http://arxiv.org/abs/2201.01080v1 )

ライセンス: CC BY 4.0
Hui Liu, Bo Zhao, Yuefeng Peng, Weidong Li, Peng Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵の例から脅威を受けている。 逆方向検出は、良質な画像と逆方向の画像を区別する堅牢なDNNベースのサービスにおいて、基本的な作業である。 画像変換は、敵の例を検出する最も効果的な手法の1つである。 過去数年間、様々な画像変換が研究され、信頼できる逆検出器を設計するために議論されてきた。 本稿では,新しい分類法を用いた画像変換による敵検出の最近の進歩を体系的にレビューする。 そこで我々は,現状の敵攻撃に対する画像変換の検出性能をテストするために,広範囲な実験を行った。 さらに,単一変換では頑健な対向例を検出できないことを明らかにし,複数の画像変換を組み合わせた改良手法を提案する。 その結果,ジョイントアプローチは検出精度とリコールの大幅な向上を実現した。 共同検出装置は, 逆例検出に有効なツールであることが示唆された。

Deep neural networks (DNNs) are under threat from adversarial examples. Adversarial detection is a fundamental work for robust DNNs-based service, which distinguishes adversarial images from benign images. Image transformation is one of the most effective approaches to detect adversarial examples. During the last few years, a variety of image transformations have been studied and discussed to design reliable adversarial detectors. In this paper, we systematically review the recent progress on adversarial detection via image transformations with a novel taxonomy. Then we conduct an extensive set of experiments to test the detection performance of image transformations towards the state-of-the-art adversarial attacks. Furthermore, we reveal that the single transformation is not capable of detecting robust adversarial examples, and propose an improved approach by combining multiple image transformations. The results show that the joint approach achieves significant improvement in detection accuracy and recall. We suggest that the joint detector is a more effective tool to detect adversarial examples.
翻訳日:2022-01-05 13:58:33 公開日:2022-01-04
# 個人情報保護のためのセマンティックス保存歪み

Semantics-Preserved Distortion for Personal Privacy Protection ( http://arxiv.org/abs/2201.00965v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li and Hai Zhao(参考訳) プライバシー保護は、連合学習、特に自然言語処理において重要かつ関連するトピックである。 クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。 ユーザからの情報の直接的適用は個人のプライバシーを侵害する可能性が高いため、フェデレーション学習において、クライアント装置の生情報からセンタモデルをブロックする多くの方法が提案されている。 本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。 実際に,最近提案された手法であるNighboring Distribution Divergenceを用いて,歪み時の意味的保存を評価する。 このメトリックに基づいて,セマンティクス保存歪の2つのフレームワーク,生成型と置換型を提案する。 現在の自然言語処理分野におけるプライバシー関連タスクの欠如により、名前付きエンティティ認識と選挙区解析の実験を行っている。 以上の結果から,個人のプライバシー保護手法としての歪みの妥当性と効率性が示された。

Privacy protection is an important and concerning topic in Federated Learning, especially for Natural Language Processing. In client devices, a large number of texts containing personal information are produced by users every day. As the direct application of information from users is likely to invade personal privacy, many methods have been proposed in Federated Learning to block the center model from the raw information in client devices. In this paper, we try to do this more linguistically via distorting the text while preserving the semantics. In practice, we leverage a recently proposed metric, Neighboring Distribution Divergence, to evaluate the semantic preservation during the distortion. Based on the metric, we propose two frameworks for semantics-preserved distortion, a generative one and a substitutive one. Due to the lack of privacy-related tasks in the current Natural Language Processing field, we conduct experiments on named entity recognition and constituency parsing. Results from our experiments show the plausibility and efficiency of our distortion as a method for personal privacy protection.
翻訳日:2022-01-05 13:48:50 公開日:2022-01-04
# dignet: アスペクトレベルの感情分類のためのローカル-グローバルインタラクティブグラフからヒントを掘り出す

DigNet: Digging Clues from Local-Global Interactive Graph for Aspect-level Sentiment Classification ( http://arxiv.org/abs/2201.00989v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor Tsang(参考訳) アスペクトレベルの感情分類(ASC)では、最先端のモデルが構文グラフまたは関係グラフをエンコードし、局所構文情報またはグローバルリレーショナル情報をキャプチャする。 構文と関係グラフの利点にもかかわらず、それらの不足は無視され、グラフモデリングプロセスにおける表現力を制限する。 それらの限界を解決するため,我々は,インタラクティブエッジを用いて2つのグラフを縫い合わせることで,その利点を享受する新しい局所的グローバルインタラクティブグラフを設計した。 グラフ内メッセージパッシングとクロスグラフメッセージパッシングの2つのプロセスを実行するlgi(stacked local-global interactive)レイヤをコアモジュールとする,新たなニューラルネットワークであるdigenetを提案する。 このように、局所的な構文とグローバルな関係情報は、アスペクトレベルの感情を理解する上で、全体として和解することができる。 具体的には、異なる種類の対話エッジと3種類のLGI層を持つローカル・グローバル・インタラクティブグラフの2つの変種を設計する。 その結果,Lap14,Res14,Res15データセット上でのマクロF1,Res14,Res15の3倍,2.32倍,6.33倍の速度で過去のベストスコアを上回り,提案したローカル・グローバル・インタラクティブグラフとDigNetの有効性と優位性を確認した。

In aspect-level sentiment classification (ASC), state-of-the-art models encode either syntax graph or relation graph to capture the local syntactic information or global relational information. Despite the advantages of syntax and relation graphs, they have respective shortages which are neglected, limiting the representation power in the graph modeling process. To resolve their limitations, we design a novel local-global interactive graph, which marries their advantages by stitching the two graphs via interactive edges. To model this local-global interactive graph, we propose a novel neural network termed DigNet, whose core module is the stacked local-global interactive (LGI) layers performing two processes: intra-graph message passing and cross-graph message passing. In this way, the local syntactic and global relational information can be reconciled as a whole in understanding the aspect-level sentiment. Concretely, we design two variants of local-global interactive graphs with different kinds of interactive edges and three variants of LGI layers. We conduct experiments on several public benchmark datasets and the results show that we outperform previous best scores by 3\%, 2.32\%, and 6.33\% in terms of Macro-F1 on Lap14, Res14, and Res15 datasets, respectively, confirming the effectiveness and superiority of the proposed local-global interactive graph and DigNet.
翻訳日:2022-01-05 13:48:34 公開日:2022-01-04
# テキストゲームにおける戦略探索のための多段階エピソード制御

Multi-Stage Episodic Control for Strategic Exploration in Text Games ( http://arxiv.org/abs/2201.01251v1 )

ライセンス: Link先を確認
Jens Tuyls, Shunyu Yao, Sham Kakade, Karthik Narasimhan(参考訳) テキストアドベンチャーゲームは、組み合わさった大きなアクション空間とスパース報酬により、強化学習手法に固有の課題を示す。 これらの2つの要因の相互作用は、大きなアクションスペースは広範囲な探索を必要とするが、スパース報酬は限られたフィードバックを提供するため、特に要求されている。 本研究は,各エピソードでこれら2つの戦略を明確に分断する多段階アプローチを用いて,explore-vs-exploitジレンマに取り組むことを提案する。 eXploit-Then-eXplore (XTX)と呼ばれる我々のアルゴリズムは、過去の有望な軌道を模倣したエクスプロイトポリシーを使用して各エピソードを起動し、未知の状態空間につながる新しい行動を発見することを目的とした探索ポリシーに切り替える。 このポリシーの分解によって、ゲームスペースのどの部分に戻るべきかのグローバルな決定と、その領域における好奇心に基づく局所的な探索を組み合わせることができます。 本手法は,Jerichoベンチマーク(Hausknecht et al., 2020)の判定および確率的設定において,12ゲームの平均正規化スコアを27%,11%,それぞれ27%で上回った。 特にZolk1のゲームでは、XTXは従来の方法よりも2倍以上改善された103のスコアを取得し、過去の最先端の手法に悩まされてきたゲームにおけるいくつかの既知のボトルネックを突破する。

Text adventure games present unique challenges to reinforcement learning methods due to their combinatorially large action spaces and sparse rewards. The interplay of these two factors is particularly demanding because large action spaces require extensive exploration, while sparse rewards provide limited feedback. This work proposes to tackle the explore-vs-exploit dilemma using a multi-stage approach that explicitly disentangles these two strategies within each episode. Our algorithm, called eXploit-Then-eXplore (XTX), begins each episode using an exploitation policy that imitates a set of promising trajectories from the past, and then switches over to an exploration policy aimed at discovering novel actions that lead to unseen state spaces. This policy decomposition allows us to combine global decisions about which parts of the game space to return to with curiosity-based local exploration in that space, motivated by how a human may approach these games. Our method significantly outperforms prior approaches by 27% and 11% average normalized score over 12 games from the Jericho benchmark (Hausknecht et al., 2020) in both deterministic and stochastic settings, respectively. On the game of Zork1, in particular, XTX obtains a score of 103, more than a 2x improvement over prior methods, and pushes past several known bottlenecks in the game that have plagued previous state-of-the-art methods.
翻訳日:2022-01-05 13:48:07 公開日:2022-01-04
# pyramidtnt: ピラミッドアーキテクチャによるtransform-in-transformerベースラインの改善

PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture ( http://arxiv.org/abs/2201.00978v1 )

ライセンス: Link先を確認
Kai Han, Jianyuan Guo, Yehui Tang, Yunhe Wang(参考訳) トランスフォーマーネットワークはコンピュータビジョンタスクにおいて大きな進歩を遂げた。 Transformer-in-Transformer (TNT) アーキテクチャは、内変圧器と外変圧器を用いて局所的および大域的表現を抽出する。 本稿では,2つの高度な設計を導入することで,新しいTNTベースラインを提案する。 1)ピラミッド建築、及び 2) コンボリューションステム。 新しい"PyramidTNT"は階層的表現を確立することで、元のTNTを大幅に改善する。 PyramidTNTは、Swin Transformerのような従来の最先端のビジョントランスよりも優れたパフォーマンスを実現している。 この新たなベースラインが、視覚変換器のさらなる研究と応用に役立つことを願っている。 コードはhttps://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorchで入手できる。

Transformer networks have achieved great progress for computer vision tasks. Transformer-in-Transformer (TNT) architecture utilizes inner transformer and outer transformer to extract both local and global representations. In this work, we present new TNT baselines by introducing two advanced designs: 1) pyramid architecture, and 2) convolutional stem. The new "PyramidTNT" significantly improves the original TNT by establishing hierarchical representations. PyramidTNT achieves better performances than the previous state-of-the-art vision transformers such as Swin Transformer. We hope this new baseline will be helpful to the further research and application of vision transformer. Code will be available at https://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch.
翻訳日:2022-01-05 13:47:01 公開日:2022-01-04
# 暗黙的機能学習による多視点画像からの詳細な顔形状復元

Detailed Facial Geometry Recovery from Multi-view Images by Learning an Implicit Function ( http://arxiv.org/abs/2201.01016v1 )

ライセンス: Link先を確認
Yunze Xiao, Hao Zhu, Haotian Yang, Zhengyu Diao, Xiangju Lu, Xun Cao(参考訳) マルチビュー画像の校正セットから詳細な顔形状を復元することは、その幅広い応用に有用である。 従来のマルチビューステレオ(mvs)法は、マッチングコストを正則化する最適化手法を採用している。 近年、学習に基づく手法がこれらすべてをエンドツーエンドニューラルネットワークに統合し、効率性が向上している。 本稿では,約10秒で極めて詳細な3次元顔の復元を行う新しいアーキテクチャを提案する。 従来の学習に基づく3D CNNによるコストの正規化手法とは異なり,マッチングコストを抑える暗黙の関数を学習することを提案する。 マルチビュー画像から3次元形状モデルを適用することにより、メッシュ付きUV空間において複数の画像の特徴を抽出・集約し、より詳細な顔形状の復元に有効な暗黙的機能を実現する。 提案手法は,FaceScapeデータセットにおいて,SOTA学習に基づくMVSよりも精度が高い。 コードとデータはまもなくリリースされる。

Recovering detailed facial geometry from a set of calibrated multi-view images is valuable for its wide range of applications. Traditional multi-view stereo (MVS) methods adopt optimization methods to regularize the matching cost. Recently, learning-based methods integrate all these into an end-to-end neural network and show superiority of efficiency. In this paper, we propose a novel architecture to recover extremely detailed 3D faces in roughly 10 seconds. Unlike previous learning-based methods that regularize the cost volume via 3D CNN, we propose to learn an implicit function for regressing the matching cost. By fitting a 3D morphable model from multi-view images, the features of multiple images are extracted and aggregated in the mesh-attached UV space, which makes the implicit function more effective in recovering detailed facial shape. Our method outperforms SOTA learning-based MVS in accuracy by a large margin on the FaceScape dataset. The code and data will be released soon.
翻訳日:2022-01-05 13:46:50 公開日:2022-01-04
# (参考訳) パリティベース累積フェアネスアウェアブースティング

Parity-based Cumulative Fairness-aware Boosting ( http://arxiv.org/abs/2201.01148v1 )

ライセンス: CC BY 4.0
Vasileios Iosifidis, Arjun Roy, Eirini Ntoutsi(参考訳) データ駆動型AIシステムは、性別や人種といった保護された属性に基づいた差別につながる可能性がある。 この行動の1つの理由は、訓練データ(例えば、女性が不足している)の符号化された社会的バイアスであり、これは不均衡なクラス分布(例えば、グラインドは少数派である)の存在によって増大する。 state-of-the-art fairness-aware machine learning のアプローチは、公平性を改善しながら \emph{overall} の分類精度を維持することに焦点を当てている。 クラス不均衡が存在する場合、そのような方法は、既に過小評価されているグループ(例えば、 \textit{females})が平等な社会的特権(例えば、等信用機会)の基本的権利を否定することによって、差別の問題をさらに悪化させることができる。 そこで本研究では,各ラウンドにおけるデータ分布を変化させるフェアネスを意識したブースティングアンサンブルであるAdaFairを提案し,クラスエラーだけでなく,部分アンサンブルに基づいて累積的に定義されたモデルのフェアネス関連性能も考慮する。 各ラウンドにわたって識別されたグループのトレーニング内ブースティングを除き、adafairはバランスドエラーパフォーマンス(ber)のためにアンサンブル学習者の数を最適化することにより、トレーニング後のフェーズで直接不均衡に取り組む。 AdaFairはパリティに基づくフェアネスの概念を多用し、効果的に差別的な結果を緩和することができる。 提案手法は,全てのクラスにおいて良好な予測性能を維持しつつ,統計的に同等な機会,不公平な扱いを両立できることを示す。

Data-driven AI systems can lead to discrimination on the basis of protected attributes like gender or race. One reason for this behavior is the encoded societal biases in the training data (e.g., females are underrepresented), which is aggravated in the presence of unbalanced class distributions (e.g., "granted" is the minority class). State-of-the-art fairness-aware machine learning approaches focus on preserving the \emph{overall} classification accuracy while improving fairness. In the presence of class-imbalance, such methods may further aggravate the problem of discrimination by denying an already underrepresented group (e.g., \textit{females}) the fundamental rights of equal social privileges (e.g., equal credit opportunity). To this end, we propose AdaFair, a fairness-aware boosting ensemble that changes the data distribution at each round, taking into account not only the class errors but also the fairness-related performance of the model defined cumulatively based on the partial ensemble. Except for the in-training boosting of the group discriminated over each round, AdaFair directly tackles imbalance during the post-training phase by optimizing the number of ensemble learners for balanced error performance (BER). AdaFair can facilitate different parity-based fairness notions and mitigate effectively discriminatory outcomes. Our experiments show that our approach can achieve parity in terms of statistical parity, equal opportunity, and disparate mistreatment while maintaining good predictive performance for all classes.
翻訳日:2022-01-05 13:45:25 公開日:2022-01-04
# pssmと単語埋め込みを用いたインフルエンザaウイルス宿主の予測

Predicting Influenza A Viral Host Using PSSM and Word Embeddings ( http://arxiv.org/abs/2201.01140v1 )

ライセンス: Link先を確認
Yanhua Xu, Dominik Wojtczak(参考訳) インフルエンザウイルスの急速な変異は公衆の健康を脅かす。 異なる宿主を持つウイルスの再配列は致命的なパンデミックを引き起こす可能性がある。 しかし、インフルエンザウイルスが異なる種間を循環できるため、感染の間または感染後のウイルスの原宿主を検出することは困難である。 したがって、ウイルス宿主の早期かつ迅速な検出は、ウイルスのさらなる拡散を減少させるのに役立つ。 我々は,位置特異的スコアリングマトリクス(pssm)に由来する特徴を持つ様々な機械学習モデルを用いて,ウイルスの起源を推定するために,単語埋め込みと単語エンコーディングから学習した特徴について述べる。 その結果,PSSMモデルの性能は95%程度に達し,F1は約96%であった。 単語埋め込みモデルを用いて得られたMCCは約96%であり、F1は約97%である。

The rapid mutation of the influenza virus threatens public health. Reassortment among viruses with different hosts can lead to a fatal pandemic. However, it is difficult to detect the original host of the virus during or after an outbreak as influenza viruses can circulate between different species. Therefore, early and rapid detection of the viral host would help reduce the further spread of the virus. We use various machine learning models with features derived from the position-specific scoring matrix (PSSM) and features learned from word embedding and word encoding to infer the origin host of viruses. The results show that the performance of the PSSM-based model reaches the MCC around 95%, and the F1 around 96%. The MCC obtained using the model with word embedding is around 96%, and the F1 is around 97%.
翻訳日:2022-01-05 13:42:54 公開日:2022-01-04
# mdfend: 多ドメインフェイクニュース検出

MDFEND: Multi-domain Fake News Detection ( http://arxiv.org/abs/2201.00987v1 )

ライセンス: Link先を確認
Qiong Nan, Juan Cao, Yongchun Zhu, Yanyan Wang, Jintao Li(参考訳) フェイクニュースは様々なドメインのソーシャルメディアに広まり、政治、災害、金融など多くの面で現実世界の脅威に繋がった。 既存のほとんどのアプローチは、単一ドメイン偽ニュース検出(SFND)に焦点を当てており、これらの手法がマルチドメイン偽ニュース検出に適用された場合、不満足なパフォーマンスをもたらす。 新興分野として、マルチドメイン偽ニュース検知(MFND)が注目されている。 しかし、単語頻度や伝播パターンといったデータ分布はドメインごとに異なり、ドメインシフトと呼ばれる。 深刻なドメインシフトの課題に直面した既存のフェイクニュース検出技術は、マルチドメインシナリオでは性能が悪い。 そのため、MFNDの専門モデルの設計が求められている。 本稿では,9つのドメインから4,488個の偽ニュースと4,640個の実ニュースからなるドメインラベル付きMFND用偽ニュースデータセットのベンチマークを最初に設計する。 さらに、ドメインゲートを利用して複数の専門家が抽出した複数の表現を集約し、効果的なマルチドメインフェイクニュース検出モデル(MDFEND)を提案する。 実験の結果、mdfendはマルチドメインフェイクニュース検出の性能を大幅に向上できることがわかった。 データセットとコードはhttps://github.com/kennqiang/MDFEND-Weibo21.comから入手可能です。

Fake news spread widely on social media in various domains, which lead to real-world threats in many aspects like politics, disasters, and finance. Most existing approaches focus on single-domain fake news detection (SFND), which leads to unsatisfying performance when these methods are applied to multi-domain fake news detection. As an emerging field, multi-domain fake news detection (MFND) is increasingly attracting attention. However, data distributions, such as word frequency and propagation patterns, vary from domain to domain, namely domain shift. Facing the challenge of serious domain shift, existing fake news detection techniques perform poorly for multi-domain scenarios. Therefore, it is demanding to design a specialized model for MFND. In this paper, we first design a benchmark of fake news dataset for MFND with domain label annotated, namely Weibo21, which consists of 4,488 fake news and 4,640 real news from 9 different domains. We further propose an effective Multi-domain Fake News Detection Model (MDFEND) by utilizing a domain gate to aggregate multiple representations extracted by a mixture of experts. The experiments show that MDFEND can significantly improve the performance of multi-domain fake news detection. Our dataset and code are available at https://github.com/kennqiang/MDFEND-Weibo21.
翻訳日:2022-01-05 13:42:42 公開日:2022-01-04
# Speech-to-SQL: 自然言語質問から音声駆動型SQLクエリ生成を目指す

Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question ( http://arxiv.org/abs/2201.01209v1 )

ライセンス: Link先を確認
Yuanfeng Song, Raymond Chi-Wing Wong, Xuefang Zhao, Di Jiang(参考訳) 音声による入力は、人間とコンピュータの対話において最も簡単かつ効率的な方法であるため、私たちの日常生活におけるスマートフォンやタブレットの普及に伴い、大きな勢いを増している。 本稿では,関係データベースの構造化データを検索するための,より効率的な音声インタフェースの設計について検討する。 まず、人間の発話によって伝達される情報を理解し、それを構造化クエリ言語(sql)文に直接翻訳することを目的とした、 speech-to-sqlという新しいタスクを特定した。 この問題に対するナイーブな解決策は、逐次的な方法、すなわち自動音声認識(asr)コンポーネントとテキストからsqlコンポーネントで動作します。 しかし、高品質なASRシステムが必要であり、2つのコンポーネント間のエラー複合問題に悩まされ、性能が制限される。 これらの課題に対処するために,我々はさらに,人間の発話を外部asrステップを使わずにsqlクエリに直接翻訳する, speechsqlnet という新しいエンドツーエンドのニューラルネットワークアーキテクチャを提案する。 speechsqlnetは、スピーチで提示される豊かな言語情報をフル活用する利点がある。 私たちの知る限りでは、これはSQLの自然言語ベースのバージョンや限定的なSQL文法による変種ではなく、任意の自然言語質問に基づいてSQLを直接合成する最初の試みです。 提案した問題とモデルの有効性を検証するため,広く使用されているテキストからSQLへのデータセットをピギーバックすることで,SpeechQLというデータセットをさらに構築する。 このデータセットの大規模な実験的評価により、SpeechSQLNetは人間の音声から直接高品質なSQLクエリを合成でき、正確な一致精度の点で、様々な競合相手とカスケードされた手法を上回ります。

Speech-based inputs have been gaining significant momentum with the popularity of smartphones and tablets in our daily lives, since voice is the most easiest and efficient way for human-computer interaction. This paper works towards designing more effective speech-based interfaces to query the structured data in relational databases. We first identify a new task named Speech-to-SQL, which aims to understand the information conveyed by human speech and directly translate it into structured query language (SQL) statements. A naive solution to this problem can work in a cascaded manner, that is, an automatic speech recognition (ASR) component followed by a text-to-SQL component. However, it requires a high-quality ASR system and also suffers from the error compounding problem between the two components, resulting in limited performance. To handle these challenges, we further propose a novel end-to-end neural architecture named SpeechSQLNet to directly translate human speech into SQL queries without an external ASR step. SpeechSQLNet has the advantage of making full use of the rich linguistic information presented in speech. To the best of our knowledge, this is the first attempt to directly synthesize SQL based on arbitrary natural language questions, rather than a natural language-based version of SQL or its variants with a limited SQL grammar. To validate the effectiveness of the proposed problem and model, we further construct a dataset named SpeechQL, by piggybacking the widely-used text-to-SQL datasets. Extensive experimental evaluations on this dataset show that SpeechSQLNet can directly synthesize high-quality SQL queries from human speech, outperforming various competitive counterparts as well as the cascaded methods in terms of exact match accuracies.
翻訳日:2022-01-05 13:42:20 公開日:2022-01-04
# McXai: ローカルモデルに依存しない2つのゲーム

McXai: Local model-agnostic explanation as two games ( http://arxiv.org/abs/2201.01044v1 )

ライセンス: Link先を確認
Yiran Huang, Nicole Schaal, Michael Hefenbrock, Yexu Zhou, Till Riedel, Likun Fang, Michael Beigl(参考訳) 今日まで、ブラックボックス機械学習モデルのローカル解釈可能性を提供する様々なアプローチが導入されてきた。 これらのメソッドは、自分自身を理解するのが難しいか、機能ごとの作業を行い、機能間の依存関係を無視しているか、あるいはモデルによってなされた決定を主張する機能のみに焦点を当てているかのどちらかです。 これらの点に対処するため、この研究はモンテカルロ木探索と呼ばれる強化学習に基づくeXplainable Artificial Intelligent (McXai)のアプローチを導入し、ブラックボックス分類モデル(分類器)の決定を説明する。 本手法はモンテカルロ木探索を活用し,説明生成過程を2ゲームとしてモデル化する。 あるゲームでは、報酬は分類器の決定を支持する特徴セットを見つけることで最大化され、第二ゲームでは、代替決定につながる特徴セットを見つけることが報酬を最大化する。 その結果、木構造としての人間に親しみやすい表現となり、各ノードは、木の上部でより小さな説明で研究すべき特徴の集合を表す。 実験の結果, LIME や SHAP などの古典的手法に比べて,本手法の特徴は分類に関してより有益であることがわかった。 さらに,誤解を招く特徴を識別することで,ブラックボックスモデルのロバスト性向上を多くの場面で導くことができる。

To this day, a variety of approaches for providing local interpretability of black-box machine learning models have been introduced. Unfortunately, all of these methods suffer from one or more of the following deficiencies: They are either difficult to understand themselves, they work on a per-feature basis and ignore the dependencies between features and/or they only focus on those features asserting the decision made by the model. To address these points, this work introduces a reinforcement learning-based approach called Monte Carlo tree search for eXplainable Artificial Intelligent (McXai) to explain the decisions of any black-box classification model (classifier). Our method leverages Monte Carlo tree search and models the process of generating explanations as two games. In one game, the reward is maximized by finding feature sets that support the decision of the classifier, while in the second game, finding feature sets leading to alternative decisions maximizes the reward. The result is a human friendly representation as a tree structure, in which each node represents a set of features to be studied with smaller explanations at the top of the tree. Our experiments show, that the features found by our method are more informative with respect to classifications than those found by classical approaches like LIME and SHAP. Furthermore, by also identifying misleading features, our approach is able to guide towards improved robustness of the black-box model in many situations.
翻訳日:2022-01-05 13:41:50 公開日:2022-01-04
# グラフ機械学習の自動化 - アプローチ、ライブラリ、方向性

Automated Graph Machine Learning: Approaches, Libraries and Directions ( http://arxiv.org/abs/2201.01288v1 )

ライセンス: Link先を確認
Xin Wang, Ziwei Zhang and Wenwu Zhu(参考訳) グラフ機械学習は学術と産業の両方で広く研究されている。 しかし、グラフ学習に関する文献が多くの新しい手法や技術と共にブームとなり、異なるグラフ関連タスクに対して最適な機械学習アルゴリズムを手動で設計することはますます困難になっている。 この課題に取り組むために、手動設計なしで異なるグラフタスク/データに対して最適なハイパーパラメータとニューラルネットワークアーキテクチャの設定を見つけることを目的とした自動グラフ機械学習が、研究コミュニティから注目を集めている。 本稿では,グラフ機械学習のためのハイパーパラメータ最適化 (HPO) とニューラルアーキテクチャ探索 (NAS) を網羅する,グラフマシンの自動手法について論じる。 グラフ機械学習と自動機械学習の両方用に設計された既存のライブラリを簡単に概説し、さらに深く、私たちの専用で世界初のグラフ機械学習自動化のためのオープンソースライブラリであるautoglを紹介します。 最後に、私たちは自動グラフ機械学習の今後の研究方向に関する洞察を共有しています。 本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。

Graph machine learning has been extensively studied in both academic and industry. However, as the literature on graph learning booms with a vast number of emerging methods and techniques, it becomes increasingly difficult to manually design the optimal machine learning algorithm for different graph-related tasks. To tackle the challenge, automated graph machine learning, which aims at discovering the best hyper-parameter and neural architecture configuration for different graph tasks/data without manual design, is gaining an increasing number of attentions from the research community. In this paper, we extensively discuss automated graph machine approaches, covering hyper-parameter optimization (HPO) and neural architecture search (NAS) for graph machine learning. We briefly overview existing libraries designed for either graph machine learning or automated machine learning respectively, and further in depth introduce AutoGL, our dedicated and the world's first open-source library for automated graph machine learning. Last but not least, we share our insights on future research directions for automated graph machine learning. This paper is the first systematic and comprehensive discussion of approaches, libraries as well as directions for automated graph machine learning.
翻訳日:2022-01-05 13:40:56 公開日:2022-01-04
# 自己指向型機械学習

Self-directed Machine Learning ( http://arxiv.org/abs/2201.01289v1 )

ライセンス: Link先を確認
Wenwu Zhu, Xin Wang and Pengtao Xie(参考訳) 従来の機械学習(ML)は、学習タスク、データ、モデル、最適化アルゴリズム、評価メトリクスを決定するために、機械学習の専門家による手動設計に大きく依存している。 教育科学において、人間学習者が自力で学習タスクや教材を選択できるセルフディレクティブ学習は、受動的な教師主導学習よりも効果的であることが示されている。 自己指向型機械学習の概念に触発されて,自己指向型機械学習(SDML)の基本概念を導入し,SDMLのためのフレームワークを提案する。 具体的には,sdmlを自己認識と外部認知を含む自己認識に基づく自己指向学習プロセスとして設計する。 提案したSDMLプロセスは,自己タスク選択,自己データ選択,自己モデル選択,自己最適化戦略選択,自己評価基準選択の恩恵を受けることができる。 一方、SDMLプロセスの学習性能は、自己認識をさらに改善するためのフィードバックとなる。 マルチレベル最適化に基づくSDMLの数学的定式化を提案する。 さらに,SDMLの応用の可能性とともに事例研究を行い,今後の研究方向性について論じる。 SDMLは、機械が人間のような自己指向学習を実行し、人工知能への新たな視点を提供することを期待している。

Conventional machine learning (ML) relies heavily on manual design from machine learning experts to decide learning tasks, data, models, optimization algorithms, and evaluation metrics, which is labor-intensive, time-consuming, and cannot learn autonomously like humans. In education science, self-directed learning, where human learners select learning tasks and materials on their own without requiring hands-on guidance, has been shown to be more effective than passive teacher-guided learning. Inspired by the concept of self-directed human learning, we introduce the principal concept of Self-directed Machine Learning (SDML) and propose a framework for SDML. Specifically, we design SDML as a self-directed learning process guided by self-awareness, including internal awareness and external awareness. Our proposed SDML process benefits from self task selection, self data selection, self model selection, self optimization strategy selection and self evaluation metric selection through self-awareness without human guidance. Meanwhile, the learning performance of the SDML process serves as feedback to further improve self-awareness. We propose a mathematical formulation for SDML based on multi-level optimization. Furthermore, we present case studies together with potential applications of SDML, followed by discussing future research directions. We expect that SDML could enable machines to conduct human-like self-directed learning and provide a new perspective towards artificial general intelligence.
翻訳日:2022-01-05 13:40:40 公開日:2022-01-04
# Deep Metric Learningのための新しいクラスを生成するための学習

Learning to Generate Novel Classes for Deep Metric Learning ( http://arxiv.org/abs/2201.01008v1 )

ライセンス: Link先を確認
Kyungmoon Lee, Sungyeon Kim, Seunghoon Hong, Suha Kwak(参考訳) ディープメトリックラーニングは、トレーニング中にクラスが見えない場合でも、データ間の距離がクラス同値性を反映する埋め込み空間を学習することを目的としている。 しかし、訓練で利用できるクラス数は限られており、学習された埋め込み空間の一般化を妨げている。 そこで本研究では,新しいクラスとその組込みベクトルを合成する新しいデータ拡張手法を提案する。 本手法は,組込みモデルに豊富な意味情報を提供し,元のデータでは使用できない新しいクラスでトレーニングデータを拡張することにより,その一般化を改善できる。 クラスラベルとノイズが与えられたとき、そのクラスのランダム埋め込みベクトルを生成する条件付き生成モデルの学習と活用により、このアイデアを実装した。 提案するジェネレータは,現実的で多様なクラスを補完することにより,よりリッチなクラス関係の利用を可能にした。 公開ベンチマークデータセットにおける実験結果から,本手法はプロキシベース損失の性能を明らかに向上することが示された。

Deep metric learning aims to learn an embedding space where the distance between data reflects their class equivalence, even when their classes are unseen during training. However, the limited number of classes available in training precludes generalization of the learned embedding space. Motivated by this, we introduce a new data augmentation approach that synthesizes novel classes and their embedding vectors. Our approach can provide rich semantic information to an embedding model and improve its generalization by augmenting training data with novel classes unavailable in the original data. We implement this idea by learning and exploiting a conditional generative model, which, given a class label and a noise, produces a random embedding vector of the class. Our proposed generator allows the loss to use richer class relations by augmenting realistic and diverse classes, resulting in better generalization to unseen samples. Experimental results on public benchmark datasets demonstrate that our method clearly enhances the performance of proxy-based losses.
翻訳日:2022-01-05 13:39:29 公開日:2022-01-04
# クラスタ構造関数

The cluster structure function ( http://arxiv.org/abs/2201.01222v1 )

ライセンス: Link先を確認
Andrew R. Cohen and Paul M.B. Vit\'anyi(参考訳) 与えられた部品数に設定されたデータのパーティションごとに、その部分に含まれるデータに対して、すべての部分が可能な限り良いモデル("アルゴリズム的十分統計")であるようなパーティションが存在する。 これは1とデータ数の間のすべての数に対して可能であるので、結果は関数であり、クラスタ構造関数である。 パーティションの部品数を、部品による良いモデルであることの欠陥に関連する値にマッピングする。 このような関数は、データセットのパーティションが無ければ少なくともゼロの値から始まり、データセットのパーティションがシングルトンに分割される場合、0に降下する。 最適なクラスタリングは、クラスタ構造関数を最小限にするために選ばれたものである。 この方法の背後にある理論はアルゴリズム情報理論(コルモゴロフ複雑性)で表される。 実際にはコルモゴロフ錯体はコンクリート圧縮機によって近似される。 実データを用いた例を挙げる: MNIST手書き桁と、幹細胞研究で用いられる実細胞のセグメント化である。

For each partition of a data set into a given number of parts there is a partition such that every part is as much as possible a good model (an "algorithmic sufficient statistic") for the data in that part. Since this can be done for every number between one and the number of data, the result is a function, the cluster structure function. It maps the number of parts of a partition to values related to the deficiencies of being good models by the parts. Such a function starts with a value at least zero for no partition of the data set and descents to zero for the partition of the data set into singleton parts. The optimal clustering is the one chosen to minimize the cluster structure function. The theory behind the method is expressed in algorithmic information theory (Kolmogorov complexity). In practice the Kolmogorov complexities involved are approximated by a concrete compressor. We give examples using real data sets: the MNIST handwritten digits and the segmentation of real cells as used in stem cell research.
翻訳日:2022-01-05 13:39:13 公開日:2022-01-04
# 網膜血管疾患検出のためのトランスファーラーニング : 糖尿病網膜症と未熟児網膜症のパイロット研究

Transfer Learning for Retinal Vascular Disease Detection: A Pilot Study with Diabetic Retinopathy and Retinopathy of Prematurity ( http://arxiv.org/abs/2201.01250v1 )

ライセンス: Link先を確認
Guan Wang, Yusuke Kikuchi, Jinglin Yi, Qiong Zou, Rui Zhou, Xin Guo(参考訳) 網膜血管疾患は、人間の身体の健康に影響を及ぼし、時には検出されていない身体の損傷を示す。 近年,糖尿病網膜症(DR)の診断に深層学習技術が応用されている。 他のほとんどの網膜血管疾患を検出するためにディープラーニング技術を適用する主な障害は、利用可能なデータ量が限られていることだ。 本稿では,網膜血管疾患の検出における特徴類似性を利用したトランスファーラーニング手法を提案する。 本研究は、ソースタスクとしてDR検出を選択し、ターゲットタスクとして未熟児網膜症(ROP)を早期に検出する。 実験の結果, 医用画像解析で現在採用されている従来のimagenetプリトレーニングトランスファー学習手法が, あらゆる指標において, drプリトレーニングアプローチが支配的であることが判明した。 さらに,本手法は,訓練過程の確率性や,訓練サンプルの削減に関して,より堅牢である。 本研究は, 広範囲の網膜血管疾患や病理疾患に対するトランスファーラーニングアプローチの可能性を示すものである。

Retinal vascular diseases affect the well-being of human body and sometimes provide vital signs of otherwise undetected bodily damage. Recently, deep learning techniques have been successfully applied for detection of diabetic retinopathy (DR). The main obstacle of applying deep learning techniques to detect most other retinal vascular diseases is the limited amount of data available. In this paper, we propose a transfer learning technique that aims to utilize the feature similarities for detecting retinal vascular diseases. We choose the well-studied DR detection as a source task and identify the early detection of retinopathy of prematurity (ROP) as the target task. Our experimental results demonstrate that our DR-pretrained approach dominates in all metrics the conventional ImageNet-pretrained transfer learning approach, currently adopted in medical image analysis. Moreover, our approach is more robust with respect to the stochasticity in the training process and with respect to reduced training samples. This study suggests the potential of our proposed transfer learning approach for a broad range of retinal vascular diseases or pathologies, where data is limited.
翻訳日:2022-01-05 13:39:00 公開日:2022-01-04
# クロスドメインフラッド検出のための階層型説明可能なネットワークを用いたユーザの行動系列のモデル化

Modeling Users' Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection ( http://arxiv.org/abs/2201.01004v1 )

ライセンス: Link先を確認
Yongchun Zhu, Dongbo Xi, Bowen Song, Fuzhen Zhuang, Shuai Chen, Xi Gu, Qing He(参考訳) 電子商取引業界の爆発的な成長に伴い、現実のアプリケーションにおけるオンライン取引詐欺の検出は、電子商取引プラットフォームの開発においてますます重要になっている。 ユーザのシーケンシャルな行動履歴は、通常の支払いと不正な支払いを区別する有用な情報を提供する。 近年,このシーケンスに基づく不正検出問題の解法が提案されている。 しかし、これらの手法は通常2つの問題に悩まされる: 予測結果は説明が困難であり、行動の内部情報の活用は不十分である。 上記の2つの問題に対処するために,ユーザ行動系列をモデル化する階層型説明可能ネットワーク(HEN)を提案する。 一方、eコマースビジネスが新たなドメイン、例えば新しい国や新しい市場へと拡大するにつれて、不正検出システムにおけるユーザの振る舞いをモデル化する上での大きな問題は、データ収集の制限である。 そこで本稿では,既存のドメイン(ソースドメイン)からの知識を十分に成熟したデータで転送し,新たなドメイン(ターゲットドメイン)のパフォーマンスを向上させることを目的とした,クロスドメイン不正検出問題に取り組むためのトランスファーフレームワークを提案する。 提案手法は,hen に適用できるだけでなく,embedd & mlp パラダイムにおける既存モデルにも適用可能な汎用転送フレームワークである。 90の転送タスク実験に基づいて,提案手法がhenによるクロスドメイン不正検出タスクに寄与するだけでなく,既存モデルにも普遍的かつ拡張可能なことを実証した。

With the explosive growth of the e-commerce industry, detecting online transaction fraud in real-world applications has become increasingly important to the development of e-commerce platforms. The sequential behavior history of users provides useful information in differentiating fraudulent payments from regular ones. Recently, some approaches have been proposed to solve this sequence-based fraud detection problem. However, these methods usually suffer from two problems: the prediction results are difficult to explain and the exploitation of the internal information of behaviors is insufficient. To tackle the above two problems, we propose a Hierarchical Explainable Network (HEN) to model users' behavior sequences, which could not only improve the performance of fraud detection but also make the inference process interpretable. Meanwhile, as e-commerce business expands to new domains, e.g., new countries or new markets, one major problem for modeling user behavior in fraud detection systems is the limitation of data collection, e.g., very few data/labels available. Thus, in this paper, we further propose a transfer framework to tackle the cross-domain fraud detection problem, which aims to transfer knowledge from existing domains (source domains) with enough and mature data to improve the performance in the new domain (target domain). Our proposed method is a general transfer framework that could not only be applied upon HEN but also various existing models in the Embedding & MLP paradigm. Based on 90 transfer task experiments, we also demonstrate that our transfer framework could not only contribute to the cross-domain fraud detection task with HEN, but also be universal and expandable for various existing models.
翻訳日:2022-01-05 13:38:41 公開日:2022-01-04
# 協調した注意を持つ学習オペレーター

Learning Operators with Coupled Attention ( http://arxiv.org/abs/2201.01032v1 )

ライセンス: Link先を確認
Georgios Kissas, Jacob Seidman, Leonardo Ferreira Guilhoto, Victor M. Preciado, George J. Pappas and Paris Perdikaris(参考訳) Supervised operator learningは、時空間力学系の進化をモデル化し、機能データ間の一般的なブラックボックス関係を近似するための応用のための、新しい機械学習パラダイムである。 本稿では,近年の注目機構の成功を動機とした,新たな演算子学習手法であるLOCAを提案する。 我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。 これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができ、トレーニングセットの測定における出力関数の数が非常に小さい場合でも非線形演算子を近似することができる。 この定式化には,提案モデルの普遍表現性に関する厳密な近似理論的保証が伴う。 実験により,常微分方程式と偏微分方程式に支配されるシステムと,ブラックボックス気候予測問題を含む演算子学習シナリオにおけるLOCAの性能を評価する。 これらのシナリオを通じて、分散予測タスクであっても、ノイズの多い入力データに対する技術精度、堅牢性、テストデータセット上で一貫して小さなエラーの拡散を示す。

Supervised operator learning is an emerging machine learning paradigm with applications to modeling the evolution of spatio-temporal dynamical systems and approximating general black-box relationships between functional data. We propose a novel operator learning method, LOCA (Learning Operators with Coupled Attention), motivated from the recent success of the attention mechanism. In our architecture, the input functions are mapped to a finite set of features which are then averaged with attention weights that depend on the output query locations. By coupling these attention weights together with an integral transform, LOCA is able to explicitly learn correlations in the target output functions, enabling us to approximate nonlinear operators even when the number of output function in the training set measurements is very small. Our formulation is accompanied by rigorous approximation theoretic guarantees on the universal expressiveness of the proposed model. Empirically, we evaluate the performance of LOCA on several operator learning scenarios involving systems governed by ordinary and partial differential equations, as well as a black-box climate prediction problem. Through these scenarios we demonstrate state of the art accuracy, robustness with respect to noisy input data, and a consistently small spread of errors over testing data sets, even for out-of-distribution prediction tasks.
翻訳日:2022-01-05 13:38:17 公開日:2022-01-04
# 推定誤差が証明可能な深層ニューラルネットワークの最小逆摂動について

On the Minimal Adversarial Perturbation for Deep Neural Networks with Provable Estimation Error ( http://arxiv.org/abs/2201.01235v1 )

ライセンス: Link先を確認
Fabio Brau, Giulio Rossolini, Alessandro Biondi and Giorgio Buttazzo(参考訳) Deep Neural Networks(DNN)は、知覚と制御のタスクにおいて驚くほどのパフォーマンスを示しているが、いくつかの信頼できる問題がまだ残っている。 最も議論されたトピックの1つは、与えられた入力の頑健さを定量化できる証明可能な技術に関する興味深い研究ラインを開設した対向摂動の存在である。 この点において、分類境界からの入力のユークリッド距離は、最小限の安価な対向摂動として十分に証明されたロバスト性評価を示す。 残念ながら、NNの非凸性のため、そのような距離の計算は非常に複雑である。 この問題に対処するためにいくつかの方法が提案されているが、私たちの知る限りでは、提案した誤りを推定してバウンドする証明可能な結果は提示されていない。 本稿では,最小対向摂動を求める2つの軽量戦略を提案し,この問題に対処する。 最先端とは違って,提案手法では近似距離の誤差推定理論を理論値に対して定式化することができる。 最後に、アルゴリズムの性能を評価し、理論的な結果を支持するために、かなりの実験が報告されている。 その結果, 提案手法は, 分類境界に近い試料の理論的距離を近似し, 対向攻撃に対するロバスト性を保証することが示唆された。

Although Deep Neural Networks (DNNs) have shown incredible performance in perceptive and control tasks, several trustworthy issues are still open. One of the most discussed topics is the existence of adversarial perturbations, which has opened an interesting research line on provable techniques capable of quantifying the robustness of a given input. In this regard, the Euclidean distance of the input from the classification boundary denotes a well-proved robustness assessment as the minimal affordable adversarial perturbation. Unfortunately, computing such a distance is highly complex due the non-convex nature of NNs. Despite several methods have been proposed to address this issue, to the best of our knowledge, no provable results have been presented to estimate and bound the error committed. This paper addresses this issue by proposing two lightweight strategies to find the minimal adversarial perturbation. Differently from the state-of-the-art, the proposed approach allows formulating an error estimation theory of the approximate distance with respect to the theoretical one. Finally, a substantial set of experiments is reported to evaluate the performance of the algorithms and support the theoretical findings. The obtained results show that the proposed strategies approximate the theoretical distance for samples close to the classification boundary, leading to provable robustness guarantees against any adversarial attacks.
翻訳日:2022-01-05 13:36:02 公開日:2022-01-04
# ExAID:皮膚病変のコンピュータ診断のためのマルチモーダル説明フレームワーク

ExAID: A Multimodal Explanation Framework for Computer-Aided Diagnosis of Skin Lesions ( http://arxiv.org/abs/2201.01249v1 )

ライセンス: Link先を確認
Adriano Lucieri and Muhammad Naseer Bajwa and Stephan Alexander Braun and Muhammad Imran Malik and Andreas Dengel and Sheraz Ahmed(参考訳) AIベースのコンピュータ支援診断(CAD)システムの臨床ワークフローへの展開を成功させる上での障害のひとつは、透明な意思決定の欠如である。 一般的に使用されるeXplainable AIメソッドは、不透明なアルゴリズムに関する洞察を提供するが、そのような説明は通常、高度に訓練された専門家以外は容易に理解できない。 皮膚鏡像からの皮膚病変の悪性度に関する決定の解説は、基礎疾患の定義自体が曖昧であるため、特定の明快さを必要とする。 本研究は,バイオメディカル画像解析のための新しいフレームワークであるExAID(Explainable AI for Dermatology)を提示する。 ExAIDは概念活性化ベクトル(Concept Activation Vectors)を利用して、潜在空間における任意のディープラーニングモデルによって学習された概念に人間の概念をマッピングする。 関連概念の同定は、概念的位置情報によって補足されたきめ細かいテキストの説明を構築するために使用され、包括的で一貫性のあるマルチモーダルな説明を提供する。 すべての情報は、臨床ルーチンで使用する診断インターフェースで包括的に提示される。 教育モードは、医学研究と教育を支援するデータとモデル探索のためのデータセットレベルの説明統計とツールを提供する。 ExAIDの厳密な量的・質的な評価を通じて、誤った予測であってもCAD支援シナリオに対するマルチモーダルな説明の有用性を示す。 exaidは皮膚科医に、彼らが理解し信頼する効果的なスクリーニングツールを提供すると信じています。 さらに、他のバイオメディカルイメージングの分野でも同様の応用の基礎となる。

One principal impediment in the successful deployment of AI-based Computer-Aided Diagnosis (CAD) systems in clinical workflows is their lack of transparent decision making. Although commonly used eXplainable AI methods provide some insight into opaque algorithms, such explanations are usually convoluted and not readily comprehensible except by highly trained experts. The explanation of decisions regarding the malignancy of skin lesions from dermoscopic images demands particular clarity, as the underlying medical problem definition is itself ambiguous. This work presents ExAID (Explainable AI for Dermatology), a novel framework for biomedical image analysis, providing multi-modal concept-based explanations consisting of easy-to-understand textual explanations supplemented by visual maps justifying the predictions. ExAID relies on Concept Activation Vectors to map human concepts to those learnt by arbitrary Deep Learning models in latent space, and Concept Localization Maps to highlight concepts in the input space. This identification of relevant concepts is then used to construct fine-grained textual explanations supplemented by concept-wise location information to provide comprehensive and coherent multi-modal explanations. All information is comprehensively presented in a diagnostic interface for use in clinical routines. An educational mode provides dataset-level explanation statistics and tools for data and model exploration to aid medical research and education. Through rigorous quantitative and qualitative evaluation of ExAID, we show the utility of multi-modal explanations for CAD-assisted scenarios even in case of wrong predictions. We believe that ExAID will provide dermatologists an effective screening tool that they both understand and trust. Moreover, it will be the basis for similar applications in other biomedical imaging fields.
翻訳日:2022-01-05 13:35:43 公開日:2022-01-04
# supervised homogeneity fusion: 組合せアプローチ

Supervised Homogeneity Fusion: a Combinatorial Approach ( http://arxiv.org/abs/2201.01036v1 )

ライセンス: Link先を確認
Wen Wang, Shihao Wu, Ziwei Zhu, Ling Zhou, Peter X.-K. Song(参考訳) 回帰係数を同族群に融合することで、各群内で共通の値を共有する係数を顕示することができる。 このような群的同質性はパラメータ空間の固有次元を減少させ、より鋭い統計的精度を解き放つ。 混合整数最適化(MIO)に有効な$L_0$-Fusionと呼ばれる新たな組合せ群化手法を提案し,検討する。 統計的側面から、真の群を回復する難しさを裏付けるグループ感度と呼ばれる基本量を特定する。 l_0$-fusion はグループ化感度の最も弱い要件の下でグループ化一貫性を達成する:もしこの要件に違反した場合、グループ化の最小リスクは 0 に収束しない。 さらに,高次元のシステムでは,統計的効率を損なうことなく,数値計算コストを大幅に削減しつつ,確実に特徴の検定セットと組み合わせて$L_0$-Fusionを適用できることが示される。 アルゴリズムの面では、暖かいスタート戦略とともに$L_0$-FusionのMIO定式化を提供する。 シミュレーションと実データ解析により、$L_0$-Fusionは、グループ化精度において競合他社よりも優れていることを示した。

Fusing regression coefficients into homogenous groups can unveil those coefficients that share a common value within each group. Such groupwise homogeneity reduces the intrinsic dimension of the parameter space and unleashes sharper statistical accuracy. We propose and investigate a new combinatorial grouping approach called $L_0$-Fusion that is amenable to mixed integer optimization (MIO). On the statistical aspect, we identify a fundamental quantity called grouping sensitivity that underpins the difficulty of recovering the true groups. We show that $L_0$-Fusion achieves grouping consistency under the weakest possible requirement of the grouping sensitivity: if this requirement is violated, then the minimax risk of group misspecification will fail to converge to zero. Moreover, we show that in the high-dimensional regime, one can apply $L_0$-Fusion coupled with a sure screening set of features without any essential loss of statistical efficiency, while reducing the computational cost substantially. On the algorithmic aspect, we provide a MIO formulation for $L_0$-Fusion along with a warm start strategy. Simulation and real data analysis demonstrate that $L_0$-Fusion exhibits superiority over its competitors in terms of grouping accuracy.
翻訳日:2022-01-05 13:35:18 公開日:2022-01-04
# swin unetr:mri画像における脳腫瘍のセグメンテーションのためのスウィントランスフォーマー

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images ( http://arxiv.org/abs/2201.01266v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Vishwesh Nath, Yucheng Tang, Dong Yang, Holger Roth and Daguang Xu(参考訳) 脳腫瘍のセマンティックセグメンテーション(Semantic segmentation of brain tumors)は、臨床医が患者を診断し、悪性物質の進行を連続的に研究するのを助ける複数のMRI画像モダリティを含む基本的な医療画像解析タスクである。 近年、FCNN(Fully Convolutional Neural Networks)アプローチは、3次元医用画像セグメンテーションのデファクトスタンダードとなっている。 人気のある"u字型"ネットワークアーキテクチャは、異なる2dおよび3dセマンティックセグメンテーションタスクと様々なイメージモダリティで最先端のパフォーマンスベンチマークを達成している。 しかし、FCNNの畳み込み層のカーネルサイズが限られているため、長距離情報をモデル化する性能は準最適であり、可変サイズの腫瘍のセグメンテーションに欠陥をもたらす可能性がある。 一方、トランスフォーマーモデルは、自然言語処理やコンピュータビジョンなど、複数の領域でこのような長距離情報をキャプチャする優れた性能を示している。 視覚変換器とその変種の成功に触発されて,Swin UNEt TRansformers (Swin UNETR) と呼ばれる新しいセグメンテーションモデルを提案する。 具体的には、3次元脳腫瘍セマンティクスセグメンテーションのタスクを、マルチモーダル入力データを埋め込みの1次元シーケンスに投影し、階層的なスウィントランスをエンコーダとして入力として使用するシーケンストシーケンス予測問題として再構成する。 スウィントランスエンコーダは、シフトしたウィンドウを利用して、5つの異なる解像度で特徴を抽出し、スキップ接続を介して各解像度でFCNNベースのデコーダに接続する。 我々は、BraTS 2021セグメンテーションチャレンジに参加し、提案モデルが検証フェーズにおける最も優れたアプローチである。 コード: https://monai.io/research/swin-unetr

Semantic segmentation of brain tumors is a fundamental medical image analysis task involving multiple MRI imaging modalities that can assist clinicians in diagnosing the patient and successively studying the progression of the malignant entity. In recent years, Fully Convolutional Neural Networks (FCNNs) approaches have become the de facto standard for 3D medical image segmentation. The popular "U-shaped" network architecture has achieved state-of-the-art performance benchmarks on different 2D and 3D semantic segmentation tasks and across various imaging modalities. However, due to the limited kernel size of convolution layers in FCNNs, their performance of modeling long-range information is sub-optimal, and this can lead to deficiencies in the segmentation of tumors with variable sizes. On the other hand, transformer models have demonstrated excellent capabilities in capturing such long-range information in multiple domains, including natural language processing and computer vision. Inspired by the success of vision transformers and their variants, we propose a novel segmentation model termed Swin UNEt TRansformers (Swin UNETR). Specifically, the task of 3D brain tumor semantic segmentation is reformulated as a sequence to sequence prediction problem wherein multi-modal input data is projected into a 1D sequence of embedding and used as an input to a hierarchical Swin transformer as the encoder. The swin transformer encoder extracts features at five different resolutions by utilizing shifted windows for computing self-attention and is connected to an FCNN-based decoder at each resolution via skip connections. We have participated in BraTS 2021 segmentation challenge, and our proposed model ranks among the top-performing approaches in the validation phase. Code: https://monai.io/research/swin-unetr
翻訳日:2022-01-05 13:34:58 公開日:2022-01-04
# 3DVSR:角・空間光場画像超解像のための3D EPIボリュームベースアプローチ

3DVSR: 3D EPI Volume-based Approach for Angular and Spatial Light field Image Super-resolution ( http://arxiv.org/abs/2201.01294v1 )

ライセンス: Link先を確認
Trung-Hieu Tran, Jan Berberich, Sven Simon(参考訳) 光フィールド(lf)イメージングは、シーンの空間情報と角度情報の両方をキャプチャするが、多くのアプリケーションにとって間違いなく有益である。 LF取得には様々な技術が提案されているが、角高分解能LFと空間高分解能LFの両方を達成することは技術的課題である。 本稿では,高分解能LFを再構成するための3次元極性画像(EPI)に学習に基づくアプローチを提案する。 提案手法は2段階の超分解能フレームワークを用いて,空間SR,角状SR,角-空間SRといった様々なLF超分解能問題に効果的に対処する。 第1段階は、所望の解像度にEPIボリュームをアップサンプルする柔軟なオプションを提供する一方で、第2段階は、新しいEPIボリュームベース精製ネットワーク(EVRN)で構成され、高解像度のEPIボリュームの品質を大幅に向上させる。 提案手法は,空間的および角的超解像問題,すなわち,空間的SR$\times 2$,空間的SR$\times 4$,角状SRにおける2dB,1.4dB,3.14dB以上の雑音比改善に対する平均ピーク信号,および3.14dBに対して,最先端の手法よりも優れていることを示す。 再構成された4次元光野は、全視点画像におけるバランスの取れた性能分布を示し、以前の作品よりも優れた視覚品質を示す。

Light field (LF) imaging, which captures both spatial and angular information of a scene, is undoubtedly beneficial to numerous applications. Although various techniques have been proposed for LF acquisition, achieving both angularly and spatially high-resolution LF remains a technology challenge. In this paper, a learning-based approach applied to 3D epipolar image (EPI) is proposed to reconstruct high-resolution LF. Through a 2-stage super-resolution framework, the proposed approach effectively addresses various LF super-resolution (SR) problems, i.e., spatial SR, angular SR, and angular-spatial SR. While the first stage provides flexible options to up-sample EPI volume to the desired resolution, the second stage, which consists of a novel EPI volume-based refinement network (EVRN), substantially enhances the quality of the high-resolution EPI volume. An extensive evaluation on 90 challenging synthetic and real-world light field scenes from 7 published datasets shows that the proposed approach outperforms state-of-the-art methods to a large extend for both spatial and angular super-resolution problem, i.e., an average peak signal to noise ratio improvement of more than 2.0 dB, 1.4 dB, and 3.14 dB in spatial SR $\times 2$, spatial SR $\times 4$, and angular SR respectively. The reconstructed 4D light field demonstrates a balanced performance distribution across all perspective images and presents superior visual quality compared to the previous works.
翻訳日:2022-01-05 13:34:25 公開日:2022-01-04
# (参考訳) Submix: 大規模言語モデルの実用的なプライベート予測

Submix: Practical Private Prediction for Large-Scale Language Models ( http://arxiv.org/abs/2201.00971v1 )

ライセンス: CC BY 4.0
Antonio Ginart, Laurens van der Maaten, James Zou, Chuan Guo(参考訳) 最近のデータ抽出攻撃により、言語モデルがいくつかのトレーニングサンプルを記憶できることが明らかになった。 これはモデルのトレーニングデータのプライバシを侵害する可能性のある脆弱性である。 本研究では,公開コーパスの事前トレーニング後,プライベートコーパスに微調整された言語モデルによるプライバシー侵害を防止するために設計された,プライベート次世代予測のための実用的なプロトコルであるSubMixを紹介する。 サブミックスは,グループ差動プライベート予測の緩和を通じて,個人コーパス内の個人ユーザ特有の情報の漏洩を制限していることを示す。 重要なことに、submixは厳密なデータ依存のプライバシー会計機構を認めており、言語モデルの有用性を維持しながら、既存のデータ抽出攻撃を阻止できる。 SubMixは、GPT-2のような大きなトランスフォーマーベースのモデルによって何万もの次世代の予測を公開しても、プライバシを維持する最初のプロトコルである。

Recent data-extraction attacks have exposed that language models can memorize some training samples verbatim. This is a vulnerability that can compromise the privacy of the model's training data. In this work, we introduce SubMix: a practical protocol for private next-token prediction designed to prevent privacy violations by language models that were fine-tuned on a private corpus after pre-training on a public corpus. We show that SubMix limits the leakage of information that is unique to any individual user in the private corpus via a relaxation of group differentially private prediction. Importantly, SubMix admits a tight, data-dependent privacy accounting mechanism, which allows it to thwart existing data-extraction attacks while maintaining the utility of the language model. SubMix is the first protocol that maintains privacy even when publicly releasing tens of thousands of next-token predictions made by large transformer-based models such as GPT-2.
翻訳日:2022-01-05 13:31:42 公開日:2022-01-04
# StyleM: コントラストN-gramを用いた画像キャプション用スティル化メトリック

StyleM: Stylized Metrics for Image Captioning Built with Contrastive N-grams ( http://arxiv.org/abs/2201.00975v1 )

ライセンス: Link先を確認
Chengxi Li, Brent Harrison(参考訳) 本稿では,機械生成キャプションと基底真理スタイライゼーションキャプションの関連性を評価するための2つの自動評価指標,onlystyleとstyleciderを構築した。

In this paper, we build two automatic evaluation metrics for evaluating the association between a machine-generated caption and a ground truth stylized caption: OnlyStyle and StyleCIDEr.
翻訳日:2022-01-05 13:06:27 公開日:2022-01-04
# クロスドメイン画像分類のための多表現適応ネットワーク

Multi-Representation Adaptation Network for Cross-domain Image Classification ( http://arxiv.org/abs/2201.01002v1 )

ライセンス: Link先を確認
Yongchun Zhu, Fuzhen Zhuang, Jindong Wang, Jingwu Chen, Zhiping Shi, Wenjuan Wu, Qing He(参考訳) 画像分類では、十分なラベルを取得するのにしばしば高価で時間がかかる。 この問題を解決するために、ドメイン適応は、同じ性質の異なるドメインからの大量のラベル付きデータに対して魅力的な選択肢を提供することが多い。 既存のアプローチは主に単一の構造によって抽出された表現の分布を整列させ、その表現は部分的な情報のみを含む(例えば、飽和度、明るさ、色調情報の一部だけを含む)。 本稿では,クロスドメイン画像分類の分類精度を劇的に向上させ,特にインセプション適応モジュール (iam) と呼ばれるハイブリッド構造によって抽出された複数の表現の分布を整合させることを目的としている。 そこで本研究では,複数表現アライメントによるクロスドメイン画像分類タスクを実現するために,mran(multi-representation adaptation network)を提案する。 さらに,適応損失を計算するために,最大平均離散性(MMD)を拡張した。 提案手法は,多くのフィードフォワードモデルをiamで拡張することで容易に実装でき,ネットワークはバックプロパゲーションによって効率的にトレーニングできる。 3つのベンチマーク画像データセットで実施された実験は、MRANの有効性を示す。 コードはhttps://github.com/easezyc/deep-transfer-learningで入手できる。

In image classification, it is often expensive and time-consuming to acquire sufficient labels. To solve this problem, domain adaptation often provides an attractive option given a large amount of labeled data from a similar nature but different domain. Existing approaches mainly align the distributions of representations extracted by a single structure and the representations may only contain partial information, e.g., only contain part of the saturation, brightness, and hue information. Along this line, we propose Multi-Representation Adaptation which can dramatically improve the classification accuracy for cross-domain image classification and specially aims to align the distributions of multiple representations extracted by a hybrid structure named Inception Adaptation Module (IAM). Based on this, we present Multi-Representation Adaptation Network (MRAN) to accomplish the cross-domain image classification task via multi-representation alignment which can capture the information from different aspects. In addition, we extend Maximum Mean Discrepancy (MMD) to compute the adaptation loss. Our approach can be easily implemented by extending most feed-forward models with IAM, and the network can be trained efficiently via back-propagation. Experiments conducted on three benchmark image datasets demonstrate the effectiveness of MRAN. The code has been available at https://github.com/easezyc/deep-transfer-learning.
翻訳日:2022-01-05 13:06:22 公開日:2022-01-04
# 複数のソースからのクロスドメイン分類のためのドメイン固有分布と分類器の調整

Aligning Domain-specific Distribution and Classifier for Cross-domain Classification from Multiple Sources ( http://arxiv.org/abs/2201.01003v1 )

ライセンス: Link先を確認
Yongchun Zhu, Fuzhen Zhuang, Deqing Wang(参考訳) Unsupervised Domain Adaptation (UDA)アルゴリズム、すなわち、ソースドメインからのラベル付きデータのみが近年活発に研究されているが、ほとんどのアルゴリズムと理論的結果は単一ソースのUnsupervised Domain Adaptation (SUDA)に焦点を当てている。 しかしながら、実用的なシナリオでは、ラベル付きデータは一般的に複数のソースから収集され、ターゲットドメインだけでなく、互いに異なる可能性がある。 したがって、複数のソースからのドメインアダプタを同じ方法でモデル化するべきではない。 最近の深層学習に基づくMulti-source Unsupervised Domain Adaptation (MUDA)アルゴリズムは、共通特徴空間におけるすべてのソースとターゲットドメインの分布を整列させることにより、すべてのドメインに対して共通のドメイン不変表現を抽出することに焦点を当てている。 しかし、MUDAのすべての領域に対して同じドメイン不変表現を抽出することはしばしば困難である。 さらに、これらの手法はクラス間のドメイン固有の決定境界を考慮せずに分布に一致する。 これらの問題を解決するために,複数の特徴空間において各ソースとターゲットドメインの分布をそれぞれ整列するだけでなく,ドメイン固有の決定境界を利用して分類器の出力を整列するMUDAの2つのアライメント段階を持つ新しいフレームワークを提案する。 広範な実験により,本手法は画像分類のためのベンチマークデータセットにおいて顕著な結果が得られることを示した。

While Unsupervised Domain Adaptation (UDA) algorithms, i.e., there are only labeled data from source domains, have been actively studied in recent years, most algorithms and theoretical results focus on Single-source Unsupervised Domain Adaptation (SUDA). However, in the practical scenario, labeled data can be typically collected from multiple diverse sources, and they might be different not only from the target domain but also from each other. Thus, domain adapters from multiple sources should not be modeled in the same way. Recent deep learning based Multi-source Unsupervised Domain Adaptation (MUDA) algorithms focus on extracting common domain-invariant representations for all domains by aligning distribution of all pairs of source and target domains in a common feature space. However, it is often very hard to extract the same domain-invariant representations for all domains in MUDA. In addition, these methods match distributions without considering domain-specific decision boundaries between classes. To solve these problems, we propose a new framework with two alignment stages for MUDA which not only respectively aligns the distributions of each pair of source and target domains in multiple specific feature spaces, but also aligns the outputs of classifiers by utilizing the domain-specific decision boundaries. Extensive experiments demonstrate that our method can achieve remarkable results on popular benchmark datasets for image classification.
翻訳日:2022-01-05 13:06:04 公開日:2022-01-04
# 人物再同定のための短距離相関変換器

Short Range Correlation Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2201.01090v1 )

ライセンス: Link先を確認
Yunbin Zhao, Songhao Zhu, Dongsheng Wang, Zhiwei Liang(参考訳) occluded person re-identificationは、非効率な特徴表現や低い認識精度といった問題に直面したコンピュータビジョンの難題の1つである。 畳み込みニューラルネットワークは、局所的な特徴の抽出により多くの注意を払うため、閉塞した歩行者の特徴を抽出することは困難であり、その効果は満足できない。 近年、視覚トランスフォーマーが再同定の分野に導入され、パッチシーケンス間のグローバル特徴の関係を構築することにより、最も高度な結果が得られる。 しかし、局所特徴抽出における視覚トランスフォーマーの性能は畳み込みニューラルネットワークの性能よりも劣っている。 そこで我々はPFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを設計する。 提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。 1)全次元強化モジュールをパッチする。 パッチシーケンスと同等の大きさの学習可能なテンソルを設計し、パッチシーケンスに完全次元で深く埋め込まれ、トレーニングサンプルの多様性を高める。 (2)融合・再構成モジュール 得られたパッチシーケンスの重要でない部分を抽出し、元のパッチシーケンスと融合して元のパッチシーケンスを再構築する。 (3)空間スライシングモジュール 我々は,パッチシーケンスの短距離相関を効果的に改善できる空間的方向からパッチシーケンスをスライスし,グループ化する。 包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークは高い性能を示し,最先端の手法よりも優れていた。

Occluded person re-identification is one of the challenging areas of computer vision, which faces problems such as inefficient feature representation and low recognition accuracy. Convolutional neural network pays more attention to the extraction of local features, therefore it is difficult to extract features of occluded pedestrians and the effect is not so satisfied. Recently, vision transformer is introduced into the field of re-identification and achieves the most advanced results by constructing the relationship of global features between patch sequences. However, the performance of vision transformer in extracting local features is inferior to that of convolutional neural network. Therefore, we design a partial feature transformer-based person re-identification framework named PFT. The proposed PFT utilizes three modules to enhance the efficiency of vision transformer. (1) Patch full dimension enhancement module. We design a learnable tensor with the same size as patch sequences, which is full-dimensional and deeply embedded in patch sequences to enrich the diversity of training samples. (2) Fusion and reconstruction module. We extract the less important part of obtained patch sequences, and fuse them with original patch sequence to reconstruct the original patch sequences. (3) Spatial Slicing Module. We slice and group patch sequences from spatial direction, which can effectively improve the short-range correlation of patch sequences. Experimental results over occluded and holistic re-identification datasets demonstrate that the proposed PFT network achieves superior performance consistently and outperforms the state-of-the-art methods.
翻訳日:2022-01-05 13:05:11 公開日:2022-01-04
# (参考訳) 効率的な乱流シミュレーションのための学習粗いモデル

Learned Coarse Models for Efficient Turbulence Simulation ( http://arxiv.org/abs/2112.15275v2 )

ライセンス: CC BY 4.0
Kimberly Stachenfeld, Drummond B. Fielding, Dmitrii Kochkov, Miles Cranmer, Tobias Pfaff, Jonathan Godwin, Can Cui, Shirley Ho, Peter Battaglia, Alvaro Sanchez-Gonzalez(参考訳) 古典数値解法による乱流シミュレーションは、ダイナミクスを正確に解くために非常に高分解能の格子を必要とする。 そこで我々は,低空間および時間分解能のシミュレータを訓練し,高分解能で発生する乱流力学を捉える。 提案モデルでは, 従来の数値解法に比べて, 様々な科学的に関係のある指標で同じ低分解能で乱流力学を正確にシミュレートできることを示す。 我々のモデルは、データからエンドツーエンドに訓練され、最先端のAthena++エンジンによって生成される軌道を含む、様々な挑戦的なカオスと乱流のダイナミクスを低解像度で学習することができる。 学習した乱流シミュレーション文献から,より単純で汎用的なアーキテクチャが,より特殊で乱流特有のアーキテクチャよりも優れていることを示す。 一般に,学習シミュレータは不安定な軌跡を生じさせるが,トレーニングノイズのチューニングや時間的ダウンサンプリングがこの問題を解決していることを示す。 トレーニング分布を超えた一般化は,学習モデルや学習ノイズ,畳み込みアーキテクチャ,損失制約の追加といった面でも有効であることがわかった。 より広範に、学習シミュレータは、粗いグリッド上での従来の解法よりも優れており、単純な設計選択は安定性と堅牢な一般化をもたらすことを強調する。

Turbulence simulation with classical numerical solvers requires very high-resolution grids to accurately resolve dynamics. Here we train learned simulators at low spatial and temporal resolutions to capture turbulent dynamics generated at high resolution. We show that our proposed model can simulate turbulent dynamics more accurately than classical numerical solvers at the same low resolutions across various scientifically relevant metrics. Our model is trained end-to-end from data and is capable of learning a range of challenging chaotic and turbulent dynamics at low resolution, including trajectories generated by the state-of-the-art Athena++ engine. We show that our simpler, general-purpose architecture outperforms various more specialized, turbulence-specific architectures from the learned turbulence simulation literature. In general, we see that learned simulators yield unstable trajectories; however, we show that tuning training noise and temporal downsampling solves this problem. We also find that while generalization beyond the training distribution is a challenge for learned models, training noise, convolutional architectures, and added loss constraints can help. Broadly, we conclude that our learned simulator outperforms traditional solvers run on coarser grids, and emphasize that simple design choices can offer stability and robust generalization.
翻訳日:2022-01-05 11:49:47 公開日:2022-01-04
# (参考訳) プログラム合成による計算,微分方程式,線形代数学など,ニューラルネットワークが数学問題を解いて生成する

A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More ( http://arxiv.org/abs/2112.15594v2 )

ライセンス: CC BY 4.0
Iddo Drori, Sunny Tran, Roman Wang, Newman Cheng, Kevin Liu, Leonard Tang, Elizabeth Ke, Nikhil Singh, Taylor L. Patti, Jayson Lynch, Avi Shporer, Nakul Verma, Eugene Wu, Gilbert Strang(参考訳) テキストで事前学習し、コードで微調整したニューラルネットワークが、プログラム合成によって数学の問題を解くことを実証する。 We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia University's COMS3251 Computational Linear Algebra course, as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. 提案手法では,プロットによる解を含む問題解決プログラムをトランスフォーマーが生成できるようにする。 各トピックにおけるランダムな質問のサンプルに対して正しい回答を生成する。 原質問と変換された質問のギャップを定量化し,生成した質問の品質と難易度を評価する調査を行う。 これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。 これは高等教育のマイルストーンである。

We demonstrate that a neural network pre-trained on text and fine-tuned on code solves Mathematics problems by program synthesis. We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia University's COMS3251 Computational Linear Algebra course, as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. We explore prompt generation methods that enable Transformers to generate question solving programs for these subjects, including solutions with plots. We generate correct answers for a random sample of questions in each topic. We quantify the gap between the original and transformed questions and perform a survey to evaluate the quality and difficulty of generated questions. This is the first work to automatically solve, grade, and generate university-level Mathematics course questions at scale. This represents a milestone for higher education.
翻訳日:2022-01-05 11:44:38 公開日:2022-01-04
# (参考訳) 知識ベースによる食品安全出版物の話題分類

Topical Classification of Food Safety Publications with a Knowledge Base ( http://arxiv.org/abs/2201.00374v2 )

ライセンス: CC BY 4.0
Piotr Sowinski, Katarzyna Wasielewska-Michniewska, Maria Ganzha, Marcin Paprzycki(参考訳) 多くの科学出版物は、与えられた研究課題に関連するものを見つけ、その根拠に基づいて情報的決定を行うという課題が増えていることを示している。 これは自動化ツールを使わずに非常に難しくなります。 ここで、改善すべき1つの領域は、そのトピックに応じた出版要約の自動分類である。 本研究は,新しい知識ベース指向出版分類器を提案する。 提案手法はスケーラビリティと他のドメインへの適応性の向上に重点を置いている。 分類速度と精度は、非常に要求の多い食品安全分野において満足できる。 本手法のさらなる開発と評価は,提案手法が大きな可能性を示すため必要である。

The vast body of scientific publications presents an increasing challenge of finding those that are relevant to a given research question, and making informed decisions on their basis. This becomes extremely difficult without the use of automated tools. Here, one possible area for improvement is automatic classification of publication abstracts according to their topic. This work introduces a novel, knowledge base-oriented publication classifier. The proposed method focuses on achieving scalability and easy adaptability to other domains. Classification speed and accuracy are shown to be satisfactory, in the very demanding field of food safety. Further development and evaluation of the method is needed, as the proposed approach shows much potential.
翻訳日:2022-01-05 11:42:37 公開日:2022-01-04
# グラフに基づく自己チューニングネットワークによる高調波画像再構成

Calibrated Hyperspectral Image Reconstruction via Graph-based Self-Tuning Network ( http://arxiv.org/abs/2112.15362v2 )

ライセンス: Link先を確認
Jiamian Wang, Yulun Zhang, Xin Yuan, Ziyi Meng, Zhiqiang Tao(参考訳) 近年,高スペクトルイメージング(HSI)が注目され,特にCASSI(コーデック・アパーチャ・スナップショット・スペクトル・イメージング)システムに基づく画像が注目されている。 既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクによって与えられる2次元圧縮された測定に基づいて元の信号を取得するためにペア化されたデータに基づいて訓練され、その間、マスクは復元性能に大きな影響を与え、データ拡張を統括する「モデルハイパーパラメータ」として機能する。 このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。 この課題に対処するために,完全変分ベイズ学習処理によるhsiのマスク不確実性を導入し,実際のハードウェアに触発されたマスク分解を通じて明示的にモデル化する。 具体的には,異なるハードウェア間のマスクの空間構造に不確実性を適用するための,新しいグラフ型自己チューニング(gst)ネットワークを提案する。 さらに,マスクのハイパーパラメータ特性を考慮したhsi再構成と不確実性推定を両立する2レベル最適化フレームワークを開発した。 提案したGST法の有効性(33/30dB以上)を2つの誤校正シナリオで検証し,最先端の校正手法と比較して高い競争性能を示した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/Jiamian-Wang/mask_uncertainty_spectral_SCIで利用可能です。

Recently, hyperspectral imaging (HSI) has attracted increasing research attention, especially for the ones based on a coded aperture snapshot spectral imaging (CASSI) system. Existing deep HSI reconstruction models are generally trained on paired data to retrieve original signals upon 2D compressed measurements given by a particular optical hardware mask in CASSI, during which the mask largely impacts the reconstruction performance and could work as a "model hyperparameter" governing on data augmentations. This mask-specific training style will lead to a hardware miscalibration issue, which sets up barriers to deploying deep HSI models among different hardware and noisy environments. To address this challenge, we introduce mask uncertainty for HSI with a complete variational Bayesian learning treatment and explicitly model it through a mask decomposition inspired by real hardware. Specifically, we propose a novel Graph-based Self-Tuning (GST) network to reason uncertainties adapting to varying spatial structures of masks among different hardware. Moreover, we develop a bilevel optimization framework to balance HSI reconstruction and uncertainty estimation, accounting for the hyperparameter property of masks. Extensive experimental results and model discussions validate the effectiveness (over 33/30 dB) of the proposed GST method under two miscalibration scenarios and demonstrate a highly competitive performance compared with the state-of-the-art well-calibrated methods. Our code and pre-trained model are available at https://github.com/Jiamian-Wang/mask_uncertainty_spectral_SCI
翻訳日:2022-01-05 11:26:44 公開日:2022-01-04
# ライセンスプレート認識におけるクロスデータセット一般化について

On the Cross-dataset Generalization in License Plate Recognition ( http://arxiv.org/abs/2201.00267v2 )

ライセンス: Link先を確認
Rayson Laroca, Everton V. Cardoso, Diego R. Lucio, Valter Estevam, David Menotti(参考訳) ALPR(Automatic License Plate Recognition)システムは、ディープラーニングの進歩とデータセットの可用性の向上により、複数のリージョンのライセンスプレート(LP)に顕著な性能を示した。 深層alprシステムの評価は通常、各データセット内で行われ、その結果が一般化能力の信頼できる指標であるかどうか疑問視される。 本稿では,様々な側面(例えば取得設定,画像解像度,lpレイアウトなど)で利用可能な9つのデータセットのlp認識に適用される12の光学文字認識 (ocr) モデルのクロスデータセット一般化を実証的に評価するための,従来型スプリット対残1データセット実験的なセットアップを提案する。 我々はまた、Mercosur LPを用いた車両画像と、最も多くのオートバイ画像を含む車両画像を含む、エンドツーエンドALPRのためのパブリックデータセットも導入した。 実験結果は、alprコンテキストにおけるアプローチ評価のための従来のスプリットプロトコルの限界に光を当てた。モデルのトレーニングとテストにおいて、ほとんどのデータセットのパフォーマンスが大幅に低下するからだ。

Automatic License Plate Recognition (ALPR) systems have shown remarkable performance on license plates (LPs) from multiple regions due to advances in deep learning and the increasing availability of datasets. The evaluation of deep ALPR systems is usually done within each dataset; therefore, it is questionable if such results are a reliable indicator of generalization ability. In this paper, we propose a traditional-split versus leave-one-dataset-out experimental setup to empirically assess the cross-dataset generalization of 12 Optical Character Recognition (OCR) models applied to LP recognition on nine publicly available datasets with a great variety in several aspects (e.g., acquisition settings, image resolution, and LP layouts). We also introduce a public dataset for end-to-end ALPR that is the first to contain images of vehicles with Mercosur LPs and the one with the highest number of motorcycle images. The experimental results shed light on the limitations of the traditional-split protocol for evaluating approaches in the ALPR context, as there are significant drops in performance for most datasets when training and testing the models in a leave-one-dataset-out fashion.
翻訳日:2022-01-05 11:26:18 公開日:2022-01-04
# オープンワールドオブジェクト検出の再検討

Revisiting Open World Object Detection ( http://arxiv.org/abs/2201.00471v2 )

ライセンス: Link先を確認
Xiaowei Zhao, Xianglong Liu, Yifan Shen, Yixuan Qiao, Yuqing Ma, Duorui Wang(参考訳) Open World Object Detection (OWOD)は、知識が継続的に成長する現実世界をシミュレーションし、未知のクラスと未知のクラスの両方を検出し、識別された未知のクラスを漸進的に学習しようとする。 OWOD の定義は,従来の OWOD の作業のみが構成的に推し進めたものの,実験的な設定は非論理的ベンチマークと不合理であり,計量計算を混乱させ,不適切な方法であることがわかった。 本稿では,OWOD 実験設定を再考し,OWOD ベンチマーク構築の指針となる5つの基本ベンチマーク原理を提案する。 さらに,OWOD問題に特有な2つの公正評価プロトコルを設計し,未知のクラスの観点から評価する余地を埋める。 さらに,提案アドバイザ (PAD) とクラス固有の排他的分類器 (CEC) を含む新規かつ効果的なOWODフレームワークを提案する。 非パラメトリックPADは、RPNが監督なしで正確な未知の提案を特定するのを補助し、CECは過信のアクティベーション境界を校正し、クラス固有の排出関数を通じて混乱した予測をフィルタリングする。 試行錯誤実験の結果,本手法は既存指標と新指標の両方の観点から,他の最先端のオブジェクト検出手法よりも優れていることが示された。 ベンチマークとコードはhttps://github.com/RE-OWOD/RE-OWOD.comで公開しています。

Open World Object Detection (OWOD), simulating the real dynamic world where knowledge grows continuously, attempts to detect both known and unknown classes and incrementally learn the identified unknown ones. We find that although the only previous OWOD work constructively puts forward to the OWOD definition, the experimental settings are unreasonable with the illogical benchmark, confusing metric calculation, and inappropriate method. In this paper, we rethink the OWOD experimental setting and propose five fundamental benchmark principles to guide the OWOD benchmark construction. Moreover, we design two fair evaluation protocols specific to the OWOD problem, filling the void of evaluating from the perspective of unknown classes. Furthermore, we introduce a novel and effective OWOD framework containing an auxiliary Proposal ADvisor (PAD) and a Class-specific Expelling Classifier (CEC). The non-parametric PAD could assist the RPN in identifying accurate unknown proposals without supervision, while CEC calibrates the over-confident activation boundary and filters out confusing predictions through a class-specific expelling function. Comprehensive experiments conducted on our fair benchmark demonstrate that our method outperforms other state-of-the-art object detection approaches in terms of both existing and our new metrics. Our benchmark and code are available at https://github.com/RE-OWOD/RE-OWOD.
翻訳日:2022-01-05 11:25:56 公開日:2022-01-04
# 可搬性畳み込みによる高速高画質画像の雑音化

Fast and High-Quality Image Denoising via Malleable Convolutions ( http://arxiv.org/abs/2201.00392v2 )

ライセンス: Link先を確認
Yifan Jiang, Bart Wronski, Ben Mildenhall, Jon Barron, Zhangyang Wang, Tianfan Xue(参考訳) 多くの画像処理ネットワークは入力画像全体にわたって1組の静的畳み込みカーネルを適用している。 近年の分類、セグメント化、画像復元の研究は、局所的な画像統計のモデリングにおいて、動的カーネルが静的カーネルより優れていることを示した。 しかし、これらの作品はしばしばピクセル単位の畳み込みカーネルを採用し、高いメモリと計算コストをもたらす。 空間変動処理を実現するために,動的畳み込みの効率的な変種としてmaleable convolution (malleconv)を提案する。 malleconvの重みは、特定の空間でコンテンツ依存の出力を生成できる効率的な予測ネットワークによって動的に生成される。 以前の作品とは異なり、mareconvは入力から空間的に変動するカーネルの集合を生成し、ネットワークの受容野を拡大し、計算コストとメモリコストを大幅に削減する。 これらのカーネルは、メモリオーバーヘッドを最小限にした効率的なスライス・アンド・コンブ演算子を通じて、フル解像度の機能マップに適用される。 さらに,mallenet と呼ばれる malleconv を用いた効率的なデノージングネットワークを構築する。 非常に深いアーキテクチャを使わずに高品質な結果を達成し、例えば、最高の性能の復調アルゴリズム(SwinIR)と比較して8.91倍高速に到達し、同様の性能を維持している。 また、標準的な畳み込みベースのバックボーンに1つのMalleConvを追加することで、計算コストの削減や画像品質の向上に大きく貢献することを示す。 プロジェクトページ:https://yifanjiang.net/MalleConv.html

Many image processing networks apply a single set of static convolutional kernels across the entire input image, which is sub-optimal for natural images, as they often consist of heterogeneous visual patterns. Recent works in classification, segmentation, and image restoration have demonstrated that dynamic kernels outperform static kernels at modeling local image statistics. However, these works often adopt per-pixel convolution kernels, which introduce high memory and computation costs. To achieve spatial-varying processing without significant overhead, we present Malleable Convolution (MalleConv), as an efficient variant of dynamic convolution. The weights of MalleConv are dynamically produced by an efficient predictor network capable of generating content-dependent outputs at specific spatial locations. Unlike previous works, MalleConv generates a much smaller set of spatially-varying kernels from input, which enlarges the network's receptive field and significantly reduces computational and memory costs. These kernels are then applied to a full-resolution feature map through an efficient slice-and-conv operator with minimum memory overhead. We further build an efficient denoising network using MalleConv, coined as MalleNet. It achieves high quality results without very deep architecture, e.g., reaching 8.91x faster speed compared to the best performed denoising algorithms (SwinIR), while maintaining similar performance. We also show that a single MalleConv added to a standard convolution-based backbone can contribute significantly to reducing the computational cost or boosting image quality at a similar cost. Project page: https://yifanjiang.net/MalleConv.html
翻訳日:2022-01-05 11:25:35 公開日:2022-01-04
# パーコレーションと有向パーコレーションにおける相転移の転移学習

Transfer learning of phase transitions in percolation and directed percolation ( http://arxiv.org/abs/2112.15516v3 )

ライセンス: Link先を確認
Jianmin Shen, Feiyi Liu, Shiyang Chen, Dian Xu, Xiangna Chen, Shengfeng Deng, Wei Li, Gabor Papp, Chunbin Yang(参考訳) 統計物理学の最近の進歩は、位相遷移の同定における機械学習の顕著な性能を示している。 本稿では,伝達学習に基づくドメイン逆ニューラルネットワーク(dann)を,それぞれパーコレーションモデルと指向型パーコレーション(dp)モデルである非平衡相転移モデルと平衡相転移モデルの研究に適用する。 DANNでは、臨界点を捉えるために、少数の入力構成(2d画像)にラベルを付ける必要があり、それが自動的に選択される。 DPモデルを学習するために、クリティカル指数$\nu_{\perp}$を計算する際のデータ崩壊の前提条件である臨界点を決定する反復的な手順により、この手法を洗練する。 次に,順序パラメータに関連する情報を含む可能性のある最大のクラスタのみを含むようにフィルタされた2次元のサイトパーコレーションに適用する。 両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。 また,本研究では,教師付き学習に比べて,極めて低いコストで極めて高い精度が得られることを示した。

The latest advances of statistical physics have shown remarkable performance of machine learning in identifying phase transitions. In this paper, we apply domain adversarial neural network (DANN) based on transfer learning to studying non-equilibrium and equilibrium phase transition models, which are percolation model and directed percolation (DP) model, respectively. With the DANN, only a small fraction of input configurations (2d images) needs to be labeled, which is automatically chosen, in order to capture the critical point. To learn the DP model, the method is refined by an iterative procedure in determining the critical point, which is a prerequisite for the data collapse in calculating the critical exponent $\nu_{\perp}$. We then apply the DANN to a two-dimensional site percolation with configurations filtered to include only the largest cluster which may contain the information related to the order parameter. The DANN learning of both models yields reliable results which are comparable to the ones from Monte Carlo simulations. Our study also shows that the DANN can achieve quite high accuracy at much lower cost, compared to the supervised learning.
翻訳日:2022-01-05 11:25:07 公開日:2022-01-04