このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210830)

# 量子熱力学の第1及び第2法則:エントロピーの微視的定義に基づく一貫した導出

First and Second Law of Quantum Thermodynamics: A Consistent Derivation Based on a Microscopic Definition of Entropy ( http://arxiv.org/abs/2002.08817v6 )

ライセンス: Link先を確認
Philipp Strasberg and Andreas Winter(参考訳) 微視的な画像から熱力学の法則を引き出すことは、統計力学の中心的な探求である。 このチュートリアルでは、平衡から遠く離れた閉および開量子系に対する第一および第二法則の導出に焦点をあて、そのような基礎的問題もまた創発的ナノテクノロジーに実際に関係するようになる。 この導出は、内部エネルギー、熱力学的エントロピー、仕事、熱、温度の5つの必須量の微視的な定義に基づいている。 これらの定義は、多くの状態や過程に対する非平衡熱力学の現象論的法則を満たすことが示されている。 以前の結果との整合性を示す。 この枠組みは、粒子輸送を含む複数の浴槽に適用され、顕微鏡的に決定される浴槽の温度変化などの過程の説明に適用される。 エントロピー生成のための積分変動定理を満たす。 まとめると、このチュートリアルは量子状態以降の熱力学の法則を理解し、適用するための一貫した多用途のフレームワークを紹介します。

Deriving the laws of thermodynamics from a microscopic picture is a central quest of statistical mechanics. This tutorial focuses on the derivation of the first and second law for closed and open quantum systems far from equilibrium, where such foundational questions also become practically relevant for emergent nanotechnologies. The derivation is based on a microscopic definition of five essential quantities: internal energy, thermodynamic entropy, work, heat and temperature. These definitions are shown to satisfy the phenomenological laws of nonequilibrium thermodynamics for a large class of states and processes. The consistency with previous results is demonstrated. The framework applies to multiple baths including particle transport and accounts for processes with, e.g., a changing temperature of the bath, which is determined microscopically. An integral fluctuation theorem for entropy production is satisfied. In summary, this tutorial introduces a consistent and versatile framework to understand and apply the laws of thermodynamics in the quantum regime and beyond.
翻訳日:2023-06-03 02:53:15 公開日:2021-08-30
# 大規模R1研究大学におけるコンピュータ科学の民族多様性

Ethnic Diversity in Computer Science at a Large Public R1 Research University ( http://arxiv.org/abs/2004.13865v2 )

ライセンス: Link先を確認
Monica Babes-Vroman, Andrew Tjang, Thu D. Nguyen(参考訳) 近年の入学数の増加にもかかわらず、米国のコンピュータ科学部門は、我が国の科学と経済成長に影響を与える問題である、コンピュータの労働力が必要な卒業生の数を生産していない。 コンピュータ科学の分野は成長すると予想されているため、米国で成長している人口集団から学ぶことが重要である。 同時に、少数集団からの学生の表現の増加は、新しい技術開発においてより多様な視点を含むことになる。 これまでの研究は、高校生のコンピュータサイエンスの授業における色の表現の低さに対処し、その低さの原因について検討してきた。 本稿では,コンピュータ科学部が直面する人種的・民族的多様性の独特な課題を理解するため,大規模なr1研究大学における少数学生の採用と定着のパターンについて検討する。 大公立大学における3つの中核的なカリキュラムのコンピュータサイエンスの授業から得られた学生データを用いて,当科における民族格差,近年の留学生数の増加に伴う変化,専攻の進学に伴う変化について質問する。 また,導入型プログラミングの授業を受講する学生の意図や,cs1の学生がより高度な授業を受講する回数についても分析した。 我々は,各民族集団の留学生の留学生率,先行経験の相違,CS1を受講した後のメジャー化に対する意識の変化の有無,学級がメジャー化の意図の変化と相関しているかどうかの相違点について検討し,異なる人種・民族集団の学生は,一般の認識ほど異なるものではないことを示す。

Even with recent increases in enrollments, computer science departments in the United States are not producing the number of graduates that the computing workforce needs, an issue that impacts the scientific and economic growth of our country. Because the computer science field is predicted to grow, it is important to draw from demographic groups that are growing in the US. At the same time, increasing the representation of students from minority groups will include a more diverse perspective in the development of new technologies. Previous work has addressed the low representation of students of color in computer science classes at the high-school level and explored what are the causes for those low numbers. In this paper, we study patterns of recruitment and retention among minority students at a large R1 research university in order to understand the unique challenges in racial and ethnic diversity that computer science departments face. We use student data from a set of three core curriculum computer science classes at a large public research university and answer questions about the ethnic gap in our department, how it has changed with the recent increase in student enrollments, and how it changes as students progress through the major. We also analyze our students' intent to major when they are taking our introductory programming class, and how many of our CS1 students take more advanced classes. We measure retention rates for students in each ethnic group, how do their prior experiences differ, if there is a difference between groups in how many of them change their minds about majoring after taking CS1, and whether or not their grades are correlated with a change in their intent to major.We show that students from different race/ethnicity groups are not as different as it is perceived by the public.
翻訳日:2023-05-21 21:32:56 公開日:2021-08-30
# 1次元シュリンガー方程式の位相空間伝播と安定性解析による回転励起H$_2$の境界状態と共鳴状態の探索

Phase-space propagation and stability analysis of the 1-dimensional Schr\"odinger equation for finding bound and resonance states of rotationally excited H$_2$ ( http://arxiv.org/abs/2006.00095v3 )

ライセンス: Link先を確認
Juan S. Molano, Carlos A. Arango(参考訳) 1次元シュリンガー方程式の数学的位相空間表現を用いて、回転励起されたH$_2$分子の境界状態と共鳴状態を得る。 位相空間接フィールドの構造を解析し,古典的に許された領域における波動関数の挙動と関連付ける。 この位相空間表現では、結合状態は不安定な軌道のように振る舞うが、共鳴状態は漸近的に安定なサイクルと同様に振る舞う。 H$_2$のエネルギー-モーメント図の量子状態の格子は、量子数の関数としてエネルギーを大域的に見ることができるように計算される。 エネルギーの関数としての位相空間軌道の弧長と巻き数は、h$_2$の束縛状態と共鳴状態のエネルギー固有値を得るために用いられる。

A mathematical phase-space representation of the 1-dimensional Schr\"odinger equation is employed to obtain bound and resonance states of the rotationally excited H$_2$ molecule. The structure of the phase-space tangent field is analyzed and related to the behavior of the wave function in classically allowed and forbidden regions. In this phase-space representation, bound states behave like unstable orbits meanwhile resonance states behave similarly to asymptotically stable cycles. The lattice of quantum states of the energy-momentum diagram for H$_2$ is calculated allowing to have a global view of the energy as function of the quantum numbers. The arc length and winding number of the phase-space trajectories, as functions of the energy, are used to obtain the energy eigenvalues of bound and resonance states of H$_2$
翻訳日:2023-05-18 00:31:40 公開日:2021-08-30
# 量子熱力学プロセスの幾何最適化

Geometric optimisation of quantum thermodynamic processes ( http://arxiv.org/abs/2008.13593v3 )

ライセンス: Link先を確認
Paolo Abiuso, Harry J. D. Miller, Mart\'i Perarnau-Llobet, and Matteo Scandi(参考訳) 微分幾何学は、古典的および量子的な有限時間熱力学過程を最適化し特徴付ける強力な枠組みを提供する。 ここでは,熱力学的長さの概念の教育的導入から始める。 我々は、量子構造において現れる様々なフレームワークをレビューし、接続する:断続的に駆動される閉システム、時間依存のリンドブラッドマスター方程式、離散過程。 有限時間におけるエントロピー生成の幾何学的下界が示され、これは元の古典的境界の量子一般化を表している。 次に,線形応答系における熱力学過程の最適化に関する一般的な原理を概観し,開発する。 これらは熱力学測定値による制御変動の一定速度、量子コヒーレンスの欠如、熱容量とカルノーエンジンの緩和時間との最大比の点付近の小さなサイクルの最適性を含む。

Differential geometry offers a powerful framework for optimising and characterising finite-time thermodynamic processes, both classical and quantum. Here, we start by a pedagogical introduction to the notion of thermodynamic length. We review and connect different frameworks where it emerges in the quantum regime: adiabatically driven closed systems, time-dependent Lindblad master equations, and discrete processes. A geometric lower bound on entropy production in finitetime is then presented, which represents a quantum generalisation of the original classical bound. Following this, we review and develop some general principles for the optimisation of thermodynamic processes in the linear-response regime. These include constant speed of control variation according to the thermodynamic metric, absence of quantum coherence, and optimality of small cycles around the point of maximal ratio between heat capacity and relaxation time for Carnot engines.
翻訳日:2023-05-04 05:32:30 公開日:2021-08-30
# 超伝導回路用エピタキシャルAl/GaAs/Al三層膜の低温マイクロ波損失

Cryogenic microwave loss in epitaxial Al/GaAs/Al trilayers for superconducting circuits ( http://arxiv.org/abs/2009.10101v2 )

ライセンス: Link先を確認
C.R.H. McRae, A. McFadden, R. Zhao, H. Wang, J.L. Long, T. Zhao, S. Park, M. Bal, C.J. Palmstr{\o}m, D.P. Pappas(参考訳) エピタキシャル成長した超伝導体/誘電体/超伝導三層膜は、高性能な超伝導量子デバイスを形成する可能性があり、マージ素子トランスモンのような低表面量子ビットを用いたスケーラブルな超伝導量子コンピューティングが可能である。 本研究では,ミリケルビン温度以下で超伝導マイクロ波共振器の測定により,エピタキシャル,ウェハ結合,基板除去Al/GaAs/Al三層膜の電力非依存損失と2レベル損失を測定した。 電源独立損失は$(4.8 \pm 0.1) \times 10^{-5}$であり、共振器による内在的tls損失は$(6.4 \pm 0.2) \times 10^{-5}$である。 誘電損失抽出は、固有のTLS損失の低い7.2 \times 10^{-5}$の3層の境界を決定するために用いられる。 異常に高い電力非依存の損失は、GaAsの固有の圧電性に起因する。

Epitaxially-grown superconductor/dielectric/superconductor trilayers have the potential to form high-performance superconducting quantum devices and may even allow scalable superconducting quantum computing with low-surface-area qubits such as the merged-element transmon. In this work, we measure the power-independent loss and two-level-state (TLS) loss of epitaxial, wafer-bonded, and substrate-removed Al/GaAs/Al trilayers by measuring lumped element superconducting microwave resonators at millikelvin temperatures and down to single photon powers. The power-independent loss of the device is $(4.8 \pm 0.1) \times 10^{-5}$ and resonator-induced intrinsic TLS loss is $(6.4 \pm 0.2) \times 10^{-5}$. Dielectric loss extraction is used to determine a lower bound of the intrinsic TLS loss of the trilayer of $7.2 \times 10^{-5}$. The unusually high power-independent loss is attributed to GaAs's intrinsic piezoelectricity.
翻訳日:2023-05-01 09:02:11 公開日:2021-08-30
# 散乱行列における幾何学と絡み合い

Geometry and entanglement in the scattering matrix ( http://arxiv.org/abs/2011.01278v2 )

ライセンス: Link先を確認
Silas R. Beane and Roland C. Farrell(参考訳) 核子-核子散乱の定式化は、実効場理論(EFT)作用ではなく、S行列が基本対象となる。 s行列(s-matrix)は、ユニタリティによって定義されるコンパクト理論空間内の rg の不動点の間を移動する軌道である。 この理論空間は自然作用素の定義を持ち、4次元ユークリッド空間におけるユニタリ性制約の幾何学的埋め込みは、S-行列が伝播する段階となる平坦トーラスを生成する。 絡み目が消える軌道は、平面トーラス上のRG固定点の間の特別な測地線であり、絡み目は外部電位によって駆動される。 S-行列軌道を記述する方程式の系は一般に複雑であるが、非常に低エネルギーなS-行列は EFT の記述の先頭に現れるが、UV/IR共形不変性を持ち、方程式の系は積分可能であり、ポテンシャルを完全に決定する。 この幾何学的観点では、非弾性性は2次元境界が平坦トーラスである3次元双曲空間の半径に対応する。 この空間は消滅半径における特異点を持ち、ユニタリティの最大違反に対応する。 平坦なトーラス境界上の軌道は、量子的誤差を持つバルク軌道から明示的に構成することができ、ホログラフィック量子誤り訂正符号の簡単な例を提供する。

A formulation of nucleon-nucleon scattering is developed in which the S-matrix, rather than an effective-field theory (EFT) action, is the fundamental object. Spacetime plays no role in this description: the S-matrix is a trajectory that moves between RG fixed points in a compact theory space defined by unitarity. This theory space has a natural operator definition, and a geometric embedding of the unitarity constraints in four-dimensional Euclidean space yields a flat torus, which serves as the stage on which the S-matrix propagates. Trajectories with vanishing entanglement are special geodesics between RG fixed points on the flat torus, while entanglement is driven by an external potential. The system of equations describing S-matrix trajectories is in general complicated, however the very-low-energy S-matrix -- that appears at leading-order in the EFT description -- possesses a UV/IR conformal invariance which renders the system of equations integrable, and completely determines the potential. In this geometric viewpoint, inelasticity is in correspondence with the radius of a three-dimensional hyperbolic space whose two-dimensional boundary is the flat torus. This space has a singularity at vanishing radius, corresponding to maximal violation of unitarity. The trajectory on the flat torus boundary can be explicitly constructed from a bulk trajectory with a quantifiable error, providing a simple example of a holographic quantum error correcting code.
翻訳日:2023-04-26 01:32:28 公開日:2021-08-30
# 量子電磁場を用いたアハロノフ・カシエ効果と遮蔽アハロノフ・ボーム効果

Aharonov-Casher and shielded Aharonov-Bohm effects with a quantum electromagnetic field ( http://arxiv.org/abs/2011.09005v2 )

ライセンス: Link先を確認
Pablo L. Saldanha(参考訳) 我々は、電荷と電流と量子電磁場との局所的相互作用を通じて、アハラノフ・ボーム効果の電気的および磁気的バージョンを記述することができる共変形式を用いる。 量子粒子と量子場の局所的相互作用のみがその挙動に影響を及ぼすことを考慮し、実験的に証明されたように、磁場を発生させるソレノイドが完全な導体によって遮蔽されたとしても、磁気アハロノフ-ボーム効果が存在する必要があることを示した。

We use a covariant formalism that is capable of describing the electric and magnetic versions of the Aharonov-Bohm effect, as well as the Aharonov-Casher effect, through local interactions of charges and currents with the quantum electromagnetic field. By considering that only local interactions of a quantum particle with the quantum field can affect its behavior, we show that the magnetic Aharonov-Bohm effect must be present even if the solenoid generating the magnetic field is shielded by a perfect conductor, as experimentally demonstrated.
翻訳日:2023-04-23 21:12:35 公開日:2021-08-30
# 励起状態 R'enyi エントロピーと2次元非コンパクトボゾン理論におけるサブシステム距離 第2部。 多粒子状態

Excited state R\'enyi entropy and subsystem distance in two-dimensional non-compact bosonic theory. Part II. Multi-particle states ( http://arxiv.org/abs/2011.11006v2 )

ライセンス: Link先を確認
Jiaju Zhang, M. A. Rajabpour(参考訳) 共形場理論である2次元自由質量非コンパクトなボゾン場理論における励起状態 R'enyi エントロピーと部分系 Schatten 距離について検討する。 自由非コンパクトボソニック理論の離散化は、局所結合を持つ調和鎖を与える。 我々は、多粒子状態と呼ばれる複数の準粒子の励起を伴う調和鎖状態に対応する場理論の励起状態を考える。 これは、同じ著者による以前の研究をより一般的な励起状態へと拡張する。 場の理論では、いくつかの低次状態に対する正確な R'enyi エントロピーと部分系 Schatten 距離を得る。 また、一般励起状態に対するR'enyiエントロピーと部分系シャッテン距離の短区間展開も得られる。 局所結合調和鎖では、波動関数法を用いて励起状態R'enyiエントロピーとサブシステムSchatten距離を数値的に計算する。 フィールド理論における解析結果の優れた一致と調和鎖の空隙限界における数値計算結果を見いだす。 また、調和鎖の極端にガッピングされた極限におけるr\'enyiエントロピーとサブス・シャッテン距離についても予備的な検討を行う。

We study the excited state R\'enyi entropy and subsystem Schatten distance in the two-dimensional free massless non-compact bosonic field theory, which is a conformal field theory. The discretization of the free non-compact bosonic theory gives the harmonic chain with local couplings. We consider the field theory excited states that correspond to the harmonic chain states with excitations of more than one quasiparticle, which we call multi-particle states. This extends the previous work by the same authors to more general excited states. In the field theory we obtain the exact R\'enyi entropy and subsystem Schatten distance for several low-lying states. We also obtain the short interval expansion of the R\'enyi entropy and subsystem Schatten distance for general excited states. In the locally coupled harmonic chain we calculate numerically the excited state R\'enyi entropy and subsystem Schatten distance using the wave function method. We find excellent matches of the analytical results in the field theory and numerical results in the gapless limit of the harmonic chain. We also make some preliminary investigations of the R\'enyi entropy and the subsystem Schatten distance in the extremely gapped limit of the harmonic chain.
翻訳日:2023-04-23 11:11:28 公開日:2021-08-30
# 計測駆動遷移の臨界点における絡み合いネガティリティ

Entanglement negativity at the critical point of measurement-driven transition ( http://arxiv.org/abs/2012.00040v2 )

ライセンス: Link先を確認
Bowen Shi, Xin Dai, Yuan-Ming Lu(参考訳) 1次元の計測駆動相転移における投影的測定により定まるランダムユニタリ回路の絡み合い挙動について検討した。 2つの不連続区間の対数絡み合いネガティビティを数値的に研究し,クロス比の力としてスケールすることを発見した。 1) 投射計測を行うクリフォード回路, (2) 投射計測を行うハールランダム局所ユニタリ回路の2つのシステムについて検討した。 注目すべきは、臨界点における絡み合いの負のパワー・ロジスティクスを特定することである。 エンタングルメントエントロピーと相互情報の先行結果は、測定駆動遷移の創発的共形不変性を示している。 以上の結果から, 測定駆動遷移の臨界挙動は, 任意の \emph{unitary} 等角場理論の基底状態挙動とは異なることが示唆された。

We study the entanglement behavior of a random unitary circuit punctuated by projective measurements at the measurement-driven phase transition in one spatial dimension. We numerically study the logarithmic entanglement negativity of two disjoint intervals and find that it scales as a power of the cross-ratio. We investigate two systems: (1) Clifford circuits with projective measurements, and (2) Haar random local unitary circuit with projective measurements. Remarkably, we identify a power-law behavior of entanglement negativity at the critical point. Previous results of entanglement entropy and mutual information point to an emergent conformal invariance of the measurement-driven transition. Our result suggests that the critical behavior of the measurement-driven transition is distinct from the ground state behavior of any \emph{unitary} conformal field theory.
翻訳日:2023-04-22 14:10:24 公開日:2021-08-30
# 強熱源の干渉画像における超解像

Superresolution in interferometric imaging of strong thermal sources ( http://arxiv.org/abs/2012.14026v3 )

ライセンス: Link先を確認
Yunkai Wang, Yujie Zhang, Virginia O. Lorenz(参考訳) Van Cittert-Zernike定理に基づく干渉計アレイを用いたイメージングは、天文学的な観測で広く用いられている。 近年,2つの弱い熱源を撮像するシステムにおいて,超解像が達成できることが示されている。 量子推定理論を用いて、干渉計アレイを用いた2つの強い熱源の逆分離を解く基本的な量子限界を考察し、その解法が最長のベースラインで制限されないことを示す。 本稿では,線形ビームスプリッタと光子数分解検出を用いた計測手法を提案する。 その結果, 干渉計アレイにおいて, 任意の強度で2つの熱点源を分解する超解像が達成できることが示唆された。

Imaging using interferometer arrays based on the Van Cittert-Zernike theorem has been widely used in astronomical observation. Recently it was shown that superresolution can be achieved in this system for imaging two weak thermal point sources. Using quantum estimation theory, we consider the fundamental quantum limit of resolving the transverse separation of two strong thermal point sources using interferometer arrays, and show that the resolution is not limited by the longest baseline. We propose measurement techniques using linear beam splitters and photon-number-resolving detection to achieve our bound. Our results demonstrate that superresolution for resolving two thermal point sources of any strength can be achieved in interferometer arrays.
翻訳日:2023-04-19 03:57:06 公開日:2021-08-30
# 大型猫と9匹の肝臓--原子集合体における長寿命のマクロ顕微分重畳状態-

Generating Large Cats with Nine Lives: Long-Lived Macroscopically Distinct Superposition States in Atomic Ensembles ( http://arxiv.org/abs/2101.03662v3 )

ライセンス: Link先を確認
Wei Qin, Adam Miranowicz, Hui Jing, and Franco Nori(参考訳) 原子アンサンブルにおける長寿命のマクロ量子重ね合わせ状態の生成と安定化を提案する。 完全量子パラメトリック増幅器を用いることで、2つの原子が同時に崩壊し、安定な原子Schr\"{o}dinger cat状態が生成されることを示す。 注目すべきは、控えめなパラメータでさえ、これらのキャビティ内原子猫状態は、同じパラメータ条件下でのキャビティ内フォトニック猫状態よりも長く、非常に長い寿命を持つことができ、ミリ秒単位のemph{tens}に達することである。 この原子猫状態の寿命は、極端に弱いスピン緩和と熱雑音によって、最終的に \emph{several seconds} に制限される。 我々の研究は、大規模で長期にわたる猫の状態を生成するという長年の目標に向けて、基礎研究とノイズ免疫量子技術の両方に直接的な関心を持つ新たな方法を開く。

We propose to create and stabilize long-lived macroscopic quantum superposition states in atomic ensembles. We show that using a fully quantum parametric amplifier can cause the simultaneous decay of two atoms and, in turn, create stabilized atomic Schr\"{o}dinger cat states. Remarkably, even with modest parameters these intracavity atomic cat states can have an extremely long lifetime, up to \emph{4 orders of magnitude} longer than that of intracavity photonic cat states under the same parameter conditions, reaching \emph{tens of milliseconds}. This lifetime of atomic cat states is ultimately limited to \emph{several seconds} by extremely weak spin relaxation and thermal noise. Our work opens up a new way toward the long-standing goal of generating large-size and long-lived cat states, with immediate interests both in fundamental studies and noise-immune quantum technologies.
翻訳日:2023-04-17 02:59:42 公開日:2021-08-30
# ランダム対角ユニタリマップを用いた量子トモグラフィーとランダム行列理論を用いた情報生成の統計的境界

Quantum tomography with random diagonal unitary maps and statistical bounds on information generation using random matrix theory ( http://arxiv.org/abs/2101.11387v2 )

ライセンス: Link先を確認
Sreeram PG and Vaibhav Madhok(参考訳) 本研究では,初期観測値のユニタリ進化から得られたエルミート演算子の期待値を測定した連続測定記録から量子トモグラフィーについて検討する。 そこで本研究では,各時間ステップにおけるランダムユニタリの適用について検討し,測定記録のフィッシャー情報と推定の共分散行列の固有値に関連するシャノンエントロピーを用いて,トモグラフィにおける情報ゲインを定量化する。 意外なことに、測定記録が情報的に完成していないにもかかわらず、ランダムなユニタリを用いて、一定基準で非常に高い再現性が得られる。 次に、異なるHaarランダムユニタリを各時間ステップで適用することにより得られる情報と忠実度を比較した。 トモグラフィで得られる最大情報について上限を与え、ランダム行列のウィシュアート・ラゲールアンサンブルと関連するマルテンコ・パストゥル分布から得られる共分散行列がこの境界を飽和させることを示す。 物理的には、これは各時間ステップにおける異なるハールランダムユニタリの応用に対応する。 ランダム対角ユニタリの繰り返し適用は、新しいランダム行列のアンサンブルに対応するトモグラフィ推定において共分散行列を与えることを示した。 このアンサンブルの固有値を解析的および数値的に推定し、ポーター・トーマス分布によって下から境界づけられる情報を示す。

We study quantum tomography from a continuous measurement record obtained by measuring expectation values of a set of Hermitian operators obtained from unitary evolution of an initial observable. For this purpose, we consider the application of a random unitary, diagonal in a fixed basis at each time step and quantify the information gain in tomography using Fisher information of the measurement record and the Shannon entropy associated with the eigenvalues of covariance matrix of the estimation. Surprisingly, very high fidelity of reconstruction is obtained using random unitaries diagonal in a fixed basis even though the measurement record is not informationally complete. We then compare this with the information generated and fidelities obtained by application of a different Haar random unitary at each time step. We give an upper bound on the maximal information that can be obtained in tomography and show that a covariance matrix taken from the Wishart-Laguerre ensemble of random matrices and the associated Marchenko-Pastur distribution saturates this bound. We find that physically, this corresponds to an application of a different Haar random unitary at each time step. We show that repeated application of random diagonal unitaries gives a covariance matrix in tomographic estimation that corresponds to a new ensemble of random matrices. We analytically and numerically estimate eigenvalues of this ensemble and show the information gain to be bounded from below by the Porter-Thomas distribution.
翻訳日:2023-04-13 20:09:35 公開日:2021-08-30
# 量子暗号におけるセキュリティ

Security in Quantum Cryptography ( http://arxiv.org/abs/2102.00021v2 )

ライセンス: Link先を確認
Christopher Portmann and Renato Renner(参考訳) 量子暗号は、情報のセキュアな処理に量子物理学の原理を利用する。 注目すべき例として、セキュアな通信、すなわち機密メッセージをある場所から別の場所に送信するタスクがある。 ここでの暗号化要件は、通信チャネルが信頼できない場合でも、送信されたメッセージは指定された受信者以外の誰にもアクセスできないことである。 古典暗号では、これは計算硬度仮定の下でのみ保証できる(例えば、大きな整数を分解することは不可能である)。 対照的に、量子暗号のセキュリティは量子力学の法則に完全に依存している。 ここでは,量子鍵分布とセキュアな通信に着目した,セキュリティの物理的概念を概観する。

Quantum cryptography exploits principles of quantum physics for the secure processing of information. A prominent example is secure communication, i.e., the task of transmitting confidential messages from one location to another. The cryptographic requirement here is that the transmitted messages remain inaccessible to anyone other than the designated recipients, even if the communication channel is untrusted. In classical cryptography, this can usually only be guaranteed under computational hardness assumptions, e.g., that factoring large integers is infeasible. In contrast, the security of quantum cryptography relies entirely on the laws of quantum mechanics. Here we review this physical notion of security, focusing on quantum key distribution and secure communication.
翻訳日:2023-04-13 08:43:50 公開日:2021-08-30
# 量子相転移におけるコヒーレントおよび散逸ダイナミクス

Coherent and dissipative dynamics at quantum phase transitions ( http://arxiv.org/abs/2103.02626v3 )

ライセンス: Link先を確認
Davide Rossini, Ettore Vicari(参考訳) 量子相転移における多体物理学は、低温限界に現れる量子揺らぎと熱揺らぎの間の微妙な相互作用を示す。 本論では, 連続相転移における臨界現象の量子-古典写像と再正規化-群理論を活用し, そのスケーリング枠組みを本質的に構築した, その文脈におけるシステムの平衡挙動を教育的に紹介する。 次に,量子遷移の瞬時キューチやスローパスといった,平衡外の量子力学を包含するプロトコルを専門とする。 これらは主に動的スケーリングフレームワーク内で議論され、平衡スケーリング則を適切に拡張することで得られる。 我々は一階量子遷移の現象もレビューし、その特異なスケーリング挙動は境界条件に対する極度な感度によって特徴づけられ、同じバルク系に対する指数律や電力法則がもたらされる。 最後に、量子遷移における動的スケーリングの適切な一般化を通して、環境との散逸的相互作用の効果に関する側面について述べる。 プレゼンテーションは閉多体系によって発達した量子遷移に関する問題や制御に限られており、温度ゼロの量子遷移における温度と同様に、散逸を臨界状態の摂動として扱う。 我々は、臨界モードと様々な散逸機構の非自明な相互作用を引き起こす物理的条件に焦点を当て、関連するメカニズムが量子遷移の低エネルギーモードのみを励起すると一般的に実現される。

The many-body physics at quantum phase transitions shows a subtle interplay between quantum and thermal fluctuations, emerging in the low-temperature limit. In this review, we first give a pedagogical introduction to the equilibrium behavior of systems in that context, whose scaling framework is essentially developed by exploiting the quantum-to-classical mapping and the renormalization-group theory of critical phenomena at continuous phase transitions. Then we specialize to protocols entailing the out-of-equilibrium quantum dynamics, such as instantaneous quenches and slow passages across quantum transitions. These are mostly discussed within dynamic scaling frameworks, obtained by appropriately extending the equilibrium scaling laws. We review phenomena at first-order quantum transitions as well, whose peculiar scaling behaviors are characterized by an extreme sensitivity to the boundary conditions, giving rise to exponentials or power laws for the same bulk system. In the last part, we cover aspects related to the effects of dissipative interactions with an environment, through suitable generalizations of the dynamic scaling at quantum transitions. The presentation is limited to issues related to, and controlled by, the quantum transition developed by closed many-body systems, treating the dissipation as a perturbation of the critical regimes, as for the temperature at the zero-temperature quantum transition. We focus on the physical conditions giving rise to a nontrivial interplay between critical modes and various dissipative mechanisms, generally realized when the involved mechanism excites only the low-energy modes of the quantum transitions.
翻訳日:2023-04-09 07:53:33 公開日:2021-08-30
# 重要な視覚課題に対するパーソナライズ・イメージエンハンスメント:カラー処理と視覚錯覚を用いたパピルの適性向上

Personalizing image enhancement for critical visual tasks: improved legibility of papyri using color processing and visual illusions ( http://arxiv.org/abs/2104.01106v2 )

ライセンス: Link先を確認
Vlad Atanasiu, Isabelle Marthot-Santaniello(参考訳) 目的:本稿は,パピリテキストの学術的な編集を目的として,可視光スペクトルにおけるスクリプトの正当性向上の理論的,アルゴリズム的,知覚的,相互作用的側面を展開する。 方法:色処理と視覚錯覚に基づく新しい可視性向上アルゴリズムを,ユーザ体験実験における古典的手法と比較した。 2)ユーザはパーソナリティやソーシャルコンディショニング,タスクとアプリケーションドメイン,専門知識レベルと画像品質,ソフトウェアやハードウェア,インターフェースの余裕といった要因の影響を受けて,幅広い行動スペクトルを示した。 すべての因子構成を満たす単一の拡張法はない。 したがって、パーソナライゼーション、文脈化、相補性を容易にする方法の幅広い選択をユーザに提供することが提案されている。 (3)信号の曖昧さとエラー結果に基づいて,カジュアルビジョンと臨界ビジョンの区別を行う。 クリティカルアプリケーションのための画像強調パラダイムの基準は、画像の懐疑的解釈、システム問題としてのエンハンスメントへのアプローチ、すべての画像構造を潜在的な情報として考慮すること、不確実性や代替的な解釈を視覚的にも数値的にも明確化することである。

Purpose: This article develops theoretical, algorithmic, perceptual, and interaction aspects of script legibility enhancement in the visible light spectrum for the purpose of scholarly editing of papyri texts. - Methods: Novel legibility enhancement algorithms based on color processing and visual illusions are compared to classic methods in a user experience experiment. - Results: (1) The proposed methods outperformed the comparison methods. (2) Users exhibited a broad behavioral spectrum, under the influence of factors such as personality and social conditioning, tasks and application domains, expertise level and image quality, and affordances of software, hardware, and interfaces. No single enhancement method satisfied all factor configurations. Therefore, it is suggested to offer users a broad choice of methods to facilitate personalization, contextualization, and complementarity. (3) A distinction is made between casual and critical vision on the basis of signal ambiguity and error consequences. The criteria of a paradigm for enhancing images for critical applications comprise: interpreting images skeptically; approaching enhancement as a system problem; considering all image structures as potential information; and making uncertainty and alternative interpretations explicit, both visually and numerically.
翻訳日:2023-04-08 10:47:00 公開日:2021-08-30
# vqe法 : 短期調査と最近の展開

VQE Method: A Short Survey and Recent Developments ( http://arxiv.org/abs/2103.08505v2 )

ライセンス: Link先を確認
Dmitry A. Fedorov, Bo Peng, Niranjan Govind and Yuri Alexeev(参考訳) 変分量子固有解法(VQE)は、ハミルトニアンの固有値と固有値を見つけるためにハイブリッド量子古典計算法を用いる方法である。 VQEは、量子位相推定のような完全な量子アルゴリズムの代替として提案されている。 VQEは、様々な小さな分子に対する電子的シュル・"{o}ディンガー方程式の解法に成功している。 しかし、この手法のスケーラビリティは量子回路の複雑さと古典最適化問題の複雑さの2つの要因によって制限されている。 これら2つの因子は、試行波関数を表すために用いられる変分アンサッツの選択に影響される。 したがって、効率的なアンサッツの構築は研究の活発な領域である。 言い換えれば、現代の量子コンピュータは、複数の量子ビットにマップされる問題に対して、現在利用可能なansatzeを使って生成された深い量子回路を実行することができない。 このレビューでは、化学にインスパイアされた2つのカテゴリとハードウェア効率の2つのカテゴリに分けられる、現代的なハードウェア上での動作が容易な量子回路を設計する分野における最近の発展について述べる。 本稿では,従来のVQEシミュレーションで定式化されたアンサーゼの欠点,より洗練された手法による対処方法,さらなる改善の可能性について論じる。

The variational quantum eigensolver (VQE) is a method that uses a hybrid quantum-classical computational approach to find eigenvalues and eigenvalues of a Hamiltonian. VQE has been proposed as an alternative to fully quantum algorithms such as quantum phase estimation because fully quantum algorithms require quantum hardware that will not be accessible in the near future. VQE has been successfully applied to solve the electronic Schr\"{o}dinger equation for a variety of small molecules. However, the scalability of this method is limited by two factors: the complexity of the quantum circuits and the complexity of the classical optimization problem. Both of these factors are affected by choice of the variational ansatz used to represent the trial wave function. Hence, the construction of efficacious ansatz is an active area of research. Put another way, modern quantum computers are not capable of executing deep quantum circuits produced by using currently available ansatze for problems that map onto more than several qubits. In this review, we present recent developments in the field of designing effective ansatzes that fall into two categories -- chemistry inspired and hardware efficient -- that produce quantum circuits that are easier to run on modern hardware. We discuss the shortfalls of ansatzes originally formulated for VQE simulations, how they are addressed in more sophisticated methods, and the potential ways for further improvements.
翻訳日:2023-04-08 02:08:58 公開日:2021-08-30
# 巨大な$\Lambda$型原子による単一光子周波数変換

Single-photon frequency conversion via a giant $\Lambda$-type atom ( http://arxiv.org/abs/2104.11113v2 )

ライセンス: Link先を確認
Lei Du and Yong Li(参考訳) 2つの分離点における1つの導波路のモードと2つの原子遷移を結合した巨大な$\lambda$-型原子による単一光子散乱の研究を行った。 ジャイアント原子構造は、弾性(周波数保存)および非弾性(周波数変換)散乱プロセスの両方に相依存性の干渉効果を導入し、対応する崩壊速度(および遷移周波数)を、ジャイアント原子が小さな原子の様々な限界にアクセスできるように変更する。 最適周波数変換の条件も同定され、位相依存であることが示されている。 さらに,各結合点にさらにsagnac干渉計を挿入することで,巨大原子干渉とsagnac量子干渉の組み合わせを考える。 この2種類の干渉効果は, 巨大原子構造によって誘起される相依存性現象に加えて, 単位効率の周波数変換を効率よく行うことができるような, 独立的な役割を担っている。

We study single-photon scattering via a giant $\Lambda$-type atom, where both atomic transitions are coupled with the modes of a single waveguide at two separated points. The giant-atom structure introduces phase-dependent interference effects to both elastic (frequency-preserving) and inelastic (frequency-converting) scattering processes, which modify the corresponding decay rates (as well as the transition frequencies) such that the giant atom is capable of accessing the various limits of a small one. The condition of the optimal frequency conversion is also identified and shown to be phase dependent. Moreover, we consider the combination of the giant-atom interference and the Sagnac quantum interference by further inserting a Sagnac interferometer at each of the coupling points. It is shown that the two kinds of interference effects are compatible and play independent roles, such that efficient frequency conversion with unit efficiency can be achieved in addition to the phase-dependent phenomena induced by the giant-atom structure.
翻訳日:2023-04-02 20:21:55 公開日:2021-08-30
# E. Schr\"odingerの1931年の論文"On the Reversal of the Laws of Nature" ["\"Uber die Umkehrung der Naturgesetze", Sitzungsberichte der preussischen Akademie der Wissenschaften, physikalische mathematische Klasse, 8 N9 144-153]

E. Schr\"odinger's 1931 paper "On the Reversal of the Laws of Nature" ["\"Uber die Umkehrung der Naturgesetze",Sitzungsberichte der preussischen Akademie der Wissenschaften, physikalische mathematische Klasse, 8 N9 144-153] ( http://arxiv.org/abs/2105.12617v2 )

ライセンス: Link先を確認
Rapha\"el Chetrite, Paolo Muratore-Ginanneschi, and Kay Schwieger(参考訳) 我々は『自然の法則の逆転』に関するアーウィン・シュル「オーディンガーの論文」の英訳を提示する。 本稿では,拡散過程の時間反転の考え方をschr\"odinger で解析する。 Schr\"odinger's paper は、ベルンシュタインの相互過程に関する研究や、コルモゴロフのマルコフ過程の時間反転特性と詳細なバランスに関する研究の顕著なインスピレーション源となった。 Schr\"odingerによって概説された考え方は、F'enyes、Nelsonらによる量子力学の確率論的解釈の発展や、量子化の確率論的類似として「ユークリッド量子力学」の概念にも影響を与えた。 論文の第2部では、時間反転と物理学の統計法則の関係について論じている。 我々は,統計ナノフィジカルスにおける現代展開におけるschr\"odingerの直観の関連性を強調する。

We present an English translation of Erwin Schr\"odinger's paper on "On the Reversal of the Laws of Nature". In this paper Schr\"odinger analyses the idea of time reversal of a diffusion process. Schr\"odinger's paper acted as a prominent source of inspiration for the works of Bernstein on reciprocal processes and of Kolmogorov on time reversal properties of Markov processes and detailed balance. The ideas outlined by Schr\"odinger also inspired the development of probabilistic interpretations of quantum mechanics by F\'enyes, Nelson and others as well as the notion of "Euclidean Quantum Mechanics" as probabilistic analogue of quantization. In the second part of the paper Schr\"odinger discusses the relation between time reversal and statistical laws of physics. We emphasize in our commentary the relevance of Schr\"odinger's intuitions for contemporary developments in statistical nano-physics.
翻訳日:2023-03-29 11:32:04 公開日:2021-08-30
# 散逸性空洞における量子化電磁場に強く結合したオープン多ビット系の量子力学

Quantum dynamics of open many-qubit systems strongly coupled to a quantized electromagnetic field in dissipative cavities ( http://arxiv.org/abs/2105.14674v2 )

ライセンス: Link先を確認
Mikhail Tokman, Qianfan Chen, Maria Erukhimova, Yongrui Wang, Alexey Belyanin(参考訳) 量子化電磁キャビティモードに強く結合した多ビット系の量子力学を,フェルミオンとキャビティ光子の脱コヒーレンスと消散の存在下で研究する。 解析解はリンドブラッド近似における幅広い種類の開量子系のために導出される。 それらは同一の量子ビット、遷移周波数の分布の広い量子ビットのアンサンブル、マルチレベル電子系を含む。 時間依存量子状態振幅と可観測値のコンパクトな解析解は、状態ベクトルの確率方程式を用いることで実現される。 初期量子状態の準備により、システムは、量子ビット間の破壊的または建設的干渉を伴う、多種多様な絡み合った状態へと進化できることを示す。 特に、空洞内の散逸は、空洞モードから完全に分離された暗黒状態へとシステムを動かすことができる。 また、遷移周波数の分布が広い多電子系が、量子化された空洞場を巨大な集団双極子として結合する状態も見いだす。

We study quantum dynamics of many-qubit systems strongly coupled to a quantized electromagnetic cavity mode, in the presence of decoherence and dissipation for both fermions and cavity photons. The analytic solutions are derived for a broad class of open quantum systems in Lindblad approximation. They include identical qubits, an ensemble of qubits with a broad distribution of transition frequencies, and multi-level electron systems. Compact analytic solutions for time-dependent quantum state amplitudes and observables become possible with the use of the stochastic equation of evolution for the state vector. We show that depending on the initial quantum state preparation, the systems can evolve into a rich variety of entangled states with destructive or constructive interference between the qubits. In particular, dissipation in a cavity can drive the system into the dark states completely decoupled from the cavity modes. We also find the regimes in which multi-electron systems with a broad distribution of transition frequencies couple to the quantized cavity field as a giant collective dipole.
翻訳日:2023-03-28 06:15:06 公開日:2021-08-30
# 周期関数のためのユニバーサル量子回路設計

A Universal Quantum Circuit Design for Periodical Functions ( http://arxiv.org/abs/2106.02678v4 )

ライセンス: Link先を確認
Junxu Li and Sabre Kais(参考訳) 対応するフーリエ展開に基づいて任意の一次元周期関数を推定できるユニバーサル量子回路設計を提案する。 量子回路は、異なるN-フーリエ成分の情報を格納するN-qubitと、制御操作のために$M = \lceil{\log_2{N}}\rceil$の補助量子ビットを含む。 所望の出力は最後の qubit $q_n$ で測定され、計算量は $o(n^2\lceil \log_2n\rceil^2)$ である。 ibm-qasmシミュレータを用いた直接シミュレーションにより得られた正方形波動関数の量子回路を精度良く構築し,そのアプローチを説明する。 このアプローチは一般的であり、任意の周期関数に適用することができる。

We propose a universal quantum circuit design that can estimate any arbitrary one-dimensional periodic functions based on the corresponding Fourier expansion. The quantum circuit contains N-qubits to store the information on the different N-Fourier components and $M+2$ auxiliary qubits with $M = \lceil{\log_2{N}}\rceil$ for control operations. The desired output will be measured in the last qubit $q_N$ with a time complexity of the computation of $O(N^2\lceil \log_2N\rceil^2)$. We illustrate the approach by constructing the quantum circuit for the square wave function with accurate results obtained by direct simulations using the IBM-QASM simulator. The approach is general and can be applied to any arbitrary periodic function.
翻訳日:2023-03-27 21:02:39 公開日:2021-08-30
# 展望:超伝導量子デバイスの再現可能なコヒーレンス特性

Perspective: Reproducible Coherence Characterization of Superconducting Quantum Devices ( http://arxiv.org/abs/2106.09864v2 )

ライセンス: Link先を確認
Corey Rae H McRae, Gregory M Stiehl, Haozhi Wang, Sheng-Xiang Lin, Shane A Caldwell, David P Pappas, Josh Mutus, Joshua Combes(参考訳) 超伝導量子コンピューティングの分野が成熟に近づくにつれ、単一デバイスの性能の最適化は大規模量子コンピュータへの有望な道であることが証明されている。 しかし、この最適化は、パフォーマンスメトリクスが測定、装置、研究室の間で正確に比較できる場合にのみ可能である。 現在、このような比較は複数の情報源からの過小評価による誤りのため不正確または不可能である。 本稿では、超伝導量子回路における量子ビットおよび共振器の誤差解析の現状を概説し、超伝導量子デバイス最適化を実現する前にどのような研究が必要かについて議論する。

As the field of superconducting quantum computing approaches maturity, optimization of single-device performance is proving to be a promising avenue towards large-scale quantum computers. However, this optimization is possible only if performance metrics can be accurately compared among measurements, devices, and laboratories. Currently such comparisons are inaccurate or impossible due to understudied errors from a plethora of sources. In this Perspective, we outline the current state of error analysis for qubits and resonators in superconducting quantum circuits, and discuss what future investigations are required before superconducting quantum device optimization can be realized.
翻訳日:2023-03-26 08:32:06 公開日:2021-08-30
# 後方情報を用いた量子推測ゲーム

Quantum guessing games with posterior information ( http://arxiv.org/abs/2107.11873v2 )

ライセンス: Link先を確認
Claudio Carmeli, Teiko Heinosaari, Alessandro Toigo(参考訳) 量子推論ゲームは、情報処理のさまざまなタスクを研究するための汎用フレームワークを形成する。 後続情報を持つ量子推測ゲームは、量子システムを用いてメッセージと古典的な通信を符号化し、量子測定が実行された後に部分的な情報を与える。 後続情報を用いた量子推測ゲームのための一般的なフレームワークを提案し、そのようなゲームを分析することができる構造と縮小定理を導出する。 我々は、推理ゲームの対称性を定式化し、対称性が既約表現に関連する場合の最適測定を特徴付ける。 非互換検出に対する推測ゲームの適用をレビューし、明らかにする。 提示された主要な概念と結果は、すべて実例で示される。

Quantum guessing games form a versatile framework for studying different tasks of information processing. A quantum guessing game with posterior information uses quantum systems to encode messages and classical communication to give partial information after a quantum measurement has been performed. We present a general framework for quantum guessing games with posterior information and derive structure and reduction theorems that enable to analyze any such game. We formalize symmetry of guessing games and characterize the optimal measurements in cases where the symmetry is related to an irreducible representation. The application of guessing games to incompatibility detection is reviewed and clarified. All the presented main concepts and results are demonstrated with examples.
翻訳日:2023-03-20 23:26:55 公開日:2021-08-30
# 擬エルミート力学カシミール効果による光子生成の促進

Enhancement of photon creation through the pseudo-Hermitian dynamical Casimir effect ( http://arxiv.org/abs/2108.05859v2 )

ライセンス: Link先を確認
D. Cius, F. M. Andrade, A. S. M. de Castro, and M. H. Y. Moussa(参考訳) ここでは擬エルミート力学カシミール効果を分析し、この現象を記述するのに使われた実効法則の非エルミート版を提案する。 我々は、生成した光子の平均数が大幅に増加することを検証し、これは、我々が仮定した時間依存の非エルミート・ハミルトニアンの工学的可能性に注意を向ける結果である。 カシミール光子生成を検出することの難しさから、この結果は量子論の新しい章として擬似エルミート量子力学の重要性を補強し、量子状態のスクイージングの程度のようなエルミート過程の増幅に重要な道具となる。

We analyse here the pseudo-Hermitian Dynamical Casimir effect, proposing a non-Hermitian version of the effective Law's Hamiltonian used to describe the phenomenon. We verify that the average number of created photons can be substantially increased, a result which calls the attention to the possibility of engineering the time-dependent non-Hermitian Hamiltonian we have assumed. Given the well-known difficulty in detecting the Casimir photon production, the present result reinforces the importance of pseudo-Hermitian quantum mechanics as a new chapter of quantum theory and an important tool for the amplification of Hermitian processes such as the degree of squeezing of quantum states.
翻訳日:2023-03-18 17:14:46 公開日:2021-08-30
# 情報障害, 道徳的価値, 物語の論争

Information Disorders, Moral Values and the Dispute of Narratives ( http://arxiv.org/abs/2108.12262v2 )

ライセンス: Link先を確認
Daniel Schwabe(参考訳) 本稿では,情報障害を物語論争として特徴づける枠組みを提案する。 このような説話は読者に提示され、主張中の主張を事実として受け入れるかどうかを判断しなければならない。 我々は、このプロセスは、人間の意思決定が彼らに大きく依存していることが示されているため、道徳的価値観とのつながりを確立する必要があることを指摘した。 2020年アメリカ合衆国大統領選挙の不正行為に関する主張に関連して、これがどのように行われるかを示す簡単な例が示されている。

In this paper we propose a framework characterizing information disorders as disputes of narratives. Such narratives present claims to readers, who must decide whether to accept the statements in the claims as facts. We point out that this process requires establishing connections to moral values, since it has been shown that human decision making is heavily dependent on them. A simple example illustrating how this could be done is given, related to claims about fraud in the US 2020 Presidential elections.
翻訳日:2023-03-18 07:22:40 公開日:2021-08-30
# フォトニック軌道角運動量と検出基底制御による4次元超角N00N状態の生成

Generation of four-dimensional hyperentangled N00N states and beyond with photonic orbital angular momentum and detection-basis control ( http://arxiv.org/abs/2108.12403v2 )

ライセンス: Link先を確認
Jos\'e C\'esar Guerra V\'azquez, Emmanuel Narv\'aez Casta\~neda, Roberto Ram\'irez Alarc\'on, Imad Agha, Qiwen Zhan, William N. Plick(参考訳) フォトニック光モードのハイパーエンタングルメントは、量子情報処理と量子通信において貴重な資源である。 本稿では、2つの光学非線形性の干渉と、軌道-角-運動自由度におけるシーディング(検出)基底の制御を用いた新しいプロトコルを提案する。 この設定は、少なくとも4次元で最大および超絡み合った状態を生成することができる。 4次元の場合の結果状態は、いわゆるn00n状態(量子光学でよく知られている最大経路絡み合い状態)の一般化である。 この状態の生成は、少なくとも理想的な場合において、実験的不完全を除く「完全」である(言い換えればノイズなし)。 提案されたセットアップは非常に多用途であり、検出およびポンププロトコルの制御により、任意の次元の巨大なパラメータ空間が他の興味のある状態を探すことができる。 また、状態が2、3次元から4次元へとどのように調整されるかを示す特定の事例を示す。

Hyperentanglement of photonic light modes is a valuable resource in quantum information processing and quantum communication. Here we propose a new protocol using the interference of two optical nonlinearities and control of the heralding (detection) basis in the orbital-angular-momentum degree of freedom. This setup is capable of generating states which are both maximally- and hyper- entangled in at least four dimensions. The resultant state in the four-dimensional case is a generalization of the so-called N00N state (a maximally path-entangled state well known in quantum optics). The production of this state is "perfect" (in other words noise-less) at least in the ideal case, excluding experimental imperfections. The presented setup is very versatile, and with control of the detection and pumping protocols a massively-large parameter space, of arbitrarily-large dimensionality, may be searched for other states of interest. Also, we present specific cases demonstrating how the state may be tuned from two, to three, to four dimensions -- which may be of further theoretical and experimental interest.
翻訳日:2023-03-17 00:51:40 公開日:2021-08-30
# 超伝導クエットを用いた3レベル開放系の動的制御の実証

Demonstration of dynamical control of three-level open systems with a superconducting qutrit ( http://arxiv.org/abs/2108.12967v1 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Zhen-Biao Yang, Yan Xia, and Shi-Biao Zheng(参考訳) 本稿では,3レベルオープンシステムにおける動的制御手法を提案し,超伝導量子ドットを用いた実験で実現した。 我々の研究は、比較的長い期間マルコフ環境において、体系的な集団またはコヒーレンスが、いまだに予め設定された進化経路に従うことができることを示した。 これは3段階のオープンシステムのマルコフ力学を正確に制御するための最初の実験であり、複数のオープンシステムにおける動的制御の将来の実現のための確かな基盤を提供する。 この実験で示されたテクニックの即時応用は、量子電池のエネルギーを安定させることである。

We propose a method for the dynamical control in three-level open systems and realize it in the experiment with a superconducting qutrit. Our work demonstrates that in the Markovian environment for a relatively long time (3 us), the systemic populations or coherence can still strictly follow the preset evolution paths. This is the first experiment for precisely controlling the Markovian dynamics of three-level open systems, providing a solid foundation for the future realization of dynamical control in multiple open systems. An instant application of the techniques demonstrated in this experiment is to stabilize the energy of quantum batteries.
翻訳日:2023-03-16 19:24:31 公開日:2021-08-30
# 長距離量子通信用外部共振器ダイオードレーザーのオフセットロックによる周波数安定化

Offset-locking-based frequency stabilization of external cavity diode lasers for long-distance quantum communication ( http://arxiv.org/abs/2108.13130v1 )

ライセンス: Link先を確認
Takuto Miyashita, Takeshi Kondo, Kohei Ikeda, Kazumichi Yoshii, Feng-Lei Hong and Tomoyuki Horikiri(参考訳) 長距離量子通信には量子リピータが必要である。 狭線幅量子メモリを用いた量子エンタングル光子源の効率的な結合のために, 2つのレーザの周波数安定化を1514nmと1010nmで行った。 絡み合った光子源の1514nmポンプレーザーは3.6 \times 10^{-12} (\tau = 1 s) の周波数安定性を示した。 波長変換系の1010nmポンプレーザーは周波数安定性が3.4 \times 10^{-12} (\tau = 1 s)であった。 両レーザーの安定度はPr:YSO量子メモリの4MHzの周波数幅よりも約2桁小さい。 このような周波数安定化レーザーは、量子リピータにおける量子メモリと絡み合った光子源の遠隔結合を実現することができる。

Quantum repeaters are required for long-distance quantum communication. For efficient coupling of quantum entangled photon sources with narrow-linewidth quantum memories we performed the frequency stabilization of two lasers at 1514 and 1010 nm. The 1514 nm pump laser of the entangled photon source exhibited a frequency stability of 3.6 \times 10^{-12} (\tau = 1 s). The 1010 nm pump laser of the wavelength conversion system exhibited a frequency stability of 3.4 \times 10^{-12} (\tau = 1 s). The stabilities of both lasers were approximately two orders of magnitude smaller than the frequency width of 4 MHz of the Pr:YSO quantum memory. Such frequency-stabilized lasers can realize the remote coupling of a quantum memory and an entangled photon source in quantum repeaters.
翻訳日:2023-03-16 19:22:20 公開日:2021-08-30
# beyond method: 量子力学の基礎を超越したfeyerabendとpopperの対位法

Beyond method: The diatribe between Feyerabend and Popper over the foundations of quantum mechanics ( http://arxiv.org/abs/2108.13121v1 )

ライセンス: Link先を確認
Flavio Del Santo(参考訳) カール・ポパー(Karl Popper)とポール・ファイヤベント(Paul Feyerabend)は、20世紀の科学の最も影響力のある哲学者の一人である。 激しい研究は論争を巻き起こす関係の発達に注がれており、フェヤラベンドは学生でポパーの支持者から彼の最も厳しい批判者の一人に変わった。 しかし、Popper と Feyerabend の間の亀裂が、主に量子力学の基礎の研究の文脈で生じたことはよく知られていない。 本論文は,量子力学の基礎を網羅し,それらの個人的関係が分散において果たす主要な役割を強調した。

Karl Popper and Paul Feyerabend have been among the most influential philosophers of science of the twentieth century. Extensive studies have been dedicated to the development of their controversial relationship, which saw Feyerabend turning from a student and supporter of Popper to one of his harshest critics. Yet, it is not as well known that the rift between Popper and Feyerabend generated mainly in the context of their studies on the foundation of quantum mechanics, which has been the main subject of their discussions for about two decades. This paper reconstructs in detail their diatribe over the foundations of quantum mechanics, emphasizing also the major role that their personal relationship played in their distancing.
翻訳日:2023-03-16 19:21:56 公開日:2021-08-30
# ガウス演算の不定因数列からの量子非ガウス性

Quantum Non-Gaussianity From An Indefinite Causal Order of Gaussian Operations ( http://arxiv.org/abs/2108.13074v1 )

ライセンス: Link先を確認
Seid Koudia, Abdelhakim Gharbi(参考訳) 量子非ガウス状態は、量子力学や量子センシングから量子通信や量子鍵分布に至るまで、量子情報処理における多くのタスクにおいて有用な資源であると考えられている。 注目されているもう1つの便利なツールは、新しく構築された量子スイッチである。 量子情報における多くのタスクにおけるその応用は、量子通信や量子温度測定における多くの既存のスキームよりも優れていることが証明されている。 この貢献において、我々は、制御キュービットの自由度によって順序が制御されるガウス演算から非常に非ガウス状態を設計するのに非常に有用である。 ガウス的状態の集合とガウス的操作の集合の非凸性は、文学における既存のプロトコルとは対照的に、制御キュービット上でのポストセレクション後の非ガウス主義の出現を保証する。 結果として得られる状態の非古典性について論じる。

Quantum Non-Gaussian states are considered as a useful resource for many tasks in quantum information processing, from quantum metrology and quantum sensing to quantum communication and quantum key distribution. Another useful tool that is growing attention is the newly constructed quantum switch. Its applications in many tasks in quantum information have been proved to be outperforming many existing schemes in quantum communication and quantum thermometry. In this contribution, we are addressing this later to be very useful to engineer highly non-Gaussian states from Gaussian operations whose order is controlled by degrees of freedom of a control qubit. The non-convexity of the set of Gaussian states and the set of Gaussian operations guarantees the emergence of non-Gaussianity after postselection on the control qubit deterministically, in contrast to existing protocols in the literature. The non-classicality of the resulting states is discussed accordingly.
翻訳日:2023-03-16 19:21:42 公開日:2021-08-30
# 政策課題の解決,信頼の向上,コミュニティ構築へのアプローチとしての政府の特定データに基づくCOVID-19データ

COVID-19 Datathon Based on Deidentified Governmental Data as an Approach for Solving Policy Challenges, Increasing Trust, and Building a Community: Case Study ( http://arxiv.org/abs/2108.13068v1 )

ライセンス: Link先を確認
Mor Peleg, Amnon Reichman, Sivan Shachar, Tamir Gadot, Meytal Avgil Tsadok, Maya Azaria, Orr Dunkelman, Shiri Hassid, Daniella Partem, Maya Shmailov, Elad Yom-Tov, Roy Cohen(参考訳) 新型コロナウイルス(COVID-19)危機を受けて、イスラエルの厚生労働省(MoH)は、政府の特定データに基づく仮想データソンを開催した。 多分野の委員会によって組織されたイスラエルの研究コミュニティは、新型コロナウイルス(covid-19)政策の課題に対する洞察を提供するために招待された。 datathonは、1新型コロナウイルス(covid-19)の健康問題に対処するための運用可能なデータ駆動モデルを開発し、2学界、産業、政府の研究者のコミュニティを構築し、政府への信頼を再構築するように設計されている。 その関連性(意味、データ可用性、データの匿名化の可能性)、免疫政策、若者の特別なニーズ、新型コロナウイルス検査のコンプライアンス率が低い人口の3つに基づいて、具体的な課題が定義された。 MoHチームは、各課題に対して、多様な、信頼性のある、最新の、特定された政府のデータセットを抽出した。 関連するデータサイエンスツールを備えたセキュアなリモートアクセス研究環境がamazon webで設定された。 MoHは応募者を審査し、約80人の参加者を受け入れ、コミュニティのすべての部門を代表し、専門分野のバランスを取るために協力した。 イベントの1週間後、参加者とメンターのための匿名調査が配布され、全体的な有用性と改善点を評価した。 48時間のDatathonとプレイベントセッションには、データサイエンティスト20人、疫学者6人、プレゼンテーションメンター5人、審査員12人による18の多部門チームが参加した。 現在、3つのチームによって開発された洞察は、国家政策に関連する潜在的なデータサイエンス手法として、MoHによって検討されている。 最も肯定的な結果は、MoHに対する信頼が高まり、これらのプロジェクトや将来のプロジェクトで政府と協力する準備が整ったことである。 詳細なフィードバックは、将来の政府主導のデータセットの構造と組織化を改善するための具体的な教訓を提供する。

Triggered by the COVID-19 crisis, Israel's Ministry of Health (MoH) held a virtual Datathon based on deidentified governmental data. Organized by a multidisciplinary committee, Israel's research community was invited to offer insights to COVID-19 policy challenges. The Datathon was designed to (1) develop operationalizable data-driven models to address COVID-19 health-policy challenges and (2) build a community of researchers from academia, industry, and government and rebuild their trust in the government. Three specific challenges were defined based on their relevance (significance, data availability, and potential to anonymize the data): immunization policies, special needs of the young population, and populations whose rate of compliance with COVID-19 testing is low. The MoH team extracted diverse, reliable, up-to-date, and deidentified governmental datasets for each challenge. Secure remote-access research environments with relevant data science tools were set on Amazon Web. The MoH screened the applicants and accepted around 80 participants, teaming them to balance areas of expertise as well as represent all sectors of the community. One week following the event, anonymous surveys for participants and mentors were distributed to assess overall usefulness and points for improvement. The 48-hour Datathon and pre-event sessions included 18 multidisciplinary teams, mentored by 20 data scientists, 6 epidemiologists, 5 presentation mentors, and 12 judges. The insights developed by the 3 winning teams are currently considered by the MoH as potential data science methods relevant for national policies. The most positive results were increased trust in the MoH and greater readiness to work with the government on these or future projects. Detailed feedback offered concrete lessons for improving the structure and organization of future government-led datathons.
翻訳日:2023-03-16 19:21:24 公開日:2021-08-30
# 測定誘起量子ウォーク

Measurement induced quantum walks ( http://arxiv.org/abs/2108.13047v1 )

ライセンス: Link先を確認
A. Didi and E. Barkai(参考訳) グラフ上の密結合量子ウォークについて検討する。 粒子の位置の繰り返しストロボスコープ計測により、測定された「軌道」が得られ、歩行のための古典的および量子力学的性質の組み合わせが観察される。 本研究では,パケットの1次元線への拡散に対する測定の影響について検討し,Zeno制限を除くと,従来のランダムウォークと同様のガウス統計に収束することを示した。 大きな偏差解析とエッジワース展開は、この通常の振る舞いに量子補正をもたらす。 次に、生成関数法を用いて目標状態への最初の通過時間を探索し、平均の最初の戻り時間の量子化のような特性を与える。 特に,有限系における平均検出時間のばらつきや相空間の相互排他領域への分解など,系の挙動に顕著な変化をもたらす特定のサンプリングレートの影響について検討する。 ある直線上の量子ウォークでは、我々の系では最初の検出確率は古典的に$(\text{time})^{-3/2}$のように崩壊するが、これは$(\text{time})^{-3}$の減衰率をもたらす局所的な測定値と比較すると劇的に異なる。

We investigate a tight binding quantum walk on a graph. Repeated stroboscopic measurements of the position of the particle yield a measured "trajectory", and a combination of classical and quantum mechanical properties for the walk are observed. We explore the effects of the measurements on the spreading of the packet on a one dimensional line, showing that except for the Zeno limit, the system converges to Gaussian statistics similarly to a classical random walk. A large deviation analysis and an Edgeworth expansion yield quantum corrections to this normal behavior. We then explore the first passage time to a target state using a generating function method, yielding properties like the quantization of the mean first return time. In particular, we study the effects of certain sampling rates which cause remarkable change in the behavior in the system, like divergence of the mean detection time in finite systems and a decomposition of the phase space into mutually exclusive regions, an effect that mimics ergodicity breaking, whose origin here is the destructive interference in quantum mechanics. For a quantum walk on a line we show that in our system the first detection probability decays classically like $(\text{time})^{-3/2}$, this is dramatically different compared to local measurements which yield a decay rate of $(\text{time})^{-3}$, indicating that the exponents of the first passage time depends on the type of measurements used.
翻訳日:2023-03-16 19:20:17 公開日:2021-08-30
# 単一ファンデルワールス型強磁性体Fe3GeTe2の電流による高効率非揮発性磁化スイッチングと多レベル状態

Highly efficient nonvolatile magnetization switching and multi-level states by current in single van der Waals topological ferromagnet Fe3GeTe2 ( http://arxiv.org/abs/2108.13022v1 )

ライセンス: Link先を確認
Kaixuan Zhang, Youjin Lee, Matthew J. Coak, Junghyun Kim, Suhan Son, Inho Hwang, Dong-Su Ko, Youngtek Oh, Insu Jeon, Dohun Kim, Changgan Zeng, Hyun-Woo Lee, and Je-Geun Park(参考訳) 情報を電気的に書く能力を持つロバストなマルチレベルスピンメモリは、スピントロニクスにおける長期の能力であり、応用に大いに期待できる。 ここでは、バンダーワールストポロジカル強磁性体Fe3GeTe2からなる単一材料装置において、磁気情報を微小電流で容易に制御できる不揮発性かつ高効率な磁化切替を実現する。 さらに、スイッチング電流密度と電力散逸は、従来の磁石/重金属系に基づく既存のスピン軌道トルク磁気ランダムアクセスメモリの約400〜4000倍小さい。 最も重要なことは、情報容量密度を劇的に高め、計算コストを削減できる電流に切り替えたマルチレベル状態も示すことである。 そこで我々は,高エネルギー効率と高情報容量密度を両立させ,スピンメモリとスピントロニクスの分野におけるバンダーワールス磁石の出現磁場の潜在的な応用を実証した。

Robust multi-level spin memory with the ability to write information electrically is a long-sought capability in spintronics, with great promise for applications. Here we achieve nonvolatile and highly energy-efficient magnetization switching in a single-material device formed of van-der-Waals topological ferromagnet Fe3GeTe2, whose magnetic information can be readily controlled by a tiny current. Furthermore, the switching current density and power dissipation are about 400 and 4000 times smaller than those of the existing spin-orbit-torque magnetic random access memory based on conventional magnet/heavy-metal systems. Most importantly, we also demonstrate multi-level states, switched by electrical current, which can dramatically enhance the information capacity density and reduce computing costs. Thus, our observations combine both high energy efficiency and large information capacity density in one device, showcasing the potential applications of the emerging field of van-der-Waals magnets in the field of spin memory and spintronics.
翻訳日:2023-03-16 19:19:51 公開日:2021-08-30
# 北極接続:インフラ開発への不規則なアプローチ

Arctic connectivity: A frugal approach to infrastructural development ( http://arxiv.org/abs/2108.13012v1 )

ライセンス: Link先を確認
Mette Simonsen Abildgaard, Carina Ren, Israel Leyva-Mayorga, Cedomir Stefanovic, Beatriz Soret, and Petar Popovski(参考訳) 北極圏の温暖化に伴い、地域内の接続性を強化するだけでなく、遠隔地からグローバルな貿易ネットワークや社会性への接続を強化する努力も行っている。 北極圏へのグローバルな関心が高まりつつある中で、北極圏のインフラへの投資が北極圏の人々に提供することを保証するとともに、ブロードバンドやIoT(Internet of Things)サービスへの広範なアクセスを通じて、地域における産業的および商業的イノベーションを促進することがますます重要になっている。 これにより、技術と社会のアプローチを接続し統合できる学際的な研究戦略が求められ、これは一般的に互いに独立して適用される。 本稿では,北極接続に関する学際的な共同研究課題を提案する。 グリーンランドの例を挙げながら、私たちは、日常の生活のニーズをカバーする価値とコスト効率のよいコネクティビティソリューションを設計するために、ローカライズドナレッジの必要性を強調し、国際的なイノベーションのための新しいコラボレーティブコネクティビティツールも提供します。 このようなソリューションは「フルーガル接続」と呼ばれ、接続された北極地域社会の発展に不可欠である。

As the Arctic is heating up, so are efforts to strengthen connectivity within the region, but also to enhance the connections from remote settlements to the global networks of trade as well as sociality. With global interest in the Arctic on the rise, it becomes increasingly relevant to ensure that investments in arctic infrastructure actually serve the people of the Arctic, while promoting industrial and commercial innovation in the region through widespread access to broadband and Internet of Things (IoT) services. This calls for interdisciplinary research strategies that are able to connect and integrate technological and societal approaches, which are commonly applied separately and in isolation from one another. In this article, we propose an interdisciplinary collaborative research agenda for Arctic connectivity. Drawing on examples from Greenland, we stress the need for localized knowledge to design valuable and cost-effective connectivity solutions that cover the needs for everyday life and may also provide a new set of collaborative connectivity tools for innovation at an international level. Such solutions, termed 'frugal connectivity', are vital for the development of connected Arctic communities.
翻訳日:2023-03-16 19:19:31 公開日:2021-08-30
# キャビティモード工学による超強磁性光-マター相互作用

Ultrastrong magnetic light-matter interaction with cavity mode engineering ( http://arxiv.org/abs/2108.13266v1 )

ライセンス: Link先を確認
Hyeongrak Choi, Dirk Englund(参考訳) 光子と双極子の磁気相互作用は、電子、センシング、分光、量子コンピューティングにおいて不可欠である。 しかし、その弱い強度は、しばしば共振器が光子を閉じ込め保存する必要がある。 本稿では、超小型モード容積と超高品質係数を有する共振器を作製するモード工学的手法を提案する。 特に,Qの劣化を最小限に抑えた材料や製造のみで,任意のモードのボリュームを達成できることが示されている。 トレードオフ空間におけるモードエンジニアリングキャビティを比較し、磁気相互作用が自由空間と比較して10〜16ドル以上強化可能であることを示す。 これらの手法は、量子コンピューティングやコンパクト電子常磁性共鳴(epr)センサーにおける高共役マイクロ波-スピンカップリングからダークマター探索のような基礎科学への新しい応用を可能にする。

Magnetic interaction between photons and dipoles is essential in electronics, sensing, spectroscopy, and quantum computing. However, its weak strength often requires resonators to confine and store the photons. Here, we present mode engineering techniques to create resonators with ultrasmall mode volume and ultrahigh quality factor. In particular, we show that it is possible to achieve an arbitrarily small mode volume only limited by materials or fabrication with minimal Q degradation. We compare mode-engineered cavities in a trade-off space and show that the magnetic interaction can be strengthened more than $10^{16}$ times compared to free space. These methods enable new applications from high-cooperativity microwave-spin coupling in quantum computing or compact electron paramagnetic resonance (EPR) sensors to fundamental science such as dark matter searches.
翻訳日:2023-03-16 19:12:27 公開日:2021-08-30
# コヒーレント状態の背景場法と初期時間特異性

Background Field Method and Initial-Time Singularity for Coherent States ( http://arxiv.org/abs/2108.13235v1 )

ライセンス: Link先を確認
Lasha Berezhiani, Giordano Cintia, Michael Zantedeschi(参考訳) 背景場法は相互作用するスカラー場理論におけるコヒーレント状態のダイナミクスを研究するために用いられる。 等質凝縮物に対応するコヒーレント状態に着目して、場演算子の期待値の量子的枯渇は、凝縮物成分の相対論的量子化への消滅に起因することが示される。 さらに、非定常コヒーレント状態の初期場加速度とエネルギーが、再正規化状態の代わりに素結合定数で決定されるという事実から、摂動特異点の出現は避けられないことが示されている。 言い換えると、これらの状態の一貫性は、再開を通じて素結合定数の有限性を必要とする。

The background field method is adopted for studying the dynamics of coherent states within an interacting scalar field theory. Focusing on a coherent state that corresponds to the homogeneous condensate, the quantum depletion of the expectation value of the field-operator is demonstrated to be due to the annihilation of the condensate constituents into relativistic quanta. Moreover, due to the fact that the initial field acceleration and energy for the non-squeezed coherent states are determined in terms of bare coupling constant, instead of the renormalized one, the appearance of perturbative singularities is shown to be inevitable. In other words, consistency of these states requires the finiteness of the bare coupling constant, through the resummation.
翻訳日:2023-03-16 19:12:14 公開日:2021-08-30
# シリコンにおける単一原子核音響共鳴のための工学的局所ひずみ

Engineering local strain for single-atom nuclear acoustic resonance in silicon ( http://arxiv.org/abs/2108.13234v1 )

ライセンス: Link先を確認
Laura A. O'Neill, Benjamin Joecker, Andrew D. Baczewski, Andrea Morello(参考訳) メカニカルひずみは量子ドットや単一ドーパントデバイスを含むナノスケール半導体システムの物理と操作において重要な役割を果たしている。 ここでは,1つの核スピンが核音響共鳴(NAR)によってコヒーレントに制御されるナノエレクトロニクスデバイスの設計について述べる。 このひずみは核四重極相互作用を変調することでスピン遷移を駆動する。 標準シリコン-酸化ケイ素-半導体プロセスと互換性のあるaln圧電アクチュエータを採用し、デバイスレイアウトを最適化してnarドライブを最大化する。 我々は、装置の広い領域における1つの$^{123}$Sb核に対して、200HzのNAR Rabi周波数を予測した。 電場によって直接駆動されるスピン遷移はデバイスの中心で抑制され、純粋なNARの観測が可能となる。 密度汎関数理論によって計算された電場勾配弾性テンソルを用いて、予測をシリコン中の他の高スピン群-Vドナー、および等電子的な$^{73}$Ge原子に拡張する。

Mechanical strain plays a key role in the physics and operation of nanoscale semiconductor systems, including quantum dots and single-dopant devices. Here we describe the design of a nanoelectronic device where a single nuclear spin is coherently controlled via nuclear acoustic resonance (NAR) through the local application of dynamical strain. The strain drives spin transitions by modulating the nuclear quadrupole interaction. We adopt an AlN piezoelectric actuator compatible with standard silicon metal-oxide-semiconductor processing, and optimize the device layout to maximize the NAR drive. We predict NAR Rabi frequencies of order 200 Hz for a single $^{123}$Sb nucleus in a wide region of the device. Spin transitions driven directly by electric fields are suppressed in the center of the device, allowing the observation of pure NAR. Using electric field gradient-elastic tensors calculated by density-functional theory, we extend our predictions to other high-spin group-V donors in silicon, and to the isoelectronic $^{73}$Ge atom.
翻訳日:2023-03-16 19:12:01 公開日:2021-08-30
# ハイブリッドスピン機械系の絡み合い限界

Entanglement Limits in Hybrid Spin-Mechanical Systems ( http://arxiv.org/abs/2108.13216v1 )

ライセンス: Link先を確認
Souvik Agasti, Abhishek Shukla, Milos Nesladek(参考訳) 入力2モード圧縮真空状態をシステムに転送することで、遠距離光学系とスピン系の連続可変絡み合わせを生成する方法について検討する。 このようなセットアップは重力波の測定を回避し、標準量子限界以下の出力ノイズを除去するために提案されている。 入力ビームの絡み合いが着実に増加しても, スピンキャビティの絡み合いは, 機械的振動子がキャビティと相互作用した場合に低下しても, メカニクスが関与しない場合には, 特定の値に飽和することがわかった。 また, スピン光読み出し速度は入力スクイーズによるスピンキャビティ絡み合いのロバスト性を可能にするが, 光機械的結合強度はそれを無効にすることが明らかとなった。 空洞の有効共振周波数と帯域幅がスピン系と一致するとき、絡み合いは最大に達する。 また, スピンとキャビティの絡み合い, キャビティと力学は著しく存在するが, スピンと機械振動子の絡み合いを得ることはできない。

We investigate how to generate continuous-variable entanglement between distant optomechanical and spin systems, by transferring input two-mode squeezed vacuum state to the system. Such a setup has been proposed for backaction evading gravitational-wave measurement, squeezing the output noise below the standard quantum limit. We find that the spin cavity entanglement saturates to a particular value when no mechanics are involved even though the entanglement of the input beam increases steadily, and drops down when the mechanical oscillator interacts with the cavity. Our study also reveals that the spin optical readout rate enables the robustness of the spin-cavity entanglement with input squeezing whereas the optomechanical coupling strength disables it. The entanglement reaches its maximum when the effective resonance frequency and bandwidth of the cavity match the spin system. Determining collective quadrature fluctuations, our analysis also shows that even though the entanglement between spin and cavity, and cavity and mechanics is significantly present; it is still impossible to obtain entanglement between spin and mechanical oscillator.
翻訳日:2023-03-16 19:11:08 公開日:2021-08-30
# スペクトル退化近傍における多体系の探索

Probing many-body systems near spectral degeneracies ( http://arxiv.org/abs/2108.13143v1 )

ライセンス: Link先を確認
Klaus Ziegler(参考訳) 時間相関行列の対角要素は、ランダムな時間に測定される閉量子系を調べるために用いられる。 これにより、量子進化の2つの異なる部分、再帰部分と指数的崩壊部分を抽出することができる。 この分離は、例えば自発的対称性の破れの存在下でスペクトルの退化が起こると強く影響を受ける。 さらに、最も遅い減衰速度は最小のエネルギー準位間隔によって決定され、この減衰速度はスペクトルの縮退によって発散する。 時間相関行列の対角要素を用いた量子進化の探索は、一般概念として議論され、ボソニック・ジョセフソン接合の場合には検証される。 これはヒルベルト空間の局所化への遷移における後者の特性を明らかにした。

The diagonal elements of the time correlation matrix are used to probe closed quantum systems that are measured at random times. This enables us to extract two distinct parts of the quantum evolution, a recurrent part and an exponentially decaying part. This separation is strongly affected when spectral degeneracies occur, for instance, in the presence of spontaneous symmetry breaking. Moreover, the slowest decay rate is determined by the smallest energy level spacing, and this decay rate diverges at the spectral degeneracies. Probing the quantum evolution with the diagonal elements of the time correlation matrix is discussed as a general concept and tested in the case of a bosonic Josephson junction. It reveals for the latter characteristic properties at the transition to Hilbert-space localization.
翻訳日:2023-03-16 19:10:38 公開日:2021-08-30
# トレース減少量子力学写像:分割可能性と絡み合いダイナミクス

Trace decreasing quantum dynamical maps: Divisibility and entanglement dynamics ( http://arxiv.org/abs/2108.13372v1 )

ライセンス: Link先を確認
Sergey N. Filippov(参考訳) ポストセレクションを含む実験で自然に量子演算が減少する。 しかしながら、実験は通常、状態がトレース保存であるかのように条件付き出力状態のダイナミクスに焦点を当てる。 ここで, このアプローチは, トレース減少ダイナミクスが完全に正の可分であるにもかかわらず, トレース距離の増加や系アンシラの絡み合いを観察できるという, ダイナミクスの可視性に関する不正確な結論をもたらすことを示す。 そこで我々は,この問題に対する解決策を提案し,情報バックフローと不可分性の適切な指標を提案する。 また,より実験的なデータを含む一般化消去ダイナミクスの概念についても概説する。 これらのアイデアは、偏光依存損失の明示的な物理例によって示される。

Trace decreasing quantum operations naturally emerge in experiments involving postselection. However, the experiments usually focus on dynamics of the conditional output states as if the dynamics were trace preserving. Here we show that this approach leads to incorrect conclusions about the dynamics divisibility, namely, one can observe an increase in the trace distance or the system-ancilla entanglement although the trace decreasing dynamics is completely positive divisible. We propose solutions to that problem and introduce proper indicators of the information backflow and the indivisibility. We also review a recently introduced concept of the generalized erasure dynamics that includes more experimental data in the dynamics description. The ideas are illustrated by explicit physical examples of polarization dependent losses.
翻訳日:2023-03-16 19:03:11 公開日:2021-08-30
# 目的によるコーディング: カリフォルニアの農村部でAIを学ぶ

Coding with Purpose: Learning AI in Rural California ( http://arxiv.org/abs/2108.13363v1 )

ライセンス: Link先を確認
Stephanie Tena-Meza, Miroslav Suzara, AJ Alvero(参考訳) 我々は、カリフォルニアの農業コミュニティから来たラテックス系の高校生の自己エスノグラフィーケーススタディを使用して、AIが教室外でどのように学習され、彼女の個人的背景がAI技術の社会的公正指向の応用にどのように影響するかを強調した。 学習科学からの学習経路の概念を適用することで、社会経済的地位、民族的アイデンティティ、性別に関して、AI教育を再設計することは、社会的不正に対処する計算プロジェクトの開発において重要であると論じる。 私たちはまた、AIの学習と適用の旅に関係している機関、権力構造、コミュニティの役割について学ぶ。 aiの未来は、社会的不正の問題に対処し、その使用による悪影響を制限する可能性であり、最も脆弱なコミュニティからの学生の参加と声にかかっている。

We use an autoethnographic case study of a Latinx high school student from an agricultural community in California to highlight how AI is learned outside classrooms and how her personal background influenced her social-justice oriented applications of AI technologies. Applying the concept of learning pathways from the learning sciences, we argue that redesigning AI education to be more inclusive with respect to socioeconomic status, ethnoracial identity, and gender is important in the development of computational projects that address social-injustice. We also learn about the role of institutions, power structures, and community as they relate to her journey of learning and applying AI. The future of AI, its potential to address issues of social injustice and limiting the negative consequences of its use, will depend on the participation and voice of students from the most vulnerable communities.
翻訳日:2023-03-16 19:02:45 公開日:2021-08-30
# 回帰問題に対するQBoost:偏微分方程式の解法

QBoost for regression problems: solving partial differential equations ( http://arxiv.org/abs/2108.13346v1 )

ライセンス: Link先を確認
Caio B. D. G\'oes, Thiago O. Maciel, Giovani G. Pollachini, Rafael Cuenca, Juan P. L. C. Salazar, Eduardo I. Duzzioni(参考訳) 必要な量子ビット数において、精度が高く、良好なスケーリングが可能な偏微分方程式の解を求めることができる機械学習と量子アンサンブル学習に基づくハイブリッドアルゴリズムを提案する。 古典的な部分は、機械学習を用いて偏微分方程式を解くことができる複数の回帰器(弱学習器)を訓練することによって構成される。 量子部分は回帰問題を解くためにQBoostアルゴリズムを適用する。 我々は,1次元バーガー方程式を粘度で解くために,我々の枠組みをうまく応用し,量子アンサンブル法が弱い学習者による解を本当に改善することを示した。 また,本アルゴリズムをD-Wave Systems上で実装し,従来のコンピュータのメモリ制限を考慮し,シミュレーションアニーリング法と精度の高い解法と比較して,量子解の最適性能を確認した。

A hybrid algorithm based on machine learning and quantum ensemble learning is proposed that is capable of finding a solution to a partial differential equation with good precision and favorable scaling in the required number of qubits. The classical part is composed by training several regressors (weak-learners), capable of solving a partial differential equation using machine learning. The quantum part consists of adapting the QBoost algorithm to solve regression problems. We have successfully applied our framework to solve the 1D Burgers' equation with viscosity, showing that the quantum ensemble method really improves the solutions produced by weak-learners. We also implemented the algorithm on the D-Wave Systems, confirming the best performance of the quantum solution compared to the simulated annealing and exact solver methods, given the memory limitations of our classical computer used in the comparison.
翻訳日:2023-03-16 19:01:45 公開日:2021-08-30
# 伝達学習に基づく非一様評価時間を有する目標に対する進化的二目的最適化

Transfer Learning Based Co-surrogate Assisted Evolutionary Bi-objective Optimization for Objectives with Non-uniform Evaluation Times ( http://arxiv.org/abs/2108.13339v1 )

ライセンス: Link先を確認
Xilu Wang, Yaochu Jin, Sebastian Schmitt, Markus Olhofer(参考訳) ほとんどの既存の多目的進化アルゴリズム(MOEA)は、それぞれの目的関数を同じ時間内に評価できると暗黙的に仮定している。 典型的には これは、異なる目的の評価が異なるコンピュータシミュレーションや異なる時間複雑性を持つ物理実験を伴う多くの現実世界の最適化シナリオでは維持できない。 そこで本研究では,高速な対象関数と遅い対象関数の機能的関係をモデル化するために,サロゲート支援進化アルゴリズム(saeas)に基づくトランスファー学習方式を提案し,高速目的の探索プロセスから有用な知識を得るためのトランスファー可能なインスタンス選択法を提案する。 DTLZとUFテストスイートの実験結果から,目的物が一様でない評価時間を持つ場合の目的物最適化において,提案アルゴリズムが競合することを示した。

Most existing multiobjetive evolutionary algorithms (MOEAs) implicitly assume that each objective function can be evaluated within the same period of time. Typically. this is untenable in many real-world optimization scenarios where evaluation of different objectives involves different computer simulations or physical experiments with distinct time complexity. To address this issue, a transfer learning scheme based on surrogate-assisted evolutionary algorithms (SAEAs) is proposed, in which a co-surrogate is adopted to model the functional relationship between the fast and slow objective functions and a transferable instance selection method is introduced to acquire useful knowledge from the search process of the fast objective. Our experimental results on DTLZ and UF test suites demonstrate that the proposed algorithm is competitive for solving bi-objective optimization where objectives have non-uniform evaluation times.
翻訳日:2023-03-16 19:01:25 公開日:2021-08-30
# シングルトフィッションにおけるスピンデコヒーレンス防止のためのクロック遷移

Clock Transitions Guard Against Spin Decoherence in Singlet Fission ( http://arxiv.org/abs/2108.13337v1 )

ライセンス: Link先を確認
Sina G. Lewis, Kori E. Smyser, Joel D. Eaves (University of Colorado, Boulder)(参考訳) 短いコヒーレンス時間は、量子コンピューティングとセンシングアプリケーションにおける主要な障害である。 原子系では、ゼーマン場におけるクロック遷移(CT)はコヒーレンス時間を大幅に増加させることができる。 我々は、CTが分子の固有および外在的な量子ノイズ源を弱める方法を示す。 2つの周期ポテンシャル間の円錐交差は、スピン偏光一重項核分裂の電子常磁性共鳴実験においてCTを形成する。 本報告では, ゼーマン磁場強度, 磁場に対する分子配向, 分子幾何学の観点から, 2-クロモフォア分子のための一対のCTについて報告する。

Short coherence times present a primary obstacle in quantum computing and sensing applications. In atomic systems, clock transitions (CTs), formed from avoided crossings in an applied Zeeman field, can substantially increase coherence times. We show how CTs can dampen intrinsic and extrinsic sources of quantum noise in molecules. Conical intersections between two periodic potentials form CTs in electron paramagnetic resonance experiments of the spin-polarized singlet fission photoproduct. We report on a pair of CTs for a two-chromophore molecule in terms of the Zeeman field strength, molecular orientation relative to the field, and molecular geometry.
翻訳日:2023-03-16 19:00:58 公開日:2021-08-30
# ウォームスタートqaoaとibmランタイムを利用した最大カットクラスタリング

Max-cut Clustering Utilizing Warm-Start QAOA and IBM Runtime ( http://arxiv.org/abs/2108.13464v1 )

ライセンス: Link先を確認
Daniel Beaulieu and Anh Pham(参考訳) 量子最適化アルゴリズムは、問題をグラフ最適化問題にマッピングし、MaxCut問題定式化の最小エネルギーを求めることにより、教師なし学習クラスタリングを再現することができる。 本研究は、量子近似最適化アルゴリズム(QAOA)の「ウォームスタート」変種を、非構造化クラスタリング問題に対するQAOAの標準実装と比較する。 最適化アルゴリズムを高速化するためのIBMの新しいQiskit Runtime APIのパフォーマンスも、最適化アルゴリズムの標準実装と比較して、スピードアップと相対的なパフォーマンスでテストされている。 ウォームスタートのQAOAは他の最適化アルゴリズムよりも優れているが、標準的なQAOAは最速である。 この研究は、ウォームスタートQAOAの二次プログラムを緩和するために非凸最適化器も使用した。

Quantum optimization algorithms can be used to recreate unsupervised learning clustering of data by mapping the problem to a graph optimization problem and finding the minimum energy for a MaxCut problem formulation. This research tests the "Warm Start" variant of Quantum Approximate Optimization Algorithm (QAOA) versus the standard implementation of QAOA for unstructured clustering problems. The performance for IBM's new Qiskit Runtime API for speeding up optimization algorithms is also tested in terms of speed up and relative performance compared to the standard implementation of optimization algorithms. Warm-start QAOA performs better than any other optimization algorithm, though standard QAOA runs the fastest. This research also used a non-convex optimizer to relax the quadratic program for the Warm-start QAOA.
翻訳日:2023-03-16 18:53:46 公開日:2021-08-30
# デコヒーレンスは観測を古典化するか?

Does Decoherence Make Observations Classical? ( http://arxiv.org/abs/2108.13428v1 )

ライセンス: Link先を確認
Don N. Page(参考訳) 多くの量子不確実性を直接観察することは、しばしばデコヒーレンスに起因する。 しかし、デコヒーレンスは完全な量子状態における量子の不確実性を減らすものではない。 観測における量子の不確実性を減少させるかどうかは、観測(とそれらの測度または確率)を量子状態から得るための未知の規則に依存する。 これらのポイントは、野球が時速100マイルでプランク運動量を持つ単純なおもちゃモデルによって示される。

The fact that we rarely directly observe much quantum uncertainty is often attributed to decoherence. However, decoherence does not reduce the quantum uncertainty in the full quantum state. Whether or not it reduces the quantum uncertainties in observations depends on the yet-unknown rules for getting observations (and their measures or `probabilities') from the quantum state. These points are illustrated by a simple toy model with a baseball at 100 miles per hour, which has the Planck momentum.
翻訳日:2023-03-16 18:53:33 公開日:2021-08-30
# 雑音多目的最適化のためのKNN平均化

KNN-Averaging for Noisy Multi-objective Optimisation ( http://arxiv.org/abs/2109.13104v1 )

ライセンス: Link先を確認
Stefan Klikovits and Paolo Arcaini(参考訳) 多目的最適化(multi-objective optimization)は、大きな探索空間を持つ複雑な問題の解を見つけるための一般的な手法である。 しかし、サイバーフィジカルシステムの台頭とともに、特定の構成に対する客観的な値が非決定論的であり、実行毎に異なる結果を生み出す、ノイズの多いフィットネス機能の新たな挑戦が生まれている。 これにより、確率的にサンプリングされた情報に基づく最適化プロセスが実現し、最終的には、偶発的に高い外れ値のノイズを持つフィットネス値のソリューションが好まれる。 結果として、サンプル値と期待できる客観的値の相違が大きいため、結果は不利になる。 本研究は,騒音自動運転システムの研究に動機付けられ,各ソリューションの繰り返し実行を必要とせず,ノイズ適合機能の効果を抑えるための研究結果を示す。 本手法では,kNN-Avg は溶液点の k-アネレスト近傍を同定し,その重み付き平均値を実際の試料適合の代役として用いる。 我々は,共通ベンチマーク問題に対するknn-avgの有効性を実証し,適合値が期待値に近い比較可能な解を生成できることを示した。

Multi-objective optimisation is a popular approach for finding solutions to complex problems with large search spaces that reliably yields good optimisation results. However, with the rise of cyber-physical systems, emerges a new challenge of noisy fitness functions, whose objective value for a given configuration is non-deterministic, producing varying results on each execution. This leads to an optimisation process that is based on stochastically sampled information, ultimately favouring solutions with fitness values that have co-incidentally high outlier noise. In turn, the results are unfaithful due to their large discrepancies between sampled and expectable objective values. Motivated by our work on noisy automated driving systems, we present the results of our ongoing research to counteract the effect of noisy fitness functions without requiring repeated executions of each solution. Our method kNN-Avg identifies the k-nearest neighbours of a solution point and uses the weighted average value as a surrogate for its actually sampled fitness. We demonstrate the viability of kNN-Avg on common benchmark problems and show that it produces comparably good solutions whose fitness values are closer to the expected value.
翻訳日:2023-03-16 18:44:36 公開日:2021-08-30
# デジタル・没入型文化体験支援サービス

A Service for Supporting Digital and Immersive Cultural Experiences ( http://arxiv.org/abs/2109.07900v1 )

ライセンス: Link先を確認
Karthik Vaidhyanathan, Antonio Bruno, Eleonora Mendola, Filippo Mignosi, Mahyar T. Moghaddam, Henry Muccini and Monica Nesi(参考訳) イタリアの文化遺産は通常、多くの観光客を惹きつけている。 しかし 支援の欠如は 一 利害関係の内容の特定 二 特定内容に関する情報を発見すること、及び 三 史跡内の航行の容易さ、訪問者の総合的な体験を妨げること。 そこで本研究では,VASARIプロジェクトの一環として開発されたDigital Object Space Managementサービスについて紹介する。 このサービスは、所定の文化遺産のデジタルツイン(3d可視化)を生成し、さらにナビゲーションとローカライゼーションのサポートを提供し、訪問者に没入的な文化体験を提供する。

Cultural heritage sites in Italy typically attract a large number of tourists every year. However, the lack of support for i) locating contents of interest; ii) discovering information on specific contents; and iii) ease of navigation within the heritage site; hinders the overall experience of the visitor. To this end, in this work, we present a Digital Object Space Management service developed as a part of the VASARI project. The service generates a digital twin (with 3D visualization) of a given cultural heritage site and further provides support for navigation and localization, thereby providing an immersive cultural experience to the visitor.
翻訳日:2023-03-16 18:44:15 公開日:2021-08-30
# 超知能の不適合性について

On the Unimportance of Superintelligence ( http://arxiv.org/abs/2109.07899v1 )

ライセンス: Link先を確認
John G. Sotos(参考訳) 人類は多くの存在の脅威に直面しているが、それらを軽減するための資源は限られている。 したがって、これらのリソースのデプロイ方法と時期を選択することは、運命的な決定である。 本稿では,超知能のリスクを軽減するために資源割当の優先順位を分析する。 第1部は、外部と無関係(非効率)な超知能は脅威を持たず、有害な超知能からの脅威は、核兵器やバイオテクノロジーなど、それが接続されている周辺システムから生じるものであることを観察する。 存在を脅かす周辺システムは既に存在し、人間によって制御されているため、超知能の最初の効果は、単に既存の人間由来のリスクを増加させるだけである。 この付加的リスクは定量化することができ、特定の仮定で文明を崩壊させる能力を持つ人間の数の2乗で減少することが示される。 第2部では、パンデミックが広まる有害な微生物を工学する技術をすでに持っている人が多いため、バイオテクノロジーは周辺システムの中で高いリスクをランク付けしている。 バイオメディカルとコンピューティングの進歩は、この脅威を広めるだろう。 一般に超知能でない''ソフトウェアは、この進歩の多くを後押しし、超知能による仮説上のリスクに先立ち、最高かつ最も差し迫った存在リスクの責任を負うソフトウェアとなる。 この分析は、周辺システムとサバントソフトウェアのリスクを軽減するために、リソースを優先的に適用すべきと結論づけている。 超知能に関する懸念は、最も二次的で、おそらくは超流動的である。

Humankind faces many existential threats, but has limited resources to mitigate them. Choosing how and when to deploy those resources is, therefore, a fateful decision. Here, I analyze the priority for allocating resources to mitigate the risk of superintelligences. Part I observes that a superintelligence unconnected to the outside world (de-efferented) carries no threat, and that any threat from a harmful superintelligence derives from the peripheral systems to which it is connected, e.g., nuclear weapons, biotechnology, etc. Because existentially-threatening peripheral systems already exist and are controlled by humans, the initial effects of a superintelligence would merely add to the existing human-derived risk. This additive risk can be quantified and, with specific assumptions, is shown to decrease with the square of the number of humans having the capability to collapse civilization. Part II proposes that biotechnology ranks high in risk among peripheral systems because, according to all indications, many humans already have the technological capability to engineer harmful microbes having pandemic spread. Progress in biomedicine and computing will proliferate this threat. ``Savant'' software that is not generally superintelligent will underpin much of this progress, thereby becoming the software responsible for the highest and most imminent existential risk -- ahead of hypothetical risk from superintelligences. The analysis concludes that resources should be preferentially applied to mitigating the risk of peripheral systems and savant software. Concerns about superintelligence are at most secondary, and possibly superfluous.
翻訳日:2023-03-16 18:44:07 公開日:2021-08-30
# 量子アイデンティティ、内容、文脈:古典論理から非古典論理へ

Quantum identity, content, and context: from classical to non-classical logic ( http://arxiv.org/abs/2108.13545v1 )

ライセンス: Link先を確認
J. Acacio de Barros, Federico Holik, and D\'ecio Krause(参考訳) 本稿では,量子特性の内容と文脈について論じる。 量子的性質が問題となる理由のいくつかの例を挙げる:それらは非自明な方法で文脈に依存する。 そして、この困難さを素粒子の区別不可能性に結びつける。 我々は、量子領域に古典的な恒等性理論を適用するのに、中核的で基本的な概念として認識できないとすれば、問題になるかもしれないと論じる。 したがって、そのような基本的な概念と区別不能を考えると、真面目に考えるならば、量子オブジェクトに標準論理を適用するべきではないということが示される。 その結果、この新しい数学がもたらす新しい側面と、量子世界のオントロジーと古典的極限に関連するいくつかの問題との関連性について議論する。 量子領域の古典論理を問う方法はいくつかあるが、我々のアプローチは異なる。 それは古典論理、すなわちアイデンティティの中核的な概念の1つである。 ですから私たちは,標準的な量子論理とは別のパラダイムです。

In this paper, we discuss content and context for quantum properties. We give some examples of why quantum properties are problematic: they depend on the context in a non-trivial way. We then connect this difficulty with properties to the indistinguishability of elementary particles. We argue that one could be in trouble in applying the classical theory of identity to the quantum domain if we take indiscernibility as a core and fundamental concept. Thus, in considering indistinguishability as such a fundamental notion, it implies, if taken earnestly, that one should not apply standard logic to quantum objects. Consequently, we end with a discussion about novel aspects this new mathematics brings and how it relates to some issues associated with the quantum world's ontology and the classical limit. We emphasize that, despite several different ways of questioning classical logic in the quantum domain, our approach is distinct. It involves one of the core concepts of classical logic, namely, identity. So, we are in a different paradigm from standard quantum logics.
翻訳日:2023-03-16 18:43:31 公開日:2021-08-30
# 2次元非分離超対称モースポテンシャルのコヒーレント状態

Coherent states of the two-dimensional non-separable supersymmetric Morse potential ( http://arxiv.org/abs/2108.13543v1 )

ライセンス: Link先を確認
James Moran, V\'eronique Hussin(参考訳) 超対称性は、解けないかもしれない量子力学系の状態とスペクトルに関する情報を抽出する技術である。 本稿では,初期分離モースハミルトニアンのために構築された非退化状態の超対称性を用いて,特異な非分離2次元モースポテンシャルに対するヨーフの状態集合を再構成する。 我々は一般化されたコヒーレント状態を定義し、それらの不確実性関係を計算し、パートナーハミルトニアンの特異性がコヒーレント状態波動関数の局所化に大きく影響することを発見した。

Supersymmetry is a technique that allows us to extract information about the states and spectra of quantum mechanical systems which may otherwise be unsolvable. In this paper we reconstruct Ioffe's set of states for the singular non-separable two-dimensional Morse potential using supersymmetry from a non-degenerate set of states constructed for the initial separable Morse Hamiltonian. We define generalised coherent states, compute their uncertainty relations, and we find that the singularity in the partner Hamiltonian significantly affects the localisation of the coherent state wavefunction.
翻訳日:2023-03-16 18:43:17 公開日:2021-08-30
# Nb超電導共振器におけるデコヒーレンス源のTOF-SIMS解析

TOF-SIMS Analysis of Decoherence Sources in Nb Superconducting Resonators ( http://arxiv.org/abs/2108.13539v1 )

ライセンス: Link先を確認
Akshay A. Murthy, Jae-Yel Lee, Cameron Kopas, Matthew J. Reagor, Anthony P. McFadden, David P. Pappas, Mattia Checchin, Anna Grassellino, Alexander Romanenko(参考訳) 超伝導量子ビットは、古典的計算では難解と考えられる複雑な計算問題に対処するための基礎的なプラットフォーム技術として登場してきた。 数百ドルのオーダーでコヒーレンス寿命を示すマルチ量子ビット設計を可能にする最近の進歩にもかかわらず、材料品質と界面構造はデバイス性能を阻害し続けている。 超伝導材料としてニオブがデプロイされると、薄膜と隣接する誘電体領域の2レベル系欠陥が確率ノイズを発生させ、低温動作温度で電磁エネルギーを放出する。 本研究では, 飛行時間型二次イオン質量分析法(tof-sims)を用いて, これらの複合系にこのような散逸機構を導入する際に果たす役割を解明する。 リゲッティ・コンピューティングと国立標準技術研究所で作製されたNb薄膜とトランスモン量子ビット構造を,処理条件や真空条件の微妙な変化により疑問視した。 nb膜がsi基板上にスパッタされると,様々な界面で酸化物およびシリサイド領域が生成される。 また, ニオブ水和物や炭化物などの不純物種が, その後のリソグラフィーパターン形成過程においてニオブ層に組み込まれていることも観察した。 これらの抵抗性化合物の形成はNb薄膜の超伝導特性に影響を及ぼす可能性が高い。 さらに, パターン化薄膜中に分布するハロゲン種の存在を観察した。 これらの構造におけるこのような不純物の源泉を仮定し、超伝導量子ビットをインテリジェントに製造し、前進するコヒーレンス時間を延長する。

Superconducting qubits have emerged as a potentially foundational platform technology for addressing complex computational problems deemed intractable with classical computing. Despite recent advances enabling multiqubit designs that exhibit coherence lifetimes on the order of hundreds of $\mu$s, material quality and interfacial structures continue to curb device performance. When niobium is deployed as the superconducting material, two-level system defects in the thin film and adjacent dielectric regions introduce stochastic noise and dissipate electromagnetic energy at the cryogenic operating temperatures. In this study, we utilize time-of-flight secondary ion mass spectrometry (TOF-SIMS) to understand the role specific fabrication procedures play in introducing such dissipation mechanisms in these complex systems. We interrogated Nb thin films and transmon qubit structures fabricated by Rigetti Computing and at the National Institute of Standards and Technology through slight variations in the processing and vacuum conditions. We find that when Nb film is sputtered onto the Si substrate, oxide and silicide regions are generated at various interfaces. We also observe that impurity species such as niobium hydrides and carbides are incorporated within the niobium layer during the subsequent lithographic patterning steps. The formation of these resistive compounds likely impact the superconducting properties of the Nb thin film. Additionally, we observe the presence of halogen species distributed throughout the patterned thin films. We conclude by hypothesizing the source of such impurities in these structures in an effort to intelligently fabricate superconducting qubits and extend coherence times moving forward.
翻訳日:2023-03-16 18:43:06 公開日:2021-08-30
# 二重スパース量子状態準備

Double sparse quantum state preparation ( http://arxiv.org/abs/2108.13527v1 )

ライセンス: Link先を確認
Tiago M.L. de Veras, Leon D. da Silva and Adenilton J. da Silva(参考訳) 量子デバイスにおける古典的データの初期化は多くの量子アルゴリズムにおいて重要なステップである。 測定とノイズのある操作の結果、いくつかのアルゴリズムは実行中に準備された状態を再起動する必要がある。 本稿では、計算コストO(kM)のCVO-QRAMと呼ばれる量子状態生成アルゴリズムを提案する。 提案アルゴリズムは、将来のNISQデバイスでスパース状態を生成する代替となる。

Initializing classical data in a quantum device is an essential step in many quantum algorithms. As a consequence of measurement and noisy operations, some algorithms need to reinitialize the prepared state several times during its execution. In this work, we propose a quantum state preparation algorithm called CVO-QRAM with computational cost O(kM), where M is the number of nonzero probability amplitudes and $k$ is the maximum number of bits with value 1 in the patterns to be stored. The proposed algorithm can be an alternative to create sparse states in future NISQ devices.
翻訳日:2023-03-16 18:42:40 公開日:2021-08-30
# 未知環境におけるナビゲーションのための高速かつ安全な軌道プランナー

FASTER: Fast and Safe Trajectory Planner for Navigation in Unknown Environments ( http://arxiv.org/abs/2001.04420v2 )

ライセンス: Link先を確認
Jesus Tordesillas, Brett T. Lopez, Michael Everett, and Jonathan P. How(参考訳) 未知環境におけるuavの高速軌道計画には、より詳細な情報が得られるように、迅速な反応時間を保証できるアルゴリズム技術が必要である。 自由既知の空間に「停止」条件を課すことで安全性を確保する標準的なアプローチは、特に世界の大部分が不明な状況において、車両の速度を著しく制限することができる。 さらに、通常軌道に課されるアドホックな時間と間隔の割当てスキームは、保存的かつ遅い軌道にもつながる。 本研究は、速度を犠牲にすることなく安全を確保するためのFASTER(Fast and Safe Trajectory Planner)を提案する。 FASTERは、ローカルプランナーが自由空間と未知空間の両方で最適化できるようにすることにより、高速な軌道を得る。 安全は、常にフリースペースで安全なバックアップ軌道を持つことによって保証される。 提案したMIQPの定式化により、解法は軌道間隔の割り当てを選択できる。 高速はシミュレーションと実際のハードウェアで広範囲にテストされ、最大速度7.8m/sの未知の環境で飛行し、スキッドステア地上ロボット(2m/s)の最大速度で実験を行う。

Planning high-speed trajectories for UAVs in unknown environments requires algorithmic techniques that enable fast reaction times to guarantee safety as more information about the environment becomes available. The standard approaches that ensure safety by enforcing a "stop" condition in the free-known space can severely limit the speed of the vehicle, especially in situations where much of the world is unknown. Moreover, the ad-hoc time and interval allocation scheme usually imposed on the trajectory also leads to conservative and slower trajectories. This work proposes FASTER (Fast and Safe Trajectory Planner) to ensure safety without sacrificing speed. FASTER obtains high-speed trajectories by enabling the local planner to optimize in both the free-known and unknown spaces. Safety is ensured by always having a safe back-up trajectory in the free-known space. The MIQP formulation proposed also allows the solver to choose the trajectory interval allocation. FASTER is tested extensively in simulation and in real hardware, showing flights in unknown cluttered environments with velocities up to 7.8m/s, and experiments at the maximum speed of a skid-steer ground robot (2m/s).
翻訳日:2023-01-13 05:14:14 公開日:2021-08-30
# テキスト単純化における文アライメントのためのニューラルCRFモデル

Neural CRF Model for Sentence Alignment in Text Simplification ( http://arxiv.org/abs/2005.02324v4 )

ライセンス: Link先を確認
Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu(参考訳) テキスト単純化システムの成功は、並列記事間の文の整列によって抽出される訓練コーパスにおける複素単純文対の品質と量に大きく依存する。 文のアライメントの質を評価するために、よく使われる2つのテキスト単純化コーパス、NewselaとWikipediaから、手動で注釈付き文アライメントデータセットを作成する。 本稿では,並列文書における文の逐次的性質を利用するだけでなく,意味的類似性を捉えるためにニューラルネットワークの文対モデルを用いる新しいニューラルネットワークcrfアライメントモデルを提案する。 実験により,提案手法は,前回の単言語文アライメントタスクにおいて,f1の5点以上で全ての作業に勝ることを実証した。 我々は,既存のデータセットよりもはるかに大きく,高品質な2つの新しいテキスト単純化データセットであるNewsela-AutoとWiki-Autoを構築するために,CRF整合器を適用した。 データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。

The success of a text simplification system heavily depends on the quality and quantity of complex-simple sentence pairs in the training corpus, which are extracted by aligning sentences between parallel articles. To evaluate and improve sentence alignment quality, we create two manually annotated sentence-aligned datasets from two commonly used text simplification corpora, Newsela and Wikipedia. We propose a novel neural CRF alignment model which not only leverages the sequential nature of sentences in parallel documents but also utilizes a neural sentence pair model to capture semantic similarity. Experiments demonstrate that our proposed approach outperforms all the previous work on monolingual sentence alignment task by more than 5 points in F1. We apply our CRF aligner to construct two new text simplification datasets, Newsela-Auto and Wiki-Auto, which are much larger and of better quality compared to the existing datasets. A Transformer-based seq2seq model trained on our datasets establishes a new state-of-the-art for text simplification in both automatic and human evaluation.
翻訳日:2022-12-06 14:08:48 公開日:2021-08-30
# 運動パターンに注目する:人間の軌道予測のための新しい畳み込み演算子を用いた時間CNN

Noticing Motion Patterns: Temporal CNN with a Novel Convolution Operator for Human Trajectory Prediction ( http://arxiv.org/abs/2007.00862v4 )

ライセンス: Link先を確認
Dapeng Zhao, Jean Oh(参考訳) 本稿では、社会パターン抽出畳み込み(Social-PEC)として知られる、逐次的軌跡データのパターンを学習、検出、抽出するための畳み込みニューラルネットワークに基づくアプローチを提案する。 人間の軌道予測問題に対する一連の実験は、我々のモデルが技術の状態と同等に動作し、場合によっては性能が向上していることを示している。 さらに重要なことに、提案されたアプローチは、以前のプール層の使用の難しさを明らかにし、意思決定プロセスを直感的に説明する方法を示している。

We propose a Convolutional Neural Network-based approach to learn, detect,and extract patterns in sequential trajectory data, known here as Social Pattern Extraction Convolution (Social-PEC). A set of experiments carried out on the human trajectory prediction problem shows that our model performs comparably to the state of the art and outperforms in some cases. More importantly,the proposed approach unveils the obscurity in the previous use of pooling layer, presenting a way to intuitively explain the decision-making process.
翻訳日:2022-11-14 14:35:42 公開日:2021-08-30
# ソースデータのないドメイン適応

Domain Adaptation without Source Data ( http://arxiv.org/abs/2007.01524v4 )

ライセンス: Link先を確認
Youngeun Kim, Donghyeon Cho, Kyeongtak Han, Priyadarshini Panda, Sungeun Hong(参考訳) ドメイン適応は、トレーニングフェーズ中にソースドメインとターゲットドメインからのサンプルが自由にアクセスできると仮定する。 しかし、そのような仮定は現実世界では不可能であり、特にソースドメインのラベルが識別子としてセンシティブな属性である場合、データプライバシの問題を引き起こす可能性がある。 センシティブな情報を含む可能性のあるソースデータにアクセスするのを避けるため、Source Data-Free Domain Adaptation (SFDA)を導入する。 私たちの重要なアイデアは、ソースドメインから事前学習したモデルを活用し、目標モデルを徐々に自己学習的に更新することです。 事前学習した音源モデルにより測定された自己エントロピーが低いターゲット試料を正しく分類する可能性が示唆された。 このことから,自己エントロピー基準を用いた信頼性サンプルを選択し,これらをクラスプロトタイプとして定義する。 次に、クラスプロトタイプとの類似度スコアに基づいて、ターゲットサンプルごとに擬似ラベルを割り当てる。 さらに,疑似ラベリングプロセスからの不確実性を低減するため,可変ハイパーパラメータを必要としないセットツーセット距離ベースのフィルタリングを提案する。 最後に、事前学習したソースモデルから正規化したフィルタ付き擬似ラベルを用いてターゲットモデルをトレーニングする。 驚いたことに、ラベル付きソースサンプルを直接使用せずに、PrDAはベンチマークデータセット上で従来のドメイン適応手法より優れています。 私たちのコードはhttps://github.com/youngryan 1993/SFDA-SourceFreeDAで公開されています。

Domain adaptation assumes that samples from source and target domains are freely accessible during a training phase. However, such an assumption is rarely plausible in the real-world and possibly causes data-privacy issues, especially when the label of the source domain can be a sensitive attribute as an identifier. To avoid accessing source data that may contain sensitive information, we introduce Source data-Free Domain Adaptation (SFDA). Our key idea is to leverage a pre-trained model from the source domain and progressively update the target model in a self-learning manner. We observe that target samples with lower self-entropy measured by the pre-trained source model are more likely to be classified correctly. From this, we select the reliable samples with the self-entropy criterion and define these as class prototypes. We then assign pseudo labels for every target sample based on the similarity score with class prototypes. Furthermore, to reduce the uncertainty from the pseudo labeling process, we propose set-to-set distance-based filtering which does not require any tunable hyperparameters. Finally, we train the target model with the filtered pseudo labels with regularization from the pre-trained source model. Surprisingly, without direct usage of labeled source samples, our PrDA outperforms conventional domain adaptation methods on benchmark datasets. Our code is publicly available at https://github.com/youngryan1993/SFDA-SourceFreeDA
翻訳日:2022-11-14 05:10:03 公開日:2021-08-30
# ベストファーストビームサーチ

Best-First Beam Search ( http://arxiv.org/abs/2007.03909v4 )

ライセンス: Link先を確認
Clara Meister, Tim Vieira, Ryan Cotterell(参考訳) 多くのnlpタスクのデコードには、完全出力空間を探索する問題はしばしば難解であり、多くの設定において実用的でないため、厳密な探索を近似する効果的なヒューリスティックアルゴリズムが必要である。 このジョブのデフォルトアルゴリズムはbeam searchである。 驚くべきことに、ビーム検索はnlpタスクの有益な検索バイアスのため、正確な推論よりも良い結果を返すことが多い。 本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。 提案手法では, スコアリング関数はシーケンス長において単調であると仮定し, 仮説の最終セットでは得られない仮説を安全にプルインすることができる。 我々は,長さ正規化や相互情報復号を含む,一般的な非単調スコアリング関数に対する効果的な単調近似を考案する。 最後に,下流部でも同様に有益な検索バイアスを持つが,少ない時間で動作可能な,最上位のビーム探索のメモリ削減型を提案する。

Decoding for many NLP tasks requires an effective heuristic algorithm for approximating exact search since the problem of searching the full output space is often intractable, or impractical in many settings. The default algorithm for this job is beam search -- a pruned version of breadth-first search. Quite surprisingly, beam search often returns better results than exact inference due to beneficial search bias for NLP tasks. In this work, we show that the standard implementation of beam search can be made up to 10x faster in practice. Our method assumes that the scoring function is monotonic in the sequence length, which allows us to safely prune hypotheses that cannot be in the final set of hypotheses early on. We devise effective monotonic approximations to popular nonmonontic scoring functions, including length normalization and mutual information decoding. Lastly, we propose a memory-reduced variant of Best-First Beam Search, which has a similar beneficial search bias in terms of downstream performance, but runs in a fraction of the time.
翻訳日:2022-11-12 13:22:49 公開日:2021-08-30
# Tacotron2を用いた音声合成

Audiovisual Speech Synthesis using Tacotron2 ( http://arxiv.org/abs/2008.00620v2 )

ライセンス: Link先を確認
Ahmed Hussen Abdelaziz, Anushree Prasanna Kumar, Chloe Seivwright, Gabriele Fanelli, Justin Binder, Yannis Stylianou, Sachin Kajarekar(参考訳) 聴覚音声合成は、音声および視覚音声のコヒーレンシーを最大化しながら、発話面を合成する問題である。 本稿では,3次元顔モデルのための2つの音声視覚音声合成システムを提案し,比較する。 最初のシステムはavtacotron2であり、tacotron2アーキテクチャに基づいたエンドツーエンドの音声合成システムである。 AVTacotron2は、文を表す音素の列を合成して、顔モデルの音響的特徴の列と対応するコントローラに変換する。 出力された音響特徴をwavernnに条件付けして音声波形を再構成し、出力された顔制御器を用いて対応する顔の映像を生成する。 第2の音声視覚音声合成システムはモジュールであり、従来のタコトロン2を用いて音声をテキストから合成する。 次に、再構成された音声信号を用いて、独立に訓練された音声対顔アニメーションニューラルネットワークを用いて、顔モデルの顔制御を駆動する。 さらに,感情音声生成に必要な韻律をエンコードした感情埋め込みに対するエンドツーエンドとモジュール型の両方のアプローチを条件とした。 そこで本研究では,本システムの性能を分析し,主観的評価テストを用いて真理映像と比較する。 エンド・ツー・エンドとモジュラー・システムは、プロが録音したビデオから生成された4.1のMOSと比較して、平均意見スコア(MOS)が4.1と3.9の人間に近い音声を合成することができる。 エンドツーエンドシステムは全体的な品質を向上するが、モジュラーアプローチはより柔軟であり、音響音声と視覚音声の合成の質は互いにほぼ独立している。

Audiovisual speech synthesis is the problem of synthesizing a talking face while maximizing the coherency of the acoustic and visual speech. In this paper, we propose and compare two audiovisual speech synthesis systems for 3D face models. The first system is the AVTacotron2, which is an end-to-end text-to-audiovisual speech synthesizer based on the Tacotron2 architecture. AVTacotron2 converts a sequence of phonemes representing the sentence to synthesize into a sequence of acoustic features and the corresponding controllers of a face model. The output acoustic features are used to condition a WaveRNN to reconstruct the speech waveform, and the output facial controllers are used to generate the corresponding video of the talking face. The second audiovisual speech synthesis system is modular, where acoustic speech is synthesized from text using the traditional Tacotron2. The reconstructed acoustic speech signal is then used to drive the facial controls of the face model using an independently trained audio-to-facial-animation neural network. We further condition both the end-to-end and modular approaches on emotion embeddings that encode the required prosody to generate emotional audiovisual speech. We analyze the performance of the two systems and compare them to the ground truth videos using subjective evaluation tests. The end-to-end and modular systems are able to synthesize close to human-like audiovisual speech with mean opinion scores (MOS) of 4.1 and 3.9, respectively, compared to a MOS of 4.1 for the ground truth generated from professionally recorded videos. While the end-to-end system gives a better overall quality, the modular approach is more flexible and the quality of acoustic speech and visual speech synthesis is almost independent of each other.
翻訳日:2022-11-03 06:58:35 公開日:2021-08-30
# 量子強化特徴空間における量子機械学習モデルの普遍近似特性

Universal Approximation Property of Quantum Machine Learning Models in Quantum-Enhanced Feature Spaces ( http://arxiv.org/abs/2009.00298v3 )

ライセンス: Link先を確認
Takahiro Goto, Quoc Hoan Tran, and Kohei Nakajima(参考訳) 古典データを量子状態に符号化することは、古典データを量子ヒルベルト空間にマッピングする量子特徴写像であると考えられている。 この特徴マップは、短期的な中間スケール量子コンピュータで実行される機械学習アルゴリズムに量子効果を組み込む機会を提供する。 重要なアイデアは、量子ヒルベルト空間を機械学習モデルにおける量子エンハンシング特徴空間として使うことである。 量子特徴マップは、特定の応用において線形分類モデルと組み合わせることでその能力を示したが、理論的な観点からの表現力は未だ不明である。 量子化特徴空間から誘導される機械学習モデルは、典型的な量子特徴写像の下で連続関数の普遍近似であることを示す。 また,解離領域の分類における量子特徴写像の能力についても検討する。 我々の研究は、量子特徴写像に基づく機械学習アルゴリズムが幅広い機械学習タスクを扱えるように、重要な理論的分析を可能にする。 これを踏まえて、より強力な表現力を持つ量子機械学習モデルを設計することができる。

Encoding classical data into quantum states is considered a quantum feature map to map classical data into a quantum Hilbert space. This feature map provides opportunities to incorporate quantum advantages into machine learning algorithms to be performed on near-term intermediate-scale quantum computers. The crucial idea is using the quantum Hilbert space as a quantum-enhanced feature space in machine learning models. While the quantum feature map has demonstrated its capability when combined with linear classification models in some specific applications, its expressive power from the theoretical perspective remains unknown. We prove that the machine learning models induced from the quantum-enhanced feature space are universal approximators of continuous functions under typical quantum feature maps. We also study the capability of quantum feature maps in the classification of disjoint regions. Our work enables an important theoretical analysis to ensure that machine learning algorithms based on quantum feature maps can handle a broad class of machine learning tasks. In light of this, one can design a quantum machine learning model with more powerful expressivity.
翻訳日:2022-10-23 00:52:22 公開日:2021-08-30
# 重みのスクイージング:知識伝達とモデル圧縮に対する再パラメータ化

Weight Squeezing: Reparameterization for Knowledge Transfer and Model Compression ( http://arxiv.org/abs/2010.06993v3 )

ライセンス: Link先を確認
Artem Chumachenko and Daniil Gavrilov and Nikita Balagansky and Pavel Kalaidin(参考訳) 本稿では,重みスクイージングと呼ばれる知識伝達とモデル圧縮を同時に行う新しい手法を提案する。 本手法では,教師モデルからの知識伝達を,その重みからより小さな学生モデル重みへのマッピングを学習することで行う。 bert-mediumモデルに基づく事前学習されたテキスト分類モデルに重みスクイージングを適用し,glueマルチタスクベンチマークにおいて,様々な知識伝達法とモデル圧縮法と比較した。 本手法は, 学習モデルの学習方法に比べて有意に高速でありながら, 優れた結果をもたらすことを見出した。 我々はまた、BERT-Mediumモデルの微調整とBERT-Base重みからの学習マッピングを組み合わせたGated Weight Squeezingと呼ばれるウェイト・スクイージングを提案した。 Gated Weight Squeezingによる微調整は、BERT-Mediumモデルと他の同時SoTAアプローチの微調整に優れ、実装が容易であることを示した。

In this work, we present a novel approach for simultaneous knowledge transfer and model compression called Weight Squeezing. With this method, we perform knowledge transfer from a teacher model by learning the mapping from its weights to smaller student model weights. We applied Weight Squeezing to a pre-trained text classification model based on BERT-Medium model and compared our method to various other knowledge transfer and model compression methods on GLUE multitask benchmark. We observed that our approach produces better results while being significantly faster than other methods for training student models. We also proposed a variant of Weight Squeezing called Gated Weight Squeezing, for which we combined fine-tuning of BERT-Medium model and learning mapping from BERT-Base weights. We showed that fine-tuning with Gated Weight Squeezing outperforms plain fine-tuning of BERT-Medium model as well as other concurrent SoTA approaches while much being easier to implement.
翻訳日:2022-10-07 12:17:06 公開日:2021-08-30
# 計算可能性論理CL2によるエージェントベースシステムの実装

Implementing Agent-Based Systems via Computability Logic CL2 ( http://arxiv.org/abs/2010.08925v3 )

ライセンス: Link先を確認
Keehang Kwon(参考訳) 計算可能性論理(CoL)は強力な計算モデルである。 本稿では,リソース(例えば顧客)が関与するマルチエージェントプログラミングモデルに対して,CoLが自然にサポートすることを示す。 具体的には、CoL(CL2)に基づくStarbucksの実装について議論する。

Computability logic(CoL) is a powerful computational model. In this paper, we show that CoL naturally supports multi-agent programming models where resources (coffee for example) are involved. To be specific, we discuss an implementation of the Starbucks based on CoL (CL2 to be exact).
翻訳日:2022-10-06 04:33:49 公開日:2021-08-30
# SlimIPL: 言語モデルなしイテレーティブな擬似ラベル

SlimIPL: Language-Model-Free Iterative Pseudo-Labeling ( http://arxiv.org/abs/2010.11524v5 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Qiantong Xu, Jacob Kahn, Gabriel Synnaeve, Ronan Collobert(参考訳) 近年,コネクショニスト時間分類(CTC)とシーケンス・ツー・シーケンス(Sequence-to-Sequence,seq2seq)を併用した半教師付きモデルに対する擬似ラベルの有効性が実証されている。 擬似ラベルを用いて1つのモデルを連続的に訓練する反復擬似ラベルラベル (IPL) は, ASRの性能向上を図っている。 モデルが学習するにつれて、言語モデル無しで、ハードラベル(最も可能性の高いトークン)で反復的に書き起こしを再生成することを提案する。 我々は、このアプローチをLanguage-Model-Free IPL (slimIPL)と呼び、CTCベースのモデルで低リソース設定をトレーニングする。 slimiplは擬似ラベル用の動的キャッシュを備えており、relabelingハイパーパラメータの変更に対する感度が低下し、トレーニング安定性が向上する。 slimIPLは高効率で、他の最先端の半自己管理手法よりも3.5-4倍少ない計算資源を必要とする。 ラベル付きオーディオが10時間しか持たないSlimIPLは、セルフ教師付きアプローチと競合し、テスト時間と擬似ラベル生成の両方で言語モデルを用いることなく、100時間ラベル付きオーディオと最先端の競合する。

Recent results in end-to-end automatic speech recognition have demonstrated the efficacy of pseudo-labeling for semi-supervised models trained both with Connectionist Temporal Classification (CTC) and Sequence-to-Sequence (seq2seq) losses. Iterative Pseudo-Labeling (IPL), which continuously trains a single model using pseudo-labels iteratively re-generated as the model learns, has been shown to further improve performance in ASR. We improve upon the IPL algorithm: as the model learns, we propose to iteratively re-generate transcriptions with hard labels (the most probable tokens), that is, without a language model. We call this approach Language-Model-Free IPL (slimIPL) and give a resultant training setup for low-resource settings with CTC-based models. slimIPL features a dynamic cache for pseudo-labels which reduces sensitivity to changes in relabeling hyperparameters and results in improves training stability. slimIPL is also highly-efficient and requires 3.5-4x fewer computational resources to converge than other state-of-the-art semi/self-supervised approaches. With only 10 hours of labeled audio, slimIPL is competitive with self-supervised approaches, and is state-of-the-art with 100 hours of labeled audio without the use of a language model both at test time and during pseudo-label generation.
翻訳日:2022-10-04 05:13:27 公開日:2021-08-30
# 3次元頭部モデルを用いた電気インピーダンストモグラフィーにおける脳卒中分類のためのニューラルネットワーク

Neural networks for classification of strokes in electrical impedance tomography on a 3D head model ( http://arxiv.org/abs/2011.02852v2 )

ライセンス: Link先を確認
Valentina Candiani and Matteo Santacesaria(参考訳) 3次元(3次元)電気インピーダンストモグラフィ(eit)による脳出血検出の問題点について検討した。 これは、EITがポータブルかつ迅速な診断を提供する緊急治療を必要とする状態である。 出血性脳卒中と脳梗塞の分類には,完全接続型と畳み込み型という2つのニューラルネットワークアーキテクチャを用いる。 ネットワークは、3層構造を持つリアルヘッド上で、完全な電極モデルで生成された合成電極測定のサンプルが40,000ドルのデータセットでトレーニングされる。 頭部解剖, 層, 電極位置, 測定ノイズ, 伝導度値の変化を検討した。 次に、より複雑なストロークモデリング(異なる形状と体積)、高レベルのノイズ、異なる量の電極のずれといった、見えないEITデータのデータセット上でネットワークをテストする。 ほとんどのテストデータセットでは、完全に接続されたニューラルネットワークで平均精度が$\geq 90\%であり、畳み込みは平均精度$\geq 80\%$である。 単純なニューラルネットワークアーキテクチャを使用しても、結果は非常に有望で、実際のファントムと最終的にヒト患者に対するeitベースの分類手法の適用を動機付けている。

We consider the problem of the detection of brain hemorrhages from three dimensional (3D) electrical impedance tomography (EIT) measurements. This is a condition requiring urgent treatment for which EIT might provide a portable and quick diagnosis. We employ two neural network architectures -- a fully connected and a convolutional one -- for the classification of hemorrhagic and ischemic strokes. The networks are trained on a dataset with $40\,000$ samples of synthetic electrode measurements generated with the complete electrode model on realistic heads with a 3-layer structure. We consider changes in head anatomy and layers, electrode position, measurement noise and conductivity values. We then test the networks on several datasets of unseen EIT data, with more complex stroke modeling (different shapes and volumes), higher levels of noise and different amounts of electrode misplacement. On most test datasets we achieve $\geq 90\%$ average accuracy with fully connected neural networks, while the convolutional ones display an average accuracy $\geq 80\%$. Despite the use of simple neural network architectures, the results obtained are very promising and motivate the applications of EIT-based classification methods on real phantoms and ultimately on human patients.
翻訳日:2022-09-29 13:00:09 公開日:2021-08-30
# 抽象要約における幻覚的実体の事実性の検討

Inspecting the Factuality of Hallucinated Entities in Abstractive Summarization ( http://arxiv.org/abs/2109.09784v1 )

ライセンス: Link先を確認
Meng Cao, Yue Dong and Jackie Chi Kit Cheung(参考訳) 最先端の抽象的要約システムは、しばしば 'emph{hallucinations}; すなわち、ソーステキストから直接推論できないコンテンツを生成する。 誤認識されているにもかかわらず、幻覚の内容の多くは世界知識(事実幻覚)と一致している。 これらの事実幻覚を要約に含めることは、追加の背景情報を提供するのに有用である。 本研究では,実体の非事実幻覚から事実を分離する新たな検出手法を提案する。 本手法は,事前に訓練されたマスク付き言語モデルと微調整されたマスク付き言語モデルに基づいて,先行確率と後続確率を推定する。 実験結果から,本手法は精度とF1スコアの両方において3つの強い基準線を著しく上回り,事実性分類タスクにおける人間の判断と強い相関関係があることが示唆された。 さらに,このアプローチは,特定の幻覚が要約者の事前学習や微調整のステップによって引き起こされるかを知ることができる。

State-of-the-art abstractive summarization systems often generate \emph{hallucinations}; i.e., content that is not directly inferable from the source text. Despite being assumed incorrect, many of the hallucinated contents are consistent with world knowledge (factual hallucinations). Including these factual hallucinations into a summary can be beneficial in providing additional background information. In this work, we propose a novel detection approach that separates factual from non-factual hallucinations of entities. Our method is based on an entity's prior and posterior probabilities according to pre-trained and finetuned masked language models, respectively. Empirical results suggest that our method vastly outperforms three strong baselines in both accuracy and F1 scores and has a strong correlation with human judgments on factuality classification tasks. Furthermore, our approach can provide insight into whether a particular hallucination is caused by the summarizer's pre-training or fine-tuning step.
翻訳日:2021-10-03 10:37:18 公開日:2021-08-30
# サイバーセキュリティのための強化機械学習トピック分類手法

An Enhanced Machine Learning Topic Classification Methodology for Cybersecurity ( http://arxiv.org/abs/2109.02473v1 )

ライセンス: Link先を確認
Elijah Pelofske, Lorie M. Liebrock, Vincent Urias(参考訳) 本研究では,インターネット上の3つのテキストソース(reddit, stackexchange, arxiv)のユーザ定義ラベルを用いて,21種類の機械学習モデルを学習し,サイバーセキュリティの議論を自然テキストで検出するトピック分類タスクを行う。 クロス検証実験において,21モデル各々の偽陽性率と偽陰性率を解析した。 次に、サイバーセキュリティ関連テキストを検出する決定機構として、21のトレーニングされた機械学習モデルの多数決を取り入れたサイバーセキュリティトピック分類(ctc)ツールを提案する。 また、CTCツールの過半数投票機構は、21種類のモデルの平均値よりも、偽陰性率と偽陽性率を低くすることを示した。 CTCツールは、何十万ものドキュメントにスケーラブルで、時間順にウォールクロックがあることを示している。

In this research, we use user defined labels from three internet text sources (Reddit, Stackexchange, Arxiv) to train 21 different machine learning models for the topic classification task of detecting cybersecurity discussions in natural text. We analyze the false positive and false negative rates of each of the 21 model's in a cross validation experiment. Then we present a Cybersecurity Topic Classification (CTC) tool, which takes the majority vote of the 21 trained machine learning models as the decision mechanism for detecting cybersecurity related text. We also show that the majority vote mechanism of the CTC tool provides lower false negative and false positive rates on average than any of the 21 individual models. We show that the CTC tool is scalable to the hundreds of thousands of documents with a wall clock time on the order of hours.
翻訳日:2021-09-12 10:56:59 公開日:2021-08-30
# (参考訳) 自動音声スコアリングのための話者条件階層モデル

Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring ( http://arxiv.org/abs/2109.00928v1 )

ライセンス: CC BY 4.0
Yaman Kumar Singla, Avykat Gupta, Shaurya Bagga, Changyou Chen, Balaji Krishnamurthy, Rajiv Ratn Shah(参考訳) 自動発声スコアリング(automatic speech scoring、ass)は、言語における候補の発話能力の評価をコンピュータで支援する手法である。 ASSシステムは、オープン文法、可変発音、非構造化または半構造化コンテンツなど、多くの課題に直面している。 最近のディープラーニングアプローチは、この領域でいくつかの約束を示している。 しかし、これらのアプローチのほとんどは単一の音声から特徴を抽出することに集中しており、そのような複雑なタスクをモデル化するために必要な話者固有のコンテキストが欠如している。 本稿では,非ネイティブasのための新しいディープラーニング手法である話者条件階層モデリングを提案する。 提案手法では, 口腔習熟度試験が候補に対して複数の反応を評価できるという利点を生かした。 これらの応答からコンテキストベクトルを抽出し、ネットワークに追加の話者固有のコンテキストとして与えて、特定の応答をスコアします。 このようなモデリングによってモデルの平均性能が6.92%向上する(最大は12.86%、最小は4.51%)。 さらに、ASSの問題を解決する上で、この追加の文脈の重要性に関する量的および質的な洞察を示す。

Automatic Speech Scoring (ASS) is the computer-assisted evaluation of a candidate's speaking proficiency in a language. ASS systems face many challenges like open grammar, variable pronunciations, and unstructured or semi-structured content. Recent deep learning approaches have shown some promise in this domain. However, most of these approaches focus on extracting features from a single audio, making them suffer from the lack of speaker-specific context required to model such a complex task. We propose a novel deep learning technique for non-native ASS, called speaker-conditioned hierarchical modeling. In our technique, we take advantage of the fact that oral proficiency tests rate multiple responses for a candidate. We extract context vectors from these responses and feed them as additional speaker-specific context to our network to score a particular response. We compare our technique with strong baselines and find that such modeling improves the model's average performance by 6.92% (maximum = 12.86%, minimum = 4.51%). We further show both quantitative and qualitative insights into the importance of this additional context in solving the problem of ASS.
翻訳日:2021-09-04 12:52:14 公開日:2021-08-30
# (参考訳) カリフォルニア大学サンフランシスコ校術前びまん性グリオーマ(ucsf-pdgm)mriデータセット

The University of California San Francisco Preoperative Diffuse Glioma (UCSF-PDGM) MRI Dataset ( http://arxiv.org/abs/2109.00356v1 )

ライセンス: CC BY 4.0
Evan Calabrese, Javier Villanueva-Meyer, Jeffrey Rudie, Andreas Rauschecker, Ujjwal Baid, Spyridon Bakas, John Mongan, Christopher Hess, Soonmee Cha(参考訳) ここではカリフォルニア大学サンフランシスコ校のDiffuse Glioma MRI(UCSF-PDGM)データセットを紹介する。 UCSF-PDGMデータセットは、主に3Dイメージングを特徴とする標準化された3テスラ脳腫瘍MRIプロトコルで画像化された、病理組織学的に改善されたびまん性グリオーマを有する患者500人を含む。 また、このデータセットには、すべての症例に対するisocitrate dehydrogenase(IDH)変異状況と、WHOグレードIIIおよびIVグリオーマに対するO6-methylguanine-DNAメチルトランスフェラーゼ(MGMT)プロモーターメチル化状態も含まれている。 UCSF-PDGMは、世界中の研究者がこれらのデータを使用して、拡散グリオーマのためのAIアプリケーションのバウンダリを押し続けることを期待して、一般公開されている。

Here we present the University of California San Francisco Preoperative Diffuse Glioma MRI (UCSF-PDGM) dataset. The UCSF-PDGM dataset includes 500 subjects with histopathologically-proven diffuse gliomas who were imaged with a standardized 3 Tesla preoperative brain tumor MRI protocol featuring predominantly 3D imaging, as well as advanced diffusion and perfusion imaging techniques. The dataset also includes isocitrate dehydrogenase (IDH) mutation status for all cases and O6-methylguanine-DNA methyltransferase (MGMT) promotor methylation status for World Health Organization (WHO) grade III and IV gliomas. The UCSF-PDGM has been made publicly available in the hopes that researchers around the world will use these data to continue to push the boundaries of AI applications for diffuse gliomas.
翻訳日:2021-09-02 21:01:29 公開日:2021-08-30
# (参考訳) 自己監督型埋め込みによる敵攻撃の検出と分類

Sample Efficient Detection and Classification of Adversarial Attacks via Self-Supervised Embeddings ( http://arxiv.org/abs/2108.13797v1 )

ライセンス: CC BY 4.0
Mazda Moayeri and Soheil Feizi(参考訳) 深層モデルの敵対的堅牢性は、現実世界の環境で安全な配置を確保する上で重要であるが、現代の防御のほとんどはスコープが狭く、コストがかかる。 本稿では,事前学習された自己教師付きエンコーダからの埋め込みに基づく線形モデルに基づいて,敵の攻撃を検知し,それぞれの脅威モデルに分類する自己教師付き手法を提案する。 実験では、SimCLRエンコーダを使用し、SimCLR埋め込み距離が人間の知覚可能性のよいプロキシであることを示し、同時に多くの脅威モデルをカプセル化できるようにする。 我々は,SimCLRエンコーダを用いて,L_pや非L_p回避攻撃,データ中毒など,さまざまな種類の敵攻撃を捕捉・分類するので,SimCatと呼ぶ。 線形分類器の単純な性質は,時間とサンプルの複雑さを両立させる。 例えば、SVHNでは、PGD-L_inf攻撃で計算された5対のクリーンな対対と逆の例を使用して、SimCatの検出精度は85%以上である。 さらに、imagenetでは、各脅威モデルからわずか25の例を使用して、pgd-l_2、pgd-l_inf、cw-l_2、ppgd、lpa、stadv、recolor、jpeg-l_infの8種類の攻撃タイプを40%以上の精度で分類することができる。 STL10データでは, BP, CP, FC, CLBD, HTBDなどの毒素攻撃に対する防御としてSimCatを用い, 20種類の総毒素をトレーニングに使用しながら, 成功率を半減させた。 検知器は、目に見えない脅威モデルによく当てはまる。 最後に,アダプティブアタックにおける検出手法の性能について検討し,その頑健性をさらに高めるために,攻撃訓練を行った。

Adversarial robustness of deep models is pivotal in ensuring safe deployment in real world settings, but most modern defenses have narrow scope and expensive costs. In this paper, we propose a self-supervised method to detect adversarial attacks and classify them to their respective threat models, based on a linear model operating on the embeddings from a pre-trained self-supervised encoder. We use a SimCLR encoder in our experiments, since we show the SimCLR embedding distance is a good proxy for human perceptibility, enabling it to encapsulate many threat models at once. We call our method SimCat since it uses SimCLR encoder to catch and categorize various types of adversarial attacks, including L_p and non-L_p evasion attacks, as well as data poisonings. The simple nature of a linear classifier makes our method efficient in both time and sample complexity. For example, on SVHN, using only five pairs of clean and adversarial examples computed with a PGD-L_inf attack, SimCat's detection accuracy is over 85%. Moreover, on ImageNet, using only 25 examples from each threat model, SimCat can classify eight different attack types such as PGD-L_2, PGD-L_inf, CW-L_2, PPGD, LPA, StAdv, ReColor, and JPEG-L_inf, with over 40% accuracy. On STL10 data, we apply SimCat as a defense against poisoning attacks, such as BP, CP, FC, CLBD, HTBD, halving the success rate while using only twenty total poisons for training. We find that the detectors generalize well to unseen threat models. Lastly, we investigate the performance of our detection method under adaptive attacks and further boost its robustness against such attacks via adversarial training.
翻訳日:2021-09-02 06:49:20 公開日:2021-08-30
# (参考訳) フィードバックアライメントアルゴリズムの精度とロバスト性のベンチマーク

Benchmarking the Accuracy and Robustness of Feedback Alignment Algorithms ( http://arxiv.org/abs/2108.13446v1 )

ライセンス: CC BY-SA 4.0
Albert Jim\'enez Sanfiz, Mohamed Akrout(参考訳) バックプロパゲーションは、単純性、効率性、高い収束率のため、ディープニューラルネットワークをトレーニングするためのデフォルトアルゴリズムである。 しかし、その要求は人間の脳に実装することは不可能である。 近年,より生物学的に妥当な学習方法が提案されている。 これらの手法のいくつかは、バックプロパゲーションの精度にマッチし、また、特別なハードウェア(ASICなど)での高速なトレーニングや、敵攻撃に対する高い堅牢性など、その他の付加的な利点を提供することができる。 この分野への関心は高まっているが、オープンソースライブラリやツールキットが研究とベンチマークアルゴリズムを育む必要がある。 本稿では,生物を動機づけたニューラルネットワークの作成,トレーニング,ベンチマークを行うソフトウェアフレームワークであるBioTorchを紹介する。 さらに,本論文で提案するフィードバックアライメント手法の性能について検討し,前後の重み付け初期化とオプティマイザ選択の重要性を明らかにした。 最後に、最先端の白と黒の箱攻撃に対するこれらの手法に関する新しい堅牢性研究を提供する。

Backpropagation is the default algorithm for training deep neural networks due to its simplicity, efficiency and high convergence rate. However, its requirements make it impossible to be implemented in a human brain. In recent years, more biologically plausible learning methods have been proposed. Some of these methods can match backpropagation accuracy, and simultaneously provide other extra benefits such as faster training on specialized hardware (e.g., ASICs) or higher robustness against adversarial attacks. While the interest in the field is growing, there is a necessity for open-source libraries and toolkits to foster research and benchmark algorithms. In this paper, we present BioTorch, a software framework to create, train, and benchmark biologically motivated neural networks. In addition, we investigate the performance of several feedback alignment methods proposed in the literature, thereby unveiling the importance of the forward and backward weight initialization and optimizer choice. Finally, we provide a novel robustness study of these methods against state-of-the-art white and black-box adversarial attacks.
翻訳日:2021-09-02 06:48:03 公開日:2021-08-30
# (参考訳) Pseudo Relevance FeedbackによるDense Retrievalのクエリ表現の改善

Improving Query Representations for Dense Retrieval with Pseudo Relevance Feedback ( http://arxiv.org/abs/2108.13454v1 )

ライセンス: CC BY 4.0
HongChien Yu, Chenyan Xiong, Jamie Callan(参考訳) デンス検索システムは,クエリを文書にマッチさせるため,埋め込み表現と単純な類似度指標を用いて第1段階の検索を行う。 その有効性は、クエリとドキュメントのセマンティクスをキャプチャするためのエンコード埋め込みに依存し、検索クエリの短さとあいまいさのために難しい課題である。 本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。 ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。 オーバーヘッドを減らすためにドキュメントインデックスも変更しない。 ANCE-PRFは、複数のデータセット上で、anceや他の最近の高密度検索システムよりも大幅に優れている。 PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。

Dense retrieval systems conduct first-stage retrieval using embedded representations and simple similarity metrics to match a query to documents. Its effectiveness depends on encoded embeddings to capture the semantics of queries and documents, a challenging task due to the shortness and ambiguity of search queries. This paper proposes ANCE-PRF, a new query encoder that uses pseudo relevance feedback (PRF) to improve query representations for dense retrieval. ANCE-PRF uses a BERT encoder that consumes the query and the top retrieved documents from a dense retrieval model, ANCE, and it learns to produce better query embeddings directly from relevance labels. It also keeps the document index unchanged to reduce overhead. ANCE-PRF significantly outperforms ANCE and other recent dense retrieval systems on several datasets. Analysis shows that the PRF encoder effectively captures the relevant and complementary information from PRF documents, while ignoring the noise with its learned attention mechanism.
翻訳日:2021-09-02 06:31:43 公開日:2021-08-30
# (参考訳) 深層学習手法を用いた医療における時系列予測

Time Series Prediction using Deep Learning Methods in Healthcare ( http://arxiv.org/abs/2108.13461v1 )

ライセンス: CC0 1.0
Mohammad Amin Morid, Olivia R. Liu Sheng, Joseph Dunbar(参考訳) 従来の機械学習手法は、医療予測分析タスクを扱う上で2つの大きな課題に直面している。 第一に、医療データの高次元的な性質は、新しいタスクごとに適切な機能のセットを選択するために、労働集約的で時間を要する。 第二に、これらの手法は、医療イベントとその依存関係の時間的パターンを適切に活用できない患者データのシーケンシャルな性質を捉える機能工学に依存している。 近年の深層学習手法は,医療データの高次元的・時間的課題に対処することで,様々な医療予測タスクに有望な性能を示した。 これらの方法は、重要な因子(例えば、医療概念や患者)の有用な表現と、その相互作用を高次元の生(または最小限に処理された)医療データから学習することができる。 本稿では,患者時系列データを活用するための予測モデルとしてディープラーニングを利用する研究を,方法論的観点から体系的にレビューした。 関連する研究を特定するため、2021年2月7日までにMEDLINE, IEEE, Scopus, ACMデジタルライブラリを検索した。 研究者らは、ディープラーニングモデル、バリューハンドリングの欠如、不規則処理、患者表現、静的データインクルージョン、注意機構、解釈、医療オントロジーの統合、学習戦略、スケーラビリティの10の研究ストリームにおいて、ディープ時系列予測の文献に寄与した。 本研究は、これらの文献の流れからの研究知見を要約し、いくつかの重要な研究ギャップを特定し、患者時系列データにおける深層学習の今後の研究機会を提案する。

Traditional machine learning methods face two main challenges in dealing with healthcare predictive analytics tasks. First, the high-dimensional nature of healthcare data needs labor-intensive and time-consuming processes to select an appropriate set of features for each new task. Secondly, these methods depend on feature engineering to capture the sequential nature of patient data, which may not adequately leverage the temporal patterns of the medical events and their dependencies. Recent deep learning methods have shown promising performance for various healthcare prediction tasks by addressing the high-dimensional and temporal challenges of medical data. These methods can learn useful representations of key factors (e.g., medical concepts or patients) and their interactions from high-dimensional raw (or minimally-processed) healthcare data. In this paper we systemically reviewed studies focused on using deep learning as the prediction model to leverage patient time series data for a healthcare prediction task from methodological perspective. To identify relevant studies, MEDLINE, IEEE, Scopus and ACM digital library were searched for studies published up to February 7th 2021. We found that researchers have contributed to deep time series prediction literature in ten research streams: deep learning models, missing value handling, irregularity handling, patient representation, static data inclusion, attention mechanisms, interpretation, incorporating medical ontologies, learning strategies, and scalability. This study summarizes research insights from these literature streams, identifies several critical research gaps, and suggests future research opportunities for deep learning in patient time series data.
翻訳日:2021-09-02 06:21:24 公開日:2021-08-30
# (参考訳) 低炭素コンピュータビジョンのための全サイクルエネルギー消費ベンチマーク

Full-Cycle Energy Consumption Benchmark for Low-Carbon Computer Vision ( http://arxiv.org/abs/2108.13465v1 )

ライセンス: CC BY 4.0
Bo Li, Xinyang Jiang, Donglin Bai, Yuge Zhang, Ningxin Zheng, Xuanyi Dong, Lu Liu, Yuqing Yang, Dongsheng Li(参考訳) 深層学習モデルのエネルギー消費は呼吸速度で増加しており、地球温暖化や気候変動の文脈における炭素中立性に対する潜在的な負の影響により懸念が高まる。 モデル圧縮のような効率的なディープラーニング技術の進歩により、研究者はより少ないパラメータと少ないレイテンシを持つ効率的なモデルを得ることができる。 しかし、既存の効率的なディープラーニング手法のほとんどは、エネルギー消費をパフォーマンス指標として明示的に考慮していない。 さらに、既存の手法は結果の効率的モデルの推論コストに主にフォーカスするが、アルゴリズムのライフサイクル全体を通して顕著なエネルギー消費を無視する。 本稿では,効率の良いコンピュータビジョンモデルのための,最初の大規模エネルギー消費ベンチマークを提案し,モデル使用強度の異なるフルサイクルエネルギー消費を明示的に評価するための新しい指標を提案する。 このベンチマークは、さまざまなモデル利用シナリオで効率的なディープラーニングアルゴリズムを選択する際の、低炭素排出に対する洞察を提供する。

The energy consumption of deep learning models is increasing at a breathtaking rate, which raises concerns due to potential negative effects on carbon neutrality in the context of global warming and climate change. With the progress of efficient deep learning techniques, e.g., model compression, researchers can obtain efficient models with fewer parameters and smaller latency. However, most of the existing efficient deep learning methods do not explicitly consider energy consumption as a key performance indicator. Furthermore, existing methods mostly focus on the inference costs of the resulting efficient models, but neglect the notable energy consumption throughout the entire life cycle of the algorithm. In this paper, we present the first large-scale energy consumption benchmark for efficient computer vision models, where a new metric is proposed to explicitly evaluate the full-cycle energy consumption under different model usage intensity. The benchmark can provide insights for low carbon emission when selecting efficient deep learning algorithms in different model usage scenarios.
翻訳日:2021-09-02 06:20:25 公開日:2021-08-30
# (参考訳) ConVIScope: 患者の会話を探索するビジュアル分析

ConVIScope: Visual Analytics for Exploring Patient Conversations ( http://arxiv.org/abs/2108.13514v1 )

ライセンス: CC BY 4.0
Raymond Li (1), Enamul Hoque (2), Giuseppe Carenini (1), Richard Lester (3), Raymond Chau (3) ((1) Department of Computer Science, University of British Columbia, (2) School of Information Technology, York University, (3) Department of Medicine, University of British Columbia)(参考訳) モバイル健康のためのテキストメッセージングの普及は、医療専門家にとって非常に価値のある患者と医師の会話を大量に生み出している。 本稿では,対話型ビジュアライゼーションと自然言語処理を密に統合した視覚テキスト分析システムConVIScopeについて述べる。 ConVIScopeは、ユーザー中心の反復設計の後、医療専門家と共同で開発された。 6つのドメインの専門家によるケーススタディでは、ConVIScopeの潜在的有用性を示し、さらなる発展のための教訓を明らかにしている。

The proliferation of text messaging for mobile health is generating a large amount of patient-doctor conversations that can be extremely valuable to health care professionals. We present ConVIScope, a visual text analytic system that tightly integrates interactive visualization with natural language processing in analyzing patient-doctor conversations. ConVIScope was developed in collaboration with healthcare professionals following a user-centered iterative design. Case studies with six domain experts suggest the potential utility of ConVIScope and reveal lessons for further developments.
翻訳日:2021-09-02 06:05:04 公開日:2021-08-30
# (参考訳) 強化学習による量子熱機械の最適サイクルの同定

Identifying optimal cycles in quantum thermal machines with reinforcement-learning ( http://arxiv.org/abs/2108.13525v1 )

ライセンス: CC BY 4.0
Paolo Andrea Erdman, Frank No\'e(参考訳) オープン量子システムの最適制御は難しい課題であるが、既存の量子情報処理技術を改善する上で重要な役割を果たしている。 本稿では,非平衡な量子熱エンジンと冷凍機のパワーを最大化する最適熱力学サイクルを発見するための強化学習に基づく一般的なフレームワークを紹介する。 We apply our method, based on the soft actor-critic algorithm, to three systems: a benchmark two-level system heat engine, where we find the optimal known cycle; an experimentally realistic refrigerator based on a superconducting qubit that generates coherence, where we find a non-intuitive control sequence that outperform previous cycles proposed in literature; a heat engine based on a quantum harmonic oscillator, where we find a cycle with an elaborate structure that outperforms the optimized Otto cycle. そして、最大電力で対応する効率を評価する。

The optimal control of open quantum systems is a challenging task but has a key role in improving existing quantum information processing technologies. We introduce a general framework based on Reinforcement Learning to discover optimal thermodynamic cycles that maximize the power of out-of-equilibrium quantum heat engines and refrigerators. We apply our method, based on the soft actor-critic algorithm, to three systems: a benchmark two-level system heat engine, where we find the optimal known cycle; an experimentally realistic refrigerator based on a superconducting qubit that generates coherence, where we find a non-intuitive control sequence that outperform previous cycles proposed in literature; a heat engine based on a quantum harmonic oscillator, where we find a cycle with an elaborate structure that outperforms the optimized Otto cycle. We then evaluate the corresponding efficiency at maximum power.
翻訳日:2021-09-02 05:54:02 公開日:2021-08-30
# (参考訳) 大規模グラフトレーニングを規則化する適応ラベル平滑化

Adaptive Label Smoothing To Regularize Large-Scale Graph Training ( http://arxiv.org/abs/2108.13555v1 )

ライセンス: CC BY-SA 4.0
Kaixiong Zhou, Ninghao Liu, Fan Yang, Zirui Liu, Rui Chen, Li Li, Soo-Hyun Choi, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は、近隣の情報を再帰的に集約することでノード表現を学習し、多くの領域において主要な計算ツールとなっている。 大規模なグラフを扱うために、既存のほとんどのメソッドは入力グラフを複数のサブグラフ(例えばノードクラスタリング)に分割し、メモリコストを節約するためにバッチトレーニングを適用する。 しかし、このようなバッチトレーニングは各バッチ内のラベルバイアスにつながり、モデル予測の信頼性が過剰になる。 正の関連ラベルを持つ連結ノードが一緒に割り当てられる傾向があるため、従来のクロスエントロピー最小化プロセスは、バッチ内のバイアス付きクラスの予測に従い、オーバーフィッティング問題を増大させる可能性がある。 ラベルバイアス問題を克服するために,1つのホットハードラベルをスムースラベルに置き換えるadaptive label smoothing (als) 法を提案する。 具体的には、alsはノードラベルを伝播して、前処理ステップで近傍ラベルの分布を集約し、最適な平滑化ラベルをオンラインで更新して特定のグラフ構造に適応させる。 実世界のデータセットの実験では、ALSが主にスケーラブルな学習フレームワークに適用され、バイアスラベルを校正し、一般化性能を向上させることが示されている。

Graph neural networks (GNNs), which learn the node representations by recursively aggregating information from its neighbors, have become a predominant computational tool in many domains. To handle large-scale graphs, most of the existing methods partition the input graph into multiple sub-graphs (e.g., through node clustering) and apply batch training to save memory cost. However, such batch training will lead to label bias within each batch, and then result in over-confidence in model predictions. Since the connected nodes with positively related labels tend to be assigned together, the traditional cross-entropy minimization process will attend on the predictions of biased classes in the batch, and may intensify the overfitting issue. To overcome the label bias problem, we propose the adaptive label smoothing (ALS) method to replace the one-hot hard labels with smoothed ones, which learns to allocate label confidences from the biased classes to the others. Specifically, ALS propagates node labels to aggregate the neighborhood label distribution in a pre-processing step, and then updates the optimal smoothed labels online to adapt to specific graph structure. Experiments on the real-world datasets demonstrate that ALS can be generally applied to the main scalable learning frameworks to calibrate the biased labels and improve generalization performances.
翻訳日:2021-09-02 05:23:45 公開日:2021-08-30
# (参考訳) 各種話題の言語学的特徴:中絶・気候変動・銃規制における内容性に関する事例研究

Linguistic Characterization of Divisive Topics Online: Case Studies on Contentiousness in Abortion, Climate Change, and Gun Control ( http://arxiv.org/abs/2108.13556v1 )

ライセンス: CC BY 4.0
Jacob Beel, Tong Xiang, Sandeep Soni, Diyi Yang(参考訳) 公開談話のオンライン化が進むにつれ、ソーシャルメディアプラットフォーム上でのさまざまな話題に関する議論も増えている。 これらの分断的な話題は、論争と非論争の両方を引き起こす。 これらの会話を区別するものは、しばしばこれらの会話が議論を呼ぶものと見なされるが、幅広いストロークで知られているが、これらの会話の言語的特徴についてはあまり知られていない。 以前の研究は、論争的な内容や構造がこのタスクの予測因子であることを示したが、そのほとんどは、一般的な会話、非常に特定の出来事、複雑な構造解析に焦点を合わせてきた。 さらに、先行研究で使用された多くのモデルは、オンラインモデレーションの重要な要素である解釈可能性に欠けていた。 我々の研究は、高度に分断されたトピック(吸収、気候変動、銃規制)からの会話に焦点を当て、新しい言語的特徴と会話的特徴とユーザファクターのセットを運用し、解釈可能なモデルを構築するためにそれらを取り入れることで、これらのギャップを埋める。 このような特性は,このタスクにおける予測性能を大幅に向上させると同時に,ニュアンスド・コンタラクタビリティも実現できることを実証する。 これら3つの論争的トピックに関するケーススタディでは、特定の言語的特徴が会話における論争と高い相関があることが示唆され、他のものは特定の分裂的トピックに有意な文脈的影響を示す。

As public discourse continues to move and grow online, conversations about divisive topics on social media platforms have also increased. These divisive topics prompt both contentious and non-contentious conversations. Although what distinguishes these conversations, often framed as what makes these conversations contentious, is known in broad strokes, much less is known about the linguistic signature of these conversations. Prior work has shown that contentious content and structure can be a predictor for this task, however, most of them have been focused on conversation in general, very specific events, or complex structural analysis. Additionally, many models used in prior work have lacked interpret-ability, a key factor in online moderation. Our work fills these gaps by focusing on conversations from highly divisive topics (abortion, climate change, and gun control), operationalizing a set of novel linguistic and conversational characteristics and user factors, and incorporating them to build interpretable models. We demonstrate that such characteristics can largely improve the performance of prediction on this task, and also enable nuanced interpretability. Our case studies on these three contentious topics suggest that certain generic linguistic characteristics are highly correlated with contentiousness in conversations while others demonstrate significant contextual influences on specific divisive topics.
翻訳日:2021-09-02 05:00:15 公開日:2021-08-30
# ラベルのコストを下げたい? gpt-3は

Want To Reduce Labeling Cost? GPT-3 Can Help ( http://arxiv.org/abs/2108.13487v1 )

ライセンス: Link先を確認
Shuohang Wang, Yang Liu, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) データアノテーションは多くのNLPタスクに対して時間と労力を要するプロセスである。 擬似データラベルを作成する方法はいくつか存在するが、タスク固有のものが多く、まずは十分な量のラベル付きデータを必要とする。 近年,1750億のパラメータを持つ巨大言語モデル GPT-3 が,数発の学習タスクで大幅に改善されている。 本稿では,GPT-3を低コストなデータラベラとして活用し,他のモデルを訓練する方法を検討する。 ダウンストリームモデルが様々なnluおよびnlgタスクで同等のパフォーマンスを達成するためには、ヒトのラベルを使用するよりも、gpt-3のラベルを使用する方が50%から96%少ないことが分かりました。 さらに,GPT-3の擬似ラベルと人間のラベルを結合する新たな枠組みを提案する。 これらの結果は、多くの実用的な応用に一般化可能なコスト効率のよいデータラベリング手法を示す。

Data annotation is a time-consuming and labor-intensive process for many NLP tasks. Although there exist various methods to produce pseudo data labels, they are often task-specific and require a decent amount of labeled data to start with. Recently, the immense language model GPT-3 with 175 billion parameters has achieved tremendous improvement across many few-shot learning tasks. In this paper, we explore ways to leverage GPT-3 as a low-cost data labeler to train other models. We find that, to make the downstream model achieve the same performance on a variety of NLU and NLG tasks, it costs 50% to 96% less to use labels from GPT-3 than using labels from humans. Furthermore, we propose a novel framework of combining pseudo labels from GPT-3 with human labels, which leads to even better performance with limited labeling budget. These results present a cost-effective data labeling methodology that is generalizable to many practical applications.
翻訳日:2021-09-01 14:39:32 公開日:2021-08-30
# 半教師による健康科学プレスリリースの誇張検出

Semi-Supervised Exaggeration Detection of Health Science Press Releases ( http://arxiv.org/abs/2108.13493v1 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) 科学に対する公的信頼は、科学論文の誠実で事実的なコミュニケーションに依存する。 しかし、近年の研究では、ニュースメディアが科学論文を誇張して誤って提示する傾向が示されている。 そこで,本稿では,科学コミュニケーションにおける誇張検出の問題を形式化し,検討する。 科学論文やそれらに関する人気のあるメディア記事は豊富にあるが、その記事がオリジナルの論文と直接リンクすることはほとんどなく、データ収集を困難にしている。 本研究は,機械学習モデルの性能のベンチマークに適した学術論文のプレスリリースにおいて,既存の専門家による誇張に関する注釈付き研究からラベル付きプレスリリース/抽象ペアのセットをキュレートすることによって,この問題に対処する。 このことから得られた限られたデータと、科学における誇張検出に関する過去の研究を用いて、補完的なクローゼスタイルのQAタスクからの知識を活用し、少数ショット学習を改善する多タスク版であるMT-PETを紹介した。 MT-PETは,データに制限がある場合と,メインタスクに大量のデータがある場合の両方において,PETと教師あり学習より優れていることを示す。

Public trust in science depends on honest and factual communication of scientific papers. However, recent studies have demonstrated a tendency of news media to misrepresent scientific papers by exaggerating their findings. Given this, we present a formalization of and study into the problem of exaggeration detection in science communication. While there are an abundance of scientific papers and popular media articles written about them, very rarely do the articles include a direct link to the original paper, making data collection challenging. We address this by curating a set of labeled press release/abstract pairs from existing expert annotated studies on exaggeration in press releases of scientific papers suitable for benchmarking the performance of machine learning models on the task. Using limited data from this and previous studies on exaggeration detection in science, we introduce MT-PET, a multi-task version of Pattern Exploiting Training (PET), which leverages knowledge from complementary cloze-style QA tasks to improve few-shot learning. We demonstrate that MT-PET outperforms PET and supervised learning both when data is limited, as well as when there is an abundance of data for the main task.
翻訳日:2021-09-01 14:37:30 公開日:2021-08-30
# 一貫性のあるドキュメントレベルのエンティティリンクに向けて:エンティティリンクとコリファレンス解決のためのジョイントモデル

Towards Consistent Document-level Entity Linking: Joint Models for Entity Linking and Coreference Resolution ( http://arxiv.org/abs/2108.13530v1 )

ライセンス: Link先を確認
Klim Zaporojets, Johannes Deleu, Thomas Demeester, Chris Develder(参考訳) ドキュメントレベルのエンティティリンク(el:document-level entity link)のタスクについて検討する。 我々は文書内の言及の中で明示的な「接続」を活用することを目標としている:我々はelタスクにcoreference resolution (coref)のそれと合流することを提案する。 これは、(i)暗黙の文書情報(例:エンティティ参照間の潜在関係、または一般言語モデル)または(ii)候補リンク間の接続(例:外部知識ベースから推測される)を利用する関連する作業と相補的である。 具体的には、クラスタ参照はコリファレンスを通じてリンクされ、すべてのクラスタ参照に対して単一のelを強制します。 後者の制約は、el候補リストをクラスタ化することで、カバー範囲を増やすというメリットがある。 有向木上の構造化予測タスクとしてcoref+el問題を定式化し,グローバル正規化モデルを用いて解く。 2つのデータセットの実験結果から、CorefタスクとELタスクの両方で最大5%のF1スコアが向上した。 ハードケースのサブセットの場合、候補エンティティリストに正しいELが欠落している個々に言及すると、精度は+50%向上する。

We consider the task of document-level entity linking (EL), where it is important to make consistent decisions for entity mentions over the full document jointly. We aim to leverage explicit "connections" among mentions within the document itself: we propose to join the EL task with that of coreference resolution (coref). This is complementary to related works that exploit either (i) implicit document information (e.g., latent relations among entity mentions, or general language models) or (ii) connections between the candidate links (e.g, as inferred from the external knowledge base). Specifically, we cluster mentions that are linked via coreference, and enforce a single EL for all of the clustered mentions together. The latter constraint has the added benefit of increased coverage by joining EL candidate lists for the thus clustered mentions. We formulate the coref+EL problem as a structured prediction task over directed trees and use a globally normalized model to solve it. Experimental results on two datasets show a boost of up to +5% F1-score on both coref and EL tasks, compared to their standalone counterparts. For a subset of hard cases, with individual mentions lacking the correct EL in their candidate entity list, we obtain a +50% increase in accuracy.
翻訳日:2021-09-01 14:33:49 公開日:2021-08-30
# 不確実性駆動属性同期によるシーン合成

Scene Synthesis via Uncertainty-Driven Attribute Synchronization ( http://arxiv.org/abs/2108.13499v1 )

ライセンス: Link先を確認
Haitao Yang, Zaiwei Zhang, Siming Yan, Haibin Huang, Chongyang Ma, Yi Zheng, Chandrajit Bajaj, Qixing Huang(参考訳) 3Dシーンを生成するためのディープニューラルネットワークの開発は、アーキテクチャCAD、コンピュータグラフィックス、および仮想ロボットトレーニング環境の即時適用によるニューラルネットワークの基本的な問題である。 この課題は、3Dシーンがオブジェクトのサイズや相対的なポーズなどの連続的なパターンから、対称的な関係を持つオブジェクトの発生や共起といった離散的なパターンまで、多様なパターンを示すため、困難である。 本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。 提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。 対象属性と相対属性の不確実性を提供する訓練データから得られたパラメトリック事前分布を用いて,フィードフォワードニューラルモデルの出力を規則化する。 さらに,シーンレイアウトを単に予測するのではなく,オーバーコンプリートな属性セットを予測する。 この手法により,予測属性間の基礎となる一貫性制約を利用して,予測不可能な予測を行うことができる。 実験の結果,提案手法は既存の手法を大きく上回ることがわかった。 生成された3dシーンは、連続的および離散的特徴パターンの両方を保持しながら、トレーニングデータを忠実に補間する。

Developing deep neural networks to generate 3D scenes is a fundamental problem in neural synthesis with immediate applications in architectural CAD, computer graphics, as well as in generating virtual robot training environments. This task is challenging because 3D scenes exhibit diverse patterns, ranging from continuous ones, such as object sizes and the relative poses between pairs of shapes, to discrete patterns, such as occurrence and co-occurrence of objects with symmetrical relationships. This paper introduces a novel neural scene synthesis approach that can capture diverse feature patterns of 3D scenes. Our method combines the strength of both neural network-based and conventional scene synthesis approaches. We use the parametric prior distributions learned from training data, which provide uncertainties of object attributes and relative attributes, to regularize the outputs of feed-forward neural models. Moreover, instead of merely predicting a scene layout, our approach predicts an over-complete set of attributes. This methodology allows us to utilize the underlying consistency constraints among the predicted attributes to prune infeasible predictions. Experimental results show that our approach outperforms existing methods considerably. The generated 3D scenes interpolate the training data faithfully while preserving both continuous and discrete feature patterns.
翻訳日:2021-09-01 14:31:08 公開日:2021-08-30
# ハイパースペクトル画像のトモグラフィ再構成への畳み込みニューラルネットワークの適用

The Application of Convolutional Neural Networks for Tomographic Reconstruction of Hyperspectral Images ( http://arxiv.org/abs/2108.13458v1 )

ライセンス: Link先を確認
Wei-Chih Huang, Mads Svanborg Peters, Mads Juul Ahlebaek, Mads Toudal Frandsen, Ren\'e Lynge Eriksen, and Bjarke J{\o}rgensen(参考訳) ctis(ctct imaging spectrometer)画像から超スペクトルキューブを再構成するために,畳み込みニューラルネットワーク(cnns)を用いた新しい手法を提案する。 現在の再構成アルゴリズムは、多くのスペクトルチャネルの場合、通常、長い復元時間と中間精度が求められる。 構築されたcnnは、標準の期待最大化アルゴリズムよりも高い精度とより短い再構成時間を提供する。 さらに、ネットワークは2種類の現実世界の画像を同時に扱うことができ、特にColorCheckerとニンジンのスペクトル画像が考慮されている。 本研究は,CTIS画像から高スペクトル立方体をリアルタイムに再構成する方法である。

A novel method, utilizing convolutional neural networks (CNNs), is proposed to reconstruct hyperspectral cubes from computed tomography imaging spectrometer (CTIS) images. Current reconstruction algorithms are usually subject to long reconstruction times and mediocre precision in cases of a large number of spectral channels. The constructed CNNs deliver higher precision and shorter reconstruction time than a standard expectation maximization algorithm. In addition, the network can handle two different types of real-world images at the same time -- specifically ColorChecker and carrot spectral images are considered. This work paves the way toward real-time reconstruction of hyperspectral cubes from CTIS images.
翻訳日:2021-09-01 14:24:37 公開日:2021-08-30
# 量子分類器の最近の進歩

Recent advances for quantum classifiers ( http://arxiv.org/abs/2108.13421v1 )

ライセンス: Link先を確認
Weikang Li and Dong-Ling Deng(参考訳) 機械学習は幅広い応用で劇的な成功を収めてきた。 量子物理学との相互作用は、基礎研究と商業応用の両方に前例のない視点をもたらし、量子機械学習の新たな研究フロンティアを生み出している。 この線に沿って、機械学習の分類問題の解決を目的とした量子デバイスである量子分類器が近年注目されている。 本稿では,量子分類器の研究の概観を概観し,最近の進歩に注目した。 まず、量子サポートベクターマシン、量子カーネルメソッド、量子決定木、量子最近傍アルゴリズムなど、いくつかの量子分類アルゴリズムをレビューする。 次に、基本的には分類のための変分量子回路である変分量子分類器を導入する。 我々は,変分量子分類器を構成するための異なるアーキテクチャを考察し,量子分類器のトレーニングが指数関数的に消失する勾配によって妨げられる不毛高原問題を導入する。 さらに、逆学習の設定における量子分類器の脆弱性や、異なる量子分類器に関する最近の実験的進展についても論じる。

Machine learning has achieved dramatic success in a broad spectrum of applications. Its interplay with quantum physics may lead to unprecedented perspectives for both fundamental research and commercial applications, giving rise to an emergent research frontier of quantum machine learning. Along this line, quantum classifiers, which are quantum devices that aim to solve classification problems in machine learning, have attracted tremendous attention recently. In this review, we give a relatively comprehensive overview for the studies of quantum classifiers, with a focus on recent advances. First, we will review a number of quantum classification algorithms, including quantum support vector machine, quantum kernel methods, quantum decision tree, and quantum nearest neighbor algorithm. Then, we move on to introduce the variational quantum classifiers, which are essentially variational quantum circuits for classifications. We will review different architectures for constructing variational quantum classifiers and introduce the barren plateau problem, where the training of quantum classifiers might be hindered by the exponentially vanishing gradient. In addition, the vulnerability aspect of quantum classifiers in the setting of adversarial learning and the recent experimental progress on different quantum classifiers will also be discussed.
翻訳日:2021-09-01 14:22:37 公開日:2021-08-30
# 境界指向グラフ埋め込みアプローチによるfeaサロゲートモデル

An FEA surrogate model with Boundary Oriented Graph Embedding approach ( http://arxiv.org/abs/2108.13509v1 )

ライセンス: Link先を確認
Xingyu Fu, Fengfeng Zhou, Dheeraj Peddireddy, Zhengyang Kang, Martin Byung-Guk Jun, Vaneet Aggarwal(参考訳) 本稿では,グラフニューラルネットワーク(gnn)に対する境界指向グラフ埋め込み(boge)アプローチを,物理フィールドのレグレッションと境界値問題の解決のための汎用サロゲートモデルとして利用することを提案する。 境界要素と局所近傍要素の両方のショートカットを提供することで、BOGEアプローチは構造化メッシュ要素をグラフに埋め込むことができ、大規模な三角形のメシュに基づくFAA結果に対して効率的な回帰を行うことができる。 カンチレバービーム問題に着目したbogeアプローチは,応力場分布に適合するだけでなく,抽象的意思決定設計プロセスを実現する可能性を示すトポロジカル最適化結果を後退させる。 3層DeepGCNモデルによるBOGEアプローチは、応力場予測のための 0.011706 (2.41\% MAPE) と位相最適化のための 0.002735 MSE (0.01) よりも大きい誤差を持つ 1.58\% 要素) の回帰を導出する。 BOGEアプローチの全体的な概念は、業界とデザイン関連の領域の両方に利益をもたらす、汎用的で効率的なディープラーニングベースのFEAシミュレータの道を開くものである。

In this work, we present a Boundary Oriented Graph Embedding (BOGE) approach for the Graph Neural Network (GNN) to serve as a general surrogate model for regressing physical fields and solving boundary value problems. Providing shortcuts for both boundary elements and local neighbor elements, the BOGE approach can embed structured mesh elements into the graph and performs an efficient regression on large-scale triangular-mesh-based FEA results, which cannot be realized by other machine-learning-based surrogate methods. Focusing on the cantilever beam problem, our BOGE approach cannot only fit the distribution of stress fields but also regresses the topological optimization results, which show its potential of realizing abstract decision-making design process. The BOGE approach with 3-layer DeepGCN model \textcolor{blue}{achieves the regression with MSE of 0.011706 (2.41\% MAPE) for stress field prediction and 0.002735 MSE (with 1.58\% elements having error larger than 0.01) for topological optimization.} The overall concept of the BOGE approach paves the way for a general and efficient deep-learning-based FEA simulator that will benefit both industry and design-related areas.
翻訳日:2021-09-01 14:20:10 公開日:2021-08-30
# 工学設計のための説明可能なAI:システム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for engineering design: A unified approach of systems engineering and component-based deep learning ( http://arxiv.org/abs/2108.13836v1 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh and Xia Chen(参考訳) 機械学習によって作成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野で重要性を増している。 彼らは、より良いパフォーマンスと持続可能性を持つ新しい成果物を作成する意思決定者を支援する高い可能性を持っています。 しかし、これらのモデルの限定された一般化とブラックボックスの性質は、説明可能性と再利用性に制限を与える。 これらの欠点は、エンジニアリング設計の採用を遅らせる重要な障壁となる。 このような状況を克服するため,機械学習(ML)による部分コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングとシステムエンジニアリング(SE)を結びつける。 まず, エネルギー効率の良い建築設計の例を用いて, トレーニングデータとは異なるランダムな構造で設計性能を正確に予測することにより, コンポーネントベース手法の一般化を実証する。 第2に,低深度決定木から抽出した局所サンプリング,感度情報,および規則について説明し,工学設計の観点からその情報を評価する。 説明可能性の鍵は、コンポーネント間のインターフェイスでのアクティベーションが解釈可能なエンジニアリング量であることである。 このように、階層的コンポーネントシステムは、エンジニアリングの説明可能性のために情報を直接統合するディープニューラルネットワーク(dnn)を形成する。 コンポーネントを構成する可能性の広い構成は、理解可能なデータ駆動モデルで見知らぬ新しい設計ケースの検証を可能にする。 類似の確率分布による成分のパラメータ範囲のマッチングは、再利用可能な、一般化された、信頼できるモデルを生み出す。 このアプローチは、システム工学とドメイン知識のエンジニアリング手法にモデル構造を適用する。

Data-driven models created by machine learning gain in importance in all fields of design and engineering. They have high potential to assists decision-makers in creating novel artefacts with a better performance and sustainability. However, limited generalization and the black-box nature of these models induce limited explainability and reusability. These drawbacks provide significant barriers retarding adoption in engineering design. To overcome this situation, we propose a component-based approach to create partial component models by machine learning (ML). This component-based approach aligns deep learning to systems engineering (SE). By means of the example of energy efficient building design, we first demonstrate generalization of the component-based method by accurately predicting the performance of designs with random structure different from training data. Second, we illustrate explainability by local sampling, sensitivity information and rules derived from low-depth decision trees and by evaluating this information from an engineering design perspective. The key for explainability is that activations at interfaces between the components are interpretable engineering quantities. In this way, the hierarchical component system forms a deep neural network (DNN) that directly integrates information for engineering explainability. The large range of possible configurations in composing components allows the examination of novel unseen design cases with understandable data-driven models. The matching of parameter ranges of components by similar probability distribution produces reusable, well-generalizing, and trustworthy models. The approach adapts the model structure to engineering methods of systems engineering and domain knowledge.
翻訳日:2021-09-01 14:19:47 公開日:2021-08-30
# UAVフラッシュ管理のための機械学習手法--サーベイ

Machine Learning Methods for Management UAV Flocks -- a Survey ( http://arxiv.org/abs/2108.13448v1 )

ライセンス: Link先を確認
Rina Azoulay and Yoram Haddad and Shulamit Reches(参考訳) 無人航空機(UAV)の開発は、技術進歩とコストの大幅な削減により近年勢いを増している。 UAV技術は、コミュニケーション、農業、安全保障、輸送など、幅広い領域で利用することができる。 UAVを特定のドメインのクラスタ/フラッシュにグループ化することは有用であり、UAVの使用に関するさまざまな課題はクラスタリングによって軽減される。 UAVのフロック管理にはいくつかの計算課題があり、機械学習(ML)手法を用いて解決できる。 本稿では,UAVSおよび最新のML手法に関する基本用語について述べるとともに,関連するチュートリアルと調査の概要を紹介する。 その後、UAV群に現れる様々な課題について考察する。 それぞれの課題について,関連する課題に対処するために文献で提案されているいくつかの機械学習に基づく手法を調査した。 その後、フロックの異なる課題を解決するためにMLを適用できる様々なオープンな課題について述べ、この目的のためにML手法を用いることを提案する。 この包括的なレビューは、研究者と開発者の両方にとって、flock管理に適用可能な最先端のML技術のさまざまな側面を幅広く見るのに役立つかもしれない。

The development of unmanned aerial vehicles (UAVs) has been gaining momentum in recent years owing to technological advances and a significant reduction in their cost. UAV technology can be used in a wide range of domains, including communication, agriculture, security, and transportation. It may be useful to group the UAVs into clusters/flocks in certain domains, and various challenges associated with UAV usage can be alleviated by clustering. Several computational challenges arise in UAV flock management, which can be solved by using machine learning (ML) methods. In this survey, we describe the basic terms relating to UAVS and modern ML methods, and we provide an overview of related tutorials and surveys. We subsequently consider the different challenges that appear in UAV flocks. For each issue, we survey several machine learning-based methods that have been suggested in the literature to handle the associated challenges. Thereafter, we describe various open issues in which ML can be applied to solve the different challenges of flocks, and we suggest means of using ML methods for this purpose. This comprehensive review may be useful for both researchers and developers in providing a wide view of various aspects of state-of-the-art ML technologies that are applicable to flock management.
翻訳日:2021-09-01 14:18:45 公開日:2021-08-30
# (参考訳) レトロガン:知識不足と希少表現を改善する循環後専門化システム

RetroGAN: A Cyclic Post-Specialization System for Improving Out-of-Knowledge and Rare Word Representations ( http://arxiv.org/abs/2108.12941v1 )

ライセンス: CC BY 4.0
Pedro Colon-Hernandez, Yida Xin, Henry Lieberman, Catherine Havasi, Cynthia Breazeal, and Peter Chin(参考訳) レトロフィッティング(retrofitting)は、知識ベース(kb)におけるそれらの関係を反映するために、単語ベクトルをその空間内でより近く、あるいはさらに離れて移動させるテクニックである。 しかし、レトロフィッティングは、そのkbに存在する概念のみに作用する。 RetroGANは、GAN(Generative Adversarial Networks)のペアを使用して、概念とそれらの再適合した概念の1対1マッピングを学習する。 これは、ある自然言語システムが語彙外エントリを扱う方法と似た方法で、元のKBに現れない概念を扱うためにマッピング (post-specializes) を適用する。 我々は3つの単語類似性ベンチマークと下流文単純化タスクでテストを行い,その状態を達成した(CARD-660)。 以上から,本システムは知識不足や希少な単語の一般化に有効であることを示す。

Retrofitting is a technique used to move word vectors closer together or further apart in their space to reflect their relationships in a Knowledge Base (KB). However, retrofitting only works on concepts that are present in that KB. RetroGAN uses a pair of Generative Adversarial Networks (GANs) to learn a one-to-one mapping between concepts and their retrofitted counterparts. It applies that mapping (post-specializes) to handle concepts that do not appear in the original KB in a manner similar to how some natural language systems handle out-of-vocabulary entries. We test our system on three word-similarity benchmarks and a downstream sentence simplification task and achieve the state of the art (CARD-660). Altogether, our results demonstrate our system's effectiveness for out-of-knowledge and rare word generalization.
翻訳日:2021-08-31 23:19:48 公開日:2021-08-30
# (参考訳) 偏整合畳み込みによる反射対称性発見の学習

Learning to Discover Reflection Symmetry via Polar Matching Convolution ( http://arxiv.org/abs/2108.12952v1 )

ライセンス: CC BY 4.0
Ahyun Seo, Woohyeon Shim, Minsu Cho(参考訳) 反射対称性検出のタスクは、野生の対称性パターンの著しい変異とあいまいさのため、依然として困難である。 さらに、局所領域は対称性パターンを検出するために反射に一致する必要があるため、回転や反射に同変しない標準畳み込みネットワークではタスクを学習することは困難である。 この問題に対処するために,極性特徴プーリング,自己相似エンコーディング,異なる角度の軸に対する系統的カーネル設計を利用する,極性マッチング畳み込みと呼ばれる新しい畳み込み手法を導入する。 提案した高次元カーネル畳み込みネットワークは、標準畳み込みの限界を克服し、実世界の画像から対称性パターンを効果的に発見する。 さらに,新しいデータセットを提示し,画像合成によるデータセットの強化による自己教師あり学習戦略を提案する。 実験により,本手法が精度とロバスト性の観点から最先端手法よりも優れていることを示した。

The task of reflection symmetry detection remains challenging due to significant variations and ambiguities of symmetry patterns in the wild. Furthermore, since the local regions are required to match in reflection for detecting a symmetry pattern, it is hard for standard convolutional networks, which are not equivariant to rotation and reflection, to learn the task. To address the issue, we introduce a new convolutional technique, dubbed the polar matching convolution, which leverages a polar feature pooling, a self-similarity encoding, and a systematic kernel design for axes of different angles. The proposed high-dimensional kernel convolution network effectively learns to discover symmetry patterns from real-world images, overcoming the limitations of standard convolution. In addition, we present a new dataset and introduce a self-supervised learning strategy by augmenting the dataset with synthesizing images. Experiments demonstrate that our method outperforms state-of-the-art methods in terms of accuracy and robustness.
翻訳日:2021-08-31 22:51:44 公開日:2021-08-30
# (参考訳) 音楽セグメンテーションにおける深い特徴の教師なし学習

Unsupervised Learning of Deep Features for Music Segmentation ( http://arxiv.org/abs/2108.12955v1 )

ライセンス: CC BY 4.0
Matthew C. McCallum(参考訳) 音楽セグメンテーション(英: music segmentation)とは、合唱、詩、橋など、異なる音楽セグメンテーションの境界とラベリングの境界を特定するという2つの問題を指す。 ポピュラー音楽で 様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存することが示されている。 音楽セグメントのアノテーションデータから特徴変換を学習する方法も提案されているが、そのようなデータは作成に時間がかかるかコストがかかるため、データセットのサイズによって制限される可能性が高い。 注釈付き音楽セグメンテーションデータは少ないが、利用可能な音楽オーディオの量ははるかに多い。 セマンティックオーディオの分野において、教師なしディープラーニングは、クエリバイサンプルと音声分類タスクのソリューションのパフォーマンス向上に有望であることが示されている。 本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープフィーチャ埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。 提案手法は、任意の音声タイムラインに暗黙的な音声特徴の時間的近接のみを利用する。 これらの埋め込みを古典的な楽曲セグメンテーションアルゴリズムに組み込むことで、このアルゴリズムの性能を大幅に向上するだけでなく、教師なし楽曲セグメンテーションにおけるアートパフォーマンスの状態を得られる。

Music segmentation refers to the dual problem of identifying boundaries between, and labeling, distinct music segments, e.g., the chorus, verse, bridge etc. in popular music. The performance of a range of music segmentation algorithms has been shown to be dependent on the audio features chosen to represent the audio. Some approaches have proposed learning feature transformations from music segment annotation data, although, such data is time consuming or expensive to create and as such these approaches are likely limited by the size of their datasets. While annotated music segmentation data is a scarce resource, the amount of available music audio is much greater. In the neighboring field of semantic audio unsupervised deep learning has shown promise in improving the performance of solutions to the query-by-example and sound classification tasks. In this work, unsupervised training of deep feature embeddings using convolutional neural networks (CNNs) is explored for music segmentation. The proposed techniques exploit only the time proximity of audio features that is implicit in any audio timeline. Employing these embeddings in a classic music segmentation algorithm is shown not only to significantly improve the performance of this algorithm, but obtain state of the art performance in unsupervised music segmentation.
翻訳日:2021-08-31 22:33:39 公開日:2021-08-30
# (参考訳) マルチモダリティ表現間のサイクリングによるフォント補完と操作

Font Completion and Manipulation by Cycling Between Multi-Modality Representations ( http://arxiv.org/abs/2108.12965v1 )

ライセンス: CC BY-SA 4.0
Ye Yuan, Wuyang Chen, Zhaowen Wang, Matthew Fisher, Zhifei Zhang, Zhangyang Wang, Hailin Jin(参考訳) 一貫したスタイルのフォントグリフを1つまたはいくつかの参照グリフ、すなわちフォント補完から生成することは、地形設計において重要なタスクである。 問題は一般的なイメージスタイル転送タスクよりも明確に定義されているため、視覚と機械学習の両方のコミュニティから関心を集めている。 既存のアプローチでは、この問題を画像から画像への直接翻訳タスクとして扱う。 本研究では,中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてのフォントグリフの生成を探求し,フォントスタイルのより内在的なグラフィック特性を捉える。 具体的には,画像エンコーダと画像レンダラ間のグラフコンストラクタを用いて,相互モダリティサイクルによる画像から画像へのモデル構造を定式化する。 新しいグラフコンストラクタは、glyphの潜在コードを、翻訳タスクを支援するために訓練された専門家の知識にマッチするグラフ表現にマップする。 本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。 さらに,モデルが出力するグラフ表現は,ユーザがローカル編集や操作を行うための直感的なインターフェースも提供する。 提案したクロスモダリティサイクル表現学習は、異なるデータモダリティから事前知識を持つ他のドメインに適用できる可能性がある。 私たちのコードはhttps://github.com/VITA-Group/Font_Completion_Graphで利用可能です。

Generating font glyphs of consistent style from one or a few reference glyphs, i.e., font completion, is an important task in topographical design. As the problem is more well-defined than general image style transfer tasks, thus it has received interest from both vision and machine learning communities. Existing approaches address this problem as a direct image-to-image translation task. In this work, we innovate to explore the generation of font glyphs as 2D graphic objects with the graph as an intermediate representation, so that more intrinsic graphic properties of font styles can be captured. Specifically, we formulate a cross-modality cycled image-to-image model structure with a graph constructor between an image encoder and an image renderer. The novel graph constructor maps a glyph's latent code to its graph representation that matches expert knowledge, which is trained to help the translation task. Our model generates improved results than both image-to-image baseline and previous state-of-the-art methods for glyph completion. Furthermore, the graph representation output by our model also provides an intuitive interface for users to do local editing and manipulation. Our proposed cross-modality cycled representation learning has the potential to be applied to other domains with prior knowledge from different data modalities. Our code is available at https://github.com/VITA-Group/Font_Completion_Graph.
翻訳日:2021-08-31 22:22:04 公開日:2021-08-30
# (参考訳) 自己教師付きマルチビューステレオにおける不確実性の検討

Digging into Uncertainty in Self-supervised Multi-view Stereo ( http://arxiv.org/abs/2108.12966v1 )

ライセンス: CC BY 4.0
Hongbin Xu, Zhipeng Zhou, Yali Wang, Wenxiong Kang, Baigui Sun, Hao Li, Yu Qiao(参考訳) 画像再構成を前提とした自己監督型マルチビューステレオ(MVS)は,近年大きな進歩を遂げている。 しかし、従来の手法は直観に基づいて構築されており、自己教師型MVSにおけるプリテキストタスクの有効性に関する包括的説明が欠如している。 そこで本研究では,自己監督型MVSにおける疫学的不確実性を,モデルが無視するものを考慮して推定する。 特に、制限は前景における曖昧な監督と背景における無効な監督の2つのタイプに分類できる。 そこで本研究では, 自己教師付き学習のための不確実性低減マルチビューステレオ(umvs)フレームワークを提案する。 前景における曖昧な監視を緩和するために、フロー深度一貫性の喪失に先立って追加の対応を行う。 光学流の高密度2次元対応は、MVSにおける3次元ステレオ対応の正則化に使用される。 本研究ではモンテカルロ・ドロップアウトを用いて不確実性マップを取得し,不確実性領域における信頼できない監視信号のフィルタリングを行う。 DTU と Tank&Temples ベンチマークの大規模な実験により、我々の U-MVS フレームワークは教師なし MVS 手法の中で最高の性能を達成し、教師なしの対戦相手と競合する性能を示した。

Self-supervised Multi-view stereo (MVS) with a pretext task of image reconstruction has achieved significant progress recently. However, previous methods are built upon intuitions, lacking comprehensive explanations about the effectiveness of the pretext task in self-supervised MVS. To this end, we propose to estimate epistemic uncertainty in self-supervised MVS, accounting for what the model ignores. Specially, the limitations can be categorized into two types: ambiguious supervision in foreground and invalid supervision in background. To address these issues, we propose a novel Uncertainty reduction Multi-view Stereo (UMVS) framework for self-supervised learning. To alleviate ambiguous supervision in foreground, we involve extra correspondence prior with a flow-depth consistency loss. The dense 2D correspondence of optical flows is used to regularize the 3D stereo correspondence in MVS. To handle the invalid supervision in background, we use Monte-Carlo Dropout to acquire the uncertainty map and further filter the unreliable supervision signals on invalid regions. Extensive experiments on DTU and Tank&Temples benchmark show that our U-MVS framework achieves the best performance among unsupervised MVS methods, with competitive performance with its supervised opponents.
翻訳日:2021-08-31 22:04:08 公開日:2021-08-30
# (参考訳) helmholtz: 改良型に基づいたtezosスマートコントラクトの検証ツール

HELMHOLTZ: A Verifier for Tezos Smart Contracts Based on Refinement Types ( http://arxiv.org/abs/2108.12971v1 )

ライセンス: CC BY 4.0
Yuki Nishida, Hiromasa Saito, Ran Chen, Akira Kawata, Jun Furuse, Kohei Suenaga, Atsushi Igarashi(参考訳) スマートコントラクト(Smart Contract)は、多くの暗号通貨を実装したブロックチェーン上で実行されるプログラムで、トランザクションの自動化に使用されている。 スマートコントラクトが処理する金額が膨大であるため,静的かつ形式的に検証可能なメソッドの要求が急増している。 この記事では、ブロックチェーンプラットフォームTezosで実行されるスマートコントラクトを記述するための静的型付けスタックベースの言語であるMichelson用の型ベースの静的検証ツールHELMHOLTZについて説明する。 HELMHOLTZは、Michelsonの型システムを改良した拡張の上に設計されている。 HELMHOLTZは、ユーザ定義仕様を入力として洗練型形式で記述したMichelsonプログラムを入力として、精製型システムに基づいてプログラムをタイプチェックし、SMTソルバZ3で生成された検証条件を出力する。 我々は,ミシェルソンのコア計算用ミニミシェルソンに対して,複合データ型(リストとペアなど)や高次関数,他のコントラクトの呼び出しといった特徴を取り入れた改良型システムについて,簡単に紹介する。 HELMHOLTZ{}は、口座に送金し、デジタル署名をチェックするものを含む、いくつかの実用的なMichelsonプログラムの検証に成功した。

A smart contract is a program executed on a blockchain, based on which many cryptocurrencies are implemented, and is being used for automating transactions. Due to the large amount of money that smart contracts deal with, there is a surging demand for a method that can statically and formally verify them. This article describes our type-based static verification tool HELMHOLTZ for Michelson, which is a statically typed stack-based language for writing smart contracts that are executed on the blockchain platform Tezos. HELMHOLTZ is designed on top of our extension of Michelson's type system with refinement types. HELMHOLTZ takes a Michelson program annotated with a user-defined specification written in the form of a refinement type as input; it then typechecks the program against the specification based on the refinement type system, discharging the generated verification conditions with the SMT solver Z3. We briefly introduce our refinement type system for the core calculus Mini-Michelson of Michelson, which incorporates the characteristic features such as compound datatypes (e.g., lists and pairs), higher-order functions, and invocation of another contract. \HELMHOLTZ{} successfully verifies several practical Michelson programs, including one that transfers money to an account and that checks a digital signature.
翻訳日:2021-08-31 21:33:19 公開日:2021-08-30
# (参考訳) プライベートマルチタスク学習:定式化と連合学習への応用

Private Multi-Task Learning: Formulation and Applications to Federated Learning ( http://arxiv.org/abs/2108.12978v1 )

ライセンス: CC BY 4.0
Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) 機械学習における多くの問題は、複数の関連する機械学習タスクを同時に解決することを目的としているマルチタスク学習(MTL)に依存している。 MTLは、医療、金融、IoTコンピューティングなどの分野におけるプライバシに敏感なアプリケーションに特に関係している。 本研究では,MTLにおけるタスクレベルのプライバシの概念を,共同微分プライバシー(JDP),メカニズム設計と分散最適化のための微分プライバシ緩和を通じて形式化する。 次に,JDP を対象とする個人化フェデレーション学習における応用を目的とした平均正規化 MTL のアルゴリズムを提案する。 我々は目的と解決法を分析し、プライバシーと実用性の両方について検証可能な保証を提供する。 実験により,本手法は,共通学習ベンチマーク間でのグローバルベースラインに対して,プライバシーとユーティリティのトレードオフを改善することができることがわかった。

Many problems in machine learning rely on multi-task learning (MTL), in which the goal is to solve multiple related machine learning tasks simultaneously. MTL is particularly relevant for privacy-sensitive applications in areas such as healthcare, finance, and IoT computing, where sensitive data from multiple, varied sources are shared for the purpose of learning. In this work, we formalize notions of task-level privacy for MTL via joint differential privacy(JDP), a relaxation of differential privacy for mechanism design and distributed optimization. We then propose an algorithm for mean-regularized MTL, an objective commonly used for applications in personalized federated learning, subject to JDP. We analyze our objective and solver, providing certifiable guarantees on both privacy and utility. Empirically, we find that our method allows for improved privacy/utility trade-offs relative to global baselines across common federated learning benchmarks.
翻訳日:2021-08-31 21:32:11 公開日:2021-08-30
# (参考訳) ShiFT15M:分散シフトを伴う多目的大規模ファッションデータセット

SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts ( http://arxiv.org/abs/2108.12992v1 )

ライセンス: CC BY 4.0
Masanari Kimura, Takuma Nakamura, Yuki Saito(参考訳) 多くの機械学習アルゴリズムは、トレーニングデータとテストデータは同じ分布に従うと仮定する。 しかし、そのような仮定は現実世界の機械学習問題にしばしば違反する。 本稿では,トレーニングとテストの間にデータ分布が変化する状況下で,モデルを適切に評価するためのデータセットShiFT15Mを提案する。 ShiFT15Mデータセットにはいくつかの優れた特性がある。 データセットの各インスタンスは、いくつかの数値を持ち、ターゲット変数として使用できる。 (ii)大規模。 shift15mデータセットは1500万のファッション画像で構成されている。 (iii)データセットのタイプシフトのカバレッジ。 shift15mには、複数のデータセットシフト問題設定(例えば、コ変量シフトやターゲットシフト)が含まれている。 shift15mはまた、マグニチュードを切り替えることで、データセットシフトの様々な大きさのモデルの性能評価を可能にする。 さらに、非常に単純な方法でshift15mを処理するソフトウェアも提供しています。

Many machine learning algorithms assume that the training data and the test data follow the same distribution. However, such assumptions are often violated in real-world machine learning problems. In this paper, we propose SHIFT15M, a dataset that can be used to properly evaluate models in situations where the distribution of data changes between training and testing. The SHIFT15M dataset has several good properties: (i) Multiobjective. Each instance in the dataset has several numerical values that can be used as target variables. (ii) Large-scale. The SHIFT15M dataset consists of 15million fashion images. (iii) Coverage of types of dataset shifts. SHIFT15M contains multiple dataset shift problem settings (e.g., covariate shift or target shift). SHIFT15M also enables the performance evaluation of the model under various magnitudes of dataset shifts by switching the magnitude. In addition, we provide software to handle SHIFT15M in a very simple way: https://github.com/st-tech/zozo-shift15m.
翻訳日:2021-08-31 20:49:47 公開日:2021-08-30
# (参考訳) x2teeth:単一パノラマx線写真による3次元歯の再建

X2Teeth: 3D Teeth Reconstruction from a Single Panoramic Radiograph ( http://arxiv.org/abs/2108.13004v1 )

ライセンス: CC BY 4.0
Yuan Liang, Weinan Song, Jiawei Yang, Liang Qiu, Kun Wang, Lei He(参考訳) X線3次元歯の再建は歯科診断や多くの臨床手術において重要である。 しかし,1枚のパノラマX線写真から全空洞用歯の再建を調査する研究は行われていない。 写真からの単一オブジェクト再構成とは異なり、高解像度で複数のオブジェクトを構築するというユニークな課題がある。 この課題を克服するために,歯の局所化と単一形状推定にタスクを分解するConvNet X2Teethを開発した。 また,パッチベースのトレーニング戦略を導入することで,x2teethをエンド・ツー・エンドで最適なパフォーマンスをトレーニングできる。 広範な実験により, キャビティの三次元構造を推定し, 各歯の細部を反映することに成功した。 さらに、X2Teeth は 0.681 の再構成 IoU を達成し、エンコーダデコーダ法を $1.71X で、検索法を $1.52X で大幅に上回っている。 また,他のマルチ解剖学的3次元再構成作業にも期待できる。

3D teeth reconstruction from X-ray is important for dental diagnosis and many clinical operations. However, no existing work has explored the reconstruction of teeth for a whole cavity from a single panoramic radiograph. Different from single object reconstruction from photos, this task has the unique challenge of constructing multiple objects at high resolutions. To conquer this task, we develop a novel ConvNet X2Teeth that decomposes the task into teeth localization and single-shape estimation. We also introduce a patch-based training strategy, such that X2Teeth can be end-to-end trained for optimal performance. Extensive experiments show that our method can successfully estimate the 3D structure of the cavity and reflect the details for each tooth. Moreover, X2Teeth achieves a reconstruction IoU of 0.681, which significantly outperforms the encoder-decoder method by $1.71X and the retrieval-based method by $1.52X. Our method can also be promising for other multi-anatomy 3D reconstruction tasks.
翻訳日:2021-08-31 20:31:27 公開日:2021-08-30
# (参考訳) Shatter: シングルヘッドの自己アテンションと相対シーケンス分割を備えた効率的なトランスフォーマーエンコーダ

Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning ( http://arxiv.org/abs/2108.13032v1 )

ライセンス: CC BY 4.0
Ran Tian, Joshua Maynez, Ankur P. Parikh(参考訳) 自己注意に基づくトランスフォーマーアーキテクチャは、NLPにおいて永続的なパラダイムとなったBERTのような大規模事前訓練モデルの基盤となっている。 強力ではあるが、そのようなモデルを事前訓練するために必要な計算資源と時間は禁じられる。 本研究では、相対位置の空間をソフトに分割し、異なる値行列を配列の異なる部分に適用することにより、より効率的にシーケンス情報を符号化する自己注意型アーキテクチャShatterを提案する。 このメカニズムにより、Transformerのマルチヘッドアテンションを単一ヘッドに単純化することが可能になる。 我々は、ShatterがBERTよりも優れたパフォーマンスを実現し、事前トレーニングが1ステップあたり15%(TPUでは15%)速く、より少ないステップで収束し、かなりのメモリ節約(>50%)を提供することを示す広範な実験を行った。 まとめると、Shatterは7日間で8つのV100 GPU上で事前トレーニングが可能で、BERT_Baseのパフォーマンスに匹敵する。

The highly popular Transformer architecture, based on self-attention, is the foundation of large pretrained models such as BERT, that have become an enduring paradigm in NLP. While powerful, the computational resources and time required to pretrain such models can be prohibitive. In this work, we present an alternative self-attention architecture, Shatter, that more efficiently encodes sequence information by softly partitioning the space of relative positions and applying different value matrices to different parts of the sequence. This mechanism further allows us to simplify the multi-headed attention in Transformer to single-headed. We conduct extensive experiments showing that Shatter achieves better performance than BERT, with pretraining being faster per step (15% on TPU), converging in fewer steps, and offering considerable memory savings (>50%). Put together, Shatter can be pretrained on 8 V100 GPUs in 7 days, and match the performance of BERT_Base -- making the cost of pretraining much more affordable.
翻訳日:2021-08-31 20:22:05 公開日:2021-08-30
# (参考訳) 確率的推論のための Aleatoric Description Logic (Long Version)

Aleatoric Description Logic for Probailistic Reasoning (Long Version) ( http://arxiv.org/abs/2108.13036v1 )

ライセンス: CC BY 4.0
Tim French and Tom Smoker(参考訳) 記述論理は、存在論的知識基盤を記述する強力なツールである。 すなわち、彼らは個人、概念、関係の観点から世界の事実的な説明を与える。 不確実性が存在する場合、そのような事実的説明は実現不可能であり、主観的あるいは認識論的アプローチが必要である。 aleatoric description logicは、エージェントがこれらのdiceのバイアスに関して主観的な信念を持つサイコロのロールによって、世界の不確かさをaleatoric eventsとしてモデル化する。 これは主観的ベイズ記述論理(英語版)を提供し、命題と関係は有理エージェントが賭けるものに応じて割り当てられる確率であり、可能な個人とダイスの構成が与えられる。 アレータリック記述論理は記述論理 ALC を一般化するために示され、全ての役割が関数である ALC の制限の解釈の確率空間を記述することができる。 いくつかの計算問題を考慮し、モデルチェックと整合性チェックアルゴリズムを提案する。 最後に、アレータリック記述論理は、エージェントが観察に従ってサイコロのバイアスに基づいて自らの信念を条件付けできる学習をモデル化できることが示されている。

Description logics are a powerful tool for describing ontological knowledge bases. That is, they give a factual account of the world in terms of individuals, concepts and relations. In the presence of uncertainty, such factual accounts are not feasible, and a subjective or epistemic approach is required. Aleatoric description logic models uncertainty in the world as aleatoric events, by the roll of the dice, where an agent has subjective beliefs about the bias of these dice. This provides a subjective Bayesian description logic, where propositions and relations are assigned probabilities according to what a rational agent would bet, given a configuration of possible individuals and dice. Aleatoric description logic is shown to generalise the description logic ALC, and can be seen to describe a probability space of interpretations of a restriction of ALC where all roles are functions. Several computational problems are considered and model-checking and consistency checking algorithms are presented. Finally, aleatoric description logic is shown to be able to model learning, where agents are able to condition their beliefs on the bias of dice according to observations.
翻訳日:2021-08-31 20:02:50 公開日:2021-08-30
# (参考訳) データ駆動型コンバータ電力系統の小型信号モデリング

Data-driven Small-signal Modeling for Converter-based Power Systems ( http://arxiv.org/abs/2108.13046v1 )

ライセンス: CC BY 4.0
Francesca Rossi, Eduardo Prieto-Araujo, Marc Cheah-Mane, Oriol Gomis-Bellmunt(参考訳) 本稿では,コンバータを用いた電力系統研究に有用なデータ駆動型小信号モデルを提案する。 このモデルを計算するために、単一のdtとアンサンブルdtの両方を用いた決定木(dt)回帰とスプライン回帰が採用され、その性能は精度、トレーニング、計算時間の観点から比較されている。 この方法論には、従来のシミュレーションと数学的モデルによるデータ生成、データベース(DB)のアレンジメント、回帰トレーニングとテスト、新しいインスタンスの予測の実現といった、モデルを開発するための包括的なステップバイステップの手順が含まれている。 提案手法は,本質的なネットワークを用いて開発され,提案手法の有効性と有用性を示すために,より複雑なシステム上でテストされている。 どちらのパワーシステムテストケースもコンバータベースのパワーシステムの本質的な特性を持ち、コンバータインタフェース生成の高浸透とHVDCリンクの存在をシミュレートしている。 さらに, dt回帰を利用して, 幅広いシステム動作条件に対する小信号安定解析の結果を視覚的に表現する方法を提案する。 最後に, 電力系統小信号関連研究における発展モデルの可能性に注目し, モデルの適用可能性について考察した。

This article details a complete procedure to derive a data-driven small-signal-based model useful to perform converter-based power system related studies. To compute the model, Decision Tree (DT) regression, both using single DT and ensemble DT, and Spline regression have been employed and their performances have been compared, in terms of accuracy, training and computing time. The methodology includes a comprehensive step-by-step procedure to develop the model: data generation by conventional simulation and mathematical models, databases (DBs) arrangement, regression training and testing, realizing prediction for new instances. The methodology has been developed using an essential network and then tested on a more complex system, to show the validity and usefulness of the suggested approach. Both power systems test cases have the essential characteristics of converter-based power systems, simulating high penetration of converter interfaced generation and the presence of HVDC links. Moreover, it is proposed how to represent in a visual manner the results of the small-signal stability analysis for a wide range of system operating conditions, exploiting DT regressions. Finally, the possible applications of the model are discussed, highlighting the potential of the developed model in further power system small-signal related studies.
翻訳日:2021-08-31 19:29:28 公開日:2021-08-30
# (参考訳) NEREL: ネストされた名前のエンティティと関係を持つロシアのデータセット

NEREL: A Russian Dataset with Nested Named Entities and Relations ( http://arxiv.org/abs/2108.13112v1 )

ライセンス: CC BY 4.0
Natalia Loukachevitch and Ekaterina Artemova and Tatiana Batura and Pavel Braslavski and Ilia Denisov and Vladimir Ivanov and Suresh Manandhar and Alexander Pugachev and Elena Tutubalina(参考訳) 本稿では,名前付きエンティティ認識と関係抽出のためのロシアのデータセットであるnerelを提案する。 NERELは既存のロシアのデータセットよりもはるかに大きく、これまでは56Kの注釈付き名前付きエンティティと39Kの注釈付きリレーションを含んでいる。 以前のデータセットとの大きな違いは、ネストされた名前付きエンティティのアノテーションと、ネストされたエンティティと談話レベルでの関係である。 NERELは、ネストされた名前付きエンティティ間の関係を抽出し、文と文書の関係を抽出する新しいモデルの開発を容易にする。 NERELには、名前付きエンティティとイベントにおけるそれらの役割を含むイベントのアノテーションも含まれている。 NERELコレクションはhttps://github.com/nerel-ds/NERELから入手できる。

In this paper, we present NEREL, a Russian dataset for named entity recognition and relation extraction. NEREL is significantly larger than existing Russian datasets: to date it contains 56K annotated named entities and 39K annotated relations. Its important difference from previous datasets is annotation of nested named entities, as well as relations within nested entities and at the discourse level. NEREL can facilitate development of novel models that can extract relations between nested named entities, as well as relations on both sentence and document levels. NEREL also contains the annotation of events involving named entities and their roles in the events. The NEREL collection is available via https://github.com/nerel-ds/NEREL.
翻訳日:2021-08-31 19:01:18 公開日:2021-08-30
# (参考訳) Tune it or Don't Use: データ効率の良い画像分類のベンチマーク

Tune It or Don't Use It: Benchmarking Data-Efficient Image Classification ( http://arxiv.org/abs/2108.13122v1 )

ライセンス: CC BY 4.0
Lorenzo Brigato, Bj\"orn Barz, Luca Iocchi, Joachim Denzler(参考訳) 少数のラベル付きデータしか利用できない設定において、ディープニューラルネットワークを用いたデータ効率の高い画像分類は、近年、活発な研究分野となっている。 しかし、既存の研究では異なるデータセットを使用して評価し、デフォルトのハイパーパラメータで未修正のベースラインと比較することが多いため、公開メソッドの客観的比較は難しい。 我々は,様々な領域(自然画像,医用画像,衛星データなど)とデータタイプ(rgb,grayscale,multispectral)にまたがる6つの多様なデータセットからなる,データ効率の高い画像分類のためのベンチマークを設計した。 このベンチマークを用いて、2017年から2021年にかけて、標準的なクロスエントロピーベースラインとデータ効率の高いディープラーニングの8つの手法を再評価した。 公平かつ現実的な比較のために、各データセット上のすべてのメソッドのハイパーパラメータを慎重に調整する。 意外なことに、個別の検証で学習率、重み付け、バッチサイズを調整すると、高い競争力を持つベースラインが出来上がり、1つの専門的手法以外を上回り、残りの手法と競合する結果が得られます。

Data-efficient image classification using deep neural networks in settings, where only small amounts of labeled data are available, has been an active research area in the recent past. However, an objective comparison between published methods is difficult, since existing works use different datasets for evaluation and often compare against untuned baselines with default hyper-parameters. We design a benchmark for data-efficient image classification consisting of six diverse datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). Using this benchmark, we re-evaluate the standard cross-entropy baseline and eight methods for data-efficient deep learning published between 2017 and 2021 at renowned venues. For a fair and realistic comparison, we carefully tune the hyper-parameters of all methods on each dataset. Surprisingly, we find that tuning learning rate, weight decay, and batch size on a separate validation split results in a highly competitive baseline, which outperforms all but one specialized method and performs competitively to the remaining one.
翻訳日:2021-08-31 18:46:46 公開日:2021-08-30
# (参考訳) 深部NLPモデルのニューロンレベルでの解釈:サーベイ

Neuron-level Interpretation of Deep NLP Models: A Survey ( http://arxiv.org/abs/2108.13138v1 )

ライセンス: CC BY 4.0
Hassan Sajjad and Nadir Durrani and Fahim Dalvi(参考訳) 様々な領域におけるディープニューラルネットワークの増殖は、これらの手法の解釈可能性の必要性が高まっている。 深層ニューラルネットワークモデルの構成要素を解析し、理解するための研究が数多く行われている。 このようなラインや論文に沿って行われた予備的な作業は、よりハイレベルな表現分析に焦点が当てられた。 しかし、最近の研究は、より粒度の細かいレベルで解釈可能性に集中し、これらの大きなモデルでニューロンとニューロンのグループを分析する。 本稿では, ネットワーク内のニューロンの発見と理解のために開発された手法, ii) 限界と評価, iii) クロスアーキテクチャ比較を含む主要な知見として, モデル行動制御やドメイン適応といったニューロン解析の直接的応用, 今後の研究への可能性について検討した。

The proliferation of deep neural networks in various domains has seen an increased need for interpretability of these methods. A plethora of research has been carried out to analyze and understand components of the deep neural network models. Preliminary work done along these lines and papers that surveyed such, were focused on a more high-level representation analysis. However, a recent branch of work has concentrated on interpretability at a more granular level, analyzing neurons and groups of neurons in these large models. In this paper, we survey work done on fine-grained neuron analysis including: i) methods developed to discover and understand neurons in a network, ii) their limitations and evaluation, iii) major findings including cross architectural comparison that such analyses unravel and iv) direct applications of neuron analysis such as model behavior control and domain adaptation along with potential directions for future work.
翻訳日:2021-08-31 18:33:52 公開日:2021-08-30
# (参考訳) 信頼度評価のための感情分析データセット

A Sentiment Analysis Dataset for Trustworthiness Evaluation ( http://arxiv.org/abs/2108.13140v1 )

ライセンス: CC BY 4.0
Lijie Wang, Hao Liu, Shuyuan Peng, Hongxuan Tang, Xinyan Xiao, Ying Chen, Hua Wu(参考訳) ディープラーニングモデルは、ほとんどの人工知能タスクのパフォーマンスを大幅に向上させたが、ブラックボックスの問題のために信頼できないとしばしば批判される。 その結果、深層学習の信頼性を研究するために多くの研究が提案されている。 しかし、ほとんどのオープンデータセットはモデル出力の精度を評価するために設計されているため、ニューラルネットワークの内部動作を評価するための適切なデータセットが不足している。 データセットの欠如は明らかに信頼性研究の発展を妨げる。 そこで,信頼度の高いシステムを構築するための要因を体系的に評価するために,ロバスト性や解釈性を評価するための新しい,注釈付き感情分析データセットを提案する。 これらの要因を評価するために、当社のデータセットには、インスタンスの分散の困難さ、手動の逆境インスタンス、感情説明に関する様々なアノテーションが含まれています。 解釈性とロバスト性に関して、いくつかの評価指標がさらに提案されている。 データセットとメトリクスに基づいて、3つの典型的なモデルの信頼性に関する総合的な比較を行い、精度、堅牢性、解釈可能性の関係について検討する。 私たちはこの信頼性評価データセットを \url{https://github/xyz} でリリースしています。

While deep learning models have greatly improved the performance of most artificial intelligence tasks, they are often criticized to be untrustworthy due to the black-box problem. Consequently, many works have been proposed to study the trustworthiness of deep learning. However, as most open datasets are designed for evaluating the accuracy of model outputs, there is still a lack of appropriate datasets for evaluating the inner workings of neural networks. The lack of datasets obviously hinders the development of trustworthiness research. Therefore, in order to systematically evaluate the factors for building trustworthy systems, we propose a novel and well-annotated sentiment analysis dataset to evaluate robustness and interpretability. To evaluate these factors, our dataset contains diverse annotations about the challenging distribution of instances, manual adversarial instances and sentiment explanations. Several evaluation metrics are further proposed for interpretability and robustness. Based on the dataset and metrics, we conduct comprehensive comparisons for the trustworthiness of three typical models, and also study the relations between accuracy, robustness and interpretability. We release this trustworthiness evaluation dataset at \url{https://github/xyz} and hope our work can facilitate the progress on building more trustworthy systems for real-world applications.
翻訳日:2021-08-31 18:18:41 公開日:2021-08-30
# (参考訳) 最も単純なニューラルネットワークでもNP完全である到達可能性

Reachability Is NP-Complete Even for the Simplest Neural Networks ( http://arxiv.org/abs/2108.13179v1 )

ライセンス: CC BY 4.0
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークと接続型入出力仕様に対してNP完全であると主張した。 元の上界証明と下界証明のいくつかの欠陥を修復する。 さらに,np-hardnessは1層のみの単純な仕様とニューラルネットワークの制限クラスと,発生パラメータの最小要件を持つニューラルネットワークに対してすでに保持されていることを示す。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and conjunctive input/output specifications. We repair some flaws in the original upper and lower bound proofs. We then show that NP-hardness already holds for restricted classes of simple specifications and neural networks with just one layer, as well as neural networks with minimal requirements on the occurring parameters.
翻訳日:2021-08-31 18:02:42 公開日:2021-08-30
# (参考訳) 適応的摂動対向訓練:強化学習に基づく

Adaptive perturbation adversarial training: based on reinforcement learning ( http://arxiv.org/abs/2108.13239v1 )

ライセンス: CC BY 4.0
Zhishen Nie, Ying Lin, Sp Ren, Lan Zhang(参考訳) 敵の訓練は敵のサンプルを守る主要な方法となっている。 しかし、多くの欠点から実際に適用することは困難である。 対人訓練の欠点の1つは、通常のサンプルの認識精度を低下させることである。 この問題を緩和するために適応的摂動対向訓練を提案する。 それは、決定境界に近いが、敵の訓練のための決定境界を越えない、限定的な敵のサンプルを使用し、モデルの堅牢性を維持しながら、モデル認識の精度を向上させる。 しかし、限界対数サンプルの探索にはさらなる計算コストがかかる。 本稿では,強化学習に基づく限界対向サンプルの探索手法を提案し,これを最新の高速対向訓練技術と組み合わせることで,トレーニングプロセスを効果的に高速化し,トレーニングコストを削減する。

Adversarial training has become the primary method to defend against adversarial samples. However, it is hard to practically apply due to many shortcomings. One of the shortcomings of adversarial training is that it will reduce the recognition accuracy of normal samples. Adaptive perturbation adversarial training is proposed to alleviate this problem. It uses marginal adversarial samples that are close to the decision boundary but does not cross the decision boundary for adversarial training, which improves the accuracy of model recognition while maintaining the robustness of the model. However, searching for marginal adversarial samples brings additional computational costs. This paper proposes a method for finding marginal adversarial samples based on reinforcement learning, and combines it with the latest fast adversarial training technology, which effectively speeds up training process and reduces training costs.
翻訳日:2021-08-31 17:46:27 公開日:2021-08-30
# (参考訳) 統計的沈殿端における深部強化学習

Deep Reinforcement Learning at the Edge of the Statistical Precipice ( http://arxiv.org/abs/2108.13264v1 )

ライセンス: CC BY 4.0
Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare(参考訳) deep reinforcement learning (rl) アルゴリズムは、大きなタスクスイートでの相対的なパフォーマンスを比較することによって、主に評価される。 ディープRLベンチマークのほとんどの結果は、タスクの平均値や中央値スコアなどの集計性能の点推定を比較し、有限個のトレーニングランによる統計的不確実性を無視している。 アーケード学習環境 (Arcade Learning Environment, ALE) から、計算に要求されるベンチマークへのシフトは、タスク毎に少数の実行しか評価せず、ポイント推定における統計的不確実性を悪化させるという実践につながった。 本稿では, 深部RL体制における信頼性評価は, 現場の進行を遅らせるリスクを負わずに, 結果の不確実性を無視できないことを論じる。 この点について、Atari 100kベンチマークのケーススタディを用いて説明し、点推定だけで得られた結論とより詳細な統計分析との相当な相違を見出した。 報告結果に対するフィールドの信頼度を,少数のランで向上させることを目的として,集計結果の間隔推定を報告し,結果の変動を考慮に入れた性能プロファイルを提案するとともに,異種平均スコアなどのより堅牢で効率的な集計指標を提示し,結果の不確かさを小さくする。 このような統計ツールを用いて、ALE、Procgen、DeepMind Control Suiteなど、他の広く使われているRLベンチマーク上で、既存のアルゴリズムの性能評価を精査し、事前比較における相違点を明らかにした。 この結果から,より厳密な評価手法と,信頼性の低いオープンソースライブラリを併用して提案する深部RLの性能評価方法の変遷が示唆された。

Deep reinforcement learning (RL) algorithms are predominantly evaluated by comparing their relative performance on a large suite of tasks. Most published results on deep RL benchmarks compare point estimates of aggregate performance such as mean and median scores across tasks, ignoring the statistical uncertainty implied by the use of a finite number of training runs. Beginning with the Arcade Learning Environment (ALE), the shift towards computationally-demanding benchmarks has led to the practice of evaluating only a small number of runs per task, exacerbating the statistical uncertainty in point estimates. In this paper, we argue that reliable evaluation in the few run deep RL regime cannot ignore the uncertainty in results without running the risk of slowing down progress in the field. We illustrate this point using a case study on the Atari 100k benchmark, where we find substantial discrepancies between conclusions drawn from point estimates alone versus a more thorough statistical analysis. With the aim of increasing the field's confidence in reported results with a handful of runs, we advocate for reporting interval estimates of aggregate performance and propose performance profiles to account for the variability in results, as well as present more robust and efficient aggregate metrics, such as interquartile mean scores, to achieve small uncertainty in results. Using such statistical tools, we scrutinize performance evaluations of existing algorithms on other widely used RL benchmarks including the ALE, Procgen, and the DeepMind Control Suite, again revealing discrepancies in prior comparisons. Our findings call for a change in how we evaluate performance in deep RL, for which we present a more rigorous evaluation methodology, accompanied with an open-source library rliable, to prevent unreliable results from stagnating the field.
翻訳日:2021-08-31 17:36:13 公開日:2021-08-30
# (参考訳) StackGAN: 顔画像生成最適化

StackGAN: Facial Image Generation Optimizations ( http://arxiv.org/abs/2108.13290v1 )

ライセンス: CC BY 4.0
Badr Belhiti, Justin Milushev, Avinash Gupta, John Breedis, Johnson Dinh, Jesse Pisel, and Michael Pyrcz(参考訳) 現在の最先端フォトリアリスティック・ジェネレータは計算コストが高く、不安定なトレーニングプロセスが伴い、高次元空間で異なる実分布と合成分布を持つ。 これらの問題を解決するために,StackGANアーキテクチャの変種を提案する。 新しいアーキテクチャには条件付きジェネレータが組み込まれ、多くの段階で画像を構築する。 モデルでは,エッジに対するノイズ(ステージ1)とグレースケールへのエッジ(ステージ2)の2つの異なるステージにおいて,グレースケールな顔画像を生成する。 このモデルはceleba顔画像データセットを用いて訓練され、エッジ画像のfr\'echetインセプション距離(fid)スコア73と、合成エッジ画像を用いて生成されたグレースケール画像のスコア59を達成した。 我々のモデルでは, 最先端モデルとの関係でサブパー結果を得たが, ドロップアウト層は条件付きマッピングの過度な適合を低減できた。 さらに、ほとんどのイメージは重要な機能に分解できるため、モデルの改善は他のデータセットに一般化することができます。 したがって,本モデルは,従来のフォトリアリスティック画像生成手法よりも優れた代替手段として機能する可能性がある。

Current state-of-the-art photorealistic generators are computationally expensive, involve unstable training processes, and have real and synthetic distributions that are dissimilar in higher-dimensional spaces. To solve these issues, we propose a variant of the StackGAN architecture. The new architecture incorporates conditional generators to construct an image in many stages. In our model, we generate grayscale facial images in two different stages: noise to edges (stage one) and edges to grayscale (stage two). Our model is trained with the CelebA facial image dataset and achieved a Fr\'echet Inception Distance (FID) score of 73 for edge images and a score of 59 for grayscale images generated using the synthetic edge images. Although our model achieved subpar results in relation to state-of-the-art models, dropout layers could reduce the overfitting in our conditional mapping. Additionally, since most images can be broken down into important features, improvements to our model can generalize to other datasets. Therefore, our model can potentially serve as a superior alternative to traditional means of generating photorealistic images.
翻訳日:2021-08-31 16:59:45 公開日:2021-08-30
# (参考訳) FedKD:知識蒸留による効果的なフェデレーション学習

FedKD: Communication Efficient Federated Learning via Knowledge Distillation ( http://arxiv.org/abs/2108.13323v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Ruixuan Liu, Lingjuan Lyu, Yongfeng Huang, Xing Xie(参考訳) 連合学習は分散データからインテリジェントなモデルを学ぶために広く使われている。 連合学習では、クライアントはモデル学習の各イテレーションでローカルモデルのアップデートを伝える必要がある。 しかし、モデルが多数のパラメータを含む場合、モデル更新は大きなサイズであり、モデルが収束するまでは、通常多くの通信ラウンドが必要である。 したがって、連合学習におけるコミュニケーションコストは非常に重い。 本稿では,知識蒸留に基づくコミュニケーション効率のよいフェデレーション学習手法を提案する。 クライアントとサーバ間の大規模モデルを直接通信する代わりに,各クライアント上で学生と教師のモデルを相互に学習する適応的相互蒸留フレームワークを提案し,学生モデルのみが異なるクライアントで共有され,コミュニケーションコストを削減するために協調的に更新される。 各クライアント上の教師と生徒は、各クライアントのローカルデータと相互に蒸留された知識から学び、その蒸留強度は、その予測品質によって制御される。 通信コストをさらに削減するため、特異値分解に基づく動的勾配近似法を提案し、交換された勾配を動的精度で近似する。 異なるタスクにおけるベンチマークデータセットの大規模な実験により、我々の手法は通信コストを効果的に削減し、競争力のある結果が得られることを示した。

Federated learning is widely used to learn intelligent models from decentralized data. In federated learning, clients need to communicate their local model updates in each iteration of model learning. However, model updates are large in size if the model contains numerous parameters, and there usually needs many rounds of communication until model converges. Thus, the communication cost in federated learning can be quite heavy. In this paper, we propose a communication efficient federated learning method based on knowledge distillation. Instead of directly communicating the large models between clients and server, we propose an adaptive mutual distillation framework to reciprocally learn a student and a teacher model on each client, where only the student model is shared by different clients and updated collaboratively to reduce the communication cost. Both the teacher and student on each client are learned on its local data and the knowledge distilled from each other, where their distillation intensities are controlled by their prediction quality. To further reduce the communication cost, we propose a dynamic gradient approximation method based on singular value decomposition to approximate the exchanged gradients with dynamic precision. Extensive experiments on benchmark datasets in different tasks show that our approach can effectively reduce the communication cost and achieve competitive results.
翻訳日:2021-08-31 16:52:48 公開日:2021-08-30
# (参考訳) 不完全コホートデータを用いた因果発見のための多重インプテーションとテストワイズ削除

Multiple imputation and test-wise deletion for causal discovery with incomplete cohort data ( http://arxiv.org/abs/2108.13331v1 )

ライセンス: CC BY 4.0
Janine Witte, Ronja Foraita, Vanessa Didelez(参考訳) 因果発見アルゴリズムは観測データから因果グラフを推定する。 これにより、個々の治療対対間の因果関係に注目した分析に貴重な補足を与えることができる。 制約に基づく因果探索アルゴリズムは、グラフを構築する際に条件付き独立性テストに依存する。 最近まで、これらのアルゴリズムは欠落した値を処理できなかった。 本稿では,テスト方向削除と複数インプテーションという2つの代替解について検討する。 我々は, 因果構造の復元性に必要十分条件を定め, 因果関係発見の文脈において, 因果関係発見よりも複数のインプテーションがより困難であると主張する。 ベンチマーク因果グラフをシミュレートして広範な比較を実施している。 予想通り、テスト毎の削除と複数のインプテーションは、リスト毎の削除と単一のインプテーションよりも明らかに優れています。 特にガウス変数と離散変数のどちらかが少数存在する場合, いずれの手法も混在している場合, いずれの手法も一意に最適である。 比較した手法は,ランダムな森林インプテーションと,テストワイズインプテーションと複数インプテーションを組み合わせたハイブリッド手法である。 IDEFICSコホートによる欧州の小児の食生活と生活習慣関連疾患のコホート研究のデータへの応用は、具体例である。

Causal discovery algorithms estimate causal graphs from observational data. This can provide a valuable complement to analyses focussing on the causal relation between individual treatment-outcome pairs. Constraint-based causal discovery algorithms rely on conditional independence testing when building the graph. Until recently, these algorithms have been unable to handle missing values. In this paper, we investigate two alternative solutions: Test-wise deletion and multiple imputation. We establish necessary and sufficient conditions for the recoverability of causal structures under test-wise deletion, and argue that multiple imputation is more challenging in the context of causal discovery than for estimation. We conduct an extensive comparison by simulating from benchmark causal graphs: As one might expect, we find that test-wise deletion and multiple imputation both clearly outperform list-wise deletion and single imputation. Crucially, our results further suggest that multiple imputation is especially useful in settings with a small number of either Gaussian or discrete variables, but when the dataset contains a mix of both neither method is uniformly best. The methods we compare include random forest imputation and a hybrid procedure combining test-wise deletion and multiple imputation. An application to data from the IDEFICS cohort study on diet- and lifestyle-related diseases in European children serves as an illustrating example.
翻訳日:2021-08-31 16:32:08 公開日:2021-08-30
# (参考訳) DNNFusion: 高度な演算子融合によるディープニューラルネットワークの実行の高速化

DNNFusion: Accelerating Deep Neural Networks Execution with Advanced Operator Fusion ( http://arxiv.org/abs/2108.13342v1 )

ライセンス: CC BY 4.0
Wei Niu, Jiexiong Guan, Yanzhi Wang, Gagan Agrawal, Bin Ren(参考訳) Deep Neural Networks (DNN)は、モバイルデバイス上の多くの主要なアプリケーションのコアイネーブラーとして登場した。 高い精度を達成するために、DNNモデルは数百から数千の演算子層でますます深くなり、推論のメモリと計算の要求が高くなった。 オペレータフュージョン(またはカーネル/レイヤフュージョン)は、TensorFlow、TVM、MNNといった最先端のDNN実行フレームワークにおいて重要な最適化である。 しかしながら、これらのフレームワークは通常、演算子と層接続の多様性をカバーできないような特定のパターンに基づいて融合アプローチを採用する。 一方、多面体に基づくループ融合技術は、演算子レベル情報なしで計算の低レベルなビューに取り組んでおり、潜在的な融合機会を逃すこともできる。 この課題に対処するため,本稿ではdnnfusionと呼ばれるループ融合フレームワークを提案する。 この研究の基本的な考え方は、DNNのオペレータビューで作業することであるが、個々のオペレータとそれらの組み合わせの両方の分類を開発することで融合機会を拡張することである。 さらにDNNFusionは,1) 評価コストを削減し,その後の演算子融合を促進するための,新しい数学的プロパティベースのグラフ書き換えフレームワーク,2) 高レベル解析と正確な軽量プロファイリングを活用する統合融合計画生成,3) 融合コード生成時のさらなる最適化を含む。 DNNFusionは、タスクの種類、モデルサイズ、レイヤー数が異なる15のDNNモデルで広く評価されている。 評価の結果、DNNFusionは最大8.8倍の融合機会を示し、9.3倍のスピードアップで最先端の4つのDNN実行フレームワークを上回っている。 メモリ要求の削減とスピードアップにより、モバイルデバイス上で多くのターゲットモデルを実行できるようになり、リアルタイムアプリケーションの一部にすることもできる。

Deep Neural Networks (DNNs) have emerged as the core enabler of many major applications on mobile devices. To achieve high accuracy, DNN models have become increasingly deep with hundreds or even thousands of operator layers, leading to high memory and computational requirements for inference. Operator fusion (or kernel/layer fusion) is key optimization in many state-of-the-art DNN execution frameworks, such as TensorFlow, TVM, and MNN. However, these frameworks usually adopt fusion approaches based on certain patterns that are too restrictive to cover the diversity of operators and layer connections. Polyhedral-based loop fusion techniques, on the other hand, work on a low-level view of the computation without operator-level information, and can also miss potential fusion opportunities. To address this challenge, this paper proposes a novel and extensive loop fusion framework called DNNFusion. The basic idea of this work is to work at an operator view of DNNs, but expand fusion opportunities by developing a classification of both individual operators and their combinations. In addition, DNNFusion includes 1) a novel mathematical-property-based graph rewriting framework to reduce evaluation costs and facilitate subsequent operator fusion, 2) an integrated fusion plan generation that leverages the high-level analysis and accurate light-weight profiling, and 3) additional optimizations during fusion code generation. DNNFusion is extensively evaluated on 15 DNN models with varied types of tasks, model sizes, and layer counts. The evaluation results demonstrate that DNNFusion finds up to 8.8x higher fusion opportunities, outperforms four state-of-the-art DNN execution frameworks with 9.3x speedup. The memory requirement reduction and speedups can enable the execution of many of the target models on mobile devices and even make them part of a real-time application.
翻訳日:2021-08-31 16:31:00 公開日:2021-08-30
# (参考訳) ユーザ入力最小の病理画像のロバストな対話的意味セグメンテーション

Robust Interactive Semantic Segmentation of Pathology Images with Minimal User Input ( http://arxiv.org/abs/2108.13368v1 )

ライセンス: CC BY 4.0
Mostafa Jahanifar, Neda Zamani Tajeddin, Navid Alemi Koohbanani and Nasir Rajpoot(参考訳) 病理ワークフローにおける組織属性の簡易な測定から、診断/予後診断ツールの設計まで、組織画像における組織領域の正確なセグメンテーションへのアクセスは必須条件である。 しかし、異なる組織領域を手動で記述することは、専門家の知識を必要とする労力と時間とコストのかかる作業である。 一方、セマンティックセグメンテーションのための最先端の自動ディープラーニングモデルは、多くの注釈付きトレーニングデータを必要としており、公開されている組織領域の注釈付き画像は限られている。 計算機病理プロジェクトにおけるこの問題を解消し,大規模領域アノテーションを効率的に収集するために,ユーザからの入力を最小にし,組織像の異なる組織タイプを正確にアノテートする効率的な対話型セグメンテーションネットワークを提案する。 ユーザーは興味のある各領域に単純なリスグルを描くだけでよいので、モデルの誘導信号として使用される。 異なる組織領域の複雑な外観やアモルファス形状に対処するために、モデルがユーザ入力の変動に対して堅牢になるのに役立つ、いくつかの自動および最小限のガイド信号生成技術を導入する。 乳がん画像のデータセットを実験することにより,提案手法がインタラクティブなアノテーション処理を高速化するだけでなく,既存の自動的およびインタラクティブな領域分割モデルよりも優れていることを示す。

From the simple measurement of tissue attributes in pathology workflow to designing an explainable diagnostic/prognostic AI tool, access to accurate semantic segmentation of tissue regions in histology images is a prerequisite. However, delineating different tissue regions manually is a laborious, time-consuming and costly task that requires expert knowledge. On the other hand, the state-of-the-art automatic deep learning models for semantic segmentation require lots of annotated training data and there are only a limited number of tissue region annotated images publicly available. To obviate this issue in computational pathology projects and collect large-scale region annotations efficiently, we propose an efficient interactive segmentation network that requires minimum input from the user to accurately annotate different tissue types in the histology image. The user is only required to draw a simple squiggle inside each region of interest so it will be used as the guiding signal for the model. To deal with the complex appearance and amorph geometry of different tissue regions we introduce several automatic and minimalistic guiding signal generation techniques that help the model to become robust against the variation in the user input. By experimenting on a dataset of breast cancer images, we show that not only does our proposed method speed up the interactive annotation process, it can also outperform the existing automatic and interactive region segmentation models.
翻訳日:2021-08-31 15:54:34 公開日:2021-08-30
# (参考訳) 文書属性分類におけるマルチタスク学習の探索

Exploring Multi-Tasking Learning in Document Attribute Classification ( http://arxiv.org/abs/2108.13382v1 )

ライセンス: CC BY 4.0
Tanmoy Mondal, Abhijit Das and Zuheng Ming(参考訳) 本研究では,MTL(Multi-Tasking Learning)に基づくネットワークを探索し,フォントタイプ,フォントサイズ,フォント強調,文書画像のスキャン解像度分類などの文書属性分類を行う。 これらのタスクを達成するために、セグメンテーションされたワードレベルか、ドキュメントからランダムに切り抜かれた均一なサイズパッチのいずれかで操作します。 さらに、mtlとパッチとワードのマルチインテンス(mi)の組み合わせに基づくハイブリッド畳み込みニューラルネットワーク(cnn)アーキテクチャ「mtl+mi」を用いて、同一文書属性の分類のための共同学習を実現する。 本論文のコントリビューションは3つある: まず, 分割された単語画像とパッチに基づいて, フルドキュメント画像の分類のためのMTLベースのネットワークを示す。 第2に,同一文書属性の分類にCNNアーキテクチャ(MTL+MI)を併用したMTLとMIを提案する。 第3に,単語および/又はパッチのマルチタスク分類に基づいて,各単語および/又はパッチの後方確率に基づくインテリジェント投票システムを提案し,文書の属性の完全な文書画像の分類を行う。

In this work, we adhere to explore a Multi-Tasking learning (MTL) based network to perform document attribute classification such as the font type, font size, font emphasis and scanning resolution classification of a document image. To accomplish these tasks, we operate on either segmented word level or on uniformed size patches randomly cropped out of the document. Furthermore, a hybrid convolution neural network (CNN) architecture "MTL+MI", which is based on the combination of MTL and Multi-Instance (MI) of patch and word is used to accomplish joint learning for the classification of the same document attributes. The contribution of this paper are three fold: firstly, based on segmented word images and patches, we present a MTL based network for the classification of a full document image. Secondly, we propose a MTL and MI (using segmented words and patches) based combined CNN architecture ("MTL+MI") for the classification of same document attributes. Thirdly, based on the multi-tasking classifications of the words and/or patches, we propose an intelligent voting system which is based on the posterior probabilities of each words and/or patches to perform the classification of document's attributes of complete document image.
翻訳日:2021-08-31 15:47:09 公開日:2021-08-30
# 深部神経政策の脆弱性調査

Investigating Vulnerabilities of Deep Neural Policies ( http://arxiv.org/abs/2108.13093v1 )

ライセンス: Link先を確認
Ezgi Korkmaz(参考訳) ディープニューラルネットワークに基づく強化学習ポリシは、ニューラルネットワークイメージ分類器とほとんど同じように、入力に対する知覚不能な逆向きの摂動に対して脆弱である。 近年の研究では, 深い強化学習エージェントの対人摂動に対する堅牢性を, 知覚不能摂動の存在下でのトレーニングに基づいて改善する手法が提案されている。 対人訓練)。 本稿では,エージェントが学習した神経政策に対する対人訓練の効果について検討する。 特に,最悪の分布シフトと特徴感度に基づく深層神経政策における敵意訓練の結果を検討するために,二つの異なる並列アプローチを採った。 第1のアプローチでは、逆行訓練とバニラ訓練の両方で計算された最小摂動のフーリエスペクトルを比較する。 openai atari環境における実験により,敵が訓練したポリシーで計算された最小摂動はフーリエ領域の低周波に集中しており,低周波摂動に対するこれらのポリシーの感度が高いことを示している。 第2のアプローチでは、深層神経政策の特徴感度を測定する新しい手法を提案し、これらの特徴感度差を、最先端の対角神経政策とバニラ訓練の深部神経政策で比較した。 我々の結果は、敵の訓練とニューラルポリシーに対する堅牢性の概念の異なる関係を理解するための最初のステップであると考えている。

Reinforcement learning policies based on deep neural networks are vulnerable to imperceptible adversarial perturbations to their inputs, in much the same way as neural network image classifiers. Recent work has proposed several methods to improve the robustness of deep reinforcement learning agents to adversarial perturbations based on training in the presence of these imperceptible perturbations (i.e. adversarial training). In this paper, we study the effects of adversarial training on the neural policy learned by the agent. In particular, we follow two distinct parallel approaches to investigate the outcomes of adversarial training on deep neural policies based on worst-case distributional shift and feature sensitivity. For the first approach, we compare the Fourier spectrum of minimal perturbations computed for both adversarially trained and vanilla trained neural policies. Via experiments in the OpenAI Atari environments we show that minimal perturbations computed for adversarially trained policies are more focused on lower frequencies in the Fourier domain, indicating a higher sensitivity of these policies to low frequency perturbations. For the second approach, we propose a novel method to measure the feature sensitivities of deep neural policies and we compare these feature sensitivity differences in state-of-the-art adversarially trained deep neural policies and vanilla trained deep neural policies. We believe our results can be an initial step towards understanding the relationship between adversarial training and different notions of robustness for neural policies.
翻訳日:2021-08-31 15:06:40 公開日:2021-08-30
# automlによる通信計算効率のよいデバイスエッジコカンファレンス

Communication-Computation Efficient Device-Edge Co-Inference via AutoML ( http://arxiv.org/abs/2108.13009v1 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, Yuyi Mao, and Jun Zhang(参考訳) リソース制約のあるモバイルデバイスとエッジサーバの間にディープニューラルネットワークを分割するデバイスエッジコ推論は、インテリジェントなモバイルアプリケーションをサポートするための有望なパラダイムとして最近登場した。 推論過程を高速化するために、オンデバイスモデルスペーシフィケーションと中間特徴圧縮を2つの顕著なテクニックとみなす。 しかし、デバイス上のモデル間隔レベルと中間特徴圧縮比はそれぞれ計算負荷と通信オーバーヘッドに直接的な影響があり、どちらも推論精度に影響を与えるため、これらのハイパーパラメータの最適値を見つけることは、大きな探索空間のために大きな課題となる。 本稿では,これらのハイパーパラメータを決定する効率的なアルゴリズムの開発に尽力する。 中間特徴ベクトルに対して適切なモデル分割点と1対のエンコーダ/デコーダを選択することで、この問題を逐次的決定問題としてキャストし、深層強化学習(drl)に基づいて新しい自動機械学習(automl)フレームワークを提案する。 画像分類タスクにおける実験結果は,様々なベースライン方式に対して,よりよい通信計算トレードオフと有意な推論高速化を実現する上で,提案手法の有効性を示すものである。

Device-edge co-inference, which partitions a deep neural network between a resource-constrained mobile device and an edge server, recently emerges as a promising paradigm to support intelligent mobile applications. To accelerate the inference process, on-device model sparsification and intermediate feature compression are regarded as two prominent techniques. However, as the on-device model sparsity level and intermediate feature compression ratio have direct impacts on computation workload and communication overhead respectively, and both of them affect the inference accuracy, finding the optimal values of these hyper-parameters brings a major challenge due to the large search space. In this paper, we endeavor to develop an efficient algorithm to determine these hyper-parameters. By selecting a suitable model split point and a pair of encoder/decoder for the intermediate feature vector, this problem is casted as a sequential decision problem, for which, a novel automated machine learning (AutoML) framework is proposed based on deep reinforcement learning (DRL). Experiment results on an image classification task demonstrate the effectiveness of the proposed framework in achieving a better communication-computation trade-off and significant inference speedup against various baseline schemes.
翻訳日:2021-08-31 15:05:36 公開日:2021-08-30
# 変分推論入門

An Introduction to Variational Inference ( http://arxiv.org/abs/2108.13083v1 )

ライセンス: Link先を確認
Ankush Ganguly and Samuel W. F. Earp(参考訳) 複素確率密度の近似は、現代の統計学における中心的な問題である。 本稿では,複雑な確率密度を推定するために最適化手法を用いる機械学習において,変分推論(VI)の概念を導入する。 この性質により、viはマルコフ連鎖モンテカルロサンプリングのような古典的手法よりも高速に収束することができる。 概念的には、VI は確率密度関数の族を選択して、実際の確率密度に最も近いものを見つけることで機能する。 近似確率密度を気軽に計算するために下限のエビデンスを導入し,平均場変分推論の背後にある考え方を考察する。 最後に,Ve-Generative Adversarial Network (VAE-GAN) およびVAE-Generative Adversarial Network (VAE-GAN) へのVIの適用について述べる。 本稿では,viの概念を説明し,このアプローチによる今後の研究を支援することを目的とする。

Approximating complex probability densities is a core problem in modern statistics. In this paper, we introduce the concept of Variational Inference (VI), a popular method in machine learning that uses optimization techniques to estimate complex probability densities. This property allows VI to converge faster than classical methods, such as, Markov Chain Monte Carlo sampling. Conceptually, VI works by choosing a family of probability density functions and then finding the one closest to the actual probability density -- often using the Kullback-Leibler (KL) divergence as the optimization metric. We introduce the Evidence Lower Bound to tractably compute the approximated probability density and we review the ideas behind mean-field variational inference. Finally, we discuss the applications of VI to variational auto-encoders (VAE) and VAE-Generative Adversarial Network (VAE-GAN). With this paper, we aim to explain the concept of VI and assist in future research with this approach.
翻訳日:2021-08-31 15:05:15 公開日:2021-08-30
# スタック型アンサンブル機械学習アルゴリズムを用いた心不全患者の生存予測

Survival Prediction of Heart Failure Patients using Stacked Ensemble Machine Learning Algorithm ( http://arxiv.org/abs/2108.13367v1 )

ライセンス: Link先を確認
S.M Mehedi Zaman, Wasay Mahmood Qureshi, Md. Mohsin Sarker Raihan, Ocean Monjur and Abdullah Bin Shams(参考訳) 心臓血管疾患、特に心不全は、当時の主要な健康上の問題の一つであり、世界中で死因となっている。 機械学習(ML)モデルを用いたデータマイニング技術の進歩は、有望な予測アプローチを織り込んでいる。 データマイニングは、医療機関が作成した大量の生データを、予測や決定を下すのに役立つ意味のある情報に変換するプロセスである。 本研究の目的は、心不全患者からの各種追跡データを収集し、それらのデータを分析し、いくつかのmlモデルを用いて心血管系患者の生存可能性を予測することである。 データセット内のクラスの不均衡のため、SMOTE(Synthetic Minority Oversampling Technique)が実装されている。 2つの教師なしモデル(K-Means, Fuzzy C-Meansクラスタリング)と3つの教師なし分類器(Random Forest, XGBoost, Decision Tree)を用いた。 その結果,教師なしモデルよりも教師なしMLアルゴリズムの方が優れた性能を示した。 さらに,精度,精度,リコール,F1スコアの99.98%を達成できる教師付きアンサンブル学習モデルの設計と提案を行った。 本研究は、患者から収集した特定の属性のみが、教師付きMLアルゴリズムを用いて、心不全後の生存可能性を予測するために必須であることを示す。

Cardiovascular disease, especially heart failure is one of the major health hazard issues of our time and is a leading cause of death worldwide. Advancement in data mining techniques using machine learning (ML) models is paving promising prediction approaches. Data mining is the process of converting massive volumes of raw data created by the healthcare institutions into meaningful information that can aid in making predictions and crucial decisions. Collecting various follow-up data from patients who have had heart failures, analyzing those data, and utilizing several ML models to predict the survival possibility of cardiovascular patients is the key aim of this study. Due to the imbalance of the classes in the dataset, Synthetic Minority Oversampling Technique (SMOTE) has been implemented. Two unsupervised models (K-Means and Fuzzy C-Means clustering) and three supervised classifiers (Random Forest, XGBoost and Decision Tree) have been used in our study. After thorough investigation, our results demonstrate a superior performance of the supervised ML algorithms over unsupervised models. Moreover, we designed and propose a supervised stacked ensemble learning model that can achieve an accuracy, precision, recall and F1 score of 99.98%. Our study shows that only certain attributes collected from the patients are imperative to successfully predict the surviving possibility post heart failure, using supervised ML algorithms.
翻訳日:2021-08-31 15:04:59 公開日:2021-08-30
# 自動エッセイスコアリングエンジンにおけるデータサイズの影響

The effects of data size on Automated Essay Scoring engines ( http://arxiv.org/abs/2108.13275v1 )

ライセンス: Link先を確認
Christopher Ormerod, Amir Jafari, Susan Lottridge, Milan Patel, Amy Harris, and Paul van Wamelen(参考訳) データサイズと品質が3つの異なるパラダイムに従って設計された自動エッセイスコアリング(aes)エンジンの性能に及ぼす影響について検討した。 各タイプのモデルは、トレーニングデータのサイズと品質に非常に異なる方法でメリットがあると期待しています。 aesエンジンのトレーニングデータを開発するための標準的なプラクティスは、機能ベースの手法を念頭に置いて確立されましたが、ニューラルネットワークは、プロダクション環境ではますます検討されているので、本研究は、本番環境で使用されるニューラルネットワークのトレーニングデータを確立する方法を模索しています。

We study the effects of data size and quality on the performance on Automated Essay Scoring (AES) engines that are designed in accordance with three different paradigms; A frequency and hand-crafted feature-based model, a recurrent neural network model, and a pretrained transformer-based language model that is fine-tuned for classification. We expect that each type of model benefits from the size and the quality of the training data in very different ways. Standard practices for developing training data for AES engines were established with feature-based methods in mind, however, since neural networks are increasingly being considered in a production setting, this work seeks to inform us as to how to establish better training data for neural networks that will be used in production.
翻訳日:2021-08-31 15:01:23 公開日:2021-08-30
# 大規模英語モデルの多言語性について

On the Multilingual Capabilities of Very Large-Scale English Language Models ( http://arxiv.org/abs/2108.13349v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Ona de Gibert Bonet and Maite Melero(参考訳) GPT(Generative Pre-trained Transformer)は、機械学習の歴史において前例のない規模に拡張されている。 これらのモデルは、言語モデリングの目的にのみ訓練されており、様々なタスクにおいて優れた数発の学習能力を示すことが示されている。 それにもかかわらず、前訓練されたコーパスがほとんど完全に英語のテキストで構成されているという事実を考えると、その多言語能力についてはほとんど知られていない。 本研究では,GPT-3の多言語的スキルについて検討し,学習前コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。 このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。 本稿では,抽出質問文と自然言語生成におけるその可能性と限界,およびモデルサイズにおけるスケールの効果について検討する。

Generative Pre-trained Transformers (GPTs) have recently been scaled to unprecedented sizes in the history of machine learning. These models, solely trained on the language modeling objective, have been shown to exhibit outstanding few-shot learning capabilities in a number of different tasks. Nevertheless, aside from anecdotal experiences, little is known regarding their multilingual capabilities, given the fact that the pre-training corpus is almost entirely composed of English text. In this work, we investigate the multilingual skills of GPT-3, focusing on one language that barely appears in the pre-training corpus, Catalan, which makes the results especially meaningful; we assume that our results may be relevant for other languages as well. We find that the model shows an outstanding performance, particularly in generative tasks, with predictable limitations mostly in language understanding tasks but still with remarkable results given the zero-shot scenario. We investigate its potential and limits in extractive question-answering and natural language generation, as well as the effect of scale in terms of model size.
翻訳日:2021-08-31 15:01:10 公開日:2021-08-30
# ビデオ認識のための多変量空間における2ストリームモデル探索

Searching for Two-Stream Models in Multivariate Space for Video Recognition ( http://arxiv.org/abs/2108.12957v1 )

ライセンス: Link先を確認
Xinyu Gong, Heng Wang, Zheng Shou, Matt Feiszli, Zhangyang Wang and Zhicheng Yan(参考訳) 従来のビデオモデルは、複雑な時空間の特徴を捉えるために単一のストリームに依存している。 SlowFast NetworkやAssembleNetのような2ストリームビデオモデルに関する最近の研究は、補完機能を学ぶために別々のストリームをプリスクライブし、より強力なパフォーマンスを達成する。 しかし、両方のストリームと中間核融合ブロックを手動で設計することは大変な作業であり、非常に大きな設計空間を探索する必要がある。 このような手作業による探索は時間がかかり、計算資源が制限され、探索が不十分な場合、しばしば準最適アーキテクチャで終わる。 本研究では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。 探索変数を6つ含む多変量探索空間を設計し、2ストリームモデルの設計における様々な選択肢を捉える。 さらに,個別のストリーム,融合ブロック,アテンションブロックのアーキテクチャを次々に探索することで,プログレッシブな探索手順を提案する。 設計領域で性能が大幅に向上した2ストリームモデルを自動的に発見できることを示す。 私たちは2ストリームモデル、すなわちAuto-TSNetを標準ベンチマークで一貫して比較した。 Kineticsでは、SlowFastモデルと比較して、Auto-TSNet-LモデルはFLOPSを約11倍削減し、78.9%の精度を達成した。 Something-Something-V2では、ビデオあたり50GFLOPS未満の他の手法に比べて、Auto-TSNet-Mの精度を少なくとも2%向上させる。

Conventional video models rely on a single stream to capture the complex spatial-temporal features. Recent work on two-stream video models, such as SlowFast network and AssembleNet, prescribe separate streams to learn complementary features, and achieve stronger performance. However, manually designing both streams as well as the in-between fusion blocks is a daunting task, requiring to explore a tremendously large design space. Such manual exploration is time-consuming and often ends up with sub-optimal architectures when computational resources are limited and the exploration is insufficient. In this work, we present a pragmatic neural architecture search approach, which is able to search for two-stream video models in giant spaces efficiently. We design a multivariate search space, including 6 search variables to capture a wide variety of choices in designing two-stream models. Furthermore, we propose a progressive search procedure, by searching for the architecture of individual streams, fusion blocks, and attention blocks one after the other. We demonstrate two-stream models with significantly better performance can be automatically discovered in our design space. Our searched two-stream models, namely Auto-TSNet, consistently outperform other models on standard benchmarks. On Kinetics, compared with the SlowFast model, our Auto-TSNet-L model reduces FLOPS by nearly 11 times while achieving the same accuracy 78.9%. On Something-Something-V2, Auto-TSNet-M improves the accuracy by at least 2% over other methods which use less than 50 GFLOPS per video.
翻訳日:2021-08-31 14:59:58 公開日:2021-08-30
# 効率良く汎用的な果実検出のための3次元作物モデルとganの登録

Enlisting 3D Crop Models and GANs for More Data Efficient and Generalizable Fruit Detection ( http://arxiv.org/abs/2108.13344v1 )

ライセンス: Link先を確認
Zhenghao Fei, Alex Olenskyj, Brian N. Bailey, Mason Earles(参考訳) 高いパフォーマンスと一般化性を達成するために、現実世界のニューラルネットワークモデルをトレーニングするには、一般的に大量のラベル付きデータが必要である。 このデータラベル付けプロセスは、労力とコストの両方がかかる可能性がある。 望ましい予測性能を達成するために、トレーニングされたモデルは通常、トレーニングデータセットとデータ分散が類似した領域に適用される。 しかし、多くの農業機械学習問題では、成長シーズンの特定の期間に、特定の場所でトレーニングデータセットが収集される。 農業システムは、作物の種類、品種、管理、季節的成長のダイナミクス、照明条件、センサータイプなどにおいてかなりの多様性を示すため、あるデータセットから訓練されたモデルがドメイン間でうまく一般化しないことが多い。 農業におけるデータ効率と汎用性を高めるために,合成3次元作物モデルドメインから実世界作物ドメインへフォトリアリスティックな農業画像を生成する手法を提案する。 本手法は, 果実の位置と形状を保存するために, 意味的に制約されたGAN (generative adversarial network) を用いる。 ベースライン・サイクガン法は視覚的な対象領域画像を生成するが, 果実位置情報を保存せず, 果実位置を良好に維持する。 ビニヤードグレープの昼夜画像における画像生成結果から,ネットワークの視覚的出力がベースラインネットワークよりもはるかに優れていることが分かる。 ブドウ栽培ブドウ検出タスクにおけるインクリメンタルなトレーニング実験により,本手法から生成した画像はドメイン適応過程を著しく高速化し,ラベル付き画像(すなわち,ラベル付き画像)の性能を向上させることができることが示された。 データ効率)とラベル付け要件の削減。

Training real-world neural network models to achieve high performance and generalizability typically requires a substantial amount of labeled data, spanning a broad range of variation. This data-labeling process can be both labor and cost intensive. To achieve desirable predictive performance, a trained model is typically applied into a domain where the data distribution is similar to the training dataset. However, for many agricultural machine learning problems, training datasets are collected at a specific location, during a specific period in time of the growing season. Since agricultural systems exhibit substantial variability in terms of crop type, cultivar, management, seasonal growth dynamics, lighting condition, sensor type, etc, a model trained from one dataset often does not generalize well across domains. To enable more data efficient and generalizable neural network models in agriculture, we propose a method that generates photorealistic agricultural images from a synthetic 3D crop model domain into real world crop domains. The method uses a semantically constrained GAN (generative adversarial network) to preserve the fruit position and geometry. We observe that a baseline CycleGAN method generates visually realistic target domain images but does not preserve fruit position information while our method maintains fruit positions well. Image generation results in vineyard grape day and night images show the visual outputs of our network are much better compared to a baseline network. Incremental training experiments in vineyard grape detection tasks show that the images generated from our method can significantly speed the domain adaption process, increase performance for a given number of labeled images (i.e. data efficiency), and decrease labeling requirements.
翻訳日:2021-08-31 14:59:37 公開日:2021-08-30
# Auto-Split: エッジクラウドAIの汎用フレームワーク

Auto-Split: A General Framework of Collaborative Edge-Cloud AI ( http://arxiv.org/abs/2108.13041v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi, Naveen Vedula, Jian Pei, Fei Xia, Lanjun Wang, Yong Zhang(参考訳) 多くの業界規模のアプリケーションでは、大規模かつリソースを消費する機械学習モデルが強力なクラウドサーバに存在する。 同時に、クラウドの端で大量の入力データが収集される。 推論結果は、ユーザにも伝達されるか、エッジのダウンストリームタスクに渡される。 エッジはしばしば多数の低消費電力デバイスで構成されている。 高度な深層モデル展開をサポートし、モデルの精度を高く保ち、エンドツーエンドのレイテンシを低く抑えるために、効率的なモデル推論を行うように、業界製品を設計することは大きな課題である。 本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。 この特許取得された技術は、すでに選択したアプリケーションで検証されており、より広範な体系的なエッジクラウドアプリケーション統合に向かっており、エンドツーエンドのクラウド-エッジ協調インテリジェンスデプロイメントのための自動化パイプラインサービスとして一般に利用可能になっている。 私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。

In many industry scale applications, large and resource consuming machine learning models reside in powerful cloud servers. At the same time, large amounts of input data are collected at the edge of cloud. The inference results are also communicated to users or passed to downstream tasks at the edge. The edge often consists of a large number of low-power devices. It is a big challenge to design industry products to support sophisticated deep model deployment and conduct model inference in an efficient manner so that the model accuracy remains high and the end-to-end latency is kept low. This paper describes the techniques and engineering practice behind Auto-Split, an edge-cloud collaborative prototype of Huawei Cloud. This patented technology is already validated on selected applications, is on its way for broader systematic edge-cloud application integration, and is being made available for public use as an automated pipeline service for end-to-end cloud-edge collaborative intelligence deployment. To the best of our knowledge, there is no existing industry product that provides the capability of Deep Neural Network (DNN) splitting.
翻訳日:2021-08-31 14:57:33 公開日:2021-08-30
# 知識グラフ埋め込みによるドメイン理解の非神秘化薬物

Demystifying Drug Repurposing Domain Comprehension with Knowledge Graph Embedding ( http://arxiv.org/abs/2108.13051v1 )

ライセンス: Link先を確認
Edoardo Ramalli, Alberto Parravicini, Guido Walter Di Donato, Mirko Salaris, C\'eline Hudelot, Marco Domenico Santambrogio(参考訳) 医薬品開発コストの上昇や、新興疾患への迅速な対応の必要性から、薬物の再利用はこれまでになく重要視されている。 知識グラフの埋め込みにより、ヘテロジニアスなデータソースと最先端の機械学習モデルを組み合わせることで、知識グラフ内の新しい薬物放出リンクを予測することができる。 多くの機械学習アプリケーションと同様に、予測モデルの振る舞いを理解するためには重要な作業が必要である。 薬物再資源化のための機械学習モデルのより良い結果を理解するための構造化手法を提案し、計算資源を節約しながら予測を改善するための知識グラフの重要な要素を提案する。 トレーニングセットの11.05%と埋め込みスペースを31.87%削減し, 精度を2%削減し, オープンなogbl-biokgグラフ上での精度を60%向上した。

Drug repurposing is more relevant than ever due to drug development's rising costs and the need to respond to emerging diseases quickly. Knowledge graph embedding enables drug repurposing using heterogeneous data sources combined with state-of-the-art machine learning models to predict new drug-disease links in the knowledge graph. As in many machine learning applications, significant work is still required to understand the predictive models' behavior. We propose a structured methodology to understand better machine learning models' results for drug repurposing, suggesting key elements of the knowledge graph to improve predictions while saving computational resources. We reduce the training set of 11.05% and the embedding space by 31.87%, with only a 2% accuracy reduction, and increase accuracy by 60% on the open ogbl-biokg graph adding only 1.53% new triples.
翻訳日:2021-08-31 14:57:16 公開日:2021-08-30
# チューニングするか、チューニングしないか? 重要なハイパーパラメータを推奨するアプローチ

To tune or not to tune? An Approach for Recommending Important Hyperparameters ( http://arxiv.org/abs/2108.13066v1 )

ライセンス: Link先を確認
Mohamadjavad Bahmani, Radwa El Shawi, Nshan Potikyan, Sherif Sakr(参考訳) 機械学習における新しい技術は、アルゴリズム選択とハイパーパラメータ最適化の複雑さを和らげる。 ハイパーパラメータは機械学習モデルの性能に大きな影響を与えるため、機械学習モデルにとって重要である。 多くの最適化技術はハイパーパラメータチューニングで顕著な成功を収め、人間の専門家のパフォーマンスを上回った。 しかし、ブラックボックスアルゴリズムのような技術に依存すると、機械学習の実践者は異なるハイパーパラメーターの相対的重要性を知らずに残すことができる。 本稿では,6つの分類器と200のデータセットに基づく実験結果を用いて,機械学習モデルの性能とハイパーパラメータの関係を構築し,トレンドを発見し,洞察を得る。 提案手法では,時間を要するチューニング戦略を実施すべきかどうかを判断し,最も重要なハイパーパラメータに着目し,チューニングに適したハイパーパラメータ空間を選択する。 実験の結果,傾斜促進とadaboostは,200問題にわたる他の分類器よりも優れていることがわかった。 しかし、パフォーマンスを高めるにはチューニングが必要だ。 総じて,本研究の結果は,誘導型ハイパーパラメータ最適化への取り組みと,より自動化された機械学習フレームワークの開発に寄与する定量的基盤を提供する。

Novel technologies in automated machine learning ease the complexity of algorithm selection and hyperparameter optimization. Hyperparameters are important for machine learning models as they significantly influence the performance of machine learning models. Many optimization techniques have achieved notable success in hyperparameter tuning and surpassed the performance of human experts. However, depending on such techniques as blackbox algorithms can leave machine learning practitioners without insight into the relative importance of different hyperparameters. In this paper, we consider building the relationship between the performance of the machine learning models and their hyperparameters to discover the trend and gain insights, with empirical results based on six classifiers and 200 datasets. Our results enable users to decide whether it is worth conducting a possibly time-consuming tuning strategy, to focus on the most important hyperparameters, and to choose adequate hyperparameter spaces for tuning. The results of our experiments show that gradient boosting and Adaboost outperform other classifiers across 200 problems. However, they need tuning to boost their performance. Overall, the results obtained from this study provide a quantitative basis to focus efforts toward guided automated hyperparameter optimization and contribute toward the development of better-automated machine learning frameworks.
翻訳日:2021-08-31 14:57:00 公開日:2021-08-30
# 深部非線形関数近似器のための高速点解法

A fast point solver for deep nonlinear function approximators ( http://arxiv.org/abs/2108.13097v1 )

ライセンス: Link先を確認
Laurence Aitchison(参考訳) ディープカーネルプロセス(DKP)はベイズニューラルネットワークを一般化するが、特徴または重みの両方を表現する必要はない。 代わりに、隠れたレイヤごとにフレキシブルなカーネルを表現し、最適化する。 そこで我々は,制御理論の文献で最初に開発された行列解法を利用して,約10ステップで収束するDKPのニュートン様法を開発した。 これらは通常の勾配降下アプローチの何倍も高速である。 我々は、任意のdkpアーキテクチャに一般化し、"kernel backprop" と "kernel autodiff" のアルゴリズムを開発する。 これらの手法は現在ベイズ的ではないため、点の推定値を与え、データポイントの数で立方体であるため、スケールが不十分であるが、より効率的なアプローチでより深い非線形関数近似器を最適化する手法の基礎を形成することを願っている。

Deep kernel processes (DKPs) generalise Bayesian neural networks, but do not require us to represent either features or weights. Instead, at each hidden layer they represent and optimize a flexible kernel. Here, we develop a Newton-like method for DKPs that converges in around 10 steps, exploiting matrix solvers initially developed in the control theory literature. These are many times faster the usual gradient descent approach. We generalise to arbitrary DKP architectures, by developing "kernel backprop", and algorithms for "kernel autodiff". While these methods currently are not Bayesian as they give point estimates and scale poorly as they are cubic in the number of datapoints, we hope they will form the basis of a new class of much more efficient approaches to optimizing deep nonlinear function approximators.
翻訳日:2021-08-31 14:55:47 公開日:2021-08-30
# 3DStyleNet:幾何学とテクスチャスタイルのバリエーションで3D形状を作る

3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations ( http://arxiv.org/abs/2108.12958v1 )

ライセンス: Link先を確認
Kangxue Yin, Jun Gao, Maria Shugrina, Sameh Khamis, Sanja Fidler(参考訳) 3dコンテンツ作成を民主化するために,3dオブジェクトの多彩な幾何学的・テクスチャ的バリエーションを創り出す手法を提案する。 一対のテクスチャドソースと対象オブジェクトが与えられると、本手法は、対象の全体的な幾何学的スタイルを模倣するために、ソース形状を自然にゆがめる部分認識アフィン変換フィールドを予測する。 さらに、マルチビュー微分可能なレンダラの助けを借りて、ターゲットのテクスチャスタイルをワープされたソースオブジェクトに転送する。 我々のモデルである3DStyleNetは、2つの段階で訓練された2つのサブネットワークで構成されています。 まず、幾何学的スタイルネットワークは、テキストのない大きな3d形状のセットで訓練される。 第2に、幾何学的スタイルネットワークと事前学習された画像スタイル転送ネットワークを共同で最適化し、幾何と結果のレンダリングの両方において損失が定義された。 高品質なテクスチャオブジェクトの小さなセットが与えられた場合,本手法は多くの新しいスタイルの形状を作成でき,その結果,無駄な3Dコンテンツ作成とスタイルウェアデータ拡張を実現している。 我々は,3dコンテンツのスタイライゼーションを定性的に評価するアプローチを示し,その結果の質を検証するためのユーザスタディを提供する。 さらに,本手法はコンピュータビジョンタスクのための3次元データ拡張のための貴重なツールとして機能する。 3DStyleNetは,1次元画像再構成の下流タスクにおいて,代替データ拡張手法よりも優れていた。

We propose a method to create plausible geometric and texture style variations of 3D objects in the quest to democratize 3D content creation. Given a pair of textured source and target objects, our method predicts a part-aware affine transformation field that naturally warps the source shape to imitate the overall geometric style of the target. In addition, the texture style of the target is transferred to the warped source object with the help of a multi-view differentiable renderer. Our model, 3DStyleNet, is composed of two sub-networks trained in two stages. First, the geometric style network is trained on a large set of untextured 3D shapes. Second, we jointly optimize our geometric style network and a pre-trained image style transfer network with losses defined over both the geometry and the rendering of the result. Given a small set of high-quality textured objects, our method can create many novel stylized shapes, resulting in effortless 3D content creation and style-ware data augmentation. We showcase our approach qualitatively on 3D content stylization, and provide user studies to validate the quality of our results. In addition, our method can serve as a valuable tool to create 3D data augmentations for computer vision tasks. Extensive quantitative analysis shows that 3DStyleNet outperforms alternative data augmentation techniques for the downstream task of single-image 3D reconstruction.
翻訳日:2021-08-31 14:54:03 公開日:2021-08-30
# 混合交通流を伴う多層断面における統合的決定と制御

Integrated Decision and Control at Multi-Lane Intersections with Mixed Traffic Flow ( http://arxiv.org/abs/2108.13038v1 )

ライセンス: Link先を確認
Jianhua Jiang, Yangang Ren, Yang Guan, Shengbo Eben Li, Yuming Yin and Xiaoping Jin(参考訳) 交差点での自動運転は、特に車両、自転車、歩行者などの混成交通参加者において、最も複雑で事故を起こしやすい交通シナリオの1つである。 運転方針は、動的な交通条件を処理し、オンボード計算の要件を満たすために安全な決定を下すべきである。 しかし、現在の研究のほとんどは、周囲の車両と理想化された信号機のみを考慮した簡易的な交差点に焦点を当てている。 本稿では,統合的な意思決定・制御の枠組みを改良し,交通信号の現実的な特性を考慮しつつ,異なる安全制約の下で安全な政策を学ぶことのできる,混在する交通流との複雑な交差点を扱う学習ベースアルゴリズムを開発した。 まず、学習過程における緑と赤の異なる速度モデルについて検討し、有限状態マシンを用いて異なるモードの光変換を扱う。 次に, 車両, 信号機, 歩行者, 自転車にそれぞれ異なる種類の距離制約を設計し, 最適化すべき最適制御問題 (OCP) をフォーミュレートする。 最後に、一連のOCPを解決するために、価値とポリシーネットワークを備えた強化学習(RL)を採用する。 提案手法の安全性と効率性を検証するため,大規模混在交通参加者の存在とマルチレーン交差点を設計し,実用的な信号位相を設定する。 シミュレーションの結果, 訓練された意思決定・制御方針は, 安全性と追跡性能のバランスをとれることがわかった。 モデル予測制御(MPC)と比較すると、計算時間は3桁以下である。

Autonomous driving at intersections is one of the most complicated and accident-prone traffic scenarios, especially with mixed traffic participants such as vehicles, bicycles and pedestrians. The driving policy should make safe decisions to handle the dynamic traffic conditions and meet the requirements of on-board computation. However, most of the current researches focuses on simplified intersections considering only the surrounding vehicles and idealized traffic lights. This paper improves the integrated decision and control framework and develops a learning-based algorithm to deal with complex intersections with mixed traffic flows, which can not only take account of realistic characteristics of traffic lights, but also learn a safe policy under different safety constraints. We first consider different velocity models for green and red lights in the training process and use a finite state machine to handle different modes of light transformation. Then we design different types of distance constraints for vehicles, traffic lights, pedestrians, bicycles respectively and formulize the constrained optimal control problems (OCPs) to be optimized. Finally, reinforcement learning (RL) with value and policy networks is adopted to solve the series of OCPs. In order to verify the safety and efficiency of the proposed method, we design a multi-lane intersection with the existence of large-scale mixed traffic participants and set practical traffic light phases. The simulation results indicate that the trained decision and control policy can well balance safety and tracking performance. Compared with model predictive control (MPC), the computational time is three orders of magnitude lower.
翻訳日:2021-08-31 14:53:09 公開日:2021-08-30
# 量子回路による二項特徴を持つ二項分類木の表現

Representation of binary classification trees with binary features by quantum circuits ( http://arxiv.org/abs/2108.13207v1 )

ライセンス: Link先を確認
Raoul Heese, Patricia Bickert, Astrid Elisa Niederle(参考訳) 確率的アプローチに基づく二項特徴を持つ二項分類木の量子表現を提案する。 確率分布のプロセッサとして量子コンピュータを用いることで、決定木の確率論的トラバースを量子回路の測定により実現することができる。 本稿では,クエリデータのツリーインジェクションとクラスラベルの予測をこのフレームワークに組み込む方法について述べる。 オンデマンドサンプリング方式では,木深度に依存しない定数の古典的メモリスロットによる予測が可能となる。 量子コンピューティングシミュレータと実際のibm量子ハードウェアの両方を用いて、このアプローチを実験的に研究する。 我々の知る限り、これは量子デバイス上の決定木分類器の最初の実現である。

We propose a quantum representation of binary classification trees with binary features based on a probabilistic approach. By using the quantum computer as a processor for probability distributions, a probabilistic traversal of the decision tree can be realized via measurements of a quantum circuit. We describe how tree inductions and the prediction of class labels of query data can be integrated into this framework. An on-demand sampling method enables predictions with a constant number of classical memory slots, independent of the tree depth. We experimentally study our approach using both a quantum computing simulator and actual IBM quantum hardware. To our knowledge, this is the first realization of a decision tree classifier on a quantum device.
翻訳日:2021-08-31 14:52:18 公開日:2021-08-30
# 機械学習アルゴリズムを用いたTVUSに基づく卵巣嚢胞からの卵巣癌の予知

Ovarian Cancer Prediction from Ovarian Cysts Based on TVUS Using Machine Learning Algorithms ( http://arxiv.org/abs/2108.13387v1 )

ライセンス: Link先を確認
Laboni Akter, Nasrin Akhter(参考訳) 卵巣癌(おんがくがん、英: ovarian cancer、oc)は、若い女性の生殖悪性腫瘍の一種で、若い女性や主に生殖または生殖において見られる。 多くの嚢胞が危険であり、がんを引き起こす可能性がある。 そこで,この検出にはトランスヴァージナル超音波(TVUS)スクリーニングを用いて,異なる種類のスクリーニングから行うことが可能である,予測が極めて重要である。 本研究では,TVUSスクリーニングと3つの機械学習(ML)技術を備えたPLCOと呼ばれる実際のデータセットを,それぞれRandom Forest KNN,XGBoostの3変数に導入した。 99.50%, 99.50%, 99.49%, 99.50%の近似を用いて, このアルゴリズムの精度, リコール, f1スコア, 精度で最高の性能を得た。 AUCの99.87%、98.97%、99.88%のスコアは、これらのランダムフォレスト、KNN、XGBアルゴリズムで観測されている。

Ovarian Cancer (OC) is type of female reproductive malignancy which can be found among young girls and mostly the women in their fertile or reproductive. There are few number of cysts are dangerous and may it cause cancer. So, it is very important to predict and it can be from different types of screening are used for this detection using Transvaginal Ultrasonography (TVUS) screening. In this research, we employed an actual datasets called PLCO with TVUS screening and three machine learning (ML) techniques, respectively Random Forest KNN, and XGBoost within three target variables. We obtained a best performance from this algorithms as far as accuracy, recall, f1 score and precision with the approximations of 99.50%, 99.50%, 99.49% and 99.50% individually. The AUC score of 99.87%, 98.97% and 99.88% are observed in these Random Forest, KNN and XGB algorithms .This approach helps assist physicians and suspects in identifying ovarian risks early on, reducing ovarian malignancy-related complications and deaths.
翻訳日:2021-08-31 14:52:08 公開日:2021-08-30
# 画像操作検出と局所化のためのJPEG圧縮アーチファクトの学習

Learning JPEG Compression Artifacts for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2108.12947v1 )

ライセンス: Link先を確認
Myung-Joon Kwon, Seung-Hun Nam, In-Jae Yu, Heung-Kyu Lee, Changick Kim(参考訳) 画像編集技術の悪用に対処するためには、画像操作の検出とローカライズが必要である。 したがって、画像中の固有統計を解析することにより、真正領域と改ざん領域を区別することが不可欠である。 画像の取得と編集に残されたJPEG圧縮アーティファクトに焦点を当てる。 本稿では、圧縮アーティファクトが残る離散コサイン変換(DCT)係数を用いた畳み込みニューラルネットワーク(CNN)による画像操作のローカライズを提案する。 標準CNNは、DCT係数に不可欠な空間座標を捨てるため、DCT係数の分布を学習できない。 本稿では,dct係数の分布を学習できるニューラルネットワークの設計と訓練について述べる。 さらに,画像取得アーティファクトと圧縮アーティファクトを併用した圧縮アーティファクト追跡ネットワーク(CAT-Net)を導入する。 これは、改ざんされた領域を検出してローカライズする、従来のニューラルネットワークとディープニューラルネットワークベースの手法を著しく上回る。

Detecting and localizing image manipulation are necessary to counter malicious use of image editing techniques. Accordingly, it is essential to distinguish between authentic and tampered regions by analyzing intrinsic statistics in an image. We focus on JPEG compression artifacts left during image acquisition and editing. We propose a convolutional neural network (CNN) that uses discrete cosine transform (DCT) coefficients, where compression artifacts remain, to localize image manipulation. Standard CNNs cannot learn the distribution of DCT coefficients because the convolution throws away the spatial coordinates, which are essential for DCT coefficients. We illustrate how to design and train a neural network that can learn the distribution of DCT coefficients. Furthermore, we introduce Compression Artifact Tracing Network (CAT-Net) that jointly uses image acquisition artifacts and compression artifacts. It significantly outperforms traditional and deep neural network-based methods in detecting and localizing tampered regions.
翻訳日:2021-08-31 14:51:25 公開日:2021-08-30
# the missing link: a safety case for perception components in automated driving

The missing link: Developing a safety case for perception components in automated driving ( http://arxiv.org/abs/2108.13294v1 )

ライセンス: Link先を確認
Rick Salay, Krzysztof Czarnecki, Hiroshi Kuwajima, Hirotoshi Yasuoka, Toshihiro Nakae, Vahdat Abdelzad, Chengjie Huang, Maximilian Kahn, Van Duong Nguyen(参考訳) 安全保証は、自動運転(AD)システムの開発と社会的受容の中心的な関心事である。 知覚は、機械学習(ML)に大きく依存するADの重要な側面である。 mlベースのコンポーネントの安全性保証に関する既知の課題にもかかわらず、最近、これらのコンポーネントに対処するユニットレベルの安全ケースに関する提案がなされている。 残念なことに、adsafety caseはシステムレベルでの安全要件を表しており、これらの取り組みは、システムレベルでの安全要件とユニットレベルでのコンポーネントパフォーマンス要求をつなぐ重要なリンク議論を欠いている。 本稿では,知覚成分に特化したリンク引数のための汎用テンプレートを提案する。 テンプレートは、レベル間の強いトレーサビリティを定義するために、推論的かつ形式的なアプローチを取る。 テンプレートの適用性を詳細なケーススタディで実証し,知覚成分の漸進的発達を支援するツールとしての利用について考察する。

Safety assurance is a central concern for the development and societal acceptance of automated driving (AD) systems. Perception is a key aspect of AD that relies heavily on Machine Learning (ML). Despite the known challenges with the safety assurance of ML-based components, proposals have recently emerged for unit-level safety cases addressing these components. Unfortunately, AD safety cases express safety requirements at the system-level and these efforts are missing the critical linking argument connecting safety requirements at the system-level to component performance requirements at the unit-level. In this paper, we propose a generic template for such a linking argument specifically tailored for perception components. The template takes a deductive and formal approach to define strong traceability between levels. We demonstrate the applicability of the template with a detailed case study and discuss its use as a tool to support incremental development of perception components.
翻訳日:2021-08-31 14:50:36 公開日:2021-08-30
# Chylla-Haase 重合反応器によるプロセス自動化のための信頼できるAI

Trustworthy AI for Process Automation on a Chylla-Haase Polymerization Reactor ( http://arxiv.org/abs/2108.13381v1 )

ライセンス: Link先を確認
Daniel Hein and Daniel Labisch(参考訳) 本稿では,遺伝子プログラミング強化学習(GPRL)を用いて,Chylla-Haase重合反応器の人間解釈制御ポリシを生成する。 化学産業では、化学、顔料、ポリマー、医療製品の製造において、ジャケット冷却による連続的にかき混ぜられたタンクリアクター(CSTR)が広く用いられている。 かなり単純なように見えるが、現実世界のアプリケーションでCSTRを制御することは、非常に難しい問題である。 gprlは、すでに存在するリアクターからのデータを活用し、ドメインエキスパートが選択できるような、最適化された単純化された制御戦略、いわゆるポリシーを自動生成する。 これらのポリシーは、複雑さの低いホワイトボックスモデルであり、ターゲットのコントロールシステム(例えば、simatic pcs 7)で検証および実装が容易である。 しかし, その複雑さが低いにもかかわらず, 自動生成ポリシは反応器温度制御の偏差の点で高い性能を示し, 元の反応器テンプレートを実証的に評価した。

In this paper, genetic programming reinforcement learning (GPRL) is utilized to generate human-interpretable control policies for a Chylla-Haase polymerization reactor. Such continuously stirred tank reactors (CSTRs) with jacket cooling are widely used in the chemical industry, in the production of fine chemicals, pigments, polymers, and medical products. Despite appearing rather simple, controlling CSTRs in real-world applications is quite a challenging problem to tackle. GPRL utilizes already existing data from the reactor and generates fully automatically a set of optimized simplistic control strategies, so-called policies, the domain expert can choose from. Note that these policies are white-box models of low complexity, which makes them easy to validate and implement in the target control system, e.g., SIMATIC PCS 7. However, despite its low complexity the automatically-generated policy yields a high performance in terms of reactor temperature control deviation, which we empirically evaluate on the original reactor template.
翻訳日:2021-08-31 14:50:21 公開日:2021-08-30
# lot: 中国語の長文理解と生成を評価するベンチマーク

LOT: A Benchmark for Evaluating Chinese Long Text Understanding and Generation ( http://arxiv.org/abs/2108.12960v1 )

ライセンス: Link先を確認
Jian Guan, Zhuoer Feng, Yamei Chen, Ruilin He, Xiaoxi Mao, Changjie Fan, Minlie Huang(参考訳) 標準マルチタスクベンチマークは、様々な下流タスクに一般化するために、一般的な事前学習モデルの進行を駆動するために不可欠である。 しかし、GLUEやGLGEのような既存のベンチマークは、長いテキストモデリングを考慮せずに、短いテキスト理解と生成タスクに集中する傾向にあり、これは、長距離コモンセンスや談話関係のモデリングや、生成の一貫性と制御性といった多くの異なる機能を必要とする。 標準ベンチマークが欠如しているため、モデルの能力を完全に評価することは困難であり、異なるモデル、特に中国の事前学習モデルを比較することは困難である。 そこで我々は,中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークLOTを提案する。 さまざまな人文中国語の物語に基づいてタスクのデータセットを構築した。 さらに、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国語長文事前学習モデルをリリースする。 我々はテキストインフィルディングと条件付き継続を含む2つの生成的タスクを持つ120gの中国小説についてlonglmを事前学習する。 LOTに関する大規模な実験により、LongLMは理解タスクにおいて類似の大きさの事前学習モデルの性能と一致し、生成タスクにおいて強いベースラインを著しく上回ることを示した。

Standard multi-task benchmarks are essential for driving the progress of general pretraining models to generalize to various downstream tasks. However, existing benchmarks such as GLUE and GLGE tend to focus on short text understanding and generation tasks, without considering long text modeling, which requires many distinct capabilities such as modeling long-range commonsense and discourse relations, as well as the coherence and controllability of generation. The lack of standardized benchmarks makes it difficult to fully evaluate these capabilities of a model and fairly compare different models, especially Chinese pretraining models. Therefore, we propose LOT, a benchmark including two understanding and two generation tasks for Chinese long text modeling evaluation. We construct the datasets for the tasks based on various kinds of human-written Chinese stories. Besides, we release an encoder-decoder Chinese long text pretraining model named LongLM with up to 1 billion parameters. We pretrain LongLM on 120G Chinese novels with two generative tasks including text infilling and conditional continuation. Extensive experiments on LOT demonstrate that LongLM matches the performance of similar-sized pretraining models on the understanding tasks and outperforms strong baselines substantially on the generation tasks.
翻訳日:2021-08-31 14:48:19 公開日:2021-08-30
# ニューラルネットワーク翻訳のためのデコードステップに基づくスケジューリングサンプリング

Scheduled Sampling Based on Decoding Steps for Neural Machine Translation ( http://arxiv.org/abs/2108.12963v1 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) スケジューリングサンプリングは、ニューラルネットワーク翻訳における露出バイアス問題を緩和するために広く使用されている。 そのコアモチベーションは、トレーニング中の推論シーンを予測トークンに置き換え、トレーニングと推論のギャップを埋めることによってシミュレートすることである。 しかしながら、バニラスケジュールサンプリングは単にトレーニングステップに基づいており、全ての復号ステップを等しく扱う。 すなわち、大きな復号ステップがエラーの蓄積によってエラー率が高い場合、実際の推論シーンに従わない、一様エラー率の推論シーンをシミュレートする。 上記の相違を緩和するため,デコードステップに基づいたスケジュールサンプリング手法を提案し,デコードステップの増大に伴う予測トークンの選択可能性を高めた。 これにより、トレーニング中の推論シーンをより現実的にシミュレートし、トレーニングと推論のギャップを埋めることが可能となる。 さらに,さらなる改善のために,トレーニングステップとデコードステップの両方に基づき,スケジュールサンプリングを検討する。 実験により,提案手法は3つの大規模wmtタスクにおいてトランスフォーマーベースラインとバニラスケジュールサンプリングを大きく上回っている。 さらに,本手法は,2つの一般的なベンチマーク上でのテキスト要約タスクにも適している。

Scheduled sampling is widely used to mitigate the exposure bias problem for neural machine translation. Its core motivation is to simulate the inference scene during training by replacing ground-truth tokens with predicted tokens, thus bridging the gap between training and inference. However, vanilla scheduled sampling is merely based on training steps and equally treats all decoding steps. Namely, it simulates an inference scene with uniform error rates, which disobeys the real inference scene, where larger decoding steps usually have higher error rates due to error accumulations. To alleviate the above discrepancy, we propose scheduled sampling methods based on decoding steps, increasing the selection chance of predicted tokens with the growth of decoding steps. Consequently, we can more realistically simulate the inference scene during training, thus better bridging the gap between training and inference. Moreover, we investigate scheduled sampling based on both training steps and decoding steps for further improvements. Experimentally, our approaches significantly outperform the Transformer baseline and vanilla scheduled sampling on three large-scale WMT tasks. Additionally, our approaches also generalize well to the text summarization task on two popular benchmarks.
翻訳日:2021-08-31 14:47:59 公開日:2021-08-30
# 知識ベースコンプリートが転校学習を満たす

Knowledge Base Completion Meets Transfer Learning ( http://arxiv.org/abs/2108.13073v1 )

ライセンス: Link先を確認
Vid Kocijan, Thomas Lukasiewicz(参考訳) 知識ベース補完の目的は、知識ベースにおける既存の事実から見当たらない事実を予測することである。 本研究では,ある事実の集合から別の事実への知識伝達において,エンティティや関係マッチングを必要とせずに最初のアプローチを導入する。 この方法は、正準化された知識ベースと、非カノニカル化またはオープンな知識ベース、すなわち、実世界の実体または関係の複数のコピーが存在する知識ベースの両方に作用する。 このような知識ベースは、構造化されていないテキストから構造化データを抽出する自動情報抽出ツールの自然な出力である。 私たちの主な貢献は、非構造化テキストから収集した事実を大規模に事前学習して、特定のドメインから構造化データの予測を改善する方法です。 提案手法はReVerb20Kのような小さなデータセットに最も影響があり, BERTのような大規模事前学習モデルに依存しないにもかかわらず, 平均相互ランクの6%の絶対的な増加と平均ランクの65%の相対的な減少が得られた。

The aim of knowledge base completion is to predict unseen facts from existing facts in knowledge bases. In this work, we introduce the first approach for transfer of knowledge from one collection of facts to another without the need for entity or relation matching. The method works for both canonicalized knowledge bases and uncanonicalized or open knowledge bases, i.e., knowledge bases where more than one copy of a real-world entity or relation may exist. Such knowledge bases are a natural output of automated information extraction tools that extract structured data from unstructured text. Our main contribution is a method that can make use of a large-scale pre-training on facts, collected from unstructured text, to improve predictions on structured data from a specific domain. The introduced method is the most impactful on small datasets such as ReVerb20K, where we obtained 6% absolute increase of mean reciprocal rank and 65% relative decrease of mean rank over the previously best method, despite not relying on large pre-trained models like BERT.
翻訳日:2021-08-31 14:47:40 公開日:2021-08-30
# 反事実推定によるテキスト要約の事実整合性評価

Factual Consistency Evaluation for Text Summarization via Counterfactual Estimation ( http://arxiv.org/abs/2108.13134v1 )

ライセンス: Link先を確認
Yuexiang Xie, Fei Sun, Yang Deng, Yaliang Li, Bolin Ding(参考訳) テキスト要約における著しい進歩にもかかわらず、生成した要約の事実的不整合は、その実用的応用を厳しく制限している。 事実の一貫性を確保する上で重要な要因のひとつとして,信頼性の高い自動評価指標がある。 しかし、既存のメトリクスは、事実の不整合の本質的な原因を無視したり、補助的なタスクに依存するかのいずれかであり、人間の判断と不満足な相関や、実際の使用の不便さの増加につながる。 これらの課題に照らし合わせて,ソース文書と生成した要約文,および先行する言語間の因果関係を定式化した,反事実推定によるテキスト要約における事実整合性を評価するための新しい指標を提案する。 生成した要約に対する総因果効果から,事実的不整合の原因となる言語先行の効果を取り除き,他の補助タスクに頼らずに一貫性を評価するための簡易かつ効果的な方法を提供する。 我々は3つの公開抽象テキスト要約データセットについて一連の実験を行い、人間の判断との相関性の改善と使用の利便性の両面で提案手法の利点を実証した。 ソースコードはhttps://github.com/xieyxclack/factual_cocoで入手できる。

Despite significant progress has been achieved in text summarization, factual inconsistency in generated summaries still severely limits its practical applications. Among the key factors to ensure factual consistency, a reliable automatic evaluation metric is the first and the most crucial one. However, existing metrics either neglect the intrinsic cause of the factual inconsistency or rely on auxiliary tasks, leading to an unsatisfied correlation with human judgments or increasing the inconvenience of usage in practice. In light of these challenges, we propose a novel metric to evaluate the factual consistency in text summarization via counterfactual estimation, which formulates the causal relationship among the source document, the generated summary, and the language prior. We remove the effect of language prior, which can cause factual inconsistency, from the total causal effect on the generated summary, and provides a simple yet effective way to evaluate consistency without relying on other auxiliary tasks. We conduct a series of experiments on three public abstractive text summarization datasets, and demonstrate the advantages of the proposed metric in both improving the correlation with human judgments and the convenience of usage. The source code is available at https://github.com/xieyxclack/factual_coco.
翻訳日:2021-08-31 14:47:22 公開日:2021-08-30
# CSDS: 顧客サービス対話要約のためのきめ細かい中国語データセット

CSDS: A Fine-grained Chinese Dataset for Customer Service Dialogue Summarization ( http://arxiv.org/abs/2108.13139v1 )

ライセンス: Link先を確認
Haitao Lin, Liqun Ma, Junnan Zhu, Lu Xiang, Yu Zhou, Jiajun Zhang, Chengqing Zong(参考訳) 最近,対話要約が注目されている。 特にカスタマーサービス領域では、エージェントが対話サマリーを使用して、顧客の問題やサービスの進捗を素早く知ることで作業を強化することができます。 これらのアプリケーションは、単一の話者の視点を持ち、明確なトピックフロー構造を持つために要約を必要とする。 既存のデータセットでは利用できない。 そこで本稿では,CSDS (Customer Service Dialogue Summarization) のための新しい中国語データセットを提案する。 csdは抽象要約を2つの側面で改善する: (1) 対話全体の要約に加え、役割指向要約も提供し、異なる話者の視点を得る。 2) すべての要約は, それぞれの話題を個別にまとめ, 対話の話題レベルの構造を包含する。 我々はCSDSにおけるタスクを、与えられた対話に対する全体的な概要と異なる役割指向の要約を生成するものとして定義する。 次に,csdにおける様々な要約手法を比較し,既存の手法が冗長で一貫性のない要約を生成しやすいことを示す。 さらに、ロール指向の要約やトピック構造のパフォーマンスを分析すると、パフォーマンスが大幅に悪化する。 この研究が中国の対話要約をベンチマークし、さらなる研究に役立つことを期待している。

Dialogue summarization has drawn much attention recently. Especially in the customer service domain, agents could use dialogue summaries to help boost their works by quickly knowing customers' issues and service progress. These applications require summaries to contain the perspective of a single speaker and have a clear topic flow structure. Neither are available in existing datasets. Therefore, in this paper, we introduce a novel Chinese dataset for Customer Service Dialogue Summarization (CSDS). CSDS improves the abstractive summaries in two aspects: (1) In addition to the overall summary for the whole dialogue, role-oriented summaries are also provided to acquire different speakers' viewpoints. (2) All the summaries sum up each topic separately, thus containing the topic-level structure of the dialogue. We define tasks in CSDS as generating the overall summary and different role-oriented summaries for a given dialogue. Next, we compare various summarization methods on CSDS, and experiment results show that existing methods are prone to generate redundant and incoherent summaries. Besides, the performance becomes much worse when analyzing the performance on role-oriented summaries and topic structures. We hope that this study could benchmark Chinese dialogue summarization and benefit further studies.
翻訳日:2021-08-31 14:47:03 公開日:2021-08-30
# 差別化可能なPromptは、訓練済みの言語モデルをより良くする

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners ( http://arxiv.org/abs/2108.13161v1 )

ライセンス: Link先を確認
Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 大規模事前学習型言語モデルは、数発の学習者としての顕著な能力を示すことによって、自然言語処理に大きく貢献している。 しかし、その効果は主にモデルパラメータのスケーリングとプロンプト設計に依存し、ほとんどの現実世界アプリケーションでの実装を妨げている。 本研究では,スモール言語モデルを,プロンプトエンジニアリングを必要とせずに,より優れたマイナショット学習者に変換可能な,プラグイン可能な,拡張性,効率的なアプローチである differentiable prompt (dart) を提案する。 このアプローチの主な原理は、潜在的自然言語処理タスクを事前訓練された言語モデルのタスクに再構成し、プロンプトテンプレートとバックプロパゲーション付きターゲットラベルを微分最適化することである。 さらに,提案手法は, (i) 任意の事前学習された言語モデルへの接続, (ii) 広範な分類タスクに拡張された。 標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance.
翻訳日:2021-08-31 14:46:44 公開日:2021-08-30
# AEDA: テキスト分類のためのより簡単なデータ拡張手法

AEDA: An Easier Data Augmentation Technique for Text Classification ( http://arxiv.org/abs/2108.13230v1 )

ライセンス: Link先を確認
Akbar Karimi, Leonardo Rossi, Andrea Prati(参考訳) 本稿では,テキスト分類タスクの性能向上を支援するため,AEDA(An Easier Data Augmentation)手法を提案する。 AEDAは原文への句読点のランダムな挿入のみを含む。 これはEDA法(Wei and Zou, 2019)よりもデータ拡張のための実装が容易なテクニックであり、その結果を比較します。 さらに、文中の位置を変えながら単語の順序を保ち、より一般化されたパフォーマンスをもたらす。 さらに、EDAにおける削除操作は、ネットワークを誤解させる情報を失う可能性があるが、AEDAは全ての入力情報を保存している。 ベースラインに従って、テキスト分類のための5つの異なるデータセットの実験を行う。 AEDA拡張データを用いたトレーニングでは,5つのデータセットのEDA拡張データよりも優れた性能を示した。 ソースコードは、結果のさらなる研究と再現のために利用できる。

This paper proposes AEDA (An Easier Data Augmentation) technique to help improve the performance on text classification tasks. AEDA includes only random insertion of punctuation marks into the original text. This is an easier technique to implement for data augmentation than EDA method (Wei and Zou, 2019) with which we compare our results. In addition, it keeps the order of the words while changing their positions in the sentence leading to a better generalized performance. Furthermore, the deletion operation in EDA can cause loss of information which, in turn, misleads the network, whereas AEDA preserves all the input information. Following the baseline, we perform experiments on five different datasets for text classification. We show that using the AEDA-augmented data for training, the models show superior performance compared to using the EDA-augmented data in all five datasets. The source code is available for further study and reproduction of the results.
翻訳日:2021-08-31 14:46:27 公開日:2021-08-30
# N15News: マルチモーダルニュース分類のための新しいデータセット

N15News: A New Dataset for Multimodal News Classification ( http://arxiv.org/abs/2108.13327v1 )

ライセンス: Link先を確認
Zhen Wang, Xu Shan, Jie Yang(参考訳) 現在のニュースデータセットは単にニュースのテキスト機能にフォーカスするだけであり、ニュース分類に不可欠な多くの機能を除いて、画像の特徴を活用することは滅多にない。 本稿では,New York Timesが生成する15のカテゴリで,各ニュースにテキスト情報と画像情報の両方を含む新しいデータセットN15Newsを提案する。 本研究では,融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりもマルチモーダルニュース分類が優れていることを示す。 テキストの長さによって、分類精度を最大5.8%向上させることができる。 本研究では,マルチモーダル分類器とそのサブ分類器の性能と,ニュース分類におけるマルチモーダルの適用による改善の可能性について明らかにする。 N15Newsはマルチモーダルニュース研究を促進する大きな可能性を秘めている。

Current news datasets merely focus on text features on the news and rarely leverage the feature of images, excluding numerous essential features for news classification. In this paper, we propose a new dataset, N15News, which is generated from New York Times with 15 categories and contains both text and image information in each news. We design a novel multitask multimodal network with different fusion methods, and experiments show multimodal news classification performs better than text-only news classification. Depending on the length of the text, the classification accuracy can be increased by up to 5.8%. Our research reveals the relationship between the performance of a multimodal classifier and its sub-classifiers, and also the possible improvements when applying multimodal in news classification. N15News is shown to have great potential to prompt the multimodal news studies.
翻訳日:2021-08-31 14:46:15 公開日:2021-08-30
# 平衡タイムスタンプ分布に基づく時間的知識グラフ補完法

A Temporal Knowledge Graph Completion Method Based on Balanced Timestamp Distribution ( http://arxiv.org/abs/2108.13024v1 )

ライセンス: Link先を確認
Kangzheng Liu and Yuhong Zhang(参考訳) 知識グラフ(KGE)の埋め込み表現による完成は、近年研究ホットスポットとなっている。 現実的な知識グラフは主に時間に関連するが、既存のKGEアルゴリズムのほとんどは時間情報を無視している。 タイムスタンプ分布のバランスを無視し、時間的知識グラフ補完(KGC)の性能を大幅に制限する、直接的あるいは間接的に時間情報を符号化する手法がいくつか存在する。 本稿では,直接符号化時間情報枠組に基づいて時間kgc法を提案し,与えられた時間スライスを,バランスの取れたタイムスタンプ分布の最も細かい粒度として扱う。 本手法の有効性を実世界から抽出した時間知識グラフデータセットについて,数多くの実験を行った。

Completion through the embedding representation of the knowledge graph (KGE) has been a research hotspot in recent years. Realistic knowledge graphs are mostly related to time, while most of the existing KGE algorithms ignore the time information. A few existing methods directly or indirectly encode the time information, ignoring the balance of timestamp distribution, which greatly limits the performance of temporal knowledge graph completion (KGC). In this paper, a temporal KGC method is proposed based on the direct encoding time information framework, and a given time slice is treated as the finest granularity for balanced timestamp distribution. A large number of experiments on temporal knowledge graph datasets extracted from the real world demonstrate the effectiveness of our method.
翻訳日:2021-08-31 14:46:02 公開日:2021-08-30
# 輸送に基づく対物モデル

Transport-based Counterfactual Models ( http://arxiv.org/abs/2108.13025v1 )

ライセンス: Link先を確認
Lucas de Lara (IMT), Alberto Gonz\'alez-Sanz (IMT), Nicholas Asher (IRIT-MELODI, CNRS), Jean-Michel Loubes (IMT)(参考訳) 因果関係の自然な概念を提供するため、カウンターファクトなフレームワークは説明可能な公正な機械学習で人気を博している。 しかし、反事実を計算するための最先端モデルは非現実的であるか不可能である。 特に、パールの因果推論は反事実を計算するための魅力的な規則を提供するが、実際には未知で発見が難しいモデルに依存している。 因果モデルがない場合、現実的で実現可能な反事実を設計する問題に対処する。 本研究では,輸送型対物モデルについて,観測可能な分布間の連立確率分布の集合として定義し,因果対物との関係を示す。 より具体的には、最適輸送理論は、数値的に実現可能で統計的に忠実であり、因果的反事実モデルとさえ一致するため、関連する輸送に基づく反事実モデルを定義する。 代表的な群フェアネス条件よりもシャープなフェアネス基準を定義することにより,これらのモデルの実用性を示す。

Counterfactual frameworks have grown popular in explainable and fair machine learning, as they offer a natural notion of causation. However, state-of-the-art models to compute counterfactuals are either unrealistic or unfeasible. In particular, while Pearl's causal inference provides appealing rules to calculate counterfactuals, it relies on a model that is unknown and hard to discover in practice. We address the problem of designing realistic and feasible counterfactuals in the absence of a causal model. We define transport-based counterfactual models as collections of joint probability distributions between observable distributions, and show their connection to causal counterfactuals. More specifically, we argue that optimal transport theory defines relevant transport-based counterfactual models, as they are numerically feasible, statistically-faithful, and can even coincide with causal counterfactual models. We illustrate the practicality of these models by defining sharper fairness criteria than typical group fairness conditions.
翻訳日:2021-08-31 14:45:50 公開日:2021-08-30
# 再帰的SHACLの満足度と満足度

Satisfiability and Containment of Recursive SHACL ( http://arxiv.org/abs/2108.13063v1 )

ライセンス: Link先を確認
Paolo Pareti, George Konstantinidis, Fabio Mogavero(参考訳) シェープ制約言語(Shapes Constraint Language, SHACL)は、グラフ上の特定の形状を検証することでRDFデータの検証を行うW3C勧告言語である。 従来,SHACLの簡易版に対してのみ検討されてきた,満足度と包含性の基準決定問題や設計と最適化の目的に欠かせない課題に主に焦点が当てられていた。 さらに、shacl仕様は再帰的制約のセマンティクスを定義していないため、文献で提案されたいくつかの別の再帰的セマンティクスにつながった。 これらの異なる意味論と重要な決定問題との相互作用はまだ研究されていない。 本稿では、SHACLのセマンティクスを正確に把握するSCLと呼ばれる新しい一階言語への翻訳を提供することにより、SHACLの異なる特徴を包括的に研究する。 また、SCLの2階拡張であるMSCLを提案し、SHACLの主要な再帰的意味論である1つの形式論理フレームワークで定義することができる。 この言語内では、関連する文献でしばしば無視されるフィルタ制約の効果的な処理も提供します。 この論理を用いて、異なるSHACLフラグメントに対する満足度および包含性決定問題に対する(不)決定性および複雑性結果の詳細なマップを提供する。 特に、両問題が完全な言語では決定不能であることを示すが、再帰に直面しても興味深い特徴の組み合わせが決定可能である。

The Shapes Constraint Language (SHACL) is the recent W3C recommendation language for validating RDF data, by verifying certain shapes on graphs. Previous work has largely focused on the validation problem and the standard decision problems of satisfiability and containment, crucial for design and optimisation purposes, have only been investigated for simplified versions of SHACL. Moreover, the SHACL specification does not define the semantics of recursively-defined constraints, which led to several alternative recursive semantics being proposed in the literature. The interaction between these different semantics and important decision problems has not been investigated yet. In this article we provide a comprehensive study of the different features of SHACL, by providing a translation to a new first-order language, called SCL, that precisely captures the semantics of SHACL. We also present MSCL, a second-order extension of SCL, which allows us to define, in a single formal logic framework, the main recursive semantics of SHACL. Within this language we also provide an effective treatment of filter constraints which are often neglected in the related literature. Using this logic we provide a detailed map of (un)decidability and complexity results for the satisfiability and containment decision problems for different SHACL fragments. Notably, we prove that both problems are undecidable for the full language, but we present decidable combinations of interesting features, even in the face of recursion.
翻訳日:2021-08-31 14:45:35 公開日:2021-08-30
# 自由エネルギー原理の数学的ウォークスルーと議論

A Mathematical Walkthrough and Discussion of the Free Energy Principle ( http://arxiv.org/abs/2108.13343v1 )

ライセンス: Link先を確認
Beren Millidge, Anil Seth, Christopher L Buckley(参考訳) 自由エネルギー原理(英: Free-Energy-Principle、FEP)は、自己組織化の確率的熱力学と変分推論による学習の間の深い、強力な関係を仮定する影響力があり議論の的になっている理論である。 具体的には、その環境から統計的に分離でき、非平衡定常状態を維持している任意の自己組織化システムは、情報理論的機能(変動自由エネルギー)を最小化することで、環境の隠れた状態を推測するために変分ベイズ推論を実行することができると主張している。 この原理は神経科学にも広く応用され始めており、行動、知覚、学習が単一の目的の下で統一される新しい強力なアルゴリズムの構築を刺激することで、機械学習に進出し始めている。 その広範でしばしば大げさな主張は哲学と理論神経科学の双方で大きな議論を巻き起こしてきたが、数学的な深さと理論の核となる主張に対する説明とチュートリアルの欠如はしばしば文学における深い理解を妨げている。 ここでは,FEPの定式化と中心的主張の数学的詳細かつ直感的なウォークスルーを提供するとともに,理論の仮定と潜在的な限界について議論する。 さらに、FEPは、内部の論争、変化、修正の対象となる、まだ生きた理論であるため、現在の視点を強調し、凝縮する詳細な付録や、FEPの根底にある数学的仮定や形式に関する議論も提示する。

The Free-Energy-Principle (FEP) is an influential and controversial theory which postulates a deep and powerful connection between the stochastic thermodynamics of self-organization and learning through variational inference. Specifically, it claims that any self-organizing system which can be statistically separated from its environment, and which maintains itself at a non-equilibrium steady state, can be construed as minimizing an information-theoretic functional -- the variational free energy -- and thus performing variational Bayesian inference to infer the hidden state of its environment. This principle has also been applied extensively in neuroscience, and is beginning to make inroads in machine learning by spurring the construction of novel and powerful algorithms by which action, perception, and learning can all be unified under a single objective. While its expansive and often grandiose claims have spurred significant debates in both philosophy and theoretical neuroscience, the mathematical depth and lack of accessible introductions and tutorials for the core claims of the theory have often precluded a deep understanding within the literature. Here, we aim to provide a mathematically detailed, yet intuitive walk-through of the formulation and central claims of the FEP while also providing a discussion of the assumptions necessary and potential limitations of the theory. Additionally, since the FEP is a still a living theory, subject to internal controversy, change, and revision, we also present a detailed appendix highlighting and condensing current perspectives as well as controversies about the nature, applicability, and the mathematical assumptions and formalisms underlying the FEP.
翻訳日:2021-08-31 14:45:11 公開日:2021-08-30
# BioFors:大規模なバイオメディカル画像鑑定データセット

BioFors: A Large Biomedical Image Forensics Dataset ( http://arxiv.org/abs/2108.12961v1 )

ライセンス: Link先を確認
Ekraam Sabir, Soumyaroop Nandi, Wael AbdAlmageed, Prem Natarajan(参考訳) メディア法医学の研究は、誤報の拡散に対処するために勢いを増している。 しかし、この研究の大部分はソーシャルメディアで生成されたコンテンツに向けられている。 バイオメディカル画像鑑定は関連する問題であり、バイオメディカル研究文書で報告された画像の操作や誤用は深刻な問題である。 この問題は、ベンチマークデータセットと標準化されたタスクが欠如しているため、学術的な議論以上の勢いを得られなかった。 本稿では,生物医学的イメージ操作をベンチマークする最初のデータセットであるbioforsを提案する。 bioforsは1,031のオープンソース研究論文から抽出された47,805枚の画像からなる。 バイオフォアの画像は顕微鏡、ブロット/ゲル、facs、macroscopyの4つのカテゴリに分けられる。 また, 外部重複検出, 内部重複検出, 切断・シャープ遷移検出の3つの手法を提案する。 我々は、すべてのタスクに適切な最先端のアルゴリズムでBioForsをベンチマークする。 バイオメディカル画像に適用した場合, 一般的なコンピュータビジョンデータセット上に開発された既存のアルゴリズムは堅牢ではなく, バイオメディカル画像鑑定の独特な課題に対処するためには, さらなる研究が必要であることが検証された。

Research in media forensics has gained traction to combat the spread of misinformation. However, most of this research has been directed towards content generated on social media. Biomedical image forensics is a related problem, where manipulation or misuse of images reported in biomedical research documents is of serious concern. The problem has failed to gain momentum beyond an academic discussion due to an absence of benchmark datasets and standardized tasks. In this paper we present BioFors -- the first dataset for benchmarking common biomedical image manipulations. BioFors comprises 47,805 images extracted from 1,031 open-source research papers. Images in BioFors are divided into four categories -- Microscopy, Blot/Gel, FACS and Macroscopy. We also propose three tasks for forensic analysis -- external duplication detection, internal duplication detection and cut/sharp-transition detection. We benchmark BioFors on all tasks with suitable state-of-the-art algorithms. Our results and analysis show that existing algorithms developed on common computer vision datasets are not robust when applied to biomedical images, validating that more research is required to address the unique challenges of biomedical image forensics.
翻訳日:2021-08-31 14:39:35 公開日:2021-08-30
# pseudo-mask matter inweakly-supervised semantic segmentation

Pseudo-mask Matters inWeakly-supervised Semantic Segmentation ( http://arxiv.org/abs/2108.12995v1 )

ライセンス: Link先を確認
Yi Li, Zhanghui Kuang, Liyang Liu, Yimin Chen, Wayne Zhang(参考訳) 最も弱い教師付きセマンティクスセグメンテーション(wsss)メソッドは、最初に疑似マスクを生成するパイプラインに従い、その後に疑似マスクでセグメンテーションモデルを訓練する。 しかし,クラスアクティベーションマップ(cams)からの高品質疑似マスク生成や,ノイズの多い疑似マスク監督によるトレーニングなど,疑似マスクに関する問題も見いだされている。 これらの問題に対して,我々は,新しい最先端にパフォーマンスをプッシュする設計を提案する。 (i) カムを適応的に平滑化するための変動平滑化係数 (ii) 拡張されたカムを擬似マスクに投影する比例擬似マスク生成 (ii) バイナリ分類器からトレーニングされたスコアではなく,各クラスの重要性を示す新しいメトリックに基づいて,拡張カムを擬似マスクに投影する。 3)擬似マスクにおけるノイズの影響を抑えるための前置アンダーフィッティング戦略(IV)完全教師ありセマンティックセグメンテーション(FSSS)の訓練中に擬似マスクを増強するための周期的擬似マスク。 本手法に基づく実験は,pas-cal voc 2012 および ms coco 2014 において,miou を 70.0% および 40.2% まで押し下げる,弱い教師付きセマンティクスセグメンテーションデータセットの2つの変更に関する新たな結果を得た。 セグメンテーションフレームワークを含むコードはhttps://github.com/eli-yili/pmmでリリース

Most weakly supervised semantic segmentation (WSSS) methods follow the pipeline that generates pseudo-masks initially and trains the segmentation model with the pseudo-masks in fully supervised manner after. However, we find some matters related to the pseudo-masks, including high quality pseudo-masks generation from class activation maps (CAMs), and training with noisy pseudo-mask supervision. For these matters, we propose the following designs to push the performance to new state-of-art: (i) Coefficient of Variation Smoothing to smooth the CAMs adaptively; (ii) Proportional Pseudo-mask Generation to project the expanded CAMs to pseudo-mask based on a new metric indicating the importance of each class on each location, instead of the scores trained from binary classifiers. (iii) Pretended Under-Fitting strategy to suppress the influence of noise in pseudo-mask; (iv) Cyclic Pseudo-mask to boost the pseudo-masks during training of fully supervised semantic segmentation (FSSS). Experiments based on our methods achieve new state-of-art results on two changeling weakly supervised semantic segmentation datasets, pushing the mIoU to 70.0% and 40.2% on PAS-CAL VOC 2012 and MS COCO 2014 respectively. Codes including segmentation framework are released at https://github.com/Eli-YiLi/PMM
翻訳日:2021-08-31 14:39:19 公開日:2021-08-30
# ネットワーク構造の戦い:CNN, Transformer, MLPの実証的研究

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP ( http://arxiv.org/abs/2108.13002v1 )

ライセンス: Link先を確認
Yucheng Zhao, Guangting Wang, Chuanxin Tang, Chong Luo, Wenjun Zeng, Zheng-Jun Zha(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。 近年,ビジョントランスフォーマーやMLP-Mixerのようなトランスフォーマーと多層パーセプトロン(MLP)ベースのモデルが,イメージネット分類タスクにおいて有望な結果を示すとともに,新たなトレンドを導い始めている。 本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。 公平な比較を確保するため,まず空間処理とチャネル処理を分離したSPACHという統合フレームワークを開発した。 SPACHフレームワークによる実験により、全ての構造が適度な規模で競争性能を達成できることが判明した。 しかし、ネットワークサイズが大きくなると特徴的な挙動を示す。 そこで本研究では,畳み込みモジュールとトランスフォーマーモジュールを用いたハイブリッドモデルを提案する。 結果、Hybrid-MS-S+モデルは、63Mパラメータと12.3G FLOPSで83.9%のTop-1精度を達成した。 それは既に洗練された設計のSOTAモデルと同等である。 コードとモデルは公開される予定だ。

Convolutional neural networks (CNN) are the dominant deep neural network (DNN) architecture for computer vision. Recently, Transformer and multi-layer perceptron (MLP)-based models, such as Vision Transformer and MLP-Mixer, started to lead new trends as they showed promising results in the ImageNet classification task. In this paper, we conduct empirical studies on these DNN structures and try to understand their respective pros and cons. To ensure a fair comparison, we first develop a unified framework called SPACH which adopts separate modules for spatial and channel processing. Our experiments under the SPACH framework reveal that all structures can achieve competitive performance at a moderate scale. However, they demonstrate distinctive behaviors when the network size scales up. Based on our findings, we propose two hybrid models using convolution and Transformer modules. The resulting Hybrid-MS-S+ model achieves 83.9% top-1 accuracy with 63M parameters and 12.3G FLOPS. It is already on par with the SOTA models with sophisticated designs. The code and models will be made publicly available.
翻訳日:2021-08-31 14:38:05 公開日:2021-08-30
# 単一のjpeg画像に新しいビューを埋め込む

Embedding Novel Views in a Single JPEG Image ( http://arxiv.org/abs/2108.13003v1 )

ライセンス: Link先を確認
Yue Wu and Guotao Meng and Qifeng Chen(参考訳) 本稿では,修正JPEG画像の知覚的忠実度と復元された新規ビューを保ちながら,新しいビューを単一のJPEGイメージに埋め込む新しいアプローチを提案する。 我々は,多面体画像 (mpis) の合成表現法を広範に採用する。 我々のモデルはまず32MPI層(128チャンネル)を3チャンネルJPEG画像にエンコードし、MPIが新しいビューを描画できるようにデコードして1ピクセルあたり1024ビットの埋め込み能力を持つ。 提案手法は,異なる新規ビュー合成手法を用いた公開データセットを用いた実験を行い,少し修正したjpeg画像から高精細な新規ビューを復元できることを示した。 さらに,提案手法はJPEG圧縮,色調整,収穫に対して堅牢である。 ソースコードは公開される予定だ。

We propose a novel approach for embedding novel views in a single JPEG image while preserving the perceptual fidelity of the modified JPEG image and the restored novel views. We adopt the popular novel view synthesis representation of multiplane images (MPIs). Our model first encodes 32 MPI layers (totally 128 channels) into a 3-channel JPEG image that can be decoded for MPIs to render novel views, with an embedding capacity of 1024 bits per pixel. We conducted experiments on public datasets with different novel view synthesis methods, and the results show that the proposed method can restore high-fidelity novel views from a slightly modified JPEG image. Furthermore, our method is robust to JPEG compression, color adjusting, and cropping. Our source code will be publicly available.
翻訳日:2021-08-31 14:37:48 公開日:2021-08-30
# モバイルレベルの視覚トランスフォーマーの探索と改善

Exploring and Improving Mobile Level Vision Transformers ( http://arxiv.org/abs/2108.13015v1 )

ライセンス: Link先を確認
Pengguang Chen, Yixin Chen, Shu Liu, Mingchang Yang, Jiaya Jia(参考訳) 本稿では,モバイルレベルでの視覚トランスフォーマー構造について検討し,劇的な性能低下を見出した。 本稿では,この現象の背景にある理由を分析し,新しい不規則パッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。 視覚変換器ブロック(マルチヘッドアテンションとフィードフォワードネットワーク)は低レベル特徴よりも高レベル情報を扱うのに適していると推測する。 不規則なパッチ埋め込みモジュールは、異なる受容フィールドを持つリッチなハイレベル情報を含むパッチを抽出する。 トランスブロックは、これらの不規則なパッチから最も有用な情報を得ることができる。 その後、処理されたパッチはadaptive patch mergeモジュールをパスし、分類器の最終機能を取得する。 提案する改良により, 従来の一様視覚トランスフォーマー構造は, モバイルレベルで最先端の成果を実現できる。 We improve the DeiT baseline by 9\% under the mobile-level settings and over other transformer architectures like Swin and CoaT by a large margin。

We study the vision transformer structure in the mobile level in this paper, and find a dramatic performance drop. We analyze the reason behind this phenomenon, and propose a novel irregular patch embedding module and adaptive patch fusion module to improve the performance. We conjecture that the vision transformer blocks (which consist of multi-head attention and feed-forward network) are more suitable to handle high-level information than low-level features. The irregular patch embedding module extracts patches that contain rich high-level information with different receptive fields. The transformer blocks can obtain the most useful information from these irregular patches. Then the processed patches pass the adaptive patch merging module to get the final features for the classifier. With our proposed improvements, the traditional uniform vision transformer structure can achieve state-of-the-art results in mobile level. We improve the DeiT baseline by more than 9\% under the mobile-level settings and surpass other transformer architectures like Swin and CoaT by a large margin.
翻訳日:2021-08-31 14:37:34 公開日:2021-08-30
# 空白の壁を見つめて学ぶことは

What You Can Learn by Staring at a Blank Wall ( http://arxiv.org/abs/2108.13027v1 )

ライセンス: Link先を確認
Prafull Sharma, Miika Aittala, Yoav Y. Schechner, Antonio Torralba, Gregory W. Wornell, William T. Freeman, Fredo Durand(参考訳) 未知の部屋の空き壁の観測から人の人数や活動量を推定する受動的非視線法を提案する。 本手法は,壁面の映像における間接照明の複雑な非知覚的変化を分析し,シーンの隠れた部分における動きと相関する信号を明らかにする。 この信号を使って、0人、1人、または2人、または隠れたシーンにいる人の活動の分類を行う。 20の異なるシーンから収集されたデータを用いて2つの畳み込みニューラルネットワークをトレーニングし、目に見えないテスト環境とリアルタイムオンライン設定の両方のタスクに対して$\approx94\%の精度を達成する。 他の受動的非視線法とは異なり、この手法は既知のオクルーダーや制御可能な光源に依存しず、再校正のない未知の部屋に一般化する。 実データと合成データの両方を用いて,本手法の一般化とロバスト性を解析し,シーンパラメータが信号品質に与える影響について検討する。

We present a passive non-line-of-sight method that infers the number of people or activity of a person from the observation of a blank wall in an unknown room. Our technique analyzes complex imperceptible changes in indirect illumination in a video of the wall to reveal a signal that is correlated with motion in the hidden part of a scene. We use this signal to classify between zero, one, or two moving people, or the activity of a person in the hidden scene. We train two convolutional neural networks using data collected from 20 different scenes, and achieve an accuracy of $\approx94\%$ for both tasks in unseen test environments and real-time online settings. Unlike other passive non-line-of-sight methods, the technique does not rely on known occluders or controllable light sources, and generalizes to unknown rooms with no re-calibration. We analyze the generalization and robustness of our method with both real and synthetic data, and study the effect of the scene parameters on the signal quality.
翻訳日:2021-08-31 14:37:17 公開日:2021-08-30
# ディープニューラルネットワークを用いた効率的な視覚認識:最近の進歩と新たな方向性

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions ( http://arxiv.org/abs/2108.13055v1 )

ライセンス: Link先を確認
Yang Wu, Dingheng Wang, Xiaotong Lu, Fan Yang, Guoqi Li, Weisheng Dong, Jianbo Shi(参考訳) 視覚認識は現在、コンピュータビジョン、パターン認識、さらには人工知能の一般分野において、最も重要かつ活発な研究分野の1つである。 根本的重要性と強い産業的ニーズがある。 ディープニューラルネットワーク(DNN)は、大量のトレーニングデータと新たな強力な計算リソースの助けを借りて、多くの具体的なタスクのパフォーマンスを大幅に向上させた。 認識精度は、新しい進歩の第一の関心事であるが、効率性は実際にはかなり重要であり、学術研究と工業応用の両方において重要である。 さらに、効率性の機会や課題に対する洞察深い見解は、コミュニティ全体にとって非常に必要です。 DNNの効率性に関する一般的な調査は様々な観点から行われてきたが、我々の知る限り、視覚認識を体系的に重視しているものはほとんどなく、どの進歩がそれに当てはまるのか、その他の点については不透明である。 本稿では,DNN関連視覚認識手法の効率向上に向けた新たな方向性を提案するとともに,最近の進歩を概観する。 モデルだけでなくデータの観点からも検討を行い(既存調査ではそうではない)、最も研究されている3つのデータタイプ(画像、ビデオ、ポイント)に焦点を当てた。 本稿では,視覚認知問題に携わる研究者と実践者の両方に刺激を与える,総合的な調査を通じて,体系的な要約を提供することを試みる。

Visual recognition is currently one of the most important and active research areas in computer vision, pattern recognition, and even the general field of artificial intelligence. It has great fundamental importance and strong industrial needs. Deep neural networks (DNNs) have largely boosted their performances on many concrete tasks, with the help of large amounts of training data and new powerful computation resources. Though recognition accuracy is usually the first concern for new progresses, efficiency is actually rather important and sometimes critical for both academic research and industrial applications. Moreover, insightful views on the opportunities and challenges of efficiency are also highly required for the entire community. While general surveys on the efficiency issue of DNNs have been done from various perspectives, as far as we are aware, scarcely any of them focused on visual recognition systematically, and thus it is unclear which progresses are applicable to it and what else should be concerned. In this paper, we present the review of the recent advances with our suggestions on the new possible directions towards improving the efficiency of DNN-related visual recognition approaches. We investigate not only from the model but also the data point of view (which is not the case in existing surveys), and focus on three most studied data types (images, videos and points). This paper attempts to provide a systematic summary via a comprehensive survey which can serve as a valuable reference and inspire both researchers and practitioners who work on visual recognition problems.
翻訳日:2021-08-31 14:37:01 公開日:2021-08-30
# Few-Shot Fine-Grained Image Classificationのためのオブジェクト認識長短空間アライメント

Object-aware Long-short-range Spatial Alignment for Few-Shot Fine-Grained Image Classification ( http://arxiv.org/abs/2108.13098v1 )

ライセンス: Link先を確認
Yike Wu, Bo Zhang, Gang Yu, Weixi Zhang, Bin Wang, Tao Chen, Jiayuan Fan(参考訳) 数発のきめ細かい画像分類の目標は、サポートセットのこのクラスの少数のサンプルを考慮すれば、クエリセットにほとんど見られない細粒度オブジェクトを認識することである。 従来の研究は,様々な粒度のクラスを識別するための限られた訓練サンプルから識別画像の特徴を学習することに集中していたが,クエリ画像とサポート画像との識別的意味的特徴の空間的アライメントが,各サポートクエリのペア間の意味的類似性を計算する上でも重要であることを無視する。 本研究では,foreground object feature enhancement (foe) モジュール,long-range semantic correspondence (lsc) モジュール,および short-range spatial manipulation (ssm) モジュールからなる物体認識型長距離空間アライメント手法を提案する。 FOEは背景障害を弱め、前景の反応を高めるために開発された。 サポート・クエリ画像対間の長距離オブジェクト特徴量不一致問題に対処するため,lscは設計した特徴類似度メトリクスを用いて転送可能な長距離意味対応を学習するために提案する。 さらに、SSMモジュールは、短い範囲のミスアライメント機能(またはローカル詳細)とクエリ機能との整合性を確保するために、長距離ステップ後の変換サポート機能を洗練するために開発されている。 4つのベンチマークデータセットで広範な実験が行われており、1ショットおよび5ショットの分類シナリオにおいて、ほとんどの最先端手法よりも優れた性能を示している。

The goal of few-shot fine-grained image classification is to recognize rarely seen fine-grained objects in the query set, given only a few samples of this class in the support set. Previous works focus on learning discriminative image features from a limited number of training samples for distinguishing various fine-grained classes, but ignore one important fact that spatial alignment of the discriminative semantic features between the query image with arbitrary changes and the support image, is also critical for computing the semantic similarity between each support-query pair. In this work, we propose an object-aware long-short-range spatial alignment approach, which is composed of a foreground object feature enhancement (FOE) module, a long-range semantic correspondence (LSC) module and a short-range spatial manipulation (SSM) module. The FOE is developed to weaken background disturbance and encourage higher foreground object response. To address the problem of long-range object feature misalignment between support-query image pairs, the LSC is proposed to learn the transferable long-range semantic correspondence by a designed feature similarity metric. Further, the SSM module is developed to refine the transformed support feature after the long-range step to align short-range misaligned features (or local details) with the query features. Extensive experiments have been conducted on four benchmark datasets, and the results show superior performance over most state-of-the-art methods under both 1-shot and 5-shot classification scenarios.
翻訳日:2021-08-31 14:36:36 公開日:2021-08-30
# 領域適応型領域フリー検出器の密集性拡張

Densely Semantic Enhancement for Domain Adaptive Region-free Detectors ( http://arxiv.org/abs/2108.13101v1 )

ライセンス: Link先を確認
Bo Zhang, Tao Chen, Bin Wang, Xiaofeng Wu, Liming Zhang, Jiayuan Fan(参考訳) 教師なしのドメイン適応オブジェクト検出は、リッチラベル付きデータを持つ訓練済みの検出器を、ラベルなしデータを持つ新しいターゲットドメインに適応させることを目的としている。 以前の研究は、リージョン提案ネットワーク(RPN)から明示的に抽出されるクロスドメインインスタンスレベルの特徴をマッチングすることで、リージョンベースの検出器(例えば、Faster-RCNN)のドメイン適応性の改善に重点を置いていた。 しかし、これは画像内のすべての可能な場所から密集した予測を行い、そのようなインスタンスレベルの特徴を符号化するRPNを持たない単一ショット検出器(SSD)のような領域フリー検出器には適さない。 その結果、重要な画像領域と重要なインスタンスレベルの特徴を領域フリー検出器の領域間で整列させることに失敗した。 本研究では,非領域検出器のインスタンスレベル特徴のクロスドメインマッチングを強化するための対向モジュールを提案する。 まず、画像の重要な領域を強調するために、DSEMは、画像の背景乱れを抑制するために使用できる転送可能な前景拡張マスクを予測することを学ぶ。 第二に、領域非検出装置がマルチスケール特徴写像を用いて異なるスケールの物体を認識することを考えると、DSEMは多レベル意味表現と異なる領域にわたるマルチインスタンス空間-コンテキスト関係の両方を符号化する。 最後に、DSEMは異なる領域を含まない検出器にプラグイン可能であり、最終的には逆学習によって密集した意味的特徴マッチングを達成する。 PASCAL VOC, Clipart, Comic, Watercolor, FoggyCityscapeベンチマークで大規模な実験を行い, 提案手法が領域自由検出器の領域適応性を向上するだけでなく, ドメインシフト設定の既存領域適応型領域ベース検出器よりも優れていることを示した。

Unsupervised domain adaptive object detection aims to adapt a well-trained detector from its original source domain with rich labeled data to a new target domain with unlabeled data. Previous works focus on improving the domain adaptability of region-based detectors, e.g., Faster-RCNN, through matching cross-domain instance-level features that are explicitly extracted from a region proposal network (RPN). However, this is unsuitable for region-free detectors such as single shot detector (SSD), which perform a dense prediction from all possible locations in an image and do not have the RPN to encode such instance-level features. As a result, they fail to align important image regions and crucial instance-level features between the domains of region-free detectors. In this work, we propose an adversarial module to strengthen the cross-domain matching of instance-level features for region-free detectors. Firstly, to emphasize the important regions of image, the DSEM learns to predict a transferable foreground enhancement mask that can be utilized to suppress the background disturbance in an image. Secondly, considering that region-free detectors recognize objects of different scales using multi-scale feature maps, the DSEM encodes both multi-level semantic representations and multi-instance spatial-contextual relationships across different domains. Finally, the DSEM is pluggable into different region-free detectors, ultimately achieving the densely semantic feature matching via adversarial learning. Extensive experiments have been conducted on PASCAL VOC, Clipart, Comic, Watercolor, and FoggyCityscape benchmarks, and their results well demonstrate that the proposed approach not only improves the domain adaptability of region-free detectors but also outperforms existing domain adaptive region-based detectors under various domain shift settings.
翻訳日:2021-08-31 14:36:04 公開日:2021-08-30
# 一般から特定へ:バランス調整による情報付きシーングラフ生成

From General to Specific: Informative Scene Graph Generation via Balance Adjustment ( http://arxiv.org/abs/2108.13129v1 )

ライセンス: Link先を確認
Yuyu Guo, Lianli Gao, Xuanhan Wang, Yuxuan Hu, Xing Xu, Xu Lu, Heng Tao Shen, Jingkuan Song(参考訳) シーングラフ生成(SGG)タスクは、画像中の主観的、述語的、対象といった視覚的関係三重項を検出し、シーン理解のための構造的視覚レイアウトを提供する。 しかし、現在のモデルは、例えば「オン」や「at」のような一般的な述語に留まり、例えば「オン」や「見ている」といった情報よりも、正確な情報や全体的なパフォーマンスが失われる。 モデルがイメージを記述するために「ブロック」ではなく「道路上の石」を使う場合、シーンを誤解するのは容易である。 この現象は、情報的述語と共通する2つの重要な不均衡、すなわち意味空間レベルの不均衡とサンプルレベルの不均衡によって引き起こされる。 この問題を解決するため,従来の配電方式ではなく,バランス調整に基づく簡易かつ効果的なSGGフレームワークであるBA-SGGを提案する。 セマンティック調整(SA)とバランスド・プレディケート・ラーニング(BPL)の2つのコンポーネントを統合し、これらの不均衡を調整する。 モデルに依存しないプロセスから得られた手法は,最先端のSGGモデルに容易に適用でき,SGGの性能が大幅に向上する。 提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。 コードは公開されている。

The scene graph generation (SGG) task aims to detect visual relationship triplets, i.e., subject, predicate, object, in an image, providing a structural vision layout for scene understanding. However, current models are stuck in common predicates, e.g., "on" and "at", rather than informative ones, e.g., "standing on" and "looking at", resulting in the loss of precise information and overall performance. If a model only uses "stone on road" rather than "blocking" to describe an image, it is easy to misunderstand the scene. We argue that this phenomenon is caused by two key imbalances between informative predicates and common ones, i.e., semantic space level imbalance and training sample level imbalance. To tackle this problem, we propose BA-SGG, a simple yet effective SGG framework based on balance adjustment but not the conventional distribution fitting. It integrates two components: Semantic Adjustment (SA) and Balanced Predicate Learning (BPL), respectively for adjusting these imbalances. Benefited from the model-agnostic process, our method is easily applied to the state-of-the-art SGG models and significantly improves the SGG performance. Our method achieves 14.3%, 8.0%, and 6.1% higher Mean Recall (mR) than that of the Transformer model at three scene graph generation sub-tasks on Visual Genome, respectively. Codes are publicly available.
翻訳日:2021-08-31 14:35:32 公開日:2021-08-30
# LIGAR:軽量汎用アクション認識

LIGAR: Lightweight General-purpose Action Recognition ( http://arxiv.org/abs/2108.13153v1 )

ライセンス: Link先を確認
Evgeny Izutov(参考訳) ビデオ理解問題における様々な実践的タスクの量の増加は、幅広いマスで利用でき、エッジ指向推論の要求に適したユニバーサルソリューションを設計するための大きな課題に対処してきた。 本稿では,上記の課題に対処するためのネットワークアーキテクチャとトレーニングパイプラインの設計に焦点を当てる。 我々のアーキテクチャは、従来のアーキテクチャから最善を尽くし、外見に基づくアクション認識タスクだけでなく、モーションベースの問題でも成功する能力をもたらす。 さらに、誘導ラベルノイズ問題を定式化し、それに対応するために適応クリップ選択(ACS)フレームワークを提案する。 これにより、LIGARフレームワークは汎用的なアクション認識ソリューションとなる。 また,汎用とジェスチャーのデータセットに関する広範な分析を報告し,最先端のソリューションと比較して,性能と精度の優れたトレードオフを示す。 トレーニングコードは、https://github.com/openvinotoolkit/training_extensionsで利用可能である。 効率的なエッジ指向推論のために、訓練されたすべてのモデルはOpenVINOフォーマットにエクスポートできる。

Growing amount of different practical tasks in a video understanding problem has addressed the great challenge aiming to design an universal solution, which should be available for broad masses and suitable for the demanding edge-oriented inference. In this paper we are focused on designing a network architecture and a training pipeline to tackle the mentioned challenges. Our architecture takes the best from the previous ones and brings the ability to be successful not only in appearance-based action recognition tasks but in motion-based problems too. Furthermore, the induced label noise problem is formulated and Adaptive Clip Selection (ACS) framework is proposed to deal with it. Together it makes the LIGAR framework the general-purpose action recognition solution. We also have reported the extensive analysis on the general and gesture datasets to show the excellent trade-off between the performance and the accuracy in comparison to the state-of-the-art solutions. Training code is available at: https://github.com/openvinotoolkit/training_extensions. For the efficient edge-oriented inference all trained models can be exported into the OpenVINO format.
翻訳日:2021-08-31 14:35:06 公開日:2021-08-30
# LUAI、2021年に航空画像の理解に挑戦

LUAI Challenge 2021 on Learning to Understand Aerial Images ( http://arxiv.org/abs/2108.13246v1 )

ライセンス: Link先を確認
Gui-Song Xia, Jian Ding, Ming Qian, Nan Xue, Jiaming Han, Xiang Bai, Micheal Ying Yang, Shengyang Li, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang, Qiang Zhou, Chao-hui Yu, Kaixuan Hu, Yingjia Bu, Wenming Tan, Zhe Yang, Wei Li, Shang Liu, Jiaxuan Zhao, Tianzhi Ma, Zi-han Gao, Lingqi Wang, Yi Zuo, Licheng Jiao, Chang Meng, Hao Wang, Jiahao Wang, Yiming Hui, Zhuojun Dong, Jie Zhang, Qianyue Bao, Zixiao Zhang, Fang Liu(参考訳) 本稿では,空中画像の物体検出とセマンティックセグメンテーションに焦点を当てたICCV 2021におけるLearning to Understand Aerial Images (LUAI) 2021チャレンジの結果を要約する。 DOTA-v2.0 と GID-15 のデータセットを用いて,オブジェクト指向物体検出,水平物体検出,空中画像における共通カテゴリのセマンティックセグメンテーションの3つのタスクを提案する。 この課題は3つのタスクで合計146回の登録を受けた。 この課題を通じて、幅広いコミュニティから注目を集め、空中画像を理解することの学習により多くの努力を払ってほしいと考えています。

This report summarizes the results of Learning to Understand Aerial Images (LUAI) 2021 challenge held on ICCV 2021, which focuses on object detection and semantic segmentation in aerial images. Using DOTA-v2.0 and GID-15 datasets, this challenge proposes three tasks for oriented object detection, horizontal object detection, and semantic segmentation of common categories in aerial images. This challenge received a total of 146 registrations on the three tasks. Through the challenge, we hope to draw attention from a wide range of communities and call for more efforts on the problems of learning to understand aerial images.
翻訳日:2021-08-31 14:34:49 公開日:2021-08-30
# 自己監督型アンタングルポス表現によるクイン痛行動分類

Equine Pain Behavior Classification via Self-Supervised Disentangled Pose Representation ( http://arxiv.org/abs/2108.13258v1 )

ライセンス: Link先を確認
Maheen Rashid, Sofia Broom\'e, Katrina Ask, Elin Hernlund, Pia Haubro Andersen, Hedvig Kjellstr\"om, Yong Jae Lee(参考訳) 馬の痛みのタイムリーな検出は、馬の福祉にとって重要である。 馬は顔や体の動きを通じて痛みを表現するが、不慣れな人間の観察者から痛みの兆候を隠すことがある。 加えて、馬の行動や痛み状態の詳細なアノテーションによるビジュアルデータの収集は面倒でスケーラブルではない。 したがって、実用的なウマの痛み分類システムは、観察されていない馬と弱いラベルのビデオを使用する。 本稿では, 経時的にビデオレベルの痛みラベルが乏しい整形外科的痛みを誘発する非観察馬のマルチビュー監視ビデオ映像を用いて, ウマの痛み分類法を提案する。 馬の身体言語だけで痛みが学べるようにするため,我々はまず自己教師付き生成モデルを訓練し,その外観と背景から馬のポーズを離間させ,その後,離反した馬のポーズ潜伏表現を用いて痛み分類を行う。 痛みラベルを最大限に活用するために、痛み分類をマルチインスタンス学習問題として定式化する新しい損失を開発する。 本手法は,60%の精度でヒトのエキスパート性能よりも痛み分類精度が向上する。 学習された潜伏馬のポーズ表現は、視点共変であり、馬の外観から切り離されている。 分類された痛みの質的分析は,本モデルで同定した痛み症状と,獣医の練習で使用する等痛尺度の一致を示した。

Timely detection of horse pain is important for equine welfare. Horses express pain through their facial and body behavior, but may hide signs of pain from unfamiliar human observers. In addition, collecting visual data with detailed annotation of horse behavior and pain state is both cumbersome and not scalable. Consequently, a pragmatic equine pain classification system would use video of the unobserved horse and weak labels. This paper proposes such a method for equine pain classification by using multi-view surveillance video footage of unobserved horses with induced orthopaedic pain, with temporally sparse video level pain labels. To ensure that pain is learned from horse body language alone, we first train a self-supervised generative model to disentangle horse pose from its appearance and background before using the disentangled horse pose latent representation for pain classification. To make best use of the pain labels, we develop a novel loss that formulates pain classification as a multi-instance learning problem. Our method achieves pain classification accuracy better than human expert performance with 60% accuracy. The learned latent horse pose representation is shown to be viewpoint covariant, and disentangled from horse appearance. Qualitative analysis of pain classified segments shows correspondence between the pain symptoms identified by our model, and equine pain scales used in veterinary practice.
翻訳日:2021-08-31 14:34:38 公開日:2021-08-30
# Hire-MLP:階層的再構成によるビジョンMLP

Hire-MLP: Vision MLP via Hierarchical Rearrangement ( http://arxiv.org/abs/2108.13341v1 )

ライセンス: Link先を確認
Jianyuan Guo, Yehui Tang, Kai Han, Xinghao Chen, Han Wu, Chao Xu, Chang Xu and Yunhe Wang(参考訳) 本稿では,階層的再構成によるシンプルかつ競争的なMDPアーキテクチャであるHire-MLPを提案する。 MLP-Mixerのような従来の視覚MLPは様々な画像サイズに対して柔軟性がなく、トークンを平らにすることで空間情報を捉えるのに非効率である。 Hire-MLPは既存のMLPベースのモデルを革新し、階層的再構成の概念を提唱し、局所的およびグローバルな空間情報を集約し、下流タスクに汎用性を持たせる。 具体的には、内部領域の再配置は、空間領域内の局所情報をキャプチャするように設計されている。 さらに,各地域間の情報通信を可能とし,グローバルコンテキストを捉えるために,すべてのトークンを空間方向に沿って円形に移動させるクロスリージョン再配置を提案する。 提案したHire-MLPアーキテクチャは、単純なチャネル混合型MPPと再配置操作で構築されており、高い柔軟性と推論速度を享受できる。 Hire-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。 特に、Hire-MLP は ImageNet で83.4\% のトップ-1 の精度を達成しており、これはトランスフォーマーベースの従来のモデルと MLP ベースのモデルを上回っ、精度とスループットのトレードオフを改善している。

This paper presents Hire-MLP, a simple yet competitive vision MLP architecture via hierarchical rearrangement. Previous vision MLPs like MLP-Mixer are not flexible for various image sizes and are inefficient to capture spatial information by flattening the tokens. Hire-MLP innovates the existing MLP-based models by proposing the idea of hierarchical rearrangement to aggregate the local and global spatial information while being versatile for downstream tasks. Specifically, the inner-region rearrangement is designed to capture local information inside a spatial region. Moreover, to enable information communication between different regions and capture global context, the cross-region rearrangement is proposed to circularly shift all tokens along spatial directions. The proposed Hire-MLP architecture is built with simple channel-mixing MLPs and rearrangement operations, thus enjoys high flexibility and inference speed. Experiments show that our Hire-MLP achieves state-of-the-art performance on the ImageNet-1K benchmark. In particular, Hire-MLP achieves an 83.4\% top-1 accuracy on ImageNet, which surpasses previous Transformer-based and MLP-based models with better trade-off for accuracy and throughput.
翻訳日:2021-08-31 14:34:15 公開日:2021-08-30
# クリックレベル弱教師付きセマンティックセグメンテーションのためのセミナー学習

Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.13393v1 )

ライセンス: Link先を確認
Hongjun Chen, Jinbao Wang, Hong Cai Chen, Xiantong Zhen, Feng Zheng, Rongrong Ji, Ling Shao(参考訳) アノテーションの負担はセマンティックセグメンテーションの最大の障壁の1つになっている。 したがって、クリックレベルのアノテーションに基づくアプローチは、監督とアノテーションコストのトレードオフが優れているため、注目を集めている。 本稿では,クリックレベルの教師付きセグメンテーションのための新しい学習パラダイムであるセミナー学習を提案する。 セミナー学習の基本的根拠は、異なるネットワークからの知識を活用して、クリックレベルのアノテーションで提供される不十分な情報を補うことである。 セミナーを模したセミナー学習では,教師・生徒・学生・学生の両方から学ぶことができる,教師・生徒・学生・学生のモジュールが組み込まれている。 教師学習モジュールは、指数移動平均に基づいて教師ネットワークを使用して、学生ネットワークのトレーニングを指導する。 学生学習モジュールでは,生徒間の知識の伝達を橋渡しし,互いのパフォーマンスを高めるために異種擬似ラベルが提案されている。 実験結果は,Pascal VOC 2012データセットにおいて,従来の手法を最大16.88%上回る72.51%(mIOU)の新たな最先端性能を実現するセミナー学習の有効性を示した。

Annotation burden has become one of the biggest barriers to semantic segmentation. Approaches based on click-level annotations have therefore attracted increasing attention due to their superior trade-off between supervision and annotation cost. In this paper, we propose seminar learning, a new learning paradigm for semantic segmentation with click-level supervision. The fundamental rationale of seminar learning is to leverage the knowledge from different networks to compensate for insufficient information provided in click-level annotations. Mimicking a seminar, our seminar learning involves a teacher-student and a student-student module, where a student can learn from both skillful teachers and other students. The teacher-student module uses a teacher network based on the exponential moving average to guide the training of the student network. In the student-student module, heterogeneous pseudo-labels are proposed to bridge the transfer of knowledge among students to enhance each other's performance. Experimental results demonstrate the effectiveness of seminar learning, which achieves the new state-of-the-art performance of 72.51% (mIOU), surpassing previous methods by a large margin of up to 16.88% on the Pascal VOC 2012 dataset.
翻訳日:2021-08-31 14:33:54 公開日:2021-08-30
# 言語モデリングのための選択的微分プライバシー

Selective Differential Privacy for Language Modeling ( http://arxiv.org/abs/2108.12944v1 )

ライセンス: Link先を確認
Weiyan Shi, Aiqi Cui, Evan Li, Ruoxi Jia, Zhou Yu(参考訳) 機密データを含むアプリケーションにおける言語モデルの採用の増加に伴い、これらのモデルがプライベート情報を漏洩することを防ぐことが重要になっている。 これまでの研究は、RNNベースの言語モデルを差分プライバシー保証でトレーニングすることで、この問題に対処しようとしてきた。 しかし、言語モデルに古典的な微分プライバシーを適用すると、基礎となるプライバシー概念は悲観的であり、データのすべてのトークンに対する非微分保護を提供するため、モデルパフォーマンスが低下する。 自然言語のプライベート情報が不足していること(例えば、電子メールの大部分が個人識別可能な情報を持っていないこと)を踏まえ、我々は、モデルユーティリティを改善するために、データの機密部分に対する厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。 このような新しい概念を実現するために、RNNベースの言語モデルに対して、対応するプライバシメカニズムであるSelective-DPSGDを開発する。 言語モデリング以外にも、より具体的なアプリケーション -- ダイアログシステムにもこのメソッドを適用します。 言語モデリングとダイアログシステム構築の両方の実験により、提案するプライバシ保存メカニズムが、さまざまなプライバシ攻撃に対して安全でありながら、より良いユーティリティを実現することが示された。 データ、コード、モデルはhttps://github.com/wyshi/lm_privacyで入手できる。

With the increasing adoption of language models in applications involving sensitive data, it has become crucial to protect these models from leaking private information. Previous work has attempted to tackle this challenge by training RNN-based language models with differential privacy guarantees. However, applying classical differential privacy to language models leads to poor model performance as the underlying privacy notion is over-pessimistic and provides undifferentiated protection for all tokens of the data. Given that the private information in natural language is sparse (for example, the bulk of an email might not carry personally identifiable information), we propose a new privacy notion, selective differential privacy, to provide rigorous privacy guarantees on the sensitive portion of the data to improve model utility. To realize such a new notion, we develop a corresponding privacy mechanism, Selective-DPSGD, for RNN-based language models. Besides language modeling, we also apply the method to a more concrete application -- dialog systems. Experiments on both language modeling and dialog system building show that the proposed privacy-preserving mechanism achieves better utilities while remaining safe under various privacy attacks compared to the baselines. The data, code and models are available at https://github.com/wyshi/lm_privacy.
翻訳日:2021-08-31 14:33:35 公開日:2021-08-30
# グラフエネルギーモデルのためのadversarial stein training

Adversarial Stein Training for Graph Energy Models ( http://arxiv.org/abs/2108.12982v1 )

ライセンス: Link先を確認
Shiv Shankar(参考訳) グラフ構造化データ上での学習分布は、生物学や化学における多くの応用において困難な課題である。 本研究では、多チャネルグラフニューラルネットワーク(GNN)に基づくエネルギーモデル(EBM)を用いて、グラフ上の変分非正規化密度関数を学習する。 標準的なEMM訓練方法とは異なり、我々のアプローチは敵のスタイン差を最小化することでモデルを学習することである。 モデルからのサンプルは、Langevin dynamics based MCMCによって得ることができる。 提案手法は,ベンチマークモデルと比較して,グラフ生成における競合的な結果が得られる。

Learning distributions over graph-structured data is a challenging task with many applications in biology and chemistry. In this work we use an energy-based model (EBM) based on multi-channel graph neural networks (GNN) to learn permutation invariant unnormalized density functions on graphs. Unlike standard EBM training methods our approach is to learn the model via minimizing adversarial stein discrepancy. Samples from the model can be obtained via Langevin dynamics based MCMC. We find that this approach achieves competitive results on graph generation compared to benchmark models.
翻訳日:2021-08-31 14:31:00 公開日:2021-08-30
# FeeBeeを用いたリードワールドデータセットにおけるベイズ誤差推定器の評価

Evaluating Bayes Error Estimators on Read-World Datasets with FeeBee ( http://arxiv.org/abs/2108.13034v1 )

ライセンス: Link先を確認
Cedric Renggli, Luka Rimanic, Nora Hollenstein, Ce Zhang(参考訳) bayes error rate (ber) は機械学習の基本的な概念であり、任意の分類器が固定確率分布で達成できる最善の精度を定量化する。 BERの下限と上限の予測器の構築に関する長年の研究にもかかわらず、これらは通常、既知の確率分布を持つ合成データセットでのみ比較され、2つの重要な疑問が未解決のまま残されている。 これらの答えは自明ではない。 実世界のデータセットに対する未知のBERの明らかな挑戦とは別に、BER推定器が現実の環境に適用するために克服する必要がある主な側面が2つある:(1)計算とサンプルの複雑さ、(2)超パラメータの感度と選択。 本研究では,未知確率分布を持つ現代実世界のデータセットにおけるber推定器の解析と比較を行う最初の原則付きフレームワークである feebee を提案する。 ラベルノイズの制御量を注入し,様々なノイズレベルについて複数の評価を行い,berの進化に関する結論を導出する理論的結果により,これを実現する。 コンピュータビジョンとNLPドメインの6つの一般的なデータセット上に7つのマルチクラスBER推定器を実装し、分析することにより、FeeBeeはこれらの推定器を徹底的に研究し、それぞれの長所と短所を明確に識別し、将来のBER推定器に容易にデプロイできる。

The Bayes error rate (BER) is a fundamental concept in machine learning that quantifies the best possible accuracy any classifier can achieve on a fixed probability distribution. Despite years of research on building estimators of lower and upper bounds for the BER, these were usually compared only on synthetic datasets with known probability distributions, leaving two key questions unanswered: (1) How well do they perform on real-world datasets?, and (2) How practical are they? Answering these is not trivial. Apart from the obvious challenge of an unknown BER for real-world datasets, there are two main aspects any BER estimator needs to overcome in order to be applicable in real-world settings: (1) the computational and sample complexity, and (2) the sensitivity and selection of hyper-parameters. In this work, we propose FeeBee, the first principled framework for analyzing and comparing BER estimators on any modern real-world dataset with unknown probability distribution. We achieve this by injecting a controlled amount of label noise and performing multiple evaluations on a series of different noise levels, supported by a theoretical result which allows drawing conclusions about the evolution of the BER. By implementing and analyzing 7 multi-class BER estimators on 6 commonly used datasets of the computer vision and NLP domains, FeeBee allows a thorough study of these estimators, clearly identifying strengths and weaknesses of each, whilst being easily deployable on any future BER estimator.
翻訳日:2021-08-31 14:30:52 公開日:2021-08-30
# ランダムフォレストモデルを用いたWebベースのGlioblastoma Multiforme Prognosis予測ツール

An Interpretable Web-based Glioblastoma Multiforme Prognosis Prediction Tool using Random Forest Model ( http://arxiv.org/abs/2108.13039v1 )

ライセンス: Link先を確認
Yeseul Kim, Kyung Hwan Kim, Junyoung Park, Hong In Yoon, Wonmo Sung(参考訳) 我々は,治療後1年間のgbm患者の健康状態(分類タスク)を推定し,個別レベルにおけるgbm患者の長期予後を予測する予測モデルを提案する。 総患者数467 gbmで, 臨床像は13例, フォローアップ日2例であった。 ランダム森林分類器(RFC)とランダム生存林モデル(RSF)のベースラインモデルに対して,一般化線形モデル(GLM),サポートベクトルマシン(SVM),コックス比例危険モデル(COX),アクセラレーション故障時間モデル(AFT)を導入した。 5倍の階層化データセットの前処理とプレフィックスを行った後,再帰的特徴除去プロセスを用いて,モデルタイプの最良のモデルを作成した。 再帰的特徴除去プロセスにより,1年間の生存/進行状態rfcモデルおよびrsfモデルにおいて,総計10,4,13の特徴を抽出した。 分類タスクでは、最高のRFCのAUROCは0.6990(生存状態分類)と0.7076(1年経過分類)、第2のベストベースラインモデル(GLM)はそれぞれ0.6691と0.6997を記録した。 生存時の最高C指数は0.7157、最低IBSは0.1038であり、第2の最高ベースラインモデルはそれぞれ0.6556と0.1139であった。 GBM患者の各特徴と予後の簡易的線形相関(LIMEおよび仮想患者群解析から抽出)は,医学的知識と一致していた。 以上の結果から, gbm患者生存率の上位3因子はmgmt遺伝子プロモーター, 切除範囲, 年齢であった。 私たちの知る限りでは、この研究は解釈可能で医学的な知識が一貫したgbm予測モデルを導入する最初の研究です。

We propose predictive models that estimate GBM patients' health status of one-year after treatments (Classification task), predict the long-term prognosis of GBM patients at an individual level (Survival task). We used total of 467 GBM patients' clinical profile consists of 13 features and two follow-up dates. For baseline models of random forest classifier(RFC) and random survival forest model (RSF), we introduced generalized linear model (GLM), support vector machine (SVM) and Cox proportional hazardous model (COX), accelerated failure time model (AFT) respectively. After preprocessing and prefixing stratified 5-fold data set, we generated best performing models for model types using recursive feature elimination process. Total 10, 4, and 13 features were extracted for best performing one-year survival/progression status RFC models and RSF model via the recursive feature elimination process. In classification task, AUROC of best performing RFC recorded 0.6990 (for one-year survival status classification) and 0.7076 (for one-year progression classification) while that of second best baseline models (GLM in both cases) recorded 0.6691 and 0.6997 respectively. About survival task, the highest C-index of 0.7157 and the lowest IBS of 0.1038 came from the best performing RSF model while that of second best baseline models were 0.6556 and 0.1139 respectively. A simplified linear correlation (extracted from LIME and virtual patient group analysis) between each feature and prognosis of GBM patient were consistent with proven medical knowledge. Our machine learning models suggest that the top three prognostic factors for GBM patient survival were MGMT gene promoter, the extent of resection, and age. To the best of our knowledge, this study is the very first study introducing a interpretable and medical knowledge consistent GBM prognosis predictive models.
翻訳日:2021-08-31 14:30:25 公開日:2021-08-30
# GeoVectors:世界規模のOpenStreetMap埋め込みのリンク付きオープンコーパス

GeoVectors: A Linked Open Corpus of OpenStreetMap Embeddings on World Scale ( http://arxiv.org/abs/2108.13092v1 )

ライセンス: Link先を確認
Nicolas Tempelmeier, Simon Gottschalk, Elena Demidova(参考訳) OpenStreetMap (OSM) は現在、地理的エンティティ(例えば、建物や道路)に関する最も豊富な公開情報ソースである。 しかし、機械学習モデルやその他のアプリケーションにおけるOSMエンティティの使用は、OSMの大規模化、エンティティアノテーションの極端な異質性、エンティティのセマンティクスとプロパティを記述するための明確なオントロジーの欠如など、困難である。 本稿は,OSMデータセット全体を包含し,180か国9億8000万以上の地理的エンティティの潜在表現を提供する,OSMエンティティの独自で包括的なオープンコーパスであるGeoVectorsについて述べる。 GeoVectors corpusはOSMエンティティのセマンティック次元と地理的次元をキャプチャし、これらのエンティティを機械学習アルゴリズムやセマンティックアプリケーションに直接アクセスできるようにする。 我々は、コンテキスト情報を提供するためにWikidataとDBpediaの知識グラフへのアイデンティティリンクを含むGeoVectors corpusのセマンティック記述を作成する。 さらに、OSM内の地理的エンティティのセマンティックおよび潜在表現に直接アクセスするセマンティックインターフェースであるSPARQLエンドポイントを提供する。

OpenStreetMap (OSM) is currently the richest publicly available information source on geographic entities (e.g., buildings and roads) worldwide. However, using OSM entities in machine learning models and other applications is challenging due to the large scale of OSM, the extreme heterogeneity of entity annotations, and a lack of a well-defined ontology to describe entity semantics and properties. This paper presents GeoVectors - a unique, comprehensive world-scale linked open corpus of OSM entity embeddings covering the entire OSM dataset and providing latent representations of over 980 million geographic entities in 180 countries. The GeoVectors corpus captures semantic and geographic dimensions of OSM entities and makes these entities directly accessible to machine learning algorithms and semantic applications. We create a semantic description of the GeoVectors corpus, including identity links to the Wikidata and DBpedia knowledge graphs to supply context information. Furthermore, we provide a SPARQL endpoint - a semantic interface that offers direct access to the semantic and latent representations of geographic entities in OSM.
翻訳日:2021-08-31 14:29:49 公開日:2021-08-30
# 運用研究におけるAI行動発見のためのマルチエージェントシミュレーション

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research ( http://arxiv.org/abs/2108.13296v1 )

ライセンス: Link先を確認
Michael Papasimeon, Lyndon Benke(参考訳) マルチエージェントシミュレーションにおける行動発見のためのAI手法の適合性と有効性を評価する軽量プラットフォームであるACE0について述べる。 具体的には、ACE0は自律航空機のような新しい技術に関連する運用研究で使用されるマルチエージェントシミュレーションのためのAI手法を探索するために設計された。 生産で使用されるシミュレーション環境は、しばしば高忠実で複雑であり、かなりのドメイン知識を必要とし、結果としてR&Dコストが高い。 最小限で軽量なシミュレーション環境は、研究者やエンジニアが、よりアジャイルで潜在的にコストのかかる方法で行動発見のための新しいAI技術の生存可能性を評価するのに役立つ。 本稿では、ACE0の開発動機について述べるとともに、システムアーキテクチャの技術的概要、航空宇宙領域における振る舞い発見の事例研究、システムの質的評価について述べる。 この評価には、学術パートナーと共同研究プロジェクトの簡単な説明が含まれており、さまざまなAI行動発見方法を探求している。

We describe ACE0, a lightweight platform for evaluating the suitability and viability of AI methods for behaviour discovery in multiagent simulations. Specifically, ACE0 was designed to explore AI methods for multi-agent simulations used in operations research studies related to new technologies such as autonomous aircraft. Simulation environments used in production are often high-fidelity, complex, require significant domain knowledge and as a result have high R&D costs. Minimal and lightweight simulation environments can help researchers and engineers evaluate the viability of new AI technologies for behaviour discovery in a more agile and potentially cost effective manner. In this paper we describe the motivation for the development of ACE0.We provide a technical overview of the system architecture, describe a case study of behaviour discovery in the aerospace domain, and provide a qualitative evaluation of the system. The evaluation includes a brief description of collaborative research projects with academic partners, exploring different AI behaviour discovery methods.
翻訳日:2021-08-31 14:28:06 公開日:2021-08-30
# ASR-GLUE: ASR-Robust自然言語理解のための新しいマルチタスクベンチマーク

ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language Understanding ( http://arxiv.org/abs/2108.13048v1 )

ライセンス: Link先を確認
Lingyun Feng, Jianwei Yu, Deng Cai, Songxiang Liu, Haitao Zheng, Yan Wang(参考訳) 近年,音声インタフェースアプリケーションの需要が高まる中,音声システムにおける言語理解が注目されている。 しかし,自動音声認識(ASR)による誤りに対する自然言語理解(NLU)システムの堅牢性は未検討である。 ASR-GLUEベンチマーク(ASR-GLUEベンチマーク)は,3段階の背景雑音と6種類の音声特性を持つ6つの話者に対して,ASR誤差下でのモデルの性能を評価するための6種類のNLUタスクの新たなコレクションである。 提案したベンチマークに基づいて,雑音強度,誤差型,話者変動量の観点から,ASR誤差がNLUタスクに与える影響を系統的に検討する。 さらに,NLUシステムのロバスト性を改善するために,補正法とデータ拡張法という2つの方法を提案する。 広範な実験結果と分析により、提案手法はある程度有効であるが、ヒトのパフォーマンスには程遠いことが示され、asrエラー下のnluは依然として非常に困難であり、さらなる研究が必要であることが示されている。

Language understanding in speech-based systems have attracted much attention in recent years with the growing demand for voice interface applications. However, the robustness of natural language understanding (NLU) systems to errors introduced by automatic speech recognition (ASR) is under-examined. %To facilitate the research on ASR-robust general language understanding, In this paper, we propose ASR-GLUE benchmark, a new collection of 6 different NLU tasks for evaluating the performance of models under ASR error across 3 different levels of background noise and 6 speakers with various voice characteristics. Based on the proposed benchmark, we systematically investigate the effect of ASR error on NLU tasks in terms of noise intensity, error type and speaker variants. We further purpose two ways, correction-based method and data augmentation-based method to improve robustness of the NLU systems. Extensive experimental results and analysises show that the proposed methods are effective to some extent, but still far from human performance, demonstrating that NLU under ASR error is still very challenging and requires further research.
翻訳日:2021-08-31 14:27:53 公開日:2021-08-30
# ニューラルネットワークの初期化におけるバイアス量子乱数の影響について

On the effects of biased quantum random numbers on the initialization of artificial neural networks ( http://arxiv.org/abs/2108.13329v1 )

ライセンス: Link先を確認
Raoul Heese, Moritz Wolter, Sascha M\"ucke, Lukas Franken, Nico Piatkowski(参考訳) 最近の実用的な量子コンピューティングの進歩により、研究者はノイズの多い中間スケール量子(nisq)デバイス上でアルゴリズムを評価することができるクラウドベースの量子コンピューティングプラットフォームが多様になった。 量子コンピュータの共通の性質は、古典的なシステムから得られる擬ランダム性とは対照的に、真のランダム性の例を示すことである。 機械学習の文脈におけるそのような真の量子ランダム性の効果を調べることは魅力的であり、最近の結果は、量子乱数を用いることで実際に利益が得られることを曖昧に示唆している。 この話題についてさらに光を当てるために、数値実験において、ハードウェアバイアスの量子乱数が人工ニューラルネットワークの重み付けの初期化に与える影響を実証的に研究する。 非バイアス量子乱数と比較すると統計的に有意な差は認められず、また古典的な疑似乱数生成器から偏りや偏りのない乱数も見いだされた。 我々の実験のための量子乱数は、実量子ハードウェアから得られる。

Recent advances in practical quantum computing have led to a variety of cloud-based quantum computing platforms that allow researchers to evaluate their algorithms on noisy intermediate-scale quantum (NISQ) devices. A common property of quantum computers is that they exhibit instances of true randomness as opposed to pseudo-randomness obtained from classical systems. Investigating the effects of such true quantum randomness in the context of machine learning is appealing, and recent results vaguely suggest that benefits can indeed be achieved from the use of quantum random numbers. To shed some more light on this topic, we empirically study the effects of hardware-biased quantum random numbers on the initialization of artificial neural network weights in numerical experiments. We find no statistically significant difference in comparison with unbiased quantum random numbers as well as biased and unbiased random numbers from a classical pseudo-random number generator. The quantum random numbers for our experiments are obtained from real quantum hardware.
翻訳日:2021-08-31 14:27:33 公開日:2021-08-30
# 教師なし単眼深度知覚:移動物体に着目して

Unsupervised Monocular Depth Perception: Focusing on Moving Objects ( http://arxiv.org/abs/2108.13062v1 )

ライセンス: Link先を確認
Hualie Jiang, Laiyan Ding, Zhenglong Sun, Rui Huang(参考訳) フレキシブルな3dセンシング手段として,単眼映像からの奥行きの教師なし学習が重要な研究課題となっている。 対象のビューと隣接するソースビューからの合成ビューの間の測光誤差を、基底真理との違いではなく損失として利用する。 現実世界のシーンにおける排除とシーンのダイナミクスは、最近の大きな進歩にもかかわらず、依然として学習に悪影響を及ぼす。 本稿では,光度誤差を意図的に操作することで,これらの問題に対処できることを示す。 まず,オクルードまたはダイナミックピクセルを光度誤差マップの統計的外れ値として考慮した外れ値マスキング手法を提案する。 外れたマスキングによって、ネットワークはカメラの反対方向に移動する物体の深さをより正確に学習する。 我々の知る限りでは、このようなケースは、自動運転のようなアプリケーションに高いリスクをもたらすにもかかわらず、以前の研究では真剣に検討されていない。 また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。 KITTIデータセットの大規模な実験とCityscapesデータセットのさらなる実験により、提案手法が深度やエゴモーション推定に与える影響が検証された。 さらに,教師なしと教師なしの両方の手法において,動的オブジェクトの領域と静的背景の予測深度を分離して評価した。 この評価は,提案手法の有効性をさらに検証し,今後の研究に刺激を与えるであろう興味深い観察結果を提供する。

As a flexible passive 3D sensing means, unsupervised learning of depth from monocular videos is becoming an important research topic. It utilizes the photometric errors between the target view and the synthesized views from its adjacent source views as the loss instead of the difference from the ground truth. Occlusion and scene dynamics in real-world scenes still adversely affect the learning, despite significant progress made recently. In this paper, we show that deliberately manipulating photometric errors can efficiently deal with these difficulties better. We first propose an outlier masking technique that considers the occluded or dynamic pixels as statistical outliers in the photometric error map. With the outlier masking, the network learns the depth of objects that move in the opposite direction to the camera more accurately. To the best of our knowledge, such cases have not been seriously considered in the previous works, even though they pose a high risk in applications like autonomous driving. We also propose an efficient weighted multi-scale scheme to reduce the artifacts in the predicted depth maps. Extensive experiments on the KITTI dataset and additional experiments on the Cityscapes dataset have verified the proposed approach's effectiveness on depth or ego-motion estimation. Furthermore, for the first time, we evaluate the predicted depth on the regions of dynamic objects and static background separately for both supervised and unsupervised methods. The evaluation further verifies the effectiveness of our proposed technical approach and provides some interesting observations that might inspire future research in this direction.
翻訳日:2021-08-31 14:26:04 公開日:2021-08-30
# 低品質セル画像分割のための自動前処理とアンサンブル学習

Automatic Preprocessing and Ensemble Learning for Low Quality Cell Image Segmentation ( http://arxiv.org/abs/2108.13118v1 )

ライセンス: Link先を確認
Sota Kato, Kazuhiro Hotta(参考訳) 高品質なセル画像のセグメンテーションのための自動前処理とアンサンブル学習を提案する。 強い光で細胞を捕獲することは困難である。 したがって、細胞の顕微鏡画像は画質が低い傾向にあるが、これらの画像はセマンティックセグメンテーションには向いていない。 本稿では,深層学習によって認識しやすい画像に入力画像を変換する手法を提案する。 提案手法は2つの深層ニューラルネットワークからなる。 第1のネットワークはセマンティックセグメンテーションのための通常のトレーニングであり、第1のネットワークの特徴マップをフィルタとして使用して、各クラスを強調する画像に入力画像を変換する。 これは自動前処理であり、翻訳された細胞画像は容易に分類できる。 低品質の入力セル画像を第1のネットワークの特徴地図で翻訳し、その変換画像を第2のネットワークに供給して意味セグメンテーションを行う。 第2のネットワークの出力は複数のセグメンテーション結果であるため、これらのセグメンテーション画像の重み付けアンサンブルを行う。 2つのネットワークはエンドツーエンドでトレーニングされており、翻訳に高品質な画像を作成する必要はない。 提案手法では,低画質のセルイメージを分割し易い画像に変換できることを確認し,重み付きアンサンブル学習によりセグメント化精度が向上した。

We propose an automatic preprocessing and ensemble learning for segmentation of cell images with low quality. It is difficult to capture cells with strong light. Therefore, the microscopic images of cells tend to have low image quality but these images are not good for semantic segmentation. Here we propose a method to translate an input image to the images that are easy to recognize by deep learning. The proposed method consists of two deep neural networks. The first network is the usual training for semantic segmentation, and penultimate feature maps of the first network are used as filters to translate an input image to the images that emphasize each class. This is the automatic preprocessing and translated cell images are easily classified. The input cell image with low quality is translated by the feature maps in the first network, and the translated images are fed into the second network for semantic segmentation. Since the outputs of the second network are multiple segmentation results, we conduct the weighted ensemble of those segmentation images. Two networks are trained by end-to-end manner, and we do not need to prepare images with high quality for the translation. We confirmed that our proposed method can translate cell images with low quality to the images that are easy to segment, and segmentation accuracy has improved using the weighted ensemble learning.
翻訳日:2021-08-31 14:25:44 公開日:2021-08-30
# ダイナミックシーンのビュー合成のための深部3次元マスクボリューム

Deep 3D Mask Volume for View Synthesis of Dynamic Scenes ( http://arxiv.org/abs/2108.13408v1 )

ライセンス: Link先を確認
Kai-En Lin and Lei Xiao and Feng Liu and Guowei Yang and Ravi Ramamoorthi(参考訳) 画像ビュー合成は、深層学習と様々な新しい表現のおかげで、フォトリアリスティックな視覚を再構築することに成功した。 没入型仮想体験における次の重要なステップは、動的シーンのビュー合成である。 しかし、高品質なトレーニングデータセットの欠如、ダイナミックなシーンのビデオの時間次元の追加など、いくつかの課題が存在する。 この問題に対処するために,我々は,カスタム10カメラリグを120fpsで撮影したマルチビュービデオデータセットを紹介する。 データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。 我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。 提案アルゴリズムは, 3次元マスク体積の誤差発生領域を同定し, 映像中の静止背景に置き換えることで, 排他的不整合に対処する。 簡単な2次元マスクとは対照的に3次元空間での操作が可能であり,フレーム単位の静的ビュー合成法や2次元マスクを用いたものよりも時間的安定性がよいことを示す。 その結果得られたビュー合成ビデオは、最小限のフリッカリングアーティファクトを示し、より大きな翻訳運動を可能にする。

Image view synthesis has seen great success in reconstructing photorealistic visuals, thanks to deep learning and various novel representations. The next key step in immersive virtual experiences is view synthesis of dynamic scenes. However, several challenges exist due to the lack of high-quality training datasets, and the additional time dimension for videos of dynamic scenes. To address this issue, we introduce a multi-view video dataset, captured with a custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes showing various visual effects and human interactions in outdoor scenes. We develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable view extrapolation from binocular videos of dynamic scenes, captured by static cameras. Our algorithm addresses the temporal inconsistency of disocclusions by identifying the error-prone areas with a 3D mask volume, and replaces them with static background observed throughout the video. Our method enables manipulation in 3D space as opposed to simple 2D masks, We demonstrate better temporal stability than frame-by-frame static view synthesis methods, or those that use 2D masks. The resulting view synthesis videos show minimal flickering artifacts and allow for larger translational movements.
翻訳日:2021-08-31 14:25:23 公開日:2021-08-30
# SurRoL:手術ロボット学習のためのオープンソースの強化学習とdVRK対応プラットフォーム

SurRoL: An Open-source Reinforcement Learning Centered and dVRK Compatible Platform for Surgical Robot Learning ( http://arxiv.org/abs/2108.13035v1 )

ライセンス: Link先を確認
Jiaqi Xu, Bin Li, Bo Lu, Yun-Hui Liu, Qi Dou, and Pheng-Ann Heng(参考訳) 自律的な手術は退屈なルーチンと外科医の疲労を和らげる。 近年の学習に基づく手法,特に強化学習(RL)に基づく手法は,データ収集の効率化とハードウェアコストの低減をシミュレーションに要求される,創発的操作に有望な性能を実現する。 既存の医療ロボットのための学習ベースのシミュレーションプラットフォームは、限られたシナリオとシンプルな物理的相互作用に悩まされ、学習ポリシーの現実のパフォーマンスが低下する。 本研究では,手術ロボット学習のためのRL中心のシミュレーションプラットフォームであるSurRoLを,da Vinci Research Kit (dVRK)と互換性のある設計を行った。 SurRoLはアルゴリズム開発のためのユーザフレンドリーなRLライブラリと、より多くのPSM/ECMシナリオとより現実的な物理的相互作用をサポートするリアルタイム物理エンジンを統合している。 学習に基づく10の手術タスクがプラットフォーム内に構築されており、実際の自律的な手術の実行に共通している。 シミュレーションにおいてRLアルゴリズムを用いてSurRoLの評価を行い、奥行き分析を行い、実際のdVRKにトレーニングされたポリシーをデプロイし、実世界でより優れた転送性を実現することを示す。

Autonomous surgical execution relieves tedious routines and surgeon's fatigue. Recent learning-based methods, especially reinforcement learning (RL) based methods, achieve promising performance for dexterous manipulation, which usually requires the simulation to collect data efficiently and reduce the hardware cost. The existing learning-based simulation platforms for medical robots suffer from limited scenarios and simplified physical interactions, which degrades the real-world performance of learned policies. In this work, we designed SurRoL, an RL-centered simulation platform for surgical robot learning compatible with the da Vinci Research Kit (dVRK). The designed SurRoL integrates a user-friendly RL library for algorithm development and a real-time physics engine, which is able to support more PSM/ECM scenarios and more realistic physical interactions. Ten learning-based surgical tasks are built in the platform, which are common in the real autonomous surgical execution. We evaluate SurRoL using RL algorithms in simulation, provide in-depth analysis, deploy the trained policies on the real dVRK, and show that our SurRoL achieves better transferability in the real world.
翻訳日:2021-08-31 14:24:49 公開日:2021-08-30
# 成長コサインユニット:畳み込みニューラルネットワークにおけるトレーニングとパラメータの短縮を可能にする新しい振動活性化関数

Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks ( http://arxiv.org/abs/2108.12943v1 )

ライセンス: Link先を確認
Mathew Mithra Noel, Arunkumar L, Advait Trivedi, Praneet Dutta(参考訳) 畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解決することに成功した。 複素高次元関数を階層的に学習する能力は、非線形活性化関数の使用に起因する。 深層ネットワークのトレーニングを可能とした重要な発見は、飽和活性化関数の使用による消失勾配問題を軽減するために、Rectified Linear Unit (ReLU) アクティベーション関数を採用したことである。 それ以来、多くの改良されたReLUアクティベーションが提案されている。 しかし、今日の活性化機能の大部分は、その生物学的妥当性のため、非振動性で単調に増加する。 本稿では,振動活性化関数が勾配流れを改善し,ネットワークサイズを小さくできることを示す。 振動活性化関数により、ニューロンはニューロンの高平面の正と負の半空間の内部の分類(出力の符号)を切り替え、より少ない神経細胞で複雑な決定をすることができる。 様々なアーキテクチャやベンチマークでsgmoids, swish, mish, reluよりも優れる新しい振動活性化関数 c(z) = z cos z について述べる。 この新しい活性化関数により、単一ニューロンでさえ非線形決定境界を示すことができる。 本稿では,有名なXOR問題に対する単一ニューロン解法を提案する。 CIFAR-10, CIFAR-100, Imagenetteでは, 畳み込み層の活性化関数をC(z)で置き換えることにより, 性能が著しく向上した。

Convolution neural networks have been successful in solving many socially important and economically significant problems. Their ability to learn complex high-dimensional functions hierarchically can be attributed to the use of nonlinear activation functions. A key discovery that made training deep networks feasible was the adoption of the Rectified Linear Unit (ReLU) activation function to alleviate the vanishing gradient problem caused by using saturating activation functions. Since then many improved variants of the ReLU activation have been proposed. However a majority of activation functions used today are non-oscillatory and monotonically increasing due to their biological plausibility. This paper demonstrates that oscillatory activation functions can improve gradient flow and reduce network size. It is shown that oscillatory activation functions allow neurons to switch classification (sign of output) within the interior of neuronal hyperplane positive and negative half-spaces allowing complex decisions with fewer neurons. A new oscillatory activation function C(z) = z cos z that outperforms Sigmoids, Swish, Mish and ReLU on a variety of architectures and benchmarks is presented. This new activation function allows even single neurons to exhibit nonlinear decision boundaries. This paper presents a single neuron solution to the famous XOR problem. Experimental results indicate that replacing the activation function in the convolutional layers with C(z) significantly improves performance on CIFAR-10, CIFAR-100 and Imagenette.
翻訳日:2021-08-31 14:21:40 公開日:2021-08-30
# Pandoraのボックスを相関で近似する

Approximating Pandora's Box with Correlations ( http://arxiv.org/abs/2108.12976v1 )

ライセンス: Link先を確認
Shuchi Chawla, Evangelia Gergatsouli, Jeremy McMahan, Christos Tzamos(参考訳) pandoraのボックス問題は、それらの値に関する確率的な情報から、n$以上の代替品の探索戦略を見つけ、検索コストと選択された代替品の値の合計を最小化することを目的としている。 独立分散値の場合にはよく理解されているが、独立性仮定を落とせば、問題のアルゴリズム的な理解は非常に限定される。 本研究は,pandoraのボックス問題を相関値分布下で近似する複雑さを特徴付けることを目的としている。 そのために我々は,pandoraのボックスの単純なバージョンに対して,特定のしきい値未満の値を求めるだけで,検索中に発生する将来の値について判断する必要をなくす,汎用的な還元を提案する。 この汎用ツールを用いて,サポート$m$の明示的な分布の場合と製品分布$m$の混合の場合の2つの相関関係について検討した。 第一のケースでは、pandoraのボックスを最適決定木のよく研究された問題に結びつけ、o(\log m)$の近似を得るが、一様決定木問題と同値である(定数係数まで)ので、問題は厳密に容易であることを示す。 $\bullet$ 製品分布の混合の場合、問題は、非常に難しい最適決定木(Optimal Decision Tree)のうるさい変種(noisy variant)に再び関係している。 n^{ \tilde o(m^2/\varepsilon^2 ) }$ for $m$ mixed components 任意の選択肢の辺数が同じか、テレビの間隔で$\varepsilon$ で区切られるかのいずれかである。

The Pandora's Box problem asks to find a search strategy over $n$ alternatives given stochastic information about their values, aiming to minimize the sum of the search cost and the value of the chosen alternative. Even though the case of independently distributed values is well understood, our algorithmic understanding of the problem is very limited once the independence assumption is dropped. Our work aims to characterize the complexity of approximating the Pandora's Box problem under correlated value distributions. To that end, we present a general reduction to a simpler version of Pandora's Box, that only asks to find a value below a certain threshold, and eliminates the need to reason about future values that will arise during the search. Using this general tool, we study two cases of correlation; the case of explicitly given distributions of support $m$ and the case of mixtures of $m$ product distributions. $\bullet$ In the first case, we connect Pandora's Box to the well studied problem of Optimal Decision Tree, obtaining an $O(\log m)$ approximation but also showing that the problem is strictly easier as it is equivalent (up to constant factors) to the Uniform Decision Tree problem. $\bullet$ In the case of mixtures of product distributions, the problem is again related to the noisy variant of Optimal Decision Tree which is significantly more challenging. We give a constant-factor approximation that runs in time $n^{ \tilde O( m^2/\varepsilon^2 ) }$ for $m$ mixture components whose marginals on every alternative are either identical or separated in TV distance by $\varepsilon$.
翻訳日:2021-08-31 14:21:14 公開日:2021-08-30
# 多エージェント強化学習におけるエージェントの学習メタ表現

Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.12988v1 )

ライセンス: Link先を確認
Shenao Zhang, Li Shen, Lei Han, Li Shen(参考訳) マルチエージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する行動は通常、与えられたエージェント数(すなわち人口規模)に制限される。 様々な集団サイズで誘導されるすべてのMGは、現代のマルチエージェントアルゴリズムで独立してモデル化される、最適なジョイント戦略とゲーム固有の知識を持っている。 本研究は,人口変動型mgsを一般化するエージェントの開発に焦点をあてる。 一人称ポリシーを学ぶ代わりに、各エージェントは様々なゲームにまたがる効果的な戦略によって形成されたポリシーセットを学ぶ。 ゲーム共通およびゲーム固有の戦略知識を明示的にモデル化するエージェント(mra)のメタ表現を提案する。 ポリシーセットをマルチモーダル潜在ポリシーで表現することにより、共通戦略知識と多様な戦略モードが反復的な最適化手順で発見される。 制約付き相互情報最大化目標の近似として,学習方針が十分大きな潜在空間上のリプシッツゲーム(英語版)の仮定の下で評価mgごとにnash平衡に達することを証明した。 最小サイズで実用的な潜在モデルにデプロイする場合、一階勾配情報を活用することで高速適応が実現できる。 広汎な実験は、ハードゲームとアンロックゲームにおいて、トレーニング性能と一般化能力の両方にMRAの有効性を示す。

In multi-agent reinforcement learning, the behaviors that agents learn in a single Markov Game (MG) are typically confined to the given agent number (i.e., population size). Every single MG induced by varying population sizes may possess distinct optimal joint strategies and game-specific knowledge, which are modeled independently in modern multi-agent algorithms. In this work, we focus on creating agents that generalize across population-varying MGs. Instead of learning a unimodal policy, each agent learns a policy set that is formed by effective strategies across a variety of games. We propose Meta Representations for Agents (MRA) that explicitly models the game-common and game-specific strategic knowledge. By representing the policy sets with multi-modal latent policies, the common strategic knowledge and diverse strategic modes are discovered with an iterative optimization procedure. We prove that as an approximation to a constrained mutual information maximization objective, the learned policies can reach Nash Equilibrium in every evaluation MG under the assumption of Lipschitz game on a sufficiently large latent space. When deploying it at practical latent models with limited size, fast adaptation can be achieved by leveraging the first-order gradient information. Extensive experiments show the effectiveness of MRA on both training performance and generalization ability in hard and unseen games.
翻訳日:2021-08-31 14:20:41 公開日:2021-08-30
# グラフニューラルネットワークに対する単一ノード注入攻撃

Single Node Injection Attack against Graph Neural Networks ( http://arxiv.org/abs/2108.13049v1 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Junjie Huang, Yunfan Wu, Xueqi Cheng(参考訳) Graph Neural Networks(GNN)に対するノードインジェクション攻撃は、攻撃者が元のノードやエッジを変更してGNNのパフォーマンスに影響を与えるのではなく、悪意のあるノードを注入する、新しくて実用的な攻撃シナリオである。 しかし、既存のノードインジェクション攻撃は、非常に制限されたシナリオを無視している。 本稿では,単一ノードインジェクション回避攻撃の極めて限定的なシナリオ,すなわち,GNNの性能を損なうために,テストフェーズ中に単一ノードを1つだけ注入することが許されていることに焦点を当てる。 ネットワーク構造の離散性とネットワーク構造とノード特徴の結合効果は、この極めて限られたシナリオに大きな課題をもたらす。 まず,単一ノードインジェクション回避攻撃の性能上界を探索する最適化ベース手法を提案する。 実験の結果、3つの公開データセット上の100%、98.60%、94.98%のノードが1つのエッジで1つのノードを注入するだけで攻撃され、単一ノードのインジェクション回避攻撃の可能性が確認された。 しかし、このような最適化に基づく手法は、各攻撃に対して再最適化する必要がある。 このジレンマを解決するため,攻撃性能を確保しつつ,攻撃効率を向上させるために汎用化可能なノード注入攻撃モデルG-NIAを提案する。 実験は3つの有名なGNNで行われている。 提案したG-NIAは最先端のベースラインを著しく上回り,推定時の最適化手法よりも500倍高速である。

Node injection attack on Graph Neural Networks (GNNs) is an emerging and practical attack scenario that the attacker injects malicious nodes rather than modifying original nodes or edges to affect the performance of GNNs. However, existing node injection attacks ignore extremely limited scenarios, namely the injected nodes might be excessive such that they may be perceptible to the target GNN. In this paper, we focus on an extremely limited scenario of single node injection evasion attack, i.e., the attacker is only allowed to inject one single node during the test phase to hurt GNN's performance. The discreteness of network structure and the coupling effect between network structure and node features bring great challenges to this extremely limited scenario. We first propose an optimization-based method to explore the performance upper bound of single node injection evasion attack. Experimental results show that 100%, 98.60%, and 94.98% nodes on three public datasets are successfully attacked even when only injecting one node with one edge, confirming the feasibility of single node injection evasion attack. However, such an optimization-based method needs to be re-optimized for each attack, which is computationally unbearable. To solve the dilemma, we further propose a Generalizable Node Injection Attack model, namely G-NIA, to improve the attack efficiency while ensuring the attack performance. Experiments are conducted across three well-known GNNs. Our proposed G-NIA significantly outperforms state-of-the-art baselines and is 500 times faster than the optimization-based method when inferring.
翻訳日:2021-08-31 14:20:19 公開日:2021-08-30
# ジェネレータ拡張を用いたオープンセットRFフィンガープリント

Open Set RF Fingerprinting using Generative Outlier Augmentation ( http://arxiv.org/abs/2108.13099v1 )

ライセンス: Link先を確認
Samurdhi Karunaratne, Samer Hanna, Danijela Cabric(参考訳) RFデバイスは、RF指紋と呼ばれる信号に埋め込まれたユニークな欠陥によって識別することができる。 このような装置のクローズドセット分類は、認証された送信機のうちの識別をする必要があるが、よく研究されている。 しかし、分類器が許可された送信機を認識しながら不正送信機を拒絶する必要があるオープンセット分類のより難しい問題は、最近になって始まったばかりである。 これまで、オープンセット分類の努力は、既知の無許可送信機から採取された信号サンプルを利用して、分類器が無許可送信機指紋を学習することに大きく依存してきた。 既知の送信機として使用する新しい送信機を取得するのは非常にコストがかかるため,未許可信号サンプルをエミュレートする生成的ディープラーニング手法を提案する。 我々は、2つの異なるデータ拡張技術を開発した。1つは限られた数の非許可送信機を活用し、もう1つは無許可送信機を必要としない。 WiFiテストベッドから取得したデータセットで行った実験は、データ拡張がオープンセットの分類精度を大幅に向上させることを示している。

RF devices can be identified by unique imperfections embedded in the signals they transmit called RF fingerprints. The closed set classification of such devices, where the identification must be made among an authorized set of transmitters, has been well explored. However, the much more difficult problem of open set classification, where the classifier needs to reject unauthorized transmitters while recognizing authorized transmitters, has only been recently visited. So far, efforts at open set classification have largely relied on the utilization of signal samples captured from a known set of unauthorized transmitters to aid the classifier learn unauthorized transmitter fingerprints. Since acquiring new transmitters to use as known transmitters is highly expensive, we propose to use generative deep learning methods to emulate unauthorized signal samples for the augmentation of training datasets. We develop two different data augmentation techniques, one that exploits a limited number of known unauthorized transmitters and the other that does not require any unauthorized transmitters. Experiments conducted on a dataset captured from a WiFi testbed indicate that data augmentation allows for significant increases in open set classification accuracy, especially when the authorized set is small.
翻訳日:2021-08-31 14:19:53 公開日:2021-08-30
# Whole Brain Vessel Graphs: グラフ学習と神経科学のためのデータセットとベンチマーク(VesselGraph)

Whole Brain Vessel Graphs: A Dataset and Benchmark for Graph Learning and Neuroscience (VesselGraph) ( http://arxiv.org/abs/2108.13233v1 )

ライセンス: Link先を確認
Johannes C. Paetzold, Julian McGinnis, Suprosanna Shit, Ivan Ezhov, Paul B\"uschl, Chinmay Prabhakar, Mihail I. Todorov, Anjany Sekuboyina, Georgios Kaissis, Ali Ert\"urk, Stephan G\"unnemann, Bjoern H. Menze(参考訳) 生物学的ニューラルネットワークは、ヒトや他の哺乳類の脳機能と知性を定義し、超大型で空間的、構造化されたグラフを形成する。 ニューロンの組織は脳の微小血管の空間構造と密接に関連しており、ニューロンに酸素を供給し、補完的な空間グラフを構築する。 この血管構造(または血管構造)は神経科学において重要な役割を担っている。 アルツハイマー病または脳卒中。 近年、組織クリアリングの進歩により、脳全体のイメージングとマウス脳の血管の分節化が可能になっている。 これらの画像技術の進歩を踏まえ,特定の画像プロトコルに基づく脳血管グラフの拡張可能なデータセットを提案する。 具体的には,ボリュームレンダリングエンジンのVoreenを利用した精巧なグラフ抽出手法を用いて血管グラフを抽出し,OGBおよびPyTorch Geometric Dataloaderを介してアクセス可能で適応可能な形式で提供する。 さらに,導入した血管グラフデータセットを用いた血管の予測と血管分類の生物学的タスクについて,最先端のグラフ学習アルゴリズムを多数ベンチマークした。 我々の研究は、神経科学の分野に関するグラフ学習研究を進める道を開いた。 相補的に提示されたデータセットは、学習アルゴリズムに生物学的プライオリティを組み込んだり、数百万のノードとエッジを持つスパースな空間グラフを扱うためにこれらのアルゴリズムをスケールするという点で、機械学習コミュニティにとって挑戦的なグラフ学習研究の課題を提起する。 すべてのデータセットとコードはhttps://github.com/jocpae/VesselGraphでダウンロードできる。

Biological neural networks define the brain function and intelligence of humans and other mammals, and form ultra-large, spatial, structured graphs. Their neuronal organization is closely interconnected with the spatial organization of the brain's microvasculature, which supplies oxygen to the neurons and builds a complementary spatial graph. This vasculature (or the vessel structure) plays an important role in neuroscience; for example, the organization of (and changes to) vessel structure can represent early signs of various pathologies, e.g. Alzheimer's disease or stroke. Recently, advances in tissue clearing have enabled whole brain imaging and segmentation of the entirety of the mouse brain's vasculature. Building on these advances in imaging, we are presenting an extendable dataset of whole-brain vessel graphs based on specific imaging protocols. Specifically, we extract vascular graphs using a refined graph extraction scheme leveraging the volume rendering engine Voreen and provide them in an accessible and adaptable form through the OGB and PyTorch Geometric dataloaders. Moreover, we benchmark numerous state-of-the-art graph learning algorithms on the biologically relevant tasks of vessel prediction and vessel classification using the introduced vessel graph dataset. Our work paves a path towards advancing graph learning research into the field of neuroscience. Complementarily, the presented dataset raises challenging graph learning research questions for the machine learning community, in terms of incorporating biological priors into learning algorithms, or in scaling these algorithms to handle sparse,spatial graphs with millions of nodes and edges. All datasets and code are available for download at https://github.com/jocpae/VesselGraph .
翻訳日:2021-08-31 14:19:33 公開日:2021-08-30
# クラウドソーシングレポートときめ細かい交通データを用いた機械学習による道路洪水リスク予測

Predicting Road Flooding Risk with Machine Learning Approaches Using Crowdsourced Reports and Fine-grained Traffic Data ( http://arxiv.org/abs/2108.13265v1 )

ライセンス: Link先を確認
Faxi Yuan, William Mobley, Hamed Farahmand, Yuanchang Xu, Russell Blessing, Ali Mostafavi, Samuel D. Brody(参考訳) 本研究の目的は,機械学習モデルを用いた地形,水文,時間降水特性に基づく道路洪水リスクの予測である。 道路ネットワークの洪水状況の予測的洪水モニタリングは,地域社会のハザード緩和,準備,対応活動において重要な役割を担っている。 道路浸水推定に関する既存研究では, モデル検証のための観測された道路浸水データがないか, 主に洪水地図に基づく道路浸水暴露評価に焦点を当てている。 本研究では,道路浸食の指標としてクラウドソース,微粒化トラフィックデータを用い,地形・水文・時相降水特性を予測変数とした。 その後、テキサス州ハリス郡の2017 Hurricane Harveyと2019 Tropical Storm Imeldaという2つのツリーベース機械学習モデル(ランダムフォレストとAdaBoost)がテストされ、道路浸水を予測するために訓練された。 ハリケーン・ハーヴェイの調査結果は、降水は道路浸水感受性を予測する上で最も重要な特徴であり、地形的特徴は両ハリケーンの道路浸水を予測するための水文学的特徴よりも重要であることを示している。 ランダム森林モデルとAdaBoostモデルは比較的高いAUCスコア(ハーヴェイは0.860、イメルダは0.810、イメルダは0.790、イメルダは0.720)を持っていた。 ランダム林モデルではハーヴェイでは安定し,イメルダでは顕著に変動した。 本研究は,道路レベルでの洪水リスクマップの予測という観点から,スマートフラッディングレジリエンスの新興分野を前進させる。 例えば、このようなモデルによって、地域社会や緊急管理機関は、極端な気象イベントが展開する際の道路浸水可能性の状況認識を改善して、より良い準備と対応戦略を開発することができる。

The objective of this study is to predict road flooding risks based on topographic, hydrologic, and temporal precipitation features using machine learning models. Predictive flood monitoring of road network flooding status plays an essential role in community hazard mitigation, preparedness, and response activities. Existing studies related to the estimation of road inundations either lack observed road inundation data for model validations or focus mainly on road inundation exposure assessment based on flood maps. This study addresses this limitation by using crowdsourced and fine-grained traffic data as an indicator of road inundation, and topographic, hydrologic, and temporal precipitation features as predictor variables. Two tree-based machine learning models (random forest and AdaBoost) were then tested and trained for predicting road inundations in the contexts of 2017 Hurricane Harvey and 2019 Tropical Storm Imelda in Harris County, Texas. The findings from Hurricane Harvey indicate that precipitation is the most important feature for predicting road inundation susceptibility, and that topographic features are more essential than hydrologic features for predicting road inundations in both storm cases. The random forest and AdaBoost models had relatively high AUC scores (0.860 and 0.810 for Harvey respectively and 0.790 and 0.720 for Imelda respectively) with the random forest model performing better in both cases. The random forest model showed stable performance for Harvey, while varying significantly for Imelda. This study advances the emerging field of smart flood resilience in terms of predictive flood risk mapping at the road level. For example, such models could help impacted communities and emergency management agencies develop better preparedness and response strategies with improved situational awareness of road inundation likelihood as an extreme weather event unfolds.
翻訳日:2021-08-31 14:19:02 公開日:2021-08-30
# MLによる逆設定によるIoTマルウェア検出:システム評価

ML-based IoT Malware Detection Under Adversarial Settings: A Systematic Evaluation ( http://arxiv.org/abs/2108.13373v1 )

ライセンス: Link先を確認
Ahmed Abusnaina, Afsah Anwar, Sultan Alshamrani, Abdulrahman Alabduljabbar, RhongHo Jang, Daehun Nyang, David Mohaisen(参考訳) IoT(Internet of Things)デバイスの急速な成長は、悪意のある攻撃の最前線にあることによる。 これによりIoTマルウェアの数が爆発的に増加し、継続的な突然変異、進化、洗練が続いている。 これらの悪意あるソフトウェアは、従来のシグネチャベースの手法と並行して機械学習(ML)アルゴリズムを用いて検出される。 MLベースの検出器は検出性能を向上させるが、マルウェアの進化や高度化の影響を受けやすく、訓練されたパターンに限られる。 この継続的な傾向は、マルウェア分析と検出研究に関する多くの文献を動機付け、多くのシステムが常に出現し、前者よりも優れている。 本研究では,様々な表現手法や学習手法を用いたマルウェア検出手法を,様々な敵環境下で体系的に検討する。 本分析では,悪質なソフトウェアと区別する学習パターンにおいて,提案する検出器の不安定性を強調した。 その結果, 剥ぎ取りやパディングなどの機能保存操作によるソフトウェア変異は, 検出精度を著しく低下させることがわかった。 また,業界標準マルウェア検出器の解析により,マルウェア変異に対する不安定性が示された。

The rapid growth of the Internet of Things (IoT) devices is paralleled by them being on the front-line of malicious attacks. This has led to an explosion in the number of IoT malware, with continued mutations, evolution, and sophistication. These malicious software are detected using machine learning (ML) algorithms alongside the traditional signature-based methods. Although ML-based detectors improve the detection performance, they are susceptible to malware evolution and sophistication, making them limited to the patterns that they have been trained upon. This continuous trend motivates the large body of literature on malware analysis and detection research, with many systems emerging constantly, and outperforming their predecessors. In this work, we systematically examine the state-of-the-art malware detection approaches, that utilize various representation and learning techniques, under a range of adversarial settings. Our analyses highlight the instability of the proposed detectors in learning patterns that distinguish the benign from the malicious software. The results exhibit that software mutations with functionality-preserving operations, such as stripping and padding, significantly deteriorate the accuracy of such detectors. Additionally, our analysis of the industry-standard malware detectors shows their instability to the malware mutations.
翻訳日:2021-08-31 14:18:30 公開日:2021-08-30
# 弱教師付きガンマハドロン分類のためのノイズラベル

Noisy Labels for Weakly Supervised Gamma Hadron Classification ( http://arxiv.org/abs/2108.13396v1 )

ライセンス: Link先を確認
Lukas Pfahler, Mirko Bunse, Katharina Morik(参考訳) ガンマ線天文学の中心となる機械学習タスクであるガンマハドロン分類は、従来は教師付き学習で取り組まれている。 しかし、教師付きアプローチでは、高度でコストのかかるシミュレーションで、注釈付きトレーニングデータを生成する必要がある。 本研究では、実際の望遠鏡で記録されたラベルなしデータのみを使用するノイズラベル方式でガンマハドロン分類を解くことを提案する。 この目的のために,我々は,この弱い監視形式に対処する学習基準として,検出の意義を用いる。 我々は,検出の重要性に基づくモデルが,ノイズラベルにのみ訓練されているにもかかわらず,最先端の結果をもたらすことを示す。 我々の弱教師付きモデルは、他の様々なアプリケーションドメインに由来する不均衡データセットでも競争性能を示す。 クラス条件ラベルノイズに関する既存の研究とは対照的に、クラスレベルのノイズレートの1つのみが知られていると仮定する。

Gamma hadron classification, a central machine learning task in gamma ray astronomy, is conventionally tackled with supervised learning. However, the supervised approach requires annotated training data to be produced in sophisticated and costly simulations. We propose to instead solve gamma hadron classification with a noisy label approach that only uses unlabeled data recorded by the real telescope. To this end, we employ the significance of detection as a learning criterion which addresses this form of weak supervision. We show that models which are based on the significance of detection deliver state-of-the-art results, despite being exclusively trained with noisy labels; put differently, our models do not require the costly simulated ground-truth labels that astronomers otherwise employ for classifier training. Our weakly supervised models exhibit competitive performances also on imbalanced data sets that stem from a variety of other application domains. In contrast to existing work on class-conditional label noise, we assume that only one of the class-wise noise rates is known.
翻訳日:2021-08-31 14:18:14 公開日:2021-08-30
# 暗号化ストリーミングビデオにおけるロバストなプライバシー保護動作検出と物体追跡

Robust Privacy-Preserving Motion Detection and Object Tracking in Encrypted Streaming Video ( http://arxiv.org/abs/2108.13141v1 )

ライセンス: Link先を確認
Xianhao Tian, Peijia Zheng, Jiwu Huang(参考訳) 特にクラウドベースのビデオ監視システムでは、ビデオのプライバシーリークがますます深刻な問題になりつつある。 ビデオはプライバシー保護のために暗号化されるため、セキュアなクラウドベースのビデオアプリケーションが必要となる。 暗号化されたビデオ移動物体の検出と追跡のために提案されているいくつかの方法にもかかわらず、複雑でダイナミックなシーンに対して堅牢な性能を持つものはない。 本稿では,暗号化された監視ビデオビットストリームに対して,効率良くロバストなプライバシー保存動作検出手法と複数のオブジェクト追跡方式を提案する。 ビデオコーデックとフォーマットに準拠した暗号化方式の特性を解析することにより,複雑な監視シナリオで動作情報をキャプチャする新しい圧縮ドメイン機能を提案する。 この特徴に基づき、4x4ピクセルの精度で移動物体の分割を行う適応クラスタリングアルゴリズムを設計した。 次に,Kalmanフィルタ推定と適応計測補正を用いた複数物体追跡手法を提案する。 提案手法では, ビデオ復号や全圧縮を必要とせず, 計算負荷が非常に低い。 実験の結果,本手法は暗号化および圧縮領域における既存手法と比較して,最良の検出および追跡性能を達成できることが判明した。 提案手法は,カメラ移動/ジッタ,ダイナミック背景,シャドウといった異なる課題を伴う複雑な監視シナリオにおいて効果的に使用できる。

Video privacy leakage is becoming an increasingly severe public problem, especially in cloud-based video surveillance systems. It leads to the new need for secure cloud-based video applications, where the video is encrypted for privacy protection. Despite some methods that have been proposed for encrypted video moving object detection and tracking, none has robust performance against complex and dynamic scenes. In this paper, we propose an efficient and robust privacy-preserving motion detection and multiple object tracking scheme for encrypted surveillance video bitstreams. By analyzing the properties of the video codec and format-compliant encryption schemes, we propose a new compressed-domain feature to capture motion information in complex surveillance scenarios. Based on this feature, we design an adaptive clustering algorithm for moving object segmentation with an accuracy of 4x4 pixels. We then propose a multiple object tracking scheme that uses Kalman filter estimation and adaptive measurement refinement. The proposed scheme does not require video decryption or full decompression and has a very low computation load. The experimental results demonstrate that our scheme achieves the best detection and tracking performance compared with existing works in the encrypted and compressed domain. Our scheme can be effectively used in complex surveillance scenarios with different challenges, such as camera movement/jitter, dynamic background, and shadows.
翻訳日:2021-08-31 14:17:26 公開日:2021-08-30
# 音声認識のためのマルチチャネル変換器

Multi-Channel Transformer Transducer for Speech Recognition ( http://arxiv.org/abs/2108.12953v1 )

ライセンス: Link先を確認
Feng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo(参考訳) マルチチャネル入力は、オンデバイス音声認識システムの堅牢性を改善するために、シングルチャネルよりもいくつかの利点を提供する。 近年のマルチチャネルトランスの研究で、これらの入力をエンドツーエンドのASRに組み込んで精度を向上させる方法が提案されている。 しかし、このアプローチは高い計算複雑性が特徴であり、デバイス上のシステムにデプロイされるのを防ぐことができる。 本稿では,端末内音声認識におけるストリーミング復号化に適した,エンドツーエンドのマルチチャネルトレーニング,低計算コスト,低レイテンシを特徴とする新しい音声認識モデルMCTTを提案する。 遠距離フィールド内データセットでは、MCTTはトランスデューサを用いたステージワイドマルチチャネルモデルよりも6.01%の相対WER改善(WERR)を実現している。 さらにMCTTは、マルチチャネルトランスフォーマーを11.62% WERRに上回り、推論速度の15.8倍高速である。 さらに,注意計算における将来と過去の文脈を制約することにより,MCTTの計算コストを向上できることを示す。

Multi-channel inputs offer several advantages over single-channel, to improve the robustness of on-device speech recognition systems. Recent work on multi-channel transformer, has proposed a way to incorporate such inputs into end-to-end ASR for improved accuracy. However, this approach is characterized by a high computational complexity, which prevents it from being deployed in on-device systems. In this paper, we present a novel speech recognition model, Multi-Channel Transformer Transducer (MCTT), which features end-to-end multi-channel training, low computation cost, and low latency so that it is suitable for streaming decoding in on-device speech recognition. In a far-field in-house dataset, our MCTT outperforms stagewise multi-channel models with transformer-transducer up to 6.01% relative WER improvement (WERR). In addition, MCTT outperforms the multi-channel transformer up to 11.62% WERR, and is 15.8 times faster in terms of inference speed. We further show that we can improve the computational cost of MCTT by constraining the future and previous context in attention computations.
翻訳日:2021-08-31 14:16:32 公開日:2021-08-30
# 正規化場流:物理インフォームドフローモデルを用いた前方および逆確率微分方程式の解法

Normalizing Field Flows: Solving forward and inverse stochastic differential equations using Physics-Informed flow model ( http://arxiv.org/abs/2108.12956v1 )

ライセンス: Link先を確認
Ling Guo, Hao Wu, Tao Zhou(参考訳) 本研究では,散乱測定からランダム場を学習する場流の正規化(NFF)について紹介する。 より正確には、基準確率場(例えばカルフネン=ロ=エベ展開構造を持つガウス確率場)と目標確率場の間の単射変換(ニューラルネットワークによって特徴づけられる正規化フロー)を構築し、kl展開係数と可逆ネットワークを散乱測定値の対数類似度の総和を最大化することにより訓練する。 この nff モデルは、一元的な枠組みでデータ駆動前方・逆・混合確率偏微分方程式を解くのに使うことができる。 我々は、非ガウス過程、混合ガウス過程、前方および逆確率偏微分方程式を学習するためのNFFモデルの有効性を実証する。

We introduce in this work the normalizing field flows (NFF) for learning random fields from scattered measurements. More precisely, we construct a bijective transformation (a normalizing flow characterizing by neural networks) between a reference random field (say, a Gaussian random field with the Karhunen-Lo\`eve expansion structure) and the target stochastic field, where the KL expansion coefficients and the invertible networks are trained by maximizing the sum of the log-likelihood on scattered measurements. This NFF model can be used to solve data-driven forward, inverse, and mixed forward/inverse stochastic partial differential equations in a unified framework. We demonstrate the capability of the proposed NFF model for learning Non Gaussian processes, mixed Gaussian processes, and forward & inverse stochastic partial differential equations.
翻訳日:2021-08-31 14:16:13 公開日:2021-08-30
# 物理形ニューラルネットワークにおけるwasserstein生成逆不確実性定量化

Wasserstein Generative Adversarial Uncertainty Quantification in Physics-Informed Neural Networks ( http://arxiv.org/abs/2108.13054v1 )

ライセンス: Link先を確認
Yihang Gao and Michael K. Ng(参考訳) 本稿では,偏微分方程式の解における不確実性定量化のための物理インフォームドアルゴリズムをWasserstein Generative Adversarial Networks (WGANs) に対して検討する。 逆ネットワーク判別器におけるグループソート活性化関数を用いて、初期/境界データから観測される偏微分方程式の解の不確かさをネットワーク生成器で学習する。 穏やかな仮定の下では、計算されたジェネレータの一般化誤差は、サンプル数を十分に取ると、高い確率でネットワークの近似誤差に収束することを示す。 確立されたエラーバウンドによると、我々の物理インフォームドWGANは、ジェネレータよりも識別器の容量が要求される。 偏微分方程式の合成例に関する数値計算の結果を報告し, 偏微分方程式の解と初期/境界データの分布について不確かさの定量化が可能であることを示す。

In this paper, we study a physics-informed algorithm for Wasserstein Generative Adversarial Networks (WGANs) for uncertainty quantification in solutions of partial differential equations. By using groupsort activation functions in adversarial network discriminators, network generators are utilized to learn the uncertainty in solutions of partial differential equations observed from the initial/boundary data. Under mild assumptions, we show that the generalization error of the computed generator converges to the approximation error of the network with high probability, when the number of samples are sufficiently taken. According to our established error bound, we also find that our physics-informed WGANs have higher requirement for the capacity of discriminators than that of generators. Numerical results on synthetic examples of partial differential equations are reported to validate our theoretical results and demonstrate how uncertainty quantification can be obtained for solutions of partial differential equations and the distributions of initial/boundary data.
翻訳日:2021-08-31 14:15:57 公開日:2021-08-30
# 非弾性構造を有する材料のマルチスケールモデリングのための熱力学に基づくニューラルネットワーク(TANN)

Thermodynamics-based Artificial Neural Networks (TANN) for multiscale modeling of materials with inelastic microstructure ( http://arxiv.org/abs/2108.13137v1 )

ライセンス: Link先を確認
Filippo Masi and Ioannis Stefanou(参考訳) ミクロ組織を有する非弾性材料の力学的挙動は非常に複雑であり、ヒューリスティックな経験的構成モデルでは把握が困難である。 この目的のために、マイクロ構造体のマクロ力学的挙動の信頼性と正確な予測を行うために、多スケール均質化手法がしばしば用いられる。 しかしながら、そのような手法の計算コストは非常に高く、非弾性材料を含む現実的な応用には不当である。 近年、アドホックな構成法則や高速なマルチスケール数値法に代わるものとして、ディープラーニングに基づくデータ駆動型アプローチが注目されている。 しかし、そのようなアプローチは物理学の法則に基づく厳密な枠組みを欠いている。 その結果, 複雑な非弾性構造を有するモデル材料への応用はまだ確立されていない。 本稿では,非弾性・複雑な構造を持つ材料の構成モデリングのための熱力学に基づくニューラルネットワーク(TANN)を提案する。 本手法は,熱力学を考慮した次元低減技術と深層ニューラルネットワークを統合し,複雑な非弾性材料の構成則と内部状態変数を同定する。 TANNが高忠実で物理的に一貫した予測を行う能力は、顕微鏡とマクロスケールの両方でいくつかの例を通して示される。 特に, 平均的および局所的な応力-ひずみ応答, 内部エネルギー, 非弾性における規則的および摂動的格子微細構造の散逸の予測において, タンの効率と精度を示す。 最後に、大規模境界値問題を解くために二重相同化スキームを用いる。 TANNを用いた同種モデルの高性能化について,詳細な比較を行った。 種々の単調および環状応力-ひずみ経路に対して優れた一致を示す。

The mechanical behavior of inelastic materials with microstructure is very complex and hard to grasp with heuristic, empirical constitutive models. For this purpose, multiscale, homogenization approaches are often used for performing reliable, accurate predictions of the macroscopic mechanical behavior of microstructured solids. Nevertheless, the calculation cost of such approaches is extremely high and prohibitive for real-scale applications involving inelastic materials. Recently, data-driven approaches based on deep learning have risen as a promising alternative to replace ad-hoc constitutive laws and speed-up multiscale numerical methods. However, such approaches lack a rigorous frame based on the laws of physics. As a result, their application to model materials with complex microstructure in inelasticity is not yet established. Here, we propose Thermodynamics-based Artificial Neural Networks (TANN) for the constitutive modeling of materials with inelastic and complex microstructure. Our approach integrates thermodynamics-aware dimensionality reduction techniques and deep neural networks to identify the constitutive laws and the internal state variables of complex inelastic materials. The ability of TANN in delivering high-fidelity, physically consistent predictions is demonstrated through several examples both at the microscopic and macroscopic scale. In particular, we show the efficiency and accuracy of TANN in predicting the average and local stress-strain response, the internal energy and the dissipation of both regular and perturbed lattice microstructures in inelasticity. Finally, a double-scale homogenization scheme is used to solve a large scale boundary value problem. The high performance of the homogenized model using TANN is illustrated through detailed comparisons. An excellent agreement is shown for a variety of monotonous and cyclic stress-strain paths.
翻訳日:2021-08-31 14:15:40 公開日:2021-08-30
# ニューラルなHMMは必要なもの(高品質な注意力のないTS)

Neural HMMs are all you need (for high-quality attention-free TTS) ( http://arxiv.org/abs/2108.13320v1 )

ライセンス: Link先を確認
Shivam Mehta, \'Eva Sz\'ekely, Jonas Beskow, Gustav Eje Henter(参考訳) HMMを用いた古典的統計パラメトリック音声合成より,TTSの出力品質は著しく向上した。 しかし、新しいパラダイムは確率的ではなく、非単調な注意がトレーニング時間を増加させ、プロダクションでは受け入れられない"バブリング"障害モードを導入する。 本稿では,タコトロン2の注意をニューラルネットワークで定義した自己回帰的な非スキップ隠れマルコフモデルに置き換えることで,両世界の利点を得るために新旧のパラダイムを組み合わせることができることを実証する。 これにより、モノトニックアライメントを備えたHMMベースのニューラルTSモデルが実現され、近似なしで全シーケンス確率を最大化するように訓練される。 我々は,古典的および現代的ttsのイノベーションを最高の結果に結びつける方法について論じる。 最終システムはTacotron 2よりも小さくてシンプルで、同じ言語自然性を実現しつつ、より少ないイテレーションで調整と話し方を学ぶ。 タコトロン2とは異なり、発話速度の制御も容易である。 オーディオサンプルとコードはhttps://shivammehta007.github.io/neural-hmm/で入手できる。

Neural sequence-to-sequence TTS has demonstrated significantly better output quality over classical statistical parametric speech synthesis using HMMs. However, the new paradigm is not probabilistic and the use of non-monotonic attention both increases training time and introduces "babbling" failure modes that are unacceptable in production. In this paper, we demonstrate that the old and new paradigms can be combined to obtain the advantages of both worlds, by replacing the attention in Tacotron 2 with an autoregressive left-right no-skip hidden-Markov model defined by a neural network. This leads to an HMM-based neural TTS model with monotonic alignment, trained to maximise the full sequence likelihood without approximations. We discuss how to combine innovations from both classical and contemporary TTS for best results. The final system is smaller and simpler than Tacotron 2 and learns to align and speak with fewer iterations, while achieving the same speech naturalness. Unlike Tacotron 2, it also allows easy control over speaking rate. Audio examples and code are available at https://shivammehta007.github.io/Neural-HMM/
翻訳日:2021-08-31 14:15:16 公開日:2021-08-30
# (参考訳) Canoe : ニューラルネットワークのための協調学習システム

Canoe : A System for Collaborative Learning for Neural Nets ( http://arxiv.org/abs/2108.12124v2 )

ライセンス: CC BY 4.0
Harshit Daga, Yiwen Chen, Aastha Agrawal, Ada Gavrilovska(参考訳) エッジコンピューティングのような高度に分散した環境では、協調学習アプローチによってグローバルな共有モデルへの依存が促進され、各場所に適したモデルが好まれる。 個別の学習コンテキストに適したモデルを作成することは、データ転送の量を減らす一方、ピア間のコラボレーションは許容できるモデルパフォーマンスを提供する。 しかし、知識が正確なモデルスライスによって容易に引き起こされない深層学習モデルでは自明ではない、知識伝達メカニズムが利用可能であると仮定する。 Canoe - ニューラルネットワークの知識伝達を容易にするフレームワークを提案する。 Canoeは、ヘルパーノードのニューラルネットワークから重要なパラメータを動的に抽出する新しいシステムサポートを提供し、ターゲットノードの予測パフォーマンスを改善するために、マルチモデルブースティングベースのアプローチでこれを使用する。 異なるPyTorchとTensorFlowニューラルネットワークモデルによるCanoeの評価は、知識伝達機構が、独立した学習に比べて3.5倍までモデルの適応性を向上し、フェデレートされた学習に比べてデータ移動コストが大幅に削減されることを示した。

For highly distributed environments such as edge computing, collaborative learning approaches eschew the dependence on a global, shared model, in favor of models tailored for each location. Creating tailored models for individual learning contexts reduces the amount of data transfer, while collaboration among peers provides acceptable model performance. Collaboration assumes, however, the availability of knowledge transfer mechanisms, which are not trivial for deep learning models where knowledge isn't easily attributed to precise model slices. We present Canoe - a framework that facilitates knowledge transfer for neural networks. Canoe provides new system support for dynamically extracting significant parameters from a helper node's neural network and uses this with a multi-model boosting-based approach to improve the predictive performance of the target node. The evaluation of Canoe with different PyTorch and TensorFlow neural network models demonstrates that the knowledge transfer mechanism improves the model's adaptiveness to changes up to 3.5X compared to learning in isolation, while affording several magnitudes reduction in data movement costs compared to federated learning.
翻訳日:2021-08-31 11:08:16 公開日:2021-08-30
# (参考訳) ProtoInfoMax: ドメイン外検出のための相互情報最大化を備えたプロトタイプネットワーク

ProtoInfoMax: Prototypical Networks with Mutual Information Maximization for Out-of-Domain Detection ( http://arxiv.org/abs/2108.12229v2 )

ライセンス: CC BY 4.0
Iftitahu Ni'mah, Meng Fang, Vlado Menkovski, Mykola Pechenizkiy(参考訳) OOD(Out-of-Domain)インプットを検出する能力は、OODインプットがサポートされていないため、多くの現実世界のNLPアプリケーションにおいて重要な要件となっている。 しかし、OODトレーニングデータがゼロである現実的なシナリオでは、現在のアルゴリズムがそのような問題に確実に対処できるかどうか、実証的な疑問が残る。 本研究では,プロトタイプネットワークを拡張し,相互情報最大化(infomax)目標を用いて,ドメイン内(id)文とオード文を同時に処理する新しいアーキテクチャprotoinfomaxを提案する。 実験の結果,本手法はテキスト分類の低リソース設定におけるOOD検出性能を最大20%向上させることができることがわかった。 また、ProtoInfoMaxは、ニューラルネットワークの一般的な過信エラーの傾向が低く、より信頼性の高いIDとOOD予測結果をもたらすことを示す。

The ability to detect Out-of-Domain (OOD) inputs has been a critical requirement in many real-world NLP applications since the inclusion of unsupported OOD inputs may lead to catastrophic failure of systems. However, it remains an empirical question whether current algorithms can tackle such problem reliably in a realistic scenario where zero OOD training data is available. In this study, we propose ProtoInfoMax, a new architecture that extends Prototypical Networks to simultaneously process In-Domain (ID) and OOD sentences via Mutual Information Maximization (InfoMax) objective. Experimental results show that our proposed method can substantially improve performance up to 20% for OOD detection in low resource settings of text classification. We also show that ProtoInfoMax is less prone to typical over-confidence Error of Neural Networks, leading to more reliable ID and OOD prediction outcomes.
翻訳日:2021-08-31 10:44:01 公開日:2021-08-30
# 結合エンティティと関係抽出のための分割フィルタネットワーク

A Partition Filter Network for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2108.12202v2 )

ライセンス: Link先を確認
Zhiheng Yan, Chong Zhang, Jinlan Fu, Qi Zhang, Zhongyu Wei(参考訳) エンティティと関係抽出のジョイント・エンティティでは、既存の作業はタスク固有の機能を逐次エンコードし、後に抽出された機能が直接接触しないタスク間の機能インタラクションの不均衡に繋がる。 あるいは、エンティティの特徴と関係機能を並列にエンコードする。つまり、各タスクに対する機能表現学習は、入力共有を除いて、ほとんど独立している。 本稿では,タスク間の双方向インタラクションを適切にモデル化する分割フィルタネットワークを提案する。 エンコーダでは、エンティティとリレーショナルゲートという2つのゲートを利用して、ニューロンを2つのタスクパーティションと1つの共有パーティションに分割する。 共有パーティションは、両方のタスクに価値のあるタスク間情報を表し、適切な双方向インタラクションを保証するために2つのタスク間で均等に共有される。 タスクパーティションはタスク内の情報を表し、両方のゲートの協調した努力によって形成され、タスク固有の機能のエンコーディングが互いに依存していることを保証する。 5つの公開データセットの実験結果から,我々のモデルは従来の手法よりもはるかに優れた性能を示した。 ソースコードはhttps://github.com/Coopercoppers/PFNで確認できる。

In joint entity and relation extraction, existing work either sequentially encode task-specific features, leading to an imbalance in inter-task feature interaction where features extracted later have no direct contact with those that come first. Or they encode entity features and relation features in a parallel manner, meaning that feature representation learning for each task is largely independent of each other except for input sharing. We propose a partition filter network to model two-way interaction between tasks properly, where feature encoding is decomposed into two steps: partition and filter. In our encoder, we leverage two gates: entity and relation gate, to segment neurons into two task partitions and one shared partition. The shared partition represents inter-task information valuable to both tasks and is evenly shared across two tasks to ensure proper two-way interaction. The task partitions represent intra-task information and are formed through concerted efforts of both gates, making sure that encoding of task-specific features are dependent upon each other. Experiment results on five public datasets show that our model performs significantly better than previous approaches. The source code can be found in https://github.com/Coopercoppers/PFN.
翻訳日:2021-08-31 10:26:34 公開日:2021-08-30
# 修復セマンティックスにおける経時的DLライトの不整合データのクリーニング

Cleaning Inconsistent Data in Temporal DL-Lite Under Best Repair Semantics ( http://arxiv.org/abs/2108.12149v2 )

ライセンス: Link先を確認
Mourad Ouziri (LIPADE - EA 2517), Sabiha Tahrat (LIPADE - EA 2517), Salima Benbernou (LIPADE - EA 2517), Mourad Ouzirri(参考訳) 本稿では,時間記述論理(TDL)知識ベースにおける一貫性のないデータ処理の問題に対処する。 本稿では,知識ベースのデータ部分を不整合の原因として考慮し,ABox修復手法を提案する。 これは、tdlの知識ベースで修復を扱う最初の作業である。 そのために,(1)時間的不整合の検出,2)データ時間的リペアメントの提案という2つの目標を設定した。 不整合検出のために、TDL概念のNP完全上界を厳密に設定し、正確な説明(一貫性のないデータアサーションの集合)をもたらすように高度に最適化されたDL推論器を使用するTDLからDLへの還元アプローチを提案する。 その後、得られた説明から、許容された剛性述語とアサーションの時間順序に基づいて、時間設定における最良の修復を自動的に計算する手法を提案する。

In this paper, we address the problem of handling inconsistent data in Temporal Description Logic (TDL) knowledge bases. Considering the data part of the Knowledge Base as the source of inconsistency over time, we propose an ABox repair approach. This is the first work handling the repair in TDL Knowledge bases. To do so, our goal is twofold: 1) detect temporal inconsistencies and 2) propose a data temporal reparation. For the inconsistency detection, we propose a reduction approach from TDL to DL which allows to provide a tight NP-complete upper bound for TDL concept satisfiability and to use highly optimised DL reasoners that can bring precise explanation (the set of inconsistent data assertions). Thereafter, from the obtained explanation, we propose a method for automatically computing the best repair in the temporal setting based on the allowed rigid predicates and the time order of assertions.
翻訳日:2021-08-31 10:25:54 公開日:2021-08-30
# 視聴覚イベントローカライズのためのマルチモジュレーションネットワーク

Multi-Modulation Network for Audio-Visual Event Localization ( http://arxiv.org/abs/2108.11773v2 )

ライセンス: Link先を確認
Hao Wang, Zheng-Jun Zha, Liang Li, Xuejin Chen, Jiebo Luo(参考訳) 本研究では,可聴性と可視性を兼ね備えた視聴覚イベントのローカライズについて検討する。 既存の作業は,2つのモードのセグメント間の情報的相関や,マルチスケールなイベントの提案を無視しながら,セグメントレベルでの音声と視覚の特徴の符号化と調整に重点を置いている。 以上の相関関係を学習し,それを意味指導として活用し,関連する聴覚・視覚・融合特徴を変調する新しいマルチ変調ネットワーク(M2N)を提案する。 特に特徴エンコーディングにおいて,クロスモーダル正規化とイントラモーダル正規化を提案する。 前者は、交叉モーダル関係を確立し、活用することにより、2つのモーダルの特徴を変調する。 後者は、同じモダリティのイベント関連セマンティックガイダンスで単一のモダリティの特徴を変調する。 融合段階では,マルチスケールのイベント提案を導入し,クロスモーダルセグメント間の密マッチングを可能にするマルチスケール提案変調モジュールとマルチアグリゲーションセグメント変調モジュールを提案する。 M2Nは、聴覚、視覚、融合の特徴を、音声・視覚イベントに関する相関情報によって変調することにより、正確なイベントローカライゼーションを行う。 AVEデータセット上で行った大規模な実験により,提案手法は,教師付きイベントの局所化と相互モダリティの局所化の両方において,最先端の手法であることがわかった。

We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.
翻訳日:2021-08-31 10:25:37 公開日:2021-08-30