このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220812となっている論文です。

PDF登録状況(公開日: 20220812)

TitleAuthorsAbstract論文公表日・翻訳日
# ハバードモデルに対する最適フェルミオンスワップネットワーク

Optimal fermionic swap networks for Hubbard models ( http://arxiv.org/abs/2001.08324v4 )

ライセンス: Link先を確認
Tobias Hagge(参考訳) ヨルダン・ウィグナー変換を用いて符号化されたn次元フェルミ・ハバード模型のハミルトニアンを効率的にシミュレートするために用いられるフェルミイオンスワップネットワークスキームの効率的なバリエーションを提案する。 2次元バージョンでは、スワップ深さとハミルトニアン相互作用層数を最小限に抑えることができる。 証明はスワップネットワークの選択とともに、組合せ論の文献から得られる等尺不等式に依存し、グラフ帯域幅問題と密接に関連している。 機械は、他の種類の格子のスワップネットワーク効率を最大化するために拡張される可能性がある。

We propose an efficient variation of the fermionic swap network scheme used to efficiently simulate n-dimensional Fermi-Hubbard-model Hamiltonians encoded using the Jordan-Wigner transform. For the two-dimensional versions, we show that our choices minimize swap depth and number of Hamiltonian interaction layers. The proofs, along with the choice of swap network, rely on isoperimetric inequality results from the combinatorics literature, and are closely related to graph bandwidth problems. The machinery has the potential to be extended to maximize swap network efficiency for other types of lattices.
翻訳日:2023-06-06 05:11:56 公開日:2022-08-12
# 非可換平面上の量子干渉と量子-古典遷移

Quantum Interference on the Non-Commutative Plane and the Quantum-to-Classical Transition ( http://arxiv.org/abs/2101.06108v2 )

ライセンス: Link先を確認
IB Pittaway and FG Scholtz(参考訳) 短距離スケールにおける空間の構造とマクロスケールにおける古典現象の出現との関係について検討する。 この目的のために、短いスケールで非可換空間のパラダイムを採用し、二重スリット実験と非可換平面でのフォン・ノイマン測定の結果を明示的に計算する。 連続的な量子-古典遷移の非常に一貫した図が現れる。 この遷移を駆動するメカニズムは標準デコヒーレンスであるが、ここでは ‘environment'' は非可換量子ヒルベルト空間のテンソル積構造から非常に自然に生じる。 二重スリット計算により、この遷移がアボガドロ数の次数の粒子数に有効になるように、非可換パラメータの下限を確立することができる。 同様に、フォン・ノイマン測定の結果は、非可換パラメータ、装置サイズ、古典性を示すシステムと装置間の結合を含む基準を確立する。

We explore a possible link between the structure of space at short length scales and the emergence of classical phenomena at macroscopic scales. To this end we adopt the paradigm of non-commutative space at short length scales and explicitly compute the outcomes of a double slit experiment and a von Neumann measurement in the non-commutative plane. A very consistent picture of a continuous quantum-to-classical transition emerges. The mechanism driving this transition is standard decoherence, but here the ``environment'' arises quite naturally from the tensor product structure of the non-commutative quantum Hilbert space. The double slit calculation enables us to establish a lower bound on the non-commutative parameter for this transition to become effective at particle numbers of the order of Avogadro's number. Similarly, the result of the von Neumann measurement establishes a criterium involving the non-commutative parameter, apparatus size and coupling between system and apparatus for classicality to emerge.
翻訳日:2023-04-15 03:03:57 公開日:2022-08-12
# 2ビットパラメタライズド量子回路の接続形状と特性

Connecting geometry and performance of two-qubit parameterized quantum circuits ( http://arxiv.org/abs/2106.02593v2 )

ライセンス: Link先を確認
Amara Katabarwa, Sukin Sim, Dax Enshan Koh, Pierre-Luc Dallaire-Demers(参考訳) パラメータ化量子回路(PQC)は多くの変分量子アルゴリズムの中心的な構成要素であるが、そのパラメータ化がアルゴリズムの性能に与える影響について理解されていない。 2量子PQCを幾何学的に特徴付けるために主バンドルを用いてこの議論を開始する。 基底多様体上では、マンウリー・フビニ・スタディ計量を用いてリッチスカラー(幾何学)と共役(絡み合い)に関する単純な方程式を求める。 変分量子固有解法 (VQE) 最適化過程におけるリッチスカラーの計算により、量子自然勾配が標準勾配勾配よりも優れている理由と方法の新しい視点を提供する。 我々は、量子自然勾配の優れた性能の鍵は、最適化プロセスの早い段階で高い負曲率の領域を見つける能力であると主張している。 これらの負曲率の高い領域は最適化プロセスの加速に重要であると考えられる。

Parameterized quantum circuits (PQCs) are a central component of many variational quantum algorithms, yet there is a lack of understanding of how their parameterization impacts algorithm performance. We initiate this discussion by using principal bundles to geometrically characterize two-qubit PQCs. On the base manifold, we use the Mannoury-Fubini-Study metric to find a simple equation relating the Ricci scalar (geometry) and concurrence (entanglement). By calculating the Ricci scalar during a variational quantum eigensolver (VQE) optimization process, this offers us a new perspective to how and why Quantum Natural Gradient outperforms the standard gradient descent. We argue that the key to the Quantum Natural Gradient's superior performance is its ability to find regions of high negative curvature early in the optimization process. These regions of high negative curvature appear to be important in accelerating the optimization process.
翻訳日:2023-03-27 21:14:30 公開日:2022-08-12
# 協調ネットワークセマンティックスの時間的ニュアンス

Temporal Nuances of Coordination Network Semantics ( http://arxiv.org/abs/2107.02588v2 )

ライセンス: Link先を確認
Derek Weber and Lucia Falzon(参考訳) ソーシャルメディア上での協調的不正行為を検出する現在のネットワークベースの手法は、主に、同じツイートをリツイートしたり、同じURLをポストしたりといった、一般的な"行動トレース" [19] に基づいてアカウント間のリンクを推測することに焦点を当てている。 調整の目標が増幅され、制限された期間内にメッセージを増やすと仮定すると、ほとんどのアプローチは、時間的ウィンドウを使用して、特定の時間枠 [9, 14, 19, 24] 内でコアクティビティが発生することを保証します。 実世界のアプリケーションは、ほぼリアルタイムな処理を考慮し、パフォーマンス要件を作成し、文学におけるコーディネーションのセマンティクスのギャップを強調する必要がある。 これらの手法はすべて、協調した活動の時間的要素を利用することができる。 ネットワークのセマンティクスの調整,ネットワーク構築の調整,3つの政治的Twitterデータセットの関連観測,ソーシャルボットの公開におけるチアリーダーの役割に関する予備研究について述べる。

Current network-based methods for detecting coordinated inauthentic behaviour on social media focus primarily on inferring links between accounts based on common "behavioural traces" [19], such as retweeting the same tweet or posting the same URL. Assuming the goal of coordination is amplification, boosting a message within a constrained period, most approaches use a temporal window to ensure the co-activity occurs within a specific timeframe [9, 14, 19, 24]. Real-world application requires considering near real-time processing, creating performance requirements, which also highlight gaps in the semantics of coordination in the literature. These methods could all exploit temporal elements of coordinated activity. We describe preliminary research regarding coordination network semantics, coordination network construction, relevant observations in three political Twitter datasets and the role of cheerleaders in revealing social bots.
翻訳日:2023-03-23 06:50:51 公開日:2022-08-12
# 量子条件確率

Quantum conditional probabilities ( http://arxiv.org/abs/2107.05861v3 )

ライセンス: Link先を確認
Ignacio P\'erez and Alfredo Luis(参考訳) 条件付き量子確率の一貫性について検討する。 これは、コルモゴロフ=ベイズ条件付き確率とボルン規則の間に互換性があるかどうかである。 これらは、ボルン則によって観測可能な他の観測値の条件統計を再現できる正則な密度行列が存在しないという意味では相容れないことを示す。 つまり、グリーソンの定理は条件付き確率には適用されない。 さらに,これが生じた場合,共同統計は非古典的であることを示す。 条件付き確率は状態還元と等価ではないので、これらの結果はL\"{u}ders式の有効性には影響しない。

We investigate the consistency of conditional quantum probabilities. This is whether there is compatibility between the Kolmogorov-Bayes conditional probabilities and the Born rule. We show that they are not compatible in the sense that there are situations where there is no legitimate density matrix that may reproduce the conditional statistics of the other observable via the Born rule. This is to say that the Gleason theorem does not apply to conditional probabilities. Moreover, we show that when this occurs the joint statistics is nonclassical. We show that conditional probabilities are not equivalent to state reduction, so these results do not affect the validity of the L\"{u}ders expression.
翻訳日:2023-03-22 11:54:54 公開日:2022-08-12
# 無秩序相におけるエネルギークエンチを受けるグロス・ピタエフスキー格子の過渡秩序

Transient ordering in the Gross-Pitaevskii lattice subject to an energy quench within the disordered phase ( http://arxiv.org/abs/2109.00961v2 )

ライセンス: Link先を確認
Andrei E. Tarkhov, A. V. Rozhkov, Boris V. Fine(参考訳) 離散グロス・ピタエフスキー方程式の3次元立方体格子上での非秩序相における加熱冷却クエンチを数値的に検討する。 平衡では、この系はエネルギー密度においてU(1)順序の相転移を示し、クエンチ中は最小値よりもかなり低い。 しかし, ポストクエンチ緩和には過渡的な u(1) 秩序が伴うこと, すなわち u(1) のゆらぎの相関長は平衡プレクエンチ値を大きく超えることが観察された。 クエンチの加熱段階が長く強くなるほど、u(1)の過渡順序は強くなる。 系の総エネルギーの大部分を蓄積する緩やかに緩やかに緩和する格子の小さな群が出現して、この順序付けの起源を同定する。 以上より,過渡順序付けは幅広い物理系のロバストな特徴である可能性が示唆された。 この前提は、過渡的なU(1)順序がかなり異なる設定で現れる実験的な証拠と一致している。

We numerically investigate heating-and-cooling quenches taking place entirely in the non-ordered phase of the discrete Gross-Pitaevskii equation on a three-dimensional cubic lattice. In equilibrium, this system exhibits a U(1)-ordering phase transition at an energy density which is significantly lower than the minimum one during the quench. Yet, we observe that the post-quench relaxation is accompanied by a transient U(1) ordering, namely, the correlation length of U(1) fluctuations significantly exceeds its equilibrium pre-quench value. The longer and the stronger the heating stage of the quench, the stronger the U(1) transient ordering. We identify the origin of this ordering with the emergence of a small group of slowly relaxing lattice sites accumulating a large fraction of the total energy of the system. Our findings suggest that the transient ordering may be a robust feature of a broad class of physical systems. This premise is consistent with the growing experimental evidence of the transient U(1) order in rather dissimilar settings.
翻訳日:2023-03-16 10:43:28 公開日:2022-08-12
# 一般化エンタングルメントスワップにおける量子相関の生成

Creating quantum correlations in generalized entanglement swapping ( http://arxiv.org/abs/2109.14315v2 )

ライセンス: Link先を確認
Pratapaditya Bej, Arkaprabha Ghosal, Arup Roy, Shiladitya Mal, and Debarshi Das(参考訳) 2つのベル対 (1, 2) と 3, 4) から始まる一般化エンタングルメントスワッピングプロトコルの結果として, 2 つの空間的に分離された観測者間で (1, 4) の量子相関を生成するために, 2 つのペア (2, 3) 上で一般量子測度 (正の演算値測度またはPOVM) が実行される。 異なる種類のPOVMを用いて、ペア (1, 4), (1, 2) および (3, 4) における異なる量子相関の生成または破壊を示す。 これにより、対 (1, 2) と (3, 4) から対 (1, 4) への量子相関の非自明な移動が反映される。 本研究は, 量子相関状態の異なる単一パラメータファミリ(例えば, エンタングル化されているが, エンタングル化できない, ベル非局所的である, ベル非局所化しない)を, 基本エンタングル化スワッピング設定において異なる量子測定値を選択することで生成する操作ツールを提供する。 ペア(1,2)と3,4)で共有される混合初期状態をとることで研究をさらに拡張する。 最後に,ネットワークの非局所性について考察する。 ここでは、生成した相関が測定パラメータの全範囲に対してネットワーク非局所性を示さない適切なPOVM測定値を求める。

We study how different types of quantum correlations can be established as the consequence of a generalized entanglement swapping protocol where starting from two Bell pairs (1, 2) and (3, 4), a general quantum measurement (denoted by a positive operator-valued measure or POVM) is performed on the pair (2, 3), which results in creating quantum correlation in (1, 4) shared between two spatially separated observers. Contingent upon using different kinds of POVMs, we show generation or destruction of different quantum correlations in the pairs (1, 4), (1, 2) and (3, 4). This thus reflects non-trivial transfer of quantum correlations from the pairs (1, 2) and (3, 4) to the pair (1, 4). As an offshoot, this study provides an operational tool to generate different types of single parameter families of quantum correlated states (for example, entangled but not EPR steerable, or EPR steerable but not Bell nonlocal, or Bell nonlocal) by choosing different quantum measurements in the basic entanglement swapping setup. We further extend our study by taking mixed initial states shared by the pairs (1,2) and (3,4). Finally, we study network nonlocality in our scenario. Here, we find out appropriate POVM measurement for which the generated correlation demonstrates/does not demonstrate network nonlocality for the whole range of the measurement parameter.
翻訳日:2023-03-13 05:19:04 公開日:2022-08-12
# 単一アンシラを用いた前方・後方リアルタイム進化による確率的想像時間進化:基底状態の量子化学の最初の量子化固有解法

Probabilistic imaginary-time evolution by using forward and backward real-time evolution with a single ancilla: first-quantized eigensolver of quantum chemistry for ground states ( http://arxiv.org/abs/2111.12471v3 )

ライセンス: Link先を確認
Taichi Kosugi, Yusuke Nishiya, Hirofumi Nishi, and Yu-ichiro Matsushita(参考訳) 量子コンピュータ上の虚時発展 (ite) は、量子システムの基底状態を得るための有望な形式である。 ある種のものとして、確率的ITT(PITE)は、非単体操作を実装するために測定を利用する。 そこで本研究では,単相量子ビットのみを必要とするpiteの新しいアプローチを提案する。 実用的な近似の下で、回路は、元の多ビットハミルトニアンによって生成されるブラックボックスとして、前方および後方のリアルタイム進化(RTE)ゲートから構成される。 これまでに提案されたRTEの効率的なユニタリ量子アルゴリズムと将来的な量子アルゴリズムは、そのままITEに転送することができる。 本手法は, 有限温度におけるギブス状態と分配関数の取得にも有効である。 このアプローチをいくつかのシステムに適用し,その妥当性を実証する。 また、計算コストのスケーリングに着目して量子化学へのアプローチの適用について論じ、第一量子化量子固有解法で示される新しい枠組みを導いた。

Imaginary-time evolution (ITE) on a quantum computer is a promising formalism for obtaining the ground state of a quantum system. As a kind of it, the probabilistic ITE (PITE) takes advantage of measurements to implement the nonunitary operations. We propose a new approach of PITE which requires only a single ancillary qubit. Under a practical approximation, the circuit is constructed from the forward and backward real-time evolution (RTE) gates as black boxes, generated by the original many-qubit Hamiltonian. All the efficient unitary quantum algorithms for RTE proposed so far and those in the future can thus be transferred to ITE exactly as they are. Our approach can also be used for obtaining the Gibbs state at a finite temperature and the partition function. We apply the approach to several systems as illustrative examples to see its validity. We also discuss the application of our approach to quantum chemistry by focusing on the scaling of computational cost, leading to a novel framework denoted by first-quantized quantum eigensolver.
翻訳日:2023-03-06 23:55:13 公開日:2022-08-12
# スプリット可変トランスモンにおける断熱制御型zゲートのフラックス軌道の最適化

The Optimization of Flux Trajectories for the Adiabatic Controlled-Z Gate on Split-Tunable Transmons ( http://arxiv.org/abs/2112.06067v2 )

ライセンス: Link先を確認
Vihaan Dheer(参考訳) 2つの可変周波数キュービットの系では、量子ビット部分空間とヒルベルト空間の残りの部分空間の間の強い結合-相互作用領域への断熱的チューニングが効果的に制御されたZ回転を生成するために用いられることが知られている。 我々は, 量子ビット周波数をチューニングする好適な断熱軌道を決定する問題に対処し, 磁束可変トランスモンモデルに適用する。 これらの量子プロセッサの特に最小限の非調和性は、より高いレベルのリークが適切に対処される限り、非計算状態を用いた量子ビット制御のよい候補となる。 この手法の主張は文学において何度も行われてきたが、どの軌跡を使うかについてはほとんど議論されていない。 本稿では,可能なフラックス軌跡のパラメータ化ファミリーを最適化するための一般化手法を提案し,1 と 2 つのパラメータの 5 つのテストファミリでの使用例を示す。

In a system of two tunable-frequency qubits, it is well-known that adiabatic tuning into strong coupling-interaction regions between the qubit subspace and the rest of the Hilbert space can be used to generate an effective controlled Z rotation. We address the problem of determining a preferable adiabatic trajectory along which to tune the qubit frequency, and apply this to the flux-tunable transmon model. The especially minimally anharmonic nature of these quantum processors makes them good candidates for qubit control using non-computational states, as long as higher-level leakage is properly addressed. While the statement of this method has occurred multiple times in literature, there has been little discussion of which trajectories may be used. We present a generalized method for optimizing parameterized families of possible flux trajectories and provide examples of use on five test families of one and two parameters.
翻訳日:2023-03-04 20:30:03 公開日:2022-08-12
# 集合応答二層原子アレイにおける単一光子の一方向吸収・貯蔵・放出

Unidirectional absorption, storage, and emission of single photons in a collectively responding bilayer atomic array ( http://arxiv.org/abs/2112.11156v4 )

ライセンス: Link先を確認
K. E. Ballantine and J. Ruostekoski(参考訳) 原子の2次元正則配列は量子ネットワークにとって有望なプラットフォームであり、集合的サブラジアント状態は長期保存とコリメーテッドエミッションを提供し、自由空間における配列間の自然なコヒーレントリンクを可能にする。 しかし、単層格子は、前方および後方方向に対称に光を効率よく吸収または放出することができる。 ここでは、二層格子が単一方向から入射した光子や、前方および後方伝播成分の任意の重ね合わせを吸収する方法を示す。 励起はサブラジアント状態に格納され、異なるサブラジアント状態の間をコヒーレントに移動し、高度に崩壊した前方および後方の伝播成分の任意の組み合わせで放出される。 本稿では,集合励起の異なる多極放射成分の散乱パリティに基づく対称性解析により,単層および二層アレイの方向性を説明する。 集合モードは、配列インターフェース近くのフィールドの従来の半波損失を示すか、完全に排除する。 提案する吸収・放出の方向制御は、単一光子が量子情報処理と記憶段階の間を前後に伝播し、複数の配列間の効果的な1次元量子通信への道を開く。

Two-dimensional regular arrays of atoms are a promising platform for quantum networks, with collective subradiant states providing long-lived storage and collimated emission allowing for natural coherent links between arrays in free space. However, a single-layer lattice can only efficiently absorb or emit light symmetrically in the forward and backward directions. Here we show how a bilayer lattice can absorb a single photon either incident from a single direction or an arbitrary superposition of forward and backward propagating components. The excitation can be stored in a subradiant state, transferred coherently between different subradiant states, and released, again in an arbitrary combination of highly collimated forward and backward propagating components. We explain the directionality of single and bilayer arrays by a symmetry analysis based on the scattering parities of different multipole radiation components of collective excitations. The collective modes may exhibit the conventional half-wave loss of fields near the array interface or completely eliminate it. The proposed directional control of absorption and emission paves the way for effective one-dimensional quantum communication between multiple arrays, with single-photons propagating backward and forward between quantum information-processing and storage stages.
翻訳日:2023-03-03 22:48:17 公開日:2022-08-12
# 実用的かつ効率的なハミルトン学習

Practical and Efficient Hamiltonian Learning ( http://arxiv.org/abs/2201.00190v3 )

ライセンス: Link先を確認
Wenjun Yu, Jinzhao Sun, Zeyao Han, Xiao Yuan(参考訳) 量子技術の急速な発展により、デジタル操作やアナログ探索が可能な量子システムのサイズが劇的に増加する。 量子ハードウェアをよりよく制御し理解するために、重要なタスクは相互作用を特徴づけること、すなわちハミルトニアンを学ぶことである。 従来のハミルトニアン学習法では、高価なプロセストモグラフィーを必要とするか、ハミルトニアン構造の事前情報やシステムの基底状態や熱状態といった非現実的な仮定を採用する必要がある。 本稿では,これらの制約を回避し,実用的かつ効率的なハミルトン学習法を提案する。 提案手法は,短時間のダイナミクスと局所操作のみを用いて,パウリ基底で疎らなハミルトニアンを効率的に学習し,ハミルトニアンに関する情報や固有状態や熱状態を作成する。 この方法はスケーラブルな複雑性を持ち、キュービット数に関する故障確率を消滅させる。 一方、状態準備や測定誤差がなく、一定量の回路やショットノイズに対して堅牢である。 ランダムな相互作用強度と分子ハミルトニアンを持つ横場イジング・ハミルトニアン(Ising Hamiltonian)のスケーリングと推定精度を,それぞれ異なるサイズで数値的に検証する。 これらの結果から,本手法の実用性と有効性が検証され,大規模量子システムの体系的理解への道が開けた。

With the fast development of quantum technology, the size of quantum systems we can digitally manipulate and analogly probe increase drastically. In order to have a better control and understanding of the quantum hardware, an important task is to characterize the interaction, i.e., to learn the Hamiltonian, which determines both static or dynamic properties of the system. Conventional Hamiltonian learning methods either require costly process tomography or adopt impractical assumptions, such as prior information of the Hamiltonian structure and the ground or thermal states of the system. In this work, we present a practical and efficient Hamiltonian learning method that circumvents these limitations. The proposed method can efficiently learn any Hamiltonian that is sparse on the Pauli basis using only short time dynamics and local operations without any information of the Hamiltonian or preparing any eigenstates or thermal states. The method has scalable complexity and vanishing failure probability regarding the qubit number. Meanwhile, it is free from state preparation and measurement error and robust against a certain amount of circuit and shot noise. We numerically test the scaling and the estimation accuracy of the method for transverse field Ising Hamiltonian with random interaction strengths and molecular Hamiltonians, both with varying sizes. All these results verify the practicality and efficacy of the method, paving the way for a systematic understanding of large quantum systems.
翻訳日:2023-03-02 17:13:36 公開日:2022-08-12
# 量子スピン系における局所可換性

Local Convertibility in quantum spin systems ( http://arxiv.org/abs/2201.10625v2 )

ライセンス: Link先を確認
Luigi Amico, Vladimir Korepin, Alioscia Hamma, Salvatore Marco Giampaolo, Fabio Franchini(参考訳) 局所変換性(英: local convertibility)とは、系の与えられた二分法に関してloccによって与えられた状態が対象状態へ変換される可能性であり、初期状態の全てのレーニエントロピーが対象状態のそれよりも小さい場合に限り可能となる。 この概念を断熱的進化に適用し、上記の意味でLOCCで表現できるかどうかを問う。 微分局所変換性(dlc)の欠如は、システムの量子位相のより高い計算能力を示すものであり、これは通常、長距離の絡み合い、位相次数、エッジ状態の存在と関連している。 注目すべきは、dLCがこれらのグローバルな特性を小さなサブシステムによって既に検出することができることである。 さらに、dLCを自発対称性の破れに接続し、有限次パラメータを持つ状態は最も古典的なものでなければならず、したがって局所的に可換であると主張する。

Local Convertibility refers to the possibility of transforming a given state into a target one, just by means of LOCC with respect to a given bipartition of the system and it is possible if and only if all the Renyi-entropies of the initial state are smaller than those of the target state. We apply this concept to adiabatic evolutions and ask whether they can be rendered through LOCC in the sense above. We argue that a lack of differential local convertibility (dLC) signals a higher computational power of the system's quantum phase, which is also usually connected with the existence of long-range entanglement, topological order, or edge-states. Remarkably, dLC can detect these global properties already by considering small subsystems. Moreover, we connect dLC to spontaneous symmetry breaking by arguing that states with finite order parameters must be the most classical ones and thus be locally convertible.
翻訳日:2023-02-27 22:22:52 公開日:2022-08-12
# 量子測定における量子コヒーレンスと量子絡み合いの関係

Relation between Quantum Coherence and Quantum Entanglement in Quantum Measurements ( http://arxiv.org/abs/2202.12656v2 )

ライセンス: Link先を確認
Ho-Joon Kim, Soojoon Lee(参考訳) 量子計測 (quantum measurement) は、量子状態を古典状態に送る量子チャネルのクラスである。 我々は、量子コヒーレンスと量子エンタングルメントの資源理論を構築し、それらの関係を見いだした。 このために、量子測定の量子資源を考慮に入れた相対エントロピー型の量を考える。 量子測定の量子コヒーレンスをコヒーレンス非生成変換を通じて二部量子測定の絡み合いに変換することができる。 逆に、量子測定の量子絡み合いモノトンは、量子測定の量子コヒーレンスモノトンを誘導する。 量子コヒーレンスと量子絡み合いの関係の理解は、量子資源を発生しない量子測定においても有効であることを確認した。

Quantum measurement is a class of quantum channels that sends quantum states to classical states. We set up resource theories of quantum coherence and quantum entanglement for quantum measurements and find relations between them. For this, we conceive a relative entropy type quantity to account for the quantum resources of quantum measurements. The quantum coherence of a quantum measurement can be converted into the entanglement in a bipartite quantum measurement through coherence-non generating transformations. Conversely, a quantum entanglement monotone of quantum measurements induces a quantum coherence monotone of quantum measurement. Our results confirm that the understanding on the link between quantum coherence and quantum entanglement is valid even for quantum measurements which do not generate any quantum resource.
翻訳日:2023-02-23 23:36:24 公開日:2022-08-12
# CAFQA:変分量子アルゴリズムのための古典的なシミュレーションブートストラップ

CAFQA: A classical simulation bootstrap for variational quantum algorithms ( http://arxiv.org/abs/2202.12924v3 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Pranav Gokhale, Yi Ding, William M. Kirby, Kaitlin N. Smith, Jonathan M. Baker, Peter J. Love, Henry Hoffmann, Kenneth R. Brown and Frederic T. Chong(参考訳) この研究は、CAFQA(Clifford Ansatz For Quantum Accuracy)を提案することにより、変分量子アルゴリズム(VQA)の優れたアンザッツ初期化を求める問題に取り組む。 CAFQAアンサッツ(CAFQA ansatz)は、クリフォードゲートのみを備えたハードウェア効率の良い回路である。 このアンサッツにおいて、可変ゲートのパラメータは古典的シミュレーションによりクリフォードパラメータ空間を効率的に探索することによって選択される。 結果として得られる初期状態は常に伝統的な初期化(例えばhartree-fock)と等しくなり、高い精度のvqa推定を可能にする。 CAFQAは古典的な計算に適しています。 a)クリフォードのみの量子回路は、多項式時間で正確に古典的にシミュレートすることができ、 b)離散クリフォード空間はベイズ最適化によって効率的に探索される。 分子基底状態エネルギー推定(最大18キュービット)の変分量子固有ソルバ(vqe)タスクにおいて、cafqaのclifford ansatzは99%近くの平均精度を達成し、hartree-fock初期化で失われた分子相関エネルギーの99.99%を回復する。 CAFQAは6.4xと56.8xの平均精度の改善を、異なるメトリクスで達成している。 アプローチのスケーラビリティは、挑戦的なクロム二量体(Cr$_2$)分子の予備基底状態エネルギー推定を可能にする。 CAFQAの高精度初期化により、VQAの収束は小さな分子でも2.5倍加速することが示されている。 さらに、cafqaフレームワークで限られた数の非クリフォード(t)ゲートを許容する予備的な調査により、クリフォードのみのcafqa精度が比較的制限されたボンド長で相関エネルギーの99.9%を回収できることが示された。

This work tackles the problem of finding a good ansatz initialization for Variational Quantum Algorithms (VQAs), by proposing CAFQA, a Clifford Ansatz For Quantum Accuracy. The CAFQA ansatz is a hardware-efficient circuit built with only Clifford gates. In this ansatz, the parameters for the tunable gates are chosen by searching efficiently through the Clifford parameter space via classical simulation. The resulting initial states always equal or outperform traditional classical initialization (e.g., Hartree-Fock), and enable high-accuracy VQA estimations. CAFQA is well-suited to classical computation because: a) Clifford-only quantum circuits can be exactly simulated classically in polynomial time, and b) the discrete Clifford space is searched efficiently via Bayesian Optimization. For the Variational Quantum Eigensolver (VQE) task of molecular ground state energy estimation (up to 18 qubits), CAFQA's Clifford Ansatz achieves a mean accuracy of nearly 99% and recovers as much as 99.99% of the molecular correlation energy that is lost in Hartree-Fock initialization. CAFQA achieves mean accuracy improvements of 6.4x and 56.8x, over the state-of-the-art, on different metrics. The scalability of the approach allows for preliminary ground state energy estimation of the challenging chromium dimer (Cr$_2$) molecule. With CAFQA's high-accuracy initialization, the convergence of VQAs is shown to accelerate by 2.5x, even for small molecules. Furthermore, preliminary exploration of allowing a limited number of non-Clifford (T) gates in the CAFQA framework, shows that as much as 99.9% of the correlation energy can be recovered at bond lengths for which Clifford-only CAFQA accuracy is relatively limited, while remaining classically simulable.
翻訳日:2023-02-23 23:16:37 公開日:2022-08-12
# 量子ビットとしての$^2\Sigma$分子対による量子アニール

Quantum annealing with pairs of $^2\Sigma$ molecules as qubits ( http://arxiv.org/abs/2203.14210v2 )

ライセンス: Link先を確認
K. Asnaashari and R. V. Krems(参考訳) 電子状態が$\Sigma$の開殻分子の回転構造と微細構造は、異なるパリティのゼーマン状態の間の交差を引き起こす。 これらの交差は電場の存在下では避けられる。 そこで本稿では,Isingモデルを1対の$^2\Sigma$分子で定義した量子ビットに符号化するアルゴリズムを提案する。 これは、量子アニーリング用途に適した外部電場または磁場で調整可能な横磁場Isingモデルを実現するために使用できる。 1次元および2次元の連結性を持ついくつかの例に対して動的計算を行う。 その結果,有効なアニーリング溶液を得る確率が高く,アニーリング時間を変化させることで最適化できることがわかった。

The rotational and fine structure of open-shell molecules in a $\Sigma$ electronic state gives rise to crossings between Zeeman states of different parity. These crossings become avoided in the presence of an electric field. We propose an algorithm that encodes Ising models into qubits defined by pairs of $^2\Sigma$ molecules sharing an excitation near these avoided crossings. This can be used to realize a transverse field Ising model tunable by an external electric or magnetic field, suitable for quantum annealing applications. We perform dynamical calculations for several examples with one- and two-dimensional connectivities. Our results demonstrate that the probability of obtaining valid annealing solutions is high and can be optimized by varying the annealing times.
翻訳日:2023-02-20 17:07:57 公開日:2022-08-12
# abイニシアティゼロ波動関数からの密度行列汎関数論:断熱接続経路に沿った実および近似定式化

Reduced density matrix functional theory from an ab initio seniority-zero wave function: Exact and approximate formulations along adiabatic connection paths ( http://arxiv.org/abs/2204.00699v3 )

ライセンス: Link先を確認
Bruno Senjean, Saad Yalouz, Naoki Nakatani and Emmanuel Fromager(参考訳) 現在、量子化学において非常に最近導入された年長性の概念に基づく新しい手法階層の開発への関心が高まっている。 これらの手法の膨大な可能性にもかかわらず、シングルおよびインプリンシプル・エクサクティヴアプローチにおける動的および静的な相関効果の正確な記述は依然として課題である。 本研究では, (一電子還元) 密度行列を ab initio seniority-zero 波動関数に写像した還元密度行列汎関数理論(rdmft)の代替定式化を提案する。 この理論では、正確な自然軌道とその占有度は実効年数ゼロの計算から自己整合的に決定される。 後者は、断熱接続(ac)公式が導出され、密度行列に関連する特定の制約の下で実装される普遍的な高位密度行列汎関数を含んでいる。 水素鎖とヘリウム二量体で数値的に観測される(拘束された)ac積分の発音された曲率は、二階摂動理論における高次相関の記述が、この文脈では不十分であることを示している。 ACに沿って複数の線形補間を施したり、2階摂動理論をPad\'{e}近似を用いたフルセンチュアリティ処理に接続することはより良い戦略である。 このような情報は、高次密度行列関数近似の将来の設計の指針として期待されている。

Currently, there is a growing interest in the development of a new hierarchy of methods based on the concept of seniority, which has been introduced quite recently in quantum chemistry. Despite the enormous potential of these methods, the accurate description of both dynamical and static correlation effects within a single and in-principle-exact approach remains a challenge. In this work, we propose an alternative formulation of reduced density-matrix functional theory (RDMFT) where the (one-electron reduced) density matrix is mapped onto an ab initio seniority-zero wave function. In this theory, the exact natural orbitals and their occupancies are determined self-consistently from an effective seniority-zero calculation. The latter involves a universal higher-seniority density matrix functional for which an adiabatic connection (AC) formula is derived and implemented under specific constraints that are related to the density matrix. The pronounced curvature of the (constrained) AC integrand, which is numerically observed in prototypical hydrogen chains and the Helium dimer, indicates that a description of higher-seniority correlations within second-order perturbation theory is inadequate in this context. Applying multiple linear interpolations along the AC or connecting second-order perturbation theory to a full-seniority treatment via Pad\'{e} approximants are better strategies. Such information is expected to serve as a guide in the future design of higher-seniority density-matrix functional approximations.
翻訳日:2023-02-20 02:30:21 公開日:2022-08-12
# 社会技術システムのマクロ倫理の原理:分類学と今後の方向性

Principles for Macro Ethics of Sociotechnical Systems: Taxonomy and Future Directions ( http://arxiv.org/abs/2208.12616v1 )

ライセンス: Link先を確認
Jessica Woodgate and Nirav Ajmeri(参考訳) 人工知能(AI)の急速な普及は、その倫理的意味を慎重に分析する必要がある。 倫理的・公正な含意に対処するためには、個々のエージェントのみを見るのではなく、倫理的に関係のある全ての特徴を検討することが重要である。 これは、エージェントが埋め込まれたシステムに視点を移し、社会技術システムのマクロ倫理(STS)にカプセル化することで達成できる。 マクロ倫理のレンズを通して、参加者が自身の価値を反映した成果や規範を促進しようとするシステムのガバナンスが重要である。 しかし、STSの利害関係者が異なる価値嗜好を持つ場合や、STSにおける規範が対立する場合には、複数のユーザによる社会的ジレンマが発生する。 異なる利害関係者のニーズを満たす公平なガバナンスを開発し、公平性のより高い目標を満足できる方法でこれらのジレンマを解決するためには、推論において様々な規範的倫理原則を統合する必要がある。 規範的倫理原理は、哲学理論から推測される運用可能な規則として理解される。 したがって、倫理的原則の分類は、実践者が推論でそれらを利用できるようにすることに有益である。 この研究は、STSのガバナンスで運用できる規範的倫理原則の分類法を開発する。 我々は、分類木上に25のノードを持つ一連の倫理的原則を特定する。 本稿では,各原則の運用方法を述べるとともに,原則の運用がstsのマクロ倫理にどのように適用されるかを提案する。 それぞれの原則で生じる可能性のある潜在的な困難について、さらに説明します。 我々は、この分類が、公平なSTSを管理する能力の推論に倫理的原則を取り入れるための方法論の開発を促進することを期待している。

The rapid adoption of artificial intelligence (AI) necessitates careful analysis of its ethical implications. In addressing ethics and fairness implications, it is important to examine the whole range of ethically relevant features rather than looking at individual agents alone. This can be accomplished by shifting perspective to the systems in which agents are embedded, which is encapsulated in the macro ethics of sociotechnical systems (STS). Through the lens of macro ethics, the governance of systems - which is where participants try to promote outcomes and norms which reflect their values - is key. However, multiple-user social dilemmas arise in an STS when stakeholders of the STS have different value preferences or when norms in the STS conflict. To develop equitable governance which meets the needs of different stakeholders, and resolve these dilemmas in satisfactory ways with a higher goal of fairness, we need to integrate a variety of normative ethical principles in reasoning. Normative ethical principles are understood as operationalizable rules inferred from philosophical theories. A taxonomy of ethical principles is thus beneficial to enable practitioners to utilise them in reasoning. This work develops a taxonomy of normative ethical principles which can be operationalized in the governance of STS. We identify an array of ethical principles, with 25 nodes on the taxonomy tree. We describe the ways in which each principle has previously been operationalized, and suggest how the operationalization of principles may be applied to the macro ethics of STS. We further explain potential difficulties that may arise with each principle. We envision this taxonomy will facilitate the development of methodologies to incorporate ethical principles in reasoning capacities for governing equitable STS.
翻訳日:2023-02-19 10:45:50 公開日:2022-08-12
# PRIVEE: オープンデータの積極的なプライバシーリスク検査のためのビジュアル分析ワークフロー

PRIVEE: A Visual Analytic Workflow for Proactive Privacy Risk Inspection of Open Data ( http://arxiv.org/abs/2208.06481v1 )

ライセンス: Link先を確認
Kaustav Bhattacharjee, Akm Islam, Jaideep Vaidya, and Aritra Dasgupta(参考訳) 個人情報を含むオープンデータセットは、匿名化されても敵の攻撃を受けやすい。 共有属性を持つ複数のデータセットで低コストな結合を行うことで、オープンデータポータルの悪意のあるユーザーは個人のプライバシーに違反する情報にアクセスすることができる。 しかし、オープンデータセットは主にリリース・アンド・フォーゲットモデルを使用して公開されており、データ所有者や管理者はこれらのプライバシーリスクをほとんど認識していない。 我々は、ローカルで結合可能なデータ地区における開示リスクを、データディフェンダーが認識できるビジュアル分析ソリューションを開発することで、この重要なギャップに対処する。 このソリューションは、データプライバシ研究者によるデザイン研究から生まれたもので、まずはレッドチームの役割を担い、プライバシ攻撃シナリオに基づいた倫理的なデータハッキング活動に従事します。 この問題とドメインキャラクタリゼーションを用いて,防衛機構としての視覚的解析的介入のセットを開発し,データディフェンダーの積極的なモニタとして機能するビジュアルリスク検査ワークフローであるpriveeでそれを実現する。 PRIVEEはリスクスコアと関連するインタラクティブな視覚化を組み合わせて、データディフェンダーが脆弱な結合を探索し、複数のレベルのデータ粒度でリスクを解釈できるようにする。 データプライバシの専門家による2つのケーススタディを通じて、PRIVEEが攻撃戦略をエミュレートし、開示リスクを診断する方法を実証する。

Open data sets that contain personal information are susceptible to adversarial attacks even when anonymized. By performing low-cost joins on multiple datasets with shared attributes, malicious users of open data portals might get access to information that violates individuals' privacy. However, open data sets are primarily published using a release-and-forget model, whereby data owners and custodians have little to no cognizance of these privacy risks. We address this critical gap by developing a visual analytic solution that enables data defenders to gain awareness about the disclosure risks in local, joinable data neighborhoods. The solution is derived through a design study with data privacy researchers, where we initially play the role of a red team and engage in an ethical data hacking exercise based on privacy attack scenarios. We use this problem and domain characterization to develop a set of visual analytic interventions as a defense mechanism and realize them in PRIVEE, a visual risk inspection workflow that acts as a proactive monitor for data defenders. PRIVEE uses a combination of risk scores and associated interactive visualizations to let data defenders explore vulnerable joins and interpret risks at multiple levels of data granularity. We demonstrate how PRIVEE can help emulate the attack strategies and diagnose disclosure risks through two case studies with data privacy experts.
翻訳日:2023-02-19 10:32:00 公開日:2022-08-12
# 量子ロバスト性検証:ハイブリッド量子古典型ニューラルネットワーク認証アルゴリズム

Quantum Robustness Verification: A Hybrid Quantum-Classical Neural Network Certification Algorithm ( http://arxiv.org/abs/2205.00900v2 )

ライセンス: Link先を確認
Nicola Franco, Tom Wollschlaeger, Nicholas Gao, Jeanette Miriam Lorenz, Stephan Guennemann(参考訳) 近年、量子コンピュータとアルゴリズムは量子コンピューティング(QC)の今後の重要性を示す大きな進歩を遂げている。 特に組合せ最適化は、量子近似最適化アルゴリズムによるゲートベースのQCとIsingモデルによる量子アニールの両方を用いて、短期量子コンピュータの応用分野として注目されている。 しかし、現実世界の応用における古典的手法に対する優位性を示すことは研究の活発な領域である。 本研究では,多変数混合整数プログラム(MIP)を実用的応用として扱うReLUネットワークのロバスト性検証について検討する。 古典的には、コンビネート空間が指数関数的に拡大するにつれて、完全な検証技術は大きなネットワークに苦しむ。 この問題を軽減するために,ニューラルネットワークの検証にqcを使用し,証明可能な証明書を計算するためのハイブリッド量子手続きを導入することを提案する。 Benders分解を適用することで、MIPを2次非制約のバイナリ最適化と、量子コンピュータと古典コンピュータでそれぞれ解ける線形プログラムに分割する。 さらに,総イテレーション数を削減し,必要な最大キュービット数に制限を加えることにより,ベンダ分解に基づく既存のハイブリッド手法をさらに改善する。 シミュレーション環境では、我々の証明書は健全であり、問題の近似に必要な最小キュービット数の境界を提供する。 最後に,本手法をシミュレーションおよび量子ハードウェア上で評価する。

In recent years, quantum computers and algorithms have made significant progress indicating the prospective importance of quantum computing (QC). Especially combinatorial optimization has gained a lot of attention as an application field for near-term quantum computers, both by using gate-based QC via the Quantum Approximate Optimization Algorithm and by quantum annealing using the Ising model. However, demonstrating an advantage over classical methods in real-world applications remains an active area of research. In this work, we investigate the robustness verification of ReLU networks, which involves solving a many-variable mixed-integer programs (MIPs), as a practical application. Classically, complete verification techniques struggle with large networks as the combinatorial space grows exponentially, implying that realistic networks are difficult to be verified by classical methods. To alleviate this issue, we propose to use QC for neural network verification and introduce a hybrid quantum procedure to compute provable certificates. By applying Benders decomposition, we split the MIP into a quadratic unconstrained binary optimization and a linear program which are solved by quantum and classical computers, respectively. We further improve existing hybrid methods based on the Benders decomposition by reducing the overall number of iterations and placing a limit on the maximum number of qubits required. We show that, in a simulated environment, our certificate is sound, and provide bounds on the minimum number of qubits necessary to approximate the problem. Finally, we evaluate our method within simulation and on quantum hardware.
翻訳日:2023-02-14 20:41:39 公開日:2022-08-12
# 相互作用するチャーン絶縁体における平均場位相相の動的検出

Dynamical detection of mean-field topological phases in an interacting Chern insulator ( http://arxiv.org/abs/2206.11018v3 )

ライセンス: Link先を確認
Wei Jia, Long Zhang, Lin Zhang, Xiong-Jun Liu(参考訳) 相互作用はトポロジカルな量子位相に大きな影響を与える。 量子異常ホール(QAH)絶縁体では、相互作用の存在は位相図を質的に変化させることができるが、実験では通常測定するのは困難である。 ここでは、相互作用するチャーン絶縁体の平均場位相図を検出するクエンチ力学に基づく新しいスキームを提案し、非自明な動的量子物理学が発見される。 平均磁場下での磁気秩序のみを駆動するハバード相互作用の弱い相互作用が存在する場合の2次元QAHシステムに焦点をあてる。 ゼーマン結合を焼成した後、平均場ハミルトン状態と多体量子状態は時間とともに進化する。 これは、多体状態のみが進化する非相互作用系の焼成とは対照的である。 時間依存ハミルトニアンの動的自己一貫性粒子数密度と動的トポロジカル位相遷移の出現を捉えた2つの特性時間 $t_s$ と $t_c$ を求める。 興味深い結果として、$t_s>t_c$ ($t_s<t_c$) は、システムが初期完全偏極状態から位相的に非自明な状態に切り替わるときに、反発的(誘引的)相互作用で発生し、$t_s=t_c$ は位相位相境界を特徴づける。 さらに、平均場位相位相位相の位相数は、時刻$t_s$で4つのディラック点のスピン分極によって決定される。 これらの結果から, クエンチ力学における2つの特性時間による平均場位相図の検出が可能となり, トポロジ的位相に対する新たな相互作用効果を明らかにし, 実験観察を促進することができる。

Interactions generically have important effects on the topological quantum phases. For a quantum anomalous Hall (QAH) insulator, the presence of interactions can qualitatively change the topological phase diagram which, however, is typically hard to measure in the experiment. Here we propose a novel scheme based on quench dynamics to detect the mean-field topological phase diagram of an interacting Chern insulator, with nontrivial dynamical quantum physics being uncovered. We focus on a two-dimensional QAH system in the presence of a weak to intermediate Hubbard interaction which only drives a magnetic order under the mean-field level. After quenching the Zeeman coupling, both the mean-field Hamiltonian and many-body quantum state evolve over time. This is in sharp contrast to quenching a non-interacting system, in which only the many-body state evolves. We find two characteristic times $t_s$ and $t_c$ which capture the emergence of dynamical self-consistent particle number density and dynamical topological phase transition for the time-dependent Hamiltonian, respectively. An interesting result is that $t_s>t_c$ ($t_s<t_c$) occurs in repulsive (attractive) interaction when the system is quenched from an initial fully polarized state to the topologically nontrivial regimes, and $t_s=t_c$ characterizes the topological phase boundaries. Moreover, the topological number of mean-field topological phase is determined by the spin polarizations of four Dirac points at the time $t_s$. With these results we provide a feasible scheme to detect the mean-field topological phase diagram via the two characteristic times in quench dynamics, which can reveal the novel interacting effects on the topological phases and shall promote the experimental observation.
翻訳日:2023-02-08 09:56:41 公開日:2022-08-12
# 駆動量子ジョセフソン回路の構造的安定な非調和状態

Structurally stable subharmonic regime of a driven quantum Josephson circuit ( http://arxiv.org/abs/2206.14631v2 )

ライセンス: Link先を確認
Michiel Burgelman, Pierre Rouchon, Alain Sarlette and Mazyar Mirrahimi(参考訳) 駆動型量子非線形発振器は、量子技術に必須であるが、一般に摂動解析の限界を超える複雑なカオス力学の傾向にある。 調和駆動発振器のサブハーモニック分岐に焦点を合わせることで、振動子のパラメータの選択のレシピを提供し、駆動強度とは無関係に正則な動的挙動を保証する。 このカオス現象の抑制は、安定な低調波軌道で張られる縮退多様体の閉じ込め速度に反映される強い量子非線形効果と相容れないことを示す。

Driven quantum nonlinear oscillators, while essential for quantum technologies, are generally prone to complex chaotic dynamics that fall beyond the reach of perturbative analysis. By focusing on subharmonic bifurcations of a harmonically driven oscillator, we provide a recipe for the choice of the oscillator's parameters that ensures a regular dynamical behavior independently of the driving strength. We show that this suppression of chaotic phenomena is compatible with a strong quantum nonlinear effect reflected by the confinement rate in the degenerate manifold spanned by stable subharmonic orbits.
翻訳日:2023-02-07 07:26:58 公開日:2022-08-12
# 置換の量子複雑性

Quantum Complexity of Permutations ( http://arxiv.org/abs/2207.14102v2 )

ライセンス: Link先を確認
Andrew Yu(参考訳) 2つのジェネレータを持つ$\{1, \cdots, n\}$ のすべての置換の対称群を$s_n$ とすると、変換は$$$$ で、巡回置換は$k$から$k+1$ で$\leq k\leq n-1$ と $n$から$$$$$ となる($\sigma$ と $\tau$ で示される)。 本稿では、論理ゲートとして$\{\sigma, \tau, \tau^{-1}\}$を用いて、置換の量子複雑性を$s_n$で研究する。 二次量子複雑性を持つ$s_n$ の置換を明示的に構成し、$\frac{n^2-2n-7}{4}$ とする。 また、S_n$ のすべての置換が2次量子複雑性上界 3(n-1)^2$ を持つことを示す。 最後に、$S_n$ のほとんどすべての置換は、$n\rightarrow \infty$ のときの二次量子複雑性が下界であることを示す。

Let $S_n$ be the symmetric group of all permutations of $\{1, \cdots, n\}$ with two generators: the transposition switching $1$ with $2$ and the cyclic permutation sending $k$ to $k+1$ for $1\leq k\leq n-1$ and $n$ to $1$ (denoted by $\sigma$ and $\tau$). In this article, we study quantum complexity of permutations in $S_n$ using $\{\sigma, \tau, \tau^{-1}\}$ as logic gates. We give an explicit construction of permutations in $S_n$ with quadratic quantum complexity lower bound $\frac{n^2-2n-7}{4}$. We also prove that all permutations in $S_n$ have quadratic quantum complexity upper bound $3(n-1)^2$. Finally, we show that almost all permutations in $S_n$ have quadratic quantum complexity lower bound when $n\rightarrow \infty$.
翻訳日:2023-02-04 05:15:13 公開日:2022-08-12
# 工学的エントロピー力は超強動的バックアクションを許容する

Engineered entropic forces allow ultrastrong dynamical backaction ( http://arxiv.org/abs/2208.05660v2 )

ライセンス: Link先を確認
Andreas Sawadsky, Raymond A. Harrison, Glen I. Harris, Walter W. Wasserman, Yasmine L. Sfendla, Warwick P. Bowen and Christopher G. Baker(参考訳) 光学キャビティ内に閉じ込められた場合、光は強い放射線圧力を発揮する。 動的バックアクションと組み合わせることで、レーザー冷却や精密センサーから量子記憶やインターフェースまで、重要なプロセスが可能になる。 しかし、放射圧力の大きさは光子とフォノンのエネルギーミスマッチによって制限される。 ここでは、光の吸収から生じるエントロピー力を用いて、この障壁を克服する。 エントロピー力は8桁の放射圧を上回り、超流動ヘリウム3音共振器を用いてこれを実証する。 本研究では, エントロピー力による動的バックアクションを設計し, 従来よりも3桁低い閾値でフォノンラシングを実現するための枠組みを開発した。 本研究は, 量子デバイスにおけるエントロピー力を利用する経路を示し, 乱流やソリトンなどの非線形流体現象を研究する。

When confined within an optical cavity, light can exert strong radiation pressure forces. Combined with dynamical backaction, this enables important processes such as laser cooling, and applications ranging from precision sensors to quantum memories and interfaces. However, the magnitude of radiation pressure forces is constrained by the energy mismatch between photons and phonons. Here, we overcome this barrier using entropic forces arising from the absorption of light. We show that entropic forces can exceed the radiation pressure force by eight orders of magnitude, and demonstrate this using a superfluid helium third-sound resonator. We develop a framework to engineer the dynamical backaction from entropic forces, applying it to achieve phonon lasing with a threshold three orders of magnitude lower than previous work. Our results present a pathway to exploit entropic forces in quantum devices, and to study nonlinear fluid phenomena such as turbulence and solitons.
翻訳日:2023-01-31 21:10:57 公開日:2022-08-12
# 量子ニューラルネットワークにおけるsgmoid量子パーセプトロンの性能評価

Evaluating the performance of sigmoid quantum perceptrons in quantum neural networks ( http://arxiv.org/abs/2208.06198v1 )

ライセンス: Link先を確認
Samuel A Wilkinson and Michael J Hartmann(参考訳) 量子機械学習のための有望なアーキテクチャとして量子ニューラルネットワーク(QNN)が提案されている。 様々な量子回路の設計がqnnとしてブランド化されているが、明確な候補が他より適しているわけではない。 むしろ、QNNの基本的なビルディングブロックである ``quantum perceptron' の検索はまだ進行中である。 1つの候補は古典的パーセプトロンの非線形活性化関数をエミュレートするために設計された量子パーセプトロンである。 このようなシグモイド量子パーセプトロン(SQP)は、古典的ニューラルネットワークが任意の関数を近似できることを保証する普遍近似特性を継承する。 しかし、これは、SQPから構築されたQNNが、従来のQNNよりも量子的に優位であることを保証するものではない。 本稿では,SQPネットワークの性能と性能の両立を,有効次元と有効能力の計算と実学習問題における性能の検証により批判的に検討する。 その結果,活性化機能を持たない他の候補ネットワークと比較した。 よりシンプルで明らかに実装が容易なパラメトリック量子回路は、実際にはSQPよりも性能が良いことが判明した。 これは、古典的ニューラルネットワークの理論の基礎となる普遍近似定理は、qnnの関連する基準ではないことを示している。

Quantum neural networks (QNN) have been proposed as a promising architecture for quantum machine learning. There exist a number of different quantum circuit designs being branded as QNNs, however no clear candidate has presented itself as more suitable than the others. Rather, the search for a ``quantum perceptron" -- the fundamental building block of a QNN -- is still underway. One candidate is quantum perceptrons designed to emulate the nonlinear activation functions of classical perceptrons. Such sigmoid quantum perceptrons (SQPs) inherit the universal approximation property that guarantees that classical neural networks can approximate any function. However, this does not guarantee that QNNs built from SQPs will have any quantum advantage over their classical counterparts. Here we critically investigate both the capabilities and performance of SQP networks by computing their effective dimension and effective capacity, as well as examining their performance on real learning problems. The results are compared to those obtained for other candidate networks which lack activation functions. It is found that simpler, and apparently easier-to-implement parametric quantum circuits actually perform better than SQPs. This indicates that the universal approximation theorem, which a cornerstone of the theory of classical neural networks, is not a relevant criterion for QNNs.
翻訳日:2023-01-31 08:42:12 公開日:2022-08-12
# 超低温化学反応による量子力学

Quantum metrology with ultracold chemical reactions ( http://arxiv.org/abs/2208.06380v1 )

ライセンス: Link先を確認
Seong-Ho Shinn, Uwe R. Fischer, Daniel Braun(参考訳) 化学鎖反応は、化学的、生物学的、医学的な分析において極めて敏感な検出方法を可能にすることが知られており、暗黒物質の探索にも用いられている。 原子-分子系ボース=アインシュタイン凝縮体(bec)では、弱い外摂動は反応のダイナミクスを変化させ、現代的な分光技術で選択的に検出できる原子優位の領域における分子のコヒーレント生成に繋がる。 これにより、これまで提案されていた加速度、重力波、ダークマター検出などの物理量のためのbecベースのセンサの有効性が大幅に向上し、単一フォノンの生成による小さな密度変調の検出に依存することが期待されている。

Chemical chain reactions are known to enable extremely sensitive detection schemes in chemical, biological, and medical analysis, and have even been used in the search for dark matter. Here we show that coherent, ultracold chemical reactions harbor great potential for quantum metrology: In an atom-molecule Bose-Einstein condensate (BEC), a weak external perturbation can modify the reaction dynamics and lead to the coherent creation of molecules in an atom-dominant regime which can be selectively detected with modern spectroscopic techniques. This promises to substantially improve the viability of previously proposed BEC-based sensors for acceleration, gravitational waves, and other physical quantities, including the detection of dark matter, that so far relied on the detection of the tiny density modulations caused by the creation of single phonons.
翻訳日:2023-01-31 08:38:23 公開日:2022-08-12
# キタエフ量子二重モデルにおける境界の代数的側面

Algebraic Aspects of Boundaries in the Kitaev Quantum Double Model ( http://arxiv.org/abs/2208.06317v1 )

ライセンス: Link先を確認
Alexander Cowtan, Shahn Majid(参考訳) 我々は、K\subseteq G$ の部分群に基づく境界の体系的な扱いを、バルクのKokuev 量子倍 D(G)$ モデルで提供する。 境界サイトは$*$-subalgebra $\xi\subseteq d(g)$ の表現であり、その構造は超越 $r$ の選択に依存する強い $*$-quasi-hopf 代数として説明する。 我々は、$D(G)$の既約表現を$\Xi$に引き戻す分解公式を提供する。 また、$\xi$-modules の圏と$g$-graded $k$-bimodules の圏のモノイド同値性を明確に提供し、これを用いて $r$ の異なる選択が drinfeld cochain twists によって関連していることを証明する。 例えば、$s_{n-1}\subset s_n$ や$\xi$ がホップ準群であるオクタニオンに関連する例がある。 治療の応用例として, 垂直的に$k=g$ と $k={e\}$ を境界とするパッチについて検討し, 格子手術の手法を用いて量子コンピュータでどのように利用できるかを示す。

We provide a systematic treatment of boundaries based on subgroups $K\subseteq G$ with the Kitaev quantum double $D(G)$ model in the bulk. The boundary sites are representations of a $*$-subalgebra $\Xi\subseteq D(G)$ and we explicate its structure as a strong $*$-quasi-Hopf algebra dependent on a choice of transversal $R$. We provide decomposition formulae for irreducible representations of $D(G)$ pulled back to $\Xi$. We also provide explicitly the monoidal equivalence of the category of $\Xi$-modules and the category of $G$-graded $K$-bimodules and use this to prove that different choices of $R$ are related by Drinfeld cochain twists. Examples include $S_{n-1}\subset S_n$ and an example related to the octonions where $\Xi$ is also a Hopf quasigroup. As an application of our treatment, we study patches with boundaries based on $K=G$ horizontally and $K=\{e\}$ vertically and show how these could be used in a quantum computer using the technique of lattice surgery.
翻訳日:2023-01-31 08:38:09 公開日:2022-08-12
# 量子回路のwasserstein複雑性

Wasserstein Complexity of Quantum Circuits ( http://arxiv.org/abs/2208.06306v1 )

ライセンス: Link先を確認
Lu Li, Kaifeng Bu, Dax Enshan Koh, Arthur Jaffe, Seth Lloyd(参考訳) ユニタリ変換が与えられた場合、それを実装する最小の量子回路のサイズは? この量、量子回路複雑性(quantum circuit complexity)は量子進化の基本特性であり、量子計算、量子場理論、ブラックホール物理学など多くの分野に広く応用されている。 このレターでは、量子回路の複雑性を量子ワッサーシュタイン複雑性(quantum Wasserstein complexity)と呼ぶ新しい複雑性尺度を用いて、量子回路の複雑さの新たな下限を求める。 提案した測度は、量子状態の空間上の距離である位数1の量子ワッサーシュタイン距離(量子地球移動器距離とも呼ばれる)に基づいている。 我々はまた、独立した関心を持つであろう新しい複雑性尺度のいくつかの基本的かつ重要な特性を証明します。 最後に,我々の新しい測度は,量子回路の実装実験コストを低く抑えることを示し,量子資源を計算資源に変換する際の量子制限を示唆している。 本研究は,量子ワッサースタイン距離の新しい応用法を提供し,量子計算を実現するために必要な資源をより深く理解するための道を開く。

Given a unitary transformation, what is the size of the smallest quantum circuit that implements it? This quantity, known as the quantum circuit complexity, is a fundamental property of quantum evolutions that has widespread applications in many fields, including quantum computation, quantum field theory, and black hole physics. In this letter, we obtain a new lower bound for the quantum circuit complexity in terms of a novel complexity measure that we propose for quantum circuits, which we call the quantum Wasserstein complexity. Our proposed measure is based on the quantum Wasserstein distance of order one (also called the quantum earth mover's distance), a metric on the space of quantum states. We also prove several fundamental and important properties of our new complexity measure, which stand to be of independent interest. Finally, we show that our new measure also provides a lower bound for the experimental cost of implementing quantum circuits, which implies a quantum limit on converting quantum resources to computational resources. Our results provide novel applications of the quantum Wasserstein distance and pave the way for a deeper understanding of the resources needed to implement a quantum computation.
翻訳日:2023-01-31 08:37:29 公開日:2022-08-12
# 量子ゼノ効果を用いたマルチ原子時計の位相ドリフト抑制

Inhibiting phase drift in multi-atom clocks using the quantum Zeno effect ( http://arxiv.org/abs/2208.06301v1 )

ライセンス: Link先を確認
S.U. Shringarpure and J.D. Franson(参考訳) 原子時計の精度は、関連する原子遷移の帯域幅に依存する部分がある。 ここでは、遷移周波数が環境効果やその他の要因によって独立に摂動されている$N$原子のアンサンブルを考える。 我々は、量子ゼノ効果を用いて原子の相対位相をロックし、その有効帯域幅を1/\sqrt{n}$で減少させる可能性を考察する。 量子ゼノ効果を用いて1対の原子の相対位相をロックし、その後経過時間を決定する例を分析する。 良い信号対雑音比を達成するためには、N>>1$が必要である。

The accuracy of an atomic clock depends in part on the bandwidth of the relevant atomic transitions. Here we consider an ensemble of $N$ atoms whose transition frequencies have been independently perturbed by environmental effects or other factors. We consider the possibility of using the quantum Zeno effect to lock the relative phase of the atoms, which would decrease their effective bandwidth by a factor of $1/\sqrt{N}$. We analyze an example in which the quantum Zeno effect can be used to lock the relative phase of a pair of atoms, after which the elapsed time can be determined. Practical applications may require $N>>1$ in order to achieve a good signal-to-noise ratio.
翻訳日:2023-01-31 08:37:12 公開日:2022-08-12
# Aharonov-Bohm Hamiltonian の二次形式

Quadratic forms for Aharonov-Bohm Hamiltonians ( http://arxiv.org/abs/2208.06285v1 )

ライセンス: Link先を確認
Davide Fermi(参考訳) 我々は、アハロノフ-ボーム特異点と正規摂動からなる、軸磁場に浸漬された荷電量子粒子を考える。 二次形式技法は、フリードリヒス・ハミルトニアンや 2 \times 2$ のエルミート行列でインデックスづけされた特異摂動の族を含む、還元された2次元シュル=オディンガー作用素の異なる自己随伴実現を特徴付けるために用いられる。 Aharonov-Bohmフラックスパラメータが 0 となるときのフリードリヒス・ハミルトンの極限は、$\Gamma$convergence という観点で議論される。

We consider a charged quantum particle immersed in an axial magnetic field, comprising a local Aharonov-Bohm singularity and a regular perturbation. Quadratic form techniques are used to characterize different self-adjoint realizations of the reduced two-dimensional Schr\"odinger operator, including the Friedrichs Hamiltonian and a family of singular perturbations indexed by $2 \times 2$ Hermitian matrices. The limit of the Friedrichs Hamiltonian when the Aharonov-Bohm flux parameter goes to zero is discussed in terms of $\Gamma$ - convergence.
翻訳日:2023-01-31 08:37:02 公開日:2022-08-12
# ダイヤモンド中の複数のスズ空孔中心からの特定光子

Identical Photons from Multiple Tin-Vacancy Centers in Diamond ( http://arxiv.org/abs/2208.06275v1 )

ライセンス: Link先を確認
Yasuyuki Narita, Peng Wang, Kazuki Oba, Yoshiyuki Miyamoto, Takashi Taniguchi, Shinobu Onoda, Mutsuko Hatano, Takayuki Iwasaki(参考訳) ダイヤモンド中のスズ空洞(snv)中心からのゼロフォノン線の狭義の不均一分布と,分離したsnv中心からのスペクトル重なりについて報告する。 極低温での発光励起分光測定により、snv中心はフーリエ変換制限線幅に近い安定な蛍光と線幅を示した。 不均一分布は4ghz以下であり、sn同位体依存共鳴周波数の観測が可能であった。 細い不均一分布により, ほぼ同じ波長, 線幅の同一光子を示す複数のSnV中心が観察された。 また, ダイヤモンド試料においても同一のSnV中心が観察され, 高品質のSnV中心の信頼性が確認された。

We report the narrow inhomogeneous distribution of the zero-phonon line from tin-vacancy (SnV) centers in diamond and the overlap of spectra from multiple separated SnV centers. Photoluminescence excitation spectroscopy measurements at a cryogenic temperature showed that SnV centers exhibit stable fluorescence and linewidths close to the Fourier transform-limited linewidth. The inhomogeneous distribution was as low as ~4 GHz, which enabled the observation of Sn isotope-dependent resonant frequencies. Owing to the narrow inhomogeneous distribution, we observed multiple SnV centers showing identical photons with almost the same wavelength and linewidth. Identical SnV centers were also observed even in different diamond samples, confirming the reliable fabrication of the high-quality SnV centers.
翻訳日:2023-01-31 08:36:45 公開日:2022-08-12
# 光子一致における協調放出のシグナチャ:超放射能と測定誘起協調性

Signatures of cooperative emission in photon coincidence: Superradiance versus measurement-induced cooperativity ( http://arxiv.org/abs/2208.06258v1 )

ライセンス: Link先を確認
Moritz Cygorek, Eleanor D. Scerri, Ted S. Santana, Zhe X. Koong, Brian D. Gerardot, Erik M. Gauger(参考訳) 長さに制限された識別不可能な量子エミッターは、光の波長よりも小さくなる。 非相関で識別可能なエミッタと比較すると、超放射は光子偶然のような光学信号の質的な変化をもたらす。 しかし、近年の実験では、エミッタ間の相関がエミッタ・アングル・選択光子検出時に波動関数の崩壊によって引き起こされる場合、エミッタの分離が極端に遠すぎる状況でも類似のシグネチャが得られることが示されている。 本研究では, 協調放射源であるスーパーラジアンスと測定誘起協調性を比較し, 時間依存光信号への影響を解析した。 ゼロ時間遅延における光子偶然の反ディップは、一般的にはエミッタ間相関の符号であるが、超放射能の存在を明白に証明していない。 これは、ゼロ時間遅延のみでの光子一致は不十分であり、自発的放射崩壊率の超ラジアント化を示すには時間依存データが必要であることを示唆している。

Indistinguishable quantum emitters confined to length scales smaller than the wavelength of the light become superradiant. Compared to uncorrelated and distinguishable emitters, superradiance results in qualitative modifications of optical signals such as photon coincidences. However, recent experiments revealed that similar signatures can also be obtained in situations where emitters are too far separated to be superradiant if correlations between emitters are induced by the wave function collapse during an emission-angle-selective photon detection event. Here, we compare two sources for cooperative emission, superradiance and measurement-induced cooperativity, and analyze their impact on time-dependent optical signals. We find that an anti-dip in photon coincidences at zero time delay is a signature of inter-emitter correlations in general but does not unambiguously prove the presence of superradiance. This suggests that photon coincidences at zero time delay alone are not sufficient and time-dependent data is necessary to clearly demonstrate a superradiant enhancement of the spontaneous radiative decay rate.
翻訳日:2023-01-31 08:36:32 公開日:2022-08-12
# 合流型ヴァンダーモンド形状の評価とスパンリング集合

Evaluation and spanning sets of confluent Vandermonde forms ( http://arxiv.org/abs/2209.02523v1 )

ライセンス: Link先を確認
D. K. Sunko(参考訳) N$変数のヴァンダーモンド形式の任意の微分は$[n_1\cdots n_N]$として与えられ、$i$-th変数は$N-n_i-1$ times, $1\le n_i\le N-1$と区別される。 簡単な復号テーブルを導入し、検査により評価する。 0\le n_{i+1} - n_i \le 1$ for $0<i<n$ がリボンヤング図形と1対1対応である特別な場合。 それぞれ$N! $ standard ribbon tableaux は$s_n$-ハーモニック多項式の空間において完全次数付き基底に写像する。 マッピングは効率の良いアルゴリズムとして実現され、$N! ベースは$n! どちらも置換でインデックス付けされている。 この結果は、多フェルミオン波動関数のヒルベルト空間の幾何学的解釈の文脈に置かれる。

An arbitrary derivative of a Vandermonde form in $N$ variables is given as $[n_1\cdots n_N]$, where the $i$-th variable is differentiated $N-n_i-1$ times, $1\le n_i\le N-1$. A simple decoding table is introduced to evaluate it by inspection. The special cases where $0\le n_{i+1} - n_i \le 1$ for $0<i<N$ are in one-to-one correspondence with ribbon Young diagrams. The respective $N!$ standard ribbon tableaux map to a complete graded basis in the space of $S_N$-harmonic polynomials. The mapping is realized as an efficient algorithm generating any one of $N!$ bases with $N!$ basis elements, both indexed by permutations. The result is placed in the context of a geometric interpretation of the Hilbert space of many-fermion wave functions.
翻訳日:2023-01-31 08:29:22 公開日:2022-08-12
# 黒体放射問題に関する簡潔な歴史

A Concise History of the Black-body Radiation Problem ( http://arxiv.org/abs/2208.06470v1 )

ライセンス: Link先を確認
Himanshu Mavani and Navinder Singh(参考訳) 標準的な教科書(レイリー=ジャンスからマックス・プランクまで)で黒体放射の話題が提示される方法は、黒体放射問題を理解する実際の歴史的タイムラインに従わない。 著者らは、(分野の論理的な表現ではないが)アイデアの実際のタイムラインに従うプレゼンテーションは、科学の歴史だけでなく、教育的な視点からも興味をそそられると信じている。 したがって、我々はこの非常に興味深い科学分野の簡潔な歴史を試みている。

The way the topic of black-body radiation is presented in standard textbooks (i.e. from Rayleigh-Jeans to Max Planck) does not follow the actual historical timeline of the understanding of the black-body radiation problem. Authors believe that a presentation which follows an actual timeline of the ideas (although not a logical presentation of the field) would be of interest not only from the history of science perspective but also from a pedagogical perspective. Therefore, we attempt a concise history of this very interesting field of science.
翻訳日:2023-01-31 08:28:40 公開日:2022-08-12
# 高周波バルク音響共振器におけるブリュアンと圧電結合

Simultaneous Brillouin and piezoelectric coupling to high-frequency bulk acoustic resonator ( http://arxiv.org/abs/2208.06454v1 )

ライセンス: Link先を確認
Taekwan Yoon, David Mason, Vijay Jain, Yiwen Chu, Prashanta Kharel, William H. Renninger, Liam Collins, Luigi Frunzio, Robert J Schoelkopf, and Peter T Rakich(参考訳) バルク音響共振器は、様々な量子システムと結合可能な堅牢で長期間の機械的モードをサポートする。 別な研究で、これらの装置は超伝導量子ビット、圧電性、ブリルアン相互作用による光学キャビティの両方に強い結合を達成している。 本研究では,キャビティ強化圧電相互作用と光弾性相互作用によりバルク音響波に結合可能な新しいマイクロ波/光プラットフォームを提案する。 このモジュラーで調整可能なシステムは、3dマイクロ波共振器、高周波バルク音響共振器、ファブリーペロトキャビティとの完全な共振とよくモードの整合を実現する。 このピエゾ-ブリルアン相互作用をxカット石英中で実現し,光学的キャビティ強化により強い光学的相互作用と高い協調性を示す。 さらに、この装置が、量子効率が10〜8ドルを超える双方向の電気-オプトメカニカルトランスデューサとして機能し、ユニティ変換効率への実現可能な道筋を示す。 また,本システムにおける高感度と大きな共振マイクロ波場を印加する能力は,異常な電気機械結合を探究する新しいツールを提供するとともに,(正に中心対称な)caf$_2を探索し,寄生圧電度83am/vを明らかにした。 このような研究は量子技術の発展にとって重要なトピックであり、この新しいハイブリッドプラットフォームの汎用性を強調している。

Bulk acoustic resonators support robust, long-lived mechanical modes, capable of coupling to various quantum systems. In separate works, such devices have achieved strong coupling to both superconducting qubits, via piezoelectricity, and optical cavities, via Brillouin interactions. In this work, we present a novel hybrid microwave/optical platform capable of coupling to bulk acoustic waves through cavity-enhanced piezoelectric and photoelastic interactions. The modular, tunable system achieves fully resonant and well-mode-matched interactions between a 3D microwave cavity, a high-frequency bulk acoustic resonator, and a Fabry Perot cavity. We realize this piezo-Brillouin interaction in x-cut quartz, demonstrating the potential for strong optomechanical interactions and high cooperativity using optical cavity enhancement. We further show how this device functions as a bidirectional electro-opto-mechanical transducer, with quantum efficiency exceeding $10^{-8}$, and a feasible path towards unity conversion efficiency. The high optical sensitivity and ability to apply large resonant microwave field in this system also offers a new tool for probing anomalous electromechanical couplings, which we demonstrate by investigating (nominally-centrosymmetric) CaF$_2$ and revealing a parasitic piezoelectricity of 83 am/V. Such studies are an important topic for emerging quantum technologies, and highlight the versatility of this new hybrid platform.
翻訳日:2023-01-31 08:28:33 公開日:2022-08-12
# 破壊対称性低光導波路における量子ドットの大自発放出速度の観測

Observation of large spontaneous emission rate enhancement of quantum dots in a broken-symmetry slow-light waveguide ( http://arxiv.org/abs/2208.06453v1 )

ライセンス: Link先を確認
Hamidreza Siampour, Christopher O'Rourke, Alistair J. Brash, Maxim N. Makhonin, Ren\'e Dost, Dominic J. Hallett, Edmund Clarke, Pallavi K. Patil, Maurice S. Skolnick, A. Mark Fox(参考訳) 光と物質の量子状態はナノスケールで操作でき、スケーラブルなフォトニック量子技術[1-3]の実装を支援する技術資源を提供する。 実験の進展は、光子と量子エミッタの内部状態との間の結合の質と効率に依存する [4-6]。 本稿では、Purcell-enhanced emissionと強力なキラルカップリングを可能にする量子ドット(QD)を組み込んだナノフォトニック導波路プラットフォームを実証する。 この設計では、低光域に放射周波数を合わせるためにQDチューニングを施したグライド平面フォトニック結晶導波路のスローライト効果を利用する。 シミュレーションは、気孔に対する双極子エミッタの位置に応じてキラリティーとパーセルの強化をマッピングするために使用された。 最も高いパーセル因子とキラリティは別々の領域で起こるが、どちらも高い値が得られる重要な領域は依然として残っている。 そこで,本研究では20倍のパーセル強化に対応する17ns^-1(60ps寿命)の放射減衰速度を初めて実証した。 これはqdのスローライト領域への電場チューニングと準共鳴フォノンサイドバンド励起によって達成された。 次に、導波路モードに高次キラル結合を有するドットに対する5倍のパーセル拡張を示し、過去のすべての測定値を大幅に上回った。 これらとともに、キラル量子光学に依存するオンチップスピンフォトニクスのスケーラブルな実装にQDを使用するための優れた可能性を示している。

Quantum states of light and matter can be manipulated on the nanoscale to provide a technological resource for aiding the implementation of scalable photonic quantum technologies [1-3]. Experimental progress relies on the quality and efficiency of the coupling between photons and internal states of quantum emitters [4-6]. Here we demonstrate a nanophotonic waveguide platform with embedded quantum dots (QDs) that enables both Purcell-enhanced emission and strong chiral coupling. The design uses slow-light effects in a glide-plane photonic crystal waveguide with QD tuning to match the emission frequency to the slow-light region. Simulations were used to map the chirality and Purcell enhancement depending on the position of a dipole emitter relative to the air holes. The highest Purcell factors and chirality occur in separate regions, but there is still a significant area where high values of both can be obtained. Based on this, we first demonstrate a record large radiative decay rate of 17 ns^-1 (60 ps lifetime) corresponding to a 20 fold Purcell enhancement. This was achieved by electric-field tuning of the QD to the slow-light region and quasi-resonant phonon-sideband excitation. We then demonstrate a 5 fold Purcell enhancement for a dot with high degree of chiral coupling to waveguide modes, substantially surpassing all previous measurements. Together these demonstrate the excellent prospects for using QDs in scalable implementations of on-chip spin-photonics relying on chiral quantum optics.
翻訳日:2023-01-31 08:28:07 公開日:2022-08-12
# 熱散逸の存在下での量子強化学習

Quantum reinforcement learning in the presence of thermal dissipation ( http://arxiv.org/abs/2208.06450v1 )

ライセンス: Link先を確認
M. L. Olivera-Atencio, L. Lamata, M. Morillo, J. Casado-Pascual(参考訳) 熱散逸の存在下での量子強化学習プロトコルを導入し、解析する。 解析的な計算と数値シミュレーションを行い、デコヒーレンスと散逸が十分に低い温度で量子強化学習プロトコルの性能を著しく低下させるものではなく、場合によっては有益である証拠を得る。 現実的なデコヒーレンスと散逸の実験的条件下での量子強化学習は、変化する環境と相互作用し、それに適応できる量子エージェントの実現への道を開く。

A quantum reinforcement learning protocol in the presence of thermal dissipation is introduced and analyzed. Analytical calculations as well as numerical simulations are carried out, obtaining evidence that decoherence and dissipation do not significantly degrade the performance of the quantum reinforcement learning protocol for sufficiently low temperatures, being in some cases even beneficial. Quantum reinforcement learning under realistic experimental conditions of decoherence and dissipation opens an avenue for the realization of quantum agents able to interact with a changing environment, and adapt to it, with plausible many applications inside quantum technologies and machine learning.
翻訳日:2023-01-31 08:27:42 公開日:2022-08-12
# 一般化カーネル多項式アルゴリズムによる非エルミートスピン鎖のトポロジカルスピン励起

Topological spin excitations in non-Hermitian spin chains with a generalized kernel polynomial algorithm ( http://arxiv.org/abs/2208.06425v1 )

ライセンス: Link先を確認
Guangze Chen, Fei Song and Jose L. Lado(参考訳) 非エルミート的ハミルトニアンのスペクトル関数は、位相的に非自明な直線ギャップと関連する位相的辺モードの存在を明らかにすることができる。 しかし、非エルミート多体系におけるスペクトル関数の計算は未解決の課題である。 本稿では,非エルミート多体ハミルトニアンのスペクトル関数をカーネル多項式法と行列-積状態形式に基づいて計算する数値的手法を提案する。 本アルゴリズムにより計算された局所スペクトル関数は,非エルミートスピンモデルにおいて,多体モデルにおける非自明な直線ギャップ位相を忠実に反映して,トポロジ的スピン励起を明らかにする。 さらに、このアルゴリズムは非エルミート皮膚効果の存在下で有効であることを示す。 本手法は、テンソルネットワークを持つ非エルミート多体系における局所スペクトル関数を効率的に計算する方法を提供し、非ヘルミート量子多体モデルにおける線ギャップ位相を特徴付ける。

Spectral functions of non-Hermitian Hamiltonians can reveal the existence of topologically non-trivial line gaps and the associated topological edge modes. However, the computation of spectral functions in a non-Hermitian many-body system remains an open challenge. Here, we put forward a numerical approach to compute spectral functions of a non-Hermitian many-body Hamiltonian based on the kernel polynomial method and the matrix-product state formalism. We show that the local spectral functions computed with our algorithm reveal topological spin excitations in a non-Hermitian spin model, faithfully reflecting the non-trivial line gap topology in a many-body model. We further show that the algorithm works in the presence of the non-Hermitian skin effect. Our method offers an efficient way to compute local spectral functions in non-Hermitian many-body systems with tensor-networks, allowing to characterize line gap topology in non-Hermitian quantum many-body models.
翻訳日:2023-01-31 08:27:15 公開日:2022-08-12
# 大西洋ハリケーンの軌跡と特徴のシミュレーション:深層学習アプローチ

Simulation of Atlantic Hurricane Tracks and Features: A Deep Learning Approach ( http://arxiv.org/abs/2209.06901v1 )

ライセンス: Link先を確認
Rikhi Bose, Adam L. Pintar, and Emil Simiu(参考訳) 本研究の目的は,HURDAT2データベースモデルで利用可能な入力データ(ストーム特徴)から機械学習(ML)と深層学習(DL)技術を用いて,歴史的記録と整合した降着位置や風速などの重要なハリケーン特性をシミュレートすることである。 この目的を追求するために、嵐中心を経度と緯度で表す軌道モデルと、中央の圧力と最大風速1-min$の風速を10$mの高度で表す強度モデルが作成された。 軌道モデルと強度モデルは結合され、任意のステップでモデルへの入力として機能する機能は、前回のステップでの予測に依存するため、同時に6時間ずつ前進する必要がある。 合成嵐データベースが生成されると、シミュレーション領域の任意の部分から大風速の周波数などの興味の性質を抽出することができる。 軌道と強度モデルの結合は、海岸線の内陸の強度減衰の必要性を緩和する。 予測結果を過去のデータと比較し, ニューオリンズ, マイアミ, ケープハッテラスの3例について, ストームシミュレーションモデルの有効性を実証した。

The objective of this paper is to employ machine learning (ML) and deep learning (DL) techniques to obtain from input data (storm features) available in or derived from the HURDAT2 database models capable of simulating important hurricane properties such as landfall location and wind speed that are consistent with historical records. In pursuit of this objective, a trajectory model providing the storm center in terms of longitude and latitude, and intensity models providing the central pressure and maximum 1-$min$ wind speed at 10 $m$ elevation were created. The trajectory and intensity models are coupled and must be advanced together, six hours at a time, as the features that serve as inputs to the models at any given step depend on predictions at the previous time steps. Once a synthetic storm database is generated, properties of interest, such as the frequencies of large wind speeds may be extracted from any part of the simulation domain. The coupling of the trajectory and intensity models obviates the need for an intensity decay inland of the coastline. Prediction results are compared to historical data, and the efficacy of the storm simulation models is demonstrated for three examples: New Orleans, Miami and Cape Hatteras.
翻訳日:2022-09-18 17:04:20 公開日:2022-08-12
# 次世代無線ネットワークにおける深層学習モデルを用いたチャネル推定のためのディフェンシブ蒸留による逆攻撃対策

Defensive Distillation based Adversarial Attacks Mitigation Method for Channel Estimation using Deep Learning Models in Next-Generation Wireless Networks ( http://arxiv.org/abs/2208.10279v1 )

ライセンス: Link先を確認
Ferhat Ozgur Catak, Murat Kuzlu, Evren Catak, Umit Cali, Ozgur Guler(参考訳) 将来のワイヤレスネットワーク(5g以降)は、数十億のデバイスと人々をつなぐ、今後のセルラーシステムのビジョンだ。 過去数十年間、高速データ伝送、セル容量、低レイテンシーのための高度な通信技術によって、携帯電話ネットワークは劇的に成長してきた。 これらの技術の主な目標は、仮想現実、メタバース、テレヘルス、オンライン教育、自律および空飛ぶ車、スマートシティ、スマートグリッド、先進的な製造など、幅広い新しいアプリケーションをサポートすることだ。 NextGネットワークの主な動機は、ネットワーク機能の改善と最適化によって、これらのアプリケーションに対する高い需要を満たすことである。 人工知能(AI)は、ネットワークのすべての層にまたがってアプリケーションに統合することで、これらの要求を達成する高い可能性を持っている。 しかし、AIベースのモデルであるモデルポーリングを用いたNextGのネットワーク機能に対するセキュリティ上の懸念は深く調査されていない。 そのため、AIベースの手法を用いて、NextGネットワークの効率的な緩和技術とセキュアなソリューションを設計する必要がある。 本稿では,matlabの5gツールボックスから得られたデータを用いて学習した深層学習(dl)に基づくチャネル推定モデルの包括的脆弱性解析法を提案する。 敵対的な攻撃は、トレーニングされたdlベースのモデルをnextgネットワークでチャネル推定するために操作することで、誤った結果を生み出す。 本稿では,チャネル推定モデルに対する各逆攻撃に対する防御蒸留緩和法の性能について述べる。 その結果,提案手法は,adversarial attackに対するdlに基づくチャネル推定モデルを守ることができることがわかった。

Future wireless networks (5G and beyond) are the vision of forthcoming cellular systems, connecting billions of devices and people together. In the last decades, cellular networks have been dramatically growth with advanced telecommunication technologies for high-speed data transmission, high cell capacity, and low latency. The main goal of those technologies is to support a wide range of new applications, such as virtual reality, metaverse, telehealth, online education, autonomous and flying vehicles, smart cities, smart grids, advanced manufacturing, and many more. The key motivation of NextG networks is to meet the high demand for those applications by improving and optimizing network functions. Artificial Intelligence (AI) has a high potential to achieve these requirements by being integrated in applications throughout all layers of the network. However, the security concerns on network functions of NextG using AI-based models, i.e., model poising, have not been investigated deeply. Therefore, it needs to design efficient mitigation techniques and secure solutions for NextG networks using AI-based methods. This paper proposes a comprehensive vulnerability analysis of deep learning (DL)-based channel estimation models trained with the dataset obtained from MATLAB's 5G toolbox for adversarial attacks and defensive distillation-based mitigation methods. The adversarial attacks produce faulty results by manipulating trained DL-based models for channel estimation in NextG networks, while making models more robust against any attacks through mitigation methods. This paper also presents the performance of the proposed defensive distillation mitigation method for each adversarial attack against the channel estimation model. The results indicated that the proposed mitigation method can defend the DL-based channel estimation models against adversarial attacks in NextG networks.
翻訳日:2022-08-28 22:16:00 公開日:2022-08-12
# エッジ,コーナー,バウンダリ検出における従来手法

Traditional methods in Edge, Corner and Boundary detection ( http://arxiv.org/abs/2208.07714v1 )

ライセンス: Link先を確認
Sai Pavan Tadem(参考訳) 本稿では,エッジ,コーナー,バウンダリ検出手法に対する従来のアプローチについてレビューする。 エッジ、コーナー、境界検出の多くの実世界の応用がある。 例えば、医用画像解析では、エッジ検出器が所定の画像から特徴を抽出するために使用される。 自動運転車のような現代のイノベーションでは、エッジ検出やセグメンテーションが最も重要です。 動きを検出したり、ビデオを追跡したい場合は、コーナー検出器が役立ちます。 検出器の結果を可能な限り段階的に比較し、ノイズを最小限に抑えるための画像の重要性についても論じた。 実世界の画像は検出器の性能と限界を検証するために使用される。

This is a review paper of traditional approaches for edge, corner, and boundary detection methods. There are many real-world applications of edge, corner, and boundary detection methods. For instance, in medical image analysis, edge detectors are used to extract the features from the given image. In modern innovations like autonomous vehicles, edge detection and segmentation are the most crucial things. If we want to detect motion or track video, corner detectors help. I tried to compare the results of detectors stage-wise wherever it is possible and also discussed the importance of image prepossessing to minimise the noise. Real-world images are used to validate detector performance and limitations.
翻訳日:2022-08-17 12:36:52 公開日:2022-08-12
# 高エネルギー物理シミュレーションのための生成逆ネットワークモデルのハイパーパラメータ最適化

Hyperparameter Optimization of Generative Adversarial Network Models for High-Energy Physics Simulations ( http://arxiv.org/abs/2208.07715v1 )

ライセンス: Link先を確認
Vincent Dumont, Xiangyang Ju, Juliane Mueller(参考訳) generative adversarial network (gan)は、学習によって高忠実度合成データを生成できる強力で柔軟なツールである。 高エネルギー物理学(HEP)における事象をシミュレートする多くの応用があり、検出器の応答や物理イベントをシミュレートする。 しかし、gansのトレーニングは困難で、ハイパーパラメータの最適化がさらに難しいことで悪名高い。 通常、安定した訓練を強制し、合理的な忠実度に達するためには、多くの試行錯誤訓練が必要である。 物理解析に必要な精度を達成するためには、重要なチューニング作業が必要となる。 この研究は、物理学に依存しない高性能コンピュータフレンドリなハイパーパラメータ最適化ツールHYPPOを使用して、2つの独立したHEPデータセットに対するGANのハイパーパラメータの感度を最適化し、検証する。 この研究は、大型ハドロン衝突型加速器のデータを効率的に調整するための最初の洞察を提供する。 適切なハイパーパラメータチューニングが与えられると、所望の量の高品質な近似を提供するganが見つかる。 また、HYPPOの分析ツールを用いて、GANアーキテクチャチューニングを行うためのガイドラインも提供する。

The Generative Adversarial Network (GAN) is a powerful and flexible tool that can generate high-fidelity synthesized data by learning. It has seen many applications in simulating events in High Energy Physics (HEP), including simulating detector responses and physics events. However, training GANs is notoriously hard and optimizing their hyperparameters even more so. It normally requires many trial-and-error training attempts to force a stable training and reach a reasonable fidelity. Significant tuning work has to be done to achieve the accuracy required by physics analyses. This work uses the physics-agnostic and high-performance-computer-friendly hyperparameter optimization tool HYPPO to optimize and examine the sensitivities of the hyperparameters of a GAN for two independent HEP datasets. This work provides the first insights into efficiently tuning GANs for Large Hadron Collider data. We show that given proper hyperparameter tuning, we can find GANs that provide high-quality approximations of the desired quantities. We also provide guidelines for how to go about GAN architecture tuning using the analysis tools in HYPPO.
翻訳日:2022-08-17 12:11:30 公開日:2022-08-12
# 3人プレイのゲームトレーニングダイナミクス

Three-Player Game Training Dynamics ( http://arxiv.org/abs/2208.06531v1 )

ライセンス: Link先を確認
Kenneth Christofferson and Fernando J. Yanez(参考訳) 本研究は,3プレイヤーゲームが収束し,均衡が収束する条件下での3プレイヤーゲームトレーニングダイナミクスを探求する。 従来の作業とは対照的に,すべてのプレイヤーが明示的に相互作用する3人プレイヤゲームアーキテクチャを検討する。 先行作業は、3人のエージェントのうち2人が他の1人のプレイヤーとやり取りするゲームを分析し、二重の2人のプレイヤーゲームを構成する。 単純化された双線形スムースゲームの拡張版であるトリリニアスムースゲームを用いて,3人のプレイヤゲームトレーニングダイナミクスを探索する。 我々は、ほとんどの場合、トリ線型ゲームはナッシュ均衡に収束せず、むしろ2人のプレイヤーに最適だが3人目のプレイヤーには最適である固定点に収束する。 さらに,更新順序が収束に与える影響についても検討する。 交互更新と同時更新に加えて、3人プレイのゲームでのみ可能となる、新しい更新順序-最大化-ファースト-について検討する。 3人プレイヤゲームは最大値更新を用いてナッシュ平衡に収束する。 最後に, 3つの更新順序すべての下で, トリリニアスムーズゲームにおける各プレイヤーの運動量値の相違を実験し, 最大値更新が他の更新順序よりも大きなプレイヤー固有運動量値トライアドのセットでより最適な結果が得られることを示す。

This work explores three-player game training dynamics, under what conditions three-player games converge and the equilibria the converge on. In contrast to prior work, we examine a three-player game architecture in which all players explicitly interact with each other. Prior work analyzes games in which two of three agents interact with only one other player, constituting dual two-player games. We explore three-player game training dynamics using an extended version of a simplified bilinear smooth game, called a simplified trilinear smooth game. We find that trilinear games do not converge on the Nash equilibrium in most cases, rather converging on a fixed point which is optimal for two players, but not for the third. Further, we explore how the order of the updates influences convergence. In addition to alternating and simultaneous updates, we explore a new update order--maximizer-first--which is only possible in a three-player game. We find that three-player games can converge on a Nash equilibrium using maximizer-first updates. Finally, we experiment with differing momentum values for each player in a trilinear smooth game under all three update orders and show that maximizer-first updates achieve more optimal results in a larger set of player-specific momentum value triads than other update orders.
翻訳日:2022-08-16 14:50:13 公開日:2022-08-12
# 深部畳み込みネットワークを用いたCTスキャンにおける肺気道抽出

Extraction of Pulmonary Airway in CT Scans Using Deep Fully Convolutional Networks ( http://arxiv.org/abs/2208.07202v1 )

ライセンス: Link先を確認
Shaofeng Yuan(参考訳) 肺癌の検出,慢性閉塞性肺疾患(COPD),気管支鏡補助下手術ナビゲーションなどの胸部CTボリュームの分析において,医用画像における肺気道の正確な自動抽出が重要である。 しかし、気道の複雑な木のような構造のため、この作業は依然として困難である。 本技術報告では,多部位からの胸部CTスキャンで肺気道を自動的に分割するために,二段階完全畳み込みネットワーク(FCN)を用いる。 具体的には,まずU字型ネットワーク構造を持つ3次元FCNを用いて,医療画像解析パイプラインを高速化するために,肺気道を粗い解像度で分割する。 そしてもう1つの3D FCNは、肺気道を微細な解像度で分割するように訓練される。 2022年に開催されたMICCAI Multi-site Multi-domain Airway Tree Modeling (ATM) Challengeでは,300件の公開トレーニングセットと50件の独立したプライベート検証セットで評価を行った。 結果として得られるDice similarity Coefficient(DSC)は0.914$\pm$0.040、False Negative Error(FNE)は0.079$\pm$0.042、False Positive Error(FPE)は0.090$\pm$0.066である。

Accurate, automatic and complete extraction of pulmonary airway in medical images plays an important role in analyzing thoracic CT volumes such as lung cancer detection, chronic obstructive pulmonary disease (COPD), and bronchoscopic-assisted surgery navigation. However, this task remains challenges, due to the complex tree-like structure of the airways. In this technical report, we use two-stage fully convolutional networks (FCNs) to automatically segment pulmonary airway in thoracic CT scans from multi-sites. Specifically, we firstly adopt a 3D FCN with U-shape network architecture to segment pulmonary airway in a coarse resolution in order to accelerate medical image analysis pipeline. And then another one 3D FCN is trained to segment pulmonary airway in a fine resolution. In the 2022 MICCAI Multi-site Multi-domain Airway Tree Modeling (ATM) Challenge, the reported method was evaluated on the public training set of 300 cases and independent private validation set of 50 cases. The resulting Dice Similarity Coefficient (DSC) is 0.914 $\pm$ 0.040, False Negative Error (FNE) is 0.079 $\pm$ 0.042, and False Positive Error (FPE) is 0.090 $\pm$ 0.066 on independent private validation set.
翻訳日:2022-08-16 14:44:40 公開日:2022-08-12
# 時空間機械システムの動的ベイズ学習と校正

Dynamic Bayesian Learning and Calibration of Spatiotemporal Mechanistic System ( http://arxiv.org/abs/2208.06528v1 )

ライセンス: Link先を確認
Ian Frankenburg and Sudipto Banerjee(参考訳) 雑音観測に基づく時空間力学力学モデルの完全ベイズ学習とキャリブレーションのための手法を開発した。 キャリブレーションは、観測データからメカニカルシステムからシミュレーションされたコンピュータ実験で情報を融合することで達成される。 合同溶接はガウス的および非ガウス的状態空間法とガウス的プロセス回帰の両方を利用する。 力学系が有限個の入力の集合によって制御されていると仮定すると、ガウス過程の回帰はこれらのパラメータの効果を多くのトレーニング実行を通じて学習し、時空間成分の確率的革新を駆動する。 これにより、空間と時間のダイナミクスの効率的なモデリングが可能になる。 本手法は,低ランクガウス過程と共役モデル仕様を通じて,大規模キャリブレーションと逆問題に適用できる。 本手法は汎用的であり,拡張可能であり,モデルの誤特定の可能性を持つ幅広い力学系を学習できる。 この柔軟性を、常微分方程式および偏非線形微分方程式の解析で生じる逆問題や、ネットワーク全体の時空間ダイナミクスを生成するブラックボックスコンピュータモデルを用いて証明する。

We develop an approach for fully Bayesian learning and calibration of spatiotemporal dynamical mechanistic models based on noisy observations. Calibration is achieved by melding information from observed data with simulated computer experiments from the mechanistic system. The joint melding makes use of both Gaussian and non-Gaussian state-space methods as well as Gaussian process regression. Assuming the dynamical system is controlled by a finite collection of inputs, Gaussian process regression learns the effect of these parameters through a number of training runs, driving the stochastic innovations of the spatiotemporal state-space component. This enables efficient modeling of the dynamics over space and time. Through reduced-rank Gaussian processes and a conjugate model specification, our methodology is applicable to large-scale calibration and inverse problems. Our method is general, extensible, and capable of learning a wide range of dynamical systems with potential model misspecification. We demonstrate this flexibility through solving inverse problems arising in the analysis of ordinary and partial nonlinear differential equations and, in addition, to a black-box computer model generating spatiotemporal dynamics across a network.
翻訳日:2022-08-16 14:32:33 公開日:2022-08-12
# SFF-DA:非侵襲的不安検出のための時空間的特徴フュージョン

SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety Nonintrusively ( http://arxiv.org/abs/2208.06411v1 )

ライセンス: Link先を確認
Haimiao Mo, Yuchen Li, Shanlin Yang, Wei Zhang, Shuai Ding(参考訳) 不安障害の早期発見は、精神障害者の苦痛を軽減し、治療結果を改善するために不可欠である。 mHealthプラットフォームに基づく不安スクリーニングは、スクリーニング効率の向上とスクリーニングコストの削減に特に有用である。 実際に、被験者の身体的・精神的評価におけるモバイルデバイスの違いと、実世界のデータ品質やサンプルサイズの小さな不均一な問題により、既存の手法は効果が無くなっている。 そこで本研究では,時空間的特徴融合に基づく不安検出のための枠組みを提案する。 3dcnn+lstm」に基づく特徴抽出ネットワークを構築し,顔の行動と非接触生理学の時空間的特徴を融合させた。 さらに,データのサンプルサイズが小さいことでモデル精度が低下するという問題を解決するため,類似度評価戦略を考案した。 我々のフレームワークは、実世界の乗組員データセットとUBFC-PHYSとSWELL-KWの2つの公開データセットで検証された。 実験の結果,我々のフレームワークの全体的な性能は最先端の比較手法よりも優れていた。

Early detection of anxiety disorders is essential to reduce the suffering of people with mental disorders and to improve treatment outcomes. Anxiety screening based on the mHealth platform is of particular practical value in improving screening efficiency and reducing screening costs. In practice, differences in mobile devices in subjects' physical and mental evaluations and the problems faced with uneven data quality and small sample sizes of data in the real world have made existing methods ineffective. Therefore, we propose a framework based on spatiotemporal feature fusion for detecting anxiety nonintrusively. To reduce the impact of uneven data quality, we constructed a feature extraction network based on "3DCNN+LSTM" and fused spatiotemporal features of facial behavior and noncontact physiology. Moreover, we designed a similarity assessment strategy to solve the problem that the small sample size of data leads to a decline in model accuracy. Our framework was validated with our crew dataset from the real world and two public datasets, UBFC-PHYS and SWELL-KW. The experimental results show that the overall performance of our framework was better than that of the state-of-the-art comparison methods.
翻訳日:2022-08-16 14:32:15 公開日:2022-08-12
# cnnがvitと出会う: 多クラス医用画像セマンティクスセグメンテーションのための半教師付き学習に向けて

When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation ( http://arxiv.org/abs/2208.06449v1 )

ライセンス: Link先を確認
Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang(参考訳) 医用画像コミュニティにおける質的アノテーションの欠如により、半教師付き学習法は画像意味セグメンテーションタスクにおいて高い評価を受けている。 本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)のパワーを半教師付き学習に活用するために,高度に整合性を考慮した擬似ラベルに基づく自己組織化手法を提案する。 提案するフレームワークは,ViTとCNNによって相互に強化された特徴学習モジュールと,一貫性に配慮した堅牢なガイダンスモジュールから構成される。 擬似ラベルは、特徴学習モジュール内のcnnとvitのビューによって、再帰的かつ別々に推測・利用され、データセットを拡張し、互いに有益である。 一方、特徴学習モジュールに対して摂動方式を設計し、平均的なネットワーク重量を利用して誘導モジュールを開発する。 これにより、CNNとViTの機能学習の強みを組み合わせ、デュアルビューのコトレーニングを通じてパフォーマンスを強化し、半教師付きで一貫性に配慮した監視を可能にする。 CNN と ViT による全ての代替監督モードのトポロジカル探索を詳細に検証し,半監督的医用画像分割作業における本手法の有望な性能と具体的設定を示す。 実験結果から,提案手法は,様々な指標を持つ公開ベンチマークデータセット上での最先端性能を実現する。 コードは公開されている。

Due to the lack of quality annotation in medical imaging community, semi-supervised learning methods are highly valued in image semantic segmentation tasks. In this paper, an advanced consistency-aware pseudo-label-based self-ensembling approach is presented to fully utilize the power of Vision Transformer(ViT) and Convolutional Neural Network(CNN) in semi-supervised learning. Our proposed framework consists of a feature-learning module which is enhanced by ViT and CNN mutually, and a guidance module which is robust for consistency-aware purposes. The pseudo labels are inferred and utilized recurrently and separately by views of CNN and ViT in the feature-learning module to expand the data set and are beneficial to each other. Meanwhile, a perturbation scheme is designed for the feature-learning module, and averaging network weight is utilized to develop the guidance module. By doing so, the framework combines the feature-learning strength of CNN and ViT, strengthens the performance via dual-view co-training, and enables consistency-aware supervision in a semi-supervised manner. A topological exploration of all alternative supervision modes with CNN and ViT are detailed validated, demonstrating the most promising performance and specific setting of our method on semi-supervised medical image segmentation tasks. Experimental results show that the proposed method achieves state-of-the-art performance on a public benchmark data set with a variety of metrics. The code is publicly available.
翻訳日:2022-08-16 14:31:57 公開日:2022-08-12
# ノイマン・ケイリー変換を伴う直交ゲートリカレントユニット

Orthogonal Gated Recurrent Unit with Neumann-Cayley Transformation ( http://arxiv.org/abs/2208.06496v1 )

ライセンス: Link先を確認
Edison Mucllari, Vasily Zadorozhnyy, Cole Pospisil, Duc Nguyen, Qiang Ye(参考訳) 近年、直交行列の使用は、特に勾配を制御するために、トレーニング、安定性、収束を伴うリカレントニューラルネットワーク(rnn)を改善する有望なアプローチであることが示されている。 GRU(Gent Recurrent Unit)とLSTM(Long Short Term Memory)アーキテクチャは、様々なゲートとメモリセルを用いて、消滅する勾配問題に対処するが、それでも爆発する勾配問題に対処する傾向にある。 本研究では,GRUの勾配を解析し,爆発的勾配問題の発生防止と長期記憶の向上を目的とした直交行列の利用を提案する。 直交行列の使い方について検討し、直交行列をGRUでトレーニングするためのノイマン級数に基づくスケールドケイリー変換を提案し、これをノイマン・ケイリー直交GRU、あるいは単にNC-GRUと呼ぶ。 本稿では, nc-gru が gru と他の rnn を有意に上回っていることを示す人工的および実世界の課題について, 詳細な実験を行った。

In recent years, using orthogonal matrices has been shown to be a promising approach in improving Recurrent Neural Networks (RNNs) with training, stability, and convergence, particularly, to control gradients. While Gated Recurrent Unit (GRU) and Long Short Term Memory (LSTM) architectures address the vanishing gradient problem by using a variety of gates and memory cells, they are still prone to the exploding gradient problem. In this work, we analyze the gradients in GRU and propose the usage of orthogonal matrices to prevent exploding gradient problems and enhance long-term memory. We study where to use orthogonal matrices and we propose a Neumann series-based Scaled Cayley transformation for training orthogonal matrices in GRU, which we call Neumann-Cayley Orthogonal GRU, or simply NC-GRU. We present detailed experiments of our model on several synthetic and real-world tasks, which show that NC-GRU significantly outperforms GRU as well as several other RNNs.
翻訳日:2022-08-16 14:16:55 公開日:2022-08-12
# siameseニューラルネットワークによる複素モデル出力の一般化, 定量的比較

Siamese neural networks for a generalized, quantitative comparison of complex model outputs ( http://arxiv.org/abs/2208.06530v1 )

ライセンス: Link先を確認
Colin G. Cess and Stacey D. Finley(参考訳) 計算モデルはシステムの定量的表現である。 このようなモデルの出力を分析して比較することにより、システム自体をよりよく理解することができる。 しかし、モデル出力の複雑さが増大するにつれて、シミュレーションを互いに比較することがますます困難になる。 複数のシミュレーションでいくつかのモデル出力を比較するのは簡単だが、モデルシミュレーション全体を比較することはより有益である。 しかし、モデルシミュレーションをバイアスのない方法で全体比較することは困難である。 これらの制限に対処するために、モデルシミュレーションを1つの値として比較するために、シアムニューラルネットワークを使用し、モデル出力間の関係をキャプチャするニューラルネットワークを使用する。 モデルシミュレーションにおけるシームズネットワークのトレーニング手法を提供し、モデル出力の全体的比較を行うためにトレーニングされたネットワークをどのように使用できるかを示す。 このアプローチは幅広いモデルタイプに適用でき、計算モデルの複雑な出力を分析する定量的な方法を提供する。

Computational models are quantitative representations of systems. By analyzing and comparing the outputs of such models, it is possible to gain a better understanding of the system itself. Though, as the complexity of model outputs increases, it becomes increasingly difficult to compare simulations to each other. While it is straightforward to only compare a few specific model outputs across multiple simulations, it is more informative to be able to compare model simulations as a whole. However, it is difficult to holistically compare model simulations in an unbiased manner. To address these limitations, we use Siamese neural networks to compare model simulations as a single value, with the neural networks capturing the relationships between the model outputs. We provide an approach to training Siamese networks on model simulations and display how the trained networks can then be used to provide a holistic comparison of model outputs. This approach can be applied to a wide range of model types, providing a quantitative method of analyzing the complex outputs of computational models.
翻訳日:2022-08-16 14:16:34 公開日:2022-08-12
# スマートトラッシュビン構築に人工知能とIoTを使用する

Using Artificial Intelligence and IoT for Constructing a Smart Trash Bin ( http://arxiv.org/abs/2208.07247v1 )

ライセンス: Link先を確認
Khang Nhut Lam, Nguyen Hoang Huynh, Nguyen Bao Ngoc, To Thi Huynh Nhu, Nguyen Thanh Thao, Pham Hoang Hao, Vo Van Kiet, Bui Xuan Huynh, and Jugal Kalita(参考訳) この論文で報告された研究は、コンピュータビジョン技術を適用して、通常のゴミ箱をよりスマートなものに変換する。 センサーとアクチュエーターデバイスのサポートにより、ゴミ箱は自動的にゴミを分類できる。 特にゴミ箱のカメラがゴミの写真を撮ってから、中央処理部が分析して、ゴミをゴミ箱に落とすかを決めます。 ごみ箱システムの精度は90%に達する。 さらに、我々のモデルはインターネットに接続して、さらなる管理のためにbinステータスを更新します。 ビンを管理するためにモバイルアプリケーションを開発した。

The research reported in this paper transforms a normal trash bin into a smarter one by applying computer vision technology. With the support of sensors and actuator devices, the trash bin can automatically classify garbage. In particular, a camera on the trash bin takes pictures of trash, then the central processing unit analyzes and makes decisions regarding which bin to drop trash into. The accuracy of our trash bin system achieves 90%. Besides, our model is connected to the Internet to update the bin status for further management. A mobile application is developed for managing the bin.
翻訳日:2022-08-16 14:09:26 公開日:2022-08-12
# 3つの異なるアンペアデータセットを持つcyclegan

CycleGAN with three different unpaired datasets ( http://arxiv.org/abs/2208.06526v1 )

ライセンス: Link先を確認
Sai Pavan Tadem(参考訳) Unpaired Image-to-Image translation using Cycle-Consistent Adversarial Networksは、この実装プロジェクトのインスピレーションとなった。 研究者たちは、画像から画像への変換を行う新しい方法を開発した。 pix2pixモデルの結果が良好であるにもかかわらず、マッチしたデータセットは頻繁に利用できない。 したがって、ペアデータがない場合、cycleganは画像から画像に変換することでこの問題を克服することができる。 画像間の差異を小さくするために,cycle consistency loss を実装し,cyclegan を3つの異なるデータセットで評価した。

The original publication Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks served as the inspiration for this implementation project. Researchers developed a novel method for doing image-to-image translations using an unpaired dataset in the original study. Despite the fact that the pix2pix models findings are good, the matched dataset is frequently not available. In the absence of paired data, cycleGAN can therefore get over this issue by converting images to images. In order to lessen the difference between the images, they implemented cycle consistency loss.I evaluated CycleGAN with three different datasets, and this paper briefly discusses the findings and conclusions.
翻訳日:2022-08-16 13:47:23 公開日:2022-08-12
# 物体検出のためのコントラスト学習

Contrastive Learning for Object Detection ( http://arxiv.org/abs/2208.06412v1 )

ライセンス: Link先を確認
Rishab Balasubramanian, Kunal Rathore(参考訳) コントラスト学習は、与えられた入力画像の「アンカー」と「ポジティヴ」の2つのランダムな拡張である「アンカー」と「ポジティヴ」との自己教師型学習の手法として一般的に用いられ、その「負」は他のすべての画像の集合である。 しかし、大規模なバッチサイズとメモリバンクの要求により、トレーニングが難しく、遅くなっている。 このことは、アノテーション付きデータを使用してこれらの問題を克服するSupervised Contrasativeアプローチの台頭を動機付けている。 我々は,その類似性に基づいてクラスをランク付けすることで教師付きコントラスト学習をさらに改善し,人間バイアス(ランキング)が学習表現に与える影響を観察する。 優れた機能の埋め込みを学ぶことは、コンピュータビジョンにおける長年の問題であったので、これは対処すべき重要な問題だと感じています。

Contrastive learning is commonly used as a method of self-supervised learning with the "anchor" and "positive" being two random augmentations of a given input image, and the "negative" is the set of all other images. However, the requirement of large batch sizes and memory banks has made it difficult and slow to train. This has motivated the rise of Supervised Contrasative approaches that overcome these problems by using annotated data. We look to further improve supervised contrastive learning by ranking classes based on their similarity, and observe the impact of human bias (in the form of ranking) on the learned representations. We feel this is an important question to address, as learning good feature embeddings has been a long sought after problem in computer vision.
翻訳日:2022-08-16 13:39:43 公開日:2022-08-12
# CCRL: コントラスト細胞表現学習

CCRL: Contrastive Cell Representation Learning ( http://arxiv.org/abs/2208.06445v1 )

ライセンス: Link先を確認
Ramin Nakhli, Amirali Darbandsari, Hossein Farahani, Ali Bashashati(参考訳) h&eスライド内の細胞同定は、組織分類、がん診断、表現型予測など、さらなる病理分析への道を開く上で必須の前提条件である。 しかし、深層学習技術を用いてそのようなタスクを実行するには、大きなセルレベルのアノテートデータセットが必要である。 組織分類におけるコントラスト的自己監督法の性能についてはこれまで研究されてきたが、細胞同定とクラスタリングにおけるこの種のアルゴリズムの有用性はいまだ不明である。 本研究では,セルクラスタリングにおける自己監視学習(SSL)の有用性について,コントラストセル表現学習(CCRL)モデルを提案する。 包括的比較により、このモデルは、組織の種類によって異なる2つのデータセットにまたがる大きなマージンで、現在利用可能な全てのセルクラスタリングモデルより優れていることを示す。 さらに興味深いのは,提案モデルがいくつかのセルカテゴリでうまく動作し,sslモデルの有用性が,多数のクラス(例えばimagenet)を持つ自然画像データセットのコンテキストで主に示されている点である。 本研究では,セル分類タスクにおけるデータアノテーションの時間を要するステップを排除し,従来の手法に比べてはるかに大きなデータセットでモデルをトレーニングすることを可能にする。 したがって、有望な結果を考えると、このアプローチは自動セル表現学習への新しい道を開くことができる。

Cell identification within the H&E slides is an essential prerequisite that can pave the way towards further pathology analyses including tissue classification, cancer grading, and phenotype prediction. However, performing such a task using deep learning techniques requires a large cell-level annotated dataset. Although previous studies have investigated the performance of contrastive self-supervised methods in tissue classification, the utility of this class of algorithms in cell identification and clustering is still unknown. In this work, we investigated the utility of Self-Supervised Learning (SSL) in cell clustering by proposing the Contrastive Cell Representation Learning (CCRL) model. Through comprehensive comparisons, we show that this model can outperform all currently available cell clustering models by a large margin across two datasets from different tissue types. More interestingly, the results show that our proposed model worked well with a few number of cell categories while the utility of SSL models has been mainly shown in the context of natural image datasets with large numbers of classes (e.g., ImageNet). The unsupervised representation learning approach proposed in this research eliminates the time-consuming step of data annotation in cell classification tasks, which enables us to train our model on a much larger dataset compared to previous methods. Therefore, considering the promising outcome, this approach can open a new avenue to automatic cell representation learning.
翻訳日:2022-08-16 13:39:10 公開日:2022-08-12
# 効率的な光場圧縮のためのサブサンプリングと再構成

View Sub-sampling and Reconstruction for Efficient Light Field Compression ( http://arxiv.org/abs/2208.06464v1 )

ライセンス: Link先を確認
Yang Chen, Martin Alain, Aljosa Smolic(参考訳) 圧縮は光分野の多くの応用にとって重要な課題である。 従来の研究では、効率的な光場圧縮のための多くの方法が提案されているが、このタスクに対するビュー選択の効果は十分に活用されていない。 本研究では,光場圧縮のためのサブサンプリングおよび再構成戦略について検討する。 光電界圧縮前後に様々なサブサンプリングと対応する再構成戦略を適用する。 そして、再構成された光場を評価して、異なる方法の性能を評価する。 実世界のデータセットと合成データセットの両方で評価を行い,実験結果から最適戦略を考案した。 この研究が、ライトフィールドストリーミング、ストレージ、トランスミッションなどの将来の研究に有益になることを願っている。

Compression is an important task for many practical applications of light fields. Although previous work has proposed numerous methods for efficient light field compression, the effect of view selection on this task is not well exploited. In this work, we study different sub-sampling and reconstruction strategies for light field compression. We apply various sub-sampling and corresponding reconstruction strategies before and after light field compression. Then, fully reconstructed light fields are assessed to evaluate the performance of different methods. Our evaluation is performed on both real-world and synthetic datasets, and optimal strategies are devised from our experimental results. We hope this study would be beneficial for future research such as light field streaming, storage, and transmission.
翻訳日:2022-08-16 13:38:46 公開日:2022-08-12
# クラス特異的転送を用いた意味セグメンテーションのための連続的教師なしドメイン適応

Continual Unsupervised Domain Adaptation for Semantic Segmentation using a Class-Specific Transfer ( http://arxiv.org/abs/2208.06507v1 )

ライセンス: Link先を確認
Robert A. Marsden, Felix Wiewel, Mario D\"obler, Yang Yang, and Bin Yang(参考訳) 近年,セマンティクスセグメンテーションの分野は飛躍的な進歩を遂げている。 しかし、残る課題の1つは、セグメンテーションモデルが未知の領域に一般化しないことである。 この問題を克服するためには、実際には実現不可能なドメイン全体をカバーする大量のデータをラベル付けするか、あるいはラベル付きソースデータのみを必要とする非教師なしのドメイン適応(UDA)を適用する必要がある。 本研究では、udaに注目し、さらに、単一のドメインだけでなく、対象ドメインのシーケンスにも適応するケースについても取り組んだ。 これは、モデルが事前に学習した知識を忘れないようにするメカニズムを必要とする。 対象領域にセグメンテーションモデルを適応させるために、光源コンテンツを保持しながら、ラベル付きソース画像のスタイルを対象領域のスタイルに変換するために、軽量なスタイル転送を利用するという考え方に従う。 ソースと対象ドメイン間の分布シフトを軽減するために、転送されたソースイメージに対して第2ステップでモデルを微調整する。 アダプティブインスタンス正規化(adain)やフーリエ変換に依存する既存の軽量スタイル転送アプローチは、まだ性能に欠けており、カラージッタリングのような一般的なデータ拡張を実質的に改善していない。 この理由は、これらの手法が地域やクラス固有の違いに焦点を合わせず、主に最も敬遠したスタイルを捉えているためである。 そこで本研究では,2つのクラス条件AdaINレイヤを組み込んだ,シンプルで軽量なフレームワークを提案する。 転送層に必要なクラス固有のターゲットモーメントを抽出するために,フィルタされていない擬似ラベルを用い,実ラベルと比較して有効に近似できることを示した。 合成シーケンス上での我々のアプローチ(CACE)を広範囲に検証し、さらに実領域からなる挑戦的なシーケンスを提案する。 CACEは既存の手法を視覚的に定量的に上回る。

In recent years, there has been tremendous progress in the field of semantic segmentation. However, one remaining challenging problem is that segmentation models do not generalize to unseen domains. To overcome this problem, one either has to label lots of data covering the whole variety of domains, which is often infeasible in practice, or apply unsupervised domain adaptation (UDA), only requiring labeled source data. In this work, we focus on UDA and additionally address the case of adapting not only to a single domain, but to a sequence of target domains. This requires mechanisms preventing the model from forgetting its previously learned knowledge. To adapt a segmentation model to a target domain, we follow the idea of utilizing light-weight style transfer to convert the style of labeled source images into the style of the target domain, while retaining the source content. To mitigate the distributional shift between the source and the target domain, the model is fine-tuned on the transferred source images in a second step. Existing light-weight style transfer approaches relying on adaptive instance normalization (AdaIN) or Fourier transformation still lack performance and do not substantially improve upon common data augmentation, such as color jittering. The reason for this is that these methods do not focus on region- or class-specific differences, but mainly capture the most salient style. Therefore, we propose a simple and light-weight framework that incorporates two class-conditional AdaIN layers. To extract the class-specific target moments needed for the transfer layers, we use unfiltered pseudo-labels, which we show to be an effective approximation compared to real labels. We extensively validate our approach (CACE) on a synthetic sequence and further propose a challenging sequence consisting of real domains. CACE outperforms existing methods visually and quantitatively.
翻訳日:2022-08-16 13:38:38 公開日:2022-08-12
# 自然言語処理を用いた会話の自動発話ラベリング

Automated Utterance Labeling of Conversations Using Natural Language Processing ( http://arxiv.org/abs/2208.06525v1 )

ライセンス: Link先を確認
Maria Laricheva, Chiyu Zhang, Yan Liu, Guanyu Chen, Terence Tracey, Richard Young, Giuseppe Carenini(参考訳) 会話データは、研究者が個人の認知過程、感情、行動を理解するのに役立つため、心理学において不可欠である。 発話ラベル付けは、この種のデータを分析する一般的な戦略である。 NLPアルゴリズムの開発により、研究者はこのタスクを自動化できる。 しかし、心理学的会話データは、多ラベル分類、多数のクラス、限られた利用可能なデータなど、NLP研究者にいくつかの課題をもたらす。 本研究は,nlp法で生成する自動ラベルが,成人期遷移における会話の文脈における人間のラベルとどのように比較されるかを検討した。 心理学研究における3つの共通課題に対処する戦略を提案した。 その結果,ドメイン適応型ディープラーニング(RoBERTa-CON)は,他の機械学習手法よりも優れており,提案した階層ラベリングシステムは,研究者が会話データを戦略的に分析するのに役立つことがわかった。 私たちのPythonコードとNLPモデルはhttps://github.com/mlaricheva/automated_labeling.comで利用可能です。

Conversational data is essential in psychology because it can help researchers understand individuals cognitive processes, emotions, and behaviors. Utterance labelling is a common strategy for analyzing this type of data. The development of NLP algorithms allows researchers to automate this task. However, psychological conversational data present some challenges to NLP researchers, including multilabel classification, a large number of classes, and limited available data. This study explored how automated labels generated by NLP methods are comparable to human labels in the context of conversations on adulthood transition. We proposed strategies to handle three common challenges raised in psychological studies. Our findings showed that the deep learning method with domain adaptation (RoBERTa-CON) outperformed all other machine learning methods; and the hierarchical labelling system that we proposed was shown to help researchers strategically analyze conversational data. Our Python code and NLP model are available at https://github.com/mlaricheva/automated_labeling.
翻訳日:2022-08-16 13:33:38 公開日:2022-08-12
# エンゲージメント強度予測のためのクラス注意ビデオ変換器

Class-attention Video Transformer for Engagement Intensity Prediction ( http://arxiv.org/abs/2208.07216v1 )

ライセンス: Link先を確認
Xusheng Ai, Victor S. Sheng, Chunhua Li(参考訳) 可変長ビデオに対処するため,先行研究は複数モーダルな特徴を抽出し,学生のエンゲージメントの強度を予測する。 本稿では,ビデオ変換器におけるクラスアテンション(CavT)の新たなエンド・ツー・エンド手法を提案する。これは,クラス埋め込みを処理し,可変長長ビデオと固定長短ビデオのエンドツーエンド学習を均一に行うための単一のベクトルを含む。 さらに,十分なサンプルの不足に対処するために,各映像に複数の映像列を追加してトレーニングセットを補強する2次代表サンプリング法(bors)を提案する。 BorS+CavTは、EmotiW-EPデータセットで最先端MSE(0.0495)を達成するだけでなく、DAiSEEデータセットで最先端MSE(0.0377)を取得する。 コードとモデルはhttps://github.com/mountainai/cavt.comで公開される。

In order to deal with variant-length long videos, prior works extract multi-modal features and fuse them to predict students' engagement intensity. In this paper, we present a new end-to-end method Class Attention in Video Transformer (CavT), which involves a single vector to process class embedding and to uniformly perform end-to-end learning on variant-length long videos and fixed-length short videos. Furthermore, to address the lack of sufficient samples, we propose a binary-order representatives sampling method (BorS) to add multiple video sequences of each video to augment the training set. BorS+CavT not only achieves the state-of-the-art MSE (0.0495) on the EmotiW-EP dataset, but also obtains the state-of-the-art MSE (0.0377) on the DAiSEE dataset. The code and models will be made publicly available at https://github.com/mountainai/cavt.
翻訳日:2022-08-16 13:21:13 公開日:2022-08-12
# 物理的人間-ロボット相互作用における咬合・回転多感姿勢推定

Occlusion-Robust Multi-Sensory Posture Estimation in Physical Human-Robot Interaction ( http://arxiv.org/abs/2208.06494v1 )

ライセンス: Link先を確認
Amir Yazdani, Roya Sabbagh Novin, Andrew Merryweather, Tucker Hermans(参考訳) 3次元姿勢推定は、人-ロボット相互作用におけるエルゴノミクスの分析と改善、および筋骨格障害のリスク軽減に重要である。 視覚に基づく姿勢推定アプローチは、センサやモデルによる誤差やオクルージョンに傾向があり、相互作用するロボットの軌道のみからの姿勢推定は曖昧な解に悩まされる。 両アプローチの利点を享受し,その欠点を改善するために,身体とロボットの相互作用において,低コストで非侵襲的で,かつオクルーシブな多感性3D姿勢推定アルゴリズムを導入する。 1台のカメラ上でopenposeの2d姿勢と、人間がタスクを実行している間に相互作用するロボットの軌道を用いる。 問題を部分観測可能な力学系としてモデル化し,粒子フィルタを用いて3次元姿勢を推定する。 遠隔操作における我々の研究成果は、物理的人間-ロボット相互作用の他の応用に一般化することができる。 マルチセンサシステムは,ロボットの軌跡のみを用いて姿勢推定や姿勢推定のみを用いて,姿勢推定よりも人間の運動的冗長性を解消する。 これにより、金標準モーションキャプチャー姿勢と比較して推定姿勢の精度が向上する。 また, RULAアセスメントツールを用いた姿勢評価では, 他の単一感覚法よりも優れていた。

3D posture estimation is important in analyzing and improving ergonomics in physical human-robot interaction and reducing the risk of musculoskeletal disorders. Vision-based posture estimation approaches are prone to sensor and model errors, as well as occlusion, while posture estimation solely from the interacting robot's trajectory suffers from ambiguous solutions. To benefit from the advantages of both approaches and improve upon their drawbacks, we introduce a low-cost, non-intrusive, and occlusion-robust multi-sensory 3D postural estimation algorithm in physical human-robot interaction. We use 2D postures from OpenPose over a single camera, and the trajectory of the interacting robot while the human performs a task. We model the problem as a partially-observable dynamical system and we infer the 3D posture via a particle filter. We present our work in teleoperation, but it can be generalized to other applications of physical human-robot interaction. We show that our multi-sensory system resolves human kinematic redundancy better than posture estimation solely using OpenPose or posture estimation solely using the robot's trajectory. This will increase the accuracy of estimated postures compared to the gold-standard motion capture postures. Moreover, our approach also performs better than other single sensory methods when postural assessment using RULA assessment tool.
翻訳日:2022-08-16 13:20:37 公開日:2022-08-12
# RLang: 強化学習のための事前知識を表現するための宣言型言語

RLang: A Declarative Language for Expression Prior Knowledge for Reinforcement Learning ( http://arxiv.org/abs/2208.06448v1 )

ライセンス: Link先を確認
Rafael Rodriguez-Sanchez, Benjamin Spiegel, Jennifer Wang, Roma Patel, Stefanie Tellex and George Konidaris(参考訳) 強化学習(RL)エージェントに有用な背景知識を伝達することは、学習を加速するための重要かつ効果的な方法である。 ドメイン固有言語(DSL)であるRLangを導入し、ドメイン知識をRLエージェントに伝達する。 意思決定形式主義(例えば報酬関数やポリシー関数)の単一要素を基礎とする他の既存のDSLとは異なり、RLangはマルコフ決定プロセスのすべての要素に関する情報を指定できる。 我々はRLangの正確な構文と接地意味を定義し、RLangプログラムをアルゴリズムに依存しない部分世界モデルとRLエージェントが活用できるポリシーに基盤付けるパーサ実装を提供する。 本稿では、RLangプログラムの例を示し、モデルフリーおよびモデルベースグラフアルゴリズム、階層的アプローチ、深いRLアルゴリズム(ポリシーグラデーションと値ベース手法の両方を含む)など、異なるRL手法が結果の知識をどのように活用できるかを示す。

Communicating useful background knowledge to reinforcement learning (RL) agents is an important and effective method for accelerating learning. We introduce RLang, a domain-specific language (DSL) for communicating domain knowledge to an RL agent. Unlike other existing DSLs proposed by the RL community that ground to single elements of a decision-making formalism (e.g., the reward function or policy function), RLang can specify information about every element of a Markov decision process. We define precise syntax and grounding semantics for RLang, and provide a parser implementation that grounds RLang programs to an algorithm-agnostic partial world model and policy that can be exploited by an RL agent. We provide a series of example RLang programs, and demonstrate how different RL methods can exploit the resulting knowledge, including model-free and model-based tabular algorithms, hierarchical approaches, and deep RL algorithms (including both policy gradient and value-based methods).
翻訳日:2022-08-16 13:09:24 公開日:2022-08-12
# RuDi: 自動統計生成と規則蒸留による行動系列モデルの説明

RuDi: Explaining Behavior Sequence Models by Automatic Statistics Generation and Rule Distillation ( http://arxiv.org/abs/2208.07211v1 )

ライセンス: Link先を確認
Yao Zhang, Yun Xiong, Yiheng Sun, Caihua Shan, Tian Lu, Hui Song, Yangyong Zhu(参考訳) リスクスコアシステムは、多くのアプリケーションに広くデプロイされており、ユーザの行動シーケンスに応じてリスクスコアを割り当てている。 高度な設計を持つ多くのディープラーニング手法は有望な成果を上げているが、ブラックボックスの性質は、公正性、説明可能性、コンプライアンスの考慮により、それらの応用を妨げる。 ルールベースのシステムは、これらのセンシティブなシナリオでは信頼できると考えられている。 しかし、ルールシステムの構築は労働集約的です。 専門家は、ユーザの行動シーケンス、統計に基づくルールの設計、各ルールへの重み付けから有益な統計を見つける必要がある。 本稿では,効率的なブラックボックスモデルと透過的ルールモデルとのギャップを橋渡しする。 そこで本研究では,黒箱教師モデルの知識をルールベース学習モデルに融合する二段階法rudiを提案する。 モンテカルロ木探索に基づく統計生成手法を試作し,第1段階において情報的統計値のセットを提供する。 次に,教師モデルの出力を模倣して,提案するニューラル論理ネットワークを用いた論理規則を構成する。 rudiを実世界の3つのデータセットと産業用データセットで評価し,その効果を実証した。

Risk scoring systems have been widely deployed in many applications, which assign risk scores to users according to their behavior sequences. Though many deep learning methods with sophisticated designs have achieved promising results, the black-box nature hinders their applications due to fairness, explainability, and compliance consideration. Rule-based systems are considered reliable in these sensitive scenarios. However, building a rule system is labor-intensive. Experts need to find informative statistics from user behavior sequences, design rules based on statistics and assign weights to each rule. In this paper, we bridge the gap between effective but black-box models and transparent rule models. We propose a two-stage method, RuDi, that distills the knowledge of black-box teacher models into rule-based student models. We design a Monte Carlo tree search-based statistics generation method that can provide a set of informative statistics in the first stage. Then statistics are composed into logical rules with our proposed neural logical networks by mimicking the outputs of teacher models. We evaluate RuDi on three real-world public datasets and an industrial dataset to demonstrate its effectiveness.
翻訳日:2022-08-16 13:07:17 公開日:2022-08-12
# CWW手法の創発的導入と調査

A Gentle Introduction and Survey on Computing with Words (CWW) Methodologies ( http://arxiv.org/abs/2208.06532v1 )

ライセンス: Link先を確認
Prashant K. Gupta and Javier Andreu-Perez(参考訳) 人間は曖昧で不正確であるにもかかわらず、言語情報(LI)をシームレスに使用する能力を持っている。 cww(compute with words)は、コンピュータシステムに人間の能力を与えるために提案された。 CWWの分野への関心は、様々なCWW方法論に関する多くの出版物から明らかである。 これらの手法はLIのセマンティクスをモデル化するために異なる方法を使用する。 しかしながら、我々の知る限りでは、これらの方法論に関する文献はほとんど散在しており、興味のある研究者にこれらの方法論の概念と有用性についての包括的かつ穏やかなガイドを与えていない。 したがって, 基礎と最先端CWW手法を導入するために, 簡潔ながら, 簡潔で理解しやすい範囲で, 幅広い範囲を網羅する手法を提案する。 高品質なレビューとCWW方法論導入の単純さは,特にCWWの利用に着手した研究者にとって非常に有用であると感じている。 また、興味深く動機づけられた研究者のために、今後の研究の方向性を提供する。

Human beings have an inherent capability to use linguistic information (LI) seamlessly even though it is vague and imprecise. Computing with Words (CWW) was proposed to impart computing systems with this capability of human beings. The interest in the field of CWW is evident from a number of publications on various CWW methodologies. These methodologies use different ways to model the semantics of the LI. However, to the best of our knowledge, the literature on these methodologies is mostly scattered and does not give an interested researcher a comprehensive but gentle guide about the notion and utility of these methodologies. Hence, to introduce the foundations and state-of-the-art CWW methodologies, we provide a concise but a wide-ranging coverage of them in a simple and easy to understand manner. We feel that the simplicity with which we give a high-quality review and introduction to the CWW methodologies is very useful for investigators, especially those embarking on the use of CWW for the first time. We also provide future research directions to build upon for the interested and motivated researchers.
翻訳日:2022-08-16 13:04:08 公開日:2022-08-12
# ディープラーニングを用いた交通サーベイランスにおけるリアルタイム事故検出

Real-Time Accident Detection in Traffic Surveillance Using Deep Learning ( http://arxiv.org/abs/2208.06461v1 )

ライセンス: Link先を確認
Hadi Ghahremannezhad, Hang Shi, Chengjun Liu(参考訳) 交通監視システムにおいて,交通事故の自動検出は重要な話題である。 現在、多くの交差点には交通管理システムに接続された監視カメラが備えられている。 したがって、コンピュータビジョン技術は自動事故検出に有効なツールとなり得る。 本稿では,交通監視用交差点における事故検出のための新しい効率的な枠組みを提案する。 提案手法は,最先端のyolov4法に基づく効率的かつ高精度な物体検出,ハンガリーのアルゴリズムと結合したカルマンフィルタに基づく物体追跡,軌道衝突解析による事故検出の3つの階層的ステップからなる。 オブジェクト追跡ステップにおいて、閉塞、重なり合うオブジェクト、形状変化に対応するために、オブジェクトアソシエーションに新たなコスト関数を適用する。 物体軌跡を速度・角度・距離で解析し、車両から車両、歩行者、車両から自転車まで、様々な種類の軌道衝突を検出する。 実交通映像データを用いた実験により,リアルタイム交通監視における提案手法の有効性が示された。 特に、都市交差点で発生した事故を含む軌道衝突を、低い誤警報率と高い検出率で検出する。 提案フレームワークのロバスト性は,様々な照明条件でYouTubeから収集した映像シーケンスを用いて評価する。 データセットは、http://github.com/hadi-ghnd/AccidentDetection.comで公開されている。

Automatic detection of traffic accidents is an important emerging topic in traffic monitoring systems. Nowadays many urban intersections are equipped with surveillance cameras connected to traffic management systems. Therefore, computer vision techniques can be viable tools for automatic accident detection. This paper presents a new efficient framework for accident detection at intersections for traffic surveillance applications. The proposed framework consists of three hierarchical steps, including efficient and accurate object detection based on the state-of-the-art YOLOv4 method, object tracking based on Kalman filter coupled with the Hungarian algorithm for association, and accident detection by trajectory conflict analysis. A new cost function is applied for object association to accommodate for occlusion, overlapping objects, and shape changes in the object tracking step. The object trajectories are analyzed in terms of velocity, angle, and distance in order to detect different types of trajectory conflicts including vehicle-to-vehicle, vehicle-to-pedestrian, and vehicle-to-bicycle. Experimental results using real traffic video data show the feasibility of the proposed method in real-time applications of traffic surveillance. In particular, trajectory conflicts, including near-accidents and accidents occurring at urban intersections are detected with a low false alarm rate and a high detection rate. The robustness of the proposed framework is evaluated using video sequences collected from YouTube with diverse illumination conditions. The dataset is publicly available at: http://github.com/hadi-ghnd/AccidentDetection.
翻訳日:2022-08-16 13:03:37 公開日:2022-08-12
# LM-CORE:文脈関連外部知識を持つ言語モデル

LM-CORE: Language Models with Contextually Relevant External Knowledge ( http://arxiv.org/abs/2208.06458v1 )

ライセンス: Link先を確認
Jivat Neet Kaur and Sumit Bhatia and Milan Aggarwal and Rachit Bansal and Balaji Krishnamurthy(参考訳) 大規模なトランスフォーマーベースの事前学習された言語モデルは、様々な知識集約的なタスクで印象的なパフォーマンスを達成し、パラメータの事実的知識を捉えることができる。 モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソース要件を考えると、準最適である。 より効率的な代替手段は、モデルにコンテキスト的に関連した構造化知識を明示的にアクセスし、その知識を使用するようにトレーニングすることです。 我々は、これを実現するための一般的なフレームワークであるLM-COREを紹介します。これは、外部知識ソースからの言語モデルトレーニングの‘textit{decoupling}’を可能にし、すでにトレーニングされたモデルに影響を与えることなく、後者を更新できるようにします。 実験結果から,LM-COREは知識探索タスクにおける最先端の知識強化言語モデルに対して,知識更新を効果的に処理し,下流の2つのタスクにおいて良好な性能を発揮することがわかった。 また,LM-COREの成功と失敗に注目した詳細な誤り解析を行った。

Large transformer-based pre-trained language models have achieved impressive performance on a variety of knowledge-intensive tasks and can capture factual knowledge in their parameters. We argue that storing large amounts of knowledge in the model parameters is sub-optimal given the ever-growing amounts of knowledge and resource requirements. We posit that a more efficient alternative is to provide explicit access to contextually relevant structured knowledge to the model and train it to use that knowledge. We present LM-CORE -- a general framework to achieve this -- that allows \textit{decoupling} of the language model training from the external knowledge source and allows the latter to be updated without affecting the already trained model. Experimental results show that LM-CORE, having access to external knowledge, achieves significant and robust outperformance over state-of-the-art knowledge-enhanced language models on knowledge probing tasks; can effectively handle knowledge updates; and performs well on two downstream tasks. We also present a thorough error analysis highlighting the successes and failures of LM-CORE.
翻訳日:2022-08-16 13:01:17 公開日:2022-08-12
# 時間知識グラフを用いた質問応答予測

Forecasting Question Answering over Temporal Knowledge Graphs ( http://arxiv.org/abs/2208.06501v1 )

ライセンス: Link先を確認
Zifeng Ding, Ruoxia Qi, Zongyue Li, Bailan He, Jingpei Wu, Yunpu Ma, Zhao Meng, Zhen Han, Volker Tresp(参考訳) 時間的知識グラフ(TKGQA)に対する質問応答の関心が高まっている。 TKGQAは時間的知識ベースから関連情報を抽出するために時間的推論技術を必要とする。 既存のTKGQAデータセット、すなわちCronQuestionsは、一定期間の事実に基づく時間的質問で構成されており、同じ期間にまたがる時間的知識グラフ(TKG)が完全な回答推論に利用できるため、TKGQAモデルは、過去の事実に基づく質問に答えるために、将来の知識さえ使うことができる。 しかし、現実のシナリオでは、これまでの知識を活かして、TKGQAシステムに未来に関する質問への答えを求めることも一般的である。 人間は常に将来の計画を模索するので、このような予測問題に答えるためのTKGQAシステムの構築が重要である。 それにもかかわらず、これは以前の研究では未調査である。 本稿では,時間的知識グラフ上での質問応答を予測するタスクを提案する。 また,この課題に対して,大規模なTKGQAベンチマークデータセット,すなわちForecastTKGQuestionsを提案する。 エンティティ予測、yes-no、事実推論という3つのタイプの質問が含まれている。 データセット内の全ての予測質問に対して、QAモデルは、与えられた質問に注釈付けされたタイムスタンプの前にのみ、TKG情報にアクセスすることができる。 現状のTKGQA手法は, 予測質問に対して不十分であり, イエスノー質問や事実推論質問には答えられないことがわかった。 そこで本研究では,将来の推論にTKG予測モジュールを用いたTKGQAモデルであるForecastTKGQAを提案する。 実験結果から,ForecastTKGQAはエンティティ予測質問において,最近のTKGQA手法よりも優れており,他の2つの質問に対する回答の有効性も高いことがわかった。

Question answering over temporal knowledge graphs (TKGQA) has recently found increasing interest. TKGQA requires temporal reasoning techniques to extract the relevant information from temporal knowledge bases. The only existing TKGQA dataset, i.e., CronQuestions, consists of temporal questions based on the facts from a fixed time period, where a temporal knowledge graph (TKG) spanning the same period can be fully used for answer inference, allowing the TKGQA models to use even the future knowledge to answer the questions based on the past facts. In real-world scenarios, however, it is also common that given the knowledge until now, we wish the TKGQA systems to answer the questions asking about the future. As humans constantly seek plans for the future, building TKGQA systems for answering such forecasting questions is important. Nevertheless, this has still been unexplored in previous research. In this paper, we propose a novel task: forecasting question answering over temporal knowledge graphs. We also propose a large-scale TKGQA benchmark dataset, i.e., ForecastTKGQuestions, for this task. It includes three types of questions, i.e., entity prediction, yes-no, and fact reasoning questions. For every forecasting question in our dataset, QA models can only have access to the TKG information before the timestamp annotated in the given question for answer inference. We find that the state-of-the-art TKGQA methods perform poorly on forecasting questions, and they are unable to answer yes-no questions and fact reasoning questions. To this end, we propose ForecastTKGQA, a TKGQA model that employs a TKG forecasting module for future inference, to answer all three types of questions. Experimental results show that ForecastTKGQA outperforms recent TKGQA methods on the entity prediction questions, and it also shows great effectiveness in answering the other two types of questions.
翻訳日:2022-08-16 12:57:43 公開日:2022-08-12
# usb: 半教師付き学習ベンチマーク

USB: A Unified Semi-supervised Learning Benchmark ( http://arxiv.org/abs/2208.07204v1 )

ライセンス: Link先を確認
Yidong Wang, Hao Chen, Yue Fan, Wang Sun, Ran Tao, Wenxin Hou, Renjie Wang, Linyi Yang, Zhi Zhou, Lan-Zhe Guo, Heli Qi, Zhen Wu, Yu-Feng Li, Satoshi Nakamura, Wei Ye, Marios Savvides, Bhiksha Raj, Takahiro Shinozaki, Bernt Schiele, Jindong Wang, Xing Xie, Yue Zhang(参考訳) semi-supervised learning (ssl) は、限定されたラベル付きサンプルを増強するために大量のラベルなしデータを活用することで、モデルの一般化を改善する。 しかし、現在一般的なSSL評価プロトコルはコンピュータビジョン(CV)タスクに制約されることが多い。 さらに、従来の研究は通常、時間を要する、環境にやさしい、ディープニューラルネットワークをスクラッチからトレーニングする。 以上の課題に対処するため,CV,自然言語処理(NLP),オーディオ処理(Audio)から15種類の多種多様なタスクを選択して,一貫したSSLベンチマーク(USB)を構築するとともに,これらのSSLメソッドを公平に評価するためのモジュールで拡張可能なコードベースをオープンソース化した。 さらに、CVタスクのための最先端ニューラルネットワークのトレーニング済みバージョンを提供し、さらなるチューニングのためにコストを安くする。 USBにより、複数のドメインからより多くのタスクに対して単一のSSLアルゴリズムを、低コストで評価することができる。 具体的には、単一のNVIDIA V100では、USBで15のタスクでFixMatchを評価するのに37日しか必要とせず、335のGPU日(ImageNet以外の4のCVデータセットで279日)は典型的なプロトコルで5のCVタスクで必要である。

Semi-supervised learning (SSL) improves model generalization by leveraging massive unlabeled data to augment limited labeled samples. However, currently, popular SSL evaluation protocols are often constrained to computer vision (CV) tasks. In addition, previous work typically trains deep neural networks from scratch, which is time-consuming and environmentally unfriendly. To address the above issues, we construct a Unified SSL Benchmark (USB) by selecting 15 diverse, challenging, and comprehensive tasks from CV, natural language processing (NLP), and audio processing (Audio), on which we systematically evaluate dominant SSL methods, and also open-source a modular and extensible codebase for fair evaluation on these SSL methods. We further provide pre-trained versions of the state-of-the-art neural models for CV tasks to make the cost affordable for further tuning. USB enables the evaluation of a single SSL algorithm on more tasks from multiple domains but with less cost. Specifically, on a single NVIDIA V100, only 37 GPU days are required to evaluate FixMatch on 15 tasks in USB while 335 GPU days (279 GPU days on 4 CV datasets except for ImageNet) are needed on 5 CV tasks with the typical protocol.
翻訳日:2022-08-16 12:55:49 公開日:2022-08-12
# 音声キャプションのための事前学習モデル選択に関する検討

An investigation on selecting audio pre-trained models for audio captioning ( http://arxiv.org/abs/2208.06127v1 )

ライセンス: Link先を確認
Peiran Yan and Shengchen Li(参考訳) 音声キャプションは、コンテンツに基づいて音声の説明を生成するタスクである。 事前訓練されたモデルは、高い複雑さのため、音声キャプションに広く使われている。 包括的システムが再訓練されない限り、事前訓練されたモデルが音声キャプションシステムにどの程度貢献するかを判断することは困難である。 再学習の時間的消費とエネルギー消費の過程を防止するためには、音声キャプションにおける事前学習モデルの性能の予測子を提案する必要がある。 本稿では,抽出音声特徴量と音声キャプション性能との相関関係について,事前学習モデルを用いて検討した。 実験結果に基づいて2つの予測器を提案し, 抽出した音声特徴の硬度と歪度は, オーディオ特徴の硬度と歪度と音響キャプションシステムの性能との相関が高いことから, 事前学習音声の音響キャプションシステムの性能の指標として機能することを示した。

Audio captioning is a task that generates description of audio based on content. Pre-trained models are widely used in audio captioning due to high complexity. Unless a comprehensive system is re-trained, it is hard to determine how well pre-trained models contribute to audio captioning system. To prevent the time consuming and energy consuming process of retraining, it is necessary to propose a preditor of performance for the pre-trained model in audio captioning. In this paper, a series of pre-trained models are investigated for the correlation between extracted audio features and the performance of audio captioning. A couple of predictor is proposed based on the experiment results.The result demonstrates that the kurtosis and skewness of audio features extracted may act as an indicator of the performance of audio captioning systems for pre-trained audio due to the high correlation between kurtosis and skewness of audio features and the performance of audio captioning systems.
翻訳日:2022-08-15 13:53:49 公開日:2022-08-12
# ALS: 線形システムのための拡張ラグランジアンスケッチ法

ALS: Augmented Lagrangian Sketching Methods for Linear Systems ( http://arxiv.org/abs/2208.06152v1 )

ライセンス: Link先を確認
Md Sarowar Morshed(参考訳) 我々は,一貫した線形系を解くために,Penalty Sketching(PS)とAugmented Lagrangian Sketching(ALS)の2つの基本的な確率的スケッチ技術を開発した。 提案手法は,ラグランジアンペナルティスケッチを導入し,Sketch & Project(SP)法の範囲を拡張し,一般化する。 そこで我々はSP法を特殊事例として回収し,さらに新しい確率的反復法を考案した。 提案手法におけるスケッチパラメータの変化により,Penalty Newton Descent, Penalty Kaczmarz, Penalty Stochastic Descent, Penalty Coordinate Descent, Penalty Gaussian Pursuit, Penalty Block Kaczmarzなどの新しい確率的手法を復元する。 さらに, ALS法は, Augmented Newton Descent, Augmented Kaczmarz, Augmented Stochastic Descent, Augmented Coordinate Descent, Augmented Gaussian Pursuit, Augmented Block Kaczmarzなどの新しい確率的手法を一つのフレームワークに合成する。 さらに,開発したPSおよびALSフレームワークを用いて,元の線形系を等価な確率的最適化問題,すなわちPinalty Stochastic ReformulationとAugmented Stochastic Reformulationに書き換えることができることを示す。 我々は,ps および als 法に対する大域収束率,および cesaro 平均イテレートに対する sub-linear $\mathcal{o}(\frac{1}{k})$ rate を証明した。 提案する収束結果は、ランダム行列の分布の幅広い族を対象とし、特定の用途に適した方法のランダム性を微調整する機会を提供する。 最後に,既存のsp法と比較して,提案手法の効率性を示す計算実験を行う。

We develop two fundamental stochastic sketching techniques; Penalty Sketching (PS) and Augmented Lagrangian Sketching (ALS) for solving consistent linear systems. The proposed PS and ALS techniques extend and generalize the scope of Sketch & Project (SP) method by introducing Lagrangian penalty sketches. In doing so, we recover SP methods as special cases and furthermore develop a family of new stochastic iterative methods. By varying sketch parameters in the proposed PS method, we recover novel stochastic methods such as Penalty Newton Descent, Penalty Kaczmarz, Penalty Stochastic Descent, Penalty Coordinate Descent, Penalty Gaussian Pursuit, and Penalty Block Kaczmarz. Furthermore, the proposed ALS method synthesizes a wide variety of new stochastic methods such as Augmented Newton Descent, Augmented Kaczmarz, Augmented Stochastic Descent, Augmented Coordinate Descent, Augmented Gaussian Pursuit, and Augmented Block Kaczmarz into one framework. Moreover, we show that the developed PS and ALS frameworks can be used to reformulate the original linear system into equivalent stochastic optimization problems namely the Penalty Stochastic Reformulation and Augmented Stochastic Reformulation. We prove global convergence rates for the PS and ALS methods as well as sub-linear $\mathcal{O}(\frac{1}{k})$ rates for the Cesaro average of iterates. The proposed convergence results hold for a wide family of distributions of random matrices, which provides the opportunity of fine-tuning the randomness of the method suitable for specific applications. Finally, we perform computational experiments that demonstrate the efficiency of our methods compared to the existing SP methods.
翻訳日:2022-08-15 13:53:32 公開日:2022-08-12
# DDX7:楽器音の微分FM合成

DDX7: Differentiable FM Synthesis of Musical Instrument Sounds ( http://arxiv.org/abs/2208.06169v1 )

ライセンス: Link先を確認
Franco Caspe, Andrew McPherson, Mark Sandler(参考訳) FM合成は、コンパクトな設計プリミティブから複雑な音色を生成するためによく知られたアルゴリズムである。 通常、MIDIインターフェースを特徴とするが、オーディオソースから制御するのは現実的ではない。 一方,差分可能なディジタル信号処理(DDSP)では,任意の音声入力から微分可能な合成層を制御することを学ぶディープニューラルネットワーク(DNN)によるニュアンスなオーディオレンダリングが可能になった。 トレーニングプロセスには、監視のための音声コーパスとスペクトル再構成損失関数が含まれる。 このような関数はスペクトル振幅によく一致するが、FMシンセサイザーのパラメータの合同最適化を妨げるピッチ方向の欠如を示す。 本稿では,音声入力から確立されたFM合成アーキテクチャの連続制御を実現するためのステップについて述べる。 まず、標準再構成損失による微分可能FMシンセサイザーのスペクトル最適化を容易にする一連の設計制約について論じる。 次に,DX7 (DDX7) について述べる。DX7は楽器の音響的FM再生のための軽量なアーキテクチャであり,パラメータのコンパクトな集合を考慮に入れたものである。 URMPデータセットから抽出した機器のサンプルに基づいてモデルをトレーニングし、選択したベンチマークに対して同等の音質を定量的に示す。

FM Synthesis is a well-known algorithm used to generate complex timbre from a compact set of design primitives. Typically featuring a MIDI interface, it is usually impractical to control it from an audio source. On the other hand, Differentiable Digital Signal Processing (DDSP) has enabled nuanced audio rendering by Deep Neural Networks (DNNs) that learn to control differentiable synthesis layers from arbitrary sound inputs. The training process involves a corpus of audio for supervision, and spectral reconstruction loss functions. Such functions, while being great to match spectral amplitudes, present a lack of pitch direction which can hinder the joint optimization of the parameters of FM synthesizers. In this paper, we take steps towards enabling continuous control of a well-established FM synthesis architecture from an audio input. Firstly, we discuss a set of design constraints that ease spectral optimization of a differentiable FM synthesizer via a standard reconstruction loss. Next, we present Differentiable DX7 (DDX7), a lightweight architecture for neural FM resynthesis of musical instrument sounds in terms of a compact set of parameters. We train the model on instrument samples extracted from the URMP dataset, and quantitatively demonstrate its comparable audio quality against selected benchmarks.
翻訳日:2022-08-15 13:52:58 公開日:2022-08-12
# 多モデル確率型プログラミング

Multi-Model Probabilistic Programming ( http://arxiv.org/abs/2208.06329v1 )

ライセンス: Link先を確認
Ryan Bernstein(参考訳) 確率的プログラミングは、プログラムとして確率的モデルを表現しやすくする。 しかし、個々のモデルを構築することは確率論的モデリングの一段階にすぎない。 確率的モデリングのより広い課題は、代替モデルの空間を理解し、ナビゲートすることである。 現在、それらの中心的な役割にもかかわらず、これらの代替モデルの空間を表現する良い方法がない。 本稿では,各プログラムが関連する確率モデルのネットワークを表現できる確率プログラミングの拡張を提案する。 我々は、これらの多モデル確率プログラムの形式的意味論、ネットワーク・オブ・モデル操作のための効率的なアルゴリズムの集合、そして人気のある確率的プログラミング言語 stan の上に構築された実装例を与える。 このネットワーク・オブ・モデル表現は、モデル空間における検索と自動化、モデル開発の追跡とコミュニケーション、pハックのような問題を緩和するための明確なモデリング自由度など、多くの扉を開く。 我々は,Stan実装を用いたモデル検索とモデル開発の自動追跡を実演し,さらに多くのアプリケーションを提案する。

Probabilistic programming makes it easy to represent a probabilistic model as a program. Building an individual model, however, is only one step of probabilistic modeling. The broader challenge of probabilistic modeling is in understanding and navigating spaces of alternative models. There is currently no good way to represent these spaces of alternative models, despite their central role. We present an extension of probabilistic programming that lets each program represent a network of interrelated probabilistic models. We give a formal semantics for these multi-model probabilistic programs, a collection of efficient algorithms for network-of-model operations, and an example implementation built on top of the popular probabilistic programming language Stan. This network-of-models representation opens many doors, including search and automation in model-space, tracking and communication of model development, and explicit modeler degrees of freedom to mitigate issues like p-hacking. We demonstrate automatic model search and model development tracking using our Stan implementation, and we propose many more possible applications.
翻訳日:2022-08-15 13:52:20 公開日:2022-08-12
# ゼロショット強化学習による低エミッション建築制御

Low Emission Building Control with Zero-Shot Reinforcement Learning ( http://arxiv.org/abs/2208.06385v1 )

ライセンス: Link先を確認
Scott R. Jeen, Alessandro Abate, Jonathan M. Cullen(参考訳) 建物内の暖房・冷却システムは、大域的エネルギー利用の31対%を占めており、そのほとんどはルール・ベース・コントローラ(rbcs)によって規制されており、グリッドと最適に相互作用することでエネルギー効率を最大化したり、排出を最小化することはない。 強化学習(RL)による制御は、建築エネルギー効率を大幅に改善することが示されているが、既存のソリューションでは、世界中の建物で期待できないような、建築固有のシミュレータやデータにアクセスする必要がある。 これに対し, ゼロショットビルディング制御と呼ばれるパラダイムを, 事前知識を必要とせずに, 排出削減政策を実現できることを示す。 我々は,PEARL(Probabilistic Emission-Abating Reinforcement Learning)の作成に,システム同定とモデルベースRLのアイデアを組み合わせて,短時間の積極的な探索が,パフォーマンスモデルを構築する上で必要であることを示す。 3種類のビルエネルギーシミュレーション実験において、PEARLは既存のRBCを1回以上上回り、すべてのケースでRLベースラインが人気であり、熱的快適さを維持しながら、ビルの排出を最大31倍削減することを示した。 ソースコードはhttps://enjeeneer.io/projects/pearl.com/で閲覧できます。

Heating and cooling systems in buildings account for 31\% of global energy use, much of which are regulated by Rule Based Controllers (RBCs) that neither maximise energy efficiency nor minimise emissions by interacting optimally with the grid. Control via Reinforcement Learning (RL) has been shown to significantly improve building energy efficiency, but existing solutions require access to building-specific simulators or data that cannot be expected for every building in the world. In response, we show it is possible to obtain emission-reducing policies without such knowledge a priori--a paradigm we call zero-shot building control. We combine ideas from system identification and model-based RL to create PEARL (Probabilistic Emission-Abating Reinforcement Learning) and show that a short period of active exploration is all that is required to build a performant model. In experiments across three varied building energy simulations, we show PEARL outperforms an existing RBC once, and popular RL baselines in all cases, reducing building emissions by as much as 31\% whilst maintaining thermal comfort. Our source code is available online via https://enjeeneer.io/projects/pearl .
翻訳日:2022-08-15 13:52:05 公開日:2022-08-12
# 集合的難読化とクラウドソーシング

Collective Obfuscation and Crowdsourcing ( http://arxiv.org/abs/2208.06405v1 )

ライセンス: Link先を確認
Benjamin Laufer, Niko A. Grupen(参考訳) クラウドソーシング技術は、意思決定に不可欠な情報を入力するために、人々のグループに依存している。 本研究は, 報告技術における難読化について考察する。 報告プラットフォームの普及は、ユニークなセキュリティとプライバシの影響を伴うことを示し、この分野の多くの攻撃ベクトルを概説する脅威モデルと対応する分類法を導入する。 次に、議論を呼んでいる現実世界のレポートホットラインからコールログのデータセットを実証分析し、プラットフォームの正当性を妨げることを目的とした、協調した難読化戦略を特定します。 我々は,この難読化戦略の強みを,我々のデータセットにおける報告攻撃の構造的および意味的特性に関して定量化する,様々な統計的尺度を提案する。

Crowdsourcing technologies rely on groups of people to input information that may be critical for decision-making. This work examines obfuscation in the context of reporting technologies. We show that widespread use of reporting platforms comes with unique security and privacy implications, and introduce a threat model and corresponding taxonomy to outline some of the many attack vectors in this space. We then perform an empirical analysis of a dataset of call logs from a controversial, real-world reporting hotline and identify coordinated obfuscation strategies that are intended to hinder the platform's legitimacy. We propose a variety of statistical measures to quantify the strength of this obfuscation strategy with respect to the structural and semantic characteristics of the reporting attacks in our dataset.
翻訳日:2022-08-15 13:51:44 公開日:2022-08-12
# 帰納的・解釈的テキスト分析のための図形的人間-Al協調

Scholastic: Graphical Human-Al Collaboration for Inductive and Interpretive Text Analysis ( http://arxiv.org/abs/2208.06133v1 )

ライセンス: Link先を確認
Matt-Heun Hong, Lauren A. Marsh, Jessica L. Feuston, Janet Ruppert, Jed R. Brubaker, Danielle Albers Szafir(参考訳) 解釈学者は、文書を手作業でサンプリングし、コードを適用し、意味のあるテーマが現れるまで、分類し、照合することで、テキストコーパスから知識を生み出す。 大きなコーパスが与えられると、機械学習はデータのサンプリングと分析をスケールするのに役立つが、以前の研究では、専門家が一般的にアルゴリズムが解釈的奨学金の破壊や推進を心配していることが示されている。 我々は,機械支援による解釈研究に関する懸念に対処するために,人間中心設計アプローチを取り上げ,scholasticを構築した。 学者が文書にコードを適用し、それらを洗練するにつれて、結果として得られるコーディングスキーマは、コーパスから推論された階層的なドキュメントとワードクラスタを制約する構造化メタデータとして機能する。 これらのクラスタのインタラクティブな視覚化は、研究者が文書を戦略的に分析するのに役立つ。 scholastic氏は、身近なメタファーを用いた人間中心のアルゴリズム設計と視覚化が、インタラクティブなトピックモデリングとドキュメントクラスタリングを通じて、帰納的および解釈的研究方法論をどのように支援できるかをデモしている。

Interpretive scholars generate knowledge from text corpora by manually sampling documents, applying codes, and refining and collating codes into categories until meaningful themes emerge. Given a large corpus, machine learning could help scale this data sampling and analysis, but prior research shows that experts are generally concerned about algorithms potentially disrupting or driving interpretive scholarship. We take a human-centered design approach to addressing concerns around machine-assisted interpretive research to build Scholastic, which incorporates a machine-in-the-loop clustering algorithm to scaffold interpretive text analysis. As a scholar applies codes to documents and refines them, the resulting coding schema serves as structured metadata which constrains hierarchical document and word clusters inferred from the corpus. Interactive visualizations of these clusters can help scholars strategically sample documents further toward insights. Scholastic demonstrates how human-centered algorithm design and visualizations employing familiar metaphors can support inductive and interpretive research methodologies through interactive topic modeling and document clustering.
翻訳日:2022-08-15 13:49:44 公開日:2022-08-12
# gsim:ヘテロジニアスグラフのためのグラフニューラルネットワークに基づく関連尺度

GSim: A Graph Neural Network based Relevance Measure for Heterogeneous Graphs ( http://arxiv.org/abs/2208.06144v1 )

ライセンス: Link先を確認
Linhao Luo, Yixiang Fang, Moli Lu, Xin Cao, Xiaofeng Zhang, Wenjie Zhang(参考訳) 複数のタイプのノードやエッジを含む不均一グラフは、書誌ネットワーク、ソーシャルメディア、知識グラフなど、さまざまな領域で広く使われている。 ヘテロジニアスグラフ解析の基本的な課題として,Web検索,レコメンデーション,コミュニティ検出などの多くのアプリケーションで使用されている,異なるタイプの2つのオブジェクト間の関連性を計算することを目的としている。 既存の関係測度のほとんどは、オブジェクトが同じタイプの同種ネットワークに焦点を合わせ、不均一グラフのためのいくつかの測度が開発されているが、しばしば事前に定義されたメタパスが必要である。 有意義なメタパスを定義するには、多くのドメイン知識が必要である。 近年,グラフニューラルネットワーク (GNN) は多くのグラフマイニングタスクに広く適用されているが,その関連性の測定には適用されていない。 上記の問題に対処するため、我々は新しいGNN関連尺度GSimを提案する。 具体的には、まず、GNNがグラフ内のノードの関連性を測定するのに有効であることを示す。 次に、異種グラフのセマンティクスを自動的に活用する文脈パスに基づくグラフニューラルネットワーク(CP-GNN)を提案する。 さらに、CP-GNNを用いて、任意のタイプの2つのオブジェクト間の関連性対策を支援する。 広範な実験により、gsimは既存の手段よりも優れていることが示されている。

Heterogeneous graphs, which contain nodes and edges of multiple types, are prevalent in various domains, including bibliographic networks, social media, and knowledge graphs. As a fundamental task in analyzing heterogeneous graphs, relevance measure aims to calculate the relevance between two objects of different types, which has been used in many applications such as web search, recommendation, and community detection. Most of existing relevance measures focus on homogeneous networks where objects are of the same type, and a few measures are developed for heterogeneous graphs, but they often need the pre-defined meta-path. Defining meaningful meta-paths requires much domain knowledge, which largely limits their applications, especially on schema-rich heterogeneous graphs like knowledge graphs. Recently, the Graph Neural Network (GNN) has been widely applied in many graph mining tasks, but it has not been applied for measuring relevance yet. To address the aforementioned problems, we propose a novel GNN-based relevance measure, namely GSim. Specifically, we first theoretically analyze and show that GNN is effective for measuring the relevance of nodes in the graph. We then propose a context path-based graph neural network (CP-GNN) to automatically leverage the semantics in heterogeneous graphs. Moreover, we exploit CP-GNN to support relevance measures between two objects of any type. Extensive experiments demonstrate that GSim outperforms existing measures.
翻訳日:2022-08-15 13:49:26 公開日:2022-08-12
# コンテクスト化ハイブリッドモデルによるランキングとキャリブレーションの協調最適化

Joint Optimization of Ranking and Calibration with Contextualized Hybrid Model ( http://arxiv.org/abs/2208.06164v1 )

ライセンス: Link先を確認
Xiang-Rong Sheng, Jingyue Gao, Yueyao Cheng, Siran Yang, Shuguang Han, Hongbo Deng, Yuning Jiang, Jian Xu, Bo Zheng(参考訳) ランク付け最適化手法の開発にもかかわらず、ポイントワイドモデルはクリックスルー率(CTR)予測の優位性を維持している。 予測はクリック確率と見なすことができるため、ポイントワイズモデルのキャリブレーション能力に起因する可能性がある。 実際には、CTR予測モデルは、ランキングの損失(例えば、ペアワイドまたはリストワイドの損失)に基づく予測モデルが通常ポイントワイドの損失よりも優れたパフォーマンスを達成するランキング能力で評価される。 これまでの研究では、両者の損失から利益を得るために2つの損失を直接組み合わせて実験し、性能が向上した。 しかし、以前の研究では、アウトプット・ロジットをクリックスルーレートとして意味付けしており、それが最適な解決策につながる可能性がある。 この問題に対処するため,我々はランキング・キャリブレーション能力(JRC)を簡易に最適化する手法を提案する。 JRCは、サンプルのロジット値を異なるラベルで対比することでランキング能力を向上し、ロジットサブトラクションの関数である予測確率を制約する。 さらに,JRCはロジットの解釈を強化し,ロジットが共同分布をモデル化していることを示す。 このような解釈により、JRCは文脈化されたハイブリッド識別・生成目的をほぼ最適化していることを示す。 パブリックデータセットと産業データセットとオンラインa/bテストの実験では,評価とキャリブレーションの両能力が改善されている。 2022年5月以降、JRCはAlibabaのディスプレイ広告プラットフォームに配備され、大幅な性能向上を実現している。

Despite the development of ranking optimization techniques, the pointwise model remains the dominating approach for click-through rate (CTR) prediction. It can be attributed to the calibration ability of the pointwise model since the prediction can be viewed as the click probability. In practice, a CTR prediction model is also commonly assessed with the ranking ability, for which prediction models based on ranking losses (e.g., pairwise or listwise loss) usually achieve better performances than the pointwise loss. Previous studies have experimented with a direct combination of the two losses to obtain the benefit from both losses and observed an improved performance. However, previous studies break the meaning of output logit as the click-through rate, which may lead to sub-optimal solutions. To address this issue, we propose an approach that can Jointly optimize the Ranking and Calibration abilities (JRC for short). JRC improves the ranking ability by contrasting the logit value for the sample with different labels and constrains the predicted probability to be a function of the logit subtraction. We further show that JRC consolidates the interpretation of logits, where the logits model the joint distribution. With such an interpretation, we prove that JRC approximately optimizes the contextualized hybrid discriminative-generative objective. Experiments on public and industrial datasets and online A/B testing show that our approach improves both ranking and calibration abilities. Since May 2022, JRC has been deployed on the display advertising platform of Alibaba and has obtained significant performance improvements.
翻訳日:2022-08-15 13:49:04 公開日:2022-08-12
# フェデレーション学習における知識蒸留に基づくバックドア攻撃

A Knowledge Distillation-Based Backdoor Attack in Federated Learning ( http://arxiv.org/abs/2208.06176v1 )

ライセンス: Link先を確認
Yifan Wang, Wei Fan, Keke Yang, Naji Alhusaini, Jing Li(参考訳) Federated Learning(FL)は、分散機械学習の新しいフレームワークである。 flの分散化機能のため、例えばバックドア攻撃など、トレーニング手順における敵の攻撃に対して脆弱である。 バックドア攻撃は、マシンラーニングモデルにバックドアを注入することで、特定のバックドアトリガでテストサンプル上で任意の不正な動作を行うようにする。 FLの様々なバックドア攻撃方法が導入されたが、それらに対する防御方法もある。 防御法の多くは、バックドアを持つモデルの異常特性や、バックドアを持つモデルと通常のモデルの違いを利用する。 これらの防御をバイパスするには、相違点と異常特性を減らす必要がある。 このような異常の原因は、データ中毒時にバックドア攻撃が直接データラベルをひっくり返すことである。 しかし、flにおけるバックドア攻撃の最近の研究は、主にバックドアモデルとレギュラーモデルの違いを減らすことに焦点を当てていない。 本稿では,flにおける知識蒸留とバックドア攻撃を組み合わせた手法であるadvkd(adversarial knowledge distillation)を提案する。 知識蒸留により, ラベルフリップによるモデル結果の異常特性を低減できるため, モデルが防御をバイパスできる。 現在の手法と比較して,ADVKDは攻撃成功率が高いだけでなく,他の手法が失敗しても防御を回避できることを示す。 そこで本研究では,ADVKDの性能が,異なるシナリオ下でのADVKDの性能に与える影響を検証した。 実験結果によると、異なるシナリオ下でのより良いパフォーマンスのためにパラメータを調整する方法を要約する。 また,様々な攻撃の効果を可視化し,advkdの有効性を説明するために複数の手法を用いた。

Federated Learning (FL) is a novel framework of decentralized machine learning. Due to the decentralized feature of FL, it is vulnerable to adversarial attacks in the training procedure, e.g. , backdoor attacks. A backdoor attack aims to inject a backdoor into the machine learning model such that the model will make arbitrarily incorrect behavior on the test sample with some specific backdoor trigger. Even though a range of backdoor attack methods of FL has been introduced, there are also methods defending against them. Many of the defending methods utilize the abnormal characteristics of the models with backdoor or the difference between the models with backdoor and the regular models. To bypass these defenses, we need to reduce the difference and the abnormal characteristics. We find a source of such abnormality is that backdoor attack would directly flip the label of data when poisoning the data. However, current studies of the backdoor attack in FL are not mainly focus on reducing the difference between the models with backdoor and the regular models. In this paper, we propose Adversarial Knowledge Distillation(ADVKD), a method combine knowledge distillation with backdoor attack in FL. With knowledge distillation, we can reduce the abnormal characteristics in model result from the label flipping, thus the model can bypass the defenses. Compared to current methods, we show that ADVKD can not only reach a higher attack success rate, but also successfully bypass the defenses when other methods fails. To further explore the performance of ADVKD, we test how the parameters affect the performance of ADVKD under different scenarios. According to the experiment result, we summarize how to adjust the parameter for better performance under different scenarios. We also use several methods to visualize the effect of different attack and explain the effectiveness of ADVKD.
翻訳日:2022-08-15 13:48:38 公開日:2022-08-12
# 量子スイッチによる非可逆性とクラスタリング量子観測性の測定

Measuring incompatibility and clustering quantum observables with a quantum switch ( http://arxiv.org/abs/2208.06210v1 )

ライセンス: Link先を確認
Ning Gao, Dantong Li, Anchit Mishra, Junchen Yan, Kyrylo Simonov, Giulio Chiribella(参考訳) 不整合可観測物の存在は量子力学の基礎であり、量子技術における貴重な資源である。 ここでは、相互固有空間外乱(med)と呼ばれる非可逆性の尺度を導入し、他の固有空間上の鋭い可観測性の測定によって引き起こされる外乱量を定量化する。 MEDは鋭い可観測物に対する不和性の忠実な測度であり、フォン・ノイマン測度の空間に関する計量を提供する。 量子スイッチと呼ばれる設定を用いて、測定結果を不確定な順序で動作させることで、効率的に推定することができる。 これらの機能のおかげで、MEDは相互互換性に基づいて量子計測デバイスをクラスタリングするなど、量子機械学習タスクで使用することができる。 我々は、未知のフォン・ノイマン測度をクラスタリングする教師なしアルゴリズムを提供することで、この応用を実証する。 我々のアルゴリズムは、ほぼ同じ測定コンテキストを共有する観測者のグループを特定するために、ノイズに対して堅牢である。

The existence of incompatible observables is a cornerstone of quantum mechanics and a valuable resource in quantum technologies. Here we introduce a measure of incompatibility, called the mutual eigenspace disturbance (MED), which quantifies the amount of disturbance induced by the measurement of a sharp observable on the eigenspaces of another. The MED is a faithful measure of incompatibility for sharp observables and provides a metric on the space of von Neumann measurements. It can be efficiently estimated by letting the measurements act in an indefinite order, using a setup known as the quantum switch. Thanks to these features, the MED can be used in quantum machine learning tasks, such as clustering quantum measurement devices based on their mutual compatibility. We demonstrate this application by providing an unsupervised algorithm that clusters unknown von Neumann measurements. Our algorithm is robust to noise can be used to identify groups of observers that share approximately the same measurement context.
翻訳日:2022-08-15 13:48:12 公開日:2022-08-12
# 古典的データを用いた古典と量子機械学習の学習分離の確立について

On establishing learning separations between classical and quantum machine learning with classical data ( http://arxiv.org/abs/2208.06339v1 )

ライセンス: Link先を確認
Casper Gyurik, Vedran Dunjko(参考訳) 長年の努力にもかかわらず、量子機械学習コミュニティは、古典的データの場合、ある種の暗号化に触発されたデータセットに対して量子学習の利点を示すことしかできなかった。 本稿では,量子学習アルゴリズムがどの古典的学習アルゴリズムよりも高速に学習できる学習問題を見つけるための課題について論じ,学習問題を特定する方法について検討する。 具体的には、この問題に関連する計算学習理論の主要な概念を考察し、定義の微妙な変化がいかに概念的に著しく異なるタスクを意味するかについて議論する。 さらに,より一般的かつ十分な条件(すなわち「チェックリスト」)の集合を蒸留し,古典的学習者と量子学習者の分離を示す学習問題に対して,既存の学習問題を証明可能な量子スピードアップを用いて検討する。 これらのチェックリストは、学習問題に対する量子スピードアップを証明するためのアプローチの合理化やボトルネックの解明を目的としている。 最後に,その応用例を説明するために,このアプローチのレンズを通して,学習問題(計算分離から構築された場合,あるいは量子実験から得られた場合)の潜在的分離の例を解析する。

Despite years of effort, the quantum machine learning community has only been able to show quantum learning advantages for certain contrived cryptography-inspired datasets in the case of classical data. In this note, we discuss the challenges of finding learning problems that quantum learning algorithms can learn much faster than any classical learning algorithm, and we study how to identify such learning problems. Specifically, we reflect on the main concepts in computational learning theory pertaining to this question, and we discuss how subtle changes in definitions can mean conceptually significantly different tasks, which can either lead to a separation or no separation at all. Moreover, we study existing learning problems with a provable quantum speedup to distill sets of more general and sufficient conditions (i.e., ``checklists'') for a learning problem to exhibit a separation between classical and quantum learners. These checklists are intended to streamline one's approach to proving quantum speedups for learning problems, or to elucidate bottlenecks. Finally, to illustrate its application, we analyze examples of potential separations (i.e., when the learning problem is build from computational separations, or when the data comes from a quantum experiment) through the lens of our approach.
翻訳日:2022-08-15 13:46:30 公開日:2022-08-12
# 人工知能を使ったプログラミングはどんなものか?

What is it like to program with artificial intelligence? ( http://arxiv.org/abs/2208.06213v1 )

ライセンス: Link先を確認
Advait Sarkar, Andrew D. Gordon, Carina Negreanu, Christian Poelitz, Sruti Srinivasa Ragavan, Ben Zorn(参考訳) OpenAIのcodexやDeepmindのAlphaCodeのような大規模な言語モデルは、自然言語で表されるさまざまな問題を解決するためにコードを生成することができる。 この技術はすでに、少なくとも1つの広く使用されているプログラミングエディタ拡張、GitHub Copilotで商用化されている。 本稿では,大規模言語モデル(LLM支援プログラミング)を用いたプログラミングが,プログラマ支援の事前概念化とどのように似ているかを検討する。 我々は、llm支援プログラミングの経験レポート、および事前ユーザビリティと設計研究について紹介する。 LLM支援プログラミングは, 検索と再利用によるコンパイル, ペアプログラミング, プログラミングのいくつかの特性を共有しているが, 技術的可能性と実践的経験に根本的な違いがある。 したがって、LCM支援プログラミングは、独自の特性と課題を持つ新しいプログラミング方法と見なされるべきである。 最後に,非専門家のエンドユーザープログラマがLLM支援ツールを使ってスプレッドシートのデータタスクを解くユーザスタディから考察する。 我々は、特にプログラミングの専門知識がほとんど、あるいは全くないユーザに対して、エンドユーザープログラミングに大規模言語モデルを適用する際の問題や研究の課題について論じる。

Large language models, such as OpenAI's codex and Deepmind's AlphaCode, can generate code to solve a variety of problems expressed in natural language. This technology has already been commercialised in at least one widely-used programming editor extension: GitHub Copilot. In this paper, we explore how programming with large language models (LLM-assisted programming) is similar to, and differs from, prior conceptualisations of programmer assistance. We draw upon publicly available experience reports of LLM-assisted programming, as well as prior usability and design studies. We find that while LLM-assisted programming shares some properties of compilation, pair programming, and programming via search and reuse, there are fundamental differences both in the technical possibilities as well as the practical experience. Thus, LLM-assisted programming ought to be viewed as a new way of programming with its own distinct properties and challenges. Finally, we draw upon observations from a user study in which non-expert end user programmers use LLM-assisted tools for solving data tasks in spreadsheets. We discuss the issues that might arise, and open research challenges, in applying large language models to end-user programming, particularly with users who have little or no programming expertise.
翻訳日:2022-08-15 13:43:49 公開日:2022-08-12
# 消費者選択における限界分布モデルの限界

The Limit of the Marginal Distribution Model in Consumer Choice ( http://arxiv.org/abs/2208.06115v1 )

ライセンス: Link先を確認
Yanqiu Ruan, Xiaobo Li, Karthyek Murthy, Karthik Natarajan(参考訳) 異なる種類の消費者が選択したデータを考えると、重要な課題は消費者の選択行動を記述し予測する擬似モデルを開発することである。 そのような選択モデルの一つは、選択データを説明するために選択肢のランダムユーティリティの限界分布の仕様のみを必要とする限界分布モデルである。 本稿では,選択確率の集合の正確なキャラクタリゼーションを考案し,各集合の集合の辺縁分布モデルにより一貫した表現が可能となる。 それらのユーティリティの限界分布に基づいて、代替案をグループ化できる可能性を示す。 (a) このモデルによる選択確率データの整合性検証は多項式時間で可能であり、 (b)最も近いフィットを見つけることは、混合整数凸プログラムを解くことにつながる。 その結果,辺縁分布モデルは,多項ロジットと比較してはるかに優れた表現力を提供し,ランダムユーティリティモデルに比べて計算性能が向上した。

Given data on choices made by consumers for different assortments, a key challenge is to develop parsimonious models that describe and predict consumer choice behavior. One such choice model is the marginal distribution model which requires only the specification of the marginal distributions of the random utilities of the alternatives to explain choice data. In this paper, we develop an exact characterisation of the set of choice probabilities which are representable by the marginal distribution model consistently across any collection of assortments. Allowing for the possibility of alternatives to be grouped based on the marginal distribution of their utilities, we show (a) verifying consistency of choice probability data with this model is possible in polynomial time and (b) finding the closest fit reduces to solving a mixed integer convex program. Our results show that the marginal distribution model provides much better representational power as compared to multinomial logit and much better computational performance as compared to the random utility model.
翻訳日:2022-08-15 13:43:27 公開日:2022-08-12
# サブサンプリングアルゴリズムによる外乱防止

A sub-sampling algorithm preventing outliers ( http://arxiv.org/abs/2208.06218v1 )

ライセンス: Link先を確認
L. Deldossi and E. Pesce and C. Tommasi(参考訳) 現在、多くの分野において、大量のデータが利用可能であり、いくつかの理由から、データのサブセットだけを分析するのが便利である。 D-最適基準の適用は、観測のサブサンプルを最適に選択するのに有用である。 しかし、D-最適支持点が設計空間の境界上にあることはよく知られており、極端な応答値に手を加えれば、推定された線形モデル(高い影響を持つ平均点)に深刻な影響を与える。 この問題を克服するために,まず,高いレバレッジ値を持たずに観測のほぼd-最適部分集合を選択できる教師なし交換手順を提案する。 そして、この交換手順の教師付きバージョンを提供し、高レバレッジポイントに加えて、応答(高レバレッジポイントに関連付けられていない)の外れ値も避ける。 これは、他の設計状況とは異なり、big datasetからのサブサンプリングではレスポンス値が利用できるため可能である。 最後に、教師なし選択手順と教師なし選択手順の両方をi-optimalityに一般化し、正確な予測を得る。

Nowadays, in many different fields, massive data are available and for several reasons, it might be convenient to analyze just a subset of the data. The application of the D-optimality criterion can be helpful to optimally select a subsample of observations. However, it is well known that D-optimal support points lie on the boundary of the design space and if they go hand in hand with extreme response values, they can have a severe influence on the estimated linear model (leverage points with high influence). To overcome this problem, firstly, we propose an unsupervised exchange procedure that enables us to select a nearly D-optimal subset of observations without high leverage values. Then, we provide a supervised version of this exchange procedure, where besides high leverage points also the outliers in the responses (that are not associated to high leverage points) are avoided. This is possible because, unlike other design situations, in subsampling from big datasets the response values may be available. Finally, both the unsupervised and the supervised selection procedures are generalized to I-optimality, with the goal of getting accurate predictions.
翻訳日:2022-08-15 13:43:12 公開日:2022-08-12
# 3次元同変グラフ翻訳における条件付き抗体設計

Conditional Antibody Design as 3D Equivariant Graph Translation ( http://arxiv.org/abs/2208.06073v1 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 抗体設計は治療用および生物学的研究に有用である。 既存のディープラーニングベースの手法は、いくつかの重要な問題に遭遇する。 1) 相補性決定領域(cdr)生成の不完全コンテキスト 2) 入力構造の3次元形状全体を取得することができない。 3) 自己回帰的にCDR配列の非効率な予測を行う。 本稿では,CDRの1次元配列と3次元構造を共設計可能なエンドツーエンドモデルであるMulti- Channel Equivariant Attention Network (MEAN)を提案する。 具体的には、ターゲット抗原及び抗体の軽鎖を含む余分な成分を輸入することにより、条件付きグラフ翻訳問題として抗体設計を行う。 次にMEANは、E(3)-同変メッセージパッシングと、異なるコンポーネント間の幾何学的相関をよりよく捉えるための注意機構を提案する。 最後に、複数ラウンドのプログレッシブフルショットスキームにより、1Dシーケンスと3D構造の両方を出力し、従来の自己回帰アプローチよりも効率がよい。 本手法は, 配列および構造モデリング, 抗原結合抗体設計, 結合親和性最適化における最先端モデルを大幅に超えている。 特に、ベースラインに対する相対的な改善は、抗原結合性CDR設計の22%、親和性最適化の34%である。

Antibody design is valuable for therapeutic usage and biological research. Existing deep-learning-based methods encounter several key issues: 1) incomplete context for Complementarity-Determining Regions (CDRs) generation; 2) incapable of capturing the entire 3D geometry of the input structure; 3) inefficient prediction of the CDR sequences in an autoregressive manner. In this paper, we propose Multi-channel Equivariant Attention Network (MEAN), an end-to-end model that is able to co-design 1D sequences and 3D structures of CDRs. To be specific, MEAN formulates antibody design as a conditional graph translation problem by importing extra components including the target antigen and the light chain of the antibody. Then, MEAN resorts to E(3)-equivariant message passing along with a proposed attention mechanism to better capture the geometrical correlation between different components. Finally, it outputs both the 1D sequences and 3D structure via a multi-round progressive full-shot scheme, which enjoys more efficiency against previous autoregressive approaches. Our method significantly surpasses state-of-the-art models in sequence and structure modeling, antigen-binding antibody design, and binding affinity optimization. Specifically, the relative improvement to baselines is about 22% in antigen-binding CDR design and 34% for affinity optimization.
翻訳日:2022-08-15 13:42:25 公開日:2022-08-12
# セクションインジェクションによるマルウェア分類の無効化について

On deceiving malware classification with section injection ( http://arxiv.org/abs/2208.06092v1 )

ライセンス: Link先を確認
Adeilson Antonio da Silva and Mauricio Pamplona Segundo(参考訳) マルウェア分類システムを騙すために,実行ファイルの修正方法を検討する。 この研究の主な貢献は、マルウェアファイルにランダムにバイトを注入し、分類精度を低下させる攻撃として使う方法と、トレーニングで利用可能なデータを強化する防御方法の両方を使う方法である。 オペレーティングシステムのファイルフォーマットを尊重し、インジェクション後にマルウェアが実行され、動作が変更されないことを保証します。 我々は,GIST+KNN,CNNの3変種,Gated CNNの5つの最新のマルウェア分類手法を再現し,インジェクション方式の評価を行った。 25の異なる家系の9,339のマルウェアサンプルを用いた公開データセットで実験を行った。 以上の結果から, マルウェアサイズが7%増加しただけで, マルウェアファミリー分類では25%から40%の精度低下がみられた。 彼らは、自動マルウェア分類システムは、文献で最初に報告されたほど信頼できないかもしれないことを示した。 また、修正されたマルウェアを元のマルウェアと併用することで、前述の攻撃に対するネットワークの堅牢性を高めることも評価した。 以上の結果から,マルウェアの並べ替えとランダムなデータ注入の組み合わせにより,分類の全体的な性能が向上することが示唆された。 コードはhttps://github.com/adeilsonsilva/malware-injectionで利用可能。

We investigate how to modify executable files to deceive malware classification systems. This work's main contribution is a methodology to inject bytes across a malware file randomly and use it both as an attack to decrease classification accuracy but also as a defensive method, augmenting the data available for training. It respects the operating system file format to make sure the malware will still execute after our injection and will not change its behavior. We reproduced five state-of-the-art malware classification approaches to evaluate our injection scheme: one based on GIST+KNN, three CNN variations and one Gated CNN. We performed our experiments on a public dataset with 9,339 malware samples from 25 different families. Our results show that a mere increase of 7% in the malware size causes an accuracy drop between 25% and 40% for malware family classification. They show that a automatic malware classification system may not be as trustworthy as initially reported in the literature. We also evaluate using modified malwares alongside the original ones to increase networks robustness against mentioned attacks. Results show that a combination of reordering malware sections and injecting random data can improve overall performance of the classification. Code available at https://github.com/adeilsonsilva/malware-injection.
翻訳日:2022-08-15 13:42:06 公開日:2022-08-12
# 拡張性と分散性を考慮したプライバシー保護型K平均クラスタリングとフラッド検出への応用

Scalable and Sparsity-Aware Privacy-Preserving K-means Clustering with Application to Fraud Detection ( http://arxiv.org/abs/2208.06093v1 )

ライセンス: Link先を確認
Yingting Liu, Chaochao Chen, Jamie Cui, Li Wang, Lei Wang(参考訳) K平均は、実際に最も広く使われているクラスタリングモデルの一つである。 データ分離の問題と高いモデル性能の要件により、複数のパーティで実践的でセキュアなk-meanを共同構築する方法が、業界における多くのアプリケーションにとって重要なトピックとなっている。 既存の作業は主に2つのタイプから成っている。 最初のタイプは効率上の利点があるが、情報漏洩は潜在的なプライバシーリスクを引き起こす。 第2のタイプはセキュアだが、大規模なデータスパーシティシナリオでは非効率であり、無力である。 本稿では,3つの特徴を持つ効率的な空間認識型K平均の枠組みを提案する。 まず、当社のフレームワークは、データ非依存のオフラインフェーズと、はるかに高速なオンラインフェーズに分割されます。 第2に、オンラインとオフラインの両方のフェーズでベクトル化技術を利用する。 第3に,データ分散シナリオにスパース行列乗法を適用して効率を向上する。 3つの合成データセットに関する包括的な実験を行い,実世界の不正検出タスクにモデルをデプロイする。 実験結果から,本モデルは最先端のソリューションと比較して,実行時間と通信サイズ,特にスパースデータセットにおいて競争性能が向上することが示された。

K-means is one of the most widely used clustering models in practice. Due to the problem of data isolation and the requirement for high model performance, how to jointly build practical and secure K-means for multiple parties has become an important topic for many applications in the industry. Existing work on this is mainly of two types. The first type has efficiency advantages, but information leakage raises potential privacy risks. The second type is provable secure but is inefficient and even helpless for the large-scale data sparsity scenario. In this paper, we propose a new framework for efficient sparsity-aware K-means with three characteristics. First, our framework is divided into a data-independent offline phase and a much faster online phase, and the offline phase allows to pre-compute almost all cryptographic operations. Second, we take advantage of the vectorization techniques in both online and offline phases. Third, we adopt a sparse matrix multiplication for the data sparsity scenario to improve efficiency further. We conduct comprehensive experiments on three synthetic datasets and deploy our model in a real-world fraud detection task. Our experimental results show that, compared with the state-of-the-art solution, our model achieves competitive performance in terms of both running time and communication size, especially on sparse datasets.
翻訳日:2022-08-15 13:41:48 公開日:2022-08-12
# 圧縮通信を用いた高速ブロックチェーン型フェデレーション学習フレームワーク

A Fast Blockchain-based Federated Learning Framework with Compressed Communications ( http://arxiv.org/abs/2208.06095v1 )

ライセンス: Link先を確認
Laizhong Cui, Xiaoxin Su, Yipeng Zhou(参考訳) 近年、ブロックチェーンベースのフェデレーションラーニング(BFL)は、トレーニングプロセスが監査可能であり、バニラフェデレーションラーニング(VFL)におけるパラメータサーバの単一ポイント障害を回避するために、アーキテクチャがサーバレスであることから、研究の注目を集めている。 しかしながら、BFLクライアントが取得したすべてのローカルモデル更新(すなわちモデルパラメータの変更)が、検証のためにすべてのマイナーに送信され、集約のためにすべてのクライアントに送信されるため、通信トラフィック量は著しく増大する。 対照的に、VFLのパラメータサーバとクライアントは集約されたモデル更新のみを保持する。 このため、BFLの膨大な通信トラフィックは、必然的に訓練効率を損なうことになり、実際のBFLの展開を妨げることになる。 BFLの実用性を改善するために,BCFLと呼ばれるBFLにおける通信を圧縮することで,ブロックチェーンによる高速なコミュニケーション効率のフェデレーション学習フレームワークを提案する。 一方,非凸損失を伴うBCFLの収束率を導出する。 最終モデルの精度を最大化するため、二凸最適化問題である圧縮率及びブロック生成率に関して、制限された訓練時間に対する収束率の訓練損失を最小化し、効率的に解くための問題を更に定式化する。 最終的に、BCFLの効率を実証するため、標準CIFAR-10およびFEMNISTデータセットを用いて広範な実験を行った。 実験の結果,BFLがBFLと比較して通信トラフィックを95~98%減らしたり,トレーニング時間を90~95%短縮できることがわかった。

Recently, blockchain-based federated learning (BFL) has attracted intensive research attention due to that the training process is auditable and the architecture is serverless avoiding the single point failure of the parameter server in vanilla federated learning (VFL). Nevertheless, BFL tremendously escalates the communication traffic volume because all local model updates (i.e., changes of model parameters) obtained by BFL clients will be transmitted to all miners for verification and to all clients for aggregation. In contrast, the parameter server and clients in VFL only retain aggregated model updates. Consequently, the huge communication traffic in BFL will inevitably impair the training efficiency and hinder the deployment of BFL in reality. To improve the practicality of BFL, we are among the first to propose a fast blockchain-based communication-efficient federated learning framework by compressing communications in BFL, called BCFL. Meanwhile, we derive the convergence rate of BCFL with non-convex loss. To maximize the final model accuracy, we further formulate the problem to minimize the training loss of the convergence rate subject to a limited training time with respect to the compression rate and the block generation rate, which is a bi-convex optimization problem and can be efficiently solved. To the end, to demonstrate the efficiency of BCFL, we carry out extensive experiments with standard CIFAR-10 and FEMNIST datasets. Our experimental results not only verify the correctness of our analysis, but also manifest that BCFL can remarkably reduce the communication traffic by 95-98% or shorten the training time by 90-95% compared with BFL.
翻訳日:2022-08-15 13:41:28 公開日:2022-08-12
# n:mスパーストランスフォーマーを高速化するアルゴリズムハードウェア共最適化フレームワーク

An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers ( http://arxiv.org/abs/2208.06118v1 )

ライセンス: Link先を確認
Chao Fang, Aojun Zhou, Zhongfeng Wang(参考訳) Transformerは深層学習において不可欠である。 しかし,実生活アプリケーションでは,モデルのパラメータや操作が多すぎるため,効率的なトランスフォーマーの展開は極めて困難である。 この負担を軽減するために、トランスフォーマーを加速する効果的なアプローチとして、疎結合を利用する。 新しいAmpere GPUはモデルアクセラレーションを達成するために2:4のスパーシティパターンを利用するが、モデルをデプロイする際の多様なアルゴリズムとハードウェアの制約を満たすことはほとんどない。 対照的に、一般的なN:M空間パターンを利用して、トランスフォーマーを柔軟かつ効率的に高速化するアルゴリズムハードウェア協調最適化フレームワークを提案する。 1) アルゴリズムの観点から, 連続N:Mスパース候補変換器を高速に得るために, 継承された動的プルーニング(IDP)法とともに, スパーシティ継承機構を提案する。 さらに, モデル圧縮方式を提案し, 展開に必要な記憶容量を大幅に削減する。 2) ハードウェアの観点から,N:Mスパーストランスフォーマーをデプロイする際の大幅な高速化を実現するため,フレキシブルで効率的なハードウェアアーキテクチャであるSTAを提案する。 STAはスパース密度および密度密度行列の乗算を高い計算効率で統一するだけでなく、中間チップオフチップデータ通信から遅延を除去するスケーラブルなソフトマックスモジュールも備えている。 実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。 さらに、STAはIntel i9-9900XとNVIDIA RTX 2080 Tiと比較して14.47xと11.33xのスピードアップを達成でき、トランスフォーマーの最先端FPGAベースのアクセラレータよりも2.00-19.47x高速推論を行うことができる。

The Transformer has been an indispensable staple in deep learning. However, for real-life applications, it is very challenging to deploy efficient Transformers due to immense parameters and operations of models. To relieve this burden, exploiting sparsity is an effective approach to accelerate Transformers. Newly emerging Ampere GPUs leverage a 2:4 sparsity pattern to achieve model acceleration, while it can hardly meet the diverse algorithm and hardware constraints when deploying models. By contrast, we propose an algorithm-hardware co-optimized framework to flexibly and efficiently accelerate Transformers by utilizing general N:M sparsity patterns. (1) From algorithm perspective, we propose a sparsity inheritance mechanism along with an inherited dynamic pruning (IDP) method to obtain a series of N:M sparse candidate Transformers rapidly. A model compression scheme is further proposed to significantly reduce the storage requirement for deployment. (2) From hardware perspective, we present a flexible and efficient hardware architecture, namely STA, to achieve significant speedup when deploying N:M sparse Transformers. STA features not only a computing engine unifying both sparse-dense and dense-dense matrix multiplications with high computational efficiency but also a scalable softmax module eliminating the latency from intermediate off-chip data communication. Experimental results show that compared to other methods, N:M sparse Transformers, generated using IDP, achieves an average of 6.7% improvement on accuracy with high training efficiency. Moreover, STA can achieve 14.47x and 11.33x speedup compared to Intel i9-9900X and NVIDIA RTX 2080 Ti, respectively, and perform 2.00-19.47x faster inference than the state-of-the-art FPGA-based accelerators for Transformers.
翻訳日:2022-08-15 13:41:00 公開日:2022-08-12
# 分散粒子群最適化による実用的2次潜在因子モデル

A Practical Second-order Latent Factor Model via Distributed Particle Swarm Optimization ( http://arxiv.org/abs/2208.06125v1 )

ライセンス: Link先を確認
Jialiang Wang and Yurong Zhong and Weiling Li(参考訳) 低ランク行列近似による高次元・スパース(HiDS)データの表現にはLFモデルが有効である。 hessian-free (hf) 最適化は、lfモデルの目的関数の2次情報を利用する効率的な手法であり、slfモデルの最適化に利用されている。 しかしながら、slfモデルの低ランク表現能力は、その多重ハイパーパラメータに大きく依存する。 これらのハイパーパラメータを決定するのは時間がかかり、slfモデルの実用性が大幅に低下する。 この問題に対処するため,本研究では実用的SLF(PSLF)モデルを提案する。 分散粒子群最適化器(DPSO)による超パラメータ自己適応を実現する。 実HiDSデータセットの実験は、PSLFモデルがデータ表現能力の最先端モデルに対して競争上の優位性を持っていることを示している。

Latent Factor (LF) models are effective in representing high-dimension and sparse (HiDS) data via low-rank matrices approximation. Hessian-free (HF) optimization is an efficient method to utilizing second-order information of an LF model's objective function and it has been utilized to optimize second-order LF (SLF) model. However, the low-rank representation ability of a SLF model heavily relies on its multiple hyperparameters. Determining these hyperparameters is time-consuming and it largely reduces the practicability of an SLF model. To address this issue, a practical SLF (PSLF) model is proposed in this work. It realizes hyperparameter self-adaptation with a distributed particle swarm optimizer (DPSO), which is gradient-free and parallelized. Experiments on real HiDS data sets indicate that PSLF model has a competitive advantage over state-of-the-art models in data representation ability.
翻訳日:2022-08-15 13:37:23 公開日:2022-08-12
# 因果推論の新しい理論としての確率的変分因果効果

Probabilistic Variational Causal Effect as A new Theory for Causal Reasoning ( http://arxiv.org/abs/2208.06269v1 )

ライセンス: Link先を確認
Usef Faghihi, Amir Saki(参考訳) 本稿では,確率的および非確率的問題に対処できる新しい因果的枠組みを提案する。 実際、確率的偏差因果効果 (Probabilistic vAriational Causal Effect, PACE) という式を提供する。 因果効果の式は確率論と統合された関数の総変分という考え方を用いる。 PACE は確率的である度合いを決定するパラメータ $d$ を持つ。 $d$の低い値は、まれなケースが重要であるシナリオを参照してください。 対照的に、$d$のより高い値とは異なり、我々のモデルは本質的に確率的な問題を扱う。 したがって、因果効果の単一の値の代わりに$d$を離散化することで因果効果ベクトルを提供する。 また,因果推論における反事実計算の問題にも対処する。 我々は,本モデルとパールモデル,相互情報モデル,条件付き相互情報モデル,およびJanzing et al.モデルを比較し,いくつかの事例について考察する。

In this paper, we introduce a new causal framework capable of dealing with probabilistic and non-probabilistic problems. Indeed, we provide a formula called Probabilistic vAriational Causal Effect (PACE). Our formula of causal effect uses the idea of total variation of a function integrated with probability theory. PACE has a parameter $d$ determining the degree of being probabilistic. The lower values of $d$ refer to the scenarios that rare cases are important. In contrast, with the higher values of $d$, our model deals with the problems that are in nature probabilistic. Hence, instead of a single value for causal effect, we provide a causal effect vector by discretizing $d$. We also address the problem of computing counterfactuals in causal reasoning. We compare our model to the Pearl model, the mutual information model, the conditional mutual information model, and the Janzing et al. model by investigating several examples.
翻訳日:2022-08-15 13:37:08 公開日:2022-08-12
# NLP技術を用いた非公式ドキュメンテーションに基づくAPIのコード要約に向けて

Towards Code Summarization of APIs Based on Unofficial Documentation Using NLP Techniques ( http://arxiv.org/abs/2208.06318v1 )

ライセンス: Link先を確認
AmirHossein Naghshzan(参考訳) 各プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントが付属している。 しかし、いくつかのケースでは、公式ドキュメントは必要な情報を得るための効率的な方法ではない。 結果として、開発者は他のソース(Stack OverflowやGitHubなど)を参照して、API、実装、使用方法、公式ドキュメントが提供できない可能性のある他の情報などを学ぶことができる。 本研究では,NLP技術を用いた非公式なドキュメンテーションを利用して,APIやメソッドの要約を生成する手法を提案する。 この結果から, 生成した要約は競争力があり, ソフトウェア開発やメンテナンスタスクにおいて, 開発者を導くための補完的情報源として利用できることがわかった。

Each programming language comes with official documentation to guide developers with APIs, methods and classes. However, in some cases, official documentation is not an efficient way to get the needed information. As a result, developers may consult other sources (e.g., Stack Overflow, GitHub) to learn more about an API, its implementation, usage, and other information that official documentation may not provide. In this research, we propose an automatic approach to generate summaries for APIs and methods by leveraging unofficial documentation using NLP techniques. Our findings demonstrate that the generated summaries are competitive, and can be used as a complementary source for guiding developers in software development and maintenance tasks.
翻訳日:2022-08-15 13:36:57 公開日:2022-08-12
# 自律的インテリジェントソフトウェア開発

Autonomous Intelligent Software Development ( http://arxiv.org/abs/2208.06393v1 )

ライセンス: Link先を確認
Mark Alan Matties(参考訳) ソフトウェアをスクラッチから開発する自律型インテリジェント開発者エージェントであるAIDAの設計と最初の概念実証の実装について概説する。 AIDAは、ソフトウェア要件仕様を採用し、セマンティックナレッジグラフに対する推論を使用して、要求を解釈し、それを満たすためにソフトウェアを設計し、記述する。 AIDAは、データ、アルゴリズム、コードのコアドメインにおける宣言的および手続き的知識に加えて、いくつかの一般的な知識を使用する。 推論コードベースは、この知識を使って必要なコンポーネントを特定し、ソフトウェアとなる必要な情報構造を設計し構築する。 これらの構造、モチベーション要件、そして結果として得られるソースコードは、すべて知識グラフに追加される新しい知識であり、将来の推論のために利用できるようになる。 このようにして、AIDAはコードを書きながら学習し、その後のコードを書くときにより効率的になる。

We present an overview of the design and first proof-of-concept implementation for AIDA, an autonomous intelligent developer agent that develops software from scratch. AIDA takes a software requirements specification and uses reasoning over a semantic knowledge graph to interpret the requirements, then designs and writes software to satisfy them. AIDA uses both declarative and procedural knowledge in the core domains of data, algorithms, and code, plus some general knowledge. The reasoning codebase uses this knowledge to identify needed components, then designs and builds the necessary information structures around them that become the software. These structures, the motivating requirements, and the resulting source code itself are all new knowledge that are added to the knowledge graph, becoming available for future reasoning. In this way, AIDA also learns as she writes code and becomes more efficient when writing subsequent code.
翻訳日:2022-08-15 13:36:47 公開日:2022-08-12
# tbi-gan : 外傷性脳分節データ合成のための逆学習法

TBI-GAN: An Adversarial Learning Approach for Data Synthesis on Traumatic Brain Segmentation ( http://arxiv.org/abs/2208.06099v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Di Zang, Sheng Wang, Zhenrong Shen, Kai Xuan, Zeyu Wei, Zhe Wang, Ruizhe Zheng, Xuehai Wu, Zheren Li, Qian Wang, Zengxin Qi, and Lichi Zhang(参考訳) 外傷性脳損傷(TBI)患者の脳ネットワーク解析は、特定の意識関連脳領域の分節を必要とする意識レベル評価と予後評価に重要である。 しかし,手動で診断したTBI患者のMRスキャンは収集が困難であるため,TBIセグメンテーションモデルの構築は困難である。 データ拡張技術は、データの不足の問題を軽減するために応用できる。 しかし、空間的および強度的変換のような従来のデータ拡張戦略では、外傷性脳の変形や病変を模倣できないため、その後のセグメンテーションタスクの性能が制限される。 これらの課題に対処するため,TBI-GANと呼ばれる新しい医用画像塗布モデルを提案し,TBI MRスキャンを2つの脳ラベルマップで合成する。 TBI-GAN法の主な強みは,TBI画像と対応するラベルマップを同時に生成できることである。 まず,粗い形状のエッジ情報に基づいて,まずインペイント画像を生成し,次にラベルインペイントの先行として,合成されたインテンシティ画像を使用する。 さらに,合成画像ペアの多様性を高め,データ拡張能力を高めるために,登録ベースのテンプレート拡張パイプラインを導入する。 実験結果から,TBI-GAN法では,高画質かつ有効なラベルマップを用いた十分な合成TBI画像が得られ,他の方法と比較して2次元および3次元の外傷性脳セグメンテーション性能が大幅に向上することが示唆された。

Brain network analysis for traumatic brain injury (TBI) patients is critical for its consciousness level assessment and prognosis evaluation, which requires the segmentation of certain consciousness-related brain regions. However, it is difficult to construct a TBI segmentation model as manually annotated MR scans of TBI patients are hard to collect. Data augmentation techniques can be applied to alleviate the issue of data scarcity. However, conventional data augmentation strategies such as spatial and intensity transformation are unable to mimic the deformation and lesions in traumatic brains, which limits the performance of the subsequent segmentation task. To address these issues, we propose a novel medical image inpainting model named TBI-GAN to synthesize TBI MR scans with paired brain label maps. The main strength of our TBI-GAN method is that it can generate TBI images and corresponding label maps simultaneously, which has not been achieved in the previous inpainting methods for medical images. We first generate the inpainted image under the guidance of edge information following a coarse-to-fine manner, and then the synthesized intensity image is used as the prior for label inpainting. Furthermore, we introduce a registration-based template augmentation pipeline to increase the diversity of the synthesized image pairs and enhance the capacity of data augmentation. Experimental results show that the proposed TBI-GAN method can produce sufficient synthesized TBI images with high quality and valid label maps, which can greatly improve the 2D and 3D traumatic brain segmentation performance compared with the alternatives.
翻訳日:2022-08-15 13:36:12 公開日:2022-08-12
# MAIScope:遠隔地における病気の顕微鏡診断を自動化する視覚AIを内蔵した安価なポータブル顕微鏡

MAIScope: A low-cost portable microscope with built-in vision AI to automate microscopic diagnosis of diseases in remote rural settings ( http://arxiv.org/abs/2208.06114v1 )

ライセンス: Link先を確認
Rohan Sangameswaran(参考訳) 世界保健機関(WHO)によると、マラリアは2020年だけで62万7000人が死亡し、2億2100万人以上が感染したと推定されている。 血液細胞の顕微鏡診断は、マラリアを診断するための標準的な検査方法である。 しかし、この診断様式は高価で時間がかかり、特に高品質の顕微鏡検査を行うための訓練された人材が不足している発展途上国において、人為的ミスに非常に主観的である。 本稿では,顕微鏡画像の撮影と組込み型AIによるマラリア寄生虫の自動検出が可能な,新しい低コストポータブルデバイスであるMass-AI-Scopeを提案する。 デバイスには2つのサブシステムがある。 最初のサブシステムはデバイス上の多層深層学習ネットワークで、顕微鏡画像から赤血球(RBC)を検出し、続いて個々のRBCのマラリア原虫を認識するマラリア原虫分類器が続く。 テストと検証では、分類に89.9%、検出モデルに61.5%がtensorflow liteを使用しており、ストレージと計算能力に制限があった。 このシステムはクラウド同期も備えており、分析とモデル改善のためにインターネットに接続された際にクラウドに画像を送信する。 第2のサブシステムは、Raspberry Pi、カメラ、タッチスクリーンディスプレイ、革新的な低コストのビーズ顕微鏡などのコンポーネントで構成されるハードウェアである。 ビーズ顕微鏡の評価は高価な光顕微鏡と同様の画質を示した。 このデバイスはポータブルで、インターネットや電力なしでリモート環境で動作するように設計されている。 このソリューションは顕微鏡を必要とする他の病気にも拡張可能であり、発展途上国の農村部における疾患診断の自動化の標準化に役立つ。

According to the World Health Organization(WHO), malaria is estimated to have killed 627,000 people and infected over 241 million people in 2020 alone, a 12% increase from 2019. Microscopic diagnosis of blood cells is the standard testing procedure to diagnose malaria. However, this style of diagnosis is expensive, time-consuming, and greatly subjective to human error, especially in developing nations that lack well-trained personnel to perform high-quality microscopy examinations. This paper proposes Mass-AI-Scope (MAIScope): a novel, low-cost, portable device that can take microscopic images and automatically detect malaria parasites with embedded AI. The device has two subsystems. The first subsystem is an on-device multi-layered deep learning network, that detects red blood cells (RBCs) from microscopic images, followed by a malaria parasite classifier that recognizes malaria parasites in the individual RBCs. The testing and validation demonstrated a high average accuracy of 89.9% for classification and average precision of 61.5% for detection models using TensorFlow Lite while addressing limited storage and computational capacity. This system also has cloud synchronization, which sends images to the cloud when connected to the Internet for analysis and model improvement purposes. The second subsystem is the hardware which consists of components like Raspberry Pi, a camera, a touch screen display, and an innovative low-cost bead microscope. Evaluation of the bead microscope demonstrated similar image quality with that of expensive light microscopes. The device is designed to be portable and work in remote environments without the Internet or power. The solution is extensible to other diseases requiring microscopy and can help standardize automation of disease diagnosis in rural parts of developing nations.
翻訳日:2022-08-15 13:35:44 公開日:2022-08-12
# スケールフリーフォトリアリスティックな逆パターン攻撃

Scale-free Photo-realistic Adversarial Pattern Attack ( http://arxiv.org/abs/2208.06222v1 )

ライセンス: Link先を確認
Xiangbo Gao, Weicheng Xie, Minmin Liu, Cheng Luo, Qinliang Lin, Linlin Shen, Keerthy Kusumam, Siyang Song(参考訳) 従来のピクセル単位でのイメージアタックアルゴリズムは、防御アルゴリズムに対する堅牢性に乏しい、すなわち、防御アルゴリズムを適用すると攻撃強度は劇的に低下する。 Generative Adversarial Networks (GAN) は意味論的に意味のあるテクスチャパターンを合成することでこの問題に部分的に対処できるが、既存のジェネレータは特定のスケールの画像しか生成できない。 本稿では,任意のスケールの画像に対して意味論的に意味のある敵対パターンをグローバルに合成する,スケールフリーな生成ベースアタックアルゴリズムを提案する。 提案手法は, 様々な画像分類, オブジェクト検出, インスタンス分割アルゴリズムの性能を, 様々な高度な防御手法で大幅に低下させた。

Traditional pixel-wise image attack algorithms suffer from poor robustness to defense algorithms, i.e., the attack strength degrades dramatically when defense algorithms are applied. Although Generative Adversarial Networks (GAN) can partially address this problem by synthesizing a more semantically meaningful texture pattern, the main limitation is that existing generators can only generate images of a specific scale. In this paper, we propose a scale-free generation-based attack algorithm that synthesizes semantically meaningful adversarial patterns globally to images with arbitrary scales. Our generative attack approach consistently outperforms the state-of-the-art methods on a wide range of attack settings, i.e. the proposed approach largely degraded the performance of various image classification, object detection, and instance segmentation algorithms under different advanced defense methods.
翻訳日:2022-08-15 13:35:15 公開日:2022-08-12
# 医用画像分割のためのトリプルビュー特徴学習

Triple-View Feature Learning for Medical Image Segmentation ( http://arxiv.org/abs/2208.06303v1 )

ライセンス: Link先を確認
Ziyang Wang, Irina Voiculescu(参考訳) 深層学習モデル、例えばEncoder-Decoderスタイルのネットワークは、医療画像セグメンテーションにおいて有望な性能を示すが、ラベル付けコストが高い。 本稿では,半教師付きセマンティックセグメンテーションフレームワークTriSegNetを提案する。 ラベル付きデータの限られた量と大量のラベル付きデータの3重ビュー特徴学習を使用する。 三重ビューアーキテクチャは、3つのピクセルレベルの分類器と低レベルの共有重み学習モジュールで構成される。 モデルはまずラベル付きデータで初期化される。 データ摂動、信頼ラベル投票、アノテーションの信頼できないラベル検出を含むラベル処理により、ラベル付きおよびラベルなしデータを同時にトレーニングすることができる。 各モデルの信頼性は、機能学習の他の2つのビューによって改善されます。 このプロセスは、各モデルがそれぞれのモデルと同じ信頼レベルに達するまで繰り返される。 この戦略は、一般的な医用画像データセットのトリプルビュー学習を可能にする。 オーバーラップベースと境界ベースの損失関数は、トレーニングの異なる段階に合わせて調整される。 セグメント化結果は、超音波、CT、MRI、組織学画像を含む4つの公開ベンチマークデータセットで評価される。 提案するネットワークの有効性を,他の半教師付きアルゴリズムと比較し,大規模な評価尺度を用いて検証した。

Deep learning models, e.g. supervised Encoder-Decoder style networks, exhibit promising performance in medical image segmentation, but come with a high labelling cost. We propose TriSegNet, a semi-supervised semantic segmentation framework. It uses triple-view feature learning on a limited amount of labelled data and a large amount of unlabeled data. The triple-view architecture consists of three pixel-level classifiers and a low-level shared-weight learning module. The model is first initialized with labelled data. Label processing, including data perturbation, confidence label voting and unconfident label detection for annotation, enables the model to train on labelled and unlabeled data simultaneously. The confidence of each model gets improved through the other two views of the feature learning. This process is repeated until each model reaches the same confidence level as its counterparts. This strategy enables triple-view learning of generic medical image datasets. Bespoke overlap-based and boundary-based loss functions are tailored to the different stages of the training. The segmentation results are evaluated on four publicly available benchmark datasets including Ultrasound, CT, MRI, and Histology images. Repeated experiments demonstrate the effectiveness of the proposed network compared against other semi-supervised algorithms, across a large set of evaluation measures.
翻訳日:2022-08-15 13:34:59 公開日:2022-08-12
# CT頭蓋骨を用いた脳内出血に対するVia-Unet(Via-Unet)と直交するVoxels

Voxels Intersecting along Orthogonal Levels Attention U-Net (viola-Unet) to Segment Intracerebral Haemorrhage Using Computed Tomography Head Scans ( http://arxiv.org/abs/2208.06313v1 )

ライセンス: Link先を確認
Qinghui Liu, Bradley J MacIntosh, Till Schellhorn, Karoline Skogen, KyrreEeg Emblem, and Atle Bj{\o}rnerud(参考訳) 我々は2つの異なる3次元ディープラーニングニューラルネットワークを実装し、非造影CTで見られる頭蓋内出血(ICH)の分類能力を評価した。 1つのモデルは、"Voxels-Intersecting along Orthogonal Levels of Attention U-Net" (viola-Unet)と呼ばれ、INSTANCE 2022 Data Challengeに適合するアーキテクチャ要素を持つ。 2つ目の比較モデルは、新しいU-Net(nU-Net)から導出された。 入力画像と地上の真理分割マップは2つのネットワークを教師付きで個別にトレーニングするために使用され、検証データはその後、半教師付きトレーニングに使用された。 モデル予測は5倍のクロス検証で比較された。 ヴィオラ-Unetは4つのパフォーマンス指標(NSDとRVD)のうち2つで比較ネットワークを上回った。 ヴィオラ-UnetとnnU-Netネットワークを組み合わせたアンサンブルモデルは、DSCとHDで最高の性能を示した。 我々は,u-netのデコード中に空間的に直交する特徴を効率良く組み込む3d u-netのicセグメンテーション性能の利点を実証する。 Viola-Unet AIツールのコードベース、トレーニング済み重量、およびdockerイメージは、https://github.com/samleoqh/Viola-Unetで公開される。

We implemented two distinct 3-dimensional deep learning neural networks and evaluate their ability to segment intracranial hemorrhage (ICH) seen on non-contrast computed tomography (CT). One model, referred to as "Voxels-Intersecting along Orthogonal Levels of Attention U-Net" (viola-Unet), has architecture elements that are amenable to the INSTANCE 2022 Data Challenge. A second comparison model was derived from the no-new U-Net (nnU-Net). Input images and ground truth segmentation maps were used to train the two networks separately in supervised manner; validation data were subsequently used for semi-supervised training. Model predictions were compared during 5-fold cross validation. The viola-Unet outperformed the comparison network on two out of four performance metrics (i.e., NSD and RVD). An ensemble model that combined viola-Unet and nnU-Net networks had the highest performance for DSC and HD. We demonstrate there were ICH segmentation performance benefits associated with a 3D U-Net efficiently incorporates spatially orthogonal features during the decoding branch of the U-Net. The code base, pretrained weights, and docker image of the viola-Unet AI tool will be publicly available at https://github.com/samleoqh/Viola-Unet .
翻訳日:2022-08-15 13:34:41 公開日:2022-08-12
# データセット内から純粋に学習したインスタンス画像検索

Instance Image Retrieval by Learning Purely From Within the Dataset ( http://arxiv.org/abs/2208.06119v1 )

ライセンス: Link先を確認
Zhongyan Zhang, Lei Wang, Yang Wang, Luping Zhou, Jianjia Zhang, Peng Wang, and Fang Chen(参考訳) 品質特徴表現は、インスタンス画像検索の鍵となる。 これを実現するために、既存のメソッドは通常、ベンチマークデータセットで事前トレーニングされたディープモデル、あるいはタスク依存のラベル付き補助データセットでモデルを微調整する。 有望な結果を達成する一方で、このアプローチは2つの問題によって制限されている。 1) ベンチマークデータセットと所定の検索タスクのデータセットとのドメイン間ギャップ 2) 必要な補助データセットは容易に取得できない。 この状況を踏まえて、この研究は、例えば画像検索などでは十分に研究されていない別のアプローチに目を向ける。 { 優れた検索を実現するために、与えられた検索タスクの特徴表現 \textit{specific to} を学習できるか? } 私たちの発見は励みになります。 自己教師付き学習のための画像領域を生成するためにオブジェクト提案ジェネレータを追加することで、探索対象のデータセットに固有の特徴表現をうまく学習することができる。 この表現は、データセットから抽出された画像類似性情報により、さらに効果的にすることができる。 実験的に検証されたように、このような単純な‘self-supervised learning + self-boosting’アプローチは、関連する最先端の検索手法とよく競合する。 アブレーション研究は、このアプローチの魅力とデータセット全体の一般化の限界を示すために行われる。

Quality feature representation is key to instance image retrieval. To attain it, existing methods usually resort to a deep model pre-trained on benchmark datasets or even fine-tune the model with a task-dependent labelled auxiliary dataset. Although achieving promising results, this approach is restricted by two issues: 1) the domain gap between benchmark datasets and the dataset of a given retrieval task; 2) the required auxiliary dataset cannot be readily obtained. In light of this situation, this work looks into a different approach which has not been well investigated for instance image retrieval previously: {can we learn feature representation \textit{specific to} a given retrieval task in order to achieve excellent retrieval?} Our finding is encouraging. By adding an object proposal generator to generate image regions for self-supervised learning, the investigated approach can successfully learn feature representation specific to a given dataset for retrieval. This representation can be made even more effective by boosting it with image similarity information mined from the dataset. As experimentally validated, such a simple ``self-supervised learning + self-boosting'' approach can well compete with the relevant state-of-the-art retrieval methods. Ablation study is conducted to show the appealing properties of this approach and its limitation on generalisation across datasets.
翻訳日:2022-08-15 13:31:48 公開日:2022-08-12
# レイアウトブリッジによる画像合成

Layout-Bridging Text-to-Image Synthesis ( http://arxiv.org/abs/2208.06162v1 )

ライセンス: Link先を確認
Jiadong Liang, Wenjie Pei and Feng Lu(参考訳) テキストから画像への合成のcruxは、入力テキストと合成画像との間の相互モダリティのセマンティクスの一貫性を保つことが困難であることに起因する。 テキストから画像へのマッピングを直接モデル化しようとする典型的な方法は、共通のオブジェクトやアクションを示すテキスト内のキーワードのみをキャプチャするが、その空間分布パターンは学習できない。 この制限を回避する効果的な方法は、いくつかの方法によって試みられたガイダンスとしてイメージレイアウトを生成することである。 しかし、これらの手法は入力テキストとオブジェクトの位置が多様であるため、事実上有効なレイアウトを生成することができない。 本稿では,テキストからレイアウトへの生成とレイアウトから画像への合成の両方において,効果的なモデリングをプッシュする。 具体的には,シーケンシャル・ツー・シーケンス・モデリングタスクとしてテキスト・ツー・レイアウト生成を定式化し,トランスフォーマー上にモデルを構築し,それらのシーケンシャルな依存関係をモデル化することでオブジェクト間の空間的関係を学習する。 レイアウト・ツー・イメージ合成の段階では,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習し,入力テキストを正確にレイアウト・ツー・イメージ合成プロセスに組み込む。 生成したレイアウトの品質を評価するために,レイアウトにおけるバウンディングボックスの絶対分布誤差と,それらの相互空間的関係を考慮し,レイアウト品質スコアと呼ばれる新しい指標を設計した。 3つのデータセットに対する大規模な実験は、レイアウト予測と与えられたテキストからの画像合成において、最先端の手法よりも優れた性能を示す。

The crux of text-to-image synthesis stems from the difficulty of preserving the cross-modality semantic consistency between the input text and the synthesized image. Typical methods, which seek to model the text-to-image mapping directly, could only capture keywords in the text that indicates common objects or actions but fail to learn their spatial distribution patterns. An effective way to circumvent this limitation is to generate an image layout as guidance, which is attempted by a few methods. Nevertheless, these methods fail to generate practically effective layouts due to the diversity of input text and object location. In this paper we push for effective modeling in both text-to-layout generation and layout-to-image synthesis. Specifically, we formulate the text-to-layout generation as a sequence-to-sequence modeling task, and build our model upon Transformer to learn the spatial relationships between objects by modeling the sequential dependencies between them. In the stage of layout-to-image synthesis, we focus on learning the textual-visual semantic alignment per object in the layout to precisely incorporate the input text into the layout-to-image synthesizing process. To evaluate the quality of generated layout, we design a new metric specifically, dubbed Layout Quality Score, which considers both the absolute distribution errors of bounding boxes in the layout and the mutual spatial relationships between them. Extensive experiments on three datasets demonstrate the superior performance of our method over state-of-the-art methods on both predicting the layout and synthesizing the image from the given text.
翻訳日:2022-08-15 13:31:21 公開日:2022-08-12
# 重み付けゲーム:説明可能性手法の品質評価

The Weighting Game: Evaluating Quality of Explainability Methods ( http://arxiv.org/abs/2208.06175v1 )

ライセンス: Link先を確認
Lassi Raatikainen and Esa Rahtu(参考訳) 本研究の目的は,画像分類作業における説明ヒートマップの品質を評価することである。 説明可能性法の品質を評価するために,精度と安定性のレンズを用いてタスクにアプローチする。 本研究では,以下の貢献を行う。 まず,クラス誘導型説明がどの程度正しいクラスセグメンテーションマスクに含まれるかを計測するWeighting Gameを導入する。 次に,類似した内容を持つ給与マップ間の差を測定するために,ズーム/パンニング変換を用いて,説明安定性のための指標を提案する。 CAM法によって提供される説明の質を評価するために,これらの新しい指標を用いて定量的実験が作成されている。 説明の質は異なるモデルアーキテクチャの間でも対照的であり、説明可能性の方法を選択する際にモデルアーキテクチャを考える必要性が指摘されている。

The objective of this paper is to assess the quality of explanation heatmaps for image classification tasks. To assess the quality of explainability methods, we approach the task through the lens of accuracy and stability. In this work, we make the following contributions. Firstly, we introduce the Weighting Game, which measures how much of a class-guided explanation is contained within the correct class' segmentation mask. Secondly, we introduce a metric for explanation stability, using zooming/panning transformations to measure differences between saliency maps with similar contents. Quantitative experiments are produced, using these new metrics, to evaluate the quality of explanations provided by commonly used CAM methods. The quality of explanations is also contrasted between different model architectures, with findings highlighting the need to consider model architecture when choosing an explainability method.
翻訳日:2022-08-15 13:30:53 公開日:2022-08-12
# Occlusion Augmentation で学習したコントラスト特徴をもつカテゴリーレベルポス検索

Category-Level Pose Retrieval with Contrastive Features Learnt with Occlusion Augmentation ( http://arxiv.org/abs/2208.06195v1 )

ライセンス: Link先を確認
Georgios Kouros and Shubham Shrivastava and C\'edric Picron and Sushruth Nagesh and Tinne Tuytelaars(参考訳) ポース推定は通常、ビン分類問題または回帰問題として取り組まれる。 どちらの場合でも、そのアイデアはオブジェクトのポーズを直接予測することである。 これは、類似したポーズの外観のバリエーションと異なるポーズ間の類似性のため、非自明な作業である。 代わりに、見積もりよりも2つのポーズを比較する方が簡単だという重要なアイデアに従います。 しかし、Render-and-Compareアプローチは、リアルタイムアプリケーションでは不安定で、計算コストが高く、遅い傾向にある。 ダイナミックマージンと連続的なポーズラベル空間の対比損失を用いてアライメントメトリックを学習し,カテゴリーレベルのポーズ推定を行う。 効率的な推論のために、埋め込み空間に投影されるレンダリングの参照セットを持つ単純なリアルタイム画像検索方式を用いる。 実世界の環境に対する堅牢性を達成するために,我々は合成オクルージョン,バウンディングボックスの摂動,外観増強を用いる。 提案手法は,PASCAL3DおよびOccludedPASCAL3Dの最先端性能と,KITTI3Dの高品質化を実現する。

Pose estimation is usually tackled as either a bin classification problem or as a regression problem. In both cases, the idea is to directly predict the pose of an object. This is a non-trivial task because of appearance variations of similar poses and similarities between different poses. Instead, we follow the key idea that it is easier to compare two poses than to estimate them. Render-and-compare approaches have been employed to that end, however, they tend to be unstable, computationally expensive, and slow for real-time applications. We propose doing category-level pose estimation by learning an alignment metric using a contrastive loss with a dynamic margin and a continuous pose-label space. For efficient inference, we use a simple real-time image retrieval scheme with a reference set of renderings projected to an embedding space. To achieve robustness to real-world conditions, we employ synthetic occlusions, bounding box perturbations, and appearance augmentations. Our approach achieves state-of-the-art performance on PASCAL3D and OccludedPASCAL3D, as well as high-quality results on KITTI3D.
翻訳日:2022-08-15 13:30:40 公開日:2022-08-12
# dual unet: カスケード差動融合による変化検出のための新しいシアムネットワーク

dual unet:a novel siamese network for change detection with cascade differential fusion ( http://arxiv.org/abs/2208.06293v1 )

ライセンス: Link先を確認
Kaixuan Jiang, Ja Liu, Fang Liu, Wenhua Zhang, Yangguang Liu(参考訳) リモートセンシング画像の変化検出(CD)は、2つのバイテンポラル画像の違いを分析して変化領域を検出する。 土地資源計画、自然災害監視などの分野で広く利用されている。 本研究では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。 従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。 ネットワークの一般化を改善するために、バイテンポラル画像間の任意の画素間の注意重みを計算し、それらを用いてより識別性の高い特徴を与える。 特徴融合の改善と勾配消滅を回避するため,復号段階における多スケール重み付き分散マップ融合戦略を提案する。 提案手法は,一般的な季節変化検出データセットにおいて,最も先進的な手法を一貫して上回っている。

Change detection (CD) of remote sensing images is to detect the change region by analyzing the difference between two bitemporal images. It is extensively used in land resource planning, natural hazards monitoring and other fields. In our study, we propose a novel Siamese neural network for change detection task, namely Dual-UNet. In contrast to previous individually encoded the bitemporal images, we design an encoder differential-attention module to focus on the spatial difference relationships of pixels. In order to improve the generalization of networks, it computes the attention weights between any pixels between bitemporal images and uses them to engender more discriminating features. In order to improve the feature fusion and avoid gradient vanishing, multi-scale weighted variance map fusion strategy is proposed in the decoding stage. Experiments demonstrate that the proposed approach consistently outperforms the most advanced methods on popular seasonal change detection datasets.
翻訳日:2022-08-15 13:30:21 公開日:2022-08-12
# omnivoxel : 全方位神経放射場の高速かつ精密な再構成法

OmniVoxel: A Fast and Precise Reconstruction Method of Omnidirectional Neural Radiance Field ( http://arxiv.org/abs/2208.06335v1 )

ライセンス: Link先を確認
Qiaoge Li, Itsuki Ueda, Chun Xie, Hidehiko Shishido, Itaru Kitahara(参考訳) 本稿では,等角全方位画像を用いた神経放射野の再構成法を提案する。 入射場を有する暗黙的なニューラルシーン表現は、限られた空間領域内でシーンの3次元形状を継続的に再構築することができる。 しかし、商用PCハードウェア上で完全に暗黙的な表現をトレーニングするには、多くの時間と計算資源が必要である(シーン当たり15$\sim$20時間)。 そこで本研究では,この過程を著しく加速する手法を提案する(シーンあたり20ドル=40分)。 放射場再構成のために完全に暗黙的な光線表現を使用する代わりに、テンソルに密度と色の特徴を含む特徴ボクセルを採用する。 全方向等角入力とカメラレイアウトを考えると、球面ボクセル化を立方体表現の代わりに用いる。 当社のボキセル化法は,内部シーンと外部シーンの再現品質のバランスをとることができた。 さらに,カラー特徴量に軸方向の位置符号化法を適用し,画像の画質を向上する。 本手法は,ランダムなカメラポーズを用いた合成データセットにおける経験的性能を満足する。 さらに,複雑なジオメトリを含む実際のシーンでテストを行い,最先端のパフォーマンスを実現する。 私たちのコードと完全なデータセットは、論文公開と同時にリリースされます。

This paper proposes a method to reconstruct the neural radiance field with equirectangular omnidirectional images. Implicit neural scene representation with a radiance field can reconstruct the 3D shape of a scene continuously within a limited spatial area. However, training a fully implicit representation on commercial PC hardware requires a lot of time and computing resources (15 $\sim$ 20 hours per scene). Therefore, we propose a method to accelerate this process significantly (20 $\sim$ 40 minutes per scene). Instead of using a fully implicit representation of rays for radiance field reconstruction, we adopt feature voxels that contain density and color features in tensors. Considering omnidirectional equirectangular input and the camera layout, we use spherical voxelization for representation instead of cubic representation. Our voxelization method could balance the reconstruction quality of the inner scene and outer scene. In addition, we adopt the axis-aligned positional encoding method on the color features to increase the total image quality. Our method achieves satisfying empirical performance on synthetic datasets with random camera poses. Moreover, we test our method with real scenes which contain complex geometries and also achieve state-of-the-art performance. Our code and complete dataset will be released at the same time as the paper publication.
翻訳日:2022-08-15 13:30:07 公開日:2022-08-12
# beit v2: ベクトル量子化視覚トークンを用いたマスク画像モデリング

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers ( http://arxiv.org/abs/2208.06366v1 )

ライセンス: Link先を確認
Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei(参考訳) Masked Image Modeling (MIM) は、劣化した画像パッチを復元することにより、自己教師付き表現学習において印象的な結果を示した。 しかし、ほとんどの手法は依然として低レベルのピクセルで動作するため、表現モデルの高レベルセマンティクスの利用を妨げている。 本研究では,MIMを画素レベルからセマンティックレベルまで促進する体系的な方法として,マスキング予測の再構築ターゲットとして意味豊かな視覚トークン化手法を提案する。 具体的には,連続的な意味空間をコンパクトなコードに識別するトークン化器を訓練するために,ベクトル量子化知識蒸留法を導入する。 次に、マスク画像パッチのオリジナルの視覚トークンを予測して、視覚トランスフォーマーを事前トレーニングする。 さらに,我々は,パッチ情報を線形探索機能を備えたグローバル画像表現に明示的に集約することを推奨する。 画像分類とセマンティクスセグメンテーションの実験により,mim法を比較検討した。 ImageNet-1K(224サイズ)では、ベースサイズのBEiT v2は微調整で85.5%、線形探索で80.1%となる。 大型のBEiT v2はImageNet-1K(224サイズ)の微調整で87.3%、セマンティックセグメンテーションでADE20Kで56.7%のmIoUを得る。 コードと事前訓練されたモデルはhttps://aka.ms/beit.com/で入手できる。

Masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most methods still operate on low-level image pixels, which hinders the exploitation of high-level semantics for representation models. In this study, we propose to use a semantic-rich visual tokenizer as the reconstruction target for masked prediction, providing a systematic way to promote MIM from pixel-level to semantic-level. Specifically, we introduce vector-quantized knowledge distillation to train the tokenizer, which discretizes a continuous semantic space to compact codes. We then pretrain vision Transformers by predicting the original visual tokens for the masked image patches. Moreover, we encourage the model to explicitly aggregate patch information into a global image representation, which facilities linear probing. Experiments on image classification and semantic segmentation show that our approach outperforms all compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves 85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K (224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The code and pretrained models are available at https://aka.ms/beit.
翻訳日:2022-08-15 13:29:47 公開日:2022-08-12
# RealityTalk:ARライブストーリーテリングのためのリアルタイム音声駆動型プレゼンテーション

RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live Storytelling ( http://arxiv.org/abs/2208.06350v1 )

ライセンス: Link先を確認
Jian Liao, Adnan Karim, Shivesh Jadon, Rubaiat Habib Kazi, Ryo Suzuki(参考訳) 本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。 拡張されたプレゼンテーションは、エンゲージメントと表現力のあるストーリーテリングに組み込みのビジュアルとアニメーションを利用する。 しかし、ライブプレゼンテーションのための既存のツールは対話性や即興性を欠くことが多く、ビデオ編集ツールでそのような効果を生み出すにはかなりの時間と専門知識が必要である。 realitytalkでは、リアルタイムの音声駆動インタラクションによるライブの拡張現実プレゼンテーションを作成することができる。 ユーザは、リアルタイムの音声と支援モダリティを通じて、インタラクティブにグラフィカルな要素をプロンプト、移動、操作することができる。 本研究では,既存の177種類の映像編集拡張プレゼンテーションの分析に基づいて,新たなインタラクション手法を提案し,それらをリアリティトークに組み込む。 我々は,システムの有効性を示すために,プレゼンターの視点からツールを評価する。

We present RealityTalk, a system that augments real-time live presentations with speech-driven interactive virtual elements. Augmented presentations leverage embedded visuals and animation for engaging and expressive storytelling. However, existing tools for live presentations often lack interactivity and improvisation, while creating such effects in video editing tools require significant time and expertise. RealityTalk enables users to create live augmented presentations with real-time speech-driven interactions. The user can interactively prompt, move, and manipulate graphical elements through real-time speech and supporting modalities. Based on our analysis of 177 existing video-edited augmented presentations, we propose a novel set of interaction techniques and then incorporated them into RealityTalk. We evaluate our tool from a presenter's perspective to demonstrate the effectiveness of our system.
翻訳日:2022-08-15 13:29:21 公開日:2022-08-12
# リレーショナルアクションベース:形式化、効果的な安全性検証、不変量(拡張版)

Relational Action Bases: Formalization, Effective Safety Verification, and Invariants (Extended Version) ( http://arxiv.org/abs/2208.06377v1 )

ライセンス: Link先を確認
Silvio Ghilardi and Alessandro Gianola and Marco Montali and Andrey Rivkin(参考訳) 状態のリレーショナル表現上で動作する動的システムのモデリングと検証は、ai、ビジネスプロセス管理、データベース理論においてますます研究されている。 これらのシステムを検証しやすいものにするには、各関係状態に格納された情報量が境界づけされるか、あるいは事前条件とアクションの効果に制限が課される必要がある。 これらの制約を解除することで既存のモデルを一般化する関係行動基盤(RAB)の一般的な枠組みを導入する。非有界な関係状態は、データ上で存在量と普遍性の両方を定量化し、算術的な述語で数値データ型を活用できるアクションによって進化することができる。 次に、SMTに基づく後方探索によるRABのパラメータ化安全性について検討し、その結果のメタプロパティを歌い、現状のMCMTモデルチェッカーの既存の検証モジュールの既製の組み合わせによってどのように実現できるかを示す。 データ対応ビジネスプロセスのベンチマークにおいて,このアプローチの有効性を示す。 最後に、この手続きを完全に正すために普遍不変量をどのように活用できるかを示す。

Modeling and verification of dynamic systems operating over a relational representation of states are increasingly investigated problems in AI, Business Process Management, and Database Theory. To make these systems amenable to verification, the amount of information stored in each relational state needs to be bounded, or restrictions are imposed on the preconditions and effects of actions. We introduce the general framework of relational action bases (RABs), which generalizes existing models by lifting both these restrictions: unbounded relational states can be evolved through actions that can quantify both existentially and universally over the data, and that can exploit numerical datatypes with arithmetic predicates. We then study parameterized safety of RABs via (approximated) SMT-based backward search, singling out essential meta-properties of the resulting procedure, and showing how it can be realized by an off-the-shelf combination of existing verification modules of the state-of-the-art MCMT model checker. We demonstrate the effectiveness of this approach on a benchmark of data-aware business processes. Finally, we show how universal invariants can be exploited to make this procedure fully correct.
翻訳日:2022-08-15 13:25:47 公開日:2022-08-12
# ハングルOCRにおけるクラス不均衡問題解消のための文字分解

Character decomposition to resolve class imbalance problem in Hangul OCR ( http://arxiv.org/abs/2208.06079v1 )

ライセンス: Link先を確認
Geonuk Kim, Jaemin Son, Kanghyu Lee, Jaesik Min(参考訳) 本稿では,韓国文字HangulのOCR(Optical Character Recognition)に対する新しいアプローチを提案する。 フォノグラムとして、ハングルは111,172の異なる文字を52のグラフエムで表すことができ、各文字をグラフエムの組み合わせで記述することができる。 文字の総数がニューラルネットワークの容量を超過できるため、既存のOCR符号化手法は頻繁に使用される小さな文字セットを事前に定義する。 この設計選択は、分布中の長い尾文字のパフォーマンスを自然に損なう。 本稿では,graphemeエンコーディングが効率的であるだけでなく,hangul ocrの高性能であることを示す。 ベンチマークテストの結果,Hangul OCRの主な問題であるクラス不均衡とターゲットクラス選択の2つが解決された。

We present a novel approach to OCR(Optical Character Recognition) of Korean character, Hangul. As a phonogram, Hangul can represent 11,172 different characters with only 52 graphemes, by describing each character with a combination of the graphemes. As the total number of the characters could overwhelm the capacity of a neural network, the existing OCR encoding methods pre-define a smaller set of characters that are frequently used. This design choice naturally compromises the performance on long-tailed characters in the distribution. In this work, we demonstrate that grapheme encoding is not only efficient but also performant for Hangul OCR. Benchmark tests show that our approach resolves two main problems of Hangul OCR: class imbalance and target class selection.
翻訳日:2022-08-15 13:24:38 公開日:2022-08-12
# 物体検出におけるOODのコントラスト学習

Contrastive Learning for OOD in Object detection ( http://arxiv.org/abs/2208.06083v1 )

ライセンス: Link先を確認
Rishab Balasubramanian, Rupashree Dey, Kunal Rathore(参考訳) コントラスト学習は、一般的に自己教師付き学習に適用され、三重項損失やnペア損失のような従来のアプローチよりも優れていることが示されている。 しかし、大規模なバッチサイズとメモリバンクの要求により、トレーニングが難しく、遅くなっている。 近年,これらの問題を克服するために,スーパービジョンコントラストアプローチが開発されている。 個々のクラス、あるいはクラスのクラスタ間で、優れた表現を学ぶことに集中しています。 本研究では,ユーザ定義のランキングを用いて類似度に基づいてクラスをランク付けし,すべてのクラス間の効率的な表現を学習する。 学習過程に人間のバイアスを組み込むことで,パラメータ空間における学習表現が向上すると考えられる。 我々は,画像分類とオブジェクト検出において,この結果が教師付きコントラスト学習と同等であることを示し,OOD検出の欠点について議論する。

Contrastive learning is commonly applied to self-supervised learning, and has been shown to outperform traditional approaches such as the triplet loss and N-pair loss. However, the requirement of large batch sizes and memory banks has made it difficult and slow to train. Recently, Supervised Contrasative approaches have been developed to overcome these problems. They focus more on learning a good representation for each class individually, or between a cluster of classes. In this work we attempt to rank classes based on similarity using a user-defined ranking, to learn an efficient representation between all classes. We observe how incorporating human bias into the learning process could improve learning representations in the parameter space. We show that our results are comparable to Supervised Contrastive Learning for image classification and object detection, and discuss it's shortcomings in OOD Detection
翻訳日:2022-08-15 13:24:25 公開日:2022-08-12
# 意味セグメンテーションのためのドメイン不変プロトタイプ

Domain-invariant Prototypes for Semantic Segmentation ( http://arxiv.org/abs/2208.06087v1 )

ライセンス: Link先を確認
Zhengeng Yang, Hongshan Yu, Wei Sun, Li-Cheng, Ajmal Mian(参考訳) ディープラーニングはセマンティックセグメンテーションのパフォーマンスを大幅に向上させたが、その成功はトレーニングのための大量の注釈付きデータの可用性に依存している。 したがって、ラベル付きソースドメインからラベルなしのターゲットドメインへの意味知識の転送に焦点を当てたドメイン適応意味セグメンテーションに多くの取り組みがなされている。 既存の自己学習手法は、通常、複数の訓練を必要とするが、敵対的トレーニングに基づく他の一般的なフレームワークは、ハイパーパラメータに敏感であることが知られている。 本稿では,ドメイン適応セマンティクスセグメンテーションのためのドメイン不変プロトタイプを学習する簡易学習フレームワークを提案する。 特に、ドメイン適応は、未知のデータの種類を大量のデータから学習した知識で認識することを目的とした、数ショットの学習と共通する特徴を示す。 そこで,本稿では,ドメイン適応と最小ショット学習の統一フレームワークを提案する。 中心となるアイデアは、少数のアノテーション付きターゲット画像から抽出されたクラスプロトタイプを使用して、ソース画像とターゲット画像の両方のピクセルを分類することだ。 提案手法は1段階の訓練のみを要し,大規模無注対象画像の訓練は不要である。 さらに,本手法はドメイン適応と少数ショット学習の両方に拡張することができる。 GTA5-to-CityscapesおよびSynTHIA-to-Cityscapesの適応実験により,本手法が最先端技術に対する競合性能を実現することを示す。

Deep Learning has greatly advanced the performance of semantic segmentation, however, its success relies on the availability of large amounts of annotated data for training. Hence, many efforts have been devoted to domain adaptive semantic segmentation that focuses on transferring semantic knowledge from a labeled source domain to an unlabeled target domain. Existing self-training methods typically require multiple rounds of training, while another popular framework based on adversarial training is known to be sensitive to hyper-parameters. In this paper, we present an easy-to-train framework that learns domain-invariant prototypes for domain adaptive semantic segmentation. In particular, we show that domain adaptation shares a common character with few-shot learning in that both aim to recognize some types of unseen data with knowledge learned from large amounts of seen data. Thus, we propose a unified framework for domain adaptation and few-shot learning. The core idea is to use the class prototypes extracted from few-shot annotated target images to classify pixels of both source images and target images. Our method involves only one-stage training and does not need to be trained on large-scale un-annotated target images. Moreover, our method can be extended to variants of both domain adaptation and few-shot learning. Experiments on adapting GTA5-to-Cityscapes and SYNTHIA-to-Cityscapes show that our method achieves competitive performance to state-of-the-art.
翻訳日:2022-08-15 13:24:12 公開日:2022-08-12
# 教師なしドメイン適応意味セグメンテーションのための高品質ターゲットドメイン情報の検討

Exploring High-quality Target Domain Information for Unsupervised Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2208.06100v1 )

ライセンス: Link先を確認
Junjie Li, Zilei Wang, Yuan Gao, Xiaoming Hu(参考訳) 非教師なしドメイン適応(uda)セマンティクスセグメンテーションでは、蒸留ベースの方法が現在パフォーマンスにおいて支配的である。 しかし、蒸留技術は複雑な多段階プロセスと多くの訓練トリックを必要とする。 本稿では, 従来の蒸留法と競合する性能を実現するための, 単純かつ効果的な方法を提案する。 私たちの核となるアイデアは、境界と機能の観点からターゲットドメイン情報を完全に探究することです。 まず,高品質な目標領域境界を生成するための新しい混合戦略を提案する。 従来の作業のソースドメイン境界とは違って,高信頼のターゲットドメイン領域を選択し,ソースドメインイメージにペーストする。 このような戦略は、ターゲットドメイン(ターゲットドメインオブジェクト領域のエッジ)のオブジェクト境界を正しいラベルで生成することができる。 これにより、混合サンプルの学習により、対象領域の境界情報を効果的に取得することができる。 第2に,ピクセルレベルおよびプロトタイプレベルのコントラスト学習を含む対象領域データの表現を改善するために,マルチレベルコントラストロスを設計する。 2つの提案手法を組み合わせることで、より識別的な特徴を抽出でき、対象領域に対してハードオブジェクト境界をよりよく対処できる。 2つの一般的なベンチマーク(gta5 $\rightarrow$ cityscapes と synthia $\rightarrow$ cityscapes)における実験結果から, 複雑な蒸留法に対する競合性能が得られた。 特に、SynTHIA$\rightarrow$ Cityscapesのシナリオでは、16のクラスと13のクラスで57.8\%$ mIoUと6.6\%$ mIoUで最先端のパフォーマンスを達成する。 コードはhttps://github.com/ljjcoder/EHTDIで入手できる。

In unsupervised domain adaptive (UDA) semantic segmentation, the distillation based methods are currently dominant in performance. However, the distillation technique requires complicate multi-stage process and many training tricks. In this paper, we propose a simple yet effective method that can achieve competitive performance to the advanced distillation methods. Our core idea is to fully explore the target-domain information from the views of boundaries and features. First, we propose a novel mix-up strategy to generate high-quality target-domain boundaries with ground-truth labels. Different from the source-domain boundaries in previous works, we select the high-confidence target-domain areas and then paste them to the source-domain images. Such a strategy can generate the object boundaries in target domain (edge of target-domain object areas) with the correct labels. Consequently, the boundary information of target domain can be effectively captured by learning on the mixed-up samples. Second, we design a multi-level contrastive loss to improve the representation of target-domain data, including pixel-level and prototype-level contrastive learning. By combining two proposed methods, more discriminative features can be extracted and hard object boundaries can be better addressed for the target domain. The experimental results on two commonly adopted benchmarks (\textit{i.e.}, GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes) show that our method achieves competitive performance to complicated distillation methods. Notably, for the SYNTHIA$\rightarrow$ Cityscapes scenario, our method achieves the state-of-the-art performance with $57.8\%$ mIoU and $64.6\%$ mIoU on 16 classes and 13 classes. Code is available at https://github.com/ljjcoder/EHTDI.
翻訳日:2022-08-15 13:23:47 公開日:2022-08-12
# 自己監督型映像表現のための運動知覚的コントラスト学習

Motion Sensitive Contrastive Learning for Self-supervised Video Representation ( http://arxiv.org/abs/2208.06105v1 )

ライセンス: Link先を確認
Jingcheng Ni, Nan Zhou, Jie Qin, Qian Wu, Junqi Liu, Boxun Li, Di Huang(参考訳) コントラスト学習はビデオ表現学習において大きな可能性を示している。 しかし、既存のアプローチでは、様々なダウンストリームビデオ理解タスクにおいて重要な短期動作力学を十分に活用できない。 本稿では,RGBフレームに光学的流れによって捕捉された動き情報を注入して特徴学習を強化する動き感性コントラスト学習(MSCL)を提案する。 これを実現するために,クリップレベルのグローバルコントラスト学習に加えて,フレームレベルのコントラスト目標を持つ局所運動コントラスト学習 (lmcl) を開発した。 さらに,フロー回転拡大法 (fra) を導入し, 余分な動きをシャッフルした負のサンプルを生成し, 動き差動サンプリング (mds) を行い, 正確なスクリーントレーニングを行った。 標準ベンチマークに関する広範囲な実験により,提案手法の有効性が検証された。 一般的に使用されている3D ResNet-18をバックボーンとして、UCF101で91.5\%、ビデオ分類でSomething v2で50.3\%、ビデオ検索で65.6\%のTop-1リコールを達成した。

Contrastive learning has shown great potential in video representation learning. However, existing approaches fail to sufficiently exploit short-term motion dynamics, which are crucial to various down-stream video understanding tasks. In this paper, we propose Motion Sensitive Contrastive Learning (MSCL) that injects the motion information captured by optical flows into RGB frames to strengthen feature learning. To achieve this, in addition to clip-level global contrastive learning, we develop Local Motion Contrastive Learning (LMCL) with frame-level contrastive objectives across the two modalities. Moreover, we introduce Flow Rotation Augmentation (FRA) to generate extra motion-shuffled negative samples and Motion Differential Sampling (MDS) to accurately screen training samples. Extensive experiments on standard benchmarks validate the effectiveness of the proposed method. With the commonly-used 3D ResNet-18 as the backbone, we achieve the top-1 accuracies of 91.5\% on UCF101 and 50.3\% on Something-Something v2 for video classification, and a 65.6\% Top-1 Recall on UCF101 for video retrieval, notably improving the state-of-the-art.
翻訳日:2022-08-15 13:23:16 公開日:2022-08-12
# ベトナムにおける表情認識と画像記述生成

Facial Expression Recognition and Image Description Generation in Vietnamese ( http://arxiv.org/abs/2208.06117v1 )

ライセンス: Link先を確認
Khang Nhut Lam, Kim-Ngoc Thi Nguyen, Loc Huu Nguy, and Jugal Kalita(参考訳) 本稿では,画像中の人物の表情と表情の記述文を構築するための表情認識モデルと記述生成モデルについて述べる。 KDEFデータセット上のすべての感情に対して、YOLOv5は従来のCNNよりも優れた結果が得られることを示す。 特に、感情認識のためのCNNモデルとYOLOv5モデルの精度は0.853と0.938である。 LSTMモデル上にエンコードされた記述を用いたVGG16を用いて,統合アーキテクチャに基づく画像の記述を生成するモデルを提案する。 YOLOv5はまた、画像内のオブジェクトの圧倒的な色を認識し、必要であれば生成された記述中の色語を修正するために使われる。 説明文に人物を参照する単語が含まれている場合、画像中の人物の感情を認識する。 最後に、画像中の視覚内容と人間の感情を記述する文を作成するために、すべてのモデルの結果を組み合わせる。 ベトナムにおけるFlickr8kデータセットの実験結果は、BLEU-1、BLEU-2、BLEU-3、BLEU-4のスコアが0.628、0.425、0.280、0.174となる。

This paper discusses a facial expression recognition model and a description generation model to build descriptive sentences for images and facial expressions of people in images. Our study shows that YOLOv5 achieves better results than a traditional CNN for all emotions on the KDEF dataset. In particular, the accuracies of the CNN and YOLOv5 models for emotion recognition are 0.853 and 0.938, respectively. A model for generating descriptions for images based on a merged architecture is proposed using VGG16 with the descriptions encoded over an LSTM model. YOLOv5 is also used to recognize dominant colors of objects in the images and correct the color words in the descriptions generated if it is necessary. If the description contains words referring to a person, we recognize the emotion of the person in the image. Finally, we combine the results of all models to create sentences that describe the visual content and the human emotions in the images. Experimental results on the Flickr8k dataset in Vietnamese achieve BLEU-1, BLEU-2, BLEU-3, BLEU-4 scores of 0.628; 0.425; 0.280; and 0.174, respectively.
翻訳日:2022-08-15 13:22:51 公開日:2022-08-12
# スタイル分光:フーリエ分析による解釈性と制御性の向上

Style Spectroscope: Improve Interpretability and Controllability through Fourier Analysis ( http://arxiv.org/abs/2208.06140v1 )

ライセンス: Link先を確認
Zhiyu Jin and Xuli Shen and Bin Li and Xiangyang Xue(参考訳) universal style transfer (ust) は任意の参照画像からコンテンツ画像にスタイルを注入する。 既存の手法は、多くの実践的な成功を享受しながらも、コンテンツ画像の空間構造を保存するためにUSTアルゴリズムの異なる性能を含む実験的な観察を説明することができない。 さらに,タイマライゼーションの煩雑なグローバルコントロールに制限されているため,スタイリゼーションに空間マスクを追加する必要がある。 本研究では,USTの汎用フレームワークについて,系統的なフーリエ解析を行う。 周波数領域におけるフレームワークの等価な形式を示す。 この形式は、既存のアルゴリズムがゼロ周波数成分を除く全ての周波数成分と特徴写像のピクセルを等しく扱うことを意味する。 本研究では,Fourier振幅と位相をそれぞれグラム行列と接続し,スタイル伝達におけるコンテンツ再構成損失を補正する。 このような等価性と接続性に基づき、フーリエ位相を持つアルゴリズム間で異なる構造保存挙動を解釈することができる。 以上の解釈を前提に,構造保存と所望のスタイライゼーションのための2つの操作を提案する。 定性的かつ定量的な実験は,本手法の最先端手法に対する競争性能を示すものである。 また,(1)上述の等価性,(2)フーリエ振幅と位相に基づく解釈可能性,(3)周波数成分に関連する制御可能性を示す実験を行った。

Universal style transfer (UST) infuses styles from arbitrary reference images into content images. Existing methods, while enjoying many practical successes, are unable of explaining experimental observations, including different performances of UST algorithms in preserving the spatial structure of content images. In addition, methods are limited to cumbersome global controls on stylization, so that they require additional spatial masks for desired stylization. In this work, we provide a systematic Fourier analysis on a general framework for UST. We present an equivalent form of the framework in the frequency domain. The form implies that existing algorithms treat all frequency components and pixels of feature maps equally, except for the zero-frequency component. We connect Fourier amplitude and phase with Gram matrices and a content reconstruction loss in style transfer, respectively. Based on such equivalence and connections, we can thus interpret different structure preservation behaviors between algorithms with Fourier phase. Given the interpretations we have, we propose two manipulations in practice for structure preservation and desired stylization. Both qualitative and quantitative experiments demonstrate the competitive performance of our method against the state-of-the-art methods. We also conduct experiments to demonstrate (1) the abovementioned equivalence, (2) the interpretability based on Fourier amplitude and phase and (3) the controllability associated with frequency components.
翻訳日:2022-08-15 13:19:07 公開日:2022-08-12
# PRIF:プライマリレイベースのインシシット機能

PRIF: Primary Ray-based Implicit Function ( http://arxiv.org/abs/2208.06143v1 )

ライセンス: Link先を確認
Brandon Yushan Feng, Yinda Zhang, Danhang Tang, Ruofei Du, Amitabh Varshney(参考訳) プライマリレイベースインプリシット関数 (PRIF) と呼ばれる新しい暗黙的形状表現を導入する。 空間的位置を扱う符号付き距離関数(SDF)に基づく既存のほとんどのアプローチとは対照的に、我々の表現は向き付けられた光線で動く。 具体的には、PRIFは、高価な球追跡操作をすることなく、所定の入力線の表面ヒット点を直接生成し、効率的な形状抽出と微分レンダリングを可能にする。 PRIFを符号化するために訓練されたニューラルネットワークは、単一形状表現、カテゴリワイドな形状生成、スパースまたはノイズの観測による形状完了、カメラポーズ推定のための逆レンダリング、色付きニューラルレンダリングなど、様々なタスクで成功を収めている。

We introduce a new implicit shape representation called Primary Ray-based Implicit Function (PRIF). In contrast to most existing approaches based on the signed distance function (SDF) which handles spatial locations, our representation operates on oriented rays. Specifically, PRIF is formulated to directly produce the surface hit point of a given input ray, without the expensive sphere-tracing operations, hence enabling efficient shape extraction and differentiable rendering. We demonstrate that neural networks trained to encode PRIF achieve successes in various tasks including single shape representation, category-wise shape generation, shape completion from sparse or noisy observations, inverse rendering for camera pose estimation, and neural rendering with color.
翻訳日:2022-08-15 13:18:51 公開日:2022-08-12
# 免疫組織化学画像のための画像翻訳に基づく核セグメンテーション

Image Translation Based Nuclei Segmentation for Immunohistochemistry Images ( http://arxiv.org/abs/2208.06202v1 )

ライセンス: Link先を確認
Roger Trullo, Quoc-Anh Bui, Qi Tang, and Reza Olfati-Saber(参考訳) H&E画像の核セグメンテーションのための多くの深層学習法が開発され、人間の性能に近づいた。 しかし、免疫組織化学(ihc)画像などの画像の他の様相への直接的適用は、良好な性能を達成できない可能性がある。 そこで我々は,IHC画像をH&E画像に変換し,核位置と形態を保存しつつ,GANに基づく手法を開発し,仮想H&E画像に事前学習した核分割モデルを適用した。 提案手法は,H&Eで訓練したCellposeやHoVer-Netといった人工核分割法の直接適用や,2つの公開IHC画像データセットを用いた生成法DeepLIIFなどを含む,いくつかのベースライン法よりも優れていることを示した。

Numerous deep learning based methods have been developed for nuclei segmentation for H&E images and have achieved close to human performance. However, direct application of such methods to another modality of images, such as Immunohistochemistry (IHC) images, may not achieve satisfactory performance. Thus, we developed a Generative Adversarial Network (GAN) based approach to translate an IHC image to an H&E image while preserving nuclei location and morphology and then apply pre-trained nuclei segmentation models to the virtual H&E image. We demonstrated that the proposed methods work better than several baseline methods including direct application of state of the art nuclei segmentation methods such as Cellpose and HoVer-Net, trained on H&E and a generative method, DeepLIIF, using two public IHC image datasets.
翻訳日:2022-08-15 13:18:36 公開日:2022-08-12
# 盗難パッケージを用いたrの時系列特徴量解析

Feature-Based Time-Series Analysis in R using the theft Package ( http://arxiv.org/abs/2208.06146v1 )

ライセンス: Link先を確認
Trent Henderson and Ben D. Fulcher(参考訳) 時系列は科学全体で測定され分析される。 時系列の構造を定量化する一つの方法は、要約統計または「特徴」の組を計算し、その特性を特徴ベクトルとして時系列を表現することである。 得られた特徴空間は解釈可能で情報的であり、クラスタリング、回帰、分類を含む従来の統計的学習アプローチを時系列データセットに適用することができる。 catch22 (22機能): Matlab, R, Python, Julia), feasts (42機能: R), tsfeatures (63機能: R), Kats (40機能: Python), tsfresh (779機能: Python), TSFEL (390機能: Python) など,時系列機能を計算するためのオープンソースソフトウェアパッケージが多数存在する。 しかし、いくつか問題がある。 (i)これらのパッケージに対する特異なアクセスポイントは現在利用できない。 (ii)すべての機能セットにアクセスするには、ユーザは複数の言語に精通しなければならない。 3)これらの特徴抽出パッケージは,時系列分類などの特徴量に基づく時系列解析を行うための方法論的パイプラインを欠いている。 ここでは、これらの問題の解決策を、theft: Tools for Handling Processing of Features from Time seriesというRソフトウェアパッケージで紹介する。 theftは、上述の6つのオープンソースの時系列機能セットからコンピューティング機能を統一し拡張可能なフレームワークである。 また、広範囲のデータ視覚化テンプレート、低次元投影、時系列分類操作など、抽出された特徴の処理と解釈のための一連の機能を含んでいる。 科学と産業における時系列データセットの量と複雑さの増大に伴い、盗難は時系列における情報構造を包括的に定量化し解釈するための標準化されたフレームワークを提供する。

Time series are measured and analyzed across the sciences. One method of quantifying the structure of time series is by calculating a set of summary statistics or `features', and then representing a time series in terms of its properties as a feature vector. The resulting feature space is interpretable and informative, and enables conventional statistical learning approaches, including clustering, regression, and classification, to be applied to time-series datasets. Many open-source software packages for computing sets of time-series features exist across multiple programming languages, including catch22 (22 features: Matlab, R, Python, Julia), feasts (42 features: R), tsfeatures (63 features: R), Kats (40 features: Python), tsfresh (779 features: Python), and TSFEL (390 features: Python). However, there are several issues: (i) a singular access point to these packages is not currently available; (ii) to access all feature sets, users must be fluent in multiple languages; and (iii) these feature-extraction packages lack extensive accompanying methodological pipelines for performing feature-based time-series analysis, such as applications to time-series classification. Here we introduce a solution to these issues in an R software package called theft: Tools for Handling Extraction of Features from Time series. theft is a unified and extendable framework for computing features from the six open-source time-series feature sets listed above. It also includes a suite of functions for processing and interpreting the performance of extracted features, including extensive data-visualization templates, low-dimensional projections, and time-series classification operations. With an increasing volume and complexity of time-series datasets in the sciences and industry, theft provides a standardized framework for comprehensively quantifying and interpreting informative structure in time series.
翻訳日:2022-08-15 13:18:17 公開日:2022-08-12
# 多数のバイリンガル辞書を自動的に作成する

Automatically Creating a Large Number of New Bilingual Dictionaries ( http://arxiv.org/abs/2208.06110v1 )

ライセンス: Link先を確認
Khang Nhut Lam and Feras Al Tarouti and Jugal Kalita(参考訳) 本稿では,低リソース言語,特に資源不足言語と絶滅危惧言語に対して,単一の入力バイリンガル辞書から,多数の新二言語辞書を自動的に作成する手法を提案する。 本アルゴリズムは、利用可能なwordnets と machine translator (mt) を用いて、ソース言語中の単語をターゲット言語に翻訳する。 我々のアプローチは1つの入力辞書、利用可能なWordnet、MTにのみ依存するため、2つの言語のうちの1つが英語である場合や、プリンストンワーネットにリンクされたWordnetがある場合、任意のバイリンガル辞書に適用できる。 5つのバイリンガル辞書から始め、48の新しいバイリンガル辞書を作成します。 そのうち30言語は、人気のMT(GoogleとBing)ではサポートされていない。

This paper proposes approaches to automatically create a large number of new bilingual dictionaries for low-resource languages, especially resource-poor and endangered languages, from a single input bilingual dictionary. Our algorithms produce translations of words in a source language to plentiful target languages using available Wordnets and a machine translator (MT). Since our approaches rely on just one input dictionary, available Wordnets and an MT, they are applicable to any bilingual dictionary as long as one of the two languages is English or has a Wordnet linked to the Princeton Wordnet. Starting with 5 available bilingual dictionaries, we create 48 new bilingual dictionaries. Of these, 30 pairs of languages are not supported by the popular MTs: Google and Bing.
翻訳日:2022-08-15 13:17:28 公開日:2022-08-12
# 協定のスパース確率

Sparse Probability of Agreement ( http://arxiv.org/abs/2208.06161v1 )

ライセンス: Link先を確認
Jeppe N{\o}rregaard, Leon Derczynski(参考訳) アノテーション間の合意を測定することは、アノテーションタスクにとって重要であるが、多くのメトリクスは、すべてのアノテーションがすべてのサンプルに注釈を付ける完全なアノテーション付きデータセット(またはサブセット)を必要とする。 我々は、すべてのアノテータ・イテムペアが利用できない場合に、合意の確率を推定するSPA(Sparse Probability of Agreement)を定義する。 SPAは,いくつかの仮定で不偏推定器であり,異なる数のアノテーションを用いてサンプルを処理するための複数の異なる重み付けスキームを提供する。

Measuring inter-annotator agreement is important for annotation tasks, but many metrics require a fully-annotated dataset (or subset), where all annotators annotate all samples. We define Sparse Probability of Agreement, SPA, which estimates the probability of agreement when no all annotator-item-pairs are available. We show that SPA, with some assumptions, is an unbiased estimator and provide multiple different weighing schemes for handling samples with different numbers of annotation, evaluated over a range of datasets.
翻訳日:2022-08-15 13:17:16 公開日:2022-08-12
# 裁判所決定における法的議論のマイニング

Mining Legal Arguments in Court Decisions ( http://arxiv.org/abs/2208.06178v1 )

ライセンス: Link先を確認
Ivan Habernal, Daniel Faber, Nicola Recchia, Sebastian Bretthauer, Iryna Gurevych, Indra Spiecker genannt D\"ohmann, Christoph Burchard(参考訳) 法的談話における議論の同定、分類、分析は、議論採掘分野の開始以来、顕著な研究分野であった。 しかしながら、自然言語処理(NLP)研究者は、裁判所の決定における議論のモデル化と注釈付けの方法と、法の専門家が法的議論を理解し分析する方法との間に大きな違いがある。 計算的アプローチは一般的に一般的な前提や主張に対する議論を単純化するが、法律研究における議論は、典型的には、特定の場合や一般法の適用に関する洞察を得るために重要なリッチな類型論を示す。 この問題に対処し、フィールドを前進させるためにいくつかの重要な貢献をする。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。 すべてのデータセットとソースコードは、open lincensesのhttps://github.com/trusthlt/mining-legal-argumentsで入手できる。

Identifying, classifying, and analyzing arguments in legal discourse has been a prominent area of research since the inception of the argument mining field. However, there has been a major discrepancy between the way natural language processing (NLP) researchers model and annotate arguments in court decisions and the way legal experts understand and analyze legal argumentation. While computational approaches typically simplify arguments into generic premises and claims, arguments in legal research usually exhibit a rich typology that is important for gaining insights into the particular case and applications of law in general. We address this problem and make several substantial contributions to move the field forward. First, we design a new annotation scheme for legal arguments in proceedings of the European Court of Human Rights (ECHR) that is deeply rooted in the theory and practice of legal argumentation research. Second, we compile and annotate a large corpus of 373 court decisions (2.3M tokens and 15k annotated argument spans). Finally, we train an argument mining model that outperforms state-of-the-art models in the legal NLP domain and provide a thorough expert-based evaluation. All datasets and source codes are available under open lincenses at https://github.com/trusthlt/mining-legal-arguments.
翻訳日:2022-08-15 13:17:04 公開日:2022-08-12
# ファジィ数の概念の格子一般化とザデの拡張原理

Lattice Generalizations of the Concept of Fuzzy Numbers and Zadeh's Extension Principle ( http://arxiv.org/abs/2208.06224v1 )

ライセンス: Link先を確認
Dmitry Maximov(参考訳) ファジィ数の概念は、メンバシップ関数が半順序集合(格子)の値を取るとき、より正確には格子である部分順序要素の有限キャリア集合の場合に一般化される。 ファジィ数の関数の帰属度を決定するためのザデの拡張原理は、この一般化のために修正される。 平均値の概念の類似性も示唆されている。 認知地図における部分順序値と専門家評価の比較について考察する。

The concept of a fuzzy number is generalized to the case of a finite carrier set of partially ordered elements, more precisely, a lattice, when a membership function also takes values in a partially ordered set (a lattice). Zadeh's extension principle for determining the degree of membership of a function of fuzzy numbers is corrected for this generalization. An analogue of the concept of mean value is also suggested. The use of partially ordered values in cognitive maps with comparison of expert assessments is considered.
翻訳日:2022-08-15 13:16:44 公開日:2022-08-12
# 抗菌意思決定を支援する道徳的AIの開発

Developing moral AI to support antimicrobial decision making ( http://arxiv.org/abs/2208.06327v1 )

ライセンス: Link先を確認
William J Bolton, Cosmin Badea, Pantelis Georgiou, Alison Holmes, Timothy M Rawson(参考訳) 抗菌薬の処方を支援する人工知能(ai)は、重要な道徳的疑問を提起する。 AI駆動システムとともに倫理的枠組みを活用することは、感染特異な複雑さを考慮しながら、抗微生物抵抗に対処する道徳的決定を支援することができる。

Artificial intelligence (AI) assisting with antimicrobial prescribing raises significant moral questions. Utilising ethical frameworks alongside AI-driven systems, while considering infection specific complexities, can support moral decision making to tackle antimicrobial resistance.
翻訳日:2022-08-15 13:13:31 公開日:2022-08-12
# AutoShard: Recommenderシステムのためのテーブルシャーディング自動化

AutoShard: Automated Embedding Table Sharding for Recommender Systems ( http://arxiv.org/abs/2208.06399v1 )

ライセンス: Link先を確認
Daochen Zha, Louis Feng, Bhargav Bhushanam, Dhruv Choudhary, Jade Nie, Yuandong Tian, Jay Chae, Yinbin Ma, Arun Kejariwal, Xia Hu(参考訳) 埋め込み学習は、カテゴリの特徴を密閉ベクトルにマッピングする深層推奨モデルにおいて重要な技術である。 しかし、埋め込みテーブルは、しばしば非常に多くのパラメータを必要とし、ストレージと効率のボトルネックとなる。 埋め込みテーブルを複数のデバイスに分割する分散トレーニングソリューションが採用されている。 しかし、埋め込みテーブルは慎重に分割しなければ容易に不均衡につながる。 これは、組み込みテーブルシャーディング(embedd table sharding)という、分散システムにおける重要な設計課題である。 1)効率良く正確にコストを計測することは困難であり、 2) 分割問題はNPハードであることが知られている。 本稿では,神経コストモデルを用いてマルチテーブルコストを直接予測し,分割問題を解決するために深層強化学習を活用した,メタの新たなプラクティスであるautoshardを紹介する。 オープンソースの大規模合成データセットとmetaのプロダクションデータセットの実験結果は、ヒューリスティックスよりもautoshardの方が優れていることを示している。 さらに、AutoShardの学習ポリシーは、微調整なしで、さまざまな数のテーブルと見えないテーブルの異なる比率でシャーディングタスクに転送することができる。 さらにAutoShardは、数百のテーブルを数秒で効率よくシャーディングできる。 AutoShardの有効性、転送性、効率性は、プロダクション利用に望ましい。 当社のアルゴリズムはメタ生産環境にデプロイされています。 プロトタイプはhttps://github.com/daochenzha/autoshardで入手できる。

Embedding learning is an important technique in deep recommendation models to map categorical features to dense vectors. However, the embedding tables often demand an extremely large number of parameters, which become the storage and efficiency bottlenecks. Distributed training solutions have been adopted to partition the embedding tables into multiple devices. However, the embedding tables can easily lead to imbalances if not carefully partitioned. This is a significant design challenge of distributed systems named embedding table sharding, i.e., how we should partition the embedding tables to balance the costs across devices, which is a non-trivial task because 1) it is hard to efficiently and precisely measure the cost, and 2) the partition problem is known to be NP-hard. In this work, we introduce our novel practice in Meta, namely AutoShard, which uses a neural cost model to directly predict the multi-table costs and leverages deep reinforcement learning to solve the partition problem. Experimental results on an open-sourced large-scale synthetic dataset and Meta's production dataset demonstrate the superiority of AutoShard over the heuristics. Moreover, the learned policy of AutoShard can transfer to sharding tasks with various numbers of tables and different ratios of the unseen tables without any fine-tuning. Furthermore, AutoShard can efficiently shard hundreds of tables in seconds. The effectiveness, transferability, and efficiency of AutoShard make it desirable for production use. Our algorithms have been deployed in Meta production environment. A prototype is available at https://github.com/daochenzha/autoshard
翻訳日:2022-08-15 13:13:27 公開日:2022-08-12
# 潜在ハミルトンニューラルネットワークによるベイズ推定

Bayesian Inference with Latent Hamiltonian Neural Networks ( http://arxiv.org/abs/2208.06120v1 )

ライセンス: Link先を確認
Somayajulu L. N. Dhulipala, Yifeng Che, Michael D. Shields(参考訳) ベイズ推定のサンプリングでは、ハミルトニアンモンテカルロ (HMC) と特にハミルトン軌道の終点を自動的に決定するNo-U-Turn Sampler (NUTS) を用いるのが一般的である。 しかし、HMCとNUTSは対象密度の数値勾配を必要とする可能性があり、実際は遅いことが証明できる。 ベイズ推論問題の解法として,HMCとNUTSを用いたハミルトンニューラルネットワークを提案する。 一度訓練すると、HNNはサンプリング中にターゲット密度の数値勾配を必要としない。 さらに、完全時間可逆性やハミルトン保存といった重要な性質を満足し、定常性を示すことができるため、HMCやNUTSでの使用に適している。 また、潜時変数の出力を予測可能な潜時HNN(L-HNNs)と呼ばれるHNN拡張も提案する。 HNNと比較して、L-HNNは表現性の向上と統合エラーの低減を提供する。 最後に,低確率密度領域におけるサンプルの退化を防止するために,オンラインエラー監視方式を用いてL-HNNをNUTSに導入する。 NUTSにおけるL-HNNを,複雑で重みのある高局所曲率の確率密度を含むいくつかの事例について,オンラインエラーモニタリングを用いて実証した。 全体として、NUTSのL-HNNとオンラインエラーモニタリングは、これらの確率密度を十分に推測した。 従来のNUTSと比較して、NUTSのL-HNNとオンラインエラー監視では、ターゲット密度の数値勾配を桁違いに減らし、1桁あたりの有効サンプルサイズ(ESS)を桁違いに改善する必要があった。

When sampling for Bayesian inference, one popular approach is to use Hamiltonian Monte Carlo (HMC) and specifically the No-U-Turn Sampler (NUTS) which automatically decides the end time of the Hamiltonian trajectory. However, HMC and NUTS can require numerous numerical gradients of the target density, and can prove slow in practice. We propose Hamiltonian neural networks (HNNs) with HMC and NUTS for solving Bayesian inference problems. Once trained, HNNs do not require numerical gradients of the target density during sampling. Moreover, they satisfy important properties such as perfect time reversibility and Hamiltonian conservation, making them well-suited for use within HMC and NUTS because stationarity can be shown. We also propose an HNN extension called latent HNNs (L-HNNs), which are capable of predicting latent variable outputs. Compared to HNNs, L-HNNs offer improved expressivity and reduced integration errors. Finally, we employ L-HNNs in NUTS with an online error monitoring scheme to prevent sample degeneracy in regions of low probability density. We demonstrate L-HNNs in NUTS with online error monitoring on several examples involving complex, heavy-tailed, and high-local-curvature probability densities. Overall, L-HNNs in NUTS with online error monitoring satisfactorily inferred these probability densities. Compared to traditional NUTS, L-HNNs in NUTS with online error monitoring required 1--2 orders of magnitude fewer numerical gradients of the target density and improved the effective sample size (ESS) per gradient by an order of magnitude.
翻訳日:2022-08-15 13:13:06 公開日:2022-08-12
# パブリックソースからのプライベートドメイン適応

Private Domain Adaptation from a Public Source ( http://arxiv.org/abs/2208.06135v1 )

ライセンス: Link先を確認
Raef Bassily, Mehryar Mohri, Ananda Theertha Suresh(参考訳) 様々なアプリケーションにおいて重要な問題は、プライバシ制約のない比較的大量のラベル付きデータが廃棄される、パブリックドメインからプライベートターゲットドメインへのドメイン適応であり、プライベートサンプルは、非常に少数またはほとんどラベル付きデータを利用できない。 ソースやターゲットデータにプライバシー制約がない回帰問題において、いくつかの理論的保証に基づく誤差最小化アルゴリズムは、他の多くの適応アルゴリズムのベースラインよりも優れていることを示した。 この手法に基づいて、公開ラベル付きデータを持つソースドメインから、未ラベルのプライベートデータを持つターゲットドメインへの適応のための差分プライベート離散性に基づくアルゴリズムを設計する。 我々のプライベートアルゴリズムの設計と解析は、いくつかの重要な性質に重み付けされた不一致の滑らかな近似(例えば$\ell_1$-norm に対する滑らかさや勾配の感度)を重要視している。 我々のソリューションは、frank-wolfeとmirror-descentアルゴリズムのプライベート変種に基づいている。 適応アルゴリズムは,強い一般化とプライバシー保証の恩恵を受け,その効果を示す実験結果を報告する。

A key problem in a variety of applications is that of domain adaptation from a public source domain, for which a relatively large amount of labeled data with no privacy constraints is at one's disposal, to a private target domain, for which a private sample is available with very few or no labeled data. In regression problems with no privacy constraints on the source or target data, a discrepancy minimization algorithm based on several theoretical guarantees was shown to outperform a number of other adaptation algorithm baselines. Building on that approach, we design differentially private discrepancy-based algorithms for adaptation from a source domain with public labeled data to a target domain with unlabeled private data. The design and analysis of our private algorithms critically hinge upon several key properties we prove for a smooth approximation of the weighted discrepancy, such as its smoothness with respect to the $\ell_1$-norm and the sensitivity of its gradient. Our solutions are based on private variants of Frank-Wolfe and Mirror-Descent algorithms. We show that our adaptation algorithms benefit from strong generalization and privacy guarantees and report the results of experiments demonstrating their effectiveness.
翻訳日:2022-08-15 13:12:38 公開日:2022-08-12
# 低次元構造の関数分解による局所的・大域的モデル説明の統一

Unifying local and global model explanations by functional decomposition of low dimensional structures ( http://arxiv.org/abs/2208.06151v1 )

ライセンス: Link先を確認
Munir Hiabu, Joseph T. Meyer and Marvin N. Wright(参考訳) 我々は、回帰関数や分類関数のグローバルな説明を、任意の順序の主成分と相互作用成分の和に分解することで考える。 因果解釈によって動機付けられた識別制約を加えると、q-相互作用 SHAP がその制約のユニークな解となる。 ここで、qは分解に存在する相互作用の最高位を表す。 SHAP値が主およびすべての相互作用効果に分解された場合、因果解釈による世界的説明を提供する。 原則として、分解は任意の機械学習モデルに適用できる。 しかしながら、可能な相互作用の数は特徴の数とともに指数関数的に増加するため、正確な計算は低次元構造やそれらのアンサンブルに適合する手法に対してのみ可能である。 この分解を計算するために,傾斜強化木(xgboostとランダム植林林)のアルゴリズムと効率的な実装を提供する。 実験により,本手法が意味のある説明を提供し,より高い順序の相互作用を明らかにすることが示唆された。 また,新たな特徴指標のモチベーションと,ポストホック成分除去による直接的・間接的偏見の低減にグローバルな説明を活用することで,新たな洞察のさらなる可能性についても検討する。

We consider a global explanation of a regression or classification function by decomposing it into the sum of main components and interaction components of arbitrary order. When adding an identification constraint that is motivated by a causal interpretation, we find q-interaction SHAP to be the unique solution to that constraint. Here, q denotes the highest order of interaction present in the decomposition. Our result provides a new perspective on SHAP values with various practical and theoretical implications: If SHAP values are decomposed into main and all interaction effects, they provide a global explanation with causal interpretation. In principle, the decomposition can be applied to any machine learning model. However, since the number of possible interactions grows exponentially with the number of features, exact calculation is only feasible for methods that fit low dimensional structures or ensembles of those. We provide an algorithm and efficient implementation for gradient boosted trees (xgboost and random planted forests that calculates this decomposition. Conducted experiments suggest that our method provides meaningful explanations and reveals interactions of higher orders. We also investigate further potential of our new insights by utilizing the global explanation for motivating a new measure of feature importance, and for reducing direct and indirect bias by post-hoc component removal.
翻訳日:2022-08-15 13:12:18 公開日:2022-08-12
# 深層ネットワークにおける実世界のロバスト性向上のためのグラディエント統合

Unifying Gradients to Improve Real-world Robustness for Deep Networks ( http://arxiv.org/abs/2208.06228v1 )

ライセンス: Link先を確認
Yingwen Wu, Sizhe Chen, Kun Fang, Xiaolin Huang(参考訳) ディープニューラルネットワーク(DNN)の広範な適用は、実際のロバスト性(すなわち、DNNがブラックボックスの敵対的攻撃に抵抗するかどうか、その実用性と有効性から最も脅威となるものであるスコアベースのクエリアタック(SQA)が要求される。 SQAに対する防御には、攻撃者と同じ出力情報を共有しているユーザのために、サービス目的のために、わずかながら巧妙な出力のバリエーションが必要です。 本稿では,Unified Gradients (UniG) と呼ばれる実世界のディフェンスを提案し,異なるサンプルに対して類似したより弱い攻撃方向を攻撃者が探究できるように,異なるデータの勾配を統一する。 このようなユニバーサルアタックの摂動は入力固有の摂動よりも攻撃性が低いと確認されているため、unigは攻撃者がねじれて情報的な攻撃方向を指示することで現実世界のdnnを保護する。 実世界のアプリケーションにおけるUniGの実用的重要性を高めるため、計算効率が高く、任意のモデルに容易に接続できるアダマール製品モジュールとして実装する。 5つのSQAと4つの防衛ベースラインに関する広範な実験によると、UniGはCIFAR10とImageNetの正確さを損なうことなく、現実世界の堅牢性を著しく改善している。 例えば、UniGは2500-query Square攻撃下で77.80%の精度のCIFAR-10モデルを維持しているが、最先端の対角訓練モデルはCIFAR10で67.34%しか持たない。 同時に、UniGはクリーンな精度と出力の修正度で比較されたベースラインをはるかに上回っている。 コードはリリースされます。

The wide application of deep neural networks (DNNs) demands an increasing amount of attention to their real-world robustness, i.e., whether a DNN resists black-box adversarial attacks, among them score-based query attacks (SQAs) are the most threatening ones because of their practicalities and effectiveness: the attackers only need dozens of queries on model outputs to seriously hurt a victim network. Defending against SQAs requires a slight but artful variation of outputs due to the service purpose for users, who share the same output information with attackers. In this paper, we propose a real-world defense, called Unifying Gradients (UniG), to unify gradients of different data so that attackers could only probe a much weaker attack direction that is similar for different samples. Since such universal attack perturbations have been validated as less aggressive than the input-specific perturbations, UniG protects real-world DNNs by indicating attackers a twisted and less informative attack direction. To enhance UniG's practical significance in real-world applications, we implement it as a Hadamard product module that is computationally-efficient and readily plugged into any model. According to extensive experiments on 5 SQAs and 4 defense baselines, UniG significantly improves real-world robustness without hurting clean accuracy on CIFAR10 and ImageNet. For instance, UniG maintains a CIFAR-10 model of 77.80% accuracy under 2500-query Square attack while the state-of-the-art adversarially-trained model only has 67.34% on CIFAR10. Simultaneously, UniG greatly surpasses all compared baselines in clean accuracy and the modification degree of outputs. The code would be released.
翻訳日:2022-08-15 13:11:59 公開日:2022-08-12
# マルコフ観測モデル

Markov Observation Models ( http://arxiv.org/abs/2208.06368v1 )

ライセンス: Link先を確認
Michael A. Kouritzin(参考訳) ここで、隠れマルコフモデルはマルコフ連鎖観測を可能にするために拡張される。 特に、観測は隠れマルコフ鎖に依存する一段階の遷移確率を持つマルコフ連鎖であると仮定される。 ボーム・ウェルチ法(baum-welch algorithm)に対する期待最大化の類似性は、隠れ状態と観測の両方の遷移確率を推定し、また初期結合状態観測分布の確率を推定するために開発された。 隠れた状態を追跡するための信頼状態またはフィルタ再帰は、この期待最大化アルゴリズムの計算から生じる。 ビタビアルゴリズムに類似した動的計画法も開発され、観測の順序から隠れた状態の最も可能性の高いシーケンスを推定する。

Herein, the Hidden Markov Model is expanded to allow for Markov chain observations. In particular, the observations are assumed to be a Markov chain whose one step transition probabilities depend upon the hidden Markov chain. An Expectation-Maximization analog to the Baum-Welch algorithm is developed for this more general model to estimate the transition probabilities for both the hidden state and for the observations as well as to estimate the probabilities for the initial joint hidden-state-observation distribution. A believe state or filter recursion to track the hidden state then arises from the calculations of this Expectation-Maximization algorithm. A dynamic programming analog to the Viterbi algorithm is also developed to estimate the most likely sequence of hidden states given the sequence of observations.
翻訳日:2022-08-15 13:10:49 公開日:2022-08-12
# 非線形独立成分分析のための関数クラス

Function Classes for Identifiable Nonlinear Independent Component Analysis ( http://arxiv.org/abs/2208.06406v1 )

ライセンス: Link先を確認
Simon Buchholz, Michel Besserve, Bernhard Sch\"olkopf(参考訳) 潜在変数モデル(LVM)の教師なし学習は機械学習のデータ表現に広く用いられている。 このようなモデルが基底的真理因子とそれを観測にマッピングするメカニズムを反映している場合、下流タスクの一般化を許容する理由がある。 しかし、そのような識別可能性保証が一般にモデルクラスに制約を加えることなく達成できないことはよく知られている。 特に非線形独立成分分析では、LVMは統計的に独立な変数を決定論的非線形関数を通して観測にマッピングする。 完全なデータに適合するスプリアス解のいくつかのファミリーは、基礎的真理因子に対応していないが、汎用的な設定で構成することができる。 しかし、近年の研究は、そのようなモデルの関数クラスを制約することは、識別可能性を促進することを示唆している。 具体的には、ジャコビアン行列(英語版)(Jacobian matrix)に集められた部分微分に制約のある函数クラスが提案されており、例えば、ジャコビアン列の直交性を課す直交座標変換(OCT)がある。 本研究は,これらの変換のサブクラスである共形写像が同定可能であることを証明し,OCTが一般の環境での識別性を損なう突発解の族を阻止する性質を持つことを示す新しい理論的結果を提供する。

Unsupervised learning of latent variable models (LVMs) is widely used to represent data in machine learning. When such models reflect the ground truth factors and the mechanisms mapping them to observations, there is reason to expect that they allow generalization in downstream tasks. It is however well known that such identifiability guaranties are typically not achievable without putting constraints on the model class. This is notably the case for nonlinear Independent Component Analysis, in which the LVM maps statistically independent variables to observations via a deterministic nonlinear function. Several families of spurious solutions fitting perfectly the data, but that do not correspond to the ground truth factors can be constructed in generic settings. However, recent work suggests that constraining the function class of such models may promote identifiability. Specifically, function classes with constraints on their partial derivatives, gathered in the Jacobian matrix, have been proposed, such as orthogonal coordinate transformations (OCT), which impose orthogonality of the Jacobian columns. In the present work, we prove that a subclass of these transformations, conformal maps, is identifiable and provide novel theoretical results suggesting that OCTs have properties that prevent families of spurious solutions to spoil identifiability in a generic setting.
翻訳日:2022-08-15 13:07:47 公開日:2022-08-12
# 低リソースmlデプロイメントにおける拒絶の1例

A Case for Rejection in Low Resource ML Deployment ( http://arxiv.org/abs/2208.06359v1 )

ライセンス: Link先を確認
Jerome White, Pulkit Madaan, Nikhil Shenoy, Apoorv Agnihotri, Makkunda Sharma, Jigar Doshi(参考訳) 信頼性の高いAI意思決定支援システムを構築するには、量と多様性の両方に関して、モデルをトレーニングする堅牢なデータセットが必要です。 このようなデータセットの取得は、リソース制限された設定や、デプロイメントの初期段階のアプリケーションでは困難である。 サンプルの拒絶は、この課題に取り組む一つの方法であるが、この分野の既存の作業の多くは、そのようなシナリオに不適である。 本稿では,その位置を仮定し,概念ベースラインの証明として簡単な解法を提案する。

Building reliable AI decision support systems requires a robust set of data on which to train models; both with respect to quantity and diversity. Obtaining such datasets can be difficult in resource limited settings, or for applications in early stages of deployment. Sample rejection is one way to work around this challenge, however much of the existing work in this area is ill-suited for such scenarios. This paper substantiates that position and proposes a simple solution as a proof of concept baseline.
翻訳日:2022-08-15 13:06:54 公開日:2022-08-12
# 地磁気慣性航法に基づく動的センサマッチング

Dynamic Sensor Matching based on Geomagnetic Inertial Navigation ( http://arxiv.org/abs/2208.06233v1 )

ライセンス: Link先を確認
Simone M\"uller and Dieter Kranzlm\"uller(参考訳) 光センサーは動的環境を捉え、ほぼリアルタイムで深度情報を導き出すことができる。 これらのデジタル再構成の品質は、照明、表面およびテクスチャ条件、センシング速度などのセンサ特性、センサオブジェクトの関係などによって決定される。 複数のセンサから動的に収集されたデータを使うことで、改善が得られる。 しかし、複数のセンサーからのデータをマッチングするには、共有世界座標システムが必要である。 本稿では,多センサデータを一般に参照される世界座標系である地球の磁場に転送する概念を提案する。 惑星磁場の定常的な存在は、動的環境の位置決定された再構築の基準となる信頼性の高い世界座標系を提供する。 本手法は,zed 2ステレオカメラの磁場センサを用いて,コンパスに類似した極に対する向き付けを提供するステレオラブを用いて評価する。 慣性測定ユニット情報の助けを借りて、各カメラの位置データを統一世界座標系に転送することができる。 本評価では,地球磁場による品質のレベルを明らかにし,環境検出のための光マルチセンサの動的・リアルタイム応用の基礎となる。

Optical sensors can capture dynamic environments and derive depth information in near real-time. The quality of these digital reconstructions is determined by factors like illumination, surface and texture conditions, sensing speed and other sensor characteristics as well as the sensor-object relations. Improvements can be obtained by using dynamically collected data from multiple sensors. However, matching the data from multiple sensors requires a shared world coordinate system. We present a concept for transferring multi-sensor data into a commonly referenced world coordinate system: the earth's magnetic field. The steady presence of our planetary magnetic field provides a reliable world coordinate system, which can serve as a reference for a position-defined reconstruction of dynamic environments. Our approach is evaluated using magnetic field sensors of the ZED 2 stereo camera from Stereolabs, which provides orientation relative to the North Pole similar to a compass. With the help of inertial measurement unit informations, each camera's position data can be transferred into the unified world coordinate system. Our evaluation reveals the level of quality possible using the earth magnetic field and allows a basis for dynamic and real-time-based applications of optical multi-sensors for environment detection.
翻訳日:2022-08-15 13:06:48 公開日:2022-08-12
# 2レベルエンコーダとコモンセンス知識によるスマートホームの高精度行動勧告

Accurate Action Recommendation for Smart Home via Two-Level Encoders and Commonsense Knowledge ( http://arxiv.org/abs/2208.06089v1 )

ライセンス: Link先を確認
Hyunsik Jeon, Jongjin Kim, Hoyoung Yoon, Jaeri Lee, U Kang(参考訳) ユーザーが自宅でデバイスを制御するために、どうすれば正確にアクションを推奨できるのか? スマートホームのアクションレコメンデーションは、仮想アシスタントやIoT(Internet of Things)の市場に影響を与える可能性があることから、注目を集めている。 しかし,スマートホームのための効果的なアクションレコメンデータシステムの設計には,コンテキスト相関の処理,検索コンテキストと過去のユーザ履歴の両面を考慮したり,歴史における有能な意図を扱う必要があるため,課題がある。 本研究では,スマートホームのための高精度なアクションレコメンデーション手法であるSmartSenseを提案する。 個々のアクションについて、SmartSenseはデバイスコントロールとその時間的コンテキストを自己注意的に要約し、それら間の相関の重要性を反映している。 SmartSenseは、クエリ関連パターンをシーケンシャルアクションから抽出するために、クエリアテンティブな方法でクエリされたコンテキストを考慮するユーザのシーケンスを要約する。 SmartSenseはまた、通常のデータからコモンセンスの知識を転送し、アクションシーケンスの意図をよりよく処理する。 その結果、SmartSenseはスマートホームのアクションレコメンデーションの3つの主な課題に対処し、最高の競合製品よりも9.8%高いmAP@1を与える最先端のパフォーマンスを達成する。

How can we accurately recommend actions for users to control their devices at home? Action recommendation for smart home has attracted increasing attention due to its potential impact on the markets of virtual assistants and Internet of Things (IoT). However, designing an effective action recommender system for smart home is challenging because it requires handling context correlations, considering both queried contexts and previous histories of users, and dealing with capricious intentions in history. In this work, we propose SmartSense, an accurate action recommendation method for smart home. For individual action, SmartSense summarizes its device control and its temporal contexts in a self-attentive manner, to reflect the importance of the correlation between them. SmartSense then summarizes sequences of users considering queried contexts in a query-attentive manner to extract the query-related patterns from the sequential actions. SmartSense also transfers the commonsense knowledge from routine data to better handle intentions in action sequences. As a result, SmartSense addresses all three main challenges of action recommendation for smart home, and achieves the state-of-the-art performance giving up to 9.8% higher mAP@1 than the best competitor.
翻訳日:2022-08-15 13:06:04 公開日:2022-08-12
# Zeus: DNNトレーニングにおけるGPUエネルギー消費の理解と最適化

Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training ( http://arxiv.org/abs/2208.06102v1 )

ライセンス: Link先を確認
Jie You, Jae-Won Chung, Mosharaf Chowdhury(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは、毎年ますますリソースとエネルギー集約化が進んでいる。 残念なことに、既存の研究は主にエネルギー効率への影響を考慮せずにDNNトレーニングの最適化に重点を置いている。 本稿では、トレーニング性能を改善するための一般的な実践が、しばしば非効率なエネルギー消費につながることを観察する。 さらに,エネルギー消費と性能最適化にはトレードオフがあることを実証する。 そこで本研究では,DNNトレーニングジョブを繰り返すための最適なジョブレベルとGPUレベルの設定を自動的に見つけることで,このトレードオフをナビゲートする最適化フレームワークZeusを提案する。 Zeusは、ジャスト・イン・タイムのエネルギープロファイリングと併用して、オンラインの探査・探査アプローチを採用し、高価なオフライン計測の必要性を回避し、時間の経過とともにデータドリフトに適応する。 我々の評価では、多様なワークロードに対して、ZeusはDNNトレーニングのエネルギー効率を15.3%--75.8%向上させることができる。

Training deep neural networks (DNNs) is becoming more and more resource- and energy-intensive every year. Unfortunately, existing works primarily focus on optimizing DNN training for faster completion, often without considering the impact on energy efficiency. In this paper, we observe that common practices to improve training performance can often lead to inefficient energy usage. More importantly, we demonstrate that there is a tradeoff between energy consumption and performance optimization. To this end, we propose an optimization framework, Zeus, to navigate this tradeoff by automatically finding optimal job- and GPU-level configurations for recurring DNN training jobs. Zeus uses an online exploration-exploitation approach in conjunction with just-in-time energy profiling, averting the need for expensive offline measurements, while adapting to data drifts over time. Our evaluation shows that Zeus can improve the energy efficiency of DNN training by 15.3%--75.8% for diverse workloads.
翻訳日:2022-08-15 13:05:42 公開日:2022-08-12
# 多重不均一グラフ畳み込みネットワーク

Multiplex Heterogeneous Graph Convolutional Network ( http://arxiv.org/abs/2208.06129v1 )

ライセンス: Link先を確認
Pengyang Yu, Chaofan Fu, Yanwei Yu, Chao Huang, Zhongying Zhao, Junyu Dong(参考訳) 不均一グラフ畳み込みネットワークは、リンク予測からノード分類に至るまで、異種ネットワークデータに対する様々なネットワーク解析タスクに取り組むことで大きな人気を得ている。 しかし、既存の作品の多くは、マルチタイプノード間の多重ネットワークとの関係の不均一性や、ノード埋め込みのためのメタパスにおける関係の重要性を無視している。 この課題に対処するために、異種ネットワーク埋め込みのための多重異種グラフ畳み込みネットワーク(MHGCN)を提案する。 mhgcnは多層畳み込みアグリゲーションにより,多層異種ネットワークにおける異なる長さのヘテロジニアスなメタパス相互作用を自動学習する。 さらに,マルチリレーション構造信号と属性セマンティクスの両方を,教師なしと半教師なしの両方の学習パラダイムで学習ノード埋め込みに統合する。 様々なネットワーク分析タスクを持つ5つの実世界のデータセットに対する大規模な実験は、すべての評価指標の観点から、最先端の埋め込みベースラインに対するMHGCNの顕著な優位性を示している。

Heterogeneous graph convolutional networks have gained great popularity in tackling various network analytical tasks on heterogeneous network data, ranging from link prediction to node classification. However, most existing works ignore the relation heterogeneity with multiplex network between multi-typed nodes and different importance of relations in meta-paths for node embedding, which can hardly capture the heterogeneous structure signals across different relations. To tackle this challenge, this work proposes a Multiplex Heterogeneous Graph Convolutional Network (MHGCN) for heterogeneous network embedding. Our MHGCN can automatically learn the useful heterogeneous meta-path interactions of different lengths in multiplex heterogeneous networks through multi-layer convolution aggregation. Additionally, we effectively integrate both multi-relation structural signals and attribute semantics into the learned node embeddings with both unsupervised and semi-supervised learning paradigms. Extensive experiments on five real-world datasets with various network analytical tasks demonstrate the significant superiority of MHGCN against state-of-the-art embedding baselines in terms of all evaluation metrics.
翻訳日:2022-08-15 13:05:23 公開日:2022-08-12
# グラディエントリークを防ぐのに必要なのはドロップアウトだけではない

Dropout is NOT All You Need to Prevent Gradient Leakage ( http://arxiv.org/abs/2208.06163v1 )

ライセンス: Link先を確認
Daniel Scheliga and Patrick M\"ader and Marco Seeland(参考訳) フェデレーション学習システムの勾配反転攻撃は、交換された勾配情報からクライアントトレーニングデータを再構築する。 このような攻撃に対抗するため、様々な防御機構が提案された。 しかし、それらは通常、プライバシとモデルユーティリティの間の許容できないトレードオフにつながる。 最近の観測から、ドロップアウトは勾配の漏洩を緩和し、ニューラルネットワークに追加すればモデルの有用性を向上させることが示唆された。 残念ながら、この現象は体系的に研究されていない。 本研究では,繰り返し勾配反転攻撃に対するドロップアウトの影響を徹底的に解析する。 モデルトレーニング中のドロップアウトによって引き起こされる確率により,攻撃状態がクライアントデータを再構築できないことがわかった。 それでも我々は,ドロップアウトによる確率性が攻撃最適化中に適切にモデル化された場合,ドロップアウトは信頼性のある保護を提供しないと主張している。 その結果、クライアントデータとドロップアウトマスクを協調的に最適化し、確率的クライアントモデルに近似する新しいDropout Inversion Attack (DIA)を提案する。 我々は4つのセミナルモデルアーキテクチャと3つの画像分類データセットに対する攻撃の系統的評価を行った。 提案する攻撃は,ドロップアウトによって引き起こされるような保護をバイパスし,高い忠実度でクライアントデータを再構築する。 我々の研究は、モデルアーキテクチャの変更を誘導するプライバシは、勾配リークから確実に保護できないため、補完的な防御機構と組み合わせるべきであることを実証している。

Gradient inversion attacks on federated learning systems reconstruct client training data from exchanged gradient information. To defend against such attacks, a variety of defense mechanisms were proposed. However, they usually lead to an unacceptable trade-off between privacy and model utility. Recent observations suggest that dropout could mitigate gradient leakage and improve model utility if added to neural networks. Unfortunately, this phenomenon has not been systematically researched yet. In this work, we thoroughly analyze the effect of dropout on iterative gradient inversion attacks. We find that state of the art attacks are not able to reconstruct the client data due to the stochasticity induced by dropout during model training. Nonetheless, we argue that dropout does not offer reliable protection if the dropout induced stochasticity is adequately modeled during attack optimization. Consequently, we propose a novel Dropout Inversion Attack (DIA) that jointly optimizes for client data and dropout masks to approximate the stochastic client model. We conduct an extensive systematic evaluation of our attack on four seminal model architectures and three image classification datasets of increasing complexity. We find that our proposed attack bypasses the protection seemingly induced by dropout and reconstructs client data with high fidelity. Our work demonstrates that privacy inducing changes to model architectures alone cannot be assumed to reliably protect from gradient leakage and therefore should be combined with complementary defense mechanisms.
翻訳日:2022-08-15 13:05:06 公開日:2022-08-12
# 個人化の有無:インセンティブによる動的個人化フェデレーション学習

Personalizing or Not: Dynamically Personalized Federated Learning with Incentives ( http://arxiv.org/abs/2208.06192v1 )

ライセンス: Link先を確認
Zichen Ma, Yu Lu, Wenye Li, Shuguang Cui(参考訳) パーソナライズド・フェデレーション・ラーニング(FL)は、複数のクライアント間のコラボレーションを促進し、プライベートデータを共有せずにパーソナライズされたモデルを学習する。 このメカニズムはシステムでよく見られる統計的不均一性、すなわち異なるクライアント上の非IIDデータを緩和する。 既存のパーソナライズされたアルゴリズムでは、一般的にすべてのクライアントがパーソナライズを志願する。 しかし、潜在的な参加者は、モデルがうまく機能しないかもしれないため、モデルのパーソナライズには消極的かもしれない。 この場合、クライアントは代わりにグローバルモデルを選択する。 非現実的な仮定を避けるため、パーソナライズ率(パーソナライズされたモデルのトレーニングを希望するクライアント数)をフェデレーション設定に導入し、DyPFLを提案する。 この動的パーソナライズされたFL技術は、クライアントがローカルモデルをパーソナライズすることへのインセンティブを与えると同時に、より優れたパフォーマンスでグローバルモデルを採用できるようにする。 dypflのアルゴリズムパイプラインは,並列性の変動,クライアント数,局所的エポック数,バッチサイズなど,幅広い条件下で,代替パーソナライズされた手法よりも優れた収束性能を保証している。

Personalized federated learning (FL) facilitates collaborations between multiple clients to learn personalized models without sharing private data. The mechanism mitigates the statistical heterogeneity commonly encountered in the system, i.e., non-IID data over different clients. Existing personalized algorithms generally assume all clients volunteer for personalization. However, potential participants might still be reluctant to personalize models since they might not work well. In this case, clients choose to use the global model instead. To avoid making unrealistic assumptions, we introduce the personalization rate, measured as the fraction of clients willing to train personalized models, into federated settings and propose DyPFL. This dynamically personalized FL technique incentivizes clients to participate in personalizing local models while allowing the adoption of the global model when it performs better. We show that the algorithmic pipeline in DyPFL guarantees good convergence performance, allowing it to outperform alternative personalized methods in a broad range of conditions, including variation in heterogeneity, number of clients, local epochs, and batch sizes.
翻訳日:2022-08-15 13:01:50 公開日:2022-08-12
# 保全されていない共同ファウンダーによる因果模倣学習

Causal Imitation Learning with Unobserved Confounders ( http://arxiv.org/abs/2208.06267v1 )

ライセンス: Link先を確認
Junzhe Zhang, Daniel Kumor, Elias Bareinboim(参考訳) 子どもが学ぶ一般的な方法の1つは、大人をまねることである。 模倣学習(imitation learning)は、専門家が生成したデモンストレーションから適切なパフォーマンスで学習するポリシーに焦点を当てている。 模倣学習の一般的な方法は、専門家の行動方針を直接模倣するか、観察された専門家の軌道(逆強化学習)を優先する報酬関数を学習することから始まる。 しかしながら、これらの手法は、専門家が彼女の行動を決定するために使用する共変量は完全に観察されているという仮定に依存している。 本稿では,この仮定を緩和し,学習者と専門家の感覚入力が異なる場合の模倣学習を研究する。 まず、実証データと基礎となる環境に関する定性的な仮定の組み合わせから模倣の実現可能性を決定するために、因果モデルの形で表現された(必要かつ十分な)非パラメトリックなグラフィカルな基準を提供する。 そして,そのような基準が成立しない場合でも,専門家の軌跡の量的知識を活用すれば,模倣も可能となることを示した。 最後に,専門家の軌道から模倣政策を学習するための効率的な手順を開発する。

One of the common ways children learn is by mimicking adults. Imitation learning focuses on learning policies with suitable performance from demonstrations generated by an expert, with an unspecified performance measure, and unobserved reward signal. Popular methods for imitation learning start by either directly mimicking the behavior policy of an expert (behavior cloning) or by learning a reward function that prioritizes observed expert trajectories (inverse reinforcement learning). However, these methods rely on the assumption that covariates used by the expert to determine her/his actions are fully observed. In this paper, we relax this assumption and study imitation learning when sensory inputs of the learner and the expert differ. First, we provide a non-parametric, graphical criterion that is complete (both necessary and sufficient) for determining the feasibility of imitation from the combinations of demonstration data and qualitative assumptions about the underlying environment, represented in the form of a causal model. We then show that when such a criterion does not hold, imitation could still be feasible by exploiting quantitative knowledge of the expert trajectories. Finally, we develop an efficient procedure for learning the imitating policy from experts' trajectories.
翻訳日:2022-08-15 13:01:28 公開日:2022-08-12
# 非観血的共同設立者によるシークエンシャル因果模倣学習

Sequential Causal Imitation Learning with Unobserved Confounders ( http://arxiv.org/abs/2208.06276v1 )

ライセンス: Link先を確認
Daniel Kumor, Junzhe Zhang, Elias Bareinboim(参考訳) 猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「na\」の模倣を指して、昔ながらの格言である。 実際、もしデモンストレータが、異なるセンサーセットなどの模倣者(モンキー)に使用できない情報にアクセスする場合、どんなに完璧に模倣者が知覚された環境をモデル化しても(参照)、デモストラクタの動作(do)を再現しようとすると、結果が悪くなる可能性がある。 実証者と模倣者のミスマッチの存在下での模倣学習は、因果模倣学習(Zhang et al., 2020)の下、文献で研究されているが、既存の解は単段階決定に限られている。 本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。 因果的模倣の実現可能性を決定するのに必要かつ十分なグラフィカルな基準を開発し、異なる能力にもかかわらず模倣者が実証者のパフォーマンスに合致する条件を提供する。 最後に、イミタビリティを判定し、シミュレーションで理論を裏付ける効率的なアルゴリズムを提案する。

"Monkey see monkey do" is an age-old adage, referring to na\"ive imitation without a deep understanding of a system's underlying mechanics. Indeed, if a demonstrator has access to information unavailable to the imitator (monkey), such as a different set of sensors, then no matter how perfectly the imitator models its perceived environment (See), attempting to reproduce the demonstrator's behavior (Do) can lead to poor outcomes. Imitation learning in the presence of a mismatch between demonstrator and imitator has been studied in the literature under the rubric of causal imitation learning (Zhang et al., 2020), but existing solutions are limited to single-stage decision-making. This paper investigates the problem of causal imitation learning in sequential settings, where the imitator must make multiple decisions per episode. We develop a graphical criterion that is necessary and sufficient for determining the feasibility of causal imitation, providing conditions when an imitator can match a demonstrator's performance despite differing capabilities. Finally, we provide an efficient algorithm for determining imitability and corroborate our theory with simulations.
翻訳日:2022-08-15 13:01:09 公開日:2022-08-12
# 局所的説明のためのベースラインシェープと統合的グラディエントの比較:追加的考察

Comparing Baseline Shapley and Integrated Gradients for Local Explanation: Some Additional Insights ( http://arxiv.org/abs/2208.06096v1 )

ライセンス: Link先を確認
Tianshu Feng, Zhipu Zhou, Joshi Tarun, Vijayan N. Nair(参考訳) 機械学習の結果を局所的に説明するための文献には様々な方法がある。 しかし、手法はアプローチによって異なり、しばしば同じ説明をしない。 本稿では,統合グラディエント (Sundararajan, Taly, & Yan, 2017) とベースラインシェープ (Sundararajan, Najmi, 2020) の2つの手法を検討する。 原著者は既に2つの方法の公理的性質を研究し、いくつかの比較を行った。 我々の研究は、グラフデータの比較行動に関する追加の洞察を提供する。 我々は,両者が同一の説明を提供し,両者の相違点を議論する。 また,reluアクティベーション関数を有するニューラルネットワークがモデルに適合する場合の差異をシミュレーションにより検証する。

There are many different methods in the literature for local explanation of machine learning results. However, the methods differ in their approaches and often do not provide same explanations. In this paper, we consider two recent methods: Integrated Gradients (Sundararajan, Taly, & Yan, 2017) and Baseline Shapley (Sundararajan and Najmi, 2020). The original authors have already studied the axiomatic properties of the two methods and provided some comparisons. Our work provides some additional insights on their comparative behavior for tabular data. We discuss common situations where the two provide identical explanations and where they differ. We also use simulation studies to examine the differences when neural networks with ReLU activation function is used to fit the models.
翻訳日:2022-08-15 13:00:32 公開日:2022-08-12
# 勾配分散クリッピングによる2値潜在変数の勾配推定

Gradient Estimation for Binary Latent Variables via Gradient Variance Clipping ( http://arxiv.org/abs/2208.06124v1 )

ライセンス: Link先を確認
Russell Z. Kunes, Mingzhang Yin, Max Land, Doron Haviv, Dana Pe'er, Simon Tavar\'e(参考訳) 回帰推定は、強化学習や変分オートエンコーダ(VAE)訓練のような文脈において、離散潜在変数に生成モデルを適合させるのにしばしば必要である。 DisARM 推定器 (Yin et al. 2020; Dong, Mnih, Tucker 2020) は,Bernoulli の潜伏変数モデルに対して,多くの文脈でアート勾配の分散を達成している。 しかし、DisARMや他の推定器は、解が嘘をつく傾向があるパラメータ空間の境界付近で分散を爆発させる可能性がある。 この問題を改善するために,パラメータ空間の境界でのばらつきが小さい新しい勾配推定器 \textit{bitflip}-1を提案する。 bitflip-1 は既存の推定器に相補的な性質を持つため、各座標に対して bitflip-1 または DisARM 勾配更新を使用する集約推定器である \textit{unbiased gradient variance clipping} (UGC) を導入する。 理論的には、UGCはDisARMよりも均一に分散が低いことを証明している。 実験により,UGCが玩具実験,個別のVAEトレーニング,そして最適なサブセット選択問題において最適化目標の最適値を達成することを実証した。

Gradient estimation is often necessary for fitting generative models with discrete latent variables, in contexts such as reinforcement learning and variational autoencoder (VAE) training. The DisARM estimator (Yin et al. 2020; Dong, Mnih, and Tucker 2020) achieves state of the art gradient variance for Bernoulli latent variable models in many contexts. However, DisARM and other estimators have potentially exploding variance near the boundary of the parameter space, where solutions tend to lie. To ameliorate this issue, we propose a new gradient estimator \textit{bitflip}-1 that has lower variance at the boundaries of the parameter space. As bitflip-1 has complementary properties to existing estimators, we introduce an aggregated estimator, \textit{unbiased gradient variance clipping} (UGC) that uses either a bitflip-1 or a DisARM gradient update for each coordinate. We theoretically prove that UGC has uniformly lower variance than DisARM. Empirically, we observe that UGC achieves the optimal value of the optimization objectives in toy experiments, discrete VAE training, and in a best subset selection problem.
翻訳日:2022-08-15 13:00:19 公開日:2022-08-12
# オフライン強化学習のための表現型政策クラスとしての拡散政策

Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning ( http://arxiv.org/abs/2208.06193v1 )

ライセンス: Link先を確認
Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou(参考訳) オフライン強化学習(RL)は、以前に収集した静的データセットを用いて最適なポリシーを学習することを目的としており、RLの重要なパラダイムである。 標準のrlメソッドは、分散動作における関数近似誤差のため、このタスクではよく機能しない。 この問題を緩和するために様々な正則化法が提案されているが、表現力に制限のある政策クラスによって制約され、時には実質的に準最適解をもたらす。 本稿では,条件付き拡散モデルを用いた拡散QLを,行動のクローン化とポリシー規則化のための高度に表現力のあるポリシークラスとして活用する。 提案手法では,行動値関数を学習し,条件付き拡散モデルのトレーニング損失に対して,行動値の最大化という用語を付加する。 本稿では,拡散モデルに基づく政策の表現性と,拡散モデルに基づく行動クローニングと政策改善の結合が,拡散-QLの卓越した性能に寄与することを示す。 本稿では,マルチモーダル行動ポリシーを用いた簡易な2次元バンドイット例を用いて,提案手法と先行研究について述べる。 そこで本手法は,オフラインRLにおけるD4RLベンチマークタスクの大部分に対して,最先端の性能を実現することができることを示す。

Offline reinforcement learning (RL), which aims to learn an optimal policy using a previously collected static dataset, is an important paradigm of RL. Standard RL methods often perform poorly at this task due to the function approximation errors on out-of-distribution actions. While a variety of regularization methods have been proposed to mitigate this issue, they are often constrained by policy classes with limited expressiveness and sometimes result in substantially suboptimal solutions. In this paper, we propose Diffusion-QL that utilizes a conditional diffusion model as a highly expressive policy class for behavior cloning and policy regularization. In our approach, we learn an action-value function and we add a term maximizing action-values into the training loss of a conditional diffusion model, which results in a loss that seeks optimal actions that are near the behavior policy. We show the expressiveness of the diffusion model-based policy and the coupling of the behavior cloning and policy improvement under the diffusion model both contribute to the outstanding performance of Diffusion-QL. We illustrate our method and prior work in a simple 2D bandit example with a multimodal behavior policy. We then show that our method can achieve state-of-the-art performance on the majority of the D4RL benchmark tasks for offline RL.
翻訳日:2022-08-15 12:59:58 公開日:2022-08-12
# R'enyiCL:Skew R'enyi Divergenceによるコントラスト表現学習

R\'enyiCL: Contrastive Representation Learning with Skew R\'enyi Divergence ( http://arxiv.org/abs/2208.06270v1 )

ライセンス: Link先を確認
Kyungmin Lee, Jinwoo Shin(参考訳) コントラスト表現学習は、複数のデータビュー間の共有情報を推定することで有用な表現を得ようとする。 ここで、データ拡張の選択は、学習された表現の品質に敏感である: データの拡張が難しくなるにつれて、ビューはより多くのタスク関連情報を共有するだけでなく、表現の一般化能力を妨げるタスク関連情報も共有する。 そこで我々は,R'enyiの発散を利用して,より厳密な拡張を効果的に管理できるR'enyiCLという,頑健なコントラスト学習方式を提案する。 本手法はr\'enyi 発散の変分下限に基づいているが, 変分法のna\" 利用は大きなばらつきのため実用的ではない。 この課題に取り組むために,スキューr\'enyiダイバージェンスの変動推定を行う新しい対比目的を提案し,スキューダイバージェンスの変動推定が安定したトレーニングにどのようにつながるかを理論的に保証する。 我々は,R'enyi の対照的な学習目的が,自然に強い負のサンプリングと簡単な正のサンプリングを同時に行い,有用な特徴を選択的に学習し,迷惑な特徴を無視できることを示す。 ImageNetの実験を通して、R\'enyiの強化による対照的な学習は、余分な正規化や計算オーバーヘッドを伴わずに、他の自己管理手法よりも優れていることを示す。 さらに,グラフや表のような他の領域でも検証を行い,他の対比的手法よりも経験的利得を示す。

Contrastive representation learning seeks to acquire useful representations by estimating the shared information between multiple views of data. Here, the choice of data augmentation is sensitive to the quality of learned representations: as harder the data augmentations are applied, the views share more task-relevant information, but also task-irrelevant one that can hinder the generalization capability of representation. Motivated by this, we present a new robust contrastive learning scheme, coined R\'enyiCL, which can effectively manage harder augmentations by utilizing R\'enyi divergence. Our method is built upon the variational lower bound of R\'enyi divergence, but a na\"ive usage of a variational method is impractical due to the large variance. To tackle this challenge, we propose a novel contrastive objective that conducts variational estimation of a skew R\'enyi divergence and provide a theoretical guarantee on how variational estimation of skew divergence leads to stable training. We show that R\'enyi contrastive learning objectives perform innate hard negative sampling and easy positive sampling simultaneously so that it can selectively learn useful features and ignore nuisance features. Through experiments on ImageNet, we show that R\'enyi contrastive learning with stronger augmentations outperforms other self-supervised methods without extra regularization or computational overhead. Moreover, we also validate our method on other domains such as graph and tabular, showing empirical gain over other contrastive methods.
翻訳日:2022-08-15 12:59:38 公開日:2022-08-12
# EEGNN:エッジ強化グラフニューラルネットワーク

EEGNN: Edge Enhanced Graph Neural Networks ( http://arxiv.org/abs/2208.06322v1 )

ライセンス: Link先を確認
Yirui Liu, Xinghao Qiao, Liying Wang and Jessica Lam(参考訳) ディープグラフニューラルネットワーク(GNN)のトレーニングは、隠れたメッセージパッシングレイヤの数によってGNNのパフォーマンスが低下する可能性があるため、難しい課題となる。 本論文は, 深部GNNの性能劣化を説明するため, 過度なスムーシングとアンダーリーチングの提案に焦点を当てている。 本稿では, 自己ループを防止し, エッジの重み付けを強制することにより, グラフを誤って単純化するという, 性能低下現象に対する新たな説明を提案する。 このような単純化により、メッセージパッシング層がグラフの構造情報をキャプチャする可能性を低減できることを示す。 これを踏まえ,エッジ強化グラフニューラルネットワーク(eegnn)という新しいフレームワークを提案する。 EEGNNは、グラフのベイズ非パラメトリックモデルであるディリクレ混合ポアソングラフモデルから抽出した構造情報を用いて、様々なディープメッセージパスGNNの性能を向上させる。 異なるデータセットに対する実験により,本手法はベースラインに比べてかなりの性能向上を達成できた。

Training deep graph neural networks (GNNs) poses a challenging task, as the performance of GNNs may suffer from the number of hidden message-passing layers. The literature has focused on the proposals of over-smoothing and under-reaching to explain the performance deterioration of deep GNNs. In this paper, we propose a new explanation for such deteriorated performance phenomenon, mis-simplification, that is, mistakenly simplifying graphs by preventing self-loops and forcing edges to be unweighted. We show that such simplifying can reduce the potential of message-passing layers to capture the structural information of graphs. In view of this, we propose a new framework, edge enhanced graph neural network(EEGNN). EEGNN uses the structural information extracted from the proposed Dirichlet mixture Poisson graph model, a Bayesian nonparametric model for graphs, to improve the performance of various deep message-passing GNNs. Experiments over different datasets show that our method achieves considerable performance increase compared to baselines.
翻訳日:2022-08-15 12:59:09 公開日:2022-08-12
# あなたのモデルは敏感か? spedac: センシティブな個人データの検出と分類のための新しいベンチマーク

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data ( http://arxiv.org/abs/2208.06216v1 )

ライセンス: Link先を確認
Gaia Gambarelli, Aldo Gangemi, Rocco Tripodi(参考訳) 近年、機密性の高い個人情報を扱う対話システムを含むアプリケーションの数は指数関数的に増加している。 これにより、仮想環境における個人データ保護に関する極めて重要な問題が明らかになった。 第一に、実行モデルは、センシティブな内容の文章と中立な文を区別できるべきである。 第二に、それらに含まれる個人データカテゴリのタイプを識別できる必要がある。 このようにして、各カテゴリごとに異なるプライバシー待遇を考えることができる。 文献では、自動センシティブなデータ識別に関する作業がある場合、共通ベンチマークなしで異なるドメインや言語で実行されることが多い。 このギャップを埋めるために、本稿では、機密データカテゴリを識別するための新しい注釈付きベンチマークであるSPeDaCを紹介します。 さらに、異なるベースラインとRoBERTaに基づく分類器を用いて、センシティブな文の検出と個人データカテゴリの分類に強い性能を発揮するニューラルネットワークを用いて、データセットを広範囲に評価する。

In recent years we have seen the exponential growth of applications, including dialogue systems, that handle sensitive personal information. This has brought to light the extremely important issue regarding personal data protection in virtual environments. Firstly, a performing model should be able to distinguish sentences with sensitive content from neutral sentences. Secondly, it should be able to identify the type of personal data category contained in them. In this way, a different privacy treatment could be considered for each category. In literature, if there are works on automatic sensitive data identification, these are often conducted on different domains or languages without a common benchmark. To fill this gap, in this work we introduce SPeDaC, a new annotated benchmark for the identification of sensitive personal data categories. Furthermore, we provide an extensive evaluation of our dataset, conducted using different baselines and a classifier based on RoBERTa, a neural architecture that achieves strong performances on the detection of sensitive sentences and on the personal data categories classification.
翻訳日:2022-08-15 12:55:30 公開日:2022-08-12
# スケルトンベースヒューマンインタラクション認識のための2人グラフ畳み込みネットワーク

Two-person Graph Convolutional Network for Skeleton-based Human Interaction Recognition ( http://arxiv.org/abs/2208.06174v1 )

ライセンス: Link先を確認
Zhengcen Li, Yueran Li, Linlin Tang, Tong Zhang and Jingyong Su(参考訳) グラフ畳み込みネットワーク(GCN)は、ヒトとヒトの相互作用認識タスクを含む骨格に基づく人間の行動認識領域において、従来の手法よりも優れている。 しかし、相互作用配列を扱う場合、現在のGCNベースの手法は、単純に2人の骨格を2つの離散配列に分割し、単独の動作分類の方法でグラフ畳み込みを行う。 このような操作はリッチな対話的情報を無視し、意味的パターン学習のための効果的な空間関係モデリングを妨げる。 上記の欠点を克服するために,ジョイント間の空間的相互作用相関を表す2人称グラフを新たに導入する。 また,GCNモデルが空間的・時間的対話的特徴を識別できるように,適切に設計されたグラフラベリング戦略を提案する。 提案する2人グラフトポロジーを用いた実験では,インタラクションと個人行動の両方において精度が向上した。 最後に,2人グラフ畳み込みネットワーク (2P-GCN) を提案する。 提案した2P-GCNは、SBU、NTU-RGB+D、NTU-RGB+D 120の3つの相互作用データセットの4つのベンチマークで最先端の結果を得る。

Graph Convolutional Network (GCN) outperforms previous methods in the skeleton-based human action recognition area, including human-human interaction recognition task. However, when dealing with interaction sequences, current GCN-based methods simply split the two-person skeleton into two discrete sequences and perform graph convolution separately in the manner of single-person action classification. Such operation ignores rich interactive information and hinders effective spatial relationship modeling for semantic pattern learning. To overcome the above shortcoming, we introduce a novel unified two-person graph representing spatial interaction correlations between joints. Also, a properly designed graph labeling strategy is proposed to let our GCN model learn discriminant spatial-temporal interactive features. Experiments show accuracy improvements in both interactions and individual actions when utilizing the proposed two-person graph topology. Finally, we propose a Two-person Graph Convolutional Network (2P-GCN). The proposed 2P-GCN achieves state-of-the-art results on four benchmarks of three interaction datasets, SBU, NTU-RGB+D, and NTU-RGB+D 120.
翻訳日:2022-08-15 12:54:53 公開日:2022-08-12
# 時間的ビデオグラウンド作成のための爆発的特徴多様性

Exploiting Feature Diversity for Make-up Temporal Video Grounding ( http://arxiv.org/abs/2208.06179v1 )

ライセンス: Link先を確認
Xiujun Shu, Wei Wen, Taian Guo, Sunan He, Chen Wu, Ruizhi Qiao(参考訳) 本技術報告では,ACM MM 2022における第4回PICチャレンジで導入された,第3回MTVGの勝利解を示す。 MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。 このタスクの最大の課題は、メイクアップステップの細かなビデオテキストセマンティクスである。 しかし、現在の手法は主にアクションベース事前学習モデルを用いて映像特徴を抽出する。 アクションはメイクアップステップよりも粗い粒度であるため、アクションベースの特徴は fi ne-fine cues を提供するのに十分ではない。 この問題に対処するため,我々は,特徴の多様性を生かしてfi ne粒度表現を実現することを提案する。 具体的には,特徴抽出,ネットワーク最適化,モデルアンサンブルなど,一連の手法を提案する。 その結果,MTVG大会では3位となった。

This technical report presents the 3rd winning solution for MTVG, a new task introduced in the 4-th Person in Context (PIC) Challenge at ACM MM 2022. MTVG aims at localizing the temporal boundary of the step in an untrimmed video based on a textual description. The biggest challenge of this task is the fi ne-grained video-text semantics of make-up steps. However, current methods mainly extract video features using action-based pre-trained models. As actions are more coarse-grained than make-up steps, action-based features are not sufficient to provide fi ne-grained cues. To address this issue,we propose to achieve fi ne-grained representation via exploiting feature diversities. Specifically, we proposed a series of methods from feature extraction, network optimization, to model ensemble. As a result, we achieved 3rd place in the MTVG competition.
翻訳日:2022-08-15 12:54:33 公開日:2022-08-12
# 歯科プラークセグメンテーションのためのコントラスト・構造制約付き意味分解ネットワーク

Semantic decomposition Network with Contrastive and Structural Constraints for Dental Plaque Segmentation ( http://arxiv.org/abs/2208.06283v1 )

ライセンス: Link先を確認
Jian Shi, Baoli Sun, Xinchen Ye, Zhihui Wang, Xiaolong Luo, Jin Liu, Heli Gao, Haojie Li(参考訳) 医用試薬染色画像からの歯科プラークの分離は, 診断および追跡治療計画の決定に有用な情報を提供する。 しかし, 歯科用プラークの正確なセグメンテーションは, 意味的青斑領域(つまり, 歯と歯のプラークの境界領域が混在している)と, 既存の方法では十分に対処できない複雑な形状の複雑なバリエーションが要求される課題である。 そこで,本研究では,2つの単一タスク分岐を導入し,各枝のカテゴリ固有の特徴を学習するための追加制約を設計し,意味分解を容易にし,歯科プラークのセグメンテーションの性能を向上させる意味分解ネットワーク(SDNet)を提案する。 特に、sdnetは、歯と歯のプラークの2つの分離分枝を分割して学習し、それらの間の絡み合った関係を分離する。 カテゴリを指定する各ブランチは、正確なセグメンテーションをもたらす傾向がある。 これら2つのブランチがカテゴリ固有の機能にもっと焦点を合わせるのを助けるために、さらに2つの制約モジュールが提案されている。 1) 識別的特徴表現を学習するためのコントラスト制約モジュール(CCM)は,異なるカテゴリ表現間の距離を最大化することにより,特徴抽出に対する意味的ブルー領域の負の影響を低減する。 2) 構造制約モジュール (SCM) は, 境界を意識した幾何学的制約の監督により, 各種形状の歯科用プラークの完全な構造情報を提供する。 さらに, 歯科用プラークや歯科用プラークの高品質なアノテーションを提供するSDPSeg(Stained Dental Plaque Segmentation dataset)を構築した。 SDPSegデータセットの実験結果はSDNetが最先端のパフォーマンスを達成することを示している。

Segmenting dental plaque from images of medical reagent staining provides valuable information for diagnosis and the determination of follow-up treatment plan. However, accurate dental plaque segmentation is a challenging task that requires identifying teeth and dental plaque subjected to semantic-blur regions (i.e., confused boundaries in border regions between teeth and dental plaque) and complex variations of instance shapes, which are not fully addressed by existing methods. Therefore, we propose a semantic decomposition network (SDNet) that introduces two single-task branches to separately address the segmentation of teeth and dental plaque and designs additional constraints to learn category-specific features for each branch, thus facilitating the semantic decomposition and improving the performance of dental plaque segmentation. Specifically, SDNet learns two separate segmentation branches for teeth and dental plaque in a divide-and-conquer manner to decouple the entangled relation between them. Each branch that specifies a category tends to yield accurate segmentation. To help these two branches better focus on category-specific features, two constraint modules are further proposed: 1) contrastive constraint module (CCM) to learn discriminative feature representations by maximizing the distance between different category representations, so as to reduce the negative impact of semantic-blur regions on feature extraction; 2) structural constraint module (SCM) to provide complete structural information for dental plaque of various shapes by the supervision of an boundary-aware geometric constraint. Besides, we construct a large-scale open-source Stained Dental Plaque Segmentation dataset (SDPSeg), which provides high-quality annotations for teeth and dental plaque. Experimental results on SDPSeg datasets show SDNet achieves state-of-the-art performance.
翻訳日:2022-08-15 12:54:21 公開日:2022-08-12
# 知識蒸留による非自己回帰手話生成

Non-Autoregressive Sign Language Production via Knowledge Distillation ( http://arxiv.org/abs/2208.06183v1 )

ライセンス: Link先を確認
Eui Jun Hwang, Jung Ho Kim, Suk min Cho and Jong C. Park(参考訳) 手話生成(SLP)は、音声言語における表現を、骨格に基づく手話やビデオなどの手話で対応するものに変換することを目的としている。 既存のSLPモデルはAutoRegressive(AR)またはNon-Autoregressive(NAR)である。 しかし,AR-SLPモデルでは,復号化時の平均値と誤り伝播の回帰に悩まされている。 NARベースのモデルであるNSLP-Gは、これらの問題をある程度解決するが、他の問題を解決する。 例えば、ターゲット符号の長さは考慮せず、誤った復号化の開始に苦しむ。 本稿では,これらの問題に対処するための知識蒸留(KD)による新しいNAR-SLPモデルを提案する。 まず、生成した符号ポーズシーケンスの終端を予測するために長さレギュレータを考案する。 次に,事前訓練されたポーズエンコーダから空間言語的特徴を抽出し,偽復号化を緩和するKDを採用する。 広汎な実験により,提案手法はFrechet Gesture DistanceとBack-Translationの評価において既存のSLPモデルよりも有意に優れていた。

Sign Language Production (SLP) aims to translate expressions in spoken language into corresponding ones in sign language, such as skeleton-based sign poses or videos. Existing SLP models are either AutoRegressive (AR) or Non-Autoregressive (NAR). However, AR-SLP models suffer from regression to the mean and error propagation during decoding. NSLP-G, a NAR-based model, resolves these issues to some extent but engenders other problems. For example, it does not consider target sign lengths and suffers from false decoding initiation. We propose a novel NAR-SLP model via Knowledge Distillation (KD) to address these problems. First, we devise a length regulator to predict the end of the generated sign pose sequence. We then adopt KD, which distills spatial-linguistic features from a pre-trained pose encoder to alleviate false decoding initiation. Extensive experiments show that the proposed approach significantly outperforms existing SLP models in both Frechet Gesture Distance and Back-Translation evaluation.
翻訳日:2022-08-15 12:53:36 公開日:2022-08-12
# n次元における形状分布と球状度

Shape Proportions and Sphericity in n Dimensions ( http://arxiv.org/abs/2208.06292v1 )

ライセンス: Link先を確認
William Franz Lamberti(参考訳) 高次元のオブジェクトの形状メトリクスは、まだ乏しいままである。 超体積など存在するものは、プラトン固体や$n$-Cubesのようなよりよく理解された対象に限られる。 さらに、高次元における不定義形状の物体の理解は、せいぜいあいまいである。 過去の作業では、オブジェクトを定性的に理解するための単一の数値を提供していません。 例えば、主成分分析からの固有値は、オブジェクトの形状を記述するために$n$メトリックとなる。 したがって、異なる形状の物体を識別できる単一の数が必要である。 以前の研究は、2次元や3次元のような特定の次元の形状のメトリクスを開発した。 しかしながら、任意の望ましい次元のメトリクスを開発する機会があります。 そこで我々は,対象物に対して与えられた次元の2つの新しい形状指標を示す:超球面度と超形状プロポーション (SP) である。 我々は、これらのメトリクスの妥当性を、$n$-ballsを含む様々な形状で調査する。 次に、これらのメトリクスを、人気のirisデータセットのような多次元データの形状を分析するアプリケーションに接続する。

Shape metrics for objects in high dimensions remain sparse. Those that do exist, such as hyper-volume, remain limited to objects that are better understood such as Platonic solids and $n$-Cubes. Further, understanding objects of ill-defined shapes in higher dimensions is ambiguous at best. Past work does not provide a single number to give a qualitative understanding of an object. For example, the eigenvalues from principal component analysis results in $n$ metrics to describe the shape of an object. Therefore, we need a single number which can discriminate objects with different shape from one another. Previous work has developed shape metrics for specific dimensions such as two or three dimensions. However, there is an opportunity to develop metrics for any desired dimension. To that end, we present two new shape metrics for objects in a given number of dimensions: hyper-Sphericity and hyper-Shape Proportion (SP). We explore the proprieties of these metrics on a number of different shapes including $n$-balls. We then connect these metrics to applications of analyzing the shape of multidimensional data such as the popular Iris dataset.
翻訳日:2022-08-15 12:53:20 公開日:2022-08-12
# 数学語問題に対する不均一線グラフ変換器

Heterogeneous Line Graph Transformer for Math Word Problems ( http://arxiv.org/abs/2208.05645v2 )

ライセンス: Link先を確認
Zijian Hu and Meng Jiang(参考訳) 本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。 本稿では,宿題の修正や難易度推定,優先度推定といった幅広い機能をサポート可能な自動算術語問題解決システムの実現により,システムの知的レベルの向上を目指す。 元々は既存のモデルを採用する計画でしたが、数学の単語問題をシーケンスやトークンの均質なグラフとして処理していることに気付きました。 エンティティ、単位、レート、数といった複数の種類のトークン間の関係は無視された。 そこで我々は,人間可読言語と機械理解可能な論理形式の間の情報ギャップを埋めるために,そのような関係データを用いた新しいモデルの設計と実装を決定した。 本稿では,数学用語問題に対する意味的ロールラベリングを通じて異種線グラフを構築し,エッジタイプを意識したノード表現学習を行うヘテロジニアス線グラフトランスフォーマ(hlgt)モデルを提案する。 実世界利用のためのモデルトレーニングを改善するための補助タスクとして数値比較を加える。 実験結果から,提案モデルは既存モデルよりも優れた性能を示し,人的性能よりもはるかに低い結果が得られた。 オンライン学習システムを改善するためには,情報活用と知識発見が継続的に必要となる。

This paper describes the design and implementation of a new machine learning model for online learning systems. We aim at improving the intelligent level of the systems by enabling an automated math word problem solver which can support a wide range of functions such as homework correction, difficulty estimation, and priority recommendation. We originally planned to employ existing models but realized that they processed a math word problem as a sequence or a homogeneous graph of tokens. Relationships between the multiple types of tokens such as entity, unit, rate, and number were ignored. We decided to design and implement a novel model to use such relational data to bridge the information gap between human-readable language and machine-understandable logical form. We propose a heterogeneous line graph transformer (HLGT) model that constructs a heterogeneous line graph via semantic role labeling on math word problems and then perform node representation learning aware of edge types. We add numerical comparison as an auxiliary task to improve model training for real-world use. Experimental results show that the proposed model achieves a better performance than existing models and suggest that it is still far below human performance. Information utilization and knowledge discovery is continuously needed to improve the online learning systems.
翻訳日:2022-08-15 11:18:23 公開日:2022-08-12
# 分散型社会制裁による分業の出現

The emergence of division of labor through decentralized social sanctioning ( http://arxiv.org/abs/2208.05568v2 )

ライセンス: Link先を確認
Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee(参考訳) 人間の生態的成功は、協力的社会集団において柔軟に自己組織化する我々の特性的能力に依存している。 成功した集団は実質的な専門化と労働の分業を行っている。 他のほとんどの動物とは異なり、人間は人生の中で試行錯誤によってどのような役割を果たすかを学ぶ。 しかし、いくつかの重要な役割が他よりも魅力的であり、個人が自己関心を持つ場合、社会的ジレンマがある。 しかし、そのように行動し、重要な役割を果たさなければ、災害が発生する。 このような状況では最適な役割分布を学習することは不可能である。 その結果、基本的な質問は: 自己興味のある生涯学習者のグループにおいて、労働の分割はどのように現れるのか? ここでは、分散化社会制裁のパターンとみなす社会規範のモデルを導入することにより、利己的な個人集団が、すべての重要な役割を含む生産的な分業を学ぶことができることを示す。 このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化し、一方で、内在的に報酬を払わない親社会的役割を動機付ける。

Human ecological success relies on our characteristic ability to flexibly self-organize in cooperative social groups. Successful groups employ substantial specialization and division of labor. Unlike most other animals, humans learn by trial and error during their lives what role to take on. However, when some critical roles are more attractive than others, and individuals are self-interested, then there is a social dilemma: each individual would prefer others take on the critical-but-unremunerative roles so they may remain free to take one that pays better. But disaster occurs if all act thusly and a critical role goes unfilled. In such situations learning an optimum role distribution may not be possible. Consequently, a fundamental question is: how can division of labor emerge in groups of self-interested lifetime-learning individuals? Here we show that by introducing a model of social norms, which we regard as patterns of decentralized social sanctioning, it becomes possible for groups of self-interested individuals to learn a productive division of labor involving all critical roles. Such social norms work by redistributing rewards within the population to disincentivize antisocial roles while incentivizing prosocial roles that do not intrinsically pay as well as others.
翻訳日:2022-08-15 11:18:03 公開日:2022-08-12
# 顔モフティング攻撃と顔画像品質 : モフティングと品質による教師なし検出の効果

Face Morphing Attacks and Face Image Quality: The Effect of Morphing and the Unsupervised Attack Detection by Quality ( http://arxiv.org/abs/2208.05864v2 )

ライセンス: Link先を確認
Biying Fu and Naser Damer(参考訳) モーフィング攻撃は、近年注目を集めているプレゼンテーション攻撃の一形態である。 モーフィック画像は、複数のidに対して正常に検証することができる。 したがって、この操作は、複数の人物に属することが確認される旅行や身分証明書の能力に深刻なセキュリティ上の問題を引き起こす。 以前の研究では、生成したモーフィング攻撃のリアルな外観を定量的に証明することを目的として、モーフィング攻撃画像の品質の問題に言及していた。 形態形成過程がボナフッ化物試料と比較した場合の知覚的画像品質と顔認識(FR)における画像有用性の両方に影響を及ぼす可能性が示唆された。 この理論を検討するため,本研究は,一般画像品質測定と顔画像有用性測定の両方を含む,顔画像品質に対するモーフィングの効果を広範囲に分析する。 この分析は1つのモーフィング技術に限らず、むしろ6つの異なるモーフィング技術と5つの異なるデータソースを10の異なる品質尺度で調べる。 この分析により, モルフィングアタックの品質スコアと, 一定の品質測定値で測定したボナフィデ試料との間に, 一貫した分離性が認められた。 さらに本研究は,この効果を生かして,品質スコアに基づいて非教師なしモーフィング攻撃検出(mad)を行う可能性について検討する。 本研究は,様々なモーフィング手法とボナfide源を用いた検出概念の一般化可能性を評価するために,intraおよびinter-dataset検出可能性を検討する。 最終結果は,MagFace や CNNNIQA などの品質指標のセットを用いて,正確な分類精度を70%以上で,教師なしおよび一般化MAD の実行が可能であることを指摘する。

Morphing attacks are a form of presentation attacks that gathered increasing attention in recent years. A morphed image can be successfully verified to multiple identities. This operation, therefore, poses serious security issues related to the ability of a travel or identity document to be verified to belong to multiple persons. Previous works touched on the issue of the quality of morphing attack images, however, with the main goal of quantitatively proofing the realistic appearance of the produced morphing attacks. We theorize that the morphing processes might have an effect on both, the perceptual image quality and the image utility in face recognition (FR) when compared to bona fide samples. Towards investigating this theory, this work provides an extensive analysis of the effect of morphing on face image quality, including both general image quality measures and face image utility measures. This analysis is not limited to a single morphing technique, but rather looks at six different morphing techniques and five different data sources using ten different quality measures. This analysis reveals consistent separability between the quality scores of morphing attack and bona fide samples measured by certain quality measures. Our study goes further to build on this effect and investigate the possibility of performing unsupervised morphing attack detection (MAD) based on quality scores. Our study looks intointra and inter-dataset detectability to evaluate the generalizability of such a detection concept on different morphing techniques and bona fide sources. Our final results point out that a set of quality measures, such as MagFace and CNNNIQA, can be used to perform unsupervised and generalized MAD with a correct classification accuracy of over 70%.
翻訳日:2022-08-15 11:17:44 公開日:2022-08-12
# 創造の創造:リリック・メロディ生成のための新しいパラダイム

Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation ( http://arxiv.org/abs/2208.05697v2 )

ライセンス: Link先を確認
Ang Lv, Xu Tan, Tao Qin, Tie-Yan Liu, Rui Yan(参考訳) 歌詞からメロディーへの生成は、曲の書き方において重要な課題であり、その特徴から非常に困難である: 生成されたメロディーは、優れた音楽パターンに従うだけでなく、リズムや構造といった歌詞の特徴とも一致すべきである。 これらの特徴は,(1)リリック-メロディ特徴のアライメントを十分に学習するためのアライメントされたリリック-メロディ訓練データの欠如,(2)リリック-メロディ特徴のアライメントを明示的に保証するための生成制御性の欠如,といった問題から,エンドツーエンドでリリック-メロディマッピングを学習するニューラルジェネレーションモデルではうまく扱えない。 本稿では,このような問題に対処する歌詞からメロディ生成の新しいパラダイムであるRe-creation of Creations (ROC)を提案する。 Specifically, our paradigm has two stages: (1) creation stage, where a huge amount of music pieces are generated by a neural-based melody language model and indexed in a database through several key features (e.g., chords, tonality, rhythm, and structural information including chorus or verse); (2) re-creation stage, where melodies are recreated by retrieving music pieces from the database according to the key features from lyrics and concatenating best music pieces based on composition guidelines and melody language model scores. 新しいパラダイムにはいくつかの利点があります。(1)以前のモデルでは、歌詞とメロディのペアデータではなく、メロディ言語モデルのトレーニングに非ペアのメロディデータのみが必要です。 2) 歌詞からメロディ生成に優れた歌詞・メロディ特徴アライメントを実現する。 英語と中国語のデータセットの実験では、ROCは従来のニューラルネットワークによる歌詞からメロディ生成モデルよりも客観的、主観的の両方で優れていた。 コードを補足資料として提供し、githubのデモを提供します。

Lyric-to-melody generation is an important task in songwriting, and is also quite challenging due to its distinctive characteristics: the generated melodies should not only follow good musical patterns, but also align with features in lyrics such as rhythms and structures. These characteristics cannot be well handled by neural generation models that learn lyric-to-melody mapping in an end-to-end way, due to several issues: (1) lack of aligned lyric-melody training data to sufficiently learn lyric-melody feature alignment; (2) lack of controllability in generation to explicitly guarantee the lyric-melody feature alignment. In this paper, we propose Re-creation of Creations (ROC), a new paradigm for lyric-to-melody generation that addresses the above issues through a generation-retrieval pipeline. Specifically, our paradigm has two stages: (1) creation stage, where a huge amount of music pieces are generated by a neural-based melody language model and indexed in a database through several key features (e.g., chords, tonality, rhythm, and structural information including chorus or verse); (2) re-creation stage, where melodies are recreated by retrieving music pieces from the database according to the key features from lyrics and concatenating best music pieces based on composition guidelines and melody language model scores. Our new paradigm has several advantages: (1) It only needs unpaired melody data to train melody language model, instead of paired lyric-melody data in previous models. (2) It achieves good lyric-melody feature alignment in lyric-to-melody generation. Experiments on English and Chinese datasets demonstrate that ROC outperforms previous neural based lyric-to-melody generation models on both objective and subjective metrics. We provide our code in supplementary material and provide demos on github.
翻訳日:2022-08-15 11:17:15 公開日:2022-08-12
# コロンビアにおける予測拡散SARS-CoV-2の統計的手法による機械学習

Machine learning in front of statistical methods for prediction spread SARS-CoV-2 in Colombia ( http://arxiv.org/abs/2208.05910v2 )

ライセンス: Link先を確認
A. Estupi\~n\'an, J. Acu\~na, A. Rodriguez, A. Ayala, C. Estupi\~n\'an, Ramon E. R. Gonzalez, D. A. Triana-Camacho, K. L. Cristiano-Rodr\'iguez and Carlos Andr\'es Collazos Morales(参考訳) コロンビアにおける新型コロナウイルス(covid-19)に関する分析研究は、感受性曝露感染除去(seir)、ロジスティック回帰(lr)、多項式回帰法と呼ばれる機械学習法などの数学的モデルを用いて行われた。 感染者数、死亡者数、感染した人々、ウイルスに感染した人々について、これまでの分析は550日間のタイムラインで行われてきた。 さらに, 伝播誤差の低減と統計的バイアスの有無を考慮し, 最も効率的かつ最適な方法について詳述した。 最後に4つの異なる予防シナリオを提案し,疾患に関連する各パラメータの比率について検討した。

An analytical study of the disease COVID-19 in Colombia was carried out using mathematical models such as Susceptible-Exposed-Infectious-Removed (SEIR), Logistic Regression (LR), and a machine learning method called Polynomial Regression Method. Previous analysis has been performed on the daily number of cases, deaths, infected people, and people who were exposed to the virus, all of them in a timeline of 550 days. Moreover, it has made the fitting of infection spread detailing the most efficient and optimal methods with lower propagation error and the presence of statistical biases. Finally, four different prevention scenarios were proposed to evaluate the ratio of each one of the parameters related to the disease.
翻訳日:2022-08-15 11:16:41 公開日:2022-08-12
# モンテカルロ木探索によるシンボリック音楽生成における感情知覚の制御

Controlling Perceived Emotion in Symbolic Music Generation with Monte Carlo Tree Search ( http://arxiv.org/abs/2208.05162v3 )

ライセンス: Link先を確認
Lucas N. Ferreira, Lili Mou, Jim Whitehead, Levi H. S. Lelis(参考訳) 本論文ではモンテカルロ木探索を用いたシンボリック音楽生成における感情制御手法を提案する。 モンテカルロ木探索をデコード機構として用いて,言語モデルで学習した確率分布を与えられた感情に向けて制御する。 復号処理の各ステップでは,木(puct)に対する予測子上信頼度を用いて,感情分類器と判別器が与える感情の平均値と品質を最大化するシーケンスを探索する。 puctのポリシーとして言語モデルを使用し、感情分類器と判別器をその価値関数として組み合わせます。 楽曲中の次のトークンをデコードするために、検索中に生成されたノード訪問の分布からサンプルを作成する。 生成したサンプルから直接計算した客観的な測定値の集合を用いて, 生成したサンプルの品質を評価する。 また, 被験者が生成したサンプルの質や感情をどのように知覚するかを評価するために, ユーザ調査を行った。 PUCTとSBBS(Stochastic Bi-Objective Beam Search)とCS(Conditional Smpling)を比較した。 その結果,PUCTは音楽の質や感情の指標のほとんどすべてにおいて,SBBSやCSよりも優れていた。

This paper presents a new approach for controlling emotion in symbolic music generation with Monte Carlo Tree Search. We use Monte Carlo Tree Search as a decoding mechanism to steer the probability distribution learned by a language model towards a given emotion. At every step of the decoding process, we use Predictor Upper Confidence for Trees (PUCT) to search for sequences that maximize the average values of emotion and quality as given by an emotion classifier and a discriminator, respectively. We use a language model as PUCT's policy and a combination of the emotion classifier and the discriminator as its value function. To decode the next token in a piece of music, we sample from the distribution of node visits created during the search. We evaluate the quality of the generated samples with respect to human-composed pieces using a set of objective metrics computed directly from the generated samples. We also perform a user study to evaluate how human subjects perceive the generated samples' quality and emotion. We compare PUCT against Stochastic Bi-Objective Beam Search (SBBS) and Conditional Sampling (CS). Results suggest that PUCT outperforms SBBS and CS in almost all metrics of music quality and emotion.
翻訳日:2022-08-15 11:16:26 公開日:2022-08-12