このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220829となっている論文です。

PDF登録状況(公開日: 20220829)

TitleAuthorsAbstract論文公表日・翻訳日
# 吸収境界に対するエネルギー時間不確かさ関係

Energy-Time Uncertainty Relation for Absorbing Boundaries ( http://arxiv.org/abs/2005.14514v2 )

ライセンス: Link先を確認
Roderich Tumulka(参考訳) 粒子の初期波動関数を含む領域 $\omega\subset \mathbb{r}^3$ の表面上の量子粒子の検出時間 t$ と初期波動関数のエネルギー $e$ との間の不確実性関係 $\sigma_t \, \sigma_e \geq \hbar/2$ を証明する。 ここで、$\sigma$は量子可観測性と波動関数に関連する確率分布の標準偏差を表す。 t$ は自己随伴演算子ではなく povm に関連付けられているので、この関係は robertson と schr\"odinger による不確実性関係の標準バージョンのインスタンスではない。 また、粒子が必ず$\partial \omega$(この場合は$t=\infty$)に達する確率がゼロでないならば、$\sigma_t$がイベント$t<\infty$の標準偏差条件を表すならば、$\sigma_t \, \sigma_e \geq (\hbar/2) \sqrt{\mathrm{prob}(t<\infty)}$となる。

We prove the uncertainty relation $\sigma_T \, \sigma_E \geq \hbar/2$ between the time $T$ of detection of a quantum particle on the surface $\partial \Omega$ of a region $\Omega\subset \mathbb{R}^3$ containing the particle's initial wave function, using the "absorbing boundary rule" for detection time, and the energy $E$ of the initial wave function. Here, $\sigma$ denotes the standard deviation of the probability distribution associated with a quantum observable and a wave function. Since $T$ is associated with a POVM rather than a self-adjoint operator, the relation is not an instance of the standard version of the uncertainty relation due to Robertson and Schr\"odinger. We also prove that if there is nonzero probability that the particle never reaches $\partial \Omega$ (in which case we write $T=\infty$), and if $\sigma_T$ denotes the standard deviation conditional on the event $T<\infty$, then $\sigma_T \, \sigma_E \geq (\hbar/2) \sqrt{\mathrm{Prob}(T<\infty)}$.
翻訳日:2023-05-18 00:51:54 公開日:2022-08-29
# ポート型テレポーテーション方式における平方根測定と資源状態の劣化

Square-root measurements and degradation of the resource state in port-based teleportation scheme ( http://arxiv.org/abs/2105.14886v4 )

ライセンス: Link先を確認
Micha{\l} Studzi\'nski, Marek Mozrzymas, Piotr Kopszak(参考訳) ポートベーステレポーテーション(英: port-based teleportation、pbt)は、受信者が送信された状態に補正を施す必要がない量子テレポーテーションのプロトコルである。 このプロトコルでは、2つの空間的に分離された当事者は、共有された$d-$次元の最大絡み合った状態(リソース状態)の数とテレポートされる状態と1つの方法の古典的通信による共同測定を利用するだけで、未知の量子状態をテレポートすることができる。 本稿では, キュービットケースを超えた決定論的pbtのリサイクルプロトコルについて, 初めて解析する。 リサイクルプロトコルでは、PBTの1回または複数のラウンドの後に残りの資源状態を再使用し、さらなる遠隔転送を行う。 重要な特性は、テレポーテーションプロセスの各ラウンドの後に、基盤となるリソース状態がどの程度劣化するかを学ぶことである。 各資源状態間の量子忠実度を評価することでこれを測定する。 そこで,本研究では,pbtの送信者がシステムの対称性を生かして使用する二乗根計測の解析を行う。 特に,2乗根と構成を効果的に評価する方法を示す。 これらの結果から,シュル=ワイル双対性における既約表現を記述する群理論パラメータのみを含むリサイクル忠実性の公式を提示できる。 また, 最適pbtスキームにおける資源状態の劣化を初めて解析し, 任意の$d\geq 2$ に対してその劣化を示す。 どちらのバージョンでも、キュービットのケースは個別に議論され、共有の絡み合ったペアの数のみに応じて忠実性を表すコンパクトな表現となる。

Port-based teleportation (PBT) is a protocol of quantum teleportation in which a receiver does not have to apply correction to the transmitted state. In this protocol two spatially separated parties can teleport an unknown quantum state only by exploiting joint measurements on number of shared $d-$dimensional maximally entangled states (resource state) together with a state to be teleported and one way classical communication. In this paper we analyse for the first time the recycling protocol for the deterministic PBT beyond the qubit case. In the recycling protocol the main idea is to re-use the remaining resource state after one or many rounds of PBT for further processes of teleportation. The key property is to learn how much the underlying resource state degrades after every round of the teleportation process. We measure this by evaluating quantum fidelity between respective resource states. To do so we first present analysis of the square-root measurements used by the sender in PBT by exploiting the symmetries of the system. In particular, we show how to effectively evaluate their square-roots and composition. These findings allow us to present the explicit formula for the recycling fidelity involving only group-theoretic parameters describing irreducible representations in the Schur-Weyl duality. For the first time, we also analyse the degradation of the resource state for the optimal PBT scheme and show its degradation for all $d\geq 2$. In the both versions, the qubit case is discussed separately resulting in compact expression for fidelity, depending only on the number of shared entangled pairs.
翻訳日:2023-03-28 06:11:15 公開日:2022-08-29
# HAT4RD:ソーシャルメディア上での噂検出のための階層的逆行訓練

HAT4RD: Hierarchical Adversarial Training for Rumor Detection on Social Media ( http://arxiv.org/abs/2110.00425v2 )

ライセンス: Link先を確認
Shiwen Ni, Jiawen Li and Hung-Yu Kao(参考訳) ソーシャルメディアの発展に伴い、社会コミュニケーションは変化した。 これは人々のコミュニケーションと情報へのアクセスを促進するが、噂を広めるための理想的なプラットフォームを提供する。 通常の状況や批判的な状況では、噂は人々の判断に影響を与え、社会保障を脅かす。 しかし、自然言語は高次元でばらばらであり、同じ噂がソーシャルメディアで何百もの方法で表現される可能性がある。 これにより、現在のうわさ検出モデルの堅牢性と一般化が疑問視される。 ソーシャルメディア上での「textbf{h}ierarchical \textbf{a}dversarial \textbf{t}raining method for \textbf{r}umor \textbf{d}etection (HAT4RD)」を提案する。 具体的には、HAT4RDは、検出器を欺くためにポストレベルおよびイベントレベルモジュールの埋め込み層に逆方向の摂動を加えることで勾配上昇に基づいている。 同時に、検出器は、よりロバストなモデルを学ぶために、逆のリスクを最小限に抑えるために確率的勾配降下を用いる。 このようにして、ポストレベルおよびイベントレベルサンプル空間が拡張され、様々な敵攻撃の下で、我々のモデルの堅牢性を検証した。 さらに, 視覚実験により, 提案モデルが平坦な損失景観の領域に漂流し, 一般化が促進されることが示唆された。 提案手法を2つのソーシャルプラットフォーム(TwitterとWeibo)の3つの公開噂データセット上で評価した。 実験結果から,本モデルは最先端手法よりも優れた結果が得られることが示された。

With the development of social media, social communication has changed. While this facilitates people's communication and access to information, it also provides an ideal platform for spreading rumors. In normal or critical situations, rumors will affect people's judgment and even endanger social security. However, natural language is high-dimensional and sparse, and the same rumor may be expressed in hundreds of ways on social media. As such, the robustness and generalization of the current rumor detection model are put into question. We proposed a novel \textbf{h}ierarchical \textbf{a}dversarial \textbf{t}raining method for \textbf{r}umor \textbf{d}etection (HAT4RD) on social media. Specifically, HAT4RD is based on gradient ascent by adding adversarial perturbations to the embedding layers of post-level and event-level modules to deceive the detector. At the same time, the detector uses stochastic gradient descent to minimize the adversarial risk to learn a more robust model. In this way, the post-level and event-level sample spaces are enhanced, and we have verified the robustness of our model under a variety of adversarial attacks. Moreover, visual experiments indicate that the proposed model drifts into an area with a flat loss landscape, leading to better generalization. We evaluate our proposed method on three public rumors datasets from two commonly used social platforms (Twitter and Weibo). Experiment results demonstrate that our model achieves better results than state-of-the-art methods.
翻訳日:2023-03-16 21:08:55 公開日:2022-08-29
# 量子欠陥の解析ツールとしての光子放射相関分光法

Photon emission correlation spectroscopy as an analytical tool for quantum defects ( http://arxiv.org/abs/2111.01252v3 )

ライセンス: Link先を確認
Rebecca E. K. Fishman, Raj N. Patel, David A. Hopper, Tzu-Yung Huang, and Lee C. Bassett(参考訳) 光子放射相関分光法は、原子、分子、さらに最近では固体量子欠陥の研究に欠かせないツールである。 固体系では、その最も一般的な用途は、量子技術の主要な特性である単一光子放出の指標である。 しかし、エミッターの単一光子純度以外にも、光子相関測定は、その電子構造と他の分光技術によって隠された光学力学の詳細を明らかにするための豊富な情報を提供することができる。 このチュートリアルでは、量子エミッタの研究に光子放射相関分光法を用いるための標準化された枠組みを提示し、理論的背景、データ取得と統計解析の考慮、解釈について述べる。 単一光子放射に対する共通に使用される$g^{(2)}(\tau=0)<0.5$テストに関する重要なニュアンスとベストプラクティスに注目した。 最後に、この実験手法を光学力学シミュレーションと組み合わせて未知の量子エミッタの電子モデルを定式化し、量子制御プロトコルの設計と量子情報科学応用への適合性の評価を可能にする方法について述べる。

Photon emission correlation spectroscopy is an indispensable tool for the study of atoms, molecules, and, more recently, solid-state quantum defects. In solid-state systems, its most common use is as an indicator of single-photon emission, a key property for quantum technology. Beyond an emitter's single-photon purity, however, photon correlation measurements can provide a wealth of information that can reveal details about its electronic structure and optical dynamics that are hidden by other spectroscopy techniques. This tutorial presents a standardized framework for using photon emission correlation spectroscopy to study quantum emitters, including discussion of theoretical background, considerations for data acquisition and statistical analysis, and interpretation. We highlight important nuances and best practices regarding the commonly-used $g^{(2)}(\tau=0)<0.5$ test for single-photon emission. Finally, we illustrate how this experimental technique can be paired with optical dynamics simulations to formulate an electronic model for unknown quantum emitters, enabling the design of quantum control protocols and assessment of their suitability for quantum information science applications.
翻訳日:2023-03-09 16:50:48 公開日:2022-08-29
# 弱横場を持つイジングモデルにおけるヒルベルト空間の断片化の出現

Emergence of Hilbert Space Fragmentation in Ising Models with a Weak Transverse Field ( http://arxiv.org/abs/2111.05586v3 )

ライセンス: Link先を確認
Atsuki Yoshinaga, Hideaki Hakoshima, Takashi Imoto, Yuichiro Matsuzaki, and Ryusuke Hamazaki(参考訳) 横場イジングモデルは量子多体系の基本モデルの一つであるが、その力学の完全な理解は1次元以上ではいまだに解明されていない。 ここでは,d$次元イジングモデルにおいて,熱前環境において弱い横磁場を持つエルゴディシティの崩壊を初めて示す。 新たなヒルベルト空間の断片化は、領域壁数の創発的大域保存法則の結果として、$d\geq2$の有効非可積分モデルにおいて生じることを実証する。 本結果は,弱い横方向場におけるイジングモデルの非平衡力学に対する非自明な初期状態依存性を示す。

The transverse-field Ising model is one of the fundamental models in quantum many-body systems, yet a full understanding of its dynamics remains elusive in higher than one dimension. Here, we show for the first time the breakdown of ergodicity in $d$-dimensional Ising models with a weak transverse field in a prethermal regime. We demonstrate that novel Hilbert-space fragmentation occurs in the effective non-integrable model with $d\geq2$ as a consequence of only one emergent global conservation law of the domain wall number. Our results indicate nontrivial initial-state dependence for non-equilibrium dynamics of the Ising models in a weak transverse field.
翻訳日:2023-03-08 12:17:43 公開日:2022-08-29
# 量子格子系に対する局所ネーター定理とギャップ状態の位相不変量

Local Noether theorem for quantum lattice systems and topological invariants of gapped states ( http://arxiv.org/abs/2201.01327v3 )

ライセンス: Link先を確認
Anton Kapustin, Nikita Sopenko(参考訳) 任意の次元の量子格子系に対するベリー位相の一般化について検討する。 d次元におけるギャップのある基底状態の滑らかな族に対して、Berry接続の曲率を一般化するパラメータ空間上の閉 (d+2)-形式を定義する。 コホモロジークラスは同族の位相不変量である。 族がコンパクトリー群 G の作用の下で同変であるとき、位相不変量はパラメータ空間の同変コホモロジーの値を取る。 これらの不変量はホール伝導とThoulessポンプを統一して一般化する。 これらの構成において重要な役割は、任意の量子格子系に付随するある種の微分次数付きフレシェ・リー代数である。 副産物として、電荷密度のあいまいさと、急速に減衰する相互作用を持つ任意の格子系に対する保存電流を記述する。

We study generalizations of the Berry phase for quantum lattice systems in arbitrary dimensions. For a smooth family of gapped ground states in d dimensions, we define a closed (d+2)-form on the parameter space which generalizes the curvature of the Berry connection. Its cohomology class is a topological invariant of the family. When the family is equivariant under the action of a compact Lie group G, topological invariants take values in the equivariant cohomology of the parameter space. These invariants unify and generalize the Hall conductance and the Thouless pump. A key role in these constructions is played by a certain differential graded Frechet-Lie algebra attached to any quantum lattice system. As a by-product, we describe ambiguities in charge densities and conserved currents for arbitrary lattice systems with rapidly decaying interactions.
翻訳日:2023-03-02 07:31:36 公開日:2022-08-29
# 非平衡ポンプ場を介する散逸性キャット状態生成の促進

Enhancing dissipative cat-state generation via nonequilibrium pump fields ( http://arxiv.org/abs/2201.10906v2 )

ライセンス: Link先を確認
Zheng-Yang Zhou, Clemens Gneiting, Wei Qin, J. Q. You, and Franco Nori(参考訳) 当初、マクロな重ね合わせを示すために提案された猫の状態は、量子力学の基本的な側面において顕著な役割を果たす。 加えて、量子計算や量子センシングにも潜在的な応用がある。 しかし、猫の状態は消散に弱いため、猫の状態生成の焦点はより高速で頑丈である。 散逸猫状態生成は、損失ポンプ場と半周波信号場との非線形結合に基づく一般的なアプローチである。 このようなアプローチでは、ポンプ場は通常平衡状態に保たれ、キャット状態の発生を制限する。 同期ポンプ法を用いて平衡条件を除去可能であることを示す。 この非平衡状態においては、キャット状態生成の速度を1桁増加させ、単一光子損失に対するロバスト性を高めることができる。 同期ポンプの実現は時間多重系と定常モードの両方で議論される。

Cat states, which were initially proposed to manifest macroscopic superpositions, play an outstanding role in fundamental aspects of quantum dynamics. In addition, they have potential applications in quantum computation and quantum sensing. However, cat states are vulnerable to dissipation, which puts the focus of cat-state generation on higher speed and increased robustness. Dissipative cat-state generation is a common approach based on the nonlinear coupling between a lossy pump field and a half-frequency signal field. In such an approach, the pump field is usually kept in equilibrium, which limits the cat-state generation. We show that the equilibrium requirement can be removed by leveraging a synchronous pump method. In this nonequilibrium regime, the speed of the cat-state generation can be increased by one order of magnitude, and the robustness to single-photon loss can be enhanced. The realization of synchronous pumps is discussed for both time-multiplexed systems and standing modes.
翻訳日:2023-02-27 20:34:55 公開日:2022-08-29
# 非平衡量子力学における境界

Bounds in Nonequilibrium Quantum Dynamics ( http://arxiv.org/abs/2202.02011v2 )

ライセンス: Link先を確認
Zongping Gong, Ryusuke Hamazaki(参考訳) 少数の量子系および多体量子系における平衡外ダイナミクスに関する様々な境界について考察する。 我々は主に閉量子系に焦点をあてるが、オープン量子系と古典確率系に関する関連する結果についても言及する。 まず、(量子的あるいは古典的)力学進化の速度の普遍的な境界である速度限界から始める。 次に、量子システムがどの程度良いのか、どれくらいの期間共役化するか、あるいは熱化するかを示す境界をレビューする。 その後、多体系の局所性によって設定される厳密な制約に注目し、リーブ・ロビンソン境界として厳密に定式化する。 また、真の量子特性である絡み合いのダイナミクスに関連する境界についても検討する。 その他の雑多な話題とは別に、近似量子力学のいくつかの顕著な誤差境界について論じる。 包括的とは程遠いが、このトピックのレビューは、最近のかなりの進歩をカバーしているので、興味のある読者にとって便利な出発点と最新のガイダンスになることを期待している。

We review various bounds concerning out-of-equilibrium dynamics in few-level and many-body quantum systems. We primarily focus on closed quantum systems but will also mention some related results for open quantum systems and classical stochastic systems. We start from the speed limits, the universal bounds on the speeds of (either quantum or classical) dynamical evolutions. We then turn to review the bounds that address how good and how long would a quantum system equilibrate or thermalize. Afterward, we focus on the stringent constraint set by locality in many-body systems, rigorously formalized as the Lieb-Robinson bound. We also review the bounds related to the dynamics of entanglement, a genuine quantum property. Apart from some other miscellaneous topics, several notable error bounds for approximated quantum dynamics are discussed. While far from comprehensive, this topical review covers a considerable amount of recent progress and thus could hopefully serve as a convenient starting point and up-to-date guidance for interested readers.
翻訳日:2023-02-26 20:59:54 公開日:2022-08-29
# wickの定理違反によるフェルミオン相互作用の定量化

Quantifying fermionic interactions from the violation of Wick's theorem ( http://arxiv.org/abs/2203.04870v2 )

ライセンス: Link先を確認
Jiannis K. Pachos and Chrysoula Vlachou(参考訳) 相互作用系とは対照的に、自由系の基底状態は、ウィックの分解によって見られるように、高度に順序付けられた量子相関パターンを持つ。 ここでは、Wickの分解に生じる違反を測定することにより、相互作用の効果を定量化する。 特に、フェミオン系の低絡み合いスペクトルの観点から、この違反を表現している。 さらに, ウィックの定理の破れと相互作用距離との関係を, 系の縮小密度行列と相互作用距離に最も近い最適自由モデルの最小距離として定式化する。 我々の研究は、測定可能な量子相関はあるものの、物理系における相互作用の効果を定量化する手段を提供する。

In contrast to interacting systems, the ground state of free systems has a highly ordered pattern of quantum correlations, as witnessed by Wick's decomposition. Here, we quantify the effect of interactions by measuring the violation they cause on Wick's decomposition. In particular, we express this violation in terms of the low entanglement spectrum of fermionic systems. Moreover, we establish a relation between the Wick's theorem violation and the interaction distance, the smallest distance between the reduced density matrix of the system and that of the optimal free model closest to the interacting one. Our work provides the means to quantify the effect of interactions in physical systems though measurable quantum correlations.
翻訳日:2023-02-22 19:36:01 公開日:2022-08-29
# 多体量子カオスの最小ボソニックモデルにおけるスペクトル形式因子

Spectral form factor in a minimal bosonic model of many-body quantum chaos ( http://arxiv.org/abs/2203.05439v2 )

ライセンス: Link先を確認
Dibyendu Roy, Divij Mishra and Toma\v{z} Prosen(参考訳) 周期キッキングボソニック鎖のスペクトル形成因子について検討した。 我々は、ランダムな化学ポテンシャルやペアワイズ相互作用を含むフォック空間基底で対角的な用語を持つハミルトニアンが、最も近いホッピングとペアリング項を持つ別のハミルトニアンによって周期的に蹴られるモデル群を考える。 中間距離相互作用において、ランダム位相近似は、有効ボソニックハミルトニアンによって生成される双弦多体過程の観点からスペクトル形式因子を書き換えるために用いられる。 粒子数保存の場合、すなわちペア項が存在しないとき、有効ハミルトニアンは非可換な$su(1,1)$ 対称性を持ち、粒子数によらず、thouless時間と系サイズとの普遍的な二次スケーリングをもたらす。 これは、実効ハミルトニアンの退化固有値の退化対称性多重化の結果であり、ペアリング項によって破られる。 後者の場合、キリングフェルミオン鎖に関する最近の研究とは対照的に、thouless timeの非自明な体系的システムサイズ依存性を数値的に発見する。

We study spectral form factor in periodically-kicked bosonic chains. We consider a family of models where a Hamiltonian with the terms diagonal in the Fock space basis, including random chemical potentials and pair-wise interactions, is kicked periodically by another Hamiltonian with nearest-neighbor hopping and pairing terms. We show that for intermediate-range interactions, random phase approximation can be used to rewrite the spectral form factor in terms of a bi-stochastic many-body process generated by an effective bosonic Hamiltonian. In the particle-number conserving case, i.e., when pairing terms are absent, the effective Hamiltonian has a non-abelian $SU(1,1)$ symmetry, resulting in universal quadratic scaling of the Thouless time with the system size, irrespective of the particle number. This is a consequence of degenerate symmetry multiplets of the subleading eigenvalue of the effective Hamiltonian and is broken by the pairing terms. In the latter case, we numerically find a nontrivial systematic system-size dependence of the Thouless time, in contrast to a related recent study for kicked fermionic chains.
翻訳日:2023-02-22 12:10:34 公開日:2022-08-29
# 相互作用粒子のクエンチダイナミクスにおける複雑なスケーリング流れ

Complex scaling flows in the quench dynamics of interacting particles ( http://arxiv.org/abs/2203.06098v3 )

ライセンス: Link先を確認
Tilman Enss and Noel Cuadra Braatz and Giacomo Gori(参考訳) 平衡から駆動される多体系は、量子状態のスケーリングフローを示すことができる。 粒子間の共鳴相互作用を突然冷やすために、複雑なスケールパラメータを持つ時間発展波関数のための新しい種類の解析スケーリングソリューションを構築した。 これらの解は、対相関関数、接触、忠実度などの可観測物の正確な動的スケーリングを決定する。 2つの閉じ込められたフェルミオンやボソンがユニタリティ、理想ボースポラロン、共振相互作用を持つボロメア三体系の非平衡ダイナミクスの明示的な例を与える。 これらの解は相互作用する多体系の普遍的スケーリング特性を示し、クエンチ後の短時間の相関の蓄積から生じる。

Many-body systems driven out of equilibrium can exhibit scaling flows of the quantum state. For a sudden quench to resonant interactions between particles we construct a new class of analytical scaling solutions for the time evolved wave function with a complex scale parameter. These solutions determine the exact dynamical scaling of observables such as the pair correlation function, the contact and the fidelity. We give explicit examples of the nonequilibrium dynamics for two trapped fermions or bosons quenched to unitarity, for ideal Bose polarons, and for resonantly interacting, Borromean three-body systems. These solutions reveal universal scaling properties of interacting many-body systems that arise from the buildup of correlations at short times after the quench.
翻訳日:2023-02-22 09:22:14 公開日:2022-08-29
# 浮遊ナノロータのスピン制御量子干渉

Spin-Controlled Quantum Interference of Levitated Nanorotors ( http://arxiv.org/abs/2203.11717v2 )

ライセンス: Link先を確認
Cosimo C. Rusconi, Maxime Perdriat, Gabriel H\'etet, Oriol Romero-Isart, Benjamin A. Stickler(参考訳) 本稿では,nv中心のマイクロ波駆動による配向の重ね合わせによる電気浮揚ナノダイヤモンドの調製法について述べる。 磁場をNV中心と適切に整列させることは、NVとダイヤモンドの回転の間の超強結合状態に達するのに役立ち、粒子の3次元方向の単一スピン制御を可能にする。 平衡配置に関する小さな振幅回転に対する効果的なスピンオシレータハミルトニアンを導出し、粒子配向の量子重ね合わせを作成し観察するためのプロトコルを開発した。 我々はデコヒーレンスの影響を議論し、我々の提案は近未来技術で現実的に実現できると論じる。

We describe how to prepare an electrically levitated nanodiamond in a superposition of orientations via microwave driving of a single embedded nitrogen-vacancy (NV) center. Suitably aligning the magnetic field with the NV center can serve to reach the regime of ultrastrong coupling between the NV and the diamond rotation, enabling single-spin control of the particle's three-dimensional orientation. We derive the effective spin-oscillator Hamiltonian for small amplitude rotation about the equilibrium configuration and develop a protocol to create and observe quantum superpositions of the particle orientation. We discuss the impact of decoherence and argue that our proposal can be realistically implemented with near-future technology.
翻訳日:2023-02-21 02:59:20 公開日:2022-08-29
# 信頼性と回復力を備えたaiとiotベースのパーソナライズドヘルスケアサービス:調査

Reliable and Resilient AI and IoT-based Personalised Healthcare Services: A Survey ( http://arxiv.org/abs/2209.05457v1 )

ライセンス: Link先を確認
Najma Taimoor and Semeen Rehman(参考訳) 近年の技術と経済の発展により、医療部門はよりパーソナライズされたIoTベースの医療サービスへと変化した。 これらのサービスは、AI/機械学習ベースのアルゴリズムを使用して通常開発される制御および監視アプリケーションを通じて実現され、従来の医療システムの効率性を強調する上で重要な役割を果たす。 現在のパーソナライズされた医療サービスは、技術パーソナライズをサポートする特定の環境に特化している。 しかし、異なる相互関連疾患を考慮できず、不適切な診断と持続可能性、長期健康に影響を及ぼす。 この目的のために、現在のヘルスケア 5.0 技術は、以前の医療技術に取って代わる進化を遂げている。 医療5.0の目標は、患者の異なる健康状態の相互依存効果を考慮して、自律的な医療サービスを達成することである。 本稿では,パーソナライズされた医療サービスの包括的調査を行う。 具体的には、まず、パーソナライゼーションの定義や、現代的なhiotの代表的なユースケースシナリオを含む、現代的なヘルスケアのモノのインターネット(hiot)における、包括的パーソナライズされた医療サービスの重要な要件の概要を紹介する。 第2に、CPHSの重要な要件とそれに続く、パーソナライズされたヘルスケアサービスという枠組みの長所と短所を考慮して、AIと非AIベースのアプローチを用いた、IoTベースのヘルスケアシステムの基本的な3層アーキテクチャについて検討した。 第3に、AIと非AIベースのソリューションとともに、IoTアーキテクチャの各レイヤに対するさまざまなセキュリティ脅威を強調しました。 最後に,既存のアプローチの弱点に対処する信頼性,回復力,パーソナライズされた医療サービスを開発するための方法論を提案する。

Recent technological and economic developments have transformed the healthcare sector towards more personalized and IoT-based healthcare services. These services are realized through control and monitoring applications that are typically developed using artificial intelligence/machine learning-based algorithms, which play a significant role in highlighting the efficiency of traditional healthcare systems. Current personalized healthcare services are dedicated to a specific environment to support technological personalization. However, they are unable to consider different interrelated health conditions, leading to inappropriate diagnoses and affecting sustainability and the long-term health of patients. To this end, current Healthcare 5.0 technology has evolved that supersede previous healthcare technologies. The goal of healthcare 5.0 is to achieve an autonomous healthcare service, that takes into account the interdependent effect of different health conditions of a patient. This paper conducts a comprehensive survey on personalized healthcare services. In particular, we first present an overview of key requirements of comprehensive personalized healthcare services in modern healthcare Internet of Things (HIoT), including the definition of personalization and an example use case scenario as a representative for modern HIoT. Second, we explored a fundamental three-layer architecture for IoT-based healthcare systems using AI and non-AI-based approaches, considering key requirements for CPHS followed by their strengths and weaknesses in the frame of personalized healthcare services. Third, we highlighted different security threats against each layer of IoT architecture along with the possible AI and non-AI-based solutions. Finally, we propose a methodology to develop reliable, resilient, and personalized healthcare services that address the identified weaknesses of existing approaches.
翻訳日:2023-02-19 11:06:09 公開日:2022-08-29
# おそらく何か:非フランジブルトークンの多層分類

Probably Something: A Multi-Layer Taxonomy of Non-Fungible Tokens ( http://arxiv.org/abs/2209.05456v1 )

ライセンス: Link先を確認
Eduard Hartwich, Philipp Ollig, Gilbert Fridgen, Alexander Rieger(参考訳) 目的: 本論文は, 分類学における共通特性を同定し, 構造化することにより, 基本的かつ包括的理解の確立を目的とする。 NFTは誇張され、メタバースの重要なビルディングブロックとして売り出されている。 しかしながら、NFT空間のダイナミックな進化は、NFTの深い包括的理解、その特徴、能力の解明を目指す人々にとって、課題となっている。 設計・方法論・アプローチ:分類学の共通ガイドラインを利用して、ワークショップに基づく多層分類法を開発し、11の学術および15の業界専門家にインタビューした。 25NFTの評価により,分類学の有用性が示された。 結論: 分類学は4つの層,14次元,42特性を持ち,nftを参照対象,トークン特性,トークン分布,実現可能な値として記述する。 originality: 新たなnft現象を体系的にカバーする最初のフレームワークです。 簡潔だが拡張可能であり、多くの分野において将来の研究のための多くの道を示す。 我々の分類学で特定される特徴は、金融・マーケティング・法・情報システムにおけるNFTおよびメタバース関連研究に有用である。 さらに、NFT規制を考える政策立案者の情報源としても機能する。

Purpose: This paper aims to establish a fundamental and comprehensive understanding of Non-Fungible Tokens (NFTs) by identifying and structuring common characteristics within a taxonomy. NFTs are hyped and increasingly marketed as essential building blocks of the Metaverse. However, the dynamic evolution of the NFT space has posed challenges for those seeking to develop a deep and comprehensive understanding of NFTs, their features, and capabilities. Design/methodology/approach: Utilizing common guidelines for the creation of taxonomies, we developed (over three iterations), a multi-layer taxonomy based on workshops and interviews with 11 academic and 15 industry experts. Through an evaluation of 25 NFTs, we demonstrate the usefulness of our taxonomy. Findings: The taxonomy has four layers, 14 dimensions and 42 characteristics, which describe NFTs in terms of reference object, token properties, token distribution, and realizable value. Originality: Our framework is the first to systematically cover the emerging NFT phenomenon. It is concise yet extendible and presents many avenues for future research in a plethora of disciplines. The characteristics identified in our taxonomy are useful for NFT and Metaverse related research in Finance, Marketing, Law, and Information Systems. Additionally, the taxonomy can serve as an information source for policymakers as they consider NFT regulation.
翻訳日:2023-02-19 11:05:42 公開日:2022-08-29
# 消費者モバイルヘルス技術におけるAIのバイアス影響分析:法、技術、政策

Bias Impact Analysis of AI in Consumer Mobile Health Technologies: Legal, Technical, and Policy ( http://arxiv.org/abs/2209.05440v1 )

ライセンス: Link先を確認
Kristine Gloria, Nidhi Rastogi, Stevie DeGroff(参考訳) 今日の大規模なアルゴリズムと自動意思決定システムの展開は、辺境化コミュニティを除外する恐れがある。 したがって、創発的な危険は、有害な既存の差別行為を複製、強化、増幅するためのシステムの有効性と妥当性から生じる。 アルゴリズムバイアスは、雇用から住宅、医療に至るまで、ドメインに現れる深い現実世界の影響をもたらす、望ましくないバイアスの、深く絡み合ったエンコーディングを露呈する。 これらの効果に関する過去10年間の研究と例は、価値中立性技術の主張を調べる必要性をさらに浮き彫りにした。 本研究では,mhealth(consumer mobile health technologies)におけるアルゴリズムバイアスの交叉について検討する。 mHealthは、モバイル技術と関連するセンサーを表現し、患者の旅行を通じて医療ソリューションを提供する用語です。 また,精神保健・行動保健(精神保健・生理学)も本研究に含まれる。 さらに、mhealthドメインを構成するインテリジェントなシステムにおいて、不要なバイアスに関連する潜在的なリスクを軽減する上で、現在のメカニズム – 法的、技術的、あるいは規範的 – がどの程度有効かを検討する。 我々は、技術者や政策立案者の役割と責任に関する追加ガイダンスを提供し、そのようなシステムが患者に公平な力を与えなければならない。

Today's large-scale algorithmic and automated deployment of decision-making systems threatens to exclude marginalized communities. Thus, the emergent danger comes from the effectiveness and the propensity of such systems to replicate, reinforce, or amplify harmful existing discriminatory acts. Algorithmic bias exposes a deeply entrenched encoding of a range of unwanted biases that can have profound real-world effects that manifest in domains from employment, to housing, to healthcare. The last decade of research and examples on these effects further underscores the need to examine any claim of a value-neutral technology. This work examines the intersection of algorithmic bias in consumer mobile health technologies (mHealth). We include mHealth, a term used to describe mobile technology and associated sensors to provide healthcare solutions through patient journeys. We also include mental and behavioral health (mental and physiological) as part of our study. Furthermore, we explore to what extent current mechanisms - legal, technical, and or normative - help mitigate potential risks associated with unwanted bias in intelligent systems that make up the mHealth domain. We provide additional guidance on the role and responsibilities technologists and policymakers have to ensure that such systems empower patients equitably.
翻訳日:2023-02-19 11:05:25 公開日:2022-08-29
# Immersive Learning Frameworks: 体系的な文献レビュー

Immersive Learning Frameworks: A Systematic Literature Review ( http://arxiv.org/abs/2208.14179v1 )

ライセンス: Link先を確認
Filipe Arantes Fernandes, Claudia Susie Camargo Rodrigues, Eld\^anae Nogueira Teixeira, Cl\'audia Werner(参考訳) 貢献:本研究は没入型学習フレームワークに関する文献を考察し,その成果を概観する。 フレームワークはその目的に応じて分類されている。 また、それらを構成する要素も分類された。 いくつかのギャップが特定され、研究ロードマップとして提案された。 背景: 教育用没入型技術は数年前から使われてきた。 それにもかかわらず、没入型学習のための仮想環境の開発と利用を支援する研究はほとんどない。 研究課題: この体系的なレビューには、次の主な研究課題がある: 没入型学習フレームワークの最先端は何か? この質問に答えるために、二次研究の質問を定義しました。 1)初等教育における没入学習の定義について 2) フレームワークが使用する目的は何ですか? 3) フレームワークを構成する要素は何ですか? 4) フレームワークの検証に使用するメソッドは何ですか? 方法論: 体系的なレビューガイドラインに従って、この研究はデータの収集と分析のための厳密で再現可能なプロセスに従っています。 検索エンジンで特定された1721年記事から, 含意基準と排他基準から15項目が選択された。 Findings: ほとんどのフレームワークは、学習結果に影響を与える没入型学習要因間の因果関係を研究するモデルです。 この理論的な側面は研究の進歩のために重要であるが、この領域は、より技術的な詳細と開発のサポート、および教師や教師による没入型仮想環境の使用を扱う、より実用的な枠組みを欠いている。

Contribution: This secondary study examines the literature on immersive learning frameworks and reviews their state of the art. Frameworks have been categorized according to their purpose. In addition, the elements that compose them were also categorized. Some gaps were identified and proposed as a research roadmap. Background: Immersive technologies for education have been used for some years. Despite this, there are few works that aim to support the development and use of virtual environments for immersive learning. Research Questions: This systematic review has the following main research question: What is the state of the art of immersive learning frameworks? In order to answer this question, secondary research questions were defined: 1) what definitions of immersive learning were adopted in primary studies? 2) what are the purposes of use by the frameworks? 3) what are the elements that compose the frameworks? 4) what are the methods used to validate the frameworks? Methodology: As per the systematic review guidelines, this study followed a rigorous and replicable process for collecting and analyzing data. From 1721 articles identified in the search engines, 15 were selected after the inclusion and exclusion criteria. Findings: Most frameworks are models that investigate the causal relationship between immersive learning factors that influence learning outcomes. Although this theoretical aspect is important for the advancement of research, the area still lacks more practical frameworks that address more technical details and support development, as well as the use of immersive virtual environments by teachers and instructors.
翻訳日:2023-02-19 10:51:46 公開日:2022-08-29
# すべてのアノテーションからのソフトラベルの引用と学習

Eliciting and Learning with Soft Labels from Every Annotator ( http://arxiv.org/abs/2207.00810v3 )

ライセンス: Link先を確認
Katherine M. Collins, Umang Bhatt, Adrian Weller(参考訳) 機械学習(ML)モデルのトレーニングに使用されるラベルは、非常に重要である。 ML分類タスクの場合、データセットはハードラベルを含むが、ソフトラベルを用いた学習はモデルの一般化、堅牢性、キャリブレーションの恩恵をもたらすことが示されている。 初期の研究は、複数のアノテータのハードラベルからソフトラベルを作ることに成功したが、このアプローチは最高のラベルに収束せず、多くのアノテータを必要とする可能性がある。 個々のアノテータからソフトラベルを効率よく抽出することに注力する。 クラウドソーシング調査(N=248)を通じて,CIFAR-10Sと呼ばれるソフトラベルのデータセットをCIFAR-10テストセット上で収集し,リリースする。 ラベルによる学習は,従来の手法に匹敵するモデル性能を実現すると同時に,注釈をはるかに少なくすることができることを実証した。 提案手法は,アノテータを減らしたモデルの性能向上と信頼性向上のメリットを実践者が享受できることを示唆し,アノテータの分類的不確実性などのリッチな情報を活用することのメリットについて,将来のデータセットキュレーターのガイドとして機能する。

The labels used to train machine learning (ML) models are of paramount importance. Typically for ML classification tasks, datasets contain hard labels, yet learning using soft labels has been shown to yield benefits for model generalization, robustness, and calibration. Earlier work found success in forming soft labels from multiple annotators' hard labels; however, this approach may not converge to the best labels and necessitates many annotators, which can be expensive and inefficient. We focus on efficiently eliciting soft labels from individual annotators. We collect and release a dataset of soft labels (which we call CIFAR-10S) over the CIFAR-10 test set via a crowdsourcing study (N=248). We demonstrate that learning with our labels achieves comparable model performance to prior approaches while requiring far fewer annotators -- albeit with significant temporal costs per elicitation. Our elicitation methodology therefore shows nuanced promise in enabling practitioners to enjoy the benefits of improved model performance and reliability with fewer annotators, and serves as a guide for future dataset curators on the benefits of leveraging richer information, such as categorical uncertainty, from individual annotators.
翻訳日:2023-02-19 09:34:52 公開日:2022-08-29
# 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v3 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem(参考訳) 過去10年間で、多くの組織が規範的な意味で標準化を意図したドキュメントを作成し、最近のAI開発へのガイダンスを促進してきました。 しかし、これらの文書で提示されるアイデアの完全な内容とばらつきは、いくつかのメタ分析と批判的レビューを除いてまだ分析されていない。 本研究では,過去の研究者による作業の拡大と,これらの文書の内容と性質をよりよく視覚化するツールの開発を目的とする。 また、本ツールの適用により得られた結果を200文書のサンプルサイズに分析する。

In the last decade, a great number of organizations have produced documents intended to standardize, in the normative sense, and promote guidance to our recent and rapid AI development. However, the full content and divergence of ideas presented in these documents have not yet been analyzed, except for a few meta-analyses and critical reviews of the field. In this work, we seek to expand on the work done by past researchers and create a tool for better data visualization of the contents and nature of these documents. We also provide our critical analysis of the results acquired by the application of our tool into a sample size of 200 documents.
翻訳日:2023-02-19 09:26:39 公開日:2022-08-29
# 変分量子アルゴリズムの限界:量子最適輸送アプローチ

Limitations of variational quantum algorithms: a quantum optimal transport approach ( http://arxiv.org/abs/2204.03455v2 )

ライセンス: Link先を確認
Giacomo De Palma, Milad Marvian, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a(参考訳) ここ数年の量子ハードウェアの驚異的な進歩は、量子コンピューティングコミュニティの関心を呼び起こし、そのようなデバイスの計算能力の獲得に寄与した。 しかし、誤り訂正がない場合、これらのデバイスはエラーの非自明な密度を犠牲にして、非常に浅い回路や比較的深い回路を確実に実装できるのみである。 本研究は,ノイズとノイズレスの両制度における標準NISQ提案に対して,誤差軽減ツールの有無にかかわらず,極めて厳密な制限境界を求めるものである。 境界は、qaoaのような回路モデルアルゴリズムと、量子アニーリングのような連続時間アルゴリズムの両方の性能を制限する。 局所偏極雑音が$p$の雑音系では、深さが$L=\cO(p^{-1})$のとき、雑音量子回路の結果がMax-Cutのような組合せ最適化問題に対して効率的な古典的アルゴリズムを上回ることは指数関数的に不可能である。 以前の結果から、古典的アルゴリズムは雑音の多い量子回路を一定の深さで上回ることを示したが、これらの結果は出力の期待値に留まった。 本研究は,量子エントロピーおよび濃度不等式を基礎とし,量子輸送の最適量子理論から理論的手法の均質なツールキットを構成し,その有用性は変分量子アルゴリズムの研究を超越している。

The impressive progress in quantum hardware of the last years has raised the interest of the quantum computing community in harvesting the computational power of such devices. However, in the absence of error correction, these devices can only reliably implement very shallow circuits or comparatively deeper circuits at the expense of a nontrivial density of errors. In this work, we obtain extremely tight limitation bounds for standard NISQ proposals in both the noisy and noiseless regimes, with or without error-mitigation tools. The bounds limit the performance of both circuit model algorithms, such as QAOA, and also continuous-time algorithms, such as quantum annealing. In the noisy regime with local depolarizing noise $p$, we prove that at depths $L=\cO(p^{-1})$ it is exponentially unlikely that the outcome of a noisy quantum circuit outperforms efficient classical algorithms for combinatorial optimization problems like Max-Cut. Although previous results already showed that classical algorithms outperform noisy quantum circuits at constant depth, these results only held for the expectation value of the output. Our results are based on newly developed quantum entropic and concentration inequalities, which constitute a homogeneous toolkit of theoretical methods from the quantum theory of optimal mass transport whose potential usefulness goes beyond the study of variational quantum algorithms.
翻訳日:2023-02-17 23:56:35 公開日:2022-08-29
# LHCにおける量子クラスタリングとジェット再構成

Quantum clustering and jet reconstruction at the LHC ( http://arxiv.org/abs/2204.06496v4 )

ライセンス: Link先を確認
Jorge J. Mart\'inez de Lejarza, Leandro Cieri, Germ\'an Rodrigo(参考訳) クラスタリングは、多くの領域、特にジェットの再構成が実験分析の中心となる粒子物理学において最も頻繁に発生する問題の1つである。 CERNの大型ハドロン衝突型加速器 (LHC) でのジェットクラスタリングは計算に高価であり、この作業の難しさは今後の高輝度LHC (HL-LHC) によって増大する。 本稿では,古典的ジェットクラスタリングアルゴリズムを高速化する2つの新しい量子アルゴリズムを考えることにより,量子コンピューティングアルゴリズムがジェットクラスタリングを改善する可能性について検討する。 1つは、ミンコフスキーに基づく2つのデータポイント間の距離を計算する量子サブルーチンであり、もう1つは、最大値を追跡する量子回路で構成されている。 後者のアルゴリズムは、例えば統計学において、粒子物理学を超える価値がある。 これらのアルゴリズムの一方または両方が、よく知られたクラスタリングアルゴリズム(K-means, Affinity Propagation, $k_T$-jet)の古典的なバージョンに実装されると、それらの古典的なアルゴリズムに匹敵する効率が得られる。 さらに、最初の2つのアルゴリズムでは、距離アルゴリズムや最大探索アルゴリズムが適用されると、データ次元とデータ長さにおいて指数的なスピードアップを達成できる。

Clustering is one of the most frequent problems in many domains, in particular, in particle physics where jet reconstruction is central in experimental analyses. Jet clustering at the CERN's Large Hadron Collider (LHC) is computationally expensive and the difficulty of this task will increase with the upcoming High-Luminosity LHC (HL-LHC). In this paper, we study the case in which quantum computing algorithms might improve jet clustering by considering two novel quantum algorithms which may speed up the classical jet clustering algorithms. The first one is a quantum subroutine to compute a Minkowski-based distance between two data points, whereas the second one consists of a quantum circuit to track the maximum into a list of unsorted data. The latter algorithm could be of value beyond particle physics, for instance in statistics. When one or both of these algorithms are implemented into the classical versions of well-known clustering algorithms (K-means, Affinity Propagation and $k_T$-jet) we obtain efficiencies comparable to those of their classical counterparts. Even more, exponential speed-up could be achieved, in the first two algorithms, in data dimensionality and data length when the distance algorithm or the maximum searching algorithm are applied.
翻訳日:2023-02-17 02:45:42 公開日:2022-08-29
# 非断熱幾何量子計算における単一量子ビットゲートの高速進化

Fast Evolution of Single Qubit Gate in Non-Adiabatic Geometric Quantum Computing ( http://arxiv.org/abs/2205.08165v2 )

ライセンス: Link先を確認
Ge Tang, Xiao-Yong Yang, Ying Yan and Jie Lu(参考訳) 幾何学量子コンピューティングの任意の単一量子ビットゲートを3レベルシステムに単一ショットで実装した。 ゲートの進化時間はブロッホ球面上の状態の最も短い軌道を考えることで最小化されている。 ゲートの持続時間は、回転角$\gamma$でゼロから増加し、試験されたTゲート時間は、ラビ周波数のパラメトリゼーションによる従来のオレンジスライス形状の非断熱ホロノミック量子コンピューティング(NHQC)スキームにおいて、$\sim$40\%に削減できる。 また、特定のパルスが静的なデチューニングエラーやRabiエラーに対して堅牢であることを示した。 時間依存デチューニングとラビ周波数は、幾何学的位相によって決定される定数によって互いに比例する。 このようにして、これまでの NHQC スキームは一般化されたモデルにおける特別なケースとして扱うことができる。

We implemented arbitrary single qubit gates of geometric quantum computing for a three-level system in a single-shot manner. The evolution time of the gate has been minimized by considering the shortest trajectory of the state on the Bloch sphere. The duration of gates grows from zero with the rotation angle $\gamma$, and the tested T gate time can be reduced to $\sim$40\% of those in the traditional orange-sliced-shaped path non-adiabatic holonomic quantum computing (NHQC) scheme by the parametrization of Rabi frequency. We also demonstrated that certain pulses are robust against static detuning errors and Rabi errors. The time-dependent detuning and Rabi frequency are found to be proportional to each other by a constant which is determined by the geometric phase. In this way, some previous NHQC schemes can be treated as special cases in our generalized model.
翻訳日:2023-02-12 21:16:22 公開日:2022-08-29
# 質量不均衡フェルミ・ハバード模型における可変輸送

Tunable transport in the mass-imbalanced Fermi-Hubbard model ( http://arxiv.org/abs/2205.12970v2 )

ライセンス: Link先を確認
Philip Zechmann, Alvise Bastianello, Michael Knap(参考訳) 量子多体系の後期ダイナミクスは、その保存則と創発的な流体輸送によって特徴づけられる、異なる動的普遍性クラスで構成される。 ここでは,2種のフェルミオンの質量の異なる1次元ハバードモデルの輸送について検討する。 この目的のために,弱い相互作用の限界に有効な量子ボルツマン法を開発した。 我々は,2種の質量比に強く依存する,弾道的な輸送から拡散的な輸送への交差を探索する。 行列積演算子でアクセス可能な時間スケールについては、これらの数値的正確な結果と量子ボルツマン方程式の間には、中間相互作用に対しても優れた一致がある。 超低温原子実験で最近研究されている2つのシナリオについて検討する。 第一に、傾きの存在下では、量子ボルツマン方程式は、輸送が著しく遅くなり、以前の研究と一致して散逸すると予想する。 第2に,高調波閉じ込めポテンシャルを分解し,最近の実験データ(N. Darkwah Oppong et al., arXiv:2011.12411]と良好な定量的一致を示した。 この結果から, 量子ボルツマン方程式は, 不均一ポテンシャルの複雑な非平衡状態の研究に有用であることが示唆された。

The late-time dynamics of quantum many-body systems is organized in distinct dynamical universality classes, characterized by their conservation laws and thus by their emergent hydrodynamic transport. Here, we study transport in the one-dimensional Hubbard model with different masses of the two fermionic species. To this end, we develop a quantum Boltzmann approach valid in the limit of weak interactions. We explore the crossover from ballistic to diffusive transport, whose timescale strongly depends on the mass ratio of the two species. For timescales accessible with matrix product operators, we find excellent agreement between these numerically exact results and the quantum Boltzmann equation, even for intermediate interactions. We investigate two scenarios which have been recently studied with ultracold atom experiments. First, in the presence of a tilt, the quantum Boltzmann equation predicts that transport is significantly slowed down and becomes subdiffusive, consistent with previous studies. Second, we study transport probed by displacing a harmonic confinement potential and find good quantitative agreement with recent experimental data [N. Darkwah Oppong et al., arXiv:2011.12411]. Our results demonstrate that the quantum Boltzmann equation is a useful tool to study complex non-equilibrium states in inhomogeneous potentials, as often probed with synthetic quantum systems.
翻訳日:2023-02-11 19:06:43 公開日:2022-08-29
# ハニカムボース・ハバード模型におけるヘリカル超流動

Helical superfluid in a frustrated honeycomb Bose-Hubbard model ( http://arxiv.org/abs/2206.00013v2 )

ライセンス: Link先を確認
Tzu-Chi Hsieh, Han Ma, and Leo Radzihovsky(参考訳) フラストレーションボソニックモデルで非ゼロモーメント凝縮体である「ヘリカル」超流動の研究を行った。 平均場ボゴリボフ準位では、そのような新しい状態は従来の超流動よりも質的に強い「スメクティック」な変動を示す。 位相図を開発し, スペクトル, 構造因子, 凝縮破壊, 運動量分布など, 従来の超流動とは定性的に異なる様々な物性を計算する。 ゆらぎ、相互作用、格子効果の相互作用は秩序・秩序・秩序現象を生じさせ、スメクティック超流動構造から異方性xy超流動相へと交差する。 このようなヘリカル超流体の場論的な説明と顕微鏡格子解析を補完し、顕微鏡から導出し、一般的な対称性の根拠を正当化し、完全な整合性を見いだす。 実験的実現の可能性について論じる。

We study a "helical" superfluid, a nonzero-momentum condensate in a frustrated bosonic model. At mean-field Bogoliubov level, such a novel state exhibits "smectic" fluctuation that are qualitatively stronger than that of a conventional superfluid. We develop a phase diagram and compute a variety of its physical properties, including the spectrum, structure factor, condensate depletion, momentum distribution, all of which are qualitatively distinct from that of a conventional superfluid. Interplay of fluctuations, interaction and lattice effects gives rise to the phenomenon of order-by-disorder, leading to a crossover from the smectic superfluid regime to the anisotropic XY superfluid phase. We complement the microscopic lattice analysis with a field theoretic description for such a helical superfluid, which we derive from microscopics and justify on general symmetry grounds, reassuringly finding full consistency. Possible experimental realizations are discussed.
翻訳日:2023-02-11 03:51:18 公開日:2022-08-29
# Golayのコードと量子コンテキスト性

The Golay codes and Quantum Contextuality ( http://arxiv.org/abs/2206.04209v2 )

ライセンス: Link先を確認
Mordecai Waegell, P.K.Aravind(参考訳) 二項ゴレイ符号と三項ゴレー符号の符号語は、それぞれ24次元と12次元の実数空間におけるコッチェン・スペックの定理の証明を与える rp(23) と rp(11) の光線に変換することができる。 これらの結果のいくつかの意味について論じる。

It is shown that the codewords of the binary and ternary Golay codes can be converted into rays in RP(23) and RP(11) that provide proofs of the Kochen-Specker theorem in real state spaces of dimension 24 and 12, respectively. Some implications of these results are discussed.
翻訳日:2023-02-10 01:42:32 公開日:2022-08-29
# 有限忠実度量子回路シミュレーションのための密度行列再正規化群アルゴリズム

A density-matrix renormalization group algorithm for simulating quantum circuits with a finite fidelity ( http://arxiv.org/abs/2207.05612v2 )

ライセンス: Link先を確認
Thomas Ayral, Thibaud Louvet, Yiqing Zhou, Cyprien Lambert, E. Miles Stoudenmire and Xavier Waintal(参考訳) 量子回路シミュレーションのための密度行列再正規化群(DMRG)アルゴリズムを開発した。 このアルゴリズムは、エルミートハミルトン行列の通常の状況からユニタリ行列で定義される量子回路への時間依存DMRGの拡張と見なすことができる。 小さな回路深度では、この技術は他の行列積状態(mps)ベースの技術と正確かつ等価である。 大きな深さでは、計算時間で指数的なスピードアップと引き換えに近似される。 実際の量子コンピュータと同様に、dmrgの結果の品質は有限忠実性によって特徴づけられる。 しかし、量子コンピュータとは異なり、忠実性は考慮された量子回路に強く依存する。 この手法の最も難しい回路として、google inc. のいわゆる "quantum supremacy" ベンチマークがある。 そこで, DMRGアルゴリズムは, 1つのコア上でのGoogle実験と同等品質のビット列を生成することができることがわかった。 組合せ最適化 (Quantum Approximate Optimization Algorithm, QAOA) に使用されるより構造化された回路では、乱数量子回路と比較して100倍の誤差率でDMRG結果が大幅に改善された。 量子コンピュータの現在のボトルネックは、量子ビット数ではなく、そのフィダリティであることが示唆された。

We develop a density-matrix renormalization group (DMRG) algorithm for the simulation of quantum circuits. This algorithm can be seen as the extension of time-dependent DMRG from the usual situation of hermitian Hamiltonian matrices to quantum circuits defined by unitary matrices. For small circuit depths, the technique is exact and equivalent to other matrix product state (MPS) based techniques. For larger depths, it becomes approximate in exchange for an exponential speed up in computational time. Like an actual quantum computer, the quality of the DMRG results is characterized by a finite fidelity. However, unlike a quantum computer, the fidelity depends strongly on the quantum circuit considered. For the most difficult possible circuit for this technique, the so-called "quantum supremacy" benchmark of Google Inc. , we find that the DMRG algorithm can generate bit strings of the same quality as the seminal Google experiment on a single computing core. For a more structured circuit used for combinatorial optimization (Quantum Approximate Optimization Algorithm or QAOA), we find a drastic improvement of the DMRG results with error rates dropping by a factor of 100 compared with random quantum circuits. Our results suggest that the current bottleneck of quantum computers is their fidelities rather than the number of qubits.
翻訳日:2023-02-05 09:38:47 公開日:2022-08-29
# dc-squidアレイにおける非陰極ヌル曲線の類似と時系列保護

Analogue non-causal Null Curves and Chronology protection in a dc-SQUID Array ( http://arxiv.org/abs/2207.14164v2 )

ライセンス: Link先を確認
Carlos Sab\'in(参考訳) 本研究では,非コーサル曲線を含む1+1 d時空のアナログ量子シミュレータ,特にオープン超電導伝送線路に埋め込まれたdc-squidアレイを用いて時間に遡るヌル測地線を提案する。 これは、外部磁束によって変調できるシミュレータ内の電磁界の伝搬速度とメトリックの空間依存性を模倣することにより達成される。 非因果零測地線を含む時空領域をシミュレートすることは可能であるが、非因果零測地線と非因果零測地線を持つ時間的水平分離領域を含むフル時空は持たないことを示す。 これは最近のBarcel\'oらによるアナログ重力時間保護機構の提案と一致している。

We propose an analogue quantum simulator of a 1+1 D spacetime containing non-causal curves,in particular, null geodesics going back in time, by means of a dc-SQUID array embedded on an open superconducting transmission line. This is achieved by mimicking the spatial dependence of the metric with the propagation speed of the electromagnetic field in the simulator, which can be modulated by an external magnetic flux. We show that it is possible to simulate a spacetime region containing non-causal null geodesics, but not a full spacetime containing a chronological horizon separating regions with non-causal null geodesics and regions without them. This is in agreement with a recent suggestion of analogue-gravity chronology protection mechanism by Barcel\'o et al.
翻訳日:2023-02-03 05:01:18 公開日:2022-08-29
# ニキフォロフ-ウバロフ形式による二乗型三角ポテンシャルのスージー非相対論的量子固有スペクトルエネルギー解析

A SUSY-Nonrelativistic Quantum Eigenspectral Energy Analysis for Squared-Type Trigonometric Potentials Through the Nikiforov-Uvarov Formalism ( http://arxiv.org/abs/2208.11587v2 )

ライセンス: Link先を確認
Metin Aktas(参考訳) 本稿では,超対称量子力学(susyqm)の枠組みにおける二乗形三角ポテンシャルに対するschr\"odinger方程式の明示的および解析的境界状態解を,ニキフォロフ-ウバロフ(nu)の多項式手順を実装した。 最初のステップは、ポテンシャル対を V(x) として生成する適切なアンザッツ超ポテンシャル W(x) を採用するための特定の作用を必要とする。 第2のプロセスでは、各ポテンシャルを1次元シュリンガー方程式に挿入し、この方法で超幾何微分方程式を解くことにより、波動関数記述とその対応する特性 SUSY 量子エネルギー固有スペクトル集合を代数的に導く。 パラメトリック的に調べると、それらは相対論的または非相対論的形式論にかかわる様々な物理量子系の数学的処理に関する信頼性があり適用可能な形式である。

In the present paper, explicit and analytical bound-state solutions of Schr\"odinger equation for squared-form trigonometric potentials within the framework of supersymmetric quantum mechanics (SUSYQM) are accomplished by implementing the polynomial procedure of Nikiforov-Uvarov (NU). The first step requires a certain action to adopt an appropriate ansatz superpotential W(x) for generating the potential pair as V(x). In the second process, inserting each potential respectively for one-dimensional Schr\"odinger equation and solving the hypergeometric differential equation by this method gives rise to the wavefunction descriptions and their corresponding characteristic SUSY quantum energy eigenspectrum sets algebraically. It is remarkable to note that, when examined parametrically, they are of reliable and applicable forms concerning the mathematical treatment of various physical quantum systems involved either in relativistic or in nonrelativistic formalism.
翻訳日:2023-01-29 23:58:30 公開日:2022-08-29
# spectator qubitsアレイを用いた相関位相誤差の中間回路補正

Mid-circuit correction of correlated phase errors using an array of spectator qubits ( http://arxiv.org/abs/2208.11716v2 )

ライセンス: Link先を確認
Kevin Singh, Conor E. Bradley, Shraddha Anand, Vikram Ramesh, Ryan White, Hannes Bernien(参考訳) エラーを起こしやすい量子プロセッサのスケールアップは、非常に難しい課題だ。 量子誤差補正は最終的にフォールトトレラントな動作を約束するが、必要な量子ビットオーバーヘッドとエラーしきい値が不足し、多くの符号が相関したノイズ下で故障する。 最近の提案では、共配置の補助的な「検査者」キュービットに基づく補完的アプローチが提案されている。 これらはノイズのその場プローブとして機能し、データキュービットのエラーをリアルタイムにコヒーレントに補正することができる。 ここでは,cesium spectator qubits の配列を用いて,ルービジウムデータ qubits の配列上の相関位相誤差を補正する。 重要なことに、シーケンス内読み出し、データ処理、フィードフォワード演算を組み合わせることで、これらの相関エラーは量子回路の実行中に抑制される。 提案手法は,原子配列の中間回路の読み出し,リアルタイム処理とフィードフォワード,原子量子ビットのコヒーレントな中間回路再ロードといった,中性原子量子プロセッサをスケールするための重要なツールを確立する。

Scaling up invariably error-prone quantum processors is a formidable challenge. While quantum error correction ultimately promises fault-tolerant operation, the required qubit overhead and error thresholds are daunting, and many codes break down under correlated noise. Recent proposals have suggested a complementary approach based on co-located, auxiliary 'spectator' qubits. These act as in-situ probes of noise, and enable real-time, coherent corrections of the resulting errors on the data qubits. Here, we use an array of cesium spectator qubits to correct correlated phase errors on an array of rubidium data qubits. Crucially, by combining in-sequence readouts, data processing, and feed-forward operations, these correlated errors are suppressed within the execution of the quantum circuit. The protocol is broadly applicable to quantum information platforms, and our approach establishes key tools for scaling neutral-atom quantum processors: mid-circuit readout of atom arrays, real-time processing and feed-forward, and coherent mid-circuit reloading of atomic qubits.
翻訳日:2023-01-29 23:50:03 公開日:2022-08-29
# 2レベル系と電離放射線によるマルチモード音響共振器の相関周波数ノイズ

Correlated frequency noise in a multimode acoustic resonator induced by two-level systems and ionizing radiation ( http://arxiv.org/abs/2208.13410v1 )

ライセンス: Link先を確認
Nuttamas Tubsrinuan and Jared H. Cole and Per Delsing and Gustav Andersson(参考訳) 周波数不安定性は量子デバイスにおけるエラーの主な原因である。 本研究では、14個のsawモードの反射係数を7時間以上同時に測定する弾性表面波共振器の周波数ゆらぎについて検討する。 2つの異なるノイズ特性を報告する。 2レベルシステム(TLS)欠陥との相互作用によるマルチモード周波数ノイズは、デチューニングの増加に伴って減少する有意な相関関係を示す。 この発見は、量子デバイスにおける支配的なノイズ源の1つである寄生TLS挙動の現在の理解と一致する。 TLSによるノイズに加えて, 反相関を生じる異常周波数変動を観測する。 これらのノイズバーストは、宇宙放射線によって励起される局所的な欠陥状態によって引き起こされる可能性がある。

Frequency instabilities are a major source of errors in quantum devices. This study investigates frequency fluctuations in a surface acoustic wave (SAW) resonator, where reflection coefficients of 14 SAW modes are measured simultaneously for more than seven hours. We report two distinct noise characteristics. Multimode frequency noise caused by interactions with two-level system (TLS) defects shows significant degrees of correlations that diminish with increased detuning. This finding agrees with the current understanding of the parasitic TLS behavior as one of the dominant noise sources in quantum devices. In addition to the TLS-induced noise, we observe anomalous frequency fluctuations giving rise to anti-correlations. These noise bursts may be caused by localized defect states excited by cosmic radiation.
翻訳日:2023-01-28 15:03:11 公開日:2022-08-29
# スピン依存電子移動ダイナミクスにおけるDuschinskii回転の影響

The Effect of Duschinskii Rotations on Spin-Dependent Electron Transfer Dynamics ( http://arxiv.org/abs/2208.13378v1 )

ライセンス: Link先を確認
Suraj S. Chandran, Yanze Wu, and Joseph E. Subotnik(参考訳) デュシンスキー回転の存在下でのスピン依存電子移動を調べる。 特に、スピン軌道カップリングが$e^{iWx}$という形の状態間カップリングを導入し、位置(x)に依存して複素値を持つ2レベルモデル系に対してダイナミクスを伝搬する。 ドスチンスキー回転を伴うブラウン振動子に結合した2レベル系は、単純なシフト調和振動子と結合した2レベル系に対して、過渡スピン偏極の顕著な増加を生じさせることを示した。 これらの結論は、カイラル誘導スピン選択性に対する核運動の影響をモデル化するために重要な意味を持つべきである。

We investigate spin-dependent electron transfer in the presence of a Duschinskii rotation. In particular, we propagate dynamics for a two-level model system for which spin-orbit coupling introduces an interstate coupling of the form $e^{iWx}$, which is both position(x)-dependent and complex-valued. We demonstrate that two-level systems coupled to Brownian oscillators with Duschinskii rotations (and thus entangled normal modes) can produce marked increases in transient spin polarization relative to two-level systems coupled to simple shifted harmonic oscillators. These conclusions should have significant relevance for modeling the effect of nuclear motion on chiral induced spin selectivity.
翻訳日:2023-01-28 15:01:46 公開日:2022-08-29
# 有界振幅を持つ2レベル量子系の時間最適制御の推定

Estimation of time-optimal control for two-level quantum system with bounded amplitude ( http://arxiv.org/abs/2208.13377v1 )

ライセンス: Link先を確認
Xikun Li(参考訳) 時間最適制御の量子速度限界と時間形状を数値的に推定する体系的手法を提案する。 制限された制御場を持つ2レベル量子系の2つの量子状態遷移を図示として研究した。 数値結果と解析結果の比較を行い, 偏差は有意に小さい。 最適化された制御場の形状は単純であり、頻繁にスイッチしないため、実験では実装が容易である。 本手法は, 解析解が存在しない場合の量子速度限界と時間最適制御を推定する上で重要である。

A systematic scheme is proposed to numerically estimate the quantum speed limit and temporal shape of time-optimal control. Two quantum state transitions in the two-level quantum system with constrained control field are studied as illustration. Comparisons between numerical results and analytical results are made, and deviations are significantly small. The shape of optimized control field is simple and does not switch frequently, thus are easy to implement in experiment. Our scheme is of importance in estimating the quantum speed limit and time-optimal controls in cases in which analytical solution is absent
翻訳日:2023-01-28 15:01:36 公開日:2022-08-29
# 量子回路における負荷確率分布

Loading Probability Distributions in a Quantum circuit ( http://arxiv.org/abs/2208.13372v1 )

ライセンス: Link先を確認
Kalyan Dasgupta and Binoy Paine(参考訳) 確率分布を生成する量子回路は、いくつかの分野で応用されている。 金融のような分野は、与えられたデータパターンを模倣する分布を生成する量子回路を必要とする。 ハミルトンシミュレーションは物理量子系の波動関数を初期化する回路を必要とする。 これらの波動関数は、いくつかの場合において、よく知られた確率分布と同一である。 本稿では,対称分布と非対称分布の両方を生成できるパラメータ化量子回路の構成法について述べる。 単一および2つの量子ビット演算がシステムに適用されるにつれて、量子状態の軌跡に従い、所望の分布に到達する最善の方法を見つける。 パラメータは変分解法によって最適化される。 我々はシミュレータと実際のIBM量子ハードウェアの両方の結果を提示する。

Quantum circuits generating probability distributions has applications in several areas. Areas like finance require quantum circuits that can generate distributions that mimic some given data pattern. Hamiltonian simulations require circuits that can initialize the wave function of a physical quantum system. These wave functions, in several cases, are identical to some very well known probability distributions. In this paper we discuss ways to construct parameterized quantum circuits that can generate both symmetric as well as asymmetric distributions. We follow the trajectory of quantum states as single and two qubit operations get applied to the system, and find out the best possible way to arrive at the desired distribution. The parameters are optimized by a variational solver. We present results from both simulators as well as real IBM quantum hardwares.
翻訳日:2023-01-28 15:01:28 公開日:2022-08-29
# ラムゼー理論のマルチコピーによる生成状態の集合の局在化への応用

Application of Ramsey theory to localization of set of product states via multicopies ( http://arxiv.org/abs/2208.13357v1 )

ライセンス: Link先を確認
Xing-Chen Guo and Mao-Sheng Li(参考訳) 任意の$n$ 直交純状態は、(n-1)$ 状態のコピーが利用可能であれば、ローカル操作と古典通信 (locc) の下で常に完全に区別できることはよく知られている [phys. rev. lett. 85, 4972 (2000)]。 資源の節約と非局所性強度評価の観点からLOCCの識別性を保証するために、量子状態コピーの数を減らすことが重要である。 注意 $f_r(N)$ LOCCに必要な最小のコピー数は、任意の$N$直交$r$-partite 製品ステートを区別する。 この作業は、$f_r(N)$の上限の推定に費やされる。 実際、この問題をramsey理論(順序が現れなければならない条件の研究を専門とするコンビネータ学の分野)と初めて関連付けた。 その後、$f_2(N)\leq \lceil\frac{N}{6}\rceil+2$を証明し、$N>24$のとき [Eur. Phys. J. Plus 136, 1172 (2021)] で得られる$f_2(N)\leq \lceil\frac{N}{4}\rceil$よりもよい。 さらに、任意の$\epsilon>0$ に対して、$f_r(N)\leq\lceil\epsilon N\rceil$ は常に十分大きな$N$ であることを示す。

It is well known that any $N$ orthogonal pure states can always be perfectly distinguished under local operation and classical communications (LOCC) if $(N-1)$ copies of the state are available [Phys. Rev. Lett. 85, 4972 (2000)]. It is important to reduce the number of quantum state copies that ensures the LOCC distinguishability in terms of resource saving and nonlocality strength characterization. Denote $f_r(N)$ the least number of copies needed to LOCC distinguish any $N$ orthogonal $r$-partite product states. This work will be devoted to the estimation of the upper bound of $f_r(N)$. In fact, we first relate this problem with Ramsey theory, a branch of combinatorics dedicated to studying the conditions under which orders must appear. Subsequently, we prove $f_2(N)\leq \lceil\frac{N}{6}\rceil+2$, which is better than $f_2(N)\leq \lceil\frac{N}{4}\rceil$ obtained in [Eur. Phys. J. Plus 136, 1172 (2021)] when $N>24$. We further exhibit that for arbitrary $\epsilon>0$, $f_r(N)\leq\lceil\epsilon N\rceil$ always holds for sufficiently large $N$.
翻訳日:2023-01-28 15:01:17 公開日:2022-08-29
# 擬似ランダム混合状態の絡み合い負性転移の観察

Observation of entanglement negativity transition of pseudo-random mixed states ( http://arxiv.org/abs/2208.13347v1 )

ライセンス: Link先を確認
Tong Liu, Shang Liu, Hekang Li, Hao Li, Kaixuan Huang, Zhongcheng Xiang, Xiaohui Song, Kai Xu, Dongning Zheng, Heng Fan(参考訳) マルチパーティ・エンタングルメントは量子計算の鍵となる資源である。 しかし、理論上、絡み合い遷移は多粒子のランダムな量子状態に対して起こりうると期待されている。 本稿では,完全接続型20量子ビット超伝導プロセッサを用いて,ネガティビティによって定量化された絡み合い遷移の観測を行う。 多層擬似ランダム回路を実装し、7〜15キュービットの擬似ランダム純状態を生成する。 次に, 量子状態トモグラフィにより6量子ビットの還元密度行列のネガティビティスペクトルを調べ, ネガティビティスペクトルに基づいて対数ネガティビティを計算することにより3つの異なる位相を同定する。 環境やサブシステムのサイズを変えることで、相転移を観察する。 また,回路のランダム性は,出力ビットストリング確率分布とポーター・トーマス分布との距離を定量化することでも特徴付けられる。 シミュレーションは、ランダム状態を生成し、多成分量子システムの絡み合い構造を理解するための強力なツールを提供する。

Multipartite entanglement is a key resource for quantum computation. It is expected theoretically that entanglement transition may happen for multipartite random quantum states, however, which is still absent experimentally. Here, we report the observation of entanglement transition quantified by negativity using a fully connected 20-qubit superconducting processor. We implement multi-layer pseudo-random circuits to generate pseudo-random pure states of 7 to 15 qubits. Then, we investigate negativity spectra of reduced density matrices obtained by quantum state tomography for 6 qubits.Three different phases can be identified by calculating logarithmic negativities based on the negativity spectra. We observe the phase transitions by changing the sizes of environment and subsystems. The randomness of our circuits can be also characterized by quantifying the distance between the distribution of output bit-string probabilities and Porter-Thomas distribution. Our simulator provides a powerful tool to generate random states and understand the entanglement structure for multipartite quantum systems.
翻訳日:2023-01-28 15:00:46 公開日:2022-08-29
# 強結合状態における最適制御のための量子場

Quantized fields for optimal control in the strong coupling regime ( http://arxiv.org/abs/2208.13548v1 )

ライセンス: Link先を確認
Frieder Lindel, Edoardo G. Carnio, Stefan Yoshi Buhmann, Andreas Buchleitner(参考訳) ボソニック場の量子統計を調整し、量子系を目標状態へと決定論的に駆動する。 フィールドの実験的にアクセス可能な状態は、特に回転波近似を超えた結合強度において、マルチレベルまたはキュービット系の良好な制御を実現する。 これは最適制御理論を、完全に量子化され、強く結合された制御と目標自由度の範囲にまで拡張する。

We tailor the quantum statistics of a bosonic field to deterministically drive a quantum system into a target state. Experimentally accessible states of the field achieve good control of multi-level or -qubit systems, notably also at coupling strengths beyond the rotating-wave approximation. This extends optimal control theory to the realm of fully quantized, strongly coupled control and target degrees of freedom.
翻訳日:2023-01-28 14:54:09 公開日:2022-08-29
# $\mathcal{P}\mathcal{T}$-symmetric系におけるトンネル時間

Tunneling time in $\mathcal{P}\mathcal{T}$-symmetric systems ( http://arxiv.org/abs/2208.13543v1 )

ライセンス: Link先を確認
Peng Guo, Vladimir Gasparian, Esther J\'odar and Christopher Wisehart(参考訳) 本研究は、パリティと時間におけるトンネル時間(\mathcal{P}\mathcal{T}$)対称系の一般化を提案する。 $\mathcal{P}\mathcal{T}$-対称系におけるトンネル時間の性質は、単純な接触相互作用周期的有限サイズ Diatomic $\mathcal{P}\mathcal{T}$-対称モデルを用いて研究される。 $\mathcal{P}\mathcal{T}$-symmetric系における負のトンネル時間の物理的意味とそのスペクトル特異点との関係について論じる。

In the present work we propose a generalization of tunneling time in parity and time ($\mathcal{P}\mathcal{T}$)-symmetric systems. The properties of tunneling time in $\mathcal{P}\mathcal{T}$-symmetric systems are studied with a simple contact interactions periodic finite size diatomic $\mathcal{P}\mathcal{T}$-symmetric model. The physical meaning of negative tunneling time in $\mathcal{P}\mathcal{T}$-symmetric systems and its relation to spectral singularities is discussed.
翻訳日:2023-01-28 14:53:47 公開日:2022-08-29
# 多次元量子ウォークと$k$-distinctnessへの応用

Multidimensional Quantum Walks, with Application to $k$-Distinctness ( http://arxiv.org/abs/2208.13492v1 )

ライセンス: Link先を確認
Stacey Jeffery and Sebastian Zur(参考訳) k$-distinctness の量子クエリの複雑性は、任意の定数 $k \geq 4$ に対して $o\left(n^{3/4-1/4(2^k-1)}\right)$ であることが知られているが、時間的複雑性の最高の上限は $\widetilde{o}\left(n^{1-1/k}\right)$ である。 新しい上限である$\widetilde{o}\left(n^{3/4-1/4(2^k-1)}\right)$を時間複雑性に与え、クエリの複雑さを多対数因子に一致させる。 この上限を達成するために,電気ネットワークフレームワークの拡張である量子ウォーク探索アルゴリズムを設計する新しい手法を提案する。 また,この新しい手法を用いて,溶接木問題の解法を$o(n)$クエリと$o(n^2)$ timeで示し,量子ウォークフレームワークが指数関数的な高速化を実現することを示す。

While the quantum query complexity of $k$-distinctness is known to be $O\left(n^{3/4-1/4(2^k-1)}\right)$ for any constant $k \geq 4$, the best previous upper bound on the time complexity was $\widetilde{O}\left(n^{1-1/k}\right)$. We give a new upper bound of $\widetilde{O}\left(n^{3/4-1/4(2^k-1)}\right)$ on the time complexity, matching the query complexity up to polylogarithmic factors. In order to achieve this upper bound, we give a new technique for designing quantum walk search algorithms, which is an extension of the electric network framework. We also show how to solve the welded trees problem in $O(n)$ queries and $O(n^2)$ time using this new technique, showing that the new quantum walk framework can achieve exponential speedups.
翻訳日:2023-01-28 14:52:50 公開日:2022-08-29
# 六方晶窒化ホウ素における黄色の単一光子発光炭素錯体の局在生成

Localized creation of yellow single photon emitting carbon complexes in hexagonal boron nitride ( http://arxiv.org/abs/2208.13488v1 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Ashkan Zand, Mohammad N. Mishuk, Tjorben Matthes, Falk Eilenberger, Sujin Suwanna, Tobias Vogl(参考訳) 固体結晶中の単一光子エミッタは、多くの量子技術応用のためのビルディングブロックとして多くの注目を集めている。 六方晶窒化ホウ素 (hBN) の蛍光欠陥は, 室温での高い光度とロバストな操作により顕著である。 事前定義された場所での同一のエミッタ製造は依然として困難であり、光学系や電気光学デバイスへのこれらの欠陥の統合を阻害している。 本稿では, 走査型電子顕微鏡を用いた電子線照射によるhBNエミッタアレイの局所化について述べる。 エミッタは高い収率で作成され、再現可能なスペクトルは575nmでピークとなる。 光学的に検出された磁気共鳴の測定では、スピン状態は明らかにされていない。 密度汎関数理論を用いて、実験的に観測された放出線を電子ビームによって活性化される炭素関連欠陥に分類する。 我々のスケーラブルなアプローチは、集積量子デバイスに室温単一光子エミッタを作製するための有望な経路を提供する。

Single photon emitters in solid-state crystals have received a lot of attention as building blocks for numerous quantum technology applications. Fluorescent defects in hexagonal boron nitride (hBN) stand out due to their high luminosity and robust operation at room temperature. The identical emitter fabrication at pre-defined sites is still challenging, which hampers the integration of these defects in optical systems and electro-optical devices. Here, we demonstrate the localized fabrication of hBN emitter arrays by electron beam irradiation using a standard scanning electron microscope with deep sub-micron lateral precision. The emitters are created with a high yield and a reproducible spectrum peaking at 575 nm. Our measurements of optically detected magnetic resonance have not revealed any addressable spin states. Using density functional theory, we attribute the experimentally observed emission lines to carbon-related defects, which are activated by the electron beam. Our scalable approach provides a promising pathway for fabricating room temperature single photon emitters in integrated quantum devices.
翻訳日:2023-01-28 14:52:25 公開日:2022-08-29
# 移動壁による箱内量子粒子の大域的近似制御性について

On global approximate controllability of a quantum particle in a box by moving walls ( http://arxiv.org/abs/2208.13475v1 )

ライセンス: Link先を確認
Aitor Balmaseda, Davide Lonigro, Juan Manuel P\'erez-Pardo(参考訳) 壁が位置を変えることができる箱に閉じ込められた自由量子粒子からなるシステムについて検討する。 システムの大域的近似制御性を証明する。 すなわち、任意の初期状態は、ボックスの所定の最終位置を持つ自由粒子のヒルベルト空間内の任意の目標状態に任意に近づけることができる。 この目的のために、シュル=オディンガー方程式の弱解を考え、時間依存シュル=オディンガー方程式の安定性定理を用いる。

We study a system composed of a free quantum particle trapped in a box whose walls can change their position. We prove the global approximate controllability of the system. That is, any initial state can be driven arbitrarily close to any target state in the Hilbert space of the free particle with a predetermined final position of the box. To this purpose we consider weak solutions of the Schr\"odinger equation and use a stability theorem for the time-dependent Schr\"odinger equation.
翻訳日:2023-01-28 14:52:10 公開日:2022-08-29
# ブロッホ方程式による共量子力学を用いたfrischとsegr\``eによる多段stern$\unicode{x2013}$gerlach実験の数値モデリング

Numerical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment by Frisch and Segr\`e using co-quantum dynamics via the Bloch equation ( http://arxiv.org/abs/2208.13444v1 )

ライセンス: Link先を確認
Kelvin Titimbo, David C. Garrett, S. Suleyman Kahraman, Zhe He, Lihong V. Wang(参考訳) Frisch$\unicode{x2013}$Segr\`e 実験においてスピンフリップを数値的に研究し、新しい共量子力学理論の文脈の中で最初のマルチステージ Stern$\unicode{x2013}$Gerlach 実験を行う。 我々は、モンテカルロ法を用いて原子をサンプリングし、ブロッホ方程式に従って電子と核磁気モーメントの力学を数値的に解くことにより、スピン回転に関与する中間段階をモデル化する。 以上の結果から,共量子力学は1933年にフリッシュとセグルによって報告された実験的な観測を密接に再現しており,理論的な予測に乏しいことがわかった。

We numerically study the spin flip in the Frisch$\unicode{x2013}$Segr\`e experiment, the first multi-stage Stern$\unicode{x2013}$Gerlach experiment, within the context of the novel co-quantum dynamics theory. We model the middle stage responsible for spin rotation by sampling the atoms with the Monte Carlo method and solving the dynamics of the electron and nuclear magnetic moments numerically according to the Bloch equation. Our results show that, without using any fitting parameters, the co-quantum dynamics closely reproduces the experimental observation reported by Frisch and Segr\`e in 1933, which has so far lacked theoretical predictions.
翻訳日:2023-01-28 14:52:03 公開日:2022-08-29
# ノイズセンシングと暗黒物質探索の究極の精度限界

Ultimate precision limit of noise sensing and dark matter search ( http://arxiv.org/abs/2208.13712v1 )

ライセンス: Link先を確認
Haowei Shi and Quntao Zhuang(参考訳) 暗黒物質の性質は不明で、体系的な探索を求めている。 アクシオンダークマターの場合、このような探索はダークマターとマイクロ波ハロスコープの弱い結合から生じる正当なランダムノイズを見つけることに依存する。 その過程を量子チャネルとしてモデル化し,ノイズセンシングの基本精度限界を導出する。 2モード圧縮真空による絡み合い支援戦略が最適である。 単一モードの圧縮真空の最適性は損失のない場合に限られる。 そして、最適な性能を達成するために、"nulling"測定(スケーズとフォトンカウント)を提供する。 走査率の面では、単モードスクイーズは20デシベルスクイーズでも光子カウントの真空限界を過小評価するが、2モードスクイーズ真空は真空限界よりも大きく、最適に有利である。 本研究は,暗黒物質探索における絡み合い支援とマイクロ波光子計数の必要性を強調し,よりエキゾチックな量子資源は必要ないことを再確認した。

The nature of dark matter is unknown and calls for a systematical search. For axion dark matter, such a search relies on finding feeble random noise arising from the weak coupling between dark matter and microwave haloscopes. We model such process as a quantum channel and derive the fundamental precision limit of noise sensing. An entanglement-assisted strategy with two-mode squeezed vacuum is optimal. While the optimality of a single-mode squeezed vacuum is limited to the lossless case. Then we provide a "nulling" measurement (squeezing and photon counting) to achieve the optimal performances. In terms of the scan rate, single-mode squeezing underperforms the vacuum limit of photon counting even with 20-decibel squeezing; while two-mode squeezed vacuum provides large and close-to-optimal advantage over vacuum limit. Our results highlight the necessity of entanglement assistance and good microwave photon counting in dark matter search, while reaffirm that more exotic quantum resources are not necessary.
翻訳日:2023-01-28 14:45:00 公開日:2022-08-29
# 量子マッピングとMaxSAT経由のルーティング

Qubit Mapping and Routing via MaxSAT ( http://arxiv.org/abs/2208.13679v1 )

ライセンス: Link先を確認
Abtin Molavi, Amanda Xu, Martin Diges, Lauren Pick, Swamit Tannu, Aws Albarghouthi(参考訳) 短期量子コンピュータは、誤り訂正なしでノイズの多い環境で動作します。 短期量子コンピューティングにおける重要な問題は、キュービット間の接続が制限された物理デバイス上に論理回路を配置することである。 これはQMR問題(qubit mapping and routing)と呼ばれ、難解な組合せ問題である。 QMRを可能な限り最適に解いて追加ノイズの量を減らすことが重要であり、量子計算は役に立たない可能性がある。 本稿では,最大満足度(MAXSAT)の低減によるQMR問題の最適解法を提案する。 さらに、量子回路の構造を利用してMAXSAT制約のサイズを小さくする2つの新しい緩和アイデアを提案する。 以上の結果から,1)最先端のQMR技術(40倍高速化による3倍以上のベンチマーク)と比較して,アプローチのスケーラビリティ,2)最先端のヒューリスティックアプローチ(平均5倍スワップ縮小)に対する大幅なコスト削減,3)提案した制約緩和のパワーが示された。

Near-term quantum computers will operate in a noisy environment, without error correction. A critical problem for near-term quantum computing is laying out a logical circuit onto a physical device with limited connectivity between qubits. This is known as the qubit mapping and routing (QMR) problem, an intractable combinatorial problem. It is important to solve QMR as optimally as possible to reduce the amount of added noise, which may render a quantum computation useless. In this paper, we present a novel approach for optimally solving the QMR problem via a reduction to maximum satisfiability (MAXSAT). Additionally, we present two novel relaxation ideas that shrink the size of the MAXSAT constraints by exploiting the structure of a quantum circuit. Our thorough empirical evaluation demonstrates (1) the scalability of our approach compared to state-of-the-art optimal QMR techniques (solves more than 3x benchmarks with 40x speedup), (2) the significant cost reduction compared to state-of-the-art heuristic approaches (an average of ~5x swap reduction), and (3) the power of our proposed constraint relaxations.
翻訳日:2023-01-28 14:44:41 公開日:2022-08-29
# 量子回路とテンソルネットワークの相乗効果--実用的な量子優位への競争の短縮

Synergy Between Quantum Circuits and Tensor Networks: Short-cutting the Race to Practical Quantum Advantage ( http://arxiv.org/abs/2208.13673v1 )

ライセンス: Link先を確認
Manuel S. Rudolph and Jacob Miller and Jing Chen and Atithi Acharya and Alejandro Perdomo-Ortiz(参考訳) 近年のブレークスルーにより、ノイズの多い中間スケール量子(nisq)デバイスが、古典的に難解なサンプリングタスクで量子優位を達成することが証明されているが、より実効的な計算問題を解決するためにこれらのデバイスを使用することは依然として課題である。 実用的な量子優位性を実現するための提案は、一般的にパラメタライズド量子回路(PQC)であり、量子シミュレーションや機械学習を通じて様々な問題の解を見つけるためにパラメータを最適化することができる。 しかし、実世界の問題に対するPQCのトレーニングは、主にランダムに初期化された量子回路の最適化環境におけるバレンプラトー現象のために、重要な実践的課題である。 本研究では,PQCのタスク固有の初期化を決定するために,従来の計算資源を活用するスケーラブルな手法を提案する。 特定の最適化タスクが与えられた場合、この手法はまずテンソルネットワーク(TN)シミュレーションを用いて有望な量子状態を特定し、次に高性能な分解手順を用いてPQCのゲートパラメータに変換する。 このタスク固有の初期化は不毛高原を避け、古典的資源の増加を量子回路のトレーニングにおける性能と速度の向上に効果的に翻訳する。 古典的コンピュータを用いて限られた量子資源を増強する方法を示すことにより、量子コンピューティングにおける量子モデルと量子モデルとの相乗効果を実証し、実用的な量子優位性を実現するために現代の量子ハードウェアの力を活用するための新しい道を開く。

While recent breakthroughs have proven the ability of noisy intermediate-scale quantum (NISQ) devices to achieve quantum advantage in classically-intractable sampling tasks, the use of these devices for solving more practically relevant computational problems remains a challenge. Proposals for attaining practical quantum advantage typically involve parametrized quantum circuits (PQCs), whose parameters can be optimized to find solutions to diverse problems throughout quantum simulation and machine learning. However, training PQCs for real-world problems remains a significant practical challenge, largely due to the phenomenon of barren plateaus in the optimization landscapes of randomly-initialized quantum circuits. In this work, we introduce a scalable procedure for harnessing classical computing resources to determine task-specific initializations of PQCs, which we show significantly improves the trainability and performance of PQCs on a variety of problems. Given a specific optimization task, this method first utilizes tensor network (TN) simulations to identify a promising quantum state, which is then converted into gate parameters of a PQC by means of a high-performance decomposition procedure. We show that this task-specific initialization avoids barren plateaus, and effectively translates increases in classical resources to enhanced performance and speed in training quantum circuits. By demonstrating a means of boosting limited quantum resources using classical computers, our approach illustrates the promise of this synergy between quantum and quantum-inspired models in quantum computing, and opens up new avenues to harness the power of modern quantum hardware for realizing practical quantum advantage.
翻訳日:2023-01-28 14:44:23 公開日:2022-08-29
# ペンローズドデカヘドロン、ウィッティング構成と量子エンタングルメント

Penrose dodecahedron, Witting configuration and quantum entanglement ( http://arxiv.org/abs/2208.13644v1 )

ライセンス: Link先を確認
Alexander Yu. Vlasov(参考訳) ドデカヘドロンの幾何学に基づく2つの絡み合ったスピン-3/2粒子を持つモデルが、ロジャー・ペンローズによってベルの定理の類似を「確率なしで」定式化するために提案された。 このモデルは後に4次元ヒルベルト空間に40光線を持ついわゆるウィッティング構成で再構成された。 しかし、そのような改革は、非局所性やいくつかの他の問題を考える上で不可欠な2つの構成の絡み合いに関する微妙な問題を必要とする。 ウィッティング構成によって記述される量子状態を持つ2つの絡み合った系を提示した。 ドデカヘドロンの頂点に関する点の重複は、25920/60=432倍の対称性でかなり大きく増加する。 量子回路モデル(Quantum circuits model)は、異なる状態の演算とそのようなシステムの測定を記述するための自然言語である。

A model with two entangled spin-3/2 particles based on geometry of dodecahedron was suggested by Roger Penrose for formulation of analogue of Bell theorem "without probabilities." The model was later reformulated using so-called Witting configuration with 40 rays in 4D Hilbert space. However, such reformulation needs for some subtleties related with entanglement of two such configurations essential for consideration of non-locality and some other questions. Two entangled systems with quantum states described by Witting configurations are discussed in presented work. Duplication of points with respect to vertices of dodecahedron produces rather significant increase with number of symmetries in 25920/60=432 times. Quantum circuits model is a natural language for description of operations with different states and measurements of such systems.
翻訳日:2023-01-28 14:43:54 公開日:2022-08-29
# 量子POVMのナイマーク拡張と関節測定

Naimark dilations of qubit POVMs and joint measurements ( http://arxiv.org/abs/2208.13588v1 )

ライセンス: Link先を確認
Juha-Pekka Pellonp\"a\"a, S\'ebastien Designolle, Roope Uola(参考訳) 測定の不適合性は量子論の基盤の1つである。 この現象は多くの形態で見られ、近年では非ジョイント可測性の概念が注目されている。 この非古典現象を特徴付けるため、様々な解析的・数値的手法が開発されている。 解析的アプローチは、主に量子ビットの場合や、位置や運動量、相互に偏りのない基底の集合といった対称性を持つ測定セットを含むシナリオに集中している。 数値計算法は、原則として有限次元および離散的な関節測定可能性問題を決定することができるが、計算能力の面では実際的な制限がある。 これらの方法は、与えられた測定セットからのみ始まり、集合が非互換性を持つかどうかを問う。 ここでは,与えられた測定値とどの測定値が適合しているかを問うことで補完的なアプローチをとる。 この問題は、与えられた測定値の最小限のナイマークダイレーションによって、完全な一般性で答えられることが判明した: 興味の集合は、まさにそのようなダイレーションにおいてブロック対角表現を持つ測定値である。 様々な量子ビットの例を通してこの手法を実演し、この手法が有望なブッチ基準を回復する全ての両立量子ビットの対の代替的特徴付けを導いた。 さらに,この手法を,トリナリーおよび連続量子ビット測定の特別な例に適用する。

Measurement incompatibility is one of the cornerstones of quantum theory. This phenomenon appears in many forms, of which the concept of non-joint measurability has received considerable attention in the recent years. In order to characterise this non-classical phenomenon, various analytical and numerical methods have been developed. The analytical approaches have mostly concentrated on the qubit case, as well as to scenarios involving sets of measurements with symmetries, such as position and momentum or sets of mutually unbiased bases. The numerical methods can, in principle, decide any finite-dimensional and discrete joint measurability problem, but they naturally have practical limitations in terms of computational power. These methods exclusively start from a given set of measurements and ask whether the set possesses incompatibility. Here, we take a complementary approach by asking which measurements are compatible with a given measurement. It turns out, that this question can be answered in full generality through a minimal Naimark dilation of the given measurement: the set of interest is exactly those measurements that have a block-diagonal representation in such dilation. We demonstrate the use of the technique through various qubit examples, leading to an alternative characterisation of all compatible pairs of binary qubit measurements, which retrieves the celebrated Busch criterion. We further apply the technique to special examples of trinary and continuous qubit measurements.
翻訳日:2023-01-28 14:43:09 公開日:2022-08-29
# スピンエコーのマイクロ波蛍光検出

Microwave fluorescence detection of spin echoes ( http://arxiv.org/abs/2208.13586v1 )

ライセンス: Link先を確認
Eric Billaud, Leo Balembois, Marianne Le Dantec, Milos Ran\v{c}i\'c, Emanuele Albertinale, Sylvain Bertaina, Thierry Chaneli\`ere, Philippe Goldner, Daniel Est\`eve, Denis Vion, Patrice Bertet, Emmanuel Flurin(参考訳) 電子スピンが放射的に緩和するときに放出されるマイクロ波光子を数えることは、近年、ミリケルビン温度での単一のマイクロ波光子検出器(smpd)の開発によって実現される電子常磁性共鳴(epr)分光の感度方法として提案されている。 本稿では,スピン蛍光信号におけるスピンエコーの検出について報告する。 エコーは、相対位相$\Phi$に依存する$\pi/2_X - \tau - \pi_Y - \tau - \pi/2_\Phi $ sequenceの後自然に放出される光子の数のコヒーレントな変調として現れる。 本研究では, この検出法を, $\mathrm{Er}^{3+}=イオンスピンのアンサンブルを用いて, $\mathrm{CaWO}_4$のシェライト結晶中で実験的に実証した。 蛍光検出エコーを用いて、エルビウムスピンのコヒーレンス時間を測定するとともに、それぞれのイオンを囲む核スピンの$^{183}\mathrm{W}$とのカップリングによるエコーエンベロープの変調を測定する。 最後に, 誘導検出エコーと蛍光検出エコーの信号対雑音比を比較し, 蛍光法よりも大きいことを示す。

Counting the microwave photons emitted by an ensemble of electron spins when they relax radiatively has recently been proposed as a sensitive method for electron paramagnetic resonance (EPR) spectroscopy, enabled by the development of operational Single Microwave Photon Detectors (SMPD) at millikelvin temperature. Here, we report the detection of spin echoes in the spin fluorescence signal. The echo manifests itself as a coherent modulation of the number of photons spontaneously emitted after a $\pi/2_X - \tau - \pi_Y - \tau - \pi/2_\Phi $ sequence, dependent on the relative phase $\Phi$. We demonstrate experimentally this detection method using an ensemble of $\mathrm{Er}^{3+}$ ion spins in a scheelite crystal of $\mathrm{CaWO}_4$. We use fluorescence-detected echoes to measure the erbium spin coherence time, as well as the echo envelope modulation due to the coupling to the $^{183}\mathrm{W}$ nuclear spins surrounding each ion. We finally compare the signal-to-noise ratio of inductively-detected and fluorescence-detected echoes, and show that it is larger with the fluorescence method.
翻訳日:2023-01-28 14:42:48 公開日:2022-08-29
# 量子通信ネットワークにおける偏光補償法

Polarization compensation methods for quantum communication networks ( http://arxiv.org/abs/2208.13584v1 )

ライセンス: Link先を確認
Matej Perani\'c, Marcus Clark, Rui Wang, Sima Bahrani, Obada Alia, S\"oren Wengerowsky, Anton Radman, Martin Lon\v{c}ari\'c, Mario Stip\v{c}evi\'c, John Rarity, Reza Nejabati, Siddarth K Joshi(参考訳) 量子鍵分布によって提供される情報理論的な無条件セキュリティは、より大きな量子通信ネットワークの発展を促した。 しかし、これらのネットワークが成長するにつれて、複雑さとオーバーヘッドを少なくする必要がある。 偏光に基づく絡み合った分散ネットワークは、そのスケーラビリティと信頼されたノードの欠如により、有望なアプローチである。 それでも、ネットワーク内のすべての光分布ファイバーの複屈折が、偏光に基づく量子状態を保存するために補償される場合のみ有効である。 ブルート力のアプローチでは、適度な大きさのネットワークでも数百個のファイバー偏光制御装置が必要となる。 そこで本研究では4種類の偏光補償法を提案する。 複雑性、労力、破壊のレベル、ネットワークの操作やパフォーマンスなどに基づいて比較します。

The information-theoretic unconditional security offered by quantum key distribution has spurred the development of larger quantum communication networks. However, as these networks grow so does the strong need to reduce complexity and overheads. Polarization based entanglement distribution networks are a promising approach due to their scalability and lack of trusted nodes. Nevertheless, they are only viable if the birefringence of all optical distribution fibres in the network is compensated to preserve the polarization based quantum state. The brute force approach would require a few hundred fibre polarization controllers for even a moderately sized network. Instead, we propose and investigate four different methods of polarization compensation. We compare them based on complexity, effort, level of disruption to network operations and performance.
翻訳日:2023-01-28 14:42:25 公開日:2022-08-29
# 逆ゲート制御によるロデオアルゴリズム

Rodeo Algorithm with Controlled Reversal Gates ( http://arxiv.org/abs/2208.13557v1 )

ライセンス: Link先を確認
Max Bee-Lindgren, Zhengrong Qian, Matthew DeCross, Natalie C. Brown, Christopher N. Gilbreth, Jacob Watkins, Xilin Zhang, Dean Lee(参考訳) 多くの量子アルゴリズムは、制御時間進化と呼ばれるプロセスを使用し、補助的(またはアンシラ)量子ビットが特定の状態である場合にのみ、関心の系が時間的に進化する。 このプロセスは制御された反転ゲートを用いて効率的に実装できることを示す。 反転ゲート $r$ は量子ハミルトンの項のいくつかの部分集合と反交換する単一の量子ビットゲートの積であり、制御された反転ゲート $c_r$ はancilla qubitによって制御される$r$ の実装である。 ハミルトニアンにおける項の符号を反転させることで、時間の流れはアンシラの状態に応じて前方と後方に切り替えられる。 本研究では, 2量子ビットハミルトニアンのエネルギースペクトルを計算するために制御反転ゲートとロデオアルゴリズムを用いる。 我々は量子回路を実現するために、量子H1-2とIBM Perthデバイスを使用する。 量子化 h1-2 は ibm perth よりもかなり低い誤差率を達成できたが、ロデオアルゴリズムの5サイクルを使用する場合、エネルギースペクトルの全幅の0.06%未満の誤差で両装置のエネルギーレベルを決定できた。 また,大きな量子系で期待される性能についても議論し,ゲート数の減少係数はより大きいマルチ量子ビット系でさらに大きいことが判明した。

Many quantum algorithms use a process called controlled time evolution, where the system of interest evolves in time only if an auxiliary (or ancilla) qubit is in a particular state. We show that this process can be implemented efficiently using controlled reversal gates. A reversal gate $R$ is a product of single qubit gates that anticommutes with some subset of terms in the quantum Hamiltonian, and the controlled reversal gate $C_R$ is the implementation of $R$ controlled by the ancilla qubit. By flipping the sign of terms in the Hamiltonian, the flow of time is toggled forwards and backwards depending on the state of the ancilla. In this work, we use controlled reversal gates and the rodeo algorithm to compute the energy spectrum of a two-qubit Hamiltonian; the use of controlled reversal gates provides a five-fold reduction in the number of two-qubit entangling gates needed for the example considered here. We use the Quantinuum H1-2 and IBM Perth devices to realize the quantum circuits. While the Quantinuum H1-2 achieves a significantly lower error rate than the IBM Perth, we were able to determine the energy levels on both devices with an error of less than 0.06% of the full span of the energy spectrum when using five cycles of the rodeo algorithm. We also discuss the expected performance for larger quantum systems, and we find that the reduction factor in the number of gates is even greater for larger, multi-qubit systems.
翻訳日:2023-01-28 14:42:15 公開日:2022-08-29
# 回転becにおける崩壊乱流からの熱分解アブリコソフ格子

Thermalized Abrikosov lattices from decaying turbulence in rotating BECs ( http://arxiv.org/abs/2208.13822v1 )

ライセンス: Link先を確認
Julian Amette Estrada, Marc E. Brachet, Pablo D. Mininni(参考訳) ボース・アインシュタイン凝縮体(BEC)の回転乱流の長期減衰について検討した。 我々は、Gross-Pitaevskii方程式を参照の回転フレームで考慮し、回転するBECのハミルトニアンに対する異なる定式化をレビューする。 エネルギーをどのように分解するかを議論し、不均衡な初期条件を生成する方法を提案する。 また、カノニカルまたはグランドカノニカルアンサンブルと互換性のある回転BECの有限温度状態を生成する方法を提案する。 最後に, 数値回転型BECを葉巻型トラップに統合する。 回転速度が増加するにつれて系の力学において遷移が見られ、有限温度の加熱状態においてアブリコソフ格子と相反する乱流の崩壊の最終状態が現れる。

We study the long-time decay of rotating turbulence in Bose-Einstein condensates (BECs). We consider the Gross-Pitaevskii equation in a rotating frame of reference, and review different formulations for the Hamiltonian of a rotating BEC. We discuss how the energy can be decomposed, and present a method to generate out-of-equilibrium initial conditions. We also present a method to generate finite-temperature states of rotating BECs compatible with the Canonical or the Grand canonical ensembles. Finally, we integrate numerically rotating BECs in cigar-shaped traps. A transition is found in the system dynamics as the rotation rate is increased, with a final state of the decay of the turbulent flow compatible with an Abrikosov lattice in a finite-temperature thermalized state.
翻訳日:2023-01-28 14:35:30 公開日:2022-08-29
# 低次元量子重力における普遍ランダム行列相関によるweil-petersson体積の制約

Constraining Weil-Petersson volumes by universal random matrix correlations in low-dimensional quantum gravity ( http://arxiv.org/abs/2208.13802v1 )

ライセンス: Link先を確認
Torsten Weber, Fabian Haneder, Klaus Richter and Juan Diego Urbina(参考訳) 2019年にサド、シェンカー、スタンフォードによる二重スケール行列アンサンブルとジャッキー・タイテルボイム量子重力の双対性を発見し、普遍ランダム行列理論(RMT)の極限における2つの理論の整合性がリーマン多様体のモジュライ空間の体積に制約を課すことを示す。 これらの体積は多項式函数、ヴェイユ=ピーターソン体積で与えられるもので、解析が難しいという有名な非線形再帰公式を解く。 以上の結果から,weil-peterssonボリュームの係数間の線形関係が示唆されるため,シンボリック計算のための厳密なテストと,その構成を単純化する可能性も示唆された。 そこで本稿では,双曲多様体のモジュライ空間に関する数学的に難しい側面を,普遍的rmt結果を入力として理解するための長期プログラムを提案する。

Based on the discovery of the duality between Jackiw-Teitelboim quantum gravity and a double-scaled matrix ensemble by Saad, Shenker and Stanford in 2019, we show how consistency between the two theories in the universal Random Matrix Theory (RMT) limit imposes a set of constraints on the volumes of moduli spaces of Riemannian manifolds. These volumes are given in terms of polynomial functions, the Weil-Petersson volumes, solving a celebrated nonlinear recursion formula that is notoriously difficult to analyze. Since our results imply linear relations between the coefficients of the Weil-Petersson volumes, they therefore provide both a stringent test for their symbolic calculation and a possible way of simplifying their construction. In this way, we propose a long-term program to improve the understanding of mathematically hard aspects concerning moduli spaces of hyperbolic manifolds by using universal RMT results as input.
翻訳日:2023-01-28 14:35:17 公開日:2022-08-29
# 絡み合い収穫:状態依存と共分散

Entanglement harvesting: state dependence and covariance ( http://arxiv.org/abs/2208.13801v1 )

ライセンス: Link先を確認
H\'ector Maeso-Garc\'ia and Jos\'e Polo-G\'omez and Eduardo Mart\'in-Mart\'inez(参考訳) 粒子検出器の任意の初期状態と場の任意の準自由状態に対する絡み合いの収穫を解析した。 空間スミア粒子検出器は任意の初期状態において共分散を破ることが知られているが、スカラー場の準自由状態から一対の検出器によって得られた絡み合いは摂動理論において最大二階の共変量であることを示す。

We analyze entanglement harvesting for arbitrary initial states of particle detectors and arbitrary quasifree states of the field. Despite the fact that spatially smeared particle detectors are known to break covariance for arbitrary initial states, we show that the entanglement harvested by a pair of detectors from a quasifree state of a scalar field is a covariant quantity up to second order in perturbation theory.
翻訳日:2023-01-28 14:34:59 公開日:2022-08-29
# 大フェルミオン系に対するパラメータ化経路積分定式化

Parametrized path integral formulation for large fermion systems ( http://arxiv.org/abs/2208.13777v1 )

ライセンス: Link先を確認
Xiong Yunuo, Xiong Hongwei(参考訳) 同じフェルミオン間の交換反対称性は、分配関数への正と負の寄与の間の大きなキャンセルという形でよく知られたフェルミオン符号問題を引き起こし、この分割関数を直接サンプリングするシミュレーション手法は指数関数的に収束することが困難である。 本研究では、経路積分分子動力学(PIMD)を用いて、最近発見された架空の粒子モデル上に構築し、フェルミオン符号問題をさらに研究する。 分割関数のパラメータ化経路積分定式化と外挿によるフェルミオン符号問題を回避する方法の妥当性と無効性について考察する。 提案手法の有効領域については,従来手法の直接サンプリングの精度をはるかに超えた大規模フェルミオン系におけるエネルギーの正確な予測を行うことができることを示す。 特に, 高温非相互作用粒子や強反発相互作用粒子の低温での単純な普遍関係を見出し, 検証した。

The exchange antisymmetry between identical fermions gives rise to the well known fermion sign problem, in the form of large cancellation between positive and negative contribution to the partition function, making any simulation methods which directly sample this partition function exponentially difficult to converge. In this work, we employ path integral molecular dynamics (PIMD) and build upon the recently discovered fictitious particle model to investigate the fermion sign problem further. We consider the validity and invalidity condition for the method of parametrized path integral formulation of the partition function and extrapolation to circumvent the fermion sign problem. For the valid region of our method, our simulation shows that we may give accurate prediction of the energy for large fermion systems, which is much beyond the capability of the direct sampling in the traditional method. In particular, we find and verify a simple universal relation for high temperature noninteracting particles or strongly repulsive interacting particles at low temperatures.
翻訳日:2023-01-28 14:34:31 公開日:2022-08-29
# 量子コンピュータと量子コンピュータの違いに関する学生の解釈:量子コンピュータはアナログ古典コンピュータか?

Investigating student interpretations of the differences between classical and quantum computers: Are quantum computers just analog classical computers? ( http://arxiv.org/abs/2208.13734v1 )

ライセンス: Link先を確認
Josephine C. Meyer, Gina Passante, Steven J. Pollock, and Bethany R. Wilcox(参考訳) PERコミュニティにおける重要な関心は、学部の量子力学における学生の認知と推論プロセスに向けられている。 しかし、近年までこれらのトピックは、新しい分野間量子情報科学(QIS)の分野において、ほとんど未解明のままである。 物理学と計算機科学をクロスリストした大規模r1大学における高次量子コンピューティングコースの22名の学生と、同様の大学院レベルのqisコースの6名の大学院生との探索的インタビューを行った。 古典的コンピュータと量子コンピュータの基本的な違いに関する2つの質問に対する学生の回答を分類し分析する。 We specifically note two key themes of importance to educators: (1) when reasoning about computational power, students often struggled to distinguish between the relative effects of exponential and linear scaling, resulting in students frequently focusing on distinctions that are arguably better understood as analog-digital than classical-quantum, and (2) introducing the thought experiment of analog classical computers was a powerful tool for helping students develop a more expertlike perspective on the differences between classical and quantum computers.

Significant attention in the PER community has been paid to student cognition and reasoning processes in undergraduate quantum mechanics. Until recently, however, these same topics have remained largely unexplored in the context of emerging interdisciplinary quantum information science (QIS) courses. We conducted exploratory interviews with 22 students in an upper-division quantum computing course at a large R1 university crosslisted in physics and computer science, as well as 6 graduate students in a similar graduate-level QIS course offered in physics. We classify and analyze students' responses to a pair of questions regarding the fundamental differences between classical and quantum computers. We specifically note two key themes of importance to educators: (1) when reasoning about computational power, students often struggled to distinguish between the relative effects of exponential and linear scaling, resulting in students frequently focusing on distinctions that are arguably better understood as analog-digital than classical-quantum, and (2) introducing the thought experiment of analog classical computers was a powerful tool for helping students develop a more expertlike perspective on the differences between classical and quantum computers.
翻訳日:2023-01-28 14:33:16 公開日:2022-08-29
# 光絡み合いリンクのモジュラー生成のためのプログラム可能なフォトニック集積メッシュ

Programmable photonic integrated meshes for modular generation of optical entanglement links ( http://arxiv.org/abs/2208.13911v1 )

ライセンス: Link先を確認
Mark Dong, Matthew Zimmermann, David Heim, Hyeongrak Choi, Genevieve Clark, Andrew J. Leenheer, Kevin J. Palm, Alex Witte, Daniel Dominguez, Gerald Gilbert, Matt Eichenfield, Dirk Englund(参考訳) 個別に制御可能な量子ビット間の量子絡み合いの大規模生成は、量子コンピューティング、通信、センシングの核心にある。 遠隔接続量子技術のモジュラーアーキテクチャは、様々な物理量子ビットに対して提案されており、原子および全フォトニックシステムで実証が報告されている。 しかし、これらのアーキテクチャにおける公然の課題は、ターゲットの量子ビット間の光学的連接のための高速で高忠実な再構成可能なフォトニックネットワークを構築することである。 本稿では,線状光変換の高速実行が可能なn x n mach-zehnderメッシュ(mzm)を実装した,酸化ケイ素(sin)-in-oxide cmos互換プロセスで実現されるプログラマブルフォトニック集積回路(pic)を提案する。 可視スペクトルフォトニック集積メッシュは、様々な光学的に守られた絡み合いプロトコルに対して、N = 8入力の光接続を生成するようプログラムされている。 特に,MZMを通した16個の独立対モード結合間の光接続を実験的に実証し,平均0.991 +/- 0.0063の光変換率を示した。 PICの再構成可能な光接続は、量子コンピューティングのためのより大きなトポロジカルクラスタ状態の構築ブロックとして8ビットのリソース状態を生成するのに十分である。 我々のプログラム可能なPICプラットフォームは、ネットワークベースの量子情報プロセッサに必要な高速でスケーラブルな光スイッチング技術を実現する。

Large-scale generation of quantum entanglement between individually controllable qubits is at the core of quantum computing, communications, and sensing. Modular architectures of remotely-connected quantum technologies have been proposed for a variety of physical qubits, with demonstrations reported in atomic and all-photonic systems. However, an open challenge in these architectures lies in constructing high-speed and high-fidelity reconfigurable photonic networks for optically-heralded entanglement among target qubits. Here we introduce a programmable photonic integrated circuit (PIC), realized in a piezo-actuated silicon nitride (SiN)-in-oxide CMOS-compatible process, that implements an N x N Mach-Zehnder mesh (MZM) capable of high-speed execution of linear optical transformations. The visible-spectrum photonic integrated mesh is programmed to generate optical connectivity on up to N = 8 inputs for a range of optically-heralded entanglement protocols. In particular, we experimentally demonstrated optical connections between 16 independent pairwise mode couplings through the MZM, with optical transformation fidelities averaging 0.991 +/- 0.0063. The PIC's reconfigurable optical connectivity suffices for the production of 8-qubit resource states as building blocks of larger topological cluster states for quantum computing. Our programmable PIC platform enables the fast and scalable optical switching technology necessary for network-based quantum information processors.
翻訳日:2023-01-28 14:26:36 公開日:2022-08-29
# Hilbert-Schmidt, Bures, Bogoliubov-Kubo-Mori アンサンブルの古典性の比較

Comparing classicality of qutrits from Hilbert-Schmidt, Bures and Bogoliubov-Kubo-Mori ensembles ( http://arxiv.org/abs/2208.13908v1 )

ライセンス: Link先を確認
Arsen Khvedelidze, Astghik Torosyan(参考訳) 本報告では、正のウィグナー関数を持つ状態を見つける確率として定義された量子状態の古典性の指標/測定をユニタリ不変ランダムアンサンブル内で分析する。 Hilbert-Schmidt, Bures, Bogoliubov-Kubo-Moriの3つのアンサンブルの古典性の指標を3レベル系の量子状態空間上で計算する。 ウィグナー関数のモジュラーパラメータへのそれらの依存は、ユニタリ群作用に従って成層されたクォート状態空間のすべての成層に対して研究される。

In the report we analyze the indicator/measure of classicality of quantum states defined as the probability to find a state with a positive Wigner function within a unitary invariant random ensemble. The indicators of classicality of three ensembles associated with the Hilbert-Schmidt, Bures and Bogoliubov-Kubo-Mori metrics on the space of quantum states of 3-level system are computed. Their dependence on a moduli parameter of the Wigner function is studied for all strata of a qutrit state space stratified in accordance with the unitary group action.
翻訳日:2023-01-28 14:26:14 公開日:2022-08-29
# テンソルネットワークにおける量子キッチンシンクのスロー画像分類

Image Classification by Throwing Quantum Kitchen Sinks at Tensor Networks ( http://arxiv.org/abs/2208.13895v1 )

ライセンス: Link先を確認
Nathan X. Kodama (Case Western Reserve University), Alex Bocharov (Microsoft Quantum), Marcus P. da Silva (Microsoft Quantum)(参考訳) 近年では、局所特徴写像から生じる状態で動作するテンソルネットワークを含む変分アルゴリズムの候補として、いくつかの変分量子回路アプローチが提案されている。 対照的に、quantum kitchen sinksとして知られるランダム機能アプローチは、同等のパフォーマンスを提供するが、非ローカル機能マップを利用する。 ここでは,量子キッチンシンクの非局所特徴マップをツリーテンソルネットワークがコヒーレントに処理する新しい回路 ansatz を提案し,数値実験を行い,画像分類における新しい ansatz の性能を実証的に評価する。 分類性能の観点からは、量子キッチンシンクとテンソルネットワークを単純に組み合わせるだけでは定性的な改善は得られない。 しかし、機能最適化の追加によりパフォーマンスが大幅に向上し、画像分類のための最先端の量子回路が実現し、浅い回路と少数の量子ビットが必要とされる。

Several variational quantum circuit approaches to machine learning have been proposed in recent years, with one promising class of variational algorithms involving tensor networks operating on states resulting from local feature maps. In contrast, a random feature approach known as quantum kitchen sinks provides comparable performance, but leverages non-local feature maps. Here we combine these two approaches by proposing a new circuit ansatz where a tree tensor network coherently processes the non-local feature maps of quantum kitchen sinks, and we run numerical experiments to empirically evaluate the performance of the new ansatz on image classification. From the perspective of classification performance, we find that simply combining quantum kitchen sinks with tensor networks yields no qualitative improvements. However, the addition of feature optimization greatly boosts performance, leading to state-of-the-art quantum circuits for image classification, requiring only shallow circuits and a small number of qubits -- both well within reach of near-term quantum devices.
翻訳日:2023-01-28 14:25:37 公開日:2022-08-29
# 量子スピンホール位相のスピン電流密度汎関数理論

Spin Current Density Functional Theory of the Quantum Spin-Hall Phase ( http://arxiv.org/abs/2208.13878v1 )

ライセンス: Link先を確認
William P. Comaskey, Filippo Bodo, Alessandro Erba, Jose L. Mendoza-Cortes, Jacques K. Desmarais(参考訳) スピン電流密度汎関数理論(scdft)は、スピン軌道相互作用によって生成される効果的な外部場に埋め込まれたフェルミイオン系を扱う標準dftの一般化である。 スピン偏極がなくても、SCDFTは電子電子ポテンシャルをスピン電流である$\mathbf{J}^x$, $\mathbf{J}^y$, $\mathbf{J}^z$に依存するように要求する。 B {\bf 102}, 235118 (2020)]. 本稿では、SCDFTを量子スピンハル相に適用し、DFTに対する電子構造の記述を(定性的にさえも)改善する方法を示す。 機械ひずみの関数としてbi(001)2d二層とそのバンド絶縁体から位相絶縁体相転移($s+p_z \leftrightarrow p_x +ip_y$ band inversion)について検討した。 我々は、SCDFTの電子電子ポテンシャルにおけるスピン電流の明示的な説明が、位相相転移の開始時の価バンド構造における$\Gamma$ポイントにおけるディラックコーンの出現の鍵であることを示す。 最後に、このシステムの原子価バンド構造は、単純な一階の$\mathbf{k} \cdot \mathbf{p}$準退化摂動理論モデルを用いて合理化される。

The spin current density functional theory (SCDFT) is the generalization of the standard DFT to treat a fermionic system embedded in the effective external field produced by the spin-orbit coupling interaction. Even in the absence of a spin polarization, the SCDFT requires the electron-electron potential to depend on the spin currents $\mathbf{J}^x$, $\mathbf{J}^y$ and $\mathbf{J}^z$, which only recently was made possible for practical relativistic quantum-mechanical simulations [Phys. Rev. B {\bf 102}, 235118 (2020)]. Here, we apply the SCDFT to the quantum spin-Hall phase and show how it improves (even qualitatively) the description of its electronic structure relative to the DFT. We study the Bi (001) 2D bilayer and its band insulator to topological insulator phase transition (via $s+p_z \leftrightarrow p_x +ip_y$ band inversion) as a function of mechanical strain. We show that the explicit account of spin currents in the electron-electron potential of the SCDFT is key to the appearance of a Dirac cone at the $\Gamma$ point in the valence band structure at the onset of the topological phase transition. Finally, the valence band structure of this system is rationalized using a simple first-order $\mathbf{k} \cdot \mathbf{p}$ quasi-degenerate perturbation theory model.
翻訳日:2023-01-28 14:25:19 公開日:2022-08-29
# シンメトリーブレーキング場としての量子ノイズ

Quantum Noise as a Symmetry-Breaking Field ( http://arxiv.org/abs/2208.13861v1 )

ライセンス: Link先を確認
Beatriz C. Dias, Domagoj Perkovic, Masudul Haque, Pedro Ribeiro, Paul A. McClarty(参考訳) 観測されたランダム量子回路における測定誘起量子相転移に対する量子ノイズの影響について検討する。 ランダムなクリフォード回路の効率的なシミュラビリティを用いて、遷移はクロスオーバーへと拡張され、射影測定と雑音の関数としての位相図はいくつかの異なる状態を示す。 古典的な統計力学問題への写像は、ランダム回路位相図の主な特徴を考慮に入れている。 バルクノイズは明示的な置換対称性の破断結合にマップされ、ノイズをオフにするとこの対称性は自発的に壊れる。 これらの結果は、ノイズ量子回路における絡み合い遷移の実現に寄与する。

We investigate the effect of quantum noise on the measurement-induced quantum phase transition in monitored random quantum circuits. Using the efficient simulability of random Clifford circuits, we find that the transition is broadened into a crossover and that the phase diagram as a function of projective measurements and noise exhibits several distinct regimes. We show that a mapping to a classical statistical mechanics problem accounts for the main features of the random circuit phase diagram. The bulk noise maps to an explicit permutation symmetry breaking coupling; this symmetry is spontaneously broken when the noise is switched off. These results have implications for the realization of entanglement transitions in noisy quantum circuits.
翻訳日:2023-01-28 14:24:52 公開日:2022-08-29
# デジタル量子シミュレーション,フロッケハミルトンの学習,およびキックトップの量子カオス

Digital Quantum Simulation, Learning of the Floquet Hamiltonian, and Quantum Chaos of the Kicked Top ( http://arxiv.org/abs/2208.13837v1 )

ライセンス: Link先を確認
Tobias Olsacher, Lorenzo Pastori, Christian Kokail, Lukas M. Sieberer and Peter Zoller(参考訳) キックトップは、量子カオス~[F]の研究におけるパラダイムモデルの1つである。 〜Haake et al., \emph{Quantum Signatures of Chaos (Springer Series in Synergetics vol 54)} (2018)] 近年、キックトップにおける量子カオスの発生は、集合スピン系のデジタル量子シミュレーション(dqs)におけるトロッター誤差の拡散と関連していることが示されている。 具体的には、批判的トロッターステップの上の目標動力学から強く逸脱する少数の観測可能な天体の期待値において、蹴ったトップのフロッケ作用素のスペクトル統計をランダム行列理論によって予測できるトロッター誤差の拡散が現れる。 本研究では,これらの現象をハミルトン学習(HL)の枠組みで研究する。 本稿では,最近開発されたハミルトニアン学習プロトコルを用いて,キックトップのストロボダイナミックス(Floquet Hamiltonian)の生成元を再構築する方法について述べる。 さらに,フロッケ・マグナス展開の低次切断によってダイナミクスが大まかに説明できない状態への遷移として,hlによりトロッター誤差の拡散が明らかにされることを示した。 これにより、量子多体系のDQSにスケーラブルな方法で一般化できる実装されたダイナミクスのジェネレータのレベルにおけるトロッター誤差の分析のための新たな実験可能性が開かれる。 この論文は我々の同僚で友人のフリッツ・ヘイクを記念している。

The kicked top is one of the paradigmatic models in the study of quantum chaos~[F.~Haake et al., \emph{Quantum Signatures of Chaos (Springer Series in Synergetics vol 54)} (2018)]. Recently it has been shown that the onset of quantum chaos in the kicked top can be related to the proliferation of Trotter errors in digital quantum simulation (DQS) of collective spin systems. Specifically, the proliferation of Trotter errors becomes manifest in expectation values of few-body observables strongly deviating from the target dynamics above a critical Trotter step, where the spectral statistics of the Floquet operator of the kicked top can be predicted by random matrix theory. In this work, we study these phenomena in the framework of Hamiltonian learning (HL). We show how a recently developed Hamiltonian learning protocol can be employed to reconstruct the generator of the stroboscopic dynamics, i.e., the Floquet Hamiltonian, of the kicked top. We further show how the proliferation of Trotter errors is revealed by HL as the transition to a regime in which the dynamics cannot be approximately described by a low-order truncation of the Floquet-Magnus expansion. This opens up new experimental possibilities for the analysis of Trotter errors on the level of the generator of the implemented dynamics, that can be generalized to the DQS of quantum many-body systems in a scalable way. This paper is in memory of our colleague and friend Fritz Haake.
翻訳日:2023-01-28 14:24:13 公開日:2022-08-29
# ハナビにおける各種アドホック連携剤の生成と適応

Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi ( http://arxiv.org/abs/2004.13710v3 )

ライセンス: Link先を確認
Rodrigo Canaan, Xianbo Gao, Julian Togelius, Andy Nealen and Stefan Menzel(参考訳) ハナビ(はなび)は、他のプレイヤーを正面にモデリングする問題をもたらす協調ゲームである。 このゲームでは、プレイヤーの調整されたグループは、確立済みの慣習を利用して大きな効果を発揮できるが、アドホックな設定でプレイするには、エージェントが以前の調整なしでパートナーの戦略に適応する必要がある。 この設定でエージェントを評価するには、潜在的パートナーの多様な集団が必要であるが、これまでのところエージェントの行動の多様性は体系的に考慮されていない。 本稿では,この目的のために多様な集団を生成するアルゴリズムとして品質多様性アルゴリズムを提案し,MAP-Elitesを用いた多様なハナビエージェントの集団を生成する。 また,エージェントはトレーニング中に多様な集団から利益を得ることができ,エージェントの行動ニッチに適応するための単純な"メタストラテジー"を実装することができると仮定した。 このメタストラテジーは、そのパートナーの行動ニッチが正しく推測できるのであれば、訓練された集団の外でもジェネラリストの戦略よりもうまく機能するが、実際にはパートナーの行動はメタエージェントの行動に依存して干渉し、ゲームプレイ中に他のエージェントの行動を特徴付けるための将来の研究の道筋を示唆する。

Hanabi is a cooperative game that brings the problem of modeling other players to the forefront. In this game, coordinated groups of players can leverage pre-established conventions to great effect, but playing in an ad-hoc setting requires agents to adapt to its partner's strategies with no previous coordination. Evaluating an agent in this setting requires a diverse population of potential partners, but so far, the behavioral diversity of agents has not been considered in a systematic way. This paper proposes Quality Diversity algorithms as a promising class of algorithms to generate diverse populations for this purpose, and generates a population of diverse Hanabi agents using MAP-Elites. We also postulate that agents can benefit from a diverse population during training and implement a simple "meta-strategy" for adapting to an agent's perceived behavioral niche. We show this meta-strategy can work better than generalist strategies even outside the population it was trained with if its partner's behavioral niche can be correctly inferred, but in practice a partner's behavior depends and interferes with the meta-agent's own behavior, suggesting an avenue for future research in characterizing another agent's behavior during gameplay.
翻訳日:2022-12-08 21:56:54 公開日:2022-08-29
# 階層型マルチビューデコードによる自然言語生成の再考と改善

Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding ( http://arxiv.org/abs/2005.08081v7 )

ライセンス: Link先を確認
Fenglin Liu, Xuancheng Ren, Guangxiang Zhao, Chenyu You, Xuewei Ma, Xian Wu, Xu Sun(参考訳) シーケンスからシーケンスへの学習、例えば自然言語生成において、デコーダは注意機構に依存して、エンコーダから情報を効率的に抽出する。 最後のエンコーダ層のみから情報を引き出すのが一般的であるが、最近の研究では異なるエンコーダ層からの表現を使って情報の多角化を行うことが提案されている。 それでも、デコーダはソースシーケンスの単一のビューしか取得できないため、階層のバイパス問題によってエンコーダ層スタックのトレーニングが不十分になる可能性がある。 本研究では,各デコーダ層に対して,グローバルビューとして機能する最後のエンコーダ層からの表現とともに,ソースシーケンスの立体視のために,他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。 系統的な実験と分析により,階層的バイパス問題への対処に成功し,ほぼ無視可能なパラメータ増加が必要となり,機械翻訳,抽象要約,画像キャプション,ビデオキャプション,医用レポート生成,パラフレーズ生成といった5つのタスクにおいて,深い表現を用いたシーケンス間学習の性能が大幅に向上した。 特に,低リソースの機械翻訳データセットと2つの低リソースの医療報告生成データセットを含む10のベンチマークデータセットに対して,最新の結果が得られた。

In sequence-to-sequence learning, e.g., natural language generation, the decoder relies on the attention mechanism to efficiently extract information from the encoder. While it is common practice to draw information from only the last encoder layer, recent work has proposed to use representations from different encoder layers for diversified levels of information. Nonetheless, the decoder still obtains only a single view of the source sequences, which might lead to insufficient training of the encoder layer stack due to the hierarchy bypassing problem. In this work, we propose layer-wise multi-view decoding, where for each decoder layer, together with the representations from the last encoder layer, which serve as a global view, those from other encoder layers are supplemented for a stereoscopic view of the source sequences. Systematic experiments and analyses show that we successfully address the hierarchy bypassing problem, require almost negligible parameter increase, and substantially improve the performance of sequence-to-sequence learning with deep representations on five diverse tasks, i.e., machine translation, abstractive summarization, image captioning, video captioning, medical report generation, and paraphrase generation. In particular, our approach achieves new state-of-the-art results on ten benchmark datasets, including a low-resource machine translation dataset and two low-resource medical report generation datasets.
翻訳日:2022-12-02 12:48:47 公開日:2022-08-29
# HGKT:知識追跡のための階層的エクササイズグラフの導入

HGKT: Introducing Hierarchical Exercise Graph for Knowledge Tracing ( http://arxiv.org/abs/2006.16915v6 )

ライセンス: Link先を確認
Hanshuang Tong, Zhen Wang, Yun Zhou, Shiwei Tong, Wenyuan Han, Qi Liu(参考訳) 学習者の知識習得の予測を目的とした知識追跡(KT)は,コンピュータ支援教育システムにおいて重要な役割を果たす。 近年、KTタスクに取り組むために多くのディープラーニングモデルが適用されており、有望な結果を示している。 しかし、制限はある。 既存の手法のほとんどは、エクササイズに存在する豊富な情報を探索することができない知識シーケンスとしてレコードの運動を単純化する。 さらに、既存の知識追跡の診断結果は、運動間の事前の関係を無視しているため、十分な説得力を持っていない。 この問題を解決するために,HGKTと呼ばれる階層型グラフ知識追跡モデルを提案する。 具体的には,学習依存度をモデル化可能な階層的なエクササイズグラフを構築するために,問題スキーマの概念を導入する。 さらに,2つの注意機構を用いて,学習者の歴史的意義を浮き彫りにする。 テスト段階では、知識の習得と問題スキーマの遷移をトレースできるK&S診断行列を提示する。 実験により,提案モデルの有効性と解釈性を示した。

Knowledge tracing (KT) which aims at predicting learner's knowledge mastery plays an important role in the computer-aided educational system. In recent years, many deep learning models have been applied to tackle the KT task, which have shown promising results. However, limitations still exist. Most existing methods simplify the exercising records as knowledge sequences, which fail to explore rich information that existed in exercises. Besides, the existing diagnosis results of knowledge tracing are not convincing enough since they neglect prior relations between exercises. To solve the above problems, we propose a hierarchical graph knowledge tracing model called HGKT to explore the latent hierarchical relations between exercises. Specifically, we introduce the concept of problem schema to construct a hierarchical exercise graph that could model the exercise learning dependencies. Moreover, we employ two attention mechanisms to highlight the important historical states of learners. In the testing stage, we present a K&S diagnosis matrix that could trace the transition of mastery of knowledge and problem schema, which can be more easily applied to different applications. Extensive experiments show the effectiveness and interpretability of our proposed models.
翻訳日:2022-11-21 20:50:16 公開日:2022-08-29
# ラベルと自由テキスト合理化の関連性の測定

Measuring Association Between Labels and Free-Text Rationales ( http://arxiv.org/abs/2010.12762v4 )

ライセンス: Link先を確認
Sarah Wiegreffe, Ana Marasovi\'c, Noah A. Smith(参考訳) 解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。 先行研究は抽出的合理性(入力単語のサブセット)に焦点をあてる一方で、学習不足の合理性(free-text natural language rationales)について検討する。 情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。 我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。 我々は,ラベル・リテラル・アソシエーションを忠実性に必要な特性として定義し,ラベルを生成するモデルの内部メカニズムと合理性は有意に相関しなくてはならない。 この特性をテストするために,ロバスト性同値と特徴重要度合意という2つの測定値を提案する。 現状のT5ベースジョイントモデルは,共通理解質問文と自然言語推論を合理化するための特性を示し,それらが忠実な自由文理性を生み出す可能性を示唆している。

In interpretable NLP, we require faithful rationales that reflect the model's decision-making process for an explained instance. While prior work focuses on extractive rationales (a subset of the input words), we investigate their less-studied counterpart: free-text natural language rationales. We demonstrate that pipelines, existing models for faithful extractive rationalization on information-extraction style tasks, do not extend as reliably to "reasoning" tasks requiring free-text rationales. We turn to models that jointly predict and rationalize, a class of widely used high-performance models for free-text rationalization whose faithfulness is not yet established. We define label-rationale association as a necessary property for faithfulness: the internal mechanisms of the model producing the label and the rationale must be meaningfully correlated. We propose two measurements to test this property: robustness equivalence and feature importance agreement. We find that state-of-the-art T5-based joint models exhibit both properties for rationalizing commonsense question-answering and natural language inference, indicating their potential for producing faithful free-text rationales.
翻訳日:2022-10-03 12:42:45 公開日:2022-08-29
# フーリエニューラルネットワークを用いた深層学習による可積分分数非線形波動方程式のデータ駆動ソリトン写像

Data-driven soliton mappings for integrable fractional nonlinear wave equations via deep learning with Fourier neural operator ( http://arxiv.org/abs/2209.14291v1 )

ライセンス: Link先を確認
Ming Zhong and Zhenya Yan(参考訳) 本稿では,まずフーリエ・ニューラル作用素(fno)を拡張して2つの関数空間間のソリトン写像を発見し,一方は分数分解可能な非線形波動方程式における分数次指数空間 $\{\epsilon|\epsilon\in (0, 1)\}$ であり、もう一方はソリトン解関数空間を表す。 具体的には,最近提案した分数非線形schr\"{o}dinger (fnls), fractional korteweg-de vries (fkdv), fractional modified korteweg-de vries (fmkdv), fractional sine-gordon (fsineg) 方程式について検討した。 我々は列車を提示し、列車の記録と試験損失により進捗を評価する。 精度を示すために、データ駆動ソリトンも正確なソリューションと比較される。 さらに、いくつかの重要な因子(例えば、Relu$(x)$, Sigmoid$(x)$, Swish$(x)$, $x\tanh(x)$を含む活性化関数)がFNOアルゴリズムの性能に与える影響を考察する。 また、ディープラーニングの分野では使われない新しいアクティベーション関数である$x\tanh(x)$も使用しています。 本論文で得られた結果は,分数可積分非線形波動系におけるニューラルネットワークと2つの空間間のマッピングを理解するのに有用である。

In this paper, we firstly extend the Fourier neural operator (FNO) to discovery the soliton mapping between two function spaces, where one is the fractional-order index space $\{\epsilon|\epsilon\in (0, 1)\}$ in the fractional integrable nonlinear wave equations while another denotes the solitonic solution function space. To be specific, the fractional nonlinear Schr\"{o}dinger (fNLS), fractional Korteweg-de Vries (fKdV), fractional modified Korteweg-de Vries (fmKdV) and fractional sine-Gordon (fsineG) equations proposed recently are studied in this paper. We present the train and evaluate progress by recording the train and test loss. To illustrate the accuracies, the data-driven solitons are also compared to the exact solutions. Moreover, we consider the influences of several critical factors (e.g., activation functions containing Relu$(x)$, Sigmoid$(x)$, Swish$(x)$ and $x\tanh(x)$, depths of fully connected layer) on the performance of the FNO algorithm. We also use a new activation function, namely, $x\tanh(x)$, which is not used in the field of deep learning. The results obtained in this paper may be useful to further understand the neural networks in the fractional integrable nonlinear wave systems and the mappings between two spaces.
翻訳日:2022-10-02 23:56:39 公開日:2022-08-29
# 会話からの個人属性予測

Personal Attribute Prediction from Conversations ( http://arxiv.org/abs/2209.09619v1 )

ライセンス: Link先を確認
Yinan Liu and Hu Chen and Wei Shen(参考訳) 個人知識ベース(pkb)は、webベースのチャットボットやパーソナライズドレコメンデーションなど、多くのアプリケーションにとって重要である。 豊富な個人知識を含む会話は、pkbを投入する主要な情報源と見なすことができる。 ユーザ, ユーザ属性, ユーザ発話が会話システムから与えられた場合, ユーザの個人属性値を予測することが, PKBの充実に有効である。 しかし,(1)手動ラベル付き発話はモデル学習に必要であり,(2)発話と外部資源に埋め込まれた個人的属性知識が不足している,(3)困難な個人的属性の予測性能が不十分である,という3つの課題が存在する。 本稿では,ラベル付き発話を必要とせず,会話から個人属性を予測できるノイズロバスト損失関数付き事前学習言語モデルに基づくフレームワークdscgnを提案する。 ラベルなし発話と外部リソースに埋め込まれた個人的属性知識をマイニングして言語モデルを微調整することにより,遠隔監視戦略による文書レベルの監督とラベル推定手法による文脈化された単語レベルの監督の2つのカテゴリを得る。 2つの実世界のデータセット(すなわち職業データセットと趣味データセット)にわたる広範囲な実験により、ndcgとmrrの観点から、我々のフレームワークが全12のベースラインと比較して最高のパフォーマンスを得ることを示した。

Personal knowledge bases (PKBs) are critical to many applications, such as Web-based chatbots and personalized recommendation. Conversations containing rich personal knowledge can be regarded as a main source to populate the PKB. Given a user, a user attribute, and user utterances from a conversational system, we aim to predict the personal attribute value for the user, which is helpful for the enrichment of PKBs. However, there are three issues existing in previous studies: (1) manually labeled utterances are required for model training; (2) personal attribute knowledge embedded in both utterances and external resources is underutilized; (3) the performance on predicting some difficult personal attributes is unsatisfactory. In this paper, we propose a framework DSCGN based on the pre-trained language model with a noise-robust loss function to predict personal attributes from conversations without requiring any labeled utterances. We yield two categories of supervision, i.e., document-level supervision via a distant supervision strategy and contextualized word-level supervision via a label guessing method, by mining the personal attribute knowledge embedded in both unlabeled utterances and external resources to fine-tune the language model. Extensive experiments over two real-world data sets (i.e., a profession data set and a hobby data set) show our framework obtains the best performance compared with all the twelve baselines in terms of nDCG and MRR.
翻訳日:2022-09-25 17:49:40 公開日:2022-08-29
# 科学記事の感情がcovid-19ワクチン接種率に及ぼす影響の分析

Analyzing the Impact of Sentiments of Scientific Articles on COVID-19 Vaccination Rates ( http://arxiv.org/abs/2209.08154v1 )

ライセンス: Link先を確認
Sean Eugene G. Chua, Kevin Anthony S. Sison(参考訳) 新型コロナウイルス(covid-19)のパンデミックの最盛期には、世界中の多くの国がワクチン接種キャンペーンを動員し、感染拡大と死者数を抑えようとした。 新型コロナウイルスの予防接種に関する情報が広まる道の1つは科学的記事であり、それに関するある程度の信頼性を提供する。 これにより、これらの記事を見る人が予防接種に関する肯定的なメッセージを伝えると予防接種を受ける確率が増大し、逆に、否定的なメッセージを伝えると予防接種の確率が低下する。 本研究は,米国における論文感情とワクチン接種の増加・減少との関連性について検討することを目的としたものである。 これを実現するために、レキシコンベースの感情分析を2段階に分けて実施した。まず、記事内容がBeautifulSoupと呼ばれるPythonライブラリを介してスクラップされ、次に、VADERを使用して、スクラップされたテキストコンテンツに基づいて各記事に対する感情分析スコアを得た。 結果から,米国における記事の平均感情スコアと新型コロナウイルスワクチン接種率の上昇・減少との間には,相対的に相関が弱いことが示唆された。

At the peak of the COVID-19 pandemic, numerous countries worldwide sought to mobilize vaccination campaigns in an attempt to curb the spread and number of deaths caused by the virus. One avenue in which information regarding COVID vaccinations is propagated is that of scientific articles, which provide a certain level of credibility regarding this. Hence, this increases the probability that people who view these articles would get vaccinated if the articles convey a positive message on vaccinations and conversely decreases the probability of vaccinations if the articles convey a negative message. This being said, this study aims to investigate the correlation between article sentiments and the corresponding increase or decrease in vaccinations in the United States. To do this, a lexicon-based sentiment analysis was performed in two steps: first, article content was scraped via a Python library called BeautifulSoup, and second, VADER was used to obtain the sentiment analysis scores for each article based on the scraped text content. Results suggest that there was a relatively weak correlation between the average sentiment score of articles and the corresponding increase or decrease in COVID vaccination rates in the US.
翻訳日:2022-09-25 17:48:26 公開日:2022-08-29
# ボリュームレンダリングダイジェスト(NeRF用)

Volume Rendering Digest (for NeRF) ( http://arxiv.org/abs/2209.02417v1 )

ライセンス: Link先を確認
Andrea Tagliasacchi and Ben Mildenhall(参考訳) ニューラル・ラジアンス・フィールドは単純なボリュームレンダリングを用いて、可視性の確率的概念を活用し、光-三角交点を微分する難題を克服する。 これは、空間の密度が変化する発光粒子の雲がシーンを構成すると仮定することで達成される。 この技術報告では、微分可能なボリュームレンダリングの導出を要約する。 以前のレポートの縮約版であるが、NeRFの文脈で書き直され、一般的に使われる表記法を採用している。

Neural Radiance Fields employ simple volume rendering as a way to overcome the challenges of differentiating through ray-triangle intersections by leveraging a probabilistic notion of visibility. This is achieved by assuming the scene is composed by a cloud of light-emitting particles whose density changes in space. This technical report summarizes the derivations for differentiable volume rendering. It is a condensed version of previous reports, but rewritten in the context of NeRF, and adopting its commonly used notation.
翻訳日:2022-09-11 13:09:25 公開日:2022-08-29
# ECGによる不整脈検出のための軽量ハイブリッドCNN-LSTMモデル

A lightweight hybrid CNN-LSTM model for ECG-based arrhythmia detection ( http://arxiv.org/abs/2209.00988v1 )

ライセンス: Link先を確認
Negin Alamatsaz, Leyla s Tabatabaei, Mohammadreza Yazdchi, Hamidreza Payan, Nima Alamatsaz and Fahimeh Nasimi(参考訳) 心電図(Electrocardiogram、ECG)は、心臓の電気信号を監視し、その機能を評価するために最も頻繁に使われる診断ツールである。 ヒトの心臓は、心臓不整脈を含む様々な疾患に苦しむことがある。 不整脈は不整脈であり、重篤な症例では心臓発作を引き起こし、心電図記録によって診断することができる。 心不整脈の早期発見は極めて重要であるため、コンピュータ化された自動分類とこれらの異常な心臓信号の同定は過去数十年にわたって注目されてきた。 方法: 本報告では, 8種類の心不整脈と正常リズムの高精度検出のための光深度学習手法を提案する。 深層学習の手法を活用するため,ECG信号に再サンプリングとベースライン消去手法を適用した。 本研究では,500個のECGセグメントをモデル入力として使用した。 リズム分類は,手作りの手動特徴抽出を必要とせず,エンドツーエンドで11層ネットワークで行った。 結果: 提案手法を評価するために,mit-bih不整脈データベースと長期afデータベースという2つの生理的データベースからecg信号が選択される。 畳み込みニューラルネットワーク(CNN)とLong Short Term Memory(LSTM)を組み合わせたディープラーニングフレームワークは,最先端の手法よりも有望な結果を示した。 提案手法は平均診断精度98.24%に達する。 結論: 多様な心電図信号を用いた不整脈分類訓練モデルの開発と試験を行った。 意義: 本研究は, 診断精度の高い光分類技術を用いており, 不整脈検出のためのホルターモニター装置に実装することができた。

Electrocardiogram (ECG) is the most frequent and routine diagnostic tool used for monitoring heart electrical signals and evaluating its functionality. The human heart can suffer from a variety of diseases, including cardiac arrhythmias. Arrhythmia is an irregular heart rhythm that in severe cases can lead to heart stroke and can be diagnosed via ECG recordings. Since early detection of cardiac arrhythmias is of great importance, computerized and automated classification and identification of these abnormal heart signals have received much attention for the past decades. Methods: This paper introduces a light deep learning approach for high accuracy detection of 8 different cardiac arrhythmias and normal rhythm. To leverage deep learning method, resampling and baseline wander removal techniques are applied to ECG signals. In this study, 500 sample ECG segments were used as model inputs. The rhythm classification was done by an 11-layer network in an end-to-end manner without the need for hand-crafted manual feature extraction. Results: In order to evaluate the proposed technique, ECG signals are chosen from the two physionet databases, the MIT-BIH arrhythmia database and the long-term AF database. The proposed deep learning framework based on the combination of Convolutional Neural Network(CNN) and Long Short Term Memory (LSTM) showed promising results than most of the state-of-the-art methods. The proposed method reaches the mean diagnostic accuracy of 98.24%. Conclusion: A trained model for arrhythmia classification using diverse ECG signals were successfully developed and tested. Significance: Since the present work uses a light classification technique with high diagnostic accuracy compared to other notable methods, it could successfully be implemented in holter monitor devices for arrhythmia detection.
翻訳日:2022-09-11 13:08:51 公開日:2022-08-29
# スマートセンシングから意識へ:非相互作用エージェントに対する計算意識の情報構造モデル

From Smart Sensing to Consciousness: An info-structural model of computational consciousness for non-interacting agents ( http://arxiv.org/abs/2209.02414v1 )

ライセンス: Link先を確認
Gerardo Iovane, Riccardo Emanuele Landi(参考訳) 本研究では,非相互作用エージェントに対する計算意識モデルを提案する。 興味の現象は、感覚、知覚、感情、愛情、注意、意識、意識の認知的タスクに順次依存していると仮定された。 スマートセンシングのプロドロマ研究から始まり、注意、認知、意識のプロセスに関連する認知レベルを、感覚、知覚、感情、感情に関する他のプロセスとともに正式に定義し、テストした。 モデルの出力は、計算的道徳的な観点から意識のエネルギー的およびエントロピー的な貢献を合成する指標から成り立っている。 意識はボトムアップアプローチによってモデル化され、環境と主観的認知過程を区別することで意識と意識がモデル化された。 幸福、怒り、恐怖、驚き、軽蔑、悲しみ、嫌悪感、中立状態の感情を誘発する視覚刺激の解法をテストすることにより、提案モデルが隠蔽注意に関する科学的証拠と一致していることが判明した。 また,視覚刺激の反復の結果としての意識調査や,嫌悪感や悲しみを誘発する視覚刺激に対する道徳的判断の調査についても比較検討を行った。 このソリューションは、人工的な感情活動と道徳を通じて計算的意識を定義するための新しいアプローチを表している。

This study proposes a model of computational consciousness for non-interacting agents. The phenomenon of interest was assumed as sequentially dependent on the cognitive tasks of sensation, perception, emotion, affection, attention, awareness, and consciousness. Starting from the Smart Sensing prodromal study, the cognitive levels associated with the processes of attention, awareness, and consciousness were formally defined and tested together with the other processes concerning sensation, perception, emotion, and affection. The output of the model consists of an index that synthesizes the energetic and entropic contributions of consciousness from a computationally moral perspective. Attention was modeled through a bottom-up approach, while awareness and consciousness by distinguishing environment from subjective cognitive processes. By testing the solution on visual stimuli eliciting the emotions of happiness, anger, fear, surprise, contempt, sadness, disgust, and the neutral state, it was found that the proposed model is concordant with the scientific evidence concerning covert attention. Comparable results were also obtained regarding studies investigating awareness as a consequence of visual stimuli repetition, as well as those investigating moral judgments to visual stimuli eliciting disgust and sadness. The solution represents a novel approach for defining computational consciousness through artificial emotional activity and morality.
翻訳日:2022-09-11 13:02:26 公開日:2022-08-29
# 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて

On Grounded Planning for Embodied Tasks with Language Models ( http://arxiv.org/abs/2209.00465v1 )

ライセンス: Link先を確認
Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer, Xiang Ren(参考訳) 言語モデル (LM) は、日常の状況においてタスクを完了させる基礎となる物理世界の常識的知識を持つ。 しかし、LMが具体化タスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ未解決の問題である。 LMは現実的な環境を知覚する"目"や"手"を持っていないため、非常に難しい。 本稿では,この重要な研究課題に関する最初の研究を紹介する。 まず,G-Planet という,高レベルな目標と特定の環境におけるオブジェクトのテーブルを入力とする新しい問題定式化について述べる。 期待される出力は、エージェントが実行するステップバイステップの指示からなるプランである。 この問題を解決するために,評価プロトコルを確立し,計画の質を評価するための専用の指標を考案する。 広範な実験により,エンコーディング環境にフラット化テーブルを追加し,反復復号戦略を用いることで,lmsのグラウンドド・プランニング能力が向上することを示した。 結果の分析も興味深い非自明な発見につながります。

Language models (LMs) are shown to have commonsense knowledge of the physical world, which is fundamental for completing tasks in everyday situations. However, it is still an open question whether LMs have the ability to generate grounded, executable plans for embodied tasks. It is very challenging because LMs do not have an "eye" or "hand" to perceive the realistic environment. In this work, we show the first study on this important research question. We first present a novel problem formulation named G-PlanET, which takes as input a high-level goal and a table of objects in a specific environment. The expected output is a plan consisting of step-by-step instructions for agents to execute. To enable the study of this problem, we establish an evaluation protocol and devise a dedicated metric for assessing the quality of plans. In our extensive experiments, we show that adding flattened tables for encoding environments and using an iterative decoding strategy can both improve the LMs' ability for grounded planning. Our analysis of the results also leads to interesting non-trivial findings.
翻訳日:2022-09-02 13:15:50 公開日:2022-08-29
# 人工知能を用いた脳内微小環境のロコリージョンマーカー

Artificial intelligence-based locoregional markers of brain peritumoral microenvironment ( http://arxiv.org/abs/2208.14445v1 )

ライセンス: Link先を確認
Zahra Riahi Samani, Drew Parker, Hamed Akbari, Spyridon Bakas, Ronald L. Wolf, Steven Brem, Ragini Verma(参考訳) 悪性原発脳腫瘍では、癌細胞は腫瘍周囲脳構造に浸潤し、避けられない再発を引き起こす。 生検・切除の危険領域である腫瘍周辺領域における浸潤性異種性の定量的評価は, 臨床的意思決定に重要である。 腫瘍周辺領域における浸潤性不均一性を特徴付ける以前の研究は、様々な画像的特徴を用いたが、細胞外自由水移動制限に関する情報は限定的に検討されている。 ここでは,拡散テンソルイメージング (dti) を用いた自由水体積分画地図を用いて,腫瘍浸潤の多様性を捉えたユニークな人工知能(ai)ベースのマーカーを導出し,腫瘍周辺領域における自由水移動制限を特徴付ける。 新たなvoxel-wise deep learning-based peritumoral microenvironment index(pmi)を,腫瘍周囲組織に浸潤しない領域としてグリオブラスト腫と脳転移の広範な水拡散特性を利用して抽出した。 均一に高いPMI値のロコリージョンハブの記述的特徴をAIベースのマーカーとして抽出し、侵入的不均一性の異なる側面を捉える。 提案マーカーは, 成人型びまん性グリオーマ (CNS WHO grade 4) の2種類の臨床症例に適用し, Isocitrate-Dehydrogenase 1 (IDH1)-wildtypeの生存期間とIDH1変異体との相違について検討した。 以上より, 腫瘍周囲における組織的異質性の基礎的生物学的知見を捉え, 生存と分子階層化に関連する予後のバイオマーカーとして確立し, 臨床的意思決定に応用できる可能性が示唆された浸潤のサーロゲートとしてのマーカーのパネルを提供する。

In malignant primary brain tumors, cancer cells infiltrate into the peritumoral brain structures which results in inevitable recurrence. Quantitative assessment of infiltrative heterogeneity in the peritumoral region, the area where biopsy or resection can be hazardous, is important for clinical decision making. Previous work on characterizing the infiltrative heterogeneity in the peritumoral region used various imaging modalities, but information of extracellular free water movement restriction has been limitedly explored. Here, we derive a unique set of Artificial Intelligence (AI)-based markers capturing the heterogeneity of tumor infiltration, by characterizing free water movement restriction in the peritumoral region using Diffusion Tensor Imaging (DTI)-based free water volume fraction maps. A novel voxel-wise deep learning-based peritumoral microenvironment index (PMI) is first extracted by leveraging the widely different water diffusivity properties of glioblastomas and brain metastases as regions with and without infiltrations in the peritumoral tissue. Descriptive characteristics of locoregional hubs of uniformly high PMI values are extracted as AI-based markers to capture distinct aspects of infiltrative heterogeneity. The proposed markers are applied to two clinical use cases on an independent population of 275 adult-type diffuse gliomas (CNS WHO grade 4), analyzing the duration of survival among Isocitrate-Dehydrogenase 1 (IDH1)-wildtypes and the differences with IDH1-mutants. Our findings provide a panel of markers as surrogates of infiltration that captures unique insight about underlying biology of peritumoral microstructural heterogeneity, establishing them as biomarkers of prognosis pertaining to survival and molecular stratification, with potential applicability in clinical decision making.
翻訳日:2022-09-01 13:58:08 公開日:2022-08-29
# コミュニティ検出のための動的ネットワークサンプリング

Dynamic Network Sampling for Community Detection ( http://arxiv.org/abs/2208.13921v1 )

ライセンス: Link先を確認
Cong Mu, Youngser Park, Carey E. Priebe(参考訳) 本稿では,グラフ全体を監視するのに極めて高価である場合に,確率的ブロックモデル(SBM)のブロック回復を最適化する動的ネットワークサンプリング手法を提案する。 理論的には,提案するチャーンオフ最適動的サンプリング方式をチャーンオフ情報を用いて正当化する。 実際に,ブロック回復の観点から,異なる領域の複数の実データに対して,本手法の性能評価を行った。 理論上および実際の結果から,本手法はブロック構造に最も影響の大きい頂点を識別でき,その間に重要な資源を節約するエッジが存在するかチェックできるが,ブロック構造を回復できる可能性が示唆された。

We propose a dynamic network sampling scheme to optimize block recovery for stochastic blockmodel (SBM) in the case where it is prohibitively expensive to observe the entire graph. Theoretically, we provide justification of our proposed Chernoff-optimal dynamic sampling scheme via the Chernoff information. Practically, we evaluate the performance, in terms of block recovery, of our method on several real datasets from different domains. Both theoretically and practically results suggest that our method can identify vertices that have the most impact on block structure so that one can only check whether there are edges between them to save significant resources but still recover the block structure.
翻訳日:2022-08-31 13:44:58 公開日:2022-08-29
# ニューラルネットワークを用いた強レンズ観察によるサブハロ有効密度勾配の推定

Inferring subhalo effective density slopes from strong lensing observations with neural likelihood-ratio estimation ( http://arxiv.org/abs/2208.13796v1 )

ライセンス: Link先を確認
Gemma Zhang, Siddharth Mishra-Sharma, Cora Dvorkin(参考訳) 強い重力レンズは、銀河系スケールでダークマターモデルを発見するための有望なアプローチとして現れてきた。 近年の研究では、一般的に用いられるサブハロ質量関数よりも信頼性の高いサブハロ有効密度勾配が提案されている。 サブハロ有効密度勾配は、基礎となる密度分布の仮定とは無関係に測定され、従来のサンプリング手法により個々のサブハロに対して推定できる。 個別のサブハロ測定を超えるために、機械学習の最近の進歩を活用し、サブハロの人口に対して効果的な密度勾配を推定する神経電位比推定器を導入する。 本手法は,複数のサブハロ群の特徴を識別するために,複数のサブハロ群(および複数の画像を含む)の統計力を活用できることを実証する。 従来のサンプリングに対するニューラルチャンス比推定器によって保証される計算効率は、暗黒物質摂動の統計的研究を可能にし、今後の調査から強力なレンズシステムの流入を期待する上で特に有用である。

Strong gravitational lensing has emerged as a promising approach for probing dark matter models on sub-galactic scales. Recent work has proposed the subhalo effective density slope as a more reliable observable than the commonly used subhalo mass function. The subhalo effective density slope is a measurement independent of assumptions about the underlying density profile and can be inferred for individual subhalos through traditional sampling methods. To go beyond individual subhalo measurements, we leverage recent advances in machine learning and introduce a neural likelihood-ratio estimator to infer an effective density slope for populations of subhalos. We demonstrate that our method is capable of harnessing the statistical power of multiple subhalos (within and across multiple images) to distinguish between characteristics of different subhalo populations. The computational efficiency warranted by the neural likelihood-ratio estimator over traditional sampling enables statistical studies of dark matter perturbers and is particularly useful as we expect an influx of strong lensing systems from upcoming surveys.
翻訳日:2022-08-31 13:43:32 公開日:2022-08-29
# 可逆ニューラルネットワークを用いた逆フォトニック設計におけるマルチモーダルデバイス分布の対応

Tackling Multimodal Device Distributions in Inverse Photonic Design using Invertible Neural Networks ( http://arxiv.org/abs/2208.14212v1 )

ライセンス: Link先を確認
Michel Frising, Jorge Bravo-Abad, Ferry Prins(参考訳) 逆設計(inverse design)は、デバイスやプロセスパラメータをマッチングして所望の性能を示すプロセスであり、材料設計から化学プロセス、工学まで様々な分野に適用される。 機械学習は、パラメータ空間とマルチモーダルパラメータ分布の次元性によって課される現在の制限を克服するための有望なアプローチとして登場した。 ほとんどの従来の最適化ルーチンは、設計パラメータと目標性能の間の可逆的な1対1マッピングを想定している。 しかし、同等あるいは同一の性能は異なる設計によって実現され、最適化アルゴリズムを混同する逆設計問題に対する可能な解のマルチモーダル分布が得られる。 本稿では,インバータブルニューラルネットワークに基づく生成的モデリング手法が,逆設計問題に対する可能な解の完全な分布を提供し,マルチモーダル分布を特徴とするナノデバイス逆設計問題の曖昧性を解決する方法を示す。 我々は,CINN(Conditional Invertible Neural Network)を実装し,それをサブ波長インデンテーションで加工した金属フィルムの透過スペクトルを調整する原理的ナノフォトニクス問題に適用する。 提案手法を条件付き変分オートエンコーダ (cVAE) フレームワークと比較し, マルチモーダルデバイス分布の処理において, 提案したcINNの優れた柔軟性と精度を示す。 我々の研究は、ナノサイエンスとナノテクノロジーの逆設計を促進するために、インバータブルニューラルネットワークが有用で多用途なツールキットを提供することを示している。

Inverse design, the process of matching a device or process parameters to exhibit a desired performance, is applied in many disciplines ranging from material design over chemical processes and to engineering. Machine learning has emerged as a promising approach to overcome current limitations imposed by the dimensionality of the parameter space and multimodal parameter distributions. Most traditional optimization routines assume an invertible one-to-one mapping between the design parameters and the target performance. However, comparable or even identical performance may be realized by different designs, yielding a multimodal distribution of possible solutions to the inverse design problem which confuses the optimization algorithm. Here, we show how a generative modeling approach based on invertible neural networks can provide the full distribution of possible solutions to the inverse design problem and resolve the ambiguity of nanodevice inverse design problems featuring multimodal distributions. We implement a Conditional Invertible Neural Network (cINN) and apply it to a proof-of-principle nanophotonic problem, consisting in tailoring the transmission spectrum of a metallic film milled by subwavelength indentations. We compare our approach with the commonly used conditional Variational Autoencoder (cVAE) framework and show the superior flexibility and accuracy of the proposed cINNs when dealing with multimodal device distributions. Our work shows that invertible neural networks provide a valuable and versatile toolkit for advancing inverse design in nanoscience and nanotechnology.
翻訳日:2022-08-31 13:42:31 公開日:2022-08-29
# DNNにおけるデータ出現のためのデータアイソトープ

Data Isotopes for Data Provenance in DNNs ( http://arxiv.org/abs/2208.13893v1 )

ライセンス: Link先を確認
Emily Wenger and Xiuyu Li and Ben Y. Zhao and Vitaly Shmatikov(参考訳) 今日、DNN(Data-hungry Deep Neural Network)のクリエーターは、データをモデルトレーニングにいつ適切なタイミングで制御するか、知識をほとんど持たないまま、ファダーのトレーニングのためにインターネットをいじる。 ユーザが望ましくないデータの使用に対処するために、DNNモデルのトレーニングに使用したデータを検出する実用的なシステムを設計、実装、評価する。 トレーニング中にDNNに“spurious features”を導入することで、ユーザがIthronicsと呼ぶ特別なデータポイントを作成できることを示します。 トレーニングされたモデルへのクエリアクセスのみを使用して、モデルトレーニングプロセスやデータラベルの制御を行なわず、ユーザが統計的仮説テストを適用して、モデルがユーザのデータに基づいてトレーニングすることで、自分の同位体に関連する急激な特徴を学習したかどうかを検出することができる。 これにより、DNNの脆弱性を暗記と素早い相関に効果的に変換し、データ証明のためのツールとなる。 その結果,複数設定で有効性を確認し,高い精度で数百の同位体の検出と識別を行った。 さらに,私たちのシステムはパブリックML・アズ・ア・サービスプラットフォームやImageNetなどの大規模モデルで動作し,デジタルマークの代わりに物理オブジェクトを使用できることを示す。

Today, creators of data-hungry deep neural networks (DNNs) scour the Internet for training fodder, leaving users with little control over or knowledge of when their data is appropriated for model training. To empower users to counteract unwanted data use, we design, implement and evaluate a practical system that enables users to detect if their data was used to train an DNN model. We show how users can create special data points we call isotopes, which introduce "spurious features" into DNNs during training. With only query access to a trained model and no knowledge of the model training process, or control of the data labels, a user can apply statistical hypothesis testing to detect if a model has learned the spurious features associated with their isotopes by training on the user's data. This effectively turns DNNs' vulnerability to memorization and spurious correlations into a tool for data provenance. Our results confirm efficacy in multiple settings, detecting and distinguishing between hundreds of isotopes with high accuracy. We further show that our system works on public ML-as-a-service platforms and larger models such as ImageNet, can use physical objects instead of digital marks, and remains generally robust against several adaptive countermeasures.
翻訳日:2022-08-31 13:40:09 公開日:2022-08-29
# 組織学における注意に基づく遺伝子発現の解釈的回帰

Attention-based Interpretable Regression of Gene Expression in Histology ( http://arxiv.org/abs/2208.13776v1 )

ライセンス: Link先を確認
Mara Graziani and Niccol\`o Marini and Nicolas Deutschmann and Nikita Janakarajan and Henning M\"uller and Mar\'ia Rodr\'iguez Mart\'inez(参考訳) 深層学習の解釈性は、医療画像モデルの信頼性を評価し、不正確な患者の推薦のリスクを減らすために広く使われている。 人間のパフォーマンスを超えるモデル、例えば顕微鏡画像からRNA構造を予測する場合、解釈可能なモデリングは、人間の目には認識できない非常に非自明なパターンを明らかにするためにさらに用いられる。 その結果,癌組織のミクロな出現と遺伝子発現プロファイリングとの関係を明らかにすることができた。 組織像から全遺伝子を網羅的にプロファイリングすることは依然として困難であるが,大腸癌における癌分子サブタイプ,生存率,治療反応を示す既知の遺伝子サブセットの発現値を推定する。 提案手法は画像スライドから有意義な情報を同定し,高遺伝子発現のホットスポットを明らかにする。 本手法は、遺伝子発現が組織形態をどのように形成するかを特徴付けるのに役立ち、病理組織ユニットの患者層形成に有用である。 コードはGitHubで入手できる。

Interpretability of deep learning is widely used to evaluate the reliability of medical imaging models and reduce the risks of inaccurate patient recommendations. For models exceeding human performance, e.g. predicting RNA structure from microscopy images, interpretable modelling can be further used to uncover highly non-trivial patterns which are otherwise imperceptible to the human eye. We show that interpretability can reveal connections between the microscopic appearance of cancer tissue and its gene expression profiling. While exhaustive profiling of all genes from the histology images is still challenging, we estimate the expression values of a well-known subset of genes that is indicative of cancer molecular subtype, survival, and treatment response in colorectal cancer. Our approach successfully identifies meaningful information from the image slides, highlighting hotspots of high gene expression. Our method can help characterise how gene expression shapes tissue morphology and this may be beneficial for patient stratification in the pathology unit. The code is available on GitHub.
翻訳日:2022-08-31 13:32:14 公開日:2022-08-29
# 地球系モデリングのための微分プログラミング

Differentiable Programming for Earth System Modeling ( http://arxiv.org/abs/2208.13825v1 )

ライセンス: Link先を確認
Maximilian Gelbrecht and Alistair White and Sebastian Bathiany and Niklas Boers(参考訳) 地球系モデル (Earth System Models, ESMs) は、数十年から数世紀にわたって、特に人為的な温室効果ガスの放出に反応して、将来の地球系の状態を調査するための主要なツールである。 最先端esmは過去150年間の観測平均気温異常を再現することができる。 それでもESMにはさらなる改善が必要だ。 (i)大気中の温室効果ガスの増加に対する温度応答という,気候感受性の推定値の大規模な拡散 (II)温度や降水などの鍵変数のモデル化された空間パターン (三)極度の気象事象の表現、及び (iv)それらの多安定地球系成分の表現と、それに伴う急変を予測する能力 ここでは、ESMを自動で差別化できることは、特にこれらの重要な欠点に関して、ESMを前進させる大きな可能性を秘めていると論じる。 第一に、自動微分可能性(automatic differentiability)は、ESMの客観的な校正、すなわち、現在主に手動で調整されている多数の自由パラメータに対するコスト関数に対する最適値の選択を可能にする。 第2に、機械学習(ML)の最近の進歩と観測データの量、正確性、解像度は、観測からESMに付加的な情報を組み込むためにMLが使用されるため、上記の少なくともいくつかの側面に役立つと約束されている。 自動微分は、プロセスベースのESMとMLコンポーネントを組み合わせたハイブリッドモデルの構築において重要な要素である。 我々は、データインフォームドESMを改良した新しい世代の自動微分の可能性を示す最近の研究を報告する。

Earth System Models (ESMs) are the primary tools for investigating future Earth system states at time scales from decades to centuries, especially in response to anthropogenic greenhouse gas release. State-of-the-art ESMs can reproduce the observational global mean temperature anomalies of the last 150 years. Nevertheless, ESMs need further improvements, most importantly regarding (i) the large spread in their estimates of climate sensitivity, i.e., the temperature response to increases in atmospheric greenhouse gases, (ii) the modeled spatial patterns of key variables such as temperature and precipitation, (iii) their representation of extreme weather events, and (iv) their representation of multistable Earth system components and their ability to predict associated abrupt transitions. Here, we argue that making ESMs automatically differentiable has huge potential to advance ESMs, especially with respect to these key shortcomings. First, automatic differentiability would allow objective calibration of ESMs, i.e., the selection of optimal values with respect to a cost function for a large number of free parameters, which are currently tuned mostly manually. Second, recent advances in Machine Learning (ML) and in the amount, accuracy, and resolution of observational data promise to be helpful with at least some of the above aspects because ML may be used to incorporate additional information from observations into ESMs. Automatic differentiability is an essential ingredient in the construction of such hybrid models, combining process-based ESMs with ML components. We document recent work showcasing the potential of automatic differentiation for a new generation of substantially improved, data-informed ESMs.
翻訳日:2022-08-31 13:31:58 公開日:2022-08-29
# 密度推定による金属のPGNAAスペクトル分類

PGNAA Spectral Classification of Metal with Density Estimations ( http://arxiv.org/abs/2208.13836v1 )

ライセンス: Link先を確認
Helmand Shayan, Kai Krycki, Marco Doemeland, Markus Lange-Hegermann(参考訳) 環境・持続可能な経済・政治上の理由から, 二次原料の利用の高度化を目指して, リサイクルプロセスの重要性が高まっている。 現在、銅やアルミニウム産業では、異種物質の非破壊的オンライン分析方法が存在しない。 Promt Gamma Neutron Activation Analysis (PGNAA)はこの課題を克服する可能性がある。 PGNAAをリアルタイム分類に使用する際の難易度は、短時間の計測により、少量のノイズデータから生じる。 この場合、ピーク解析による詳細なピークを用いた古典的評価手法は失敗する。 そこで本研究では,スペクトルデータを確率分布とみなす。 次に,カーネル密度推定に関して最大対数類似度を用いて材料を分類し,離散サンプリングを用いてハイパーパラメータを最適化する。 純アルミニウム合金の測定には、0.25秒以下でアルミニウム合金のほぼ完全な分類を行う。

For environmental, sustainable economic and political reasons, recycling processes are becoming increasingly important, aiming at a much higher use of secondary raw materials. Currently, for the copper and aluminium industries, no method for the non-destructive online analysis of heterogeneous materials are available. The Promt Gamma Neutron Activation Analysis (PGNAA) has the potential to overcome this challenge. A difficulty when using PGNAA for real-time classification arises from the small amount of noisy data, due to short-term measurements. In this case, classical evaluation methods using detailed peak by peak analysis fail. Therefore, we propose to view spectral data as probability distributions. Then, we can classify material using maximum log-likelihood with respect to kernel density estimation and use discrete sampling to optimize hyperparameters. For measurements of pure aluminium alloys we achieve near perfect classification of aluminium alloys under 0.25 second.
翻訳日:2022-08-31 13:31:32 公開日:2022-08-29
# Denoising AutoEncoder を用いた逆浄化に向けて

Towards Adversarial Purification using Denoising AutoEncoders ( http://arxiv.org/abs/2208.13838v1 )

ライセンス: Link先を確認
Dvij Kalaria, Aritra Hazra and Partha Pratim Chakrabarti(参考訳) 画像識別におけるディープラーニングモデルの急速な進歩と利用の増加により、セキュリティは安全クリティカルなシステムへの展開において大きな関心事となっている。 ディープラーニングモデルの正確性と堅牢性は、トレーニングサンプルの純度に起因するため、ディープラーニングアーキテクチャは、しばしば敵の攻撃に影響を受けやすい。 敵対的攻撃は、通常画像に微妙な摂動を加えることでしばしば得られるが、それは主に人間には認識できないが、最先端の機械学習モデルをひどく混乱させる可能性がある。 我々は,これらのサンプルを適応的に利用することにより,攻撃を受けたターゲット分類器ネットワークの分類精度を向上させるために,非正規化オートエンコーダ(denoising autoencoder, daes)を活用したフレームワークapudaeを提案する。 また,DAEを直接使用するのではなく適応的に使用する方法を示し,分類精度をさらに向上し,適応攻撃を設計して騙す可能性も高めている。 我々は、MNIST、CIFAR-10、ImageNetデータセットに対して結果を示し、我々のフレームワーク(APuDAE)が、敵を浄化するベースラインメソッドと同等で、ほとんどの場合、より良いパフォーマンスを提供することを示す。 我々はまた、浄化モデルを攻撃するために特別に設計された適応攻撃を設計し、その防御がいかに堅牢かを示す。

With the rapid advancement and increased use of deep learning models in image identification, security becomes a major concern to their deployment in safety-critical systems. Since the accuracy and robustness of deep learning models are primarily attributed from the purity of the training samples, therefore the deep learning architectures are often susceptible to adversarial attacks. Adversarial attacks are often obtained by making subtle perturbations to normal images, which are mostly imperceptible to humans, but can seriously confuse the state-of-the-art machine learning models. We propose a framework, named APuDAE, leveraging Denoising AutoEncoders (DAEs) to purify these samples by using them in an adaptive way and thus improve the classification accuracy of the target classifier networks that have been attacked. We also show how using DAEs adaptively instead of using them directly, improves classification accuracy further and is more robust to the possibility of designing adaptive attacks to fool them. We demonstrate our results over MNIST, CIFAR-10, ImageNet dataset and show how our framework (APuDAE) provides comparable and in most cases better performance to the baseline methods in purifying adversaries. We also design adaptive attack specifically designed to attack our purifying model and demonstrate how our defense is robust to that.
翻訳日:2022-08-31 13:31:21 公開日:2022-08-29
# 工学と物理システムの推論と最適化

Inference and Optimization for Engineering and Physical Systems ( http://arxiv.org/abs/2208.13880v1 )

ライセンス: Link先を確認
Mikhail Krechetov(参考訳) この博士論文の中心的な対象は、コンピュータ科学と統計力学の分野で異なる名前で知られている。 計算機科学では、最大カット問題(maximum cut problem)と呼ばれ、有名な21個のカルプのnpハード問題の一つであり、物理学の同じ対象はイジングスピングラスモデルと呼ばれる。 リッチな構造のこのモデルは、しばしば計算機科学、物理学、工学から現実の問題を減らしたり修正したりする。 しかし、このモデルを正確に解く(最大カットや基底状態を決定する)と、難解な問題($\textit{P} = \textit{NP}$)を保ち、特定のインスタンスの族ごとにアドホックなヒューリスティックスを開発する必要がある。 離散最適化と連続最適化の間の明るく美しい関係の1つは、最大カットのための半定義のプログラミングベースの丸めスキームである。 この手順により、証明可能な近似解を見つけることができ、さらに多項式時間で可能な最良の解であると推測される。 本論文の最初の2章では,ラウンドリングスキームを改善するための局所的非凸ヒューリスティックスについて検討する。 この論文の最後の章では、さらに一歩進めて、前章で解決したい問題に対する解決策のコントロールを目指しています。 イジングモデル上で二段階最適化問題を定式化し、その相互作用を可能な限り微調整して、得られたイジングモデルの基底状態が所望の基準を満たすようにしたい。 このような問題はパンデミック・モデリングで発生する。 相互作用が非負の場合、凸プログラミングを用いて多項式時間で2レベル最適化が解けることを示す。

The central object of this PhD thesis is known under different names in the fields of computer science and statistical mechanics. In computer science, it is called the Maximum Cut problem, one of the famous twenty-one Karp's original NP-hard problems, while the same object from Physics is called the Ising Spin Glass model. This model of a rich structure often appears as a reduction or reformulation of real-world problems from computer science, physics and engineering. However, solving this model exactly (finding the maximal cut or the ground state) is likely to stay an intractable problem (unless $\textit{P} = \textit{NP}$) and requires the development of ad-hoc heuristics for every particular family of instances. One of the bright and beautiful connections between discrete and continuous optimization is a Semidefinite Programming-based rounding scheme for Maximum Cut. This procedure allows us to find a provably near-optimal solution; moreover, this method is conjectured to be the best possible in polynomial time. In the first two chapters of this thesis, we investigate local non-convex heuristics intended to improve the rounding scheme. In the last chapter of this thesis, we make one step further and aim to control the solution of the problem we wanted to solve in previous chapters. We formulate a bi-level optimization problem over the Ising model where we want to tweak the interactions as little as possible so that the ground state of the resulting Ising model satisfies the desired criteria. This kind of problem arises in pandemic modeling. We show that when the interactions are non-negative, our bi-level optimization is solvable in polynomial time using convex programming.
翻訳日:2022-08-31 13:30:58 公開日:2022-08-29
# 言語に依存しないマルチ言語ストリーミングオンデバイスASRシステム

A Language Agnostic Multilingual Streaming On-Device ASR System ( http://arxiv.org/abs/2208.13916v1 )

ライセンス: Link先を確認
Bo Li, Tara N. Sainath, Ruoming Pang, Shuo-yiin Chang, Qiumin Xu, Trevor Strohman, Vince Chen, Qiao Liang, Heguang Liu, Yanzhang He, Parisa Haghani, Sameer Bidichandani(参考訳) オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。 E2Eモデルは多言語自動音声認識(ASR)にも有望な結果を示している。 本稿では,従来のキャパシティソリューションをストリーミングアプリケーションに拡張し,個々のモノリンガルモデルに匹敵する品質とレイテンシを持つデバイス上で動作するストリーミングマルチリンガルE2E ASRシステムを提案する。 そこで我々は,Encoder EndpointerモデルとEnd-of-Utterance (EOU) Joint Layerを提案する。 我々のシステムは言語に依存しない方法で構築されており、相互コード切り替えをリアルタイムでネイティブにサポートする。 大型モデルの実現可能性に対処するため、デバイス上でのプロファイリングを行い、LSTMデコーダを最近開発されたエンベディングデコーダに置き換えた。 これらの変更により、そのようなシステムをモバイルデバイス上でリアルタイムに実行することができたのです。

On-device end-to-end (E2E) models have shown improvements over a conventional model on English Voice Search tasks in both quality and latency. E2E models have also shown promising results for multilingual automatic speech recognition (ASR). In this paper, we extend our previous capacity solution to streaming applications and present a streaming multilingual E2E ASR system that runs fully on device with comparable quality and latency to individual monolingual models. To achieve that, we propose an Encoder Endpointer model and an End-of-Utterance (EOU) Joint Layer for a better quality and latency trade-off. Our system is built in a language agnostic manner allowing it to natively support intersentential code switching in real time. To address the feasibility concerns on large models, we conducted on-device profiling and replaced the time consuming LSTM decoder with the recently developed Embedding decoder. With these changes, we managed to run such a system on a mobile device in less than real time.
翻訳日:2022-08-31 13:27:05 公開日:2022-08-29
# prospectnet: 行動予測におけるインタラクションモデリングのための重み付き条件付注意

ProspectNet: Weighted Conditional Attention for Future Interaction Modeling in Behavior Prediction ( http://arxiv.org/abs/2208.13848v1 )

ライセンス: Link先を確認
Yutian Pang, Zehua Guo, Binnan Zhuang(参考訳) 行動予測は、統合型自動運転ソフトウェアソリューションにおいて重要な役割を果たす。 行動予測研究において、対話的行動予測は単一エージェントの行動予測に比べて探索の少ない領域である。 対話型エージェントの動作を予測するには、対話型ペアの関節動作を捉える新しいメカニズムを起動する必要がある。 本研究では,車両行動の辺縁学習と連立学習の逐次学習プロセスとして,エンドツーエンドの連立予測問題を定式化する。 本研究では,対話エージェントペア間の相互影響をモデル化するために,重み付け注意スコアを用いた共同学習ブロックprospectnetを提案する。 共同学習ブロックは、まずマルチモーダル予測された候補軌道を重み付け、その後、横断的な注意を通してエゴエージェントの埋め込みを更新する。 さらに、各対話エージェントの個々の将来予測をペアのスコアリングモジュールにブロードキャストし、上位の$K$予測ペアを選択する。 ProspectNetは2つの限界予測でCartesian製品より優れており、Waymo Interactive Motion Predictionベンチマークで同等のパフォーマンスを実現している。

Behavior prediction plays an important role in integrated autonomous driving software solutions. In behavior prediction research, interactive behavior prediction is a less-explored area, compared to single-agent behavior prediction. Predicting the motion of interactive agents requires initiating novel mechanisms to capture the joint behaviors of the interactive pairs. In this work, we formulate the end-to-end joint prediction problem as a sequential learning process of marginal learning and joint learning of vehicle behaviors. We propose ProspectNet, a joint learning block that adopts the weighted attention score to model the mutual influence between interactive agent pairs. The joint learning block first weighs the multi-modal predicted candidate trajectories, then updates the ego-agent's embedding via cross attention. Furthermore, we broadcast the individual future predictions for each interactive agent into a pair-wise scoring module to select the top $K$ prediction pairs. We show that ProspectNet outperforms the Cartesian product of two marginal predictions, and achieves comparable performance on the Waymo Interactive Motion Prediction benchmarks.
翻訳日:2022-08-31 13:18:51 公開日:2022-08-29
# 粗粒スマートフォンログを用いた空間軌道のモデル化

Modeling Spatial Trajectories using Coarse-Grained Smartphone Logs ( http://arxiv.org/abs/2208.13775v1 )

ライセンス: Link先を確認
Vinayak Gupta and Srikanta Bedathur(参考訳) ポイント・オブ・関心(POI)レコメンデーションの現在のアプローチは、POI座標やソーシャルネットワークなどの標準的な空間的特徴を通じて、ユーザの好みを学習する。 これらのモデルは、空間移動性の重要な側面を無視している。 さらに、プライバシーの懸念が高まる中、ユーザーは正確な地理的座標とソーシャルメディアの活動を共有することを控える。 本稿では,スマートフォンアプリケーション(あるいはアプリ)上でのユーザ活動を利用してモビリティの選好を識別する,逐次POIレコメンデーションアプローチであるREVAMPを提案する。 この研究は、最近のオンライン都市ユーザーの心理的研究と一致し、その空間移動行動がスマートフォンアプリの活動に大きく影響していることを示している。 さらに、大まかな粒度のスマートフォンデータの提案は、プライバシーに配慮した方法で収集されたデータログ、すなわち、データのみからなる。 (a)スマートフォンアプリのカテゴリ及び (b)チェックイン位置のカテゴリ。 したがって、REVAMPは正確なジオコーディネート、ソーシャルネットワーク、あるいはアクセスされている特定のアプリケーションに対してプライベートではない。 自己注意モデルの有効性に乗じて、ユーザのチェックインシーケンス内のチェックイン間ダイナミクスから抽出した2種類の位置エンコーディング(絶対および相対)を用いて、ユーザのPOI嗜好を学習する。 中国からの2つの大規模なデータセットにわたる大規模な実験は、REVAMPの予測能力と、アプリとPOIカテゴリを予測する能力を示している。

Current approaches for points-of-interest (POI) recommendation learn the preferences of a user via the standard spatial features such as the POI coordinates, the social network, etc. These models ignore a crucial aspect of spatial mobility -- every user carries their smartphones wherever they go. In addition, with growing privacy concerns, users refrain from sharing their exact geographical coordinates and their social media activity. In this paper, we present REVAMP, a sequential POI recommendation approach that utilizes the user activity on smartphone applications (or apps) to identify their mobility preferences. This work aligns with the recent psychological studies of online urban users, which show that their spatial mobility behavior is largely influenced by the activity of their smartphone apps. In addition, our proposal of coarse-grained smartphone data refers to data logs collected in a privacy-conscious manner, i.e., consisting only of (a) category of the smartphone app and (b) category of check-in location. Thus, REVAMP is not privy to precise geo-coordinates, social networks, or the specific application being accessed. Buoyed by the efficacy of self-attention models, we learn the POI preferences of a user using two forms of positional encodings -- absolute and relative -- with each extracted from the inter-check-in dynamics in the check-in sequence of a user. Extensive experiments across two large-scale datasets from China show the predictive prowess of REVAMP and its ability to predict app- and POI categories.
翻訳日:2022-08-31 13:13:51 公開日:2022-08-29
# DR-DSGD:グラフ上の分散ロバストな分散学習アルゴリズム

DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over Graphs ( http://arxiv.org/abs/2208.13810v1 )

ライセンス: Link先を確認
Chaouki Ben Issaid, Anis Elgabli and Mehdi Bennis(参考訳) 本稿では,分散環境での正規分布的ロバストな学習問題を,データ分布シフトを考慮した解くことを提案する。 Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな最小化問題に還元し、効率的に解ける。 新たに定式化された最適化問題を活用することで,分散確率勾配 Descent (DSGD) の頑健なバージョンを提案し,分散ロバスト分散確率勾配 Descent (DR-DSGD) を作成した。 いくつかの微妙な仮定の下で、正規化パラメータが 1 よりも大きいことを仮定し、DR-DSGD が $\mathcal{O}\left(1/\sqrt{KT} + K/T\right)$ の収束率を達成することを理論的に証明する。 シミュレーションの結果,提案アルゴリズムは最低分布検定精度を最大10\%の精度で向上できることがわかった。 さらに、DR-DSGDはDSGDよりも通信効率が良く、同じ最悪の分布テスト精度の目標を達成するのに、通信ラウンド(最大20ドル以下)が少ない。 さらに, dr-dsgdは, テスト精度の面では, デバイス間において, かなり高い性能を示すことが明らかとなった。

In this paper, we propose to solve a regularized distributionally robust learning problem in the decentralized setting, taking into account the data distribution shift. By adding a Kullback-Liebler regularization function to the robust min-max optimization problem, the learning problem can be reduced to a modified robust minimization problem and solved efficiently. Leveraging the newly formulated optimization problem, we propose a robust version of Decentralized Stochastic Gradient Descent (DSGD), coined Distributionally Robust Decentralized Stochastic Gradient Descent (DR-DSGD). Under some mild assumptions and provided that the regularization parameter is larger than one, we theoretically prove that DR-DSGD achieves a convergence rate of $\mathcal{O}\left(1/\sqrt{KT} + K/T\right)$, where $K$ is the number of devices and $T$ is the number of iterations. Simulation results show that our proposed algorithm can improve the worst distribution test accuracy by up to $10\%$. Moreover, DR-DSGD is more communication-efficient than DSGD since it requires fewer communication rounds (up to $20$ times less) to achieve the same worst distribution test accuracy target. Furthermore, the conducted experiments reveal that DR-DSGD results in a fairer performance across devices in terms of test accuracy.
翻訳日:2022-08-31 13:13:26 公開日:2022-08-29
# 深層学習法による"prompt-gamma neutron activation analysis (pgnaa)"金属スペクトル分類

"Prompt-Gamma Neutron Activation Analysis (PGNAA)" Metal Spectral Classification using Deep Learning Method ( http://arxiv.org/abs/2208.13909v1 )

ライセンス: Link先を確認
Ka Yung Cheng, Helmand Shayan, Kai Krycki, Markus Lange-Hegermann(参考訳) Prompt Gamma Neutron Activation Analysis (PGNAA) スペクトル測定装置の試験時間を最小限に抑え、即ち廃棄物サンプルを即時分類し、検出された試料組成に基づいて最適なリサイクル方法を決定できる即時材料分析装置として機能するように、市場需要が高まっている。 本稿では,pgnaaマシンのテスト時間を短縮する深層学習分類とcontriveの新たな開発について紹介する。 ランダムサンプリング法とクラスアクティベーションマップ(cam)の両方を提案し,"ダウンサイズ"なサンプルを生成し,cnnモデルを継続的にトレーニングする。 ランダムサンプリング法 (RSM) はサンプル内の測定時間を短縮することを目的としており、クラス活性化マップ (CAM) はダウンサイズサンプルの少ないエネルギー範囲をフィルタリングするためのものである。 PGNAAの総計測時間を2.5秒に短縮し、12種類の物質を用いてデータセットの精度を96.88 %程度に抑える。 異なる種類の材料を分類するよりも、同じ元素を持つ物質が正確性を保つのにより多くの試験時間(サンプル数率)が必要となる。 例えば、銅合金の分類には、98 %の精度に達するまで24秒近い試験時間が必要となる。

There is a pressing market demand to minimize the test time of Prompt Gamma Neutron Activation Analysis (PGNAA) spectra measurement machine, so that it could function as an instant material analyzer, e.g. to classify waste samples instantaneously and determine the best recycling method based on the detected compositions of the testing sample. This article introduces a new development of the deep learning classification and contrive to reduce the test time for PGNAA machine. We propose both Random Sampling Methods and Class Activation Map (CAM) to generate "downsized" samples and train the CNN model continuously. Random Sampling Methods (RSM) aims to reduce the measuring time within a sample, and Class Activation Map (CAM) is for filtering out the less important energy range of the downsized samples. We shorten the overall PGNAA measuring time down to 2.5 seconds while ensuring the accuracy is around 96.88 % for our dataset with 12 different species of substances. Compared with classifying different species of materials, it requires more test time (sample count rate) for substances having the same elements to archive good accuracy. For example, the classification of copper alloys requires nearly 24 seconds test time to reach 98 % accuracy.
翻訳日:2022-08-31 13:12:57 公開日:2022-08-29
# 腹部マルチオルガンセグメンテーションのための境界認識ネットワーク

Boundary-Aware Network for Abdominal Multi-Organ Segmentation ( http://arxiv.org/abs/2208.13774v1 )

ライセンス: Link先を確認
Shishuai Hu and Zehui Liao and Yong Xia(参考訳) 腹部多臓器分節の自動化は, 腹部臓器疾患のコンピュータ診断において重要な課題である。 多くの深層学習モデルが多くの医用画像分割作業で顕著な成功を収めているが、腹部臓器の大きさやあいまいな境界が多様であることから、腹部臓器の正確な分節化は依然として困難である。 本稿では,腹部臓器をCTとMRIに分割する境界認識ネットワーク(BA-Net)を提案する。 このモデルは共有エンコーダ、境界デコーダ、セグメンテーションデコーダを含む。 マルチスケールの深層監視戦略は両方のデコーダで採用されており、可変臓器サイズに起因する問題を軽減することができる。 各スケールで境界デコーダによって生成される境界確率マップは、セグメンテーション特徴マップを強化するために注意される。 Abdominal Multi-Organ Segmentation (AMOS) Challengeデータセット上でBA-Netを評価し,CTスキャンにおける多臓器切片の平均Diceスコア89.29$\%,MRIスキャンにおける平均Diceスコア71.92$\%を達成した。 その結果,BA-Net は nnUNet より優れていることがわかった。

Automated abdominal multi-organ segmentation is a crucial yet challenging task in the computer-aided diagnosis of abdominal organ-related diseases. Although numerous deep learning models have achieved remarkable success in many medical image segmentation tasks, accurate segmentation of abdominal organs remains challenging, due to the varying sizes of abdominal organs and the ambiguous boundaries among them. In this paper, we propose a boundary-aware network (BA-Net) to segment abdominal organs on CT scans and MRI scans. This model contains a shared encoder, a boundary decoder, and a segmentation decoder. The multi-scale deep supervision strategy is adopted on both decoders, which can alleviate the issues caused by variable organ sizes. The boundary probability maps produced by the boundary decoder at each scale are used as attention to enhance the segmentation feature maps. We evaluated the BA-Net on the Abdominal Multi-Organ Segmentation (AMOS) Challenge dataset and achieved an average Dice score of 89.29$\%$ for multi-organ segmentation on CT scans and an average Dice score of 71.92$\%$ on MRI scans. The results demonstrate that BA-Net is superior to nnUNet on both segmentation tasks.
翻訳日:2022-08-31 13:04:07 公開日:2022-08-29
# 合成潜在指紋発生装置

Synthetic Latent Fingerprint Generator ( http://arxiv.org/abs/2208.13811v1 )

ライセンス: Link先を確認
Andre Brasil Vieira Wyzykowski, Anil K. Jain(参考訳) フル指紋画像(スクロールまたはスラップ)が与えられた場合、私たちはCycleGANモデルを示し、フルプリントと同じアイデンティティの複数の潜在印象を生成する。 nist sd27の潜在性データベースで紹介された良質で悪質な潜在性画像カテゴリを得るために,生成した潜在性印刷画像の歪み,ノイズ,ぼやけ,閉塞の程度を制御できる。 私たちの作品の貢献は2つあります i) NIST NFIQ 2の品質指標とSOTA指紋マーカが取得したROC曲線を用いて評価したNIST SD27およびMSPデータベースにおける、合成生成された潜入指紋画像と犯罪現場潜入者の類似性を示す。 (II)3つの潜伏データベース(NIST SD27,NIST SD302,IIITD-SLF)のローリング指紋マッチング用に設計されたSOTA指紋照合器であるDeepPrintの性能向上のために,公共ドメインにおける小型潜伏訓練データベースの増強に合成潜伏剤を使用した。 例えば、合成潜時データ拡張により、nist sd27潜時データベースにおいて、deepprintのrank-1検索性能が15.50%から29.07%に向上する。 合成潜在指紋を生成する手法は、任意の潜在マッチングとその個々のコンポーネント(例えば、拡張、セグメンテーション、特徴抽出)の認識性能を向上させるために使用できる。

Given a full fingerprint image (rolled or slap), we present CycleGAN models to generate multiple latent impressions of the same identity as the full print. Our models can control the degree of distortion, noise, blurriness and occlusion in the generated latent print images to obtain Good, Bad and Ugly latent image categories as introduced in the NIST SD27 latent database. The contributions of our work are twofold: (i) demonstrate the similarity of synthetically generated latent fingerprint images to crime scene latents in NIST SD27 and MSP databases as evaluated by the NIST NFIQ 2 quality measure and ROC curves obtained by a SOTA fingerprint matcher, and (ii) use of synthetic latents to augment small-size latent training databases in the public domain to improve the performance of DeepPrint, a SOTA fingerprint matcher designed for rolled to rolled fingerprint matching on three latent databases (NIST SD27, NIST SD302, and IIITD-SLF). As an example, with synthetic latent data augmentation, the Rank-1 retrieval performance of DeepPrint is improved from 15.50% to 29.07% on challenging NIST SD27 latent database. Our approach for generating synthetic latent fingerprints can be used to improve the recognition performance of any latent matcher and its individual components (e.g., enhancement, segmentation and feature extraction).
翻訳日:2022-08-31 13:03:47 公開日:2022-08-29
# MIDOG 2022チャレンジのための放射予測領域適応分類器

Radial Prediction Domain Adaption Classifier for the MIDOG 2022 challenge ( http://arxiv.org/abs/2208.13902v1 )

ライセンス: Link先を確認
Jonas Annuscheit(参考訳) 本稿では,midog 2022チャレンジへの追加データを用いずに貢献について述べる。 分裂細胞検出のための異なる組織間の分布シフトに対処するための課題 主な特徴部分は3つの部分に分けられる: ドメイン適応分類器(RP-DAC)に層を統合するために放射予測層(RPL)を変更する。 この派生型は各クラスのプロトタイプを学習し、関連するクラスをより近づける。 私たちはこれを使ってスキャナー、組織、そしてケースIDを学習しました。 画像の異なる入力変種で複数の訓練されたYOLOモデルを用いた。 モデルの出力とアンサンブル戦略を組み合わせる。 データ拡張にHED色空間を使用し、各スキャナー/タスクタイプ毎に異なる等級を計算し、トレーニングセットにより多くのばらつきを生じさせる。

In this paper, we describe our contribution to the MIDOG 2022 challenge without using additional data. A challenge to handle the distribution shift between different tissues for detection of mitosis cells. The main characteristics parts can be distinguished into three parts: We modify the Radial Prediction Layer (RPL) to integrate the layer in a domain adaption classifier, the Prediction Domain Adaption Classifier (RP-DAC). This developed variant learns prototypes for each class and brings more related classes closer. We used this to learn the scanner, the tissue, and the case id. We used multiple trained YOLO models with different modified input variants of the image. We combine the outputs of the model with an ensembling strategy. We use the HED color space for data augmentation by calculating different magnitudes for each scanner/tissue type to create more variance in the training set.
翻訳日:2022-08-31 13:03:19 公開日:2022-08-29
# ノイズイリアーは大きなアウトリアーを生み出す:ノイズ合成アウトリアーを用いた分散オブジェクト検出

Noisy Inliers Make Great Outliers: Out-of-Distribution Object Detection with Noisy Synthetic Outliers ( http://arxiv.org/abs/2208.13930v1 )

ライセンス: Link先を確認
Samuel Wilson, Tobias Fischer, Feras Dayoub and Niko S\"underhauf(参考訳) オフ・オブ・ディストリビューション(OOD)検出における多くのハイパフォーマンスな作業は、モデル信頼性を正規化するために、実際のまたは合成された外れ値データを使用する。 我々の研究は、OODオブジェクト検出の困難な分野において、ノイズインリエがグレート・アウトリアス(NIMGO)を作ることを示す。 我々は、識別器にoodサンプルを識別するよう訓練するために、合成異常値が最小に摂動する(in-distribution (id) データの変種のみである必要があると仮定した。 この仮説をテストするために,画像やバウンディングボックスレベルのidサンプルに付加雑音摂動を適用することで,合成アウトリアーセットを生成する。 次に、副機能監視多層パーセプトロン(MLP)を訓練し、摂動IDサンプルをプロキシとしてOOD特徴表現を検出する。 テスト中、補助mlpは、最先端のoodサンプルからidサンプルを区別し、openimagesデータセットの以前のstate-of-the-artよりも偽陽性率を20\%(絶対値)以上減少させる。 我々の仮説を支持するための実証的な証拠を提供する。

Many high-performing works on out-of-distribution (OOD) detection use real or synthetically generated outlier data to regularise model confidence; however, they often require retraining of the base network or specialised model architectures. Our work demonstrates that Noisy Inliers Make Great Outliers (NIMGO) in the challenging field of OOD object detection. We hypothesise that synthetic outliers need only be minimally perturbed variants of the in-distribution (ID) data in order to train a discriminator to identify OOD samples -- without expensive retraining of the base network. To test our hypothesis, we generate a synthetic outlier set by applying an additive-noise perturbation to ID samples at the image or bounding-box level. An auxiliary feature monitoring multilayer perceptron (MLP) is then trained to detect OOD feature representations using the perturbed ID samples as a proxy. During testing, we demonstrate that the auxiliary MLP distinguishes ID samples from OOD samples at a state-of-the-art level, reducing the false positive rate by more than 20\% (absolute) over the previous state-of-the-art on the OpenImages dataset. Extensive additional ablations provide empirical evidence in support of our hypothesis.
翻訳日:2022-08-31 13:03:07 公開日:2022-08-29
# 双線形力学系の有限サンプル同定

Finite Sample Identification of Bilinear Dynamical Systems ( http://arxiv.org/abs/2208.13915v1 )

ライセンス: Link先を確認
Yahya Sattar and Samet Oymak and Necmiye Ozay(参考訳) 双線型力学系は多くの異なる領域においてユビキタスであり、より一般的な制御-アフィン系を近似するためにも使用できる。 これにより、システムの状態と入力の単一の軌道から双線型システムを学習する問題を引き起こす。 弱辺平均二乗安定性の仮定の下では、未知の双線型系を高い確率で所望の精度まで推定するのにどれだけのデータが必要かを特定する。 我々のサンプルの複雑さと統計誤差率は、軌道長、システムの寸法、入力サイズの点で最適である。 本手法はマルティンゲール小球条件の適用に依拠する。 これにより、問題の性質を正確に把握することができ、特に不安定化に伴ってエラー率が低下しない。 最後に, 数値実験は理論結果とよく一致していることを示す。

Bilinear dynamical systems are ubiquitous in many different domains and they can also be used to approximate more general control-affine systems. This motivates the problem of learning bilinear systems from a single trajectory of the system's states and inputs. Under a mild marginal mean-square stability assumption, we identify how much data is needed to estimate the unknown bilinear system up to a desired accuracy with high probability. Our sample complexity and statistical error rates are optimal in terms of the trajectory length, the dimensionality of the system and the input size. Our proof technique relies on an application of martingale small-ball condition. This enables us to correctly capture the properties of the problem, specifically our error rates do not deteriorate with increasing instability. Finally, we show that numerical experiments are well-aligned with our theoretical results.
翻訳日:2022-08-31 12:57:43 公開日:2022-08-29
# テキストから数学的概念を抽出する

Extracting Mathematical Concepts from Text ( http://arxiv.org/abs/2208.13830v1 )

ライセンス: Link先を確認
Jacob Collard and Valeria de Paiva and Brendan Fong and Eswaran Subrahmanian(参考訳) 数学知識グラフ構築のための第1ステップとして,カテゴリ理論の数学的分野における英語テキストから数学的実体を抽出するシステムについて検討する。 4つの用語抽出器について検討し,その結果を比較した。 この小さな実験は、ノイズの多いドメインテキストから抽出された用語の構成と評価に関するいくつかの問題を示す。 また,研究数学,特にカテゴリ理論において,学術誌 tac (3188文) の755の抽象の小さなコーパスと,nlab community wiki (15,000文) のより大きなコーパスの2つのオープンコーパスを利用可能にする。

We investigate different systems for extracting mathematical entities from English texts in the mathematical field of category theory as a first step for constructing a mathematical knowledge graph. We consider four different term extractors and compare their results. This small experiment showcases some of the issues with the construction and evaluation of terms extracted from noisy domain text. We also make available two open corpora in research mathematics, in particular in category theory: a small corpus of 755 abstracts from the journal TAC (3188 sentences), and a larger corpus from the nLab community wiki (15,000 sentences).
翻訳日:2022-08-31 12:57:30 公開日:2022-08-29
# 自己記述性指向時のz世代内ラベル使用の変遷

Evolving Label Usage within Generation Z when Self-Describing Sexual Orientation ( http://arxiv.org/abs/2208.13833v1 )

ライセンス: Link先を確認
Wilson Y. Lee and J. Nicholas Hobbs(参考訳) 成長するコーパスにおける用語の重要性の変化を評価することは、語彙使用の変化を理解する強力なツールである。 本稿では,米国13歳から24歳のLGBTQ生成者33,993名を対象に,性的指向の自己記述を依頼する自由応答型回答コーパスを分析した。 我々は、バイセクシャル、パンセクシャル、レズビアンといった特定のラベルが年齢層間で等しく重要であることを観察する。 同性愛、異性愛、多性愛といった他のラベルの重要性は年齢層にまたがって進化する。 世代Zは、しばしば同種としてステレオタイプ化されるが、自己記述性指向において顕著に異なるラベルの使用が観察される。 我々は、最も重要な性的指向ラベルを対象の聴衆に定期的に調査し、LGBTQコミュニティを常に発展させ、包括的環境を構築するために、彼らの資料(人口調査など)をリフレッシュしなければなりません。

Evaluating change in ranked term importance in a growing corpus is a powerful tool for understanding changes in vocabulary usage. In this paper, we analyze a corpus of free-response answers where 33,993 LGBTQ Generation Z respondents from age 13 to 24 in the United States are asked to self-describe their sexual orientation. We observe that certain labels, such as bisexual, pansexual, and lesbian, remain equally important across age groups. The importance of other labels, such as homosexual, demisexual, and omnisexual, evolve across age groups. Although Generation Z is often stereotyped as homogenous, we observe noticeably different label usage when self-describing sexual orientation within it. We urge that interested parties must routinely survey the most important sexual orientation labels to their target audience and refresh their materials (such as demographic surveys) to reflect the constantly evolving LGBTQ community and create an inclusive environment.
翻訳日:2022-08-31 12:57:19 公開日:2022-08-29
# 幾何行列推論タスクにおける視覚画像に基づくアナロジー構成

Visual-Imagery-Based Analogical Construction in Geometric Matrix Reasoning Task ( http://arxiv.org/abs/2208.13841v1 )

ライセンス: Link先を確認
Yuan Yang, Keith McGreggor, Maithilee Kunda(参考訳) Raven's Progressive Matricesは、研究と臨床の両方で広く使われている古典的な知能検査のファミリーである。 aiコミュニティでは、このような類推的な問題解決の様々な側面を計算的にモデル化するエキサイティングな取り組みが数多く行われている。 本稿では,類似や画像変換を用いて,Ravenのプログレッシブ行列を解くための一連の計算モデルを提案する。 私たちは通常、人間のテスターが採用する3つの戦略に従ってモデルを運用します。 これらのモデルは、ravenのプログレッシブ行列の標準版でテストされ、そこでは60のうち57の問題を解くことができる。 したがって、アナログや画像変換はRPM問題の解決に有効であることが証明された。

Raven's Progressive Matrices is a family of classical intelligence tests that have been widely used in both research and clinical settings. There have been many exciting efforts in AI communities to computationally model various aspects of problem solving such figural analogical reasoning problems. In this paper, we present a series of computational models for solving Raven's Progressive Matrices using analogies and image transformations. We run our models following three different strategies usually adopted by human testees. These models are tested on the standard version of Raven's Progressive Matrices, in which we can solve 57 out 60 problems in it. Therefore, analogy and image transformation are proved to be effective in solving RPM problems.
翻訳日:2022-08-31 12:54:54 公開日:2022-08-29
# 認定分類に対する認定回帰の低減

Reducing Certified Regression to Certified Classification ( http://arxiv.org/abs/2208.13904v1 )

ライセンス: Link先を確認
Zayd Hammoudeh, Daniel Lowd(参考訳) 敵対的なトレーニングインスタンスは、モデルの振る舞いを著しく歪めます。 本研究は,レグレッサーの予測がトレーニングセット攻撃によってどの程度変化するかという制限を保証した,回帰防御の認定について検討する。 私たちの重要な洞察は、モデルの主要な決定関数として中央値を使用する場合、認定回帰は認定分類に還元されるということです。 既存の認証分類器との結合により,6つの新しいロバストレグレプタを提案する。 我々の知る限りでは、これはデータ分散とモデルアーキテクチャに関する仮定なしで個々の回帰予測の堅牢性を証明する最初の研究である。 また,既存の認定分類器では,証明可能な保証を低下させるような悲観的な仮定をすることがしばしばあることを示す。 モデルロバスト性に関するより強固な分析を導入することで、多くの場合、認定保証が大幅に改善される。 最後に、回帰データと分類データの両方に対する我々のアプローチの有効性を実証的に実証し、最大50%のテスト予測の精度を1%のトレーニングセットの破損下で保証し、最大30%の予測を4%の腐敗下で保証する。 ソースコードはhttps://github.com/zaydh/certified-regressionで入手できます。

Adversarial training instances can severely distort a model's behavior. This work investigates certified regression defenses, which provide guaranteed limits on how much a regressor's prediction may change under a training-set attack. Our key insight is that certified regression reduces to certified classification when using median as a model's primary decision function. Coupling our reduction with existing certified classifiers, we propose six new provably-robust regressors. To the extent of our knowledge, this is the first work that certifies the robustness of individual regression predictions without any assumptions about the data distribution and model architecture. We also show that existing state-of-the-art certified classifiers often make overly-pessimistic assumptions that can degrade their provable guarantees. We introduce a tighter analysis of model robustness, which in many cases results in significantly improved certified guarantees. Lastly, we empirically demonstrate our approaches' effectiveness on both regression and classification data, where the accuracy of up to 50% of test predictions can be guaranteed under 1% training-set corruption and up to 30% of predictions under 4% corruption. Our source code is available at https://github.com/ZaydH/certified-regression.
翻訳日:2022-08-31 12:52:34 公開日:2022-08-29
# sb-ssl : mriによる膝の異常分類のためのスライス型自己教師付きトランスフォーマー

SB-SSL: Slice-Based Self-Supervised Transformers for Knee Abnormality Classification from MRI ( http://arxiv.org/abs/2208.13923v1 )

ライセンス: Link先を確認
Sara Atito, Syed Muhammad Anwar, Muhammad Awais, Josef Kitler(参考訳) 高品質な根拠ラベルを備えた大規模データの提供は、医療分野向けの教師付き機械学習ソリューションを開発する上での課題である。 臨床ワークフローにおけるデジタルデータの量は増加しているが、このデータのほとんどは臨床サイトで配布され、患者のプライバシーを確保するために保護されている。 放射線学的読影と大規模な臨床データを扱うことは、利用可能なリソースに大きな負担を与え、ここでは機械学習と人工知能が重要な役割を果たす。 筋骨格(MSK)診断のためのMRI(Magnetic Resonance Imaging)は、スキャンが豊富な情報を持っているが、読み書きにかなりの時間を要する例である。 自己教師付き学習(SSL)は、地上の真理ラベルの可用性の欠如に対処するためのソリューションであるが、一般的には事前訓練期間中に大量のトレーニングデータを必要とする。 本稿では,slice-based self-supervised deep learning framework (sb-ssl)を提案する。 以上の結果から,前十字靭帯断裂を89.17%,AUC 0.954 の限られた症例 (1000例) において, 前十字靭帯断裂の同定が可能であることが示唆された。 これは,提案したフレームワークが限られたデータ構造におけるSSLに適していることを示す。

The availability of large scale data with high quality ground truth labels is a challenge when developing supervised machine learning solutions for healthcare domain. Although, the amount of digital data in clinical workflows is increasing, most of this data is distributed on clinical sites and protected to ensure patient privacy. Radiological readings and dealing with large-scale clinical data puts a significant burden on the available resources, and this is where machine learning and artificial intelligence play a pivotal role. Magnetic Resonance Imaging (MRI) for musculoskeletal (MSK) diagnosis is one example where the scans have a wealth of information, but require a significant amount of time for reading and labeling. Self-supervised learning (SSL) can be a solution for handling the lack of availability of ground truth labels, but generally requires a large amount of training data during the pretraining stage. Herein, we propose a slice-based self-supervised deep learning framework (SB-SSL), a novel slice-based paradigm for classifying abnormality using knee MRI scans. We show that for a limited number of cases (<1000), our proposed framework is capable to identify anterior cruciate ligament tear with an accuracy of 89.17% and an AUC of 0.954, outperforming state-of-the-art without usage of external data during pretraining. This demonstrates that our proposed framework is suited for SSL in the limited data regime.
翻訳日:2022-08-31 12:50:55 公開日:2022-08-29
# 次元独立データセットの近似と分類への応用

Dimension Independent Data Sets Approximation and Applications to Classification ( http://arxiv.org/abs/2208.13781v1 )

ライセンス: Link先を確認
Patrick Guidotti(参考訳) 我々は,従来のカーネルの近似・補間理論を,データセットの引数でのみ連続な関数の(超)レベル集合によって離散データセットを近似する頑健な手順を得るという欲求に動機づけられた,非常に具体的な文脈で再検討する。 データ信号と呼ばれる特殊関数は、任意のデータセットに対して定義され、データセットに依存するロバストな方法で教師付き分類問題を簡潔に解決するために使用される。 この手法の有効性は、一連の低次元の例で示され、MNIST桁分類の標準の高次元問題に応用されている。

We revisit the classical kernel method of approximation/interpolation theory in a very specific context motivated by the desire to obtain a robust procedure to approximate discrete data sets by (super)level sets of functions that are merely continuous at the data set arguments but are otherwise smooth. Special functions, called data signals, are defined for any given data set and are used to succesfully solve supervised classification problems in a robust way that depends continuously on the data set. The efficacy of the method is illustrated with a series of low dimensional examples and by its application to the standard benchmark high dimensional problem of MNIST digit classification.
翻訳日:2022-08-31 12:46:07 公開日:2022-08-29
# ハードウェアセキュリティのための強化学習: 機会,開発,課題

Reinforcement Learning for Hardware Security: Opportunities, Developments, and Challenges ( http://arxiv.org/abs/2208.13885v1 )

ライセンス: Link先を確認
Satwik Patnaik, Vasudev Gohil, Hao Guo, Jeyavijayan (JV) Rajendran(参考訳) 強化学習(regression learning, rl)は、自律エージェントが基盤となる環境と相互作用することで、最適な決定列を作るように学習する機械学習パラダイムである。 電子設計自動化問題を解き放つRL誘導ワークフローによって実証されたこの約束は、ハードウェアセキュリティ研究者がドメイン固有の問題を解決するために自律的なRLエージェントを利用するように促した。 ハードウェアセキュリティの観点からは、そのような自律エージェントは未知の敵の環境で最適なアクションを生成できるため、魅力がある。 一方、集積回路サプライチェーンのグローバル化が続き、チップ製造はオフショアで信頼できない存在へと追いやられ、ハードウェアのセキュリティに対する懸念が高まっている。 さらに、未知の敵環境と設計の複雑さの増大により、ディフェンダーは攻撃者による微妙な修正(ハードウェアトロイの木馬)を検出することが困難になる。 本稿では,ハードウェアセキュリティの最も困難な問題の一つであるトロイの木馬検出におけるRLエージェントの開発について概説する。 さらに、ハードウェアセキュリティ問題を解決するためにRLを適用する際の課題についても概説する。

Reinforcement learning (RL) is a machine learning paradigm where an autonomous agent learns to make an optimal sequence of decisions by interacting with the underlying environment. The promise demonstrated by RL-guided workflows in unraveling electronic design automation problems has encouraged hardware security researchers to utilize autonomous RL agents in solving domain-specific problems. From the perspective of hardware security, such autonomous agents are appealing as they can generate optimal actions in an unknown adversarial environment. On the other hand, the continued globalization of the integrated circuit supply chain has forced chip fabrication to off-shore, untrustworthy entities, leading to increased concerns about the security of the hardware. Furthermore, the unknown adversarial environment and increasing design complexity make it challenging for defenders to detect subtle modifications made by attackers (a.k.a. hardware Trojans). In this brief, we outline the development of RL agents in detecting hardware Trojans, one of the most challenging hardware security problems. Additionally, we outline potential opportunities and enlist the challenges of applying RL to solve hardware security problems.
翻訳日:2022-08-31 12:45:54 公開日:2022-08-29
# 学習k-NN距離推定

Learned k-NN Distance Estimation ( http://arxiv.org/abs/2208.14210v1 )

ライセンス: Link先を確認
Daichi Amagata, Yusuke Arai, Sumio Fujita, Takahiro Hara(参考訳) ビッグデータマイニングは、大量のデータセットに隠された有用な観察と新しい知識を提供するため、データサイエンスにとって重要なタスクとしてよく知られている。 確率に基づくデータ分析は多くの実生活アプリケーションで特に利用されている。 このような分析では、k に近い近傍への距離は通常用いられるため、その主なボトルネックはデータ検索によるものである。 これらの分析の効率を改善するために多くの努力がなされている。 しかし、基本的に多くのデータアクセスを必要とするため、大きなコストがかかる。 この問題を回避するために,与えられたクエリのk-nn距離(すなわち,k-nn距離)を迅速かつ正確に推定する機械学習手法を提案する。 我々は,完全連結ニューラルネットワークモデルを訓練し,ピボットを用いて正確な推定を行う。 我々のモデルは,k-NNとの距離を一度に推定し,その推定時間はO(1)(データアクセスは発生しない)であるが,精度は高い。 実際のデータセットに関する実験結果とケーススタディは,ソリューションの有効性と有効性を示している。

Big data mining is well known to be an important task for data science, because it can provide useful observations and new knowledge hidden in given large datasets. Proximity-based data analysis is particularly utilized in many real-life applications. In such analysis, the distances to k nearest neighbors are usually employed, thus its main bottleneck is derived from data retrieval. Much efforts have been made to improve the efficiency of these analyses. However, they still incur large costs, because they essentially need many data accesses. To avoid this issue, we propose a machine-learning technique that quickly and accurately estimates the k-NN distances (i.e., distances to the k nearest neighbors) of a given query. We train a fully connected neural network model and utilize pivots to achieve accurate estimation. Our model is designed to have useful advantages: it infers distances to the k-NNs at a time, its inference time is O(1) (no data accesses are incurred), but it keeps high accuracy. Our experimental results and case studies on real datasets demonstrate the efficiency and effectiveness of our solution.
翻訳日:2022-08-31 12:43:38 公開日:2022-08-29
# 局所光胸腺造影(rPPG)による灌流評価

Perfusion assessment via local remote photoplethysmography (rPPG) ( http://arxiv.org/abs/2208.13840v1 )

ライセンス: Link先を確認
Benjamin Kossack, Eric Wisotzky, Peter Eisert, Sebastian P. Schraven, Brigitta Globke and Anna Hilsmann(参考訳) 本稿では,rgbビデオファイルからの可視性ヒト組織の灌流を評価する手法を提案する。 組織に血液が適切に供給されているかどうかを検出するために,遠隔胸腔造影(rPPG)信号から得られた指標を提案する。 灌流解析は3つの異なるスケールで行われ、異なるアプリケーションに対して柔軟なアプローチを提供する。 各スケールで局所的に定義された領域に対して, 独立に平面-オルトゴナル-トキンrppgを行う。 抽出した信号から, 周波数領域の大きさ, 心拍数, 灌流指数, および特定のrPPG信号間の相関を導出し, 局所的にヒト組織の特定の領域の灌流を評価する。 我々は,局所分解rppgの応用範囲が広いことを示す。 実例として,皮膚および臓器移植時の術中灌流解析と可視化,および認証システムへの提示攻撃検出のためのライブライン評価の応用について述べる。

This paper presents an approach to assess the perfusion of visible human tissue from RGB video files. We propose metrics derived from remote photoplethysmography (rPPG) signals to detect whether a tissue is adequately supplied with blood. The perfusion analysis is done in three different scales, offering a flexible approach for different applications. We perform a plane-orthogonal-to-skin rPPG independently for locally defined regions of interest on each scale. From the extracted signals, we derive the signal-to-noise ratio, magnitude in the frequency domain, heart rate, perfusion index as well as correlation between specific rPPG signals in order to locally assess the perfusion of a specific region of human tissue. We show that locally resolved rPPG has a broad range of applications. As exemplary applications, we present results in intraoperative perfusion analysis and visualization during skin and organ transplantation as well as an application for liveliness assessment for the detection of presentation attacks to authentication systems.
翻訳日:2022-08-31 12:39:48 公開日:2022-08-29
# コード生成のためのパーソナライズドモデル探索と評価

Exploring and Evaluating Personalized Models for Code Generation ( http://arxiv.org/abs/2208.13928v1 )

ライセンス: Link先を確認
Andrei Zlotchevski, Dawn Drain, Alexey Svyatkovskiy, Colin Clement, Neel Sundaresan, Michele Tufano(参考訳) 大規模トランスフォーマーモデルは、自然言語理解タスクの最先端ステータスを達成し、ソースコードをモデリングするためのベースラインモデルアーキテクチャになりつつある。 トランスフォーマーは通常、大きな教師なしコーパスで事前訓練され、一般的なテキストのモデリングに関連するトークン表現と変換を学習し、特定の下流タスクで微調整される。 微調整は、モデルを新しいドメインに適応させるための試行錯誤の方法である — 例えば、あるトピックに対する質問応答 – が、現在進行中の課題である。 本稿では,パーソナライゼーションのためのトランスフォーマーモデルの微調整について検討・評価する。 Javaメソッドの単体テストを生成するコンテキストにおいて、いくつかのパーソナライズ手法を用いて、特定のソフトウェアプロジェクトにパーソナライズする学習を評価する。 3つの重要なアプローチを考えます (i) すべてのモデルパラメータをチューニングできるカスタム微調整。 (ii)軽量な微調整により、モデルのパラメータの大部分を凍結し、トークンの埋め込みとソフトマックス層のみまたは最終層のみをチューニングできる。 (iii)プレフィックスチューニングはモデルパラメータを凍結し続けるが、小さなプロジェクト固有のプレフィックスベクトルを最適化する。 これらのテクニックはそれぞれ、計算コストと予測パフォーマンスのトレードオフを提供し、コードとタスク固有のメトリクス、トレーニング時間、計算処理の総数で評価します。 コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。

Large Transformer models achieved the state-of-the-art status for Natural Language Understanding tasks and are increasingly becoming the baseline model architecture for modeling source code. Transformers are usually pre-trained on large unsupervised corpora, learning token representations and transformations relevant to modeling generally available text, and are then fine-tuned on a particular downstream task of interest. While fine-tuning is a tried-and-true method for adapting a model to a new domain -- for example, question-answering on a given topic -- generalization remains an on-going challenge. In this paper, we explore and evaluate transformer model fine-tuning for personalization. In the context of generating unit tests for Java methods, we evaluate learning to personalize to a specific software project using several personalization techniques. We consider three key approaches: (i) custom fine-tuning, which allows all the model parameters to be tuned; (ii) lightweight fine-tuning, which freezes most of the model's parameters, allowing tuning of the token embeddings and softmax layer only or the final layer alone; (iii) prefix tuning, which keeps model parameters frozen, but optimizes a small project-specific prefix vector. Each of these techniques offers a trade-off in total compute cost and predictive performance, which we evaluate by code and task-specific metrics, training time, and total computational operations. We compare these fine-tuning strategies for code generation and discuss the potential generalization and cost benefits of each in various deployment scenarios.
翻訳日:2022-08-31 12:37:17 公開日:2022-08-29
# ローゼンブラットの最初の定理と深層学習の虚偽性

Rosenblatt's first theorem and frugality of deep learning ( http://arxiv.org/abs/2208.13778v1 )

ライセンス: Link先を確認
A. N. Kirdin, S. V. Sidorov, N. Y. Zolotykh(参考訳) 最初のローゼンブラットの浅層ネットワークの全能性に関する定理は、初等パーセプトロンがトレーニングセットにばらつきがなければどんな分類問題も解決できると述べている。 ミンスキーとパパートは、神経入力に制限のある初等的パーセプトロン、すなわち、隠れた層における各ニューロンの結合の有界数や受容野の相対的小径を検討した。 彼らはこれらの制約の下では、入力画像の接続やピクセルのパリティといったいくつかの問題を解決することはできないことを示した。 本稿では,最初のローゼンブラットの定理を実演し,初等パーセプトロンが旅行迷路の問題をいかに解くかを示し,その解の複雑さを分析した。 また,同じ問題に対してディープネットワークアルゴリズムを構築した。 それはずっと効率的です。 浅層ネットワークは隠れた層上に指数関数的に多数のニューロン(rosenblattの$a$-elements)を使用するが、深層ネットワークでは2次多項式の複雑性が十分である。 同じ複雑な問題に対して、ディープネットワークははるかに小さくなり、この効果の背後にあるヒューリスティックが明らかになることを実証した。

First Rosenblatt's theorem about omnipotence of shallow networks states that elementary perceptrons can solve any classification problem if there are no discrepancies in the training set. Minsky and Papert considered elementary perceptrons with restrictions on the neural inputs: a bounded number of connections or a relatively small diameter of the receptive field for each neuron at the hidden layer. They proved that under these constraints, an elementary perceptron cannot solve some problems, such as the connectivity of input images or the parity of pixels in them. In this note, we demonstrated first Rosenblatt's theorem at work, showed how an elementary perceptron can solve a version of the travel maze problem, and analysed the complexity of that solution. We constructed also a deep network algorithm for the same problem. It is much more efficient. The shallow network uses an exponentially large number of neurons on the hidden layer (Rosenblatt's $A$-elements), whereas for the deep network the second order polynomial complexity is sufficient. We demonstrated that for the same complex problem deep network can be much smaller and reveal a heuristic behind this effect.
翻訳日:2022-08-31 12:32:58 公開日:2022-08-29
# 自己逆: ニューラルネットワークの不確実性認識の反転

Autoinverse: Uncertainty Aware Inversion of Neural Networks ( http://arxiv.org/abs/2208.13780v1 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Nima Vahidi Ferdowsi, Vahid Babaei(参考訳) ニューラルネットワークは多くのフォワードプロセスの強力なサロゲートである。 このようなサロゲートの反転は、科学や工学において極めて有用である。 成功したニューラル・インバース・メソッドの最も重要な特性は、現実世界、すなわち(学習したサーロゲートだけでなく)ネイティブなフォワードプロセスにデプロイされた時のソリューションのパフォーマンスである。 我々は、ニューラルネットワークサロゲートを反転させる高度に自動化されたアプローチであるAutoinverseを提案する。 我々の主な洞察は、フォワードプロセスでサンプリングされ、サロゲートモデルのトレーニングに使用される信頼できるデータ近傍での逆解を求めることである。 オートインバースは、サロゲートの予測的不確実性を考慮し、反転中を最小化することでそのような解を見つける。 精度は別として、Autoinverseはソリューションの実現性を強制し、組み込みの正規化を持ち、初期化は無料である。 提案手法は, 制御, 製造, 設計における実世界の問題に対処し, 検証を行う。

Neural networks are powerful surrogates for numerous forward processes. The inversion of such surrogates is extremely valuable in science and engineering. The most important property of a successful neural inverse method is the performance of its solutions when deployed in the real world, i.e., on the native forward process (and not only the learned surrogate). We propose Autoinverse, a highly automated approach for inverting neural network surrogates. Our main insight is to seek inverse solutions in the vicinity of reliable data which have been sampled form the forward process and used for training the surrogate model. Autoinverse finds such solutions by taking into account the predictive uncertainty of the surrogate and minimizing it during the inversion. Apart from high accuracy, Autoinverse enforces the feasibility of solutions, comes with embedded regularization, and is initialization free. We verify our proposed method through addressing a set of real-world problems in control, fabrication, and design.
翻訳日:2022-08-31 12:32:37 公開日:2022-08-29
# 共役自然選択

Conjugate Natural Selection ( http://arxiv.org/abs/2208.13898v1 )

ライセンス: Link先を確認
Reilly Raab, Luca de Alfaro, Yang Liu(参考訳) 機械学習ポリシーのパラメータに関して、自然勾配降下は自然選択による進化と整合した共役的動的記述を認めることを証明している。 これらの共役ダイナミクスを連続時間レプリケータダイナミクスに局所的最適適合であると特徴付け、プライス方程式がポリシーのアーキテクチャとパラメータによって生成されるヒルベルト空間に属する関数の同値類に適用できることを示した。 共役自然選択」は,自然勾配降下の実証的効果を直感的に説明し,機械学習のダイナミクスに対する有用な分析手法を考案する。

We prove that natural gradient descent, with respect to the parameters of a machine learning policy, admits a conjugate dynamical description consistent with evolution by natural selection. We characterize these conjugate dynamics as a locally optimal fit to the continuous-time replicator dynamics, and show that the Price equation applies to equivalence classes of functions belonging to a Hilbert space generated by the policy's architecture and parameters. We posit that "conjugate natural selection" intuitively explains the empirical effectiveness of natural gradient descent, while developing a useful analytic approach to the dynamics of machine learning.
翻訳日:2022-08-31 12:27:51 公開日:2022-08-29
# 非線形幾何による単語埋め込みのデバイアス

Debiasing Word Embeddings with Nonlinear Geometry ( http://arxiv.org/abs/2208.13899v1 )

ライセンス: Link先を確認
Lu Cheng, Nayoung Kim, Huan Liu(参考訳) 単語の埋め込みのバイアスは、主に個人と独立した社会カテゴリーに限られている。 しかし、現実世界のコーパスは通常、相互に関連づけられたり交差する可能性のある複数の社会的カテゴリを示す。 例えば、「ヘアウィーブ」はアフリカ系アメリカ人女性とステレオタイプで関連があるが、アフリカ系アメリカ人でも女性でもない。 そこで本研究は, 異なるカテゴリーの結合によって引き起こされる共役バイアスと, 構成カテゴリーのバイアスと重複しない交叉バイアスという, 複数の社会圏に関連するバイアスについて研究する。 まず、個々のバイアスが非自明に交わる(つまり、1次元の部分空間上)ことを経験的に観察する。 社会科学における交叉理論と言語理論から、個々のバイアスの非線形幾何学を用いて、複数の社会圏のデビアスへの交叉部分空間を構築する。 経験的評価は我々のアプローチの有効性を裏付ける。 データと実装コードはhttps://github.com/GitHubLuCheng/Implementation-of-JoSEC-COING-22でダウンロードできる。

Debiasing word embeddings has been largely limited to individual and independent social categories. However, real-world corpora typically present multiple social categories that possibly correlate or intersect with each other. For instance, "hair weaves" is stereotypically associated with African American females, but neither African American nor females alone. Therefore, this work studies biases associated with multiple social categories: joint biases induced by the union of different categories and intersectional biases that do not overlap with the biases of the constituent categories. We first empirically observe that individual biases intersect non-trivially (i.e., over a one-dimensional subspace). Drawing from the intersectional theory in social science and the linguistic theory, we then construct an intersectional subspace to debias for multiple social categories using the nonlinear geometry of individual biases. Empirical evaluations corroborate the efficacy of our approach. Data and implementation code can be downloaded at https://github.com/GitHubLuCheng/Implementation-of-JoSEC-COLING-22.
翻訳日:2022-08-31 12:25:53 公開日:2022-08-29
# 部分可観測待ち行列ネットワークにおける分散コーディネーション

Decentralized Coordination in Partially Observable Queueing Networks ( http://arxiv.org/abs/2208.13621v1 )

ライセンス: Link先を確認
Jiekai Jia, Anam Tahir, Heinz Koeppl(参考訳) 我々は,エージェントが環境を部分的に観察し,全体の報酬を最大化するために協調して行動する必要がある,完全協調型マルチエージェントシステムにおけるコミュニケーションを考える。 エージェントが現在のキュー長の部分情報のみに基づいてパケットをキューにルーティングする、離散時間キューネットワークがある。 キューはバッファ容量が限られているので、完全なキューに送信されるとパケットのドロップが発生する。 本研究では,パケットドロップ率を低減するために,エージェントが情報を共有するための通信チャネルを実装した。 効率的な情報共有には、他のエージェントからの通知メッセージを選択するために、ATVCと呼ばれる注意ベースのコミュニケーションモデルを使用します。 次にエージェントは、可変オートエンコーダ、VAE、およびProduct-of-experts、PoE、モデルを組み合わせてキューの状態を予測する。 究極的には、エージェントは全員と常にコミュニケーションする代わりに、何と誰と通信する必要があるかを学ぶ。 また、ATVCがキューの真の状態を推測し、既存のベースラインを上回るポリシーを導出できることを実証的に示す。

We consider communication in a fully cooperative multi-agent system, where the agents have partial observation of the environment and must act jointly to maximize the overall reward. We have a discrete-time queueing network where agents route packets to queues based only on the partial information of the current queue lengths. The queues have limited buffer capacity, so packet drops happen when they are sent to a full queue. In this work, we implemented a communication channel for the agents to share their information in order to reduce the packet drop rate. For efficient information sharing we use an attention-based communication model, called ATVC, to select informative messages from other agents. The agents then infer the state of queues using a combination of the variational auto-encoder, VAE, and product-of-experts, PoE, model. Ultimately, the agents learn what they need to communicate and with whom, instead of communicating all the time with everyone. We also show empirically that ATVC is able to infer the true state of the queues and leads to a policy which outperforms existing baselines.
翻訳日:2022-08-30 14:53:46 公開日:2022-08-29
# 広告主のオンライン入札アルゴリズム

Online Bidding Algorithms for Return-on-Spend Constrained Advertisers ( http://arxiv.org/abs/2208.13713v1 )

ライセンス: Link先を確認
Zhe Feng, Swati Padmanabhan, Di Wang(参考訳) オンライン広告は競争の激しい数十億ドル規模の業界へと成長し、広告主は大規模かつ高頻度の広告スロットを入札している。 これにより、特定の制約に基づいて広告主のターゲットを最大化するために、入ってくるクエリの入札を決定する効率的な「自動入札」アルゴリズムの必要性が高まっている。 本研究は,価値を最大化する広告主に対して,ros(return-on-spend)という制約下で効率的なオンラインアルゴリズムを提案する。 全てのクエリを事前に知っている最適アルゴリズムに対して、後悔の観点から効率を定量化する。 我々は,ある分布から入力されたクエリのシーケンスがサンプルである場合に,常に指定されたRoS制約を尊重しながら,期待のほぼ最適に後悔する簡単なオンラインアルゴリズムに寄与する。 また,これまでのbalseiro,lu,mirrokni [blm20] の成果と統合して,ros と固定予算の制約を尊重しながら,ほぼ最適の後悔を実現した。 本アルゴリズムは原始双対フレームワークに従い,オンラインミラー降下(omd)を用いてデュアルアップデートを行う。 しかし、OMDの非標準設定を用いる必要があるため、オンライン学習における逆境設定であるOMDの古典的な低レベル保証はもはや保持されない。 しかしながら,アルゴリズム設計において低相対性ダイナミクスが適用される場合,OMDが直面する勾配は逆数とは程遠いが,アルゴリズム選択の影響を受けやすい。 我々は、この重要な洞察を利用して、omd設定がアルゴリズムの領域において低い後悔を達成していることを示す。

Online advertising has recently grown into a highly competitive and complex multi-billion-dollar industry, with advertisers bidding for ad slots at large scales and high frequencies. This has resulted in a growing need for efficient "auto-bidding" algorithms that determine the bids for incoming queries to maximize advertisers' targets subject to their specified constraints. This work explores efficient online algorithms for a single value-maximizing advertiser under an increasingly popular constraint: Return-on-Spend (RoS). We quantify efficiency in terms of regret relative to the optimal algorithm, which knows all queries a priori. We contribute a simple online algorithm that achieves near-optimal regret in expectation while always respecting the specified RoS constraint when the input sequence of queries are i.i.d. samples from some distribution. We also integrate our results with the previous work of Balseiro, Lu, and Mirrokni [BLM20] to achieve near-optimal regret while respecting both RoS and fixed budget constraints. Our algorithm follows the primal-dual framework and uses online mirror descent (OMD) for the dual updates. However, we need to use a non-canonical setup of OMD, and therefore the classic low-regret guarantee of OMD, which is for the adversarial setting in online learning, no longer holds. Nonetheless, in our case and more generally where low-regret dynamics are applied in algorithm design, the gradients encountered by OMD can be far from adversarial but influenced by our algorithmic choices. We exploit this key insight to show our OMD setup achieves low regret in the realm of our algorithm.
翻訳日:2022-08-30 14:53:28 公開日:2022-08-29
# Plethysmography 画像と照明パラメータを用いた微小換気測定

Minute ventilation measurement using Plethysmographic Imaging and lighting parameters ( http://arxiv.org/abs/2208.13319v1 )

ライセンス: Link先を確認
Daniel Minati, Ludwik Sams, Karen Li, Bo Ji and Krishna Vardhan(参考訳) 睡眠時無呼吸などの呼吸障害は、肺の酸素と二酸化炭素を含有/交換する能力が不足し、体がホメオスタシスの安定した状態にあることを保証するために、多数の個人に影響を与える重要な疾患である。 微小換気などの呼吸測定は、心拍数や心拍変動などの他の生理的測定と相関して、健康状態の遠隔監視や呼吸関連疾患の症状の検出に用いられる。 本研究では,プライベートデータセット上で遠隔換気を測定するための深層学習に基づく手法を提案する。 データセットは、この作業が受け入れられると公開されます。 2種類のディープニューラルネットワークを用いて、ウェアラブル心拍数と呼吸装置から得られたデータストリームから微小換気を推定する。 当社のパイプライン – 軽量なディープニューラルネットワークを含む – のシンプルな設計が,リアルタイムのヘルス監視システムに容易に組み入れられることを実証します。

Breathing disorders such as sleep apnea is a critical disorder that affects a large number of individuals due to the insufficient capacity of the lungs to contain/exchange oxygen and carbon dioxide to ensure that the body is in the stable state of homeostasis. Respiratory Measurements such as minute ventilation can be used in correlation with other physiological measurements such as heart rate and heart rate variability for remote monitoring of health and detecting symptoms of such breathing related disorders. In this work, we formulate a deep learning based approach to measure remote ventilation on a private dataset. The dataset will be made public upon acceptance of this work. We use two versions of a deep neural network to estimate the minute ventilation from data streams obtained through wearable heart rate and respiratory devices. We demonstrate that the simple design of our pipeline - which includes lightweight deep neural networks - can be easily incorporate into real time health monitoring systems.
翻訳日:2022-08-30 14:48:58 公開日:2022-08-29
# PWLRグラフ表現:グラフ分類のためのランダムウォーク付き永続Weisfeiler-Lehmanスキーム

The PWLR Graph Representation: A Persistent Weisfeiler-Lehman scheme with Random Walks for Graph Classification ( http://arxiv.org/abs/2208.13427v1 )

ライセンス: Link先を確認
Sun Woo Park, Yun Young Choi, Dosang Joe, U Jin Choi, Youngho Woo(参考訳) 本稿では,グラフ表現のためのPWLR(Persistent Weisfeiler-Lehman Random walk scheme)を提案する。 提案手法は、正規化されたWeisfeiler-Lehman手順、グラフ上のランダムウォーク、永続ホモロジーを効果的に組み込む。 これにより、局所位相的特徴、ノード次数、大域的位相不変量であるグラフの3つの異なる性質を積分し、グラフ摂動から安定を保つ。 これはweisfeiler-lehmanプロシージャの多くの変種を一般化し、主に離散ノードラベルでグラフを埋め込むのに使われる。 実験結果から,これらの表現を効率よく利用して,グラフを離散ノードラベルで分類する最先端技術に匹敵する結果が得られることが示唆された。

This paper presents the Persistent Weisfeiler-Lehman Random walk scheme (abbreviated as PWLR) for graph representations, a novel mathematical framework which produces a collection of explainable low-dimensional representations of graphs with discrete and continuous node features. The proposed scheme effectively incorporates normalized Weisfeiler-Lehman procedure, random walks on graphs, and persistent homology. We thereby integrate three distinct properties of graphs, which are local topological features, node degrees, and global topological invariants, while preserving stability from graph perturbations. This generalizes many variants of Weisfeiler-Lehman procedures, which are primarily used to embed graphs with discrete node labels. Empirical results suggest that these representations can be efficiently utilized to produce comparable results to state-of-the-art techniques in classifying graphs with discrete node labels, and enhanced performances in classifying those with continuous node features.
翻訳日:2022-08-30 14:48:45 公開日:2022-08-29
# ユーザ行動分析を用いた側方移動検出

Lateral Movement Detection Using User Behavioral Analysis ( http://arxiv.org/abs/2208.13524v1 )

ライセンス: Link先を確認
Deepak Kushwaha, Dhruv Nandakumar, Akshay Kakkar, Sanvi Gupta, Kevin Choi, Christopher Redino, Abdul Rahman, Sabthagiri Saravanan Chandramohan, Edward Bowen, Matthew Weeks, Aaron Shaha, Joe Nehila(参考訳) 横動きとは、脅威アクターがネットワークに最初にアクセスし、攻撃の究極の目標に到達するまで、そのネットワークを通じて資産に関する重要なデータを収集する手法である。 企業ネットワークの複雑化と相互接続性により, 横移動侵入はより複雑化しており, 企業規模でそのような脅威を積極的に検出するには, 同様に高度な検出機構が必要である。 本稿では,ユーザの行動分析と機械学習を用いた横動き検出のための,新しい軽量な手法を提案する。 具体的には,ユーザ毎の側方運動挙動を識別する,サイバードメイン特化機能工学の新しい手法を提案する。 さらに、エンジニアリングされた特徴は、横方向運動識別のための2つの教師付き機械学習モデルの開発にも利用されており、これは文献に見られるモデルよりも明らかに優れており、高いクラス不均衡のデータセット上での堅牢なパフォーマンスを維持している。 この論文で導入されたモデルと方法論は、サイバー脅威検出ツールキットとしての影響を最大化し、価値を最小化するために、セキュリティオペレーターと協力して設計されている。 この論文の基本的な目標は、エンタープライズ規模のデータボリュームとクラス不均衡に対して解釈可能かつ堅牢な、ほぼリアルタイムな横移動検出に対する計算効率とドメイン固有なアプローチを提供することである。

Lateral Movement refers to methods by which threat actors gain initial access to a network and then progressively move through said network collecting key data about assets until they reach the ultimate target of their attack. Lateral Movement intrusions have become more intricate with the increasing complexity and interconnected nature of enterprise networks, and require equally sophisticated detection mechanisms to proactively detect such threats in near real-time at enterprise scale. In this paper, the authors propose a novel, lightweight method for Lateral Movement detection using user behavioral analysis and machine learning. Specifically, this paper introduces a novel methodology for cyber domain-specific feature engineering that identifies Lateral Movement behavior on a per-user basis. Furthermore, the engineered features have also been used to develop two supervised machine learning models for Lateral Movement identification that have demonstrably outperformed models previously seen in literature while maintaining robust performance on datasets with high class imbalance. The models and methodology introduced in this paper have also been designed in collaboration with security operators to be relevant and interpretable in order to maximize impact and minimize time to value as a cyber threat detection toolkit. The underlying goal of the paper is to provide a computationally efficient, domain-specific approach to near real-time Lateral Movement detection that is interpretable and robust to enterprise-scale data volumes and class imbalance.
翻訳日:2022-08-30 14:48:23 公開日:2022-08-29
# FedEgo: Egoグラフによる個人化グラフ学習のプライバシ保護

FedEgo: Privacy-preserving Personalized Federated Graph Learning with Ego-graphs ( http://arxiv.org/abs/2208.13685v1 )

ライセンス: Link先を確認
Taolin Zhang, Chuan Chen, Yaomin Chang, Lin Shu, and Zibin Zheng(参考訳) 構造情報と特徴情報の両方を含む特殊情報キャリアとして、グラフマイニング、例えばグラフニューラルネットワーク(gnn)で広く使われている。 しかし、いくつかの実践的なシナリオでは、グラフデータは複数の分散パーティに別々に格納される。 したがって、連合グラフニューラルネットワークは、各パーティ(またはクライアント)のプライバシを保ちながら、そのようなデータサイロ問題に対処するために提案される。 それにもかかわらず、統計的不均一性として知られる様々な当事者間の異なるグラフデータ分布は、fedavgのような単純なフェデレーション学習アルゴリズムの性能を低下させる可能性がある。 本稿では,Egoグラフに基づくフェデレーショングラフ学習フレームワークであるFedEgoを提案し,各クライアントがローカルモデルをトレーニングし,グローバルモデルのトレーニングにも貢献する。 FedEgoは、EgoグラフにGraphSAGEを適用して構造情報をフル活用し、Mixupをプライバシー上の問題に利用する。 統計的不均一性に対処するために,パーソナライゼーションを学習に統合し,クライアントが最適なパーソナライゼーションを実現するための適応的混合係数戦略を提案する。 大規模な実験結果と深部分析により, FedEgoの有効性が示された。

As special information carriers containing both structure and feature information, graphs are widely used in graph mining, e.g., Graph Neural Networks (GNNs). However, in some practical scenarios, graph data are stored separately in multiple distributed parties, which may not be directly shared due to conflicts of interest. Hence, federated graph neural networks are proposed to address such data silo problems while preserving the privacy of each party (or client). Nevertheless, different graph data distributions among various parties, which is known as the statistical heterogeneity, may degrade the performance of naive federated learning algorithms like FedAvg. In this paper, we propose FedEgo, a federated graph learning framework based on ego-graphs to tackle the challenges above, where each client will train their local models while also contributing to the training of a global model. FedEgo applies GraphSAGE over ego-graphs to make full use of the structure information and utilizes Mixup for privacy concerns. To deal with the statistical heterogeneity, we integrate personalization into learning and propose an adaptive mixing coefficient strategy that enables clients to achieve their optimal personalization. Extensive experimental results and in-depth analysis demonstrate the effectiveness of FedEgo.
翻訳日:2022-08-30 14:47:50 公開日:2022-08-29
# 機械学習による非酸化物ガーネットの高速探索

Machine Learning guided high-throughput search of non-oxide garnets ( http://arxiv.org/abs/2208.13742v1 )

ライセンス: Link先を確認
Jonathan Schmidt (1), Haichen Wang (1), Georg Schmidt (1) and Miguel Marques (1) ((1) Institut f\"ur Physik, Martin-Luther-Universit\"at Halle-Wittenberg)(参考訳) ガーネットは人類文明の初期から知られており、磁歪、スピントロニクス、リチウム電池など近代技術において重要な応用例となっている。 実験で知られているガーネットの圧倒的多数は酸化物であり、化学空間の他の部分に対する探査(実験または理論)は範囲が限られている。 鍵となる問題は、ガーネット構造が大きなプリミティブ単位セルを持ち、膨大な計算資源を必要とすることである。 新たなガーネットの完全化学空間を包括的に探索するために,グラフニューラルネットワークの最近の進歩と高スループット計算を組み合わせる。 機械学習モデルを用いて,確率(メタ)安定ガーネットシステムを体系的な密度関数計算の前に同定し,予測を検証する。 このようにして、100〜meV/原子以下の凸殻までの距離を持つ600以上の3次ガーネットが、様々な物理的および化学的性質を持つ。 これには硫化物、窒化物、ハロゲン化物が含まれる。 そこで本研究では,電子構造を分析し,電子バンドギャップの値と電荷バランスの関係について考察する。

Garnets, known since the early stages of human civilization, have found important applications in modern technologies including magnetorestriction, spintronics, lithium batteries, etc. The overwhelming majority of experimentally known garnets are oxides, while explorations (experimental or theoretical) for the rest of the chemical space have been limited in scope. A key issue is that the garnet structure has a large primitive unit cell, requiring an enormous amount of computational resources. To perform a comprehensive search of the complete chemical space for new garnets,we combine recent progress in graph neural networks with high-throughput calculations. We apply the machine learning model to identify the potential (meta-)stable garnet systems before systematic density-functional calculations to validate the predictions. In this way, we discover more than 600 ternary garnets with distances to the convex hull below 100~meV/atom with a variety of physical and chemical properties. This includes sulfide, nitride and halide garnets. For these, we analyze the electronic structure and discuss the connection between the value of the electronic band gap and charge balance.
翻訳日:2022-08-30 14:47:27 公開日:2022-08-29
# CBCTガイド下腹部放射線治療における教師なしディープラーニングによる変形性画像登録

Deformable Image Registration using Unsupervised Deep Learning for CBCT-guided Abdominal Radiotherapy ( http://arxiv.org/abs/2208.13686v1 )

ライセンス: Link先を確認
Huiqiao Xie, Yang Lei, Yabo Fu, Tonghe Wang, Justin Roper, Jeffrey D. Bradley, Pretesh Patel, Tian Liu and Xiaofeng Yang(参考訳) 画像誘導放射線治療におけるCBCTは、患者の設定と計画評価に重要な解剖情報を提供する。 CBCT画像の経時的登録は, 解剖学的変化の定量化に有効であった。 本研究の目的は、教師なし深層学習に基づくCBCT-CBCTデフォルマブル画像登録を提案することである。 提案した変形可能な登録ワークフローは、空間変換に基づくネットワーク(STN)を介して、同じフィードフォワードパスを共有するトレーニングと推論段階で構成される。 stnはグローバル生成逆ネットワーク(globalgan)とローカルgan(localgan)で構成され、それぞれ粗い動きと細かい動きを予測する。 このネットワークは、画像類似性損失と変形可能ベクトル場(DVF)正規化損失を、地上の真理DVFの監督なしに最小化することで訓練された。 推測段階では、ローカルDVFのパッチは訓練されたローカルGANによって予測され、全像DVFを形成する。 その後、局所的な全体像DVFとGlobalGANが生成したDVFを組み合わせて最終DVFを得る。 実験では20例の腹部癌患者から100例のCBCT, ホールドアウト試験では21例の腹部癌患者のコホートから105例のCBCTを用いて検討した。 定性的に、登録結果は変形したcbct画像とターゲットcbct画像との間に大きな整合を示す。 フィデューシャルマーカーで計算された平均目標登録誤差(TRE)は、1.91+-1.11mmである。 平均絶対誤差 (MAE) と標準相関 (NCC) は, それぞれ33.42+-7.48 HU, 0.94+-0.04であった。 この有望な登録方法は、高速で正確なcbctアライメントを提供し、解剖学的変化の分析と予測を容易にする。

CBCTs in image-guided radiotherapy provide crucial anatomy information for patient setup and plan evaluation. Longitudinal CBCT image registration could quantify the inter-fractional anatomic changes. The purpose of this study is to propose an unsupervised deep learning based CBCT-CBCT deformable image registration. The proposed deformable registration workflow consists of training and inference stages that share the same feed-forward path through a spatial transformation-based network (STN). The STN consists of a global generative adversarial network (GlobalGAN) and a local GAN (LocalGAN) to predict the coarse- and fine-scale motions, respectively. The network was trained by minimizing the image similarity loss and the deformable vector field (DVF) regularization loss without the supervision of ground truth DVFs. During the inference stage, patches of local DVF were predicted by the trained LocalGAN and fused to form a whole-image DVF. The local whole-image DVF was subsequently combined with the GlobalGAN generated DVF to obtain final DVF. The proposed method was evaluated using 100 fractional CBCTs from 20 abdominal cancer patients in the experiments and 105 fractional CBCTs from a cohort of 21 different abdominal cancer patients in a holdout test. Qualitatively, the registration results show great alignment between the deformed CBCT images and the target CBCT image. Quantitatively, the average target registration error (TRE) calculated on the fiducial markers and manually identified landmarks was 1.91+-1.11 mm. The average mean absolute error (MAE), normalized cross correlation (NCC) between the deformed CBCT and target CBCT were 33.42+-7.48 HU, 0.94+-0.04, respectively. This promising registration method could provide fast and accurate longitudinal CBCT alignment to facilitate inter-fractional anatomic changes analysis and prediction.
翻訳日:2022-08-30 14:47:12 公開日:2022-08-29
# 新型コロナウイルスパンデミックにおける災害避難への効果的なアプローチ

Effective approaches to disaster evacuation during a COVID-like pandemic ( http://arxiv.org/abs/2208.13326v1 )

ライセンス: Link先を確認
Yi-Lin Tsai (1), Dymasius Y. Sitepu (2), Karyn E. Chappell (3), Rishi P. Mediratta (4), C. Jason Wang (4, 5), Peter K. Kitanidis (1, 6, 7, and 8), Christopher B. Field (6, 9, 10, and 11) ((1) Department of Civil and Environmental Engineering, Stanford University, Stanford, CA, USA, (2) Department of Engineering Science, National University of Singapore, Singapore, (3) Department of Engineering, Imperial College London, London, UK, (4) Department of Pediatrics, Stanford University School of Medicine, Stanford, CA, USA, (5) Department of Health Policy, Stanford University School of Medicine, Stanford, CA, USA, (6) Woods Institute for the Environment, Stanford University, Stanford, CA, USA, (7) Bio-X, Stanford University, Stanford, CA, USA, (8) Institute for Computational and Mathematical Engineering, Stanford University, Stanford, CA, USA, (9) Department of Biology, Stanford University, Stanford, CA, USA, (10) Department of Earth System Science, Stanford University, Stanford, CA, USA, (11) Interdisciplinary Environmental Studies Program, Stanford University, Stanford, CA, USA)(参考訳) 新型コロナウイルス(COVID-19)ワクチンが利用可能になって以来、さまざまな災害避難戦略が避難所におけるパンデミックのリスクを和らげるかどうかを定量化する研究は行われていない。 そこで, 台湾におけるワクチン摂取量とDiversion プロトコルが感染を減少させ, パンデミックのピーク発生を遅らせるため, サセプティブル・エキセーション・インテリジェンス・リカバード(SEIR)モデルと呼ばれる年齢構造疫学モデルを適用した。 台湾のDiversionプロトコルでは、被曝による自検体の拡散を防ぎ、集合住宅での一般市民との混同を防ぐ。 Diversionプロトコルは、十分なワクチンの摂取と組み合わせて、このような戦略を使わずに、感染の最大数や発生の遅れを低減できる。 被曝者全員の退化が不可能であったり、ワクチンの摂取が不十分であったりした場合、Diversionプロトコルは依然として有用である。 さらに,若年層を主体とする避難民の集団は,ダイコンプロトコル導入時の高齢者集団よりも,パンデミックのピーク発生が早く,感染が最大で180%多い傾向がみられた。 しかし、Diversionプロトコルが適用されない場合、大多数の高齢者グループは、大多数の若年層よりも最大20%の重篤なケースに苦しむ。

Since COVID-19 vaccines became available, no studies have quantified how different disaster evacuation strategies can mitigate pandemic risks in shelters. Therefore, we applied an age-structured epidemiological model, known as the Susceptible-Exposed-Infectious-Recovered (SEIR) model, to investigate to what extent different vaccine uptake levels and the Diversion protocol implemented in Taiwan decrease infections and delay pandemic peak occurrences. Taiwan's Diversion protocol involves diverting those in self-quarantine due to exposure, thus preventing them from mingling with the general public at a congregate shelter. The Diversion protocol, combined with sufficient vaccine uptake, can decrease the maximum number of infections and delay outbreaks relative to scenarios without such strategies. When the diversion of all exposed people is not possible, or vaccine uptake is insufficient, the Diversion protocol is still valuable. Furthermore, a group of evacuees that consists primarily of a young adult population tends to experience pandemic peak occurrences sooner and have up to 180% more infections than does a majority elderly group when the Diversion protocol is implemented. However, when the Diversion protocol is not enforced, the majority elderly group suffers from up to 20% more severe cases than the majority young adult group.
翻訳日:2022-08-30 14:42:01 公開日:2022-08-29
# 構成強化学習のカテゴリー意味論

Categorical semantics of compositional reinforcement learning ( http://arxiv.org/abs/2208.13687v1 )

ライセンス: Link先を確認
Georgios Bakirtzis, Michail Savvas, Ufuk Topcu(参考訳) 強化学習(rl)は、しばしば問題をサブタスクに分解し、これらのタスクで学習行動を構成する必要がある。 RLにおける構成性は、他のシステム機能と相互作用するモジュラーサブタスクユニットを作成する可能性がある。 しかし、構成モデルを生成するには、構成的特徴の堅牢性に対する最小の仮定を特徴づける必要がある。 分類的観点から RL の 'emph{compositional theory} の枠組みを開発する。 構成性のカテゴリー的表現を考慮し,学習が全体としての学習と同じ最適政策をもたらす十分な条件について検討する。 特に,本手法では,タスクのモデルとして機能するマルコフ決定プロセス (MDP) を対象とするカテゴリ $\mathsf{MDP}$ を導入する。 我々は、$\mathsf{MDP}$が特定の繊維製品やプッシュアウトのような自然な構成操作を許容することを示す。 これらの操作はrlにおける明示的な合成現象を生じさせ、複合mdpにおける危険な状態の挿入や状態-作用対称性の導入といった既存の構成を統一する。 また、$\mathsf{MDP}$におけるプッシュアウト操作の即時適用であるzig-zagダイアグラムの言語を導入することで、逐次タスク補完をモデル化する。

Reinforcement learning (RL) often requires decomposing a problem into subtasks and composing learned behaviors on these tasks. Compositionality in RL has the potential to create modular subtask units that interface with other system capabilities. However, generating compositional models requires the characterization of minimal assumptions for the robustness of the compositional feature. We develop a framework for a \emph{compositional theory} of RL using a categorical point of view. Given the categorical representation of compositionality, we investigate sufficient conditions under which learning-by-parts results in the same optimal policy as learning on the whole. In particular, our approach introduces a category $\mathsf{MDP}$, whose objects are Markov decision processes (MDPs) acting as models of tasks. We show that $\mathsf{MDP}$ admits natural compositional operations, such as certain fiber products and pushouts. These operations make explicit compositional phenomena in RL and unify existing constructions, such as puncturing hazardous states in composite MDPs and incorporating state-action symmetry. We also model sequential task completion by introducing the language of zig-zag diagrams that is an immediate application of the pushout operation in $\mathsf{MDP}$.
翻訳日:2022-08-30 14:41:18 公開日:2022-08-29
# 3次元頸動脈壁剥離術と動脈硬化診断のためのラベルプロパゲーション

Label Propagation for 3D Carotid Vessel Wall Segmentation and Atherosclerosis Diagnosis ( http://arxiv.org/abs/2208.13337v1 )

ライセンス: Link先を確認
Shishuai Hu and Zehui Liao and Yong Xia(参考訳) 動脈硬化のコンピュータ診断において,頸動脈壁分節は重要な課題である。 多くの深層学習モデルが多くの医用画像のセグメンテーションタスクで顕著に成功しているが、アノテーションや異種動脈の制限により、磁気共鳴(MR)画像上の頸動脈壁の正確なセグメンテーションは困難である。 本稿では,3次元MR画像上の腔,正常血管壁,動脈硬化血管壁を分割する半教師付きラベル伝搬フレームワークを提案する。 提供されるアノテーションを補間することにより、3Dセグメンテーションモデルをトレーニングするための3D連続ラベルを得る。 トレーニングされたモデルでは、ラベルのないスライスの擬似ラベルを生成して、モデルトレーニングに組み込む。 次に, MRスキャン全体と伝播ラベルを用いて, セグメンテーションモデルの再トレーニングを行い, その堅牢性を向上させる。 我々はCarOtidの血管壁SegMentationとAtherosclerOsis diagnosiS (COSMOS) Challengeデータセット上でラベル伝搬の枠組みを評価し,テストデータセットではQuanMスコア83.41\%を達成し,オンライン評価リーダーボードでは1位となった。 その結果,提案手法の有効性が示された。

Carotid vessel wall segmentation is a crucial yet challenging task in the computer-aided diagnosis of atherosclerosis. Although numerous deep learning models have achieved remarkable success in many medical image segmentation tasks, accurate segmentation of carotid vessel wall on magnetic resonance (MR) images remains challenging, due to limited annotations and heterogeneous arteries. In this paper, we propose a semi-supervised label propagation framework to segment lumen, normal vessel walls, and atherosclerotic vessel wall on 3D MR images. By interpolating the provided annotations, we get 3D continuous labels for training 3D segmentation model. With the trained model, we generate pseudo labels for unlabeled slices to incorporate them for model training. Then we use the whole MR scans and the propagated labels to re-train the segmentation model and improve its robustness. We evaluated the label propagation framework on the CarOtid vessel wall SegMentation and atherosclerOsis diagnosiS (COSMOS) Challenge dataset and achieved a QuanM score of 83.41\% on the testing dataset, which got the 1-st place on the online evaluation leaderboard. The results demonstrate the effectiveness of the proposed framework.
翻訳日:2022-08-30 14:33:35 公開日:2022-08-29
# 腎臓解析のための境界認識ネットワーク

Boundary-Aware Network for Kidney Parsing ( http://arxiv.org/abs/2208.13338v1 )

ライセンス: Link先を確認
Shishuai Hu and Yiwen Ye and Zehui Liao and Yong Xia(参考訳) 腎臓構造分節は、外科ベースの腎がんのコンピュータ診断において重要な課題である。 多くの深層学習モデルが多くの医用画像分割作業で顕著な成功を収めているが、腎腫瘍の大きさや腎臓構造とその周囲のあいまいな境界が原因で、CTアンギオグラフィー(CTA)画像上の腎臓構造の正確なセグメンテーションは依然として困難である。 本稿では, 腎臓, 腎臓腫瘍, 動脈, 静脈をctaスキャンで分割するための境界認識ネットワーク (ba-net) を提案する。 このモデルは共有エンコーダ、境界デコーダ、セグメンテーションデコーダを含む。 マルチスケールの深層監視戦略は両デコーダに採用されており、腫瘍の大きさの変化による問題を緩和することができる。 各スケールで境界デコーダによって生成される境界確率マップは、セグメンテーション特徴マップを強化するために注意される。 我々は,Kidney PArsing (KiPA) Challengeデータセット上でBA-Netを評価し,CTAスキャンの腎臓構造セグメンテーションにおける平均Diceスコア89.65$\%を4倍のクロスバリデーションを用いて達成した。 その結果,ba-netの有効性が示された。

Kidney structures segmentation is a crucial yet challenging task in the computer-aided diagnosis of surgery-based renal cancer. Although numerous deep learning models have achieved remarkable success in many medical image segmentation tasks, accurate segmentation of kidney structures on computed tomography angiography (CTA) images remains challenging, due to the variable sizes of kidney tumors and the ambiguous boundaries between kidney structures and their surroundings. In this paper, we propose a boundary-aware network (BA-Net) to segment kidneys, kidney tumors, arteries, and veins on CTA scans. This model contains a shared encoder, a boundary decoder, and a segmentation decoder. The multi-scale deep supervision strategy is adopted on both decoders, which can alleviate the issues caused by variable tumor sizes. The boundary probability maps produced by the boundary decoder at each scale are used as attention to enhance the segmentation feature maps. We evaluated the BA-Net on the Kidney PArsing (KiPA) Challenge dataset and achieved an average Dice score of 89.65$\%$ for kidney structure segmentation on CTA scans using 4-fold cross-validation. The results demonstrate the effectiveness of the BA-Net.
翻訳日:2022-08-30 14:33:12 公開日:2022-08-29
# COVID-19における多次元ラシズム分類--Sigmatization, Offensiveness, Blame, Exclusion

Multi-dimensional Racism Classification during COVID-19: Stigmatization, Offensiveness, Blame, and Exclusion ( http://arxiv.org/abs/2208.13318v1 )

ライセンス: Link先を確認
Xin Pei, Deval Mehta(参考訳) 人種差別的テキストのバイナリ分類を超越して、社会科学理論からのヒントを得て、人種差別検出のための多次元モデル、すなわち、スティグマティゼーション、攻撃性、非難、排除を開発する。 BERTとトピックモデリングの助けを借りて、この分類学的検出は、新型コロナウイルス(COVID-19)中のデジタルプラットフォームにおける人種差別的議論の根底にある微妙さに関する洞察を可能にする。 本研究は,ソーシャルメディア上での先進的な人種差別行動に関する学術的議論の充実に寄与する。 第一に、国内流行から国際公衆衛生緊急事態、そして後に世界的なパンデミックへと変化した、新型コロナウイルスの初期段階における話題の変化のダイナミクスを、段階的に分析する。 さらに、この傾向をマッピングすることで、オフライン世界での人種差別に関する世論の進化をより正確に予測することが可能となり、一方、COVID-19のような世界的な公衆衛生危機において人種差別の高まりに対処するための特定の介入戦略が実行された。 さらに,この学際的な研究は,今後のソーシャルネットワーク分析と鉱業研究の方向性を示唆している。 社会科学の視点と計算手法の開発の統合は、より正確なデータ検出と分析への洞察を提供する。

Transcending the binary categorization of racist texts, our study takes cues from social science theories to develop a multi-dimensional model for racism detection, namely stigmatization, offensiveness, blame, and exclusion. With the aid of BERT and topic modeling, this categorical detection enables insights into the underlying subtlety of racist discussion on digital platforms during COVID-19. Our study contributes to enriching the scholarly discussion on deviant racist behaviours on social media. First, a stage-wise analysis is applied to capture the dynamics of the topic changes across the early stages of COVID-19 which transformed from a domestic epidemic to an international public health emergency and later to a global pandemic. Furthermore, mapping this trend enables a more accurate prediction of public opinion evolvement concerning racism in the offline world, and meanwhile, the enactment of specified intervention strategies to combat the upsurge of racism during the global public health crisis like COVID-19. In addition, this interdisciplinary research also points out a direction for future studies on social network analysis and mining. Integration of social science perspectives into the development of computational methods provides insights into more accurate data detection and analytics.
翻訳日:2022-08-30 14:32:35 公開日:2022-08-29
# 自然会話音声のターンテイク予測

Turn-Taking Prediction for Natural Conversational Speech ( http://arxiv.org/abs/2208.13321v1 )

ライセンス: Link先を確認
Shuo-yiin Chang, Bo Li, Tara N. Sainath, Chao Zhang, Trevor Strohman, Qiao Liang, Yanzhang He(参考訳) ストリーミング音声アシスタントシステムは、多くのアプリケーションで使われているが、一般的にこのシステムは、単一の音声クエリからの入力をためらうことなく、不自然なワンショットインタラクションに焦点を当てている。 しかし、一般的な会話の発話は、しばしば、不正に加えて、ターンテイクを伴う複数のクエリを伴う。 これらの相違には、思考、ためらい、単語の延長、一時停止、繰り返し句などが含まれる。 これにより、複数のクエリを含む会話型音声による音声認識は難しい課題となる。 対話的なインタラクションをより良くモデル化するには,ユーザが会話を終えた時点で,できるだけ早く応答させながら,不便を床に保持できるようにするために,問合せのずれと終了を判別することが不可欠である。 本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。 最善のシステムは,asrタスクを共同で最適化し,ユーザの思考停止や発話終了を検知することで得られる。 提案手法は,会話発話に4種類の不一致を挿入したテストセットにおいて,100ミリ秒のレイテンシで真のターンテイクを予測する場合,97%以上のリコール率と85%の精度を示す。

While a streaming voice assistant system has been used in many applications, this system typically focuses on unnatural, one-shot interactions assuming input from a single voice query without hesitation or disfluency. However, a common conversational utterance often involves multiple queries with turn-taking, in addition to disfluencies. These disfluencies include pausing to think, hesitations, word lengthening, filled pauses and repeated phrases. This makes doing speech recognition with conversational speech, including one with multiple queries, a challenging task. To better model the conversational interaction, it is critical to discriminate disfluencies and end of query in order to allow the user to hold the floor for disfluencies while having the system respond as quickly as possible when the user has finished speaking. In this paper, we present a turntaking predictor built on top of the end-to-end (E2E) speech recognizer. Our best system is obtained by jointly optimizing for ASR task and detecting when the user is paused to think or finished speaking. The proposed approach demonstrates over 97% recall rate and 85% precision rate on predicting true turn-taking with only 100 ms latency on a test set designed with 4 types of disfluencies inserted in conversational utterances.
翻訳日:2022-08-30 14:26:59 公開日:2022-08-29
# 連続会話のためのE2Eモデリングを用いたストリーム入出力クエリ検出

Streaming Intended Query Detection using E2E Modeling for Continued Conversation ( http://arxiv.org/abs/2208.13322v1 )

ライセンス: Link先を確認
Shuo-yiin Chang, Guru Prakash, Zelin Wu, Qiao Liang, Tara N. Sainath, Bo Li, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman(参考訳) 音声対応アプリケーションでは、通常、所定のホットワードを使用して、クエリに出席するためにデバイスを起動するが、そのたびにホットワードが続くと、継続する会話において認知的負担が生じる。 ホットワードを繰り返すことで、デバイスに向けられた発話を識別し、デバイスに向けられた他の発話をフィルタリングするストリーミングエンドツーエンド(E2E)型クエリー検出器を提案する。 提案手法は,音声認識パイプラインの異なるコンポーネントを1つのニューラルネットワークに折り畳むe2eモデルに対象のクエリ検出器を挿入する。e2eモデリングのオンスパイチ復号化と意図したクエリ検出は,早期部分認識結果に基づく高速に意図されたクエリ検出を可能にする。 提案したE2E法では,検出精度が22%向上し,600mslatencyの改善が得られた。 実験では,ユーザが8.7%のEERwithinでデバイスに話しかけているかどうかを,ユーザが話し始める1.4秒後に検出した。

In voice-enabled applications, a predetermined hotword isusually used to activate a device in order to attend to the query.However, speaking queries followed by a hotword each timeintroduces a cognitive burden in continued conversations. Toavoid repeating a hotword, we propose a streaming end-to-end(E2E) intended query detector that identifies the utterancesdirected towards the device and filters out other utterancesnot directed towards device. The proposed approach incor-porates the intended query detector into the E2E model thatalready folds different components of the speech recognitionpipeline into one neural network.The E2E modeling onspeech decoding and intended query detection also allows us todeclare a quick intended query detection based on early partialrecognition result, which is important to decrease latencyand make the system responsive. We demonstrate that theproposed E2E approach yields a 22% relative improvement onequal error rate (EER) for the detection accuracy and 600 mslatency improvement compared with an independent intendedquery detector. In our experiment, the proposed model detectswhether the user is talking to the device with a 8.7% EERwithin 1.4 seconds of median latency after user starts speaking.
翻訳日:2022-08-30 14:26:41 公開日:2022-08-29
# 10億人の顧客生涯価値予測 - kuaishouによる産業規模のソリューション

Billion-user Customer Lifetime Value Prediction: An Industrial-scale Solution from Kuaishou ( http://arxiv.org/abs/2208.13358v1 )

ライセンス: Link先を確認
Kunpeng Li, Guangcui Shao, Naijun Yang, Xiao Fang, Yang Song(参考訳) customer life time value (ltv) は、1人のユーザーがビジネスに持ち込むことのできる総収入である。 さまざまなビジネスシナリオにおいて、新規顧客獲得時の運用上の決定に広く使用されている。 LTVのモデリングは、複雑で変更可能なデータ分散のため、難しい問題である。 既存のアプローチでは、後方特徴分布から直接学習するか、以前の分布を強く仮定した統計モデルを活用するかのどちらかで、どちらも変更可能な分布を捉えることができない。 本稿では,産業レベルのLTVモデリングソリューションの完全なセットを提案する。 具体的には、異なる時間帯のLTV間の順序依存をモデル化し、モデル性能を大幅に改善する秩序依存モノトニックネットワーク(ODMN)を提案する。 さらに,重度不均衡な分散モデリング問題を,相対的にバランスの取れた部分分散モデリング問題に変換し,モデリングの複雑さを大幅に低減する,分割・解法に基づくマルチ分散マルチエキスパート(mdme)モジュールを導入する。 さらに,ロレンツ曲線に基づいて,推定値と接地トラスラベルとの分布差をよりよく測定するために,新しい評価基準であるMutual Giniを導入する。 ODMNフレームワークはKuaishouの多くのビジネスシナリオでうまくデプロイされ、優れたパフォーマンスを実現しています。 ZILNやTwo-Stage XGBoostモデルを含む最先端のベースラインと比較して,実世界の産業データに対する広範な実験により提案手法の優位性が示された。

Customer Life Time Value (LTV) is the expected total revenue that a single user can bring to a business. It is widely used in a variety of business scenarios to make operational decisions when acquiring new customers. Modeling LTV is a challenging problem, due to its complex and mutable data distribution. Existing approaches either directly learn from posterior feature distributions or leverage statistical models that make strong assumption on prior distributions, both of which fail to capture those mutable distributions. In this paper, we propose a complete set of industrial-level LTV modeling solutions. Specifically, we introduce an Order Dependency Monotonic Network (ODMN) that models the ordered dependencies between LTVs of different time spans, which greatly improves model performance. We further introduce a Multi Distribution Multi Experts (MDME) module based on the Divide-and-Conquer idea, which transforms the severely imbalanced distribution modeling problem into a series of relatively balanced sub-distribution modeling problems hence greatly reduces the modeling complexity. In addition, a novel evaluation metric Mutual Gini is introduced to better measure the distribution difference between the estimated value and the ground-truth label based on the Lorenz Curve. The ODMN framework has been successfully deployed in many business scenarios of Kuaishou, and achieved great performance. Extensive experiments on real-world industrial data demonstrate the superiority of the proposed methods compared to state-of-the-art baselines including ZILN and Two-Stage XGBoost models.
翻訳日:2022-08-30 14:23:20 公開日:2022-08-29
# データ冗長性を活用した深層学習の最適化

Survey: Exploiting Data Redundancy for Optimization of Deep Learning ( http://arxiv.org/abs/2208.13363v1 )

ライセンス: Link先を確認
Jou-An Chen, Wei Niu, Bin Ren, Yanzhi Wang, Xipeng Shen(参考訳) データ冗長性は、Deep Neural Networks (DNN) の入力と中間結果においてユビキタスである。 dnnのパフォーマンスと効率を改善する多くの重要な機会を提供し、多くの仕事で研究されている。 これらの研究は数年にわたって多くの場所で散らばっている。 対象は画像からビデオやテキストまで多岐にわたるが、データ冗長性の検出と活用にはさまざまな側面がある。 多くの取り組みの体系的な検証と要約がまだないため、研究者は以前の研究、芸術の状況、相違点と共有原則、そしてまだ探求されていない領域と方向性を総合的に把握することは困難である。 この記事はその空白を埋めようとする。 トピックに関する最近の数百の論文を調査し、様々なテクニックを単一の分類フレームワークに組み込むための新しい分類法を導入し、データ上の複数の種類のDNNを改善するためにデータ冗長性を利用する主要な手法を包括的に記述し、今後の研究機会を指摘している。

Data redundancy is ubiquitous in the inputs and intermediate results of Deep Neural Networks (DNN). It offers many significant opportunities for improving DNN performance and efficiency and has been explored in a large body of work. These studies have scattered in many venues across several years. The targets they focus on range from images to videos and texts, and the techniques they use to detect and exploit data redundancy also vary in many aspects. There is not yet a systematic examination and summary of the many efforts, making it difficult for researchers to get a comprehensive view of the prior work, the state of the art, differences and shared principles, and the areas and directions yet to explore. This article tries to fill the void. It surveys hundreds of recent papers on the topic, introduces a novel taxonomy to put the various techniques into a single categorization framework, offers a comprehensive description of the main methods used for exploiting data redundancy in improving multiple kinds of DNNs on data, and points out a set of research opportunities for future to explore.
翻訳日:2022-08-30 14:22:55 公開日:2022-08-29
# 高次元データセットのためのブラックボックス機械学習モデル解釈

Interpreting Black-box Machine Learning Models for High Dimensional Datasets ( http://arxiv.org/abs/2208.13405v1 )

ライセンス: Link先を確認
Md. Rezaul Karim, Md. Shajalal, Alex Gra{\ss}, Till D\"ohmen, Sisay Adugna Chala, Christian Beecks, Stefan Decker(参考訳) ディープニューラルネットワーク(dnn)は、複雑な問題のモデリングや高次元データセットの処理に効果があるため、従来の機械学習アルゴリズムをさまざまなアプリケーションドメインで上回っていることが示されている。 しかし、多くの実生活データセットはますます高次元化され、多くの特徴が目前にあるタスクとは無関係である可能性がある。 このような機能の導入は、望ましくないノイズをもたらすだけでなく、計算の複雑さも増すだろう。 さらに,多数の特徴の非線型性や依存度が高いため,DNNモデルは不可避的に不透明であり,ブラックボックス法として認識される傾向にある。 よく解釈可能なモデルは、統計的に重要な特徴を特定し、モデルの結果にどのように影響するかを説明することができる。 本稿では,高次元データセットの場合の分類タスクにおけるブラックボックスモデルの解釈性を向上させる効率的な手法を提案する。 この目的のために,まず,高次元データセット上でブラックボックスモデルを訓練し,分類を行う組込みを学習する。 ブラックボックスモデルの内部動作原理を分解し、トップkの重要特徴を特定するために、異なる探索法と摂動法を用いる。 次に,トップk特徴空間上の解釈可能なサロゲートモデルを用いてブラックボックスモデルの挙動を近似する。 最後に,サロゲートモデルから決定ルールと局所的説明を導出し,個々の決定を説明する。 当社のアプローチは,50~20,000の次元の異なる異なるデータセットでテストした場合,TabNetやXGboost,SHAPベースの解釈可能性技術など,最先端の手法よりも優れ,競合する。

Deep neural networks (DNNs) have been shown to outperform traditional machine learning algorithms in a broad variety of application domains due to their effectiveness in modeling intricate problems and handling high-dimensional datasets. Many real-life datasets, however, are of increasingly high dimensionality, where a large number of features may be irrelevant to the task at hand. The inclusion of such features would not only introduce unwanted noise but also increase computational complexity. Furthermore, due to high non-linearity and dependency among a large number of features, DNN models tend to be unavoidably opaque and perceived as black-box methods because of their not well-understood internal functioning. A well-interpretable model can identify statistically significant features and explain the way they affect the model's outcome. In this paper, we propose an efficient method to improve the interpretability of black-box models for classification tasks in the case of high-dimensional datasets. To this end, we first train a black-box model on a high-dimensional dataset to learn the embeddings on which the classification is performed. To decompose the inner working principles of the black-box model and to identify top-k important features, we employ different probing and perturbing techniques. We then approximate the behavior of the black-box model by means of an interpretable surrogate model on the top-k feature space. Finally, we derive decision rules and local explanations from the surrogate model to explain individual decisions. Our approach outperforms and competes with state-of-the-art methods such as TabNet, XGboost, and SHAP-based interpretability techniques when tested on different datasets with varying dimensionality between 50 and 20,000.
翻訳日:2022-08-30 14:22:26 公開日:2022-08-29
# 特徴融合強化オートエンコーダに基づく欠落値充足モデル

A Missing Value Filling Model Based on Feature Fusion Enhanced Autoencoder ( http://arxiv.org/abs/2208.13495v1 )

ライセンス: Link先を確認
Xinyao Liu, Shengdong Du, Tianrui Li, Fei Teng and Yan Yang(参考訳) ビッグデータ時代の到来とともに、データ品質の問題はますます重要になってきています。 多くの要因のうち、値が欠けているデータは主要な問題の一つであり、効果的なインプテーションモデルの開発は研究コミュニティの重要なトピックである。 近年,自己組織化マッピングや欠落値を満たす自動エンコーダといったニューラルネットワークモデルを採用する研究が進められている。 しかし、これらの古典的手法は、データ属性間の相関特徴と共通特徴を同時に発見することができない。 特に、古典的なオートエンコーダにとって、無効な定数マッピングを学ぶことがよくあるため、充填性能が劇的に損なわれる。 上記の問題を解決するために,特徴注入型オートエンコーダに基づく不足値充足モデルの提案と開発を行った。 まず、デトラックニューロンと放射基底関数ニューロンからなる隠蔽層をオートエンコーダに設計し、組み込むことにより、相関した特徴や共通特徴を学習する能力を高めることができる。 さらに,動的クラスタリング(MVDC)に基づいて,反復的最適化プロセスに組み込んだ,不足値の充足戦略を開発する。 この設計により,多次元機能融合能力が向上し,ダイナミックなコラボレーティブな欠落値充足性能が向上する。 このモデルの有効性は、7つのデータセットで異なる欠落率でテストされた多くの欠落値充足法と実験的比較によって検証される。

With the advent of the big data era, the data quality problem is becoming more and more crucial. Among many factors, data with missing values is one primary issue, and thus developing effective imputation models is a key topic in the research community. Recently, a major research direction is to employ neural network models such as selforganizing mappings or automatic encoders for filling missing values. However, these classical methods can hardly discover correlation features and common features simultaneously among data attributes. Especially,it is a very typical problem for classical autoencoders that they often learn invalid constant mappings, thus dramatically hurting the filling performance. To solve the above problems, we propose and develop a missing-value-filling model based on a feature-fusion-enhanced autoencoder. We first design and incorporate into an autoencoder a hidden layer that consists of de-tracking neurons and radial basis function neurons, which can enhance the ability to learn correlated features and common features. Besides, we develop a missing value filling strategy based on dynamic clustering (MVDC) that is incorporated into an iterative optimization process. This design can enhance the multi-dimensional feature fusion ability and thus improves the dynamic collaborative missing-value-filling performance. The effectiveness of our model is validated by experimental comparisons to many missing-value-filling methods that are tested on seven datasets with different missing rates.
翻訳日:2022-08-30 14:21:42 公開日:2022-08-29
# Shaken, and Stirred: PixelCNN++でロバスト外乱検出を可能にする長距離依存性

Shaken, and Stirred: Long-Range Dependencies Enable Robust Outlier Detection with PixelCNN++ ( http://arxiv.org/abs/2208.13579v1 )

ライセンス: Link先を確認
Barath Mohan Umapathi, Kushal Chauhan, Pradeep Shenoy, Devarajan Sridharan(参考訳) ディープラーニングモデルの現実的な応用には、信頼性の高い外れ値検出が不可欠である。 深層生成モデルによって生産される類似物は、広く研究されているが、主に外乱検出には実用的でないとして否定されている。 例えば、深い生成モデルの可能性は、低レベルの入力統計によって容易に偏る。 第二に、これらのバイアスを修正するための最近の多くのソリューションは計算コストが高く、複雑な自然データセットにうまく一般化していない。 本稿では,現在最先端の深層自己回帰モデルであるPixelCNN++を用いて,外乱検出について検討する。 PixelCNN++のバイアスは、主にローカル依存に基づく予測から生じる。 低レベルのバイアスを緩和し、pixelcnn++の可能性に対する長距離依存の寄与を分離する「シェーキング」と「スティリング」と呼ばれる単射変換の2つのファミリーを提案する。 これらの変換は計算コストが低く、評価時に容易に適用できる。 5つのgrayscaleと6つの自然画像データセットを用いて、このアプローチを広範囲に評価し、最先端の異常検出性能を達成または超えていることを示す。 要約すると、軽量な修正は、深い生成モデルを持つ画像上でロバストな外れ値検出を実現するために十分である。

Reliable outlier detection is critical for real-world applications of deep learning models. Likelihoods produced by deep generative models, although extensively studied, have been largely dismissed as being impractical for outlier detection. For one, deep generative model likelihoods are readily biased by low-level input statistics. Second, many recent solutions for correcting these biases are computationally expensive or do not generalize well to complex, natural datasets. Here, we explore outlier detection with a state-of-the-art deep autoregressive model: PixelCNN++. We show that biases in PixelCNN++ likelihoods arise primarily from predictions based on local dependencies. We propose two families of bijective transformations that we term "shaking" and "stirring", which ameliorate low-level biases and isolate the contribution of long-range dependencies to the PixelCNN++ likelihood. These transformations are computationally inexpensive and readily applied at evaluation time. We evaluate our approaches extensively with five grayscale and six natural image datasets and show that they achieve or exceed state-of-the-art outlier detection performance. In sum, lightweight remedies suffice to achieve robust outlier detection on images with deep generative models.
翻訳日:2022-08-30 14:21:19 公開日:2022-08-29
# Neural Tangent Kernel: 調査

Neural Tangent Kernel: A Survey ( http://arxiv.org/abs/2208.13614v1 )

ライセンス: Link先を確認
Eugene Golikov, Eduard Pokonechnyy, Vladimir Korviakov(参考訳) 2018年、Jacotらは、特定のパラメータ化の下でニューラルネットワークをトレーニングすることは、幅が無限に近づくにつれて特定のカーネルメソッドを実行することと等価であることを示した。 この等価性は、カーネル法に関する豊富な文献の結果を、取り組むのが非常に難しいニューラルネットワークに適用するための有望な方向を開いた。 本調査は,infinity,有限幅補正,応用,および対応する手法の限界に関する議論において,カーネル収束に関する重要な結果をカバーする。

A seminal work [Jacot et al., 2018] demonstrated that training a neural network under specific parameterization is equivalent to performing a particular kernel method as width goes to infinity. This equivalence opened a promising direction for applying the results of the rich literature on kernel methods to neural nets which were much harder to tackle. The present survey covers key results on kernel convergence as width goes to infinity, finite-width corrections, applications, and a discussion of the limitations of the corresponding method.
翻訳日:2022-08-30 14:21:01 公開日:2022-08-29
# 事象早期予測のための時間ラベル平滑化

Temporal Label Smoothing for Early Prediction of Adverse Events ( http://arxiv.org/abs/2208.13764v1 )

ライセンス: Link先を確認
Hugo Y\`eche, Aliz\'ee Pace, Gunnar R\"atsch, Rita Kuznetsova(参考訳) 医療コミュニティにおける意思決定支援システムの受容には,非武装率の低い事前の有害事象を予測できるモデルが不可欠である。 この困難な機械学習タスクは、通常、単純なバイナリ分類として扱われるが、サンプル間の時間依存性を活用するために提案される方法は少ない。 本研究では,興味のある事象に近接する関数として,平滑化強度を変調する新しい学習戦略であるtemporal label smoothing (tls)を提案する。 この正規化技術は、信号がしばしばノイズまたは非情報的であるクラス境界におけるモデルの信頼性を低下させ、この境界領域から離れた臨床的に情報的データポイントに焦点を合わせることができる。 理論的観点からは,本手法は,他の早期予測作業において提案された学習ヒューリスティックであるマルチホライズン予測の拡張であることを示す。 TLSは、様々な早期予測ベンチマークタスクにおいて競合する手法を実証的に比較または性能的に比較した。 特にこのアプローチは,偽装率の低いイベントリコールなどの臨床関連指標のパフォーマンスを著しく向上させる。

Models that can predict adverse events ahead of time with low false-alarm rates are critical to the acceptance of decision support systems in the medical community. This challenging machine learning task remains typically treated as simple binary classification, with few bespoke methods proposed to leverage temporal dependency across samples. We propose Temporal Label Smoothing (TLS), a novel learning strategy that modulates smoothing strength as a function of proximity to the event of interest. This regularization technique reduces model confidence at the class boundary, where the signal is often noisy or uninformative, thus allowing training to focus on clinically informative data points away from this boundary region. From a theoretical perspective, we also show that our method can be framed as an extension of multi-horizon prediction, a learning heuristic proposed in other early prediction work. TLS empirically matches or outperforms considered competing methods on various early prediction benchmark tasks. In particular, our approach significantly improves performance on clinically-relevant metrics such as event recall at low false-alarm rates.
翻訳日:2022-08-30 14:20:51 公開日:2022-08-29
# Twitterで新型コロナウイルスのワクチンに関する議論を解き明かす

Demystifying the COVID-19 vaccine discourse on Twitter ( http://arxiv.org/abs/2208.13523v1 )

ライセンス: Link先を確認
Zainab Zaidi, Mengbin Ye, Fergus John Samon, Abdisalam Jama, Binduja Gopalakrishnan, Chenhao Gu, Shanika Karunasekera, Jamie Evans, and Yoshihisa Kashima(参考訳) ソーシャルメディア上での新型コロナウイルス(covid-19)予防接種に関する一般論の理解を深めることは、現在のcovid-19パンデミックに対処するだけでなく、将来の感染拡大にも重要である。 我々は、2020年3月から2021年3月までの7500万の英語ツイートを含むTwitterデータセットを調査した。 自然言語処理(nlp)技術を用いた姿勢検出アルゴリズムを訓練し,つぶやきを「アンチ・ヴァックス」や「プロ・ヴァックス」と分類し,話題モデリング手法を用いて談話の主要な話題を検討する。 対vaxツイート数(3700万)は対vaxツイート数(1000万)をはるかに上回っているが、両スタンス(対vaxツイート数63%、対vaxツイート53%)のつぶやきの大半は、観察期間中に対vaxツイートと対vaxツイートの両方を投稿したデュアルスタンスユーザーから来ている。 pro-vaxのツイートは主にワクチン開発に焦点が当てられ、反vaxのツイートは幅広い話題をカバーした。 多くの話題はどちらの立場でも共通だったが、反vaxツイートと反vaxツイートは反対の立場から議論した。 ミームやジョークは最もリツイートされたメッセージだった。 分極化や反vax談話のオンライン化に関する懸念は根拠がないが、ターゲットとする虚偽の対抗が重要である。

Developing an understanding of the public discourse on COVID-19 vaccination on social media is important not only for addressing the current COVID-19 pandemic, but also for future pathogen outbreaks. We examine a Twitter dataset containing 75 million English tweets discussing COVID-19 vaccination from March 2020 to March 2021. We train a stance detection algorithm using natural language processing (NLP) techniques to classify tweets as `anti-vax' or `pro-vax', and examine the main topics of discourse using topic modelling techniques. While pro-vax tweets (37 million) far outnumbered anti-vax tweets (10 million), a majority of tweets from both stances (63% anti-vax and 53% pro-vax tweets) came from dual-stance users who posted both pro- and anti-vax tweets during the observation period. Pro-vax tweets focused mostly on vaccine development, while anti-vax tweets covered a wide range of topics, some of which included genuine concerns, though there was a large dose of falsehoods. A number of topics were common to both stances, though pro- and anti-vax tweets discussed them from opposite viewpoints. Memes and jokes were amongst the most retweeted messages. Whereas concerns about polarisation and online prevalence of anti-vax discourse are unfounded, targeted countering of falsehoods is important.
翻訳日:2022-08-30 14:17:37 公開日:2022-08-29
# 都市空間知覚のための深層学習モデルの説明可能性

Explainability of Deep Learning models for Urban Space perception ( http://arxiv.org/abs/2208.13555v1 )

ライセンス: Link先を確認
Ruben Sangers, Jan van Gemert, Sander van Cranenburgh(参考訳) 深層学習に基づくコンピュータビジョンモデルは、都市環境形成のための意思決定を支援するために、都市プランナーによってますます使われている。 このようなモデルは、例えば安全性や美しさの観点から、人々が都市環境の質をどのように知覚するかを予測する。 しかし、深層学習モデルのブラックボックスの性質は、ランドスケープオブジェクトが特に高品質または低品質の都市空間知覚にどのような寄与するかを理解するために都市プランナーを悩ませている。 本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法を検討する。 そのために、畳み込みニューラルネットワークとトランスフォーマーという2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。 これらのGradCAM視覚化を用いて、モデルの知覚予測に関連するオブジェクトを手動でアノテートする。 その結果、従来の研究でアノテーションに用いた現在のオブジェクト検出モデルでは表現されていない新しいオブジェクトを発見できる。 さらに,本手法は,GradCAM技術と組み合わせて使用するのに適したトランスフォーマーアーキテクチャであることが示唆された。 コードはgithubで入手できる。

Deep learning based computer vision models are increasingly used by urban planners to support decision making for shaping urban environments. Such models predict how people perceive the urban environment quality in terms of e.g. its safety or beauty. However, the blackbox nature of deep learning models hampers urban planners to understand what landscape objects contribute to a particularly high quality or low quality urban space perception. This study investigates how computer vision models can be used to extract relevant policy information about peoples' perception of the urban space. To do so, we train two widely used computer vision architectures; a Convolutional Neural Network and a transformer, and apply GradCAM -- a well-known ex-post explainable AI technique -- to highlight the image regions important for the model's prediction. Using these GradCAM visualizations, we manually annotate the objects relevant to the models' perception predictions. As a result, we are able to discover new objects that are not represented in present object detection models used for annotation in previous studies. Moreover, our methodological results suggest that transformer architectures are better suited to be used in combination with GradCAM techniques. Code is available on Github.
翻訳日:2022-08-30 14:11:51 公開日:2022-08-29
# 包括探索によるロバスト顔認識に向けて

Towards Robust Face Recognition with Comprehensive Search ( http://arxiv.org/abs/2208.13600v1 )

ライセンス: Link先を確認
Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li(参考訳) データクリーニング、アーキテクチャ、損失関数の設計は、高性能な顔認識に寄与する重要な要素である。 従来,研究コミュニティは各面の性能向上を図っていたが,3面すべてに最適な設計を共同で探索する一貫したソリューションを提示できなかった。 本稿では,これらの側面が互いに密結合していることを初めて確認する。 それぞれのアスペクトの設計を最適化することは、実際にはパフォーマンスとアルゴリズム設計のバイアスを大幅に制限します。 具体的には、最適モデルアーキテクチャや損失関数がデータクリーニングと密接に結合していることが分かる。 単一アスペクトモデル設計のバイアスを排除し、顔認識モデル設計の全体的理解を提供するため、まず、各側面の検索空間を慎重に設計し、次に、最適なデータクリーニング、アーキテクチャ、損失関数設計を共同で検索する包括的な検索手法を導入する。 本フレームワークでは,革新的強化学習に基づくアプローチを用いて,提案した包括探索を可能な限り柔軟にする。 100万レベルの顔認識ベンチマークに関する広範囲な実験は,新たに設計された検索空間が,それぞれの側面と包括的検索に有効であることを示す。 各研究トラックで開発されたエキスパートアルゴリズムを、大きなマージンで上回っている。 さらに,探索した最適設計と単一要因の独立設計の違いを分析する。 強固なモデルは、より難しいトレーニングデータセットと損失関数で最適化される傾向があることを指摘した。 我々の実証研究は、より堅牢な顔認識システムに向けた将来の研究のガイダンスを提供することができる。

Data cleaning, architecture, and loss function design are important factors contributing to high-performance face recognition. Previously, the research community tries to improve the performance of each single aspect but failed to present a unified solution on the joint search of the optimal designs for all three aspects. In this paper, we for the first time identify that these aspects are tightly coupled to each other. Optimizing the design of each aspect actually greatly limits the performance and biases the algorithmic design. Specifically, we find that the optimal model architecture or loss function is closely coupled with the data cleaning. To eliminate the bias of single-aspect research and provide an overall understanding of the face recognition model design, we first carefully design the search space for each aspect, then a comprehensive search method is introduced to jointly search optimal data cleaning, architecture, and loss function design. In our framework, we make the proposed comprehensive search as flexible as possible, by using an innovative reinforcement learning based approach. Extensive experiments on million-level face recognition benchmarks demonstrate the effectiveness of our newly-designed search space for each aspect and the comprehensive search. We outperform expert algorithms developed for each single research track by large margins. More importantly, we analyze the difference between our searched optimal design and the independent design of the single factors. We point out that strong models tend to optimize with more difficult training datasets and loss functions. Our empirical study can provide guidance in future research towards more robust face recognition systems.
翻訳日:2022-08-30 14:11:30 公開日:2022-08-29
# 教育方法:カリキュラムからデータフリーの知識蒸留を学ぶ

How to Teach: Learning Data-Free Knowledge Distillation from Curriculum ( http://arxiv.org/abs/2208.13648v1 )

ライセンス: Link先を確認
Jingru Li, Sheng Zhou, Liangcheng Li, Xifeng Yan, Zhi Yu, Jiajun Bu(参考訳) data-free knowledge distillation(dfkd)は、教師ネットワークから学習データなしで軽量な学生ネットワークを訓練することを目的としている。 既存のアプローチでは,データプリエントやバウンダリサンプル,メモリサンプルを対象とする,有益なサンプル生成と,学生モデルの段階的な更新というパラダイムを主に採用している。 しかし,従来のdfkd法では,異なる訓練段階における生成戦略を動的に調整することは困難であり,効率的かつ安定した訓練を実現することは困難である。 本稿では,カリキュラム学習(CL)の観点から,学生にモデルを教える方法について検討し,新しいアプローチである「CuDFKD」,すなわち「カリキュラムによるデータフリー知識蒸留」を提案する。 簡単なサンプルから難しいサンプルへと徐々に学習し、これは人間が学ぶ方法に似ている。 さらに, 一般化最小化(MM)アルゴリズムの理論解析を行い, CuDFKDの収束性を説明する。 ベンチマークデータセットで実施された実験によると、CuDFKDは単純なコース設計戦略により、最新のDFKDメソッドと異なるベンチマーク(例えばCIFAR10上のResNet18モデルの95.28\%トップ1精度など)よりも最高のパフォーマンスを達成する。 トレーニングは高速で、最大精度は30エポック以内で90\%に達し、トレーニング中のばらつきは安定している。 また,CuDFKDの適用性についても検討し,検討した。

Data-free knowledge distillation (DFKD) aims at training lightweight student networks from teacher networks without training data. Existing approaches mainly follow the paradigm of generating informative samples and progressively updating student models by targeting data priors, boundary samples or memory samples. However, it is difficult for the previous DFKD methods to dynamically adjust the generation strategy at different training stages, which in turn makes it difficult to achieve efficient and stable training. In this paper, we explore how to teach students the model from a curriculum learning (CL) perspective and propose a new approach, namely "CuDFKD", i.e., "Data-Free Knowledge Distillation with Curriculum". It gradually learns from easy samples to difficult samples, which is similar to the way humans learn. In addition, we provide a theoretical analysis of the majorization minimization (MM) algorithm and explain the convergence of CuDFKD. Experiments conducted on benchmark datasets show that with a simple course design strategy, CuDFKD achieves the best performance over state-of-the-art DFKD methods and different benchmarks, such as 95.28\% top1 accuracy of the ResNet18 model on CIFAR10, which is better than training from scratch with data. The training is fast, reaching the highest accuracy of 90\% within 30 epochs, and the variance during training is stable. Also in this paper, the applicability of CuDFKD is also analyzed and discussed.
翻訳日:2022-08-30 14:11:06 公開日:2022-08-29
# 高速かつメモリ効率の良い全スライド画像検索のためのバイナリとスパース置換不変表現の学習

Learning Binary and Sparse Permutation-Invariant Representations for Fast and Memory Efficient Whole Slide Image Search ( http://arxiv.org/abs/2208.13653v1 )

ライセンス: Link先を確認
Sobhan Hemati, Shivam Kalra, Morteza Babaie, H.R. Tizhoosh(参考訳) 効率的な検索システムのための適切なWSI(Whole Slide Image)表現の学習は簡単ではない。 現在の方法から得られるWSI埋め込みは、効率的なWSI検索には理想的ではない。 さらに、現在の方法の多くは、複数のパッチセットを同時に処理するため、高いgpuメモリを必要とする。 これらの課題に対処するため,我々は,深層生成モデルとフィッシャーベクトルを用いて,バイナリ表現とスパースwsi表現を学習するための新しいフレームワークを提案する。 本稿では,メモリ効率を向上させるインスタンスベーストレーニングを用いた,スパースおよびバイナリ置換不変なwsi表現を学ぶための新たな損失関数を提案する。 得られたWSI表現は、The Cancer Genomic Atlas (TCGA)とLiver-Kidney-Stomach (LKS)データセットで検証されている。 提案手法は, 検索精度と速度の両面で, ヨッティクセル(最近の病理画像検索エンジン)より優れていた。 さらに、WSI分類のための公開ベンチマークLKSデータセットにおいて、SOTAに対する競合性能を実現する。

Learning suitable Whole slide images (WSIs) representations for efficient retrieval systems is a non-trivial task. The WSI embeddings obtained from current methods are in Euclidean space not ideal for efficient WSI retrieval. Furthermore, most of the current methods require high GPU memory due to the simultaneous processing of multiple sets of patches. To address these challenges, we propose a novel framework for learning binary and sparse WSI representations utilizing a deep generative modelling and the Fisher Vector. We introduce new loss functions for learning sparse and binary permutation-invariant WSI representations that employ instance-based training achieving better memory efficiency. The learned WSI representations are validated on The Cancer Genomic Atlas (TCGA) and Liver-Kidney-Stomach (LKS) datasets. The proposed method outperforms Yottixel (a recent search engine for histopathology images) both in terms of retrieval accuracy and speed. Further, we achieve competitive performance against SOTA on the public benchmark LKS dataset for WSI classification.
翻訳日:2022-08-30 14:10:41 公開日:2022-08-29
# sphere depth: 球面領域からのパノラマ深度の推定

SphereDepth: Panorama Depth Estimation from Spherical Domain ( http://arxiv.org/abs/2208.13714v1 )

ライセンス: Link先を確認
Qingsong Yan, Qiang Wang, Kaiyong Zhao, Bo Li, Xiaowen Chu, Fei Deng(参考訳) パノラマ画像は、周辺環境の完全な情報を同時に示すことができ、仮想観光、ゲーム、ロボット工学等に多くの利点がある。 しかし, パノラマ深度推定の進展は, 一般的な投影法によって生じる歪みや不連続性の問題を完全に解決することができない。 本稿では,プロジェクション前処理なしで球面メッシュ上の深度を直接予測する新しいパノラマ深度推定法であるSphereDepthを提案する。 中心となる考え方は、パノラマ画像と球面メッシュの関係を確立し、深層ニューラルネットワークを使用して球面領域の特徴を抽出して深度を予測することである。 高分解能パノラマデータによる効率問題に対処するため,提案した球面メッシュ処理フレームワークに2つのハイパーパラメータを導入し,推論速度と精度のバランスをとる。 3つのパノラマデータセット上で検証されたspheredepthは、パノラマ深度推定の最先端手法と同等の結果を得る。 球面領域設定の利点により、spheredepthは高品質のポイントクラウドを生成し、歪みと不連続性の問題を著しく軽減することができる。

The panorama image can simultaneously demonstrate complete information of the surrounding environment and has many advantages in virtual tourism, games, robotics, etc. However, the progress of panorama depth estimation cannot completely solve the problems of distortion and discontinuity caused by the commonly used projection methods. This paper proposes SphereDepth, a novel panorama depth estimation method that predicts the depth directly on the spherical mesh without projection preprocessing. The core idea is to establish the relationship between the panorama image and the spherical mesh and then use a deep neural network to extract features on the spherical domain to predict depth. To address the efficiency challenges brought by the high-resolution panorama data, we introduce two hyper-parameters for the proposed spherical mesh processing framework to balance the inference speed and accuracy. Validated on three public panorama datasets, SphereDepth achieves comparable results with the state-of-the-art methods of panorama depth estimation. Benefiting from the spherical domain setting, SphereDepth can generate a high-quality point cloud and significantly alleviate the issues of distortion and discontinuity.
翻訳日:2022-08-30 14:10:24 公開日:2022-08-29
# StableFace: 対話型顔生成のための動作安定性の解析と改善

StableFace: Analyzing and Improving Motion Stability for Talking Face Generation ( http://arxiv.org/abs/2208.13717v1 )

ライセンス: Link先を確認
Jun Ling, Xu Tan, Liyang Chen, Runnan Li, Yuchao Zhang, Sheng Zhao, Li Song(参考訳) 従来の音声による発話表情生成手法は、合成ビデオの視覚品質と口唇同期品質の改善において大きな進歩を遂げてきたが、口唇運動のジッタにはあまり注意を払わず、口唇映像の現実性を損なう。 モーションジッタの原因は何で、どのように問題を緩和するのか? 本稿では,入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題を系統的に解析し,一連の効果的な設計により動作安定性を向上する。 音声合成ビデオでは、いくつかの問題がジッタに繋がることがわかりました。 1)入力された3d顔表現からのジッタ 2) トレーニング・推論ミスマッチ 3)ビデオフレーム間の依存性モデリングの欠如。 そこで我々は,この問題に対処するための有効な解決法を3つ提案する。 1) 3次元面表現を平滑化し入力中のジッタを除去するガウス型適応平滑化モジュールを提案する。 2) ニューラル・レンダラーの入力データに対して, 推定の歪みをシミュレートしてミスマッチを低減させるトレーニングにおいて, さらなるエロージョンを付加する。 3) ビデオフレーム間の依存性をモデル化するオーディオ融合トランスジェネレータを開発した。 また, 発話映像中の運動ジッタを計測するための既定指標が存在しないことを考慮し, 分散加速度の逆数を計算し, 運動ジッタを定量的に測定するための客観的指標(運動安定指標, msi)を考案する。 広範に実験した結果,従来のシステムよりも画質が良いモーション安定顔映像生成法が優れていることがわかった。

While previous speech-driven talking face generation methods have made significant progress in improving the visual quality and lip-sync quality of the synthesized videos, they pay less attention to lip motion jitters which greatly undermine the realness of talking face videos. What causes motion jitters, and how to mitigate the problem? In this paper, we conduct systematic analyses on the motion jittering problem based on a state-of-the-art pipeline that uses 3D face representations to bridge the input audio and output video, and improve the motion stability with a series of effective designs. We find that several issues can lead to jitters in synthesized talking face video: 1) jitters from the input 3D face representations; 2) training-inference mismatch; 3) lack of dependency modeling among video frames. Accordingly, we propose three effective solutions to address this issue: 1) we propose a gaussian-based adaptive smoothing module to smooth the 3D face representations to eliminate jitters in the input; 2) we add augmented erosions on the input data of the neural renderer in training to simulate the distortion in inference to reduce mismatch; 3) we develop an audio-fused transformer generator to model dependency among video frames. Besides, considering there is no off-the-shelf metric for measuring motion jitters in talking face video, we devise an objective metric (Motion Stability Index, MSI), to quantitatively measure the motion jitters by calculating the reciprocal of variance acceleration. Extensive experimental results show the superiority of our method on motion-stable face video generation, with better quality than previous systems.
翻訳日:2022-08-30 14:10:04 公開日:2022-08-29
# CounTR: トランスフォーマーベースの一般化ビジュアルカウント

CounTR: Transformer-based Generalised Visual Counting ( http://arxiv.org/abs/2208.13721v1 )

ライセンス: Link先を確認
Chang Liu, Yujie Zhong, Andrew Zisserman, Weidi Xie(参考訳) 本稿では、任意の意味圏から対象を数える計算モデルを開発することを目的として、ゼロショットや少数ショットカウントといった任意の数の「例」を用いて、一般化されたビジュアルオブジェクトカウントの問題を考察する。 To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.

In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.
翻訳日:2022-08-30 14:09:36 公開日:2022-08-29
# セマンティクスセグメンテーションネットワークによる画像の効果的なタンパリング

Effective Image Tampering Localization via Semantic Segmentation Network ( http://arxiv.org/abs/2208.13739v1 )

ライセンス: Link先を確認
Haochen Zhu, Gang Cao, Mo Zhao(参考訳) 強力な画像編集ツールが広く使われるようになると、画像の改ざんは簡単でリアルになる。 既存の画像法は、精度と堅牢性の低い課題に直面している。 タンパー付き領域は一般的にセマンティックオブジェクトであり,本文では,ディープセマンティックセグメンテーションネットワークに基づく効果的な画像タンパー化手法を提案する。 ConvNeXtネットワークは、より優れた特徴表現を学ぶためのエンコーダとして使用される。 マルチスケール機能はupernetデコーダによって融合され、より優れた位置決め能力を達成する。 効果的なモデルトレーニングを確保するために、損失と効果的なデータ拡張を併用する。 実験結果から,提案手法の局所化性能は他の最先端手法よりも優れていたことが確認された。

With the widespread use of powerful image editing tools, image tampering becomes easy and realistic. Existing image forensic methods still face challenges of low accuracy and robustness. Note that the tampered regions are typically semantic objects, in this letter we propose an effective image tampering localization scheme based on deep semantic segmentation network. ConvNeXt network is used as an encoder to learn better feature representation. The multi-scale features are then fused by Upernet decoder for achieving better locating capability. Combined loss and effective data augmentation are adopted to ensure effective model training. Extensive experimental results confirm that localization performance of our proposed scheme outperforms other state-of-the-art ones.
翻訳日:2022-08-30 14:09:22 公開日:2022-08-29
# NL2GDPR: 自然言語からGDPR準拠のAndroidアプリケーション機能を開発する

NL2GDPR: Automatically Develop GDPR Compliant Android Application Features from Natural Language ( http://arxiv.org/abs/2208.13361v1 )

ライセンス: Link先を確認
Faysal Hossain Shezan, Yingjie Lao, Minlong Peng, Xin Wang, Mingming Sun, Ping Li(参考訳) 最近のプライバシーリークの発生率とより厳格なポリシー規制は、企業やモバイルアプリのコンプライアンスの基準をはるかに高めている。 しかし、こうした義務はまた、様々な視点、活動、役割を含むこれらの規則に準拠するアプリ開発者、特に経験が乏しい、あるいはリソースが限られている小さな企業や開発者に対して、重大な課題を課す。 これらのハードルに対処するため、我々はNL2GDPRという自動ツールを開発し、開発者から自然言語記述からポリシーを生成すると同時に、アプリの機能がGDPR(General Data Protection Regulation)に準拠していることを保証する。 NL2GDPRはBaidu Cognitive Computing Labが開発した情報抽出ツールOIA(Open Information Annotation)を利用して開発されている。 NL2GDPRはプライバシー中心の情報抽出モデルであり、GDPRポリシーファインダとポリシージェネレータが付加される。 我々は,プライバシ中心の情報抽出とプライバシポリシの生成における課題を総合的に把握し,このタスクの最適化を活用すべく,調査を行った。 NL2GDPRでは、個人データストレージ、プロセス、共有タイプに関連するGDPRポリシーを正確に識別する上で、92.9%、95.2%、98.4%の精度を達成することができる。 私たちの知る限りでは、NL2GDPRは開発者がアプリ機能を記述するために自然言語を入力するだけでGDPR準拠のポリシーを自動的に生成できる最初のツールです。 他のGDPR関連の機能は、複雑なアプリを構築するために生成された機能と統合される可能性がある。

The recent privacy leakage incidences and the more strict policy regulations demand a much higher standard of compliance for companies and mobile apps. However, such obligations also impose significant challenges on app developers for complying with these regulations that contain various perspectives, activities, and roles, especially for small companies and developers who are less experienced in this matter or with limited resources. To address these hurdles, we develop an automatic tool, NL2GDPR, which can generate policies from natural language descriptions from the developer while also ensuring the app's functionalities are compliant with General Data Protection Regulation (GDPR). NL2GDPR is developed by leveraging an information extraction tool, OIA (Open Information Annotation), developed by Baidu Cognitive Computing Lab. At the core, NL2GDPR is a privacy-centric information extraction model, appended with a GDPR policy finder and a policy generator. We perform a comprehensive study to grasp the challenges in extracting privacy-centric information and generating privacy policies, while exploiting optimizations for this specific task. With NL2GDPR, we can achieve 92.9%, 95.2%, and 98.4% accuracy in correctly identifying GDPR policies related to personal data storage, process, and share types, respectively. To the best of our knowledge, NL2GDPR is the first tool that allows a developer to automatically generate GDPR compliant policies, with only the need of entering the natural language for describing the app features. Note that other non-GDPR-related features might be integrated with the generated features to build a complex app.
翻訳日:2022-08-30 14:08:50 公開日:2022-08-29
# 文書画像における物体検出の信頼度推定

Confidence Estimation for Object Detection in Document Images ( http://arxiv.org/abs/2208.13391v1 )

ライセンス: Link先を確認
M\'elodie Boillet and Christopher Kermorvant and Thierry Paquet(参考訳) ディープニューラルネットワークはますます強力で大きくなり、トレーニングするためにラベル付きデータを必要とする。 しかし,データアノテートには時間を要するため,限られたデータ量で学習しながら優れた性能を示すシステムを開発する必要がある。 これらのデータは、まだ効率的であるモデルを得るために正しく選択されなければならない。 そのため、システムはどのデータにアノテートして最良の結果を得るべきかを判断できなければなりません。 本稿では,物体検出予測の信頼性を推定する4つの推定器を提案する。 最初の2つはモンテカルロの落下に基づくもので、第3は記述統計であり、最後は検出器後部確率である。 アクティブラーニングフレームワークでは,3つの第1次推定器は,画像のランダムな選択と比較して,文書の物理ページやテキスト行の検出性能が大幅に向上したことを示す。 また,記述統計に基づく推定器がMCドロップアウトに取って代わり,性能を損なうことなく計算コストを低減できることを示す。

Deep neural networks are becoming increasingly powerful and large and always require more labelled data to be trained. However, since annotating data is time-consuming, it is now necessary to develop systems that show good performance while learning on a limited amount of data. These data must be correctly chosen to obtain models that are still efficient. For this, the systems must be able to determine which data should be annotated to achieve the best results. In this paper, we propose four estimators to estimate the confidence of object detection predictions. The first two are based on Monte Carlo dropout, the third one on descriptive statistics and the last one on the detector posterior probabilities. In the active learning framework, the three first estimators show a significant improvement in performance for the detection of document physical pages and text lines compared to a random selection of images. We also show that the proposed estimator based on descriptive statistics can replace MC dropout, reducing the computational cost without compromising the performances.
翻訳日:2022-08-30 14:05:53 公開日:2022-08-29
# 顔認識モデルによるデモグラフィックバイアスの解明に向けて

Towards Explaining Demographic Bias through the Eyes of Face Recognition Models ( http://arxiv.org/abs/2208.13400v1 )

ライセンス: Link先を確認
Biying Fu and Naser Damer(参考訳) データとアルゴリズムの両方に内在するバイアスは、機械学習(ml)ベースの意思決定システムの公平さを最適よりも低くする。 このようなML決定システムの信頼性を向上させるためには、これらのソリューションの固有のバイアスを認識し、それらを一般や開発者に対してより透過的にすることが重要です。 本研究の目的は,異なる集団群を処理する際に,顔認識モデルの行動の違いを分析するための説明可能性ツールセットを提供することである。 我々は、アクティベーションマップに基づく高次統計情報を活用して、FRモデルの行動差を特定の顔領域に関連付ける説明可能性ツールを構築する。 2つのデータセットと2つの顔認識モデルによる実験結果は、特定の人口集団に対してfrモデルが参照群と異なる反応をする特定の領域を指摘した。 これらの分析結果は、異なる人口集団の顔における人文的差異と人的判断の違いを分析した研究結果とよく一致している。 これは、異なる人口集団におけるFRモデルの偏りのある振る舞いを説明し、空間的な顔の特徴に直接リンクする最初の研究である。 コードはここで公開されている。

Biases inherent in both data and algorithms make the fairness of widespread machine learning (ML)-based decision-making systems less than optimal. To improve the trustfulness of such ML decision systems, it is crucial to be aware of the inherent biases in these solutions and to make them more transparent to the public and developers. In this work, we aim at providing a set of explainability tool that analyse the difference in the face recognition models' behaviors when processing different demographic groups. We do that by leveraging higher-order statistical information based on activation maps to build explainability tools that link the FR models' behavior differences to certain facial regions. The experimental results on two datasets and two face recognition models pointed out certain areas of the face where the FR models react differently for certain demographic groups compared to reference groups. The outcome of these analyses interestingly aligns well with the results of studies that analyzed the anthropometric differences and the human judgment differences on the faces of different demographic groups. This is thus the first study that specifically tries to explain the biased behavior of FR models on different demographic groups and link it directly to the spatial facial features. The code is publicly available here.
翻訳日:2022-08-30 14:05:39 公開日:2022-08-29
# 地盤間知覚知識伝達のための漸進的自己蒸留

Progressive Self-Distillation for Ground-to-Aerial Perception Knowledge Transfer ( http://arxiv.org/abs/2208.13404v1 )

ライセンス: Link先を確認
Junjie Hu and Chenyou Fan and Hua Feng and Yuan Gao and Tin Lun Lam(参考訳) 我々は、ドローンが飛行高度の異なる視点からどのように環境を知覚できるかという、現実的な問題はまだ検討されていない。 地上からの認識が常に行われる自律運転とは異なり、飛行ドローンは特定のタスクによって飛行高度を柔軟に変更し、視点不変の認識能力を必要とする。 飛行データの注記の手間を軽減するために,地上視点のラベル付きデータと飛行視点のラベルなしデータのみを用いながら,地上間知識蒸留法を検討する。 To this end, we propose a progressive semi-supervised learning framework which has four core components: a dense viewpoint sampling strategy that splits the range of vertical flight height into a set of small pieces with evenly-distributed intervals, and at each height we sample data from that viewpoint; the nearest neighbor pseudo-labeling that infers labels of the nearest neighbor viewpoint with a model learned on the preceding viewpoint; MixView that generates augmented images among different viewpoints to alleviate viewpoint difference; and a progressive distillation strategy to gradually learn until reaching the maximum flying height. 合成データセットと実世界のデータセットを収集し,提案手法が飛行高度の異なる有望な結果をもたらすことを示すため,広範な実験を行った。

We study a practical yet hasn't been explored problem: how a drone can perceive in an environment from viewpoints of different flight heights. Unlike autonomous driving where the perception is always conducted from a ground viewpoint, a flying drone may flexibly change its flight height due to specific tasks, requiring capability for viewpoint invariant perception. To reduce the effort of annotation of flight data, we consider a ground-to-aerial knowledge distillation method while using only labeled data of ground viewpoint and unlabeled data of flying viewpoints. To this end, we propose a progressive semi-supervised learning framework which has four core components: a dense viewpoint sampling strategy that splits the range of vertical flight height into a set of small pieces with evenly-distributed intervals, and at each height we sample data from that viewpoint; the nearest neighbor pseudo-labeling that infers labels of the nearest neighbor viewpoint with a model learned on the preceding viewpoint; MixView that generates augmented images among different viewpoints to alleviate viewpoint difference; and a progressive distillation strategy to gradually learn until reaching the maximum flying height. We collect a synthesized dataset and a real-world dataset, and we perform extensive experiments to show that our method yields promising results for different flight heights.
翻訳日:2022-08-30 14:05:22 公開日:2022-08-29
# pv-rcnn++: 3dオブジェクト検出のための意味論的ポイントボクセル機能インタラクション

PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object Detection ( http://arxiv.org/abs/2208.13414v1 )

ライセンス: Link先を確認
Peng Wu, Lipeng Gu, Xuefeng Yan, Haoran Xie, Fu Lee Wang, Gary Cheng, Mingqiang Wei(参考訳) 大規模な不均衡は、しばしば前景点(すなわちオブジェクト)と屋外のLiDAR点雲の背景点の間に存在する。 最先端の検出器が情報領域に集中して正確な3Dオブジェクト検出結果を生成するのを妨げる。 本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。 既存のほとんどのメソッドとは異なり、PV-RCNN++はオブジェクト検出の品質を高めるために意味情報を探索する。 まず、より識別的な前景キーポイントを保持するために意味セグメンテーションモジュールを提案する。 このようなモジュールは、PV-RCNN++をガイドして、よりオブジェクト関連のポイントワイドとボクセルワイド機能を重要な領域に統合します。 そこで,マンハッタン距離に基づくボクセルクエリを用いて,キーポイント周辺のボクセル的特徴を迅速にサンプリングする。 このようなボクセルクエリは、ボールクエリと比較して、O(N) から O(K) への時間的複雑さを減少させる。 さらに、局所的特徴のみを学習するのを避けるため、注意に基づく残差点ネットモジュールは、受動場を拡張し、隣り合うボクセル的な特徴をキーポイントに適応的に集約するように設計されている。 KITTIデータセットの大規模な実験によると、PV-RCNN++は81.60$\%$, 40.18$\%$, 68.21$\%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術に匹敵するあるいはそれ以上のパフォーマンスを達成した。

Large imbalance often exists between the foreground points (i.e., objects) and the background points in outdoor LiDAR point clouds. It hinders cutting-edge detectors from focusing on informative areas to produce accurate 3D object detection results. This paper proposes a novel object detection network by semantical point-voxel feature interaction, dubbed PV-RCNN++. Unlike most of existing methods, PV-RCNN++ explores the semantic information to enhance the quality of object detection. First, a semantic segmentation module is proposed to retain more discriminative foreground keypoints. Such a module will guide our PV-RCNN++ to integrate more object-related point-wise and voxel-wise features in the pivotal areas. Then, to make points and voxels interact efficiently, we utilize voxel query based on Manhattan distance to quickly sample voxel-wise features around keypoints. Such the voxel query will reduce the time complexity from O(N) to O(K), compared to the ball query. Further, to avoid being stuck in learning only local features, an attention-based residual PointNet module is designed to expand the receptive field to adaptively aggregate the neighboring voxel-wise features into keypoints. Extensive experiments on the KITTI dataset show that PV-RCNN++ achieves 81.60$\%$, 40.18$\%$, 68.21$\%$ 3D mAP on Car, Pedestrian, and Cyclist, achieving comparable or even better performance to the state-of-the-arts.
翻訳日:2022-08-30 14:05:04 公開日:2022-08-29
# light-yolov5:複雑な火災シナリオでyolov5を改善する軽量アルゴリズム

Light-YOLOv5: A Lightweight Algorithm for Improved YOLOv5 in Complex Fire Scenarios ( http://arxiv.org/abs/2208.13422v1 )

ライセンス: Link先を確認
Hao Xu, Bo Li and Fei Zhong(参考訳) 既存のオブジェクト検出アルゴリズムは、検出精度が低く、速度が遅い、配置が難しい複雑な火のシナリオに適用される。 そこで,本稿では,スピードと精度のバランスをとる軽量火炎検出アルゴリズムを提案する。 First, the last layer of backbone network is replaced with SepViT Block to enhance the contact of backbone network to global information; second, a Light-BiFPN neck network is designed to lighten the model while improving the feature extraction; third, Global Attention Mechanism (GAM) is fused into the network to make the model more focused on global dimensional features; finally, we use the Mish activation function and SIoU loss to increase the convergence speed and improve the accuracy at the same time. 実験の結果、Light-YOLOv5は元のアルゴリズムと比較してmAPを3.3%改善し、パラメータ数を27.1%減らし、計算量を19.1%減らし、FPS 91.1を達成した。 最新のYOLOv7-tinyと比較しても、Light-YOLOv5のmAPは6.8%高く、アルゴリズムの有効性を示している。

In response to the existing object detection algorithms are applied to complex fire scenarios with poor detection accuracy, slow speed and difficult deployment., this paper proposes a lightweight fire detection algorithm of Light-YOLOv5 that achieves a balance of speed and accuracy. First, the last layer of backbone network is replaced with SepViT Block to enhance the contact of backbone network to global information; second, a Light-BiFPN neck network is designed to lighten the model while improving the feature extraction; third, Global Attention Mechanism (GAM) is fused into the network to make the model more focused on global dimensional features; finally, we use the Mish activation function and SIoU loss to increase the convergence speed and improve the accuracy at the same time. The experimental results show that Light-YOLOv5 improves mAP by 3.3% compared to the original algorithm, reduces the number of parameters by 27.1%, decreases the computation by 19.1%, achieves FPS of 91.1. Even compared to the latest YOLOv7-tiny, the mAP of Light-YOLOv5 is 6.8% higher, which shows the effectiveness of the algorithm.
翻訳日:2022-08-30 14:04:32 公開日:2022-08-29
# ブラインド超解像のための共同学習内容と劣化認識機能

Joint Learning Content and Degradation Aware Feature for Blind Super-Resolution ( http://arxiv.org/abs/2208.13436v1 )

ライセンス: Link先を確認
Yifeng Zhou, Chuming Lin, Donghao Luo, Yong Liu, Ying Tai, Chengjie Wang, Mingang Chen(参考訳) ブラインド画像超解像(SR)における有望な結果を達成するために、低解像度(LR)画像を利用してカーネルを予測し、SR性能を向上させる試みがある。 しかし、これらのSupervised Kernel Prediction (SKP) 法は、現実のぼかしカーネルが利用できないために実用的ではない。 非教師付き劣化予測法 (UDP) ではこの問題を回避する方法が提案されているが, 劣化埋め込みとSR特徴との間の「textit{insistency}」はいまだに困難である。 劣化埋め込みとsr特徴の相関を探究することにより,コンテンツの学習と劣化認識機能の協調が最適であることを観察する。 本研究は,CDSRと呼ばれるコンテンツと劣化を考慮したSRネットワークを提案する。 具体的には、新たに確立された3つのモジュール:(1)ライトウェイトなパッチベースエンコーダ(lpe)を適用してコンテンツと劣化特性を共同抽出する、(2)ドメインクエリアテンションベースモジュール(dqa)を使用して不整合を適応的に低減する、(3)冗長な情報を抑制するコードブックベースのスペース圧縮モジュール(csc)。 いくつかのベンチマークにおいて、提案したCDSRは既存のUDPモデルよりも優れており、最先端のSKP手法と比較してPSNRとSSIMの競争性能が向上することを示した。

To achieve promising results on blind image super-resolution (SR), some attempts leveraged the low resolution (LR) images to predict the kernel and improve the SR performance. However, these Supervised Kernel Prediction (SKP) methods are impractical due to the unavailable real-world blur kernels. Although some Unsupervised Degradation Prediction (UDP) methods are proposed to bypass this problem, the \textit{inconsistency} between degradation embedding and SR feature is still challenging. By exploring the correlations between degradation embedding and SR feature, we observe that jointly learning the content and degradation aware feature is optimal. Based on this observation, a Content and Degradation aware SR Network dubbed CDSR is proposed. Specifically, CDSR contains three newly-established modules: (1) a Lightweight Patch-based Encoder (LPE) is applied to jointly extract content and degradation features; (2) a Domain Query Attention based module (DQA) is employed to adaptively reduce the inconsistency; (3) a Codebook-based Space Compress module (CSC) that can suppress the redundant information. Extensive experiments on several benchmarks demonstrate that the proposed CDSR outperforms the existing UDP models and achieves competitive performance on PSNR and SSIM even compared with the state-of-the-art SKP methods.
翻訳日:2022-08-30 14:04:14 公開日:2022-08-29
# 中間レベル意味的知識伝達によるゼロショット学習

Federated Zero-Shot Learning with Mid-Level Semantic Knowledge Transfer ( http://arxiv.org/abs/2208.13465v1 )

ライセンス: Link先を確認
Shitong Sun, Chenyang Si, Shaogang Gong, Guile Wu(参考訳) 従来の集中型ディープラーニングパラダイムは、データプライバシや送信制限のため、異なるソースからのデータを共有できない場合、実現不可能である。 この問題を解決するために、グローバルに一般化された中央モデル(サーバ)を最適化しながら、複数のソース(クライアント)に非共有データで知識を伝達するフェデレーション学習が導入された。 既存のフェデレートされた学習パラダイムは、主にモデルの全体的高レベルな知識(クラスなど)の伝達に焦点を当てており、これは特定の関心の対象と密接に関連しているため、逆攻撃に悩まされる可能性がある。 対照的に、本研究では、特定の関心対象に敏感でないため、よりプライバシー保護的でスケーラブルな中レベルの意味知識(属性など)の転送を検討する。 この目的のために,共有されていないローカルデータを用いて,複数のローカルクライアントで中レベルの意味知識を学習し,グローバルに一般化されたデプロイメントの中央モデルを累積集約する,新しいフェデレーションゼロショット学習(fzsl)パラダイムを策定する。 モデル識別能力を向上させるために,FZSLの中間レベル意味空間を充実させるために,外部知識からのセマンティック知識増強を提案する。 5つのゼロショット学習ベンチマークデータセットの大規模な実験により、中間レベルの意味的知識伝達を伴う一般化可能なフェデレーション学習モデルを最適化するためのアプローチの有効性が検証された。

Conventional centralised deep learning paradigms are not feasible when data from different sources cannot be shared due to data privacy or transmission limitation. To resolve this problem, federated learning has been introduced to transfer knowledge across multiple sources (clients) with non-shared data while optimising a globally generalised central model (server). Existing federated learning paradigms mostly focus on transferring holistic high-level knowledge (such as class) across models, which are closely related to specific objects of interest so may suffer from inverse attack. In contrast, in this work, we consider transferring mid-level semantic knowledge (such as attribute) which is not sensitive to specific objects of interest and therefore is more privacy-preserving and scalable. To this end, we formulate a new Federated Zero-Shot Learning (FZSL) paradigm to learn mid-level semantic knowledge at multiple local clients with non-shared local data and cumulatively aggregate a globally generalised central model for deployment. To improve model discriminative ability, we propose to explore semantic knowledge augmentation from external knowledge for enriching the mid-level semantic space in FZSL. Extensive experiments on five zeroshot learning benchmark datasets validate the effectiveness of our approach for optimising a generalisable federated learning model with mid-level semantic knowledge transfer.
翻訳日:2022-08-30 14:03:45 公開日:2022-08-29
# 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング

Prompt Tuning with Soft Context Sharing for Vision-Language Models ( http://arxiv.org/abs/2208.13474v1 )

ライセンス: Link先を確認
Kun Ding and Ying Wang and Pengzhang Liu and Qiang Yu and Haojian Zhang and Shiming Xiang and Chunhong Pan(参考訳) 視覚言語モデルは最近、多くのコンピュータビジョンタスクで大きな可能性を示しています。 一方で、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインであるリニアプローブと比較して、少数ショット画像認識において優れたパフォーマンスを得ることができる。 実世界のアプリケーションでは、特に専門分野において、多くのショットタスクが相関している。 しかし、この情報は以前の作品では無視されている。 マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクにおいて、事前学習された視覚言語モデルを微調整するためのSoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。 具体的には,事前定義されたタスク名と学習可能なメタプロンプトを入力として,タスク毎にプロンプトベクトルを生成するタスク共有メタネットワークを設計する。 したがって、すべてのタスクのプロンプトベクトルは、ソフトな方法で共有される。 この共有メタネットワークのパラメータとメタプロンプトベクトルは、全ての目標タスクのジョイントトレーニングセットに調整される。 3つのマルチタスク・マルチショット・データセットの大規模な実験により、SoftCPTは代表的なシングルタスク・プロンプト・チューニング法であるCoOp[78]を大きなマージンで上回り、視覚言語・プロンプト・チューニングにおけるマルチタスク学習の有効性を示している。 ソースコードとデータは公開される予定だ。

Vision-language models have recently shown great potential on many computer vision tasks. Meanwhile, prior work demonstrates prompt tuning designed for vision-language models could acquire superior performance on few-shot image recognition compared to linear probe, a strong baseline. In real-world applications, many few-shot tasks are correlated, particularly in a specialized area. However, such information is ignored by previous work. Inspired by the fact that modeling task relationships by multi-task learning can usually boost performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt Tuning) to fine-tune pre-trained vision-language models on multiple target few-shot tasks, simultaneously. Specifically, we design a task-shared meta network to generate prompt vector for each task using pre-defined task name together with a learnable meta prompt as input. As such, the prompt vectors of all tasks will be shared in a soft manner. The parameters of this shared meta network as well as the meta prompt vector are tuned on the joint training set of all target tasks. Extensive experiments on three multi-task few-shot datasets show that SoftCPT outperforms the representative single-task prompt tuning method CoOp [78] by a large margin, implying the effectiveness of multi-task learning in vision-language prompt tuning. The source code and data will be made publicly available.
翻訳日:2022-08-30 14:03:17 公開日:2022-08-29
# RGBマイクログリッド偏光カメラの実用校正法

A Practical Calibration Method for RGB Micro-Grid Polarimetric Cameras ( http://arxiv.org/abs/2208.13485v1 )

ライセンス: Link先を確認
Joaquin Rodriguez, Lew Lew-Yan-Voon, Renato Martins, and Olivier Morel(参考訳) ポラリメトリックイメージングは、ロボットビジョン(水中ナビゲーション、グラア除去、脱ヘイズ、物体分類、深度推定など)における多くの応用に応用されている。 市場に出回っているrgb偏光カメラは、単一のスナップショットで光の色と偏光状態の両方を捉えることができる。 センサの特性分散とレンズの使用により、これらのタイプのカメラを校正して正確な偏光測定を得ることが重要である。 これまでに開発されたキャリブレーション手法は、この種のカメラには適合していないか、厳格な設定で複雑な機器と時間を要する実験を必要とする。 本稿では,これらのカメラを効率的に校正する複雑な光学系の必要性を克服する新しい手法を提案する。 提案手法は,偏光状態の事前知識を必要とせずに一様で直線偏光光源を用いてカメラの校正を容易に行うことができ,取得回数も限られるなど,いくつかの利点がある。 私たちは校正コードを公開します。

Polarimetric imaging has been applied in a growing number of applications in robotic vision (ex. underwater navigation, glare removal, de-hazing, object classification, and depth estimation). One can find on the market RGB Polarization cameras that can capture both color and polarimetric state of the light in a single snapshot. Due to the sensor's characteristic dispersion, and the use of lenses, it is crucial to calibrate these types of cameras so as to obtain correct polarization measurements. The calibration methods that have been developed so far are either not adapted to this type of cameras, or they require complex equipment and time consuming experiments in strict setups. In this paper, we propose a new method to overcome the need for complex optical systems to efficiently calibrate these cameras. We show that the proposed calibration method has several advantages such as that any user can easily calibrate the camera using a uniform, linearly polarized light source without any a priori knowledge of its polarization state, and with a limited number of acquisitions. We will make our calibration code publicly available.
翻訳日:2022-08-30 14:02:53 公開日:2022-08-29
# CIRCLe: 皮膚病変の異常分類のための色不変表現学習

CIRCLe: Color Invariant Representation Learning for Unbiased Classification of Skin Lesions ( http://arxiv.org/abs/2208.13528v1 )

ライセンス: Link先を確認
Arezou Pakzad, Kumar Abhishek, Ghassan Hamarneh(参考訳) 深層学習に基づくアプローチは、皮膚科の診断タスクにおいて専門家レベルのパフォーマンスを示す一方で、特定の人口統計学的属性、特に皮膚型(例えば、光と暗さ)に対する偏見を示すことも示されている。 皮膚病変分類における公平性を改善するための深層表現学習法であるCIRCLeを提案する。 CIRCLeは、同じ診断をするが、異なる皮膚型が同様の潜伏表現を持つイメージを奨励する正規化損失を利用することで、画像の分類を訓練されている。 そこで本研究では,6種類のフィッツパトリック皮膚型と114の疾患にまたがる16k以上の画像に対して,分類精度,同等の機会差(明暗群と明暗群)および正規化精度範囲を用いて,circleの最先端画像に対する優れた性能を示すとともに,複数の皮膚型群の公平性を評価するための新しい方法を提案する。

While deep learning based approaches have demonstrated expert-level performance in dermatological diagnosis tasks, they have also been shown to exhibit biases toward certain demographic attributes, particularly skin types (e.g., light versus dark), a fairness concern that must be addressed. We propose CIRCLe, a skin color invariant deep representation learning method for improving fairness in skin lesion classification. CIRCLe is trained to classify images by utilizing a regularization loss that encourages images with the same diagnosis but different skin types to have similar latent representations. Through extensive evaluation and ablation studies, we demonstrate CIRCLe's superior performance over the state-of-the-art when evaluated on 16k+ images spanning 6 Fitzpatrick skin types and 114 diseases, using classification accuracy, equal opportunity difference (for light versus dark groups), and normalized accuracy range, a new measure we propose to assess fairness on multiple skin type groups.
翻訳日:2022-08-30 14:02:35 公開日:2022-08-29
# SSD-MobileNetV2を用いたリアルタイムマスク検出

Real-Time Mask Detection Based on SSD-MobileNetV2 ( http://arxiv.org/abs/2208.13333v1 )

ライセンス: Link先を確認
Chen Cheng(参考訳) 新型コロナウイルスの感染拡大後、マスク検出は最も便利で効果的な予防手段であり、感染予防とコントロールにおいて重要な役割を果たす。 優れたリアルタイムマスク検出システムは、関連するスタッフの作業圧力を低減できる。 しかし,既存のマスク検出手法を解析した結果,主に資源集約型であり,速度と精度のバランスが良くないことがわかった。 現在、完璧なマスクのデータセットはありません。 本稿では,マスク検出のための新しいアーキテクチャを提案する。 本システムでは,マスクロケータと分類器としてssdを使用し,さらにvgg-16をmobilenetv2に置き換え,画像の特徴を抽出し,多くのパラメータを削減する。 したがって、本システムは組み込みデバイスにデプロイできる。 トランスファー学習法は、トレーニング済みモデルを他のドメインからモデルに転送するために使用されます。 mixupなどのシステムにおけるデータエンハンスメント手法は,過剰フィッティングを効果的に防止する。 また、大規模なデータセットへの依存を効果的に低減する。 実際のシナリオで実験を行うことで,本システムがリアルタイムマスク検出に有効であることを示す。

After the outbreak of COVID-19, mask detection, as the most convenient and effective means of prevention, plays a crucial role in epidemic prevention and control. An excellent automatic real-time mask detection system can reduce a lot of work pressure for relevant staff. However, by analyzing the existing mask detection approaches, we find that they are mostly resource-intensive and do not achieve a good balance between speed and accuracy. And there is no perfect face mask dataset at present. In this paper, we propose a new architecture for mask detection. Our system uses SSD as the mask locator and classifier, and further replaces VGG-16 with MobileNetV2 to extract the features of the image and reduce a lot of parameters. Therefore, our system can be deployed on embedded devices. Transfer learning methods are used to transfer pre-trained models from other domains to our model. Data enhancement methods in our system such as MixUp effectively prevent overfitting. It also effectively reduces the dependence on large-scale datasets. By doing experiments in practical scenarios, the results demonstrate that our system performed well in real-time mask detection.
翻訳日:2022-08-30 13:57:29 公開日:2022-08-29
# 指静脈認識のための人工ニューラルネットワークに関する研究

Artificial Neural Networks for Finger Vein Recognition: A Survey ( http://arxiv.org/abs/2208.13341v1 )

ライセンス: Link先を確認
Yimin Yin, Renye Zhang, Pengfei Liu, Wanxia Deng, Siliang He, Chen Li and Jinghua Zhang(参考訳) 指静脈認識は新しい生体認証技術である。 体表面の他の生体計測的特徴とは異なり、指の静脈血管組織は皮膚の奥深くに埋もれている。 この利点により、指の静脈の認識は非常に安定し、プライベートである。 盗まれることはほとんど不可能であり、外部の条件で妨害することは困難である。 従来の機械学習に基づく指静脈認識法とは異なり、人工ニューラルネットワーク技術、特にディープラーニングは特徴工学に依存しず、優れた性能を持つ。 本稿では,ニューラルネットワークを用いた指静脈認識の開発を要約するために,149種類の関連論文を収集する。 まず,指静脈認識の背景と本調査の動機について紹介する。 次に,指静脈認識タスクにおけるニューラルネットワークと代表ネットワークの開発史を紹介する。 次に、指静脈認識に広く用いられている公開データセットについて述べる。 その後,古典的ニューラルネットワークとディープニューラルネットワークを用いて,関連する指静脈認識タスクを要約する。 最後に,指静脈認識の課題と今後の展開について述べる。 我々の知る限り、人工ニューラルネットワークに基づく指静脈認識に焦点を当てた初めての総合的な調査である。

Finger vein recognition is an emerging biometric recognition technology. Different from the other biometric features on the body surface, the venous vascular tissue of the fingers is buried deep inside the skin. Due to this advantage, finger vein recognition is highly stable and private. They are almost impossible to be stolen and difficult to interfere with by external conditions. Unlike the finger vein recognition methods based on traditional machine learning, the artificial neural network technique, especially deep learning, it without relying on feature engineering and have superior performance. To summarize the development of finger vein recognition based on artificial neural networks, this paper collects 149 related papers. First, we introduce the background of finger vein recognition and the motivation of this survey. Then, the development history of artificial neural networks and the representative networks on finger vein recognition tasks are introduced. The public datasets that are widely used in finger vein recognition are then described. After that, we summarize the related finger vein recognition tasks based on classical neural networks and deep neural networks, respectively. Finally, the challenges and potential development directions in finger vein recognition are discussed. To our best knowledge, this paper is the first comprehensive survey focusing on finger vein recognition based on artificial neural networks.
翻訳日:2022-08-30 13:57:07 公開日:2022-08-29
# 胸部X線による胸部疾患の長期分類 : 新しいベンチマーク研究

Long-Tailed Classification of Thorax Diseases on Chest X-Ray: A New Benchmark Study ( http://arxiv.org/abs/2208.13365v1 )

ライセンス: Link先を確認
Gregory Holste, Song Wang, Ziyu Jiang, Thomas C. Shen, George Shih, Ronald M. Summers, Yifan Peng, Zhangyang Wang(参考訳) 胸部x線撮影などの画像検査では、ごく少数の共通所見と、はるかに大きな発見が得られます。 訓練された放射線科医は、いくつかの代表的な例を研究することで、希少な状態の視覚的な表現を学ぶことができるが、そのような「長い尾」分布から学ぶように機械に教えることは、より困難である。 本稿では胸部X線上の胸部疾患の特定領域における長期学習問題に関する総合的なベンチマーク研究を行う。 我々は,自然分布の胸部X線データから学ぶことに集中し,一般的な「頭部」クラスだけでなく,稀ながら重要な「尾」クラスよりも分類精度を最適化する。 そこで本研究では,医用画像分類のための長期学習手法の開発を支援するために,新しい長鎖胸部X線ベンチマークを提案する。 このベンチマークは、19と20の胸郭疾患分類のための2つの胸部X線データセットで構成され、53,000のクラスと7のラベル付きトレーニング画像を含む。 この新しいベンチマークでは、標準的および最先端のロングテール学習方法の両方を評価し、ロングテールの医用画像分類において、どの側面が最も有益かを分析し、将来のアルゴリズム設計のための洞察を要約する。 データセット、トレーニングされたモデル、コードはhttps://github.com/VITA-Group/LongTailCXRで公開されている。

Imaging exams, such as chest radiography, will yield a small set of common findings and a much larger set of uncommon findings. While a trained radiologist can learn the visual presentation of rare conditions by studying a few representative examples, teaching a machine to learn from such a "long-tailed" distribution is much more difficult, as standard methods would be easily biased toward the most frequent classes. In this paper, we present a comprehensive benchmark study of the long-tailed learning problem in the specific domain of thorax diseases on chest X-rays. We focus on learning from naturally distributed chest X-ray data, optimizing classification accuracy over not only the common "head" classes, but also the rare yet critical "tail" classes. To accomplish this, we introduce a challenging new long-tailed chest X-ray benchmark to facilitate research on developing long-tailed learning methods for medical image classification. The benchmark consists of two chest X-ray datasets for 19- and 20-way thorax disease classification, containing classes with as many as 53,000 and as few as 7 labeled training images. We evaluate both standard and state-of-the-art long-tailed learning methods on this new benchmark, analyzing which aspects of these methods are most beneficial for long-tailed medical image classification and summarizing insights for future algorithm design. The datasets, trained models, and code are available at https://github.com/VITA-Group/LongTailCXR.
翻訳日:2022-08-30 13:56:54 公開日:2022-08-29
# 感情によるペア抽出の促進を目的とした一般的な節間関係の学習

Learning a General Clause-to-Clause Relationships for Enhancing Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2208.13549v1 )

ライセンス: Link先を確認
Hang Chen, Xinyu Yang, Chenguang Li(参考訳) 感情原因ペア抽出(ECPE)は,潜在的な感情のペアとそれに対応する原因を文書から抽出することを目的とした,新たな課題である。 従来のアプローチはペア対ペア関係のモデリングに重点を置いており、有望な結果を得た。 しかし、文書の基盤構造を根本的に象徴する節間関係は、まだ研究の初期段階にある。 本稿では,新しい節間関係を定義する。 そこで本研究では,E-GAT と Activation Sort を組み合わせた EA-GAT という一般節レベルの符号化モデルを提案する。 E-GATは、異なる種類の節から情報を集約するために設計されており、Activation Sortは個々の感情/原因予測とソートベースのマッピングを利用して、節をより好ましい表現に伝達する。 EA-GATは節レベルの符号化モデルであるため、あらゆる従来のアプローチと広く統合することができる。 実験の結果、我々のアプローチは、中国と英語のベンチマークコーパスにおける現在のすべてのアプローチに対して、平均2.1\%$と1.03\%$という大きな利点があることがわかった。

Emotion-cause pair extraction (ECPE) is an emerging task aiming to extract potential pairs of emotions and corresponding causes from documents. Previous approaches have focused on modeling the pair-to-pair relationship and achieved promising results. However, the clause-to-clause relationship, which fundamentally symbolizes the underlying structure of a document, has still been in its research infancy. In this paper, we define a novel clause-to-clause relationship. To learn it applicably, we propose a general clause-level encoding model named EA-GAT comprising E-GAT and Activation Sort. E-GAT is designed to aggregate information from different types of clauses; Activation Sort leverages the individual emotion/cause prediction and the sort-based mapping to propel the clause to a more favorable representation. Since EA-GAT is a clause-level encoding model, it can be broadly integrated with any previous approach. Experimental results show that our approach has a significant advantage over all current approaches on the Chinese and English benchmark corpus, with an average of $2.1\%$ and $1.03\%$.
翻訳日:2022-08-30 13:48:05 公開日:2022-08-29
# テキストからSQLへのパーシングに関する調査:概念,方法,今後の方向性

A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions ( http://arxiv.org/abs/2208.13629v1 )

ライセンス: Link先を確認
Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian Sun, Luo Si, Fei Huang, Yongbin Li(参考訳) テキストからSQLへのパースは不可欠で難しいタスクです。 テキストからSQLへのパースの目的は、自然言語(NL)質問を、リレーショナルデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語(SQL)に変換することである。 データベースコミュニティの初期のテキストからSQLへの解析システムは、重労働工学のコストとシステムとのユーザインタラクションによって顕著な進歩を遂げた。 近年、ディープニューラルネットワークは、入力NL質問から出力SQLクエリへのマッピング関数を自動的に学習するニューラルネットワークモデルによって、このタスクを著しく進歩させてきた。 その後、大規模な事前訓練された言語モデルは、テキストからSQLへのパースタスクの最先端を新たなレベルに引き上げた。 本稿では,テキストからsqlへのパースのための深層学習手法の包括的レビューを行う。 まず,single-turnとmulti-turnに分類可能なtext-to-sql構文解析コーパスを紹介する。 第二に、事前訓練された言語モデルと既存のテキストからSQLへの解析方法の体系的な概要を提供する。 第3に,テキストからSQLへの解析が直面する課題を読者に提示し,この分野の今後の方向性を探る。

Text-to-SQL parsing is an essential and challenging task. The goal of text-to-SQL parsing is to convert a natural language (NL) question to its corresponding structured query language (SQL) based on the evidences provided by relational databases. Early text-to-SQL parsing systems from the database community achieved a noticeable progress with the cost of heavy human engineering and user interactions with the systems. In recent years, deep neural networks have significantly advanced this task by neural generation models, which automatically learn a mapping function from an input NL question to an output SQL query. Subsequently, the large pre-trained language models have taken the state-of-the-art of the text-to-SQL parsing task to a new level. In this survey, we present a comprehensive review on deep learning approaches for text-to-SQL parsing. First, we introduce the text-to-SQL parsing corpora which can be categorized as single-turn and multi-turn. Second, we provide a systematical overview of pre-trained language models and existing methods for text-to-SQL parsing. Third, we present readers with the challenges faced by text-to-SQL parsing and explore some potential future directions in this field.
翻訳日:2022-08-30 13:47:43 公開日:2022-08-29
# LED:大型リトリーバー用レキシコン照明ダンスレトリバー

LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval ( http://arxiv.org/abs/2208.13661v1 )

ライセンス: Link先を確認
Kai Zhang, Chongyang Tao, Tao Shen, Can Xu, Xiubo Geng, Binxing Jiao, Daxin Jiang(参考訳) セマンティック空間における密表現に基づく検索モデルは、第一段階の検索には不可欠である。 これらのレトリバーは、圧縮的グローバルシーケンスレベルの埋め込みへの表現学習の進歩の恩恵を受ける。 しかし、彼らはテキスト中の局所的な有能なフレーズやエンティティの言及を見落としやすいため、通常は第一段階の検索において中心的な役割を果たす。 この弱さを緩和するため、高密度なレトリバーを良好なレキシコン認識表現モデルに整列させることを提案する。 このアライメントは、2つの側面を通じてレトリバーを啓蒙する知識蒸留の弱化によって達成される。 1)高密度エンコーダに挑戦するための辞書強化コントラスト目的 2) 密なモデルの振る舞いを他方に傾けるような対のランク整合正則化。 提案手法を3つの公開ベンチマークで評価し,比較対象のレキシコン・アウェア・レトリバーを教師として採用することで,提案手法が一貫性と大幅な改善をもたらすこと,さらには教師よりも優れていること,等を示す。 また,高濃度回収器の性能向上は,標準ランチャー蒸留法を補完するものであり,さらなる性能向上が期待できることがわかった。

Retrieval models based on dense representations in semantic space have become an indispensable branch for first-stage retrieval. These retrievers benefit from surging advances in representation learning towards compressive global sequence-level embeddings. However, they are prone to overlook local salient phrases and entity mentions in texts, which usually play pivot roles in first-stage retrieval. To mitigate this weakness, we propose to make a dense retriever align a well-performing lexicon-aware representation model. The alignment is achieved by weakened knowledge distillations to enlighten the retriever via two aspects -- 1) a lexicon-augmented contrastive objective to challenge the dense encoder and 2) a pair-wise rank-consistent regularization to make dense model's behavior incline to the other. We evaluate our model on three public benchmarks, which shows that with a comparable lexicon-aware retriever as the teacher, our proposed dense one can bring consistent and significant improvements, and even outdo its teacher. In addition, we found our improvement on the dense retriever is complementary to the standard ranker distillation, which can further lift state-of-the-art performance.
翻訳日:2022-08-30 13:47:27 公開日:2022-08-29
# 多基準決定のための統一ベイズフレームワーク

Unified Bayesian Frameworks for Multi-criteria Decision-making ( http://arxiv.org/abs/2208.13390v1 )

ライセンス: Link先を確認
Majid Mohammadi(参考訳) 本稿では,MCDM問題を確率論的に解釈したベイズフレームワークについて述べる。 ベイズモデルの柔軟性のため、提案手法はmcdmにおいて、グループ意思決定問題や基準相関など、いくつかの長期にわたる根本的な課題を統計的にエレガントな方法で解決することができる。 また、このモデルは、正規分布や三角形分布、インターバル選好など、意思決定者(DM)の選好において異なる不確実性を満たすことができる。 さらに、DMを複数の網羅的なクラスに分類できる確率的混合モデルを開発した。 確率的ランキングスキームは、基準と代替案の両方に対して設計されており、dm(s) の選好に基づいて、ある基準/代替が他の基準よりも重要である程度を特定する。 実験では,いくつかの数値例で提案手法の有効性を検証し,他の手法と比較して有意な特徴を強調する。

This paper presents a Bayesian framework predicated on a probabilistic interpretation of the MCDM problems and encompasses several well-known multi-criteria decision-making (MCDM) methods. Owing to the flexibility of Bayesian models, the proposed framework can address several long-standing, fundamental challenges in MCDM, including group decision-making problems and criteria correlation, in a statistically elegant way. Also, the model can accommodate different forms of uncertainty in the preferences of the decision makers (DMs), such as normal and triangular distributions and interval preferences. Further, a probabilistic mixture model is developed that can group the DMs into several exhaustive classes. A probabilistic ranking scheme is also designed for both criteria and alternatives, where it identifies the extent to which one criterion/alternative is more important than another based on the DM(s) preferences. The experiments validate the outcome of the proposed framework on several numerical examples and highlight its salient features compared to other methods.
翻訳日:2022-08-30 13:46:27 公開日:2022-08-29
# イベントデータにおける驚くべき状況の検出

Detecting Surprising Situations in Event Data ( http://arxiv.org/abs/2208.13515v1 )

ライセンス: Link先を確認
Christian Kohlschmidt and Mahnaz Sadat Qafari and Wil M. P. van der Aalst(参考訳) プロセスマイニングは、組織が運用プロセスを理解し改善するために使用する一連のテクニックである。 プロセスの再設計手順を設計する第一のステップは、プロセス改善の機会を見つけることです。 既存の研究では、望ましくない結果が生じる問題のあるプロセスインスタンスの集合が事前に知られているか、容易に検出できると仮定される。 したがって、プロセス強化手順は、これらのプロセスインスタンスの根本原因と問題に対する治療を見つけることを伴う。 例えば、問題のあるインスタンスのセットは、プロセスの特徴の1つで与えられた閾値よりも、外れ値または値が小さい/大きいものと見なされる。 しかし、このアプローチを用いると、これらの問題のあるプロセスインスタンスによって捕捉されない多くのプロセス強化機会が失われる。 この問題を克服するために,プロセス拡張領域を文脈に敏感な異常/異常検出問題として定式化する。 我々は、プロセス性能が驚くべき状況(プロセスインスタンスまたはプロセスインスタンスのプレフィックス)の集合としてプロセス拡張領域を定義します。 我々は、プロセスパフォーマンス/アウトカムが、同様の状況でパフォーマンス/アウトカムが期待されたものと大きく異なる状況に特徴付けることを目指している。 提案手法の有効性と妥当性を評価するため,複数の実生活イベントログ上で実装および評価を行った。

Process mining is a set of techniques that are used by organizations to understand and improve their operational processes. The first essential step in designing any process reengineering procedure is to find process improvement opportunities. In existing work, it is usually assumed that the set of problematic process instances in which an undesirable outcome occurs is known prior or is easily detectable. So the process enhancement procedure involves finding the root causes and the treatments for the problem in those process instances. For example, the set of problematic instances is considered as those with outlier values or with values smaller/bigger than a given threshold in one of the process features. However, on various occasions, using this approach, many process enhancement opportunities, not captured by these problematic process instances, are missed. To overcome this issue, we formulate finding the process enhancement areas as a context-sensitive anomaly/outlier detection problem. We define a process enhancement area as a set of situations (process instances or prefixes of process instances) where the process performance is surprising. We aim to characterize those situations where process performance/outcome is significantly different from what was expected considering its performance/outcome in similar situations. To evaluate the validity and relevance of the proposed approach, we have implemented and evaluated it on several real-life event logs.
翻訳日:2022-08-30 13:46:10 公開日:2022-08-29
# 文類似性のための合成データ同定に基づく重み付け戦略

Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity ( http://arxiv.org/abs/2208.13376v1 )

ライセンス: Link先を確認
Taehee Kim, ChaeHun Park, Jimin Hong, Radhika Dua, Edward Choi and Jaegul Choo(参考訳) 意味のある文の埋め込みは自然言語処理における多くのタスクにおいて重要である。 このような組込みを実現するために、最近の研究は、トレーニングコーパスとして事前学習言語モデル(plms)からの合成データを利用するというアイデアを探求している。 しかし、plmは人間の文章とは大きく異なる文を生成することが多い。 これらすべての合成例を、深層ニューラルネットワークのトレーニングに等しく扱うことは、意味的に意味のある埋め込みの学習に悪影響を及ぼす可能性があると仮定する。 これを分析するために,まず,機械文を識別する分類器を訓練し,機械によって識別された文の言語的特徴が,人間文と大きく異なることを観察する。 そこで本研究では,まず分類器を訓練し,各文の重要度を計測する手法を提案する。 分類器からの蒸留情報は、信頼できる文埋め込みモデルを訓練するために使用される。 実世界の4つのデータセットを広範囲に評価することにより、合成データに基づいてトレーニングしたモデルが一般化し、既存のベースラインを上回っていることを示す。 実装はhttps://github.com/ddehun/coling2022_reweighting_stsで公開しています。

Semantically meaningful sentence embeddings are important for numerous tasks in natural language processing. To obtain such embeddings, recent studies explored the idea of utilizing synthetically generated data from pretrained language models (PLMs) as a training corpus. However, PLMs often generate sentences much different from the ones written by human. We hypothesize that treating all these synthetic examples equally for training deep neural networks can have an adverse effect on learning semantically meaningful embeddings. To analyze this, we first train a classifier that identifies machine-written sentences, and observe that the linguistic features of the sentences identified as written by a machine are significantly different from those of human-written sentences. Based on this, we propose a novel approach that first trains the classifier to measure the importance of each sentence. The distilled information from the classifier is then used to train a reliable sentence embedding model. Through extensive evaluation on four real-world datasets, we demonstrate that our model trained on synthetic data generalizes well and outperforms the existing baselines. Our implementation is publicly available at https://github.com/ddehun/coling2022_reweighting_sts.
翻訳日:2022-08-30 13:39:41 公開日:2022-08-29
# StoryTrans: 談話表現とコンテンツエンハンスを備えた非並列ストーリーオーサリング

StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse Representations and Content Enhancing ( http://arxiv.org/abs/2208.13423v1 )

ライセンス: Link先を確認
Xuekai Zhu, Jian Guan, Minlie Huang, Juan Liu(参考訳) 非並列テキストスタイル転送は自然言語生成において重要なタスクである。 しかし,従来の研究では,文章の感情や形式的伝達など,トークンや文のレベルに重点を置いていたが,談話レベルでの長文の移動は無視されていた。 長文は通常、文よりも会話構造のような複雑な著者の言語的嗜好を含む。 本稿では、ソースセマンティクスを維持しつつ、特定の著者スタイルに入力ストーリーを転送する必要があるパラレルストーリーの著者スタイル転送のタスクを定式化する。 この問題に対処するために,対話表現を利用してソースコンテンツ情報をキャプチャし,学習可能なスタイル埋め込みでターゲットスタイルに転送する,StoryTransと呼ばれる生成モデルを提案する。 モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。 さらに,コンテンツの保存性を高めるため,ソーステキストのスタイル固有のキーワードを明示的に生成するマスク・アンド・フィル・フレームワークを設計した。 さらに,このタスクのためのデータセットを中国語と英語でそれぞれ構築した。 大規模な実験により,本モデルはスタイル転送とコンテンツ保存の全体的な性能において,強いベースラインを上回ります。

Non-parallel text style transfer is an important task in natural language generation. However, previous studies concentrate on the token or sentence level, such as sentence sentiment and formality transfer, but neglect long style transfer at the discourse level. Long texts usually involve more complicated author linguistic preferences such as discourse structures than sentences. In this paper, we formulate the task of non-parallel story author-style transfer, which requires transferring an input story into a specified author style while maintaining source semantics. To tackle this problem, we propose a generation model, named StoryTrans, which leverages discourse representations to capture source content information and transfer them to target styles with learnable style embeddings. We use an additional training objective to disentangle stylistic features from the learned discourse representation to prevent the model from degenerating to an auto-encoder. Moreover, to enhance content preservation, we design a mask-and-fill framework to explicitly fuse style-specific keywords of source texts into generation. Furthermore, we constructed new datasets for this task in Chinese and English, respectively. Extensive experiments show that our model outperforms strong baselines in overall performance of style transfer and content preservation.
翻訳日:2022-08-30 13:39:23 公開日:2022-08-29
# 因果伐採されたセマンティック依存林による医療関係抽出支援

Supporting Medical Relation Extraction via Causality-Pruned Semantic Dependency Forest ( http://arxiv.org/abs/2208.13472v1 )

ライセンス: Link先を確認
Yifan Jin, Jiangmeng Li, Zheng Lian, Chengbo Jiao, Xiaohui Hu(参考訳) 医療関係抽出(MRE)タスクは、医療テキスト中のエンティティ間の関係を抽出することを目的としている。 従来の関係抽出手法は、例えば依存木などの構文情報を探索することで、驚くべき成功を収める。 しかし、ドメイン外パーサによって生成された医療用テキストに対する1-best dependency treeの品質は相対的に制限され、医療関連抽出法の性能が低下する可能性がある。 そこで本研究では,因果的説明理論に基づく医用テキストからの意味と統語情報を共同でモデル化する手法を提案する。 我々はセマンティック埋め込み1-best依存木からなる依存林を生成する。 次に、タスク固有の因果説明器を用いて依存関係の森を掘り下げ、さらに設計済みのグラフ畳み込みネットワークに供給して、下流タスクの対応する表現を学ぶ。 実験的に、ベンチマーク医学データセットにおける様々な比較は、我々のモデルの有効性を示す。

Medical Relation Extraction (MRE) task aims to extract relations between entities in medical texts. Traditional relation extraction methods achieve impressive success by exploring the syntactic information, e.g., dependency tree. However, the quality of the 1-best dependency tree for medical texts produced by an out-of-domain parser is relatively limited so that the performance of medical relation extraction method may degenerate. To this end, we propose a method to jointly model semantic and syntactic information from medical texts based on causal explanation theory. We generate dependency forests consisting of the semantic-embedded 1-best dependency tree. Then, a task-specific causal explainer is adopted to prune the dependency forests, which are further fed into a designed graph convolutional network to learn the corresponding representation for downstream task. Empirically, the various comparisons on benchmark medical datasets demonstrate the effectiveness of our model.
翻訳日:2022-08-30 13:39:02 公開日:2022-08-29
# naab: Farsi用の準備の整ったプラグ&プレイコーパス

naab: A ready-to-use plug-and-play corpus for Farsi ( http://arxiv.org/abs/2208.13486v1 )

ライセンス: Link先を確認
Sadra Sabouri, Elnaz Rahmati, Soroush Gooran, Hossein Sameti(参考訳) テキストデータの巨大なコーパスは、トランスフォーマーベースのモデルのような深層モデルのトレーニングにおいて重要なニーズであることが常に知られている。 この問題は、Farsiのような低リソース言語でより発生しています。 我々はFarsiで最大のクリーンで使いやすいオープンソーステキストコーパスであるnaabを提案する。 約130gbのデータと2億5000万段落、150億語が含まれている。 プロジェクト名は、フルシ語の naab k からきており、これは純粋でハイグレードを意味する。 また、naab-rawと呼ばれるコーパスの生バージョンと、カスタマイズしたコーパスを作成したい人でも使える、使いやすいプリプロセッサも提供しています。

Huge corpora of textual data are always known to be a crucial need for training deep models such as transformer-based ones. This issue is emerging more in lower resource languages - like Farsi. We propose naab, the biggest cleaned and ready-to-use open-source textual corpus in Farsi. It contains about 130GB of data, 250 million paragraphs, and 15 billion words. The project name is derived from the Farsi word NAAB K which means pure and high grade. We also provide the raw version of the corpus called naab-raw and an easy-to-use preprocessor that can be employed by those who wanted to make a customized corpus.
翻訳日:2022-08-30 13:38:48 公開日:2022-08-29
# 因果推論のための経験的ガトー微分

Empirical Gateaux Derivatives for Causal Inference ( http://arxiv.org/abs/2208.13701v1 )

ライセンス: Link先を確認
Michael I. Jordan, Yixin Wang, Angela Zhou(参考訳) 有限ディフ参照による統計的汎関数のガトー微分を近似する構成的アルゴリズムを,因果推論関数に焦点をあてて検討する。 確率分布が事前に分かっていないがデータから推定する必要がある場合を考える。 これらの推定分布は, 経験的ガトー誘導体につながり, 経験的, 数値的および解析的ガトー誘導体の関係について検討する。 対実平均推定のケーススタディから、有限差分と解析的ゲイトー微分との正確な関係をインスタンス化する。 次に、摂動および平滑化における数値近似の速度に関する要件を導出し、レート・ダブル・ロバストネスのような一段階調整の統計的利点を保存する。 次に,無限ホリゾンマルコフ決定過程における動的処理レジームや線形計画法などのより複雑な機能について検討する。 任意制約の存在下でバイアス調整を近似する新たな発見は、ガトー微分に対する構成的アプローチの有用性を示している。 また, 関数(レートダブルロバスト性)の統計構造は, 有限差分近似の保存率を低くできることがわかった。 しかし、この性質は特定の汎函数に特有であり、例えば、反実平均に対して発生するが、無限水平 MDP のポリシー値ではない。

We study a constructive algorithm that approximates Gateaux derivatives for statistical functionals by finite-differencing, with a focus on causal inference functionals. We consider the case where probability distributions are not known a priori but also need to be estimated from data. These estimated distributions lead to empirical Gateaux derivatives, and we study the relationships between empirical, numerical, and analytical Gateaux derivatives. Starting with a case study of counterfactual mean estimation, we instantiate the exact relationship between finite-differences and the analytical Gateaux derivative. We then derive requirements on the rates of numerical approximation in perturbation and smoothing that preserve the statistical benefits of one-step adjustments, such as rate-double-robustness. We then study more complicated functionals such as dynamic treatment regimes and the linear-programming formulation for policy optimization in infinite-horizon Markov decision processes. The newfound ability to approximate bias adjustments in the presence of arbitrary constraints illustrates the usefulness of constructive approaches for Gateaux derivatives. We also find that the statistical structure of the functional (rate-double robustness) can permit less conservative rates of finite-difference approximation. This property, however, can be specific to particular functionals, e.g. it occurs for the counterfactual mean but not the infinite-horizon MDP policy value.
翻訳日:2022-08-30 13:36:11 公開日:2022-08-29
# 容積MRIにおける前立腺セグメンテーションのための良いモデルトレーニングの総合的研究

Comprehensive study of good model training for prostate segmentation in volumetric MRI ( http://arxiv.org/abs/2208.13671v1 )

ライセンス: Link先を確認
Carlos N\'acher Collado(参考訳) 前立腺癌は2020年に世界で3番目に多いがんであり、乳がんと肺がんに次いでいる。 さらに近年,前立腺癌が増加傾向にある。 臨床経験によると、この問題が早期に検出され治療された場合、患者の生存率が高い可能性がある。 前立腺癌を診断する1つの課題は、MRIによる前立腺の分節化である。 臨床専門家が行う手作業のセグメンテーションには、オブザーバが必要とする高い時間と集中度、オブザーバ間およびオブザーバ内変動性といった欠点がある。 近年,畳み込みニューラルネットワークに基づく前立腺のセグメント化への自動アプローチが登場している。 多くは新しく提案された建築である。 本稿では,前立腺の予測課題に適応させることにより,いくつかの深層学習モデルを徹底的に研究する。 私は新しいアーキテクチャを使っていませんが、ネットワークのトレーニングにもっと集中しています。 私のアプローチはResNext101 3DエンコーダとUnet3Dデコーダをベースにしています。 私は、データのリサンプリングにおける解像度の重要性について研究しています。

Prostate cancer was the third most common cancer in 2020 internationally, coming after breast cancer and lung cancer. Furthermore, in recent years prostate cancer has shown an increasing trend. According to clinical experience, if this problem is detected and treated early, there can be a high chance of survival for the patient. One task that helps diagnose prostate cancer is prostate segmentation from magnetic resonance imaging. Manual segmentation performed by clinical experts has its drawbacks such as: the high time and concentration required from observers; and inter- and intra-observer variability. This is why in recent years automatic approaches to segment a prostate based on convolutional neural networks have emerged. Many of them have novel proposed architectures. In this paper I make an exhaustive study of several deep learning models by adjusting them to the task of prostate prediction. I do not use novel architectures, but focus my work more on how to train the networks. My approach is based on a ResNext101 3D encoder and a Unet3D decoder. I provide a study of the importance of resolutions in resampling data, something that no one else has done before.
翻訳日:2022-08-30 13:33:23 公開日:2022-08-29
# 直交性制約付き分散分散最適化のための確率的勾配追従アルゴリズム

A Variance-Reduced Stochastic Gradient Tracking Algorithm for Decentralized Optimization with Orthogonality Constraints ( http://arxiv.org/abs/2208.13643v1 )

ライセンス: Link先を確認
Lei Wang and Xin Liu(参考訳) 直交制約を伴う分散最適化は、科学計算やデータ科学において広く見られる。 直交制約は非凸であるため、効率的なアルゴリズムを設計することは極めて困難である。 既存のアプローチでは、リーマン最適化の幾何ツールを利用して、高サンプリングと通信の複雑さを犠牲にしてこの問題を解決する。 この難しさを解消するために,直交性制約を解消できる2つの新しい手法に基づき,定常点に$o(1/k)$の収束率を持つ分散還元確率勾配追跡(vrsgt)アルゴリズムを提案する。 我々の知る限り、VRSGTは、サンプリングと通信の複雑さを同時に軽減する直交制約付き分散最適化のための最初のアルゴリズムである。 数値実験では、VRSGTは現実の自動運転アプリケーションで有望な性能を発揮する。

Decentralized optimization with orthogonality constraints is found widely in scientific computing and data science. Since the orthogonality constraints are nonconvex, it is quite challenging to design efficient algorithms. Existing approaches leverage the geometric tools from Riemannian optimization to solve this problem at the cost of high sample and communication complexities. To relieve this difficulty, based on two novel techniques that can waive the orthogonality constraints, we propose a variance-reduced stochastic gradient tracking (VRSGT) algorithm with the convergence rate of $O(1 / k)$ to a stationary point. To the best of our knowledge, VRSGT is the first algorithm for decentralized optimization with orthogonality constraints that reduces both sampling and communication complexities simultaneously. In the numerical experiments, VRSGT has a promising performance in a real-world autonomous driving application.
翻訳日:2022-08-30 13:33:01 公開日:2022-08-29
# 推薦システムにおける論理推論を満足する時間認識自己照会

Time-aware Self-Attention Meets Logic Reasoning in Recommender Systems ( http://arxiv.org/abs/2208.13330v1 )

ライセンス: Link先を確認
Zhijian Luo, Zihan Huang, Jiahui Tang, Yueen Hou, Yanzeng Gao(参考訳) ビッグデータの時代、レコメンダシステムは、私たちの日常生活における情報フィルタリングの重要な手段として、目覚ましい成功を収めた。 近年、認知学習から認知推論まで、論理的推論の手順として推薦のタスクを直感的に構築し、著しい改善を成し遂げたレコメンダシステムの技術的発展が目撃されている。 しかし、推論における論理的ステートメントは順序に関係せず、多くのレコメンデーションタスクにおいて重要な役割を果たす時間情報も考慮しない。 さらに、時間的文脈に組み込まれたレコメンデーションモデルは、それぞれ関連性(無関係)にもっと(無関係に)注目する傾向がある。 本稿では,時間的パターンと自己対応機構を推論に基づく推薦に統合した,神経協調推論(tisancr)に基づくレコメンデーションモデルを提案する。 特に、相対時間で表される時間的パターンは、ユーザの推薦における嗜好を特徴づける文脈と補助情報を提供し、自己注意は情報的パターンを蒸留し、無関係を抑える。 したがって、自己着眼的な時間情報の融合は、ユーザの好みをより深く表現する。 ベンチマークデータセットに関する広範囲な実験は、提案するtisancrが大幅な改善を達成し、最先端の推奨手法を一貫して上回っていることを示している。

At the age of big data, recommender systems have shown remarkable success as a key means of information filtering in our daily life. Recent years have witnessed the technical development of recommender systems, from perception learning to cognition reasoning which intuitively build the task of recommendation as the procedure of logical reasoning and have achieve significant improvement. However, the logical statement in reasoning implicitly admits irrelevance of ordering, even does not consider time information which plays an important role in many recommendation tasks. Furthermore, recommendation model incorporated with temporal context would tend to be self-attentive, i.e., automatically focus more (less) on the relevance (irrelevance), respectively. To address these issues, in this paper, we propose a Time-aware Self-Attention with Neural Collaborative Reasoning (TiSANCR) based recommendation model, which integrates temporal patterns and self-attention mechanism into reasoning-based recommendation. Specially, temporal patterns represented by relative time, provide context and auxiliary information to characterize the user's preference in recommendation, while self-attention is leveraged to distill informative patterns and suppress irrelevances. Therefore, the fusion of self-attentive temporal information provides deeper representation of user's preference. Extensive experiments on benchmark datasets demonstrate that the proposed TiSANCR achieves significant improvement and consistently outperforms the state-of-the-art recommendation methods.
翻訳日:2022-08-30 13:25:57 公開日:2022-08-29
# Affective Manifolds: マシンの心をモデル化する: 好き嫌い、喜び、悲しみ、恐怖、恐怖、そして人間のように

Affective Manifolds: Modeling Machine's Mind to Like, Dislike, Enjoy, Suffer, Worry, Fear, and Feel Like A Human ( http://arxiv.org/abs/2208.13386v1 )

ライセンス: Link先を確認
Benyamin Ghojogh(参考訳) 異なる機械学習と多様体学習アルゴリズムの開発の後、それらをまとめてマシンの強力なマインドを作るのに適した時期かもしれない。 本研究では,機械心の構成要素として感情多様体を提案する。 すべての情動多様体は心の特徴的な群をモデル化し、複数の状態を含む。 我々は機械の心を感情多様体の集合として定義する。 入力信号を感情多様体の埋め込み空間にマッピングするために学習モデルを用いる。 このマッピングを使って、機械やロボットは入力信号を受信し、それに感情的に反応する。 siamese networkを用いて深層メトリック学習を行い,情動多様体学習のための損失関数を提案する。 我々は国家間のマージンを心理学的・哲学的研究に基づいて定義する。 インスタンスのトリプルを使用して、各状態のばらつきを最小限に抑え、状態間の所望距離を持つようにネットワークを訓練する。 情動多様体は機械-機械間相互作用や人間-機械間相互作用に様々な応用ができることを示す。 また,提案手法の検証のためのシミュレーションも行った。 機械の心に必要となるほど多くの情動多様体を持つことができる。 マシンの心の中のより感情的な多様体は、より現実的で効果的である。 本稿では,様々な科学分野の研究者を招き,機械の心にもっと感情的な多様体を挿入することを提案する。

After the development of different machine learning and manifold learning algorithms, it may be a good time to put them together to make a powerful mind for machine. In this work, we propose affective manifolds as components of a machine's mind. Every affective manifold models a characteristic group of mind and contains multiple states. We define the machine's mind as a set of affective manifolds. We use a learning model for mapping the input signals to the embedding space of affective manifold. Using this mapping, a machine or a robot takes an input signal and can react emotionally to it. We use deep metric learning, with Siamese network, and propose a loss function for affective manifold learning. We define margins between states based on the psychological and philosophical studies. Using triplets of instances, we train the network to minimize the variance of every state and have the desired distances between states. We show that affective manifolds can have various applications for machine-machine and human-machine interactions. Some simulations are also provided for verification of the proposed method. It is possible to have as many affective manifolds as required in machine's mind. More affective manifolds in the machine's mind can make it more realistic and effective. This paper opens the door; we invite the researchers from various fields of science to propose more affective manifolds to be inserted in machine's mind.
翻訳日:2022-08-30 13:25:31 公開日:2022-08-29
# スムースモノトン確率的変分不等式とサドル点問題 -- サーベイ

Smooth Monotone Stochastic Variational Inequalities and Saddle Point Problems -- Survey ( http://arxiv.org/abs/2208.13592v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Boris Polyak, Eduard Gorbunov, Dmitry Kovalev, Alexander Gasnikov(参考訳) 本稿では,スムーズな(強く)モノトン確率的変分不等式を解く方法の探索を行う。 まず、確率的手法が最終的に進化した決定論的基礎を与える。 次に,一般確率的定式化の手法について検討し,有限和設定について考察する。 論文の最後の部分は、変分不等式に対するアルゴリズムの最近の様々な(必ずしも確率的ではない)進歩に捧げられている。

This paper is a survey of methods for solving smooth (strongly) monotone stochastic variational inequalities. To begin with, we give the deterministic foundation from which the stochastic methods eventually evolved. Then we review methods for the general stochastic formulation, and look at the finite sum setup. The last parts of the paper are devoted to various recent (not necessarily stochastic) advances in algorithms for variational inequalities.
翻訳日:2022-08-30 13:24:33 公開日:2022-08-29
# 均衡型ニューラル比推定を用いた信頼性シミュレーションに基づく推論に向けて

Towards Reliable Simulation-Based Inference with Balanced Neural Ratio Estimation ( http://arxiv.org/abs/2208.13624v1 )

ライセンス: Link先を確認
Arnaud Delaunoy, Joeri Hermans, Fran\c{c}ois Rozet, Antoine Wehenkel, Gilles Louppe(参考訳) シミュレーションに基づく推論の現代的なアプローチは、コンピュータシミュレータの近似推論を可能にするためにディープラーニングサロゲートに依存している。 しかし実際には、推定後の計算忠実度が保証されることはほとんどない。 例えば、Hermans et al. (2021) は、現在のシミュレーションベースの推論アルゴリズムが過信である後部を生成できることを示した。 本研究では,より保守的になりがちで,信頼性が向上し,同じベイズ最適解を共有するnreアルゴリズムの変種であるバランスド・ニューラル比推定(bnre)を提案する。 我々は,小額のシミュレーション予算体制において,定量化の不確実性を高めるためのバランス条件を課し,予算の増大とともに正確な後方に収束させることにより,これを達成する。 我々は、BNREがNREよりも保守的な後続サロゲートを生成する傾向があることを示す理論的論証を提供する。 BNREを多種多様なタスクで評価し、全てのベンチマークとシミュレーション予算で保守的な後続サロゲートを生成することを示す。 最後に、BNREはNRE上で簡単に実装でき、計算オーバーヘッドは一切発生しない点を強調した。

Modern approaches for simulation-based inference rely upon deep learning surrogates to enable approximate inference with computer simulators. In practice, the estimated posteriors' computational faithfulness is, however, rarely guaranteed. For example, Hermans et al. (2021) show that current simulation-based inference algorithms can produce posteriors that are overconfident, hence risking false inferences. In this work, we introduce Balanced Neural Ratio Estimation (BNRE), a variation of the NRE algorithm designed to produce posterior approximations that tend to be more conservative, hence improving their reliability, while sharing the same Bayes optimal solution. We achieve this by enforcing a balancing condition that increases the quantified uncertainty in small simulation budget regimes while still converging to the exact posterior as the budget increases. We provide theoretical arguments showing that BNRE tends to produce posterior surrogates that are more conservative than NRE's. We evaluate BNRE on a wide variety of tasks and show that it produces conservative posterior surrogates on all tested benchmarks and simulation budgets. Finally, we emphasize that BNRE is straightforward to implement over NRE and does not introduce any computational overhead.
翻訳日:2022-08-30 13:24:25 公開日:2022-08-29
# エピソード強化学習における毒殺の限界を理解する

Understanding the Limits of Poisoning Attacks in Episodic Reinforcement Learning ( http://arxiv.org/abs/2208.13663v1 )

ライセンス: Link先を確認
Anshuka Rangi, Haifeng Xu, Long Tran-Thanh, Massimo Franceschetti(参考訳) 本稿では, 強化学習(RL)アルゴリズムに対するセキュリティ上の脅威を理解するために, エピソディックなRLにおけるターゲットポリシーに対して, 次数-最適学習アルゴリズムを操作するための中毒攻撃について検討し, 2種類の自然的攻撃, すなわち, 即ちemph{reward} と \emph{action} の操作について検討する。 攻撃の効果は,報酬が限定的か非限定的かによって決定的に異なることが分かる。 有界報酬設定では、報酬操作のみまたはアクション操作のみが攻撃の成功を保証できないことを示す。 しかし、報酬とアクション操作を組み合わせることで、敵は任意のオーダー最適学習アルゴリズムを操作でき、対象とするポリシーに従えば$\tilde{\theta}(\sqrt{t})$の合計攻撃コストで従うことができる。 対照的に、非有界報酬設定では、敵が任意の順序最適学習アルゴリズムをうまく操作し、$\tilde{O}(\sqrt{T})$の汚染量を用いてターゲットポリシーに従うのに十分な報酬操作攻撃を示す。 以上の結果から,ロバストなRLアルゴリズムの設計において,有害な攻撃によって何が達成できるのか,あるいは達成できないのかという有用な知見が得られた。

To understand the security threats to reinforcement learning (RL) algorithms, this paper studies poisoning attacks to manipulate \emph{any} order-optimal learning algorithm towards a targeted policy in episodic RL and examines the potential damage of two natural types of poisoning attacks, i.e., the manipulation of \emph{reward} and \emph{action}. We discover that the effect of attacks crucially depend on whether the rewards are bounded or unbounded. In bounded reward settings, we show that only reward manipulation or only action manipulation cannot guarantee a successful attack. However, by combining reward and action manipulation, the adversary can manipulate any order-optimal learning algorithm to follow any targeted policy with $\tilde{\Theta}(\sqrt{T})$ total attack cost, which is order-optimal, without any knowledge of the underlying MDP. In contrast, in unbounded reward settings, we show that reward manipulation attacks are sufficient for an adversary to successfully manipulate any order-optimal learning algorithm to follow any targeted policy using $\tilde{O}(\sqrt{T})$ amount of contamination. Our results reveal useful insights about what can or cannot be achieved by poisoning attacks, and are set to spur more works on the design of robust RL algorithms.
翻訳日:2022-08-30 13:24:03 公開日:2022-08-29
# 大規模多目的最適化のためのリンク計測最小化を用いた協調進化型NSGA-II

Cooperative coevolutionary hybrid NSGA-II with Linkage Measurement Minimization for Large-scale Multi-objective optimization ( http://arxiv.org/abs/2208.13415v1 )

ライセンス: Link先を確認
Rui Zhong and Masaharu Munetomo(参考訳) 本稿では,LMM(Linkage Measurement Minimization)という,大規模多目的問題(LSMOP)に対する協調的共進化に基づく可変グループ化手法を提案する。 サブプロブレム最適化段階では,推定収束点に基づくガウスサンプリング演算子を用いたハイブリッドNSGA-IIを提案する。 可変グルーピングの段階では,変数グルーピング問題を組合せ最適化問題として扱い,実コード上での非線形性チェック(LINC-R)によるリンケージ同定に基づいてリンク計測関数を設計する。 この変数グループ化メソッドをlsmopsに拡張する。 サブプロブレム最適化の段階では、パレートフロント(PF)周辺により良い解が存在する確率が高いと仮定する。 この仮説に基づき、最適化の各世代の収束点を推定し、収束点の周りにガウスサンプリングを行う。 客観的価値の高いサンプルは、エリートとして最適化に参加します。 数値実験により,変数群化法は一般的な変数群化法よりも優れており,ハイブリッドNSGA-IIは多目的問題最適化の幅広い可能性を示している。

In this paper, we propose a variable grouping method based on cooperative coevolution for large-scale multi-objective problems (LSMOPs), named Linkage Measurement Minimization (LMM). And for the sub-problem optimization stage, a hybrid NSGA-II with a Gaussian sampling operator based on an estimated convergence point is proposed. In the variable grouping stage, according to our previous research, we treat the variable grouping problem as a combinatorial optimization problem, and the linkage measurement function is designed based on linkage identification by the nonlinearity check on real code (LINC-R). We extend this variable grouping method to LSMOPs. In the sub-problem optimization stage, we hypothesize that there is a higher probability of existing better solutions around the Pareto Front (PF). Based on this hypothesis, we estimate a convergence point at every generation of optimization and perform Gaussian sampling around the convergence point. The samples with good objective value will participate in the optimization as elites. Numerical experiments show that our variable grouping method is better than some popular variable grouping methods, and hybrid NSGA-II has broad prospects for multi-objective problem optimization.
翻訳日:2022-08-30 13:21:36 公開日:2022-08-29
# 皮質刺激による配置とルーティング:マルチコアニューロモーフィックプロセッサにおけるメモリ資源の最小化

Cortical-inspired placement and routing: minimizing the memory resources in multi-core neuromorphic processors ( http://arxiv.org/abs/2208.13587v1 )

ライセンス: Link先を確認
Vanessa R. C. Leite, Zhe Su, Adrian M. Whatley, Giacomo Indiveri(参考訳) 脳にインスパイアされたイベントベースのニューロモルフィック処理システムは、特にバイオメディカル回路やシステムにとって有望な技術として登場した。 しかしながら、ニューラルネットワークのニューロモルフィックと生物学的実装には、重要なエネルギーとメモリの制約がある。 マルチコアニューロモルフィックプロセッサにおけるメモリ資源の使用を最小限に抑えるため,生物学的ニューラルネットワークに触発されたネットワーク設計手法を提案する。 本手法は,小型ネットワーク向けに最適化された新しいルーティング方式の設計と,それと同時に,小型ネットワークモデルのリソース割り当てを最適化するハードウェア対応配置アルゴリズムを提案する。 正準小世界ネットワークによるアルゴリズムの検証と、それに由来する他のネットワークに対する予備的な結果を示す。

Brain-inspired event-based neuromorphic processing systems have emerged as a promising technology in particular for bio-medical circuits and systems. However, both neuromorphic and biological implementations of neural networks have critical energy and memory constraints. To minimize the use of memory resources in multi-core neuromorphic processors, we propose a network design approach inspired by biological neural networks. We use this approach to design a new routing scheme optimized for small-world networks and, at the same time, to present a hardware-aware placement algorithm that optimizes the allocation of resources for small-world network models. We validate the algorithm with a canonical small-world network and present preliminary results for other networks derived from it
翻訳日:2022-08-30 13:21:17 公開日:2022-08-29
# カルカソンヌゲームにおけるセマンティック・インスパイアされた進化的アルゴリズムを用いた樹上信頼境界の進化

Evolving the MCTS Upper Confidence Bounds for Trees Using a Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne ( http://arxiv.org/abs/2208.13589v1 )

ライセンス: Link先を確認
Edgar Galv\'an, Gavin Simpson, and Fred Valdez Ameneyro(参考訳) Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。 mctsの成功は、ツリーの構築方法に大きく依存し、選択プロセスがこれにおいて基本的な役割を果たす。 信頼性が証明された特定の選択メカニズムの1つは、木に対する上部信頼境界(UCT)に基づいている。 UCTは、MCTSの統計ツリーに格納されている値を考慮して、探索と利用のバランスをとる。 しかし、mcts uctのチューニングは、これがうまく機能するためには必要である。 本研究では,進化的アルゴリズム(eas)を用いて数式を進化させ,uctの公式を代用し,mctsにおける進化的表現を用いる。 より具体的には、提案する意味に触発された進化的アルゴリズム(siea-mcts)を用いて表現を進化させる。 これは遺伝的プログラミング(GP)のセマンティクスにインスパイアされたもので、適合性ケースの使用はGPで採用されるべき要件と見なされる。 フィットネスケースは通常、個人の適合度を決定するために使用され、個人の意味的類似性(または相似性)を計算するために使用される。 しかし、MCTSではフィットネスケースは利用できない。 我々は、MCTSの複数の報酬値を用いて、個人の適合度と意味論の両方を決定できるようにこの概念を拡張した。 これにより、SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。 提案するsiea-mctsの性能を,mctsアルゴリズム,mctsラピッドアクション値推定アルゴリズム,*-minimaxアルゴリズムの3つの変種,ランダムコントローラ,さらに2つのeaアプローチと比較した。 SIEA-MCTSは、カーカソンヌの挑戦的なゲームにおいて、これらのインテリジェントコントローラのほとんどを上回っていることを示す。

Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for optimal decisions. The success of MCTS depends heavily on how the tree is built and the selection process plays a fundamental role in this. One particular selection mechanism that has proved to be reliable is based on the Upper Confidence Bounds for Trees (UCT). The UCT attempts to balance exploration and exploitation by considering the values stored in the statistical tree of the MCTS. However, some tuning of the MCTS UCT is necessary for this to work well. In this work, we use Evolutionary Algorithms (EAs) to evolve mathematical expressions with the goal to substitute the UCT formula and use the evolved expressions in MCTS. More specifically, we evolve expressions by means of our proposed Semantic-inspired Evolutionary Algorithm in MCTS approach (SIEA-MCTS). This is inspired by semantics in Genetic Programming (GP), where the use of fitness cases is seen as a requirement to be adopted in GP. Fitness cases are normally used to determine the fitness of individuals and can be used to compute the semantic similarity (or dissimilarity) of individuals. However, fitness cases are not available in MCTS. We extend this notion by using multiple reward values from MCTS that allow us to determine both the fitness of an individual and its semantics. By doing so, we show how SIEA-MCTS is able to successfully evolve mathematical expressions that yield better or competitive results compared to UCT without the need of tuning these evolved expressions. We compare the performance of the proposed SIEA-MCTS against MCTS algorithms, MCTS Rapid Action Value Estimation algorithms, three variants of the *-minimax family of algorithms, a random controller and two more EA approaches. We consistently show how SIEA-MCTS outperforms most of these intelligent controllers in the challenging game of Carcassonne.
翻訳日:2022-08-30 13:21:05 公開日:2022-08-29
# 蛍光分子光による頭頸部腫瘍の同定

Fluorescence molecular optomic signatures improve identification of tumors in head and neck specimens ( http://arxiv.org/abs/2208.13314v1 )

ライセンス: Link先を確認
Yao Chen, Samuel S. Streeter, Brady Hunt, Hira S. Sardar, Jason R. Gunn, Laura J. Tafe, Joseph A. Paydarfar, Brian W. Pogue, Keith D. Paulsen, and Kimberley S. Samkoe(参考訳) 本研究では,組織分類のための光蛍光分子イメージングデータに放射能アプローチを拡張し,これをオプトミクスと呼ぶ。 頭頸部扁平上皮癌(HNSCC)切除時に正確な手術指導のために蛍光分子イメージングが出現している。 しかし、腫瘍から正常組織へのコントラストは、標的分子EGFR(EGFR)の不均一発現の内因的生理学的制限によって形成される。 オプトミックは、蛍光によって伝達されるEGFR発現のテクスチャパターンの違いを探索することにより、腫瘍の同定を改善する。 蛍光画像から1,472個の標準オプトミクス特性を抽出した。 サポートベクトルマシン分類器を含む教師付き機械学習パイプラインは、最小冗長性最大関連基準で選択された上位25の特徴で訓練された。 組織学的に悪性度が確認された切除組織の画像パッチを分類し,蛍光強度閾値測定法と比較した。 光学的手法は, 蛍光強度しきい値法(平均89%対81%; P = 0.0072)と比較して, 線量に関係なく, 全試験セット試料の予測精度を一貫して改善した。 蛍光分子イメージングデータへの放射線学的アプローチの拡張は、蛍光誘導手術における癌検出に有望な画像解析技術を提供することが示された。

In this study, a radiomics approach was extended to optical fluorescence molecular imaging data for tissue classification, termed 'optomics'. Fluorescence molecular imaging is emerging for precise surgical guidance during head and neck squamous cell carcinoma (HNSCC) resection. However, the tumor-to-normal tissue contrast is confounded by intrinsic physiological limitations of heterogeneous expression of the target molecule, epidermal growth factor receptor (EGFR). Optomics seek to improve tumor identification by probing textural pattern differences in EGFR expression conveyed by fluorescence. A total of 1,472 standardized optomic features were extracted from fluorescence image samples. A supervised machine learning pipeline involving a support vector machine classifier was trained with 25 top-ranked features selected by minimum redundancy maximum relevance criterion. Model predictive performance was compared to fluorescence intensity thresholding method by classifying testing set image patches of resected tissue with histologically confirmed malignancy status. The optomics approach provided consistent improvement in prediction accuracy on all test set samples, irrespective of dose, compared to fluorescence intensity thresholding method (mean accuracies of 89% vs. 81%; P = 0.0072). The improved performance demonstrates that extending the radiomics approach to fluorescence molecular imaging data offers a promising image analysis technique for cancer detection in fluorescence-guided surgery.
翻訳日:2022-08-30 13:13:45 公開日:2022-08-29
# out-of-distribution detectionにおけるin-distribution compatibilityに向けて

Towards In-distribution Compatibility in Out-of-distribution Detection ( http://arxiv.org/abs/2208.13433v1 )

ライセンス: Link先を確認
Boxi Wu, Jie Jiang, Haidong Ren, Zifan Du, Wenxiao Wang, Zhifeng Li, Deng Cai, Xiaofei He, Binbin Lin, Wei Liu(参考訳) ディープニューラルネットワークは、ターゲットの分布サンプルを識別する能力は優れているが、異常な分布データの検出性能は低い。 この欠陥に対処するため、最先端のソリューションでは、外れ値の補助データセットでディープネットワークをトレーニングする。 これらの補助外乱に対する様々な訓練基準は、ヒューリスティックな直観に基づいて提案される。 しかし, 直観的に設計した不適切な学習基準は, 分布学習を損なう可能性があり, 最終的には成績が低下する。 この結果から,非分配的不和合性の3つの原因,矛盾勾配,疑似可能性,分布シフトを同定した。 そこで本研究では,深層モデルのトップ設計と損失関数の両方を適応させることにより,新たな分散検出手法を提案する。 本手法は,分布特性の確率的特性への干渉を少なくして,分布内互換性を実現する。 いくつかのベンチマークにおいて,本手法は最先端の分散検出性能を達成するだけでなく,分散精度を向上させる。

Deep neural network, despite its remarkable capability of discriminating targeted in-distribution samples, shows poor performance on detecting anomalous out-of-distribution data. To address this defect, state-of-the-art solutions choose to train deep networks on an auxiliary dataset of outliers. Various training criteria for these auxiliary outliers are proposed based on heuristic intuitions. However, we find that these intuitively designed outlier training criteria can hurt in-distribution learning and eventually lead to inferior performance. To this end, we identify three causes of the in-distribution incompatibility: contradictory gradient, false likelihood, and distribution shift. Based on our new understandings, we propose a new out-of-distribution detection method by adapting both the top-design of deep models and the loss function. Our method achieves in-distribution compatibility by pursuing less interference with the probabilistic characteristic of in-distribution features. On several benchmarks, our method not only achieves the state-of-the-art out-of-distribution detection performance but also improves the in-distribution accuracy.
翻訳日:2022-08-30 13:13:24 公開日:2022-08-29
# 衛星画像の一連の意味的クラスタリング

Semantic Clustering of a Sequence of Satellite Images ( http://arxiv.org/abs/2208.13504v1 )

ライセンス: Link先を確認
Carlos Echegoyen, Aritz P\'erez, Guzm\'an Santaf\'e, Unai P\'erez-Goya and Mar\'ia Dolores Ugarte(参考訳) 衛星画像は多くの実世界のアプリケーションにとって非常に価値が高く豊富な資源となっている。 しかし、ほとんどの機械学習モデルをトレーニングするために必要なラベル付きデータは、入手が困難である。 この文脈において、現在の研究は、衛星画像の時間的シーケンスが与えられたとき、その意味的特性と時間的変化に応じて地面の分割を生成する、完全に教師なしの方法論を調査している。 画像のシーケンスは、埋め込まれたタイルの多変量時系列のグリッドに変換される。 これらのタイル列の埋め込みと分割的なクラスタリングは、2つの反復的なステップで構成される: 最初のステップでは、埋め込みは地理的近傍に基づいてタイル列の情報を取り出すことができ、タイルはクラスタにグループ化される。 第2のステップでは、クラスタによって定義された近傍を用いて埋め込みを洗練し、タイルのシーケンスの最終的なクラスタリングを得る。 本研究では,ナバラ(スペイン)地域の20の衛星画像のセマンティッククラスタリングを行う手法について述べる。 その結果,多変量時系列のクラスタリングは頑健であり,研究対象地域に関する信頼度の高い時空間的意味情報を含んでいることがわかった。 地理空間と埋め込み空間の間に存在する密接な関係を明らかにし,これらの組込みによって引き起こされる意味的性質が,時系列のクラスタリングによって十分に活用され,さらに強化されていることを明らかにする。

Satellite images constitute a highly valuable and abundant resource for many real world applications. However, the labeled data needed to train most machine learning models are scarce and difficult to obtain. In this context, the current work investigates a fully unsupervised methodology that, given a temporal sequence of satellite images, creates a partition of the ground according to its semantic properties and their evolution over time. The sequences of images are translated into a grid of multivariate time series of embedded tiles. The embedding and the partitional clustering of these sequences of tiles are constructed in two iterative steps: In the first step, the embedding is able to extract the information of the sequences of tiles based on a geographical neighborhood, and the tiles are grouped into clusters. In the second step, the embedding is refined by using the neighborhood defined by the clusters, and the final clustering of the sequences of tiles is obtained. We illustrate the methodology by conducting the semantic clustering of a sequence of 20 satellite images of the region of Navarra (Spain). The results show that the clustering of multivariate time series is robust and contains trustful spatio-temporal semantic information about the region under study. We unveil the close connection that exists between the geographic and embedded spaces, and find out that the semantic properties attributed to these kinds of embeddings are fully exploited and even enhanced by the proposed clustering of time series.
翻訳日:2022-08-30 13:13:04 公開日:2022-08-29
# 視覚概念と階層的アライメントを用いた効率的な視覚言語学習

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment ( http://arxiv.org/abs/2208.13628v1 )

ライセンス: Link先を確認
Mustafa Shukor, Guillaume Couairon, Matthieu Cord(参考訳) ビジョンと言語の事前学習は、マルチモーダルなダウンストリームタスクに取り組むための一般的なアプローチになっている。 現在のトレンドは、さらに大きなモデルとデータセットを事前トレーニングすることです。 この計算ヘッドロング・ラッシュは、長期的には持続可能ソリューションへの移行には適していないようで、事実上限られた資源を持つ学術研究所を除外している。 そこで本研究では,入力データを効率的に活用し,学習を促進する新しいフレームワークvichaを提案する。 (a)新しい階層的クロスモーダルアライメント損失。 b)マスク画像モデリングに基づく新たな自己監督方式 (c)画像エンコーダの性能を高めるためにクリップなどの既存の基礎モデルで得られた視覚概念と呼ばれる画像レベルのアノテーションを活用する。 事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなどの下流タスクにおいて、他のアプローチよりも優れている。 コードはここで公開される。 https://github.com/mshukor/ViCHA

Vision and Language Pretraining has become the prevalent approach for tackling multimodal downstream tasks. The current trend is to move towards ever larger models and pretraining datasets. This computational headlong rush does not seem reasonable in the long term to move toward sustainable solutions, and de facto excludes academic laboratories with limited resources. In this work, we propose a new framework, dubbed ViCHA, that efficiently exploits the input data to boost the learning by: (a) a new hierarchical cross-modal alignment loss, (b) new self-supervised scheme based on masked image modeling, (c) leveraging image-level annotations, called Visual Concepts, obtained with existing foundation models such as CLIP to boost the performance of the image encoder. Although pretrained on four times less data, our ViCHA strategy outperforms other approaches on several downstream tasks such as Image-Text Retrieval, VQA, Visual Reasoning, Visual Entailment and Visual Grounding. The code will be made publicly available here: https://github.com/mshukor/ViCHA
翻訳日:2022-08-30 13:12:42 公開日:2022-08-29
# 不完全多視点学習のための潜在不均一グラフネットワーク

Latent Heterogeneous Graph Network for Incomplete Multi-View Learning ( http://arxiv.org/abs/2208.13669v1 )

ライセンス: Link先を確認
Pengfei Zhu, Xinjie Yao, Yu Wang, Meng Cao, Binyuan Hui, Shuai Zhao, and Qinghua Hu(参考訳) 近年,多視点学習が急速に進展している。 過去の多くの研究は、各インスタンスが全てのビューに現れると仮定しているが、いくつかのビューからインスタンスが欠落する現実世界のアプリケーションでは一般的であり、結果として不完全なマルチビューデータとなる。 そこで本研究では,複数の不完全ビューを可能な限り柔軟に利用することを目的とした,不完全多視点学習のための潜在異種グラフネットワーク(lhgn)を提案する。 統一潜在表現を学習することにより、異なるビュー間の一貫性と相補性の間のトレードオフが暗黙的に実現される。 サンプルと潜在表現の間の複雑な関係を探索するため,近傍制約とビュー存在制約を初めて提案し,不均一グラフを構築する。 最後に、学習とテストフェーズの矛盾を避けるために、分類タスクのグラフ学習に基づいてトランスダクティブ学習手法を適用した。 実世界のデータセットに対する大規模な実験結果から、既存の最先端アプローチに対する我々のモデルの有効性が示された。

Multi-view learning has progressed rapidly in recent years. Although many previous studies assume that each instance appears in all views, it is common in real-world applications for instances to be missing from some views, resulting in incomplete multi-view data. To tackle this problem, we propose a novel Latent Heterogeneous Graph Network (LHGN) for incomplete multi-view learning, which aims to use multiple incomplete views as fully as possible in a flexible manner. By learning a unified latent representation, a trade-off between consistency and complementarity among different views is implicitly realized. To explore the complex relationship between samples and latent representations, a neighborhood constraint and a view-existence constraint are proposed, for the first time, to construct a heterogeneous graph. Finally, to avoid any inconsistencies between training and test phase, a transductive learning technique is applied based on graph learning for classification tasks. Extensive experimental results on real-world datasets demonstrate the effectiveness of our model over existing state-of-the-art approaches.
翻訳日:2022-08-30 13:12:24 公開日:2022-08-29
# オープンセット半監督オブジェクト検出

Open-Set Semi-Supervised Object Detection ( http://arxiv.org/abs/2208.13722v1 )

ライセンス: Link先を確認
Yen-Cheng Liu, Chih-Yao Ma, Xiaoliang Dai, Junjiao Tian, Peter Vajda, Zijian He, Zsolt Kira(参考訳) 半教師付き物体検出(ssod: semi-supervised object detection)の最近の開発は、ラベルのないデータを利用して物体検出を改善するという可能性を示している。 しかし、これらの手法は、未ラベルデータには、大規模な未ラベルデータセットと非現実的なOODクラスが含まれていないと仮定している。 本稿では,Open-Set Semi-Supervised Object Detection (OSSOD)という,より実用的で困難な課題について考察する。 まず,既存のSSOD法はオープンセット条件下での性能向上率を低くするが,これは意味的拡張によって引き起こされ,OODオブジェクトは半教師付きトレーニングのための分布内擬似ラベルとして誤予測される。 この問題に対処するために、SSODメソッドと統合されたオンラインおよびオフラインのOOD検出モジュールを検討する。 本研究により, 自己監督型視覚変換器を用いたオフラインOOD検出器は, 擬似ラベルの干渉に対する堅牢性から, オンラインOOD検出器に対して良好に動作することがわかった。 提案するフレームワークは意味拡張問題に効果的に対処し,大規模なCOCO-OpenImageを含むOSSODベンチマークの一貫性の向上を示す。 また, 分散クラス数, 監督度, ラベルなし集合の組合せなど, 異なるossod条件下でのフレームワークの有効性を検証した。

Recent developments for Semi-Supervised Object Detection (SSOD) have shown the promise of leveraging unlabeled data to improve an object detector. However, thus far these methods have assumed that the unlabeled data does not contain out-of-distribution (OOD) classes, which is unrealistic with larger-scale unlabeled datasets. In this paper, we consider a more practical yet challenging problem, Open-Set Semi-Supervised Object Detection (OSSOD). We first find the existing SSOD method obtains a lower performance gain in open-set conditions, and this is caused by the semantic expansion, where the distracting OOD objects are mispredicted as in-distribution pseudo-labels for the semi-supervised training. To address this problem, we consider online and offline OOD detection modules, which are integrated with SSOD methods. With the extensive studies, we found that leveraging an offline OOD detector based on a self-supervised vision transformer performs favorably against online OOD detectors due to its robustness to the interference of pseudo-labeling. In the experiment, our proposed framework effectively addresses the semantic expansion issue and shows consistent improvements on many OSSOD benchmarks, including large-scale COCO-OpenImages. We also verify the effectiveness of our framework under different OSSOD conditions, including varying numbers of in-distribution classes, different degrees of supervision, and different combinations of unlabeled sets.
翻訳日:2022-08-30 13:12:09 公開日:2022-08-29
# 正規化活性化関数:より良い収束に向けて

Normalized Activation Function: Toward Better Convergence ( http://arxiv.org/abs/2208.13315v1 )

ライセンス: Link先を確認
Yuan Peiwen, Zhu Changsheng(参考訳) アクティベーション関数は、ニューラルネットワークが非線形性を導入するために必須である。 多くの実験が様々な活性化関数を検証するが、活性化関数に関する理論的研究は不十分である。 本研究では, 活性化関数が勾配の分散に与える影響について検討し, 活性化関数を正規化して, ニューラルネットワークの収束性を高めるために, 全層で勾配の分散を維持する手法を提案する。 まず, 学習中にほとんど保存できない理想化された初期状態において, 活性化関数の影響が考慮される勾配のばらつきの解析に関する先行研究を補完し, 良好な活性化関数ができるだけ満足すべき特性を得た。 次に,アクティベーション関数の正規化と,アクティベーション関数の有効性を実証する手法を提案する。 そして、実験を観察することで、収束の速度が、前部で導いた性質と大まかに関連していることが分かる。 一般活性化関数に対する正規化活性化関数の実験を行う。 結果は、我々のアプローチが、非正規化のアプローチを一貫して上回っていることを示している。 例えば、正規化されたSwishは、トップ1の精度でResNet50でバニラSwishを1.2%上回る。 本手法は, 完全接続ネットワークと残差ネットワークの両方において, 活性化関数を正規化関数に置き換えることにより, 性能を向上する。

Activation functions are essential for neural networks to introduce non-linearity. A great number of empirical experiments have validated various activation functions, yet theoretical research on activation functions are insufficient. In this work, we study the impact of activation functions on the variance of gradients and propose an approach to normalize activation functions to keep the variance of the gradient same for all layers so that the neural network can achieve better convergence. First, we complement the previous work on the analysis of the variance of gradients where the impact of activation functions are just considered in an idealized initial state which almost cannot be preserved during training and obtained a property that good activation functions should satisfy as possible. Second, we offer an approach to normalize activation functions and testify its effectiveness on prevalent activation functions empirically. And by observing experiments, we discover that the speed of convergence is roughly related to the property we derived in the former part. We run experiments of our normalized activation functions against common activation functions. And the result shows our approach consistently outperforms their unnormalized counterparts. For example, normalized Swish outperforms vanilla Swish by 1.2% on ResNet50 with CIFAR-100 in terms of top-1 accuracy. Our method improves the performance by simply replacing activation functions with their normalized ones in both fully-connected networks and residual networks.
翻訳日:2022-08-30 13:08:00 公開日:2022-08-29
# グラフネットワークと新しい変圧器アーキテクチャを用いた時空間風速予測

Spatio-Temporal Wind Speed Forecasting using Graph Networks and Novel Transformer Architectures ( http://arxiv.org/abs/2208.13585v1 )

ライセンス: Link先を確認
Lars {\O}degaard Bentsen, Narada Dilp Warakagoda, Roy Stenbro, Paal Engelstad(参考訳) 風力エネルギー生産の安全性と信頼性を向上させるため、短期予測が最も重要になっている。 本研究では,ノルウェー大陸棚の時空間風速予測に焦点をあてた。 グラフニューラルネットワーク(gnn)アーキテクチャは、時間相関を学ぶために異なる更新関数を持つ空間依存を抽出するために使用された。 これらの更新機能は、異なるニューラルネットワークアーキテクチャを使用して実装された。 このようなアーキテクチャの1つであるtransformerは、近年、シーケンスモデリングで人気が高まっている。 本研究は,Informer,LogSparse Transformer,Autoformerに焦点をあてた時系列予測を容易にするため,オリジナルのアーキテクチャのさまざまな変更が提案されている。 LogSparse Transformer と Autoformer が風速予測に適用されたのはこれが初めてであり、これらまたは Informer は風速予測のための時空間設定で初めて定式化された。 時空間長短期記憶(LSTM)とMLP(Multi-Layer Perceptron)モデルを比較して,GNNの更新関数として変換器アーキテクチャを改良したモデルの方が,これらのモデルより優れていることを示した。 さらに,信号分解に基づく新しい変圧器アーキテクチャである高速フーリエ変換器(fftransformer)を提案する。 FFTransformerとAutoformerは10分の予測と1時間の予測で優れた結果が得られ、FFTransformerは4時間の予測で他のすべてのモデルよりも大幅に優れていた。 最後に、グラフ表現の接続度を変化させることで、局所的な短期風速予測を改善するために、すべてのモデルが空間的依存をどのように活用できるかを明らかにした。

To improve the security and reliability of wind energy production, short-term forecasting has become of utmost importance. This study focuses on multi-step spatio-temporal wind speed forecasting for the Norwegian continental shelf. A graph neural network (GNN) architecture was used to extract spatial dependencies, with different update functions to learn temporal correlations. These update functions were implemented using different neural network architectures. One such architecture, the Transformer, has become increasingly popular for sequence modelling in recent years. Various alterations of the original architecture have been proposed to better facilitate time-series forecasting, of which this study focused on the Informer, LogSparse Transformer and Autoformer. This is the first time the LogSparse Transformer and Autoformer have been applied to wind forecasting and the first time any of these or the Informer have been formulated in a spatio-temporal setting for wind forecasting. By comparing against spatio-temporal Long Short-Term Memory (LSTM) and Multi-Layer Perceptron (MLP) models, the study showed that the models using the altered Transformer architectures as update functions in GNNs were able to outperform these. Furthermore, we propose the Fast Fourier Transformer (FFTransformer), which is a novel Transformer architecture based on signal decomposition and consists of two separate streams that analyse trend and periodic components separately. The FFTransformer and Autoformer were found to achieve superior results for the 10-minute and 1-hour ahead forecasts, with the FFTransformer significantly outperforming all other models for the 4-hour ahead forecasts. Finally, by varying the degree of connectivity for the graph representations, the study explicitly demonstrates how all models were able to leverage spatial dependencies to improve local short-term wind speed forecasting.
翻訳日:2022-08-30 13:07:37 公開日:2022-08-29
# 大規模ベイズネットワーク学習のための可変クラスタリングと圧縮のアプローチ

Approach of variable clustering and compression for learning large Bayesian networks ( http://arxiv.org/abs/2208.13605v1 )

ライセンス: Link先を確認
Anna V. Bubnova(参考訳) 本稿では,特徴空間クラスタリングによるブロックに基づく大規模ベイズネットワークの学習手法について述べる。 このクラスタリングは正規化相互情報を用いて得られる。 その後のブロックの集約は、ブロック毎に特徴値の組み合わせに関する圧縮情報によって入力される以外、古典的な学習手法を用いて行われる。 このアプローチの検証は、BICとMIの2つのスコア関数に対するグラフ列挙アルゴリズムとして、Hill-Climbingに対して行われる。 このようにして、並列化可能なブロック学習は、並列化学習に適さないと考えられるスコア関数に対しても実装することができる。 このアプローチの利点は、作業の速さと、見つかった構造物の正確性の観点から評価される。

This paper describes a new approach for learning structures of large Bayesian networks based on blocks resulting from feature space clustering. This clustering is obtained using normalized mutual information. And the subsequent aggregation of blocks is done using classical learning methods except that they are input with compressed information about combinations of feature values for each block. Validation of this approach is done for Hill-Climbing as a graph enumeration algorithm for two score functions: BIC and MI. In this way, potentially parallelizable block learning can be implemented even for those score functions that are considered unsuitable for parallelizable learning. The advantage of the approach is evaluated in terms of speed of work as well as the accuracy of the found structures.
翻訳日:2022-08-30 13:06:07 公開日:2022-08-29
# 単眼深度推定のためのエンコーダデコーダネットワークにおけるスキップ接続の再検討

Rethinking Skip Connections in Encoder-decoder Networks for Monocular Depth Estimation ( http://arxiv.org/abs/2208.13441v1 )

ライセンス: Link先を確認
Zhitong Lai, Haichao Sun, Rui Tian, Nannan Ding, Zhiguo Wu, Yanjie Wang(参考訳) スキップ接続は、エンコーダ-デコーダネットワークの基本ユニットであり、ニューラルネットワークの機能伝達を改善することができる。 しかし、接続をスキップするほとんどのメソッドは、エンコーダとデコーダで同じ解像度の機能を接続するだけで、レイヤが深くなったことでエンコーダの情報損失を無視する。 エンコーダの浅い層における特徴量の情報損失を利用するために,単眼深度推定のためのフルスキップ接続ネットワーク(FSCN)を提案する。 さらに,スキップ接続の機能をより緊密に融合するために,適応連結モジュール(ACM)を提案する。 さらに、我々は、FSCNとFSCNの室内および屋内データセット(KITTIデータステーとNYU深度V2データセット)に関する広範な実験を行い、最先端の結果を得る。

Skip connections are fundamental units in encoder-decoder networks, which are able to improve the feature propagtion of the neural networks. However, most methods with skip connections just connected features with the same resolution in the encoder and the decoder, which ignored the information loss in the encoder with the layers going deeper. To leverage the information loss of the features in shallower layers of the encoder, we propose a full skip connection network (FSCN) for monocular depth estimation task. In addition, to fuse features within skip connections more closely, we present an adaptive concatenation module (ACM). Further more, we conduct extensive experiments on the ourdoor and indoor datasets (i.e., the KITTI dataste and the NYU Depth V2 dataset) for FSCN and FSCN gets the state-of-the-art results.
翻訳日:2022-08-30 13:02:02 公開日:2022-08-29
# 弱い特徴を持つ小物体の物体認識を改善するチョーゼン法

Chosen methods of improving object recognition of small objects with weak recognizable features ( http://arxiv.org/abs/2208.13591v1 )

ライセンス: Link先を確認
Magdalena Stacho\'n and Marcin Pietro\'n(参考訳) 多くのオブジェクト検出モデルは、少ないサンプル数、多様性の欠如、低い特徴表現など、小さなオブジェクト検出のいくつかの問題に苦しむ。 GANが生成モデルクラスに属することを考慮し、最初の目的はデータ分散を模倣することを学ぶことである。 適切なGANモデルを使用することで、その量と多様性を増大させる低精度データの増大が可能になる。 このソリューションは、オブジェクト検出結果を改善する可能性がある。 さらに、ディープラーニングモデルにGANベースのアーキテクチャを組み込むことで、小さなオブジェクト認識の精度を高めることができる。 本研究では,VOC Pascalデータセット上での小さなオブジェクト検出を改善するため,拡張型GAN法を提案する。 この方法は、オブジェクトの回転やシフトなどの一般的な拡張戦略と比較される。 実験はFasterRCNNモデルに基づいている。

Many object detection models struggle with several problematic aspects of small object detection including the low number of samples, lack of diversity and low features representation. Taking into account that GANs belong to generative models class, their initial objective is to learn to mimic any data distribution. Using the proper GAN model would enable augmenting low precision data increasing their amount and diversity. This solution could potentially result in improved object detection results. Additionally, incorporating GAN-based architecture inside deep learning model can increase accuracy of small objects recognition. In this work the GAN-based method with augmentation is presented to improve small object detection on VOC Pascal dataset. The method is compared with different popular augmentation strategies like object rotations, shifts etc. The experiments are based on FasterRCNN model.
翻訳日:2022-08-30 13:01:45 公開日:2022-08-29
# 暗黙的ヘイトスピーチ分類における高ばらつき対策

Combating high variance in Data-Scarce Implicit Hate Speech Classification ( http://arxiv.org/abs/2208.13595v1 )

ライセンス: Link先を確認
Debaditya Pal, Kaustubh Chaudhari, Harsh Sharma(参考訳) ヘイトスピーチ分類は、自然言語処理における長年の問題である。 しかしながら、多くのヘイトスピーチ検出手法が存在するにもかかわらず、自然界において暗黙的であるため、彼らはしばしば憎悪的な発言を多く見落としている。 暗黙のヘイトスピーチ分類のタスクを支援するデータセットの開発には、言語におけるニュアンス、ヘイトスピーチを構成するものの定義の相違、そしてそのようなデータに注釈を付ける労働集約的なプロセスなど、独自の課題がある。 この結果、そのようなシステムのトレーニングやテストに利用できるデータが不足しており、パラメータ重変換モデルを用いてこの問題に対処する場合に高分散問題が発生する。 本稿では,様々な最適化手法と正規化手法を検討し,最先端性能を実現する新しいロバータモデルを開発した。

Hate speech classification has been a long-standing problem in natural language processing. However, even though there are numerous hate speech detection methods, they usually overlook a lot of hateful statements due to them being implicit in nature. Developing datasets to aid in the task of implicit hate speech classification comes with its own challenges; difficulties are nuances in language, varying definitions of what constitutes hate speech, and the labor-intensive process of annotating such data. This had led to a scarcity of data available to train and test such systems, which gives rise to high variance problems when parameter-heavy transformer-based models are used to address the problem. In this paper, we explore various optimization and regularization techniques and develop a novel RoBERTa-based model that achieves state-of-the-art performance.
翻訳日:2022-08-30 13:01:22 公開日:2022-08-29
# Frido:複雑なシーン画像合成のための特徴ピラミッド拡散

Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis ( http://arxiv.org/abs/2208.13753v1 )

ライセンス: Link先を確認
Wan-Cyuan Fan, Yen-Chun Chen, DongDong Chen, Yu Cheng, Lu Yuan, Yu-Chiang Frank Wang(参考訳) 拡散モデル(dms)は高品質画像合成に大きな可能性を示している。 しかし、複雑なシーンで画像を生成する場合、画像のグローバル構造とオブジェクトの詳細の両方を適切に記述する方法は、依然として難しい課題である。 本稿では,画像合成のための大規模粗粒化処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。 提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。 上記のマルチスケール表現学習段階では、テキスト、シーングラフ、イメージレイアウトなどの入力条件をさらに活用することができる。 したがって、Fridoは条件付きあるいは横断的な画像合成にも応用できる。 テキスト・画像合成,レイアウト・ツー・イメージ,シーン・グラフ・ツー・イメージ,ラベル・ツー・イメージなど,様々な無条件・条件画像生成タスクについて広範な実験を行った。 具体的には、COCOとOpenImageのレイアウトとイメージ、COCOとVisual Genomeのシーングラフとイメージ、COCOのラベルとイメージの5つのベンチマークで最先端のFIDスコアを達成しました。 コードはhttps://github.com/davidhalladay/fridoで入手できる。

Diffusion models (DMs) have shown great potential for high-quality image synthesis. However, when it comes to producing images with complex scenes, how to properly describe both image global structures and object details remains a challenging task. In this paper, we present Frido, a Feature Pyramid Diffusion model performing a multi-scale coarse-to-fine denoising process for image synthesis. Our model decomposes an input image into scale-dependent vector quantized features, followed by a coarse-to-fine gating for producing image output. During the above multi-scale representation learning stage, additional input conditions like text, scene graph, or image layout can be further exploited. Thus, Frido can be also applied for conditional or cross-modality image synthesis. We conduct extensive experiments over various unconditioned and conditional image generation tasks, ranging from text-to-image synthesis, layout-to-image, scene-graph-to-image, to label-to-image. More specifically, we achieved state-of-the-art FID scores on five benchmarks, namely layout-to-image on COCO and OpenImages, scene-graph-to-image on COCO and Visual Genome, and label-to-image on COCO. Code is available at https://github.com/davidhalladay/Frido.
翻訳日:2022-08-30 12:57:33 公開日:2022-08-29
# スパイキングニューラルネットワークによるベイズ連続学習

Bayesian Continual Learning via Spiking Neural Networks ( http://arxiv.org/abs/2208.13723v1 )

ライセンス: Link先を確認
Nicolas Skatchkovsky, Hyeryung Jang, Osvaldo Simeone(参考訳) 生物学的知性の主な特徴は、エネルギー効率、継続的な適応能力、不確実性定量化によるリスク管理である。 神経形工学は、生物の脳の時間に基づく計算パラダイムからインスピレーションを得てエネルギー効率の高い機械を実装するという目標によって、これまでほとんど推進されてきた。 本稿では,学習タスクの変更に適応可能な神経形態的システムの設計に向けて,不確実性定量化推定の精度向上を図りながらステップを踏み出す。 この目的のために、ベイズ連続学習フレームワーク内でニューラルネットワーク(snn)をスパイクするオンライン学習ルールを導出する。 それぞれのシナプス重みは、事前の知識と観測データから生じる現在の認識の不確かさを定量化するパラメータによって表される。 提案するオンラインルールでは,データとして配信パラメータをストリーミング形式で更新する。 実数値と二値のシナプス重みに対する提案手法のインスタンス化を行う。 intelのlavasプラットフォームを用いた実験結果は、適応能力と不確実性定量化の観点から、頻繁な学習よりもベイジアンのメリットを示している。

Among the main features of biological intelligence are energy efficiency, capacity for continual adaptation, and risk management via uncertainty quantification. Neuromorphic engineering has been thus far mostly driven by the goal of implementing energy-efficient machines that take inspiration from the time-based computing paradigm of biological brains. In this paper, we take steps towards the design of neuromorphic systems that are capable of adaptation to changing learning tasks, while producing well-calibrated uncertainty quantification estimates. To this end, we derive online learning rules for spiking neural networks (SNNs) within a Bayesian continual learning framework. In it, each synaptic weight is represented by parameters that quantify the current epistemic uncertainty resulting from prior knowledge and observed data. The proposed online rules update the distribution parameters in a streaming fashion as data are observed. We instantiate the proposed approach for both real-valued and binary synaptic weights. Experimental results using Intel's Lava platform show the merits of Bayesian over frequentist learning in terms of capacity for adaptation and uncertainty quantification.
翻訳日:2022-08-30 12:51:37 公開日:2022-08-29
# 多目的機械学習における一般化

Generalization In Multi-Objective Machine Learning ( http://arxiv.org/abs/2208.13499v1 )

ライセンス: Link先を確認
Peter S\'uken\'ik and Christoph H. Lampert(参考訳) 現代の機械学習のタスクは、1つだけでなく複数の目的も考慮する必要がある。 例えば、予測品質に加えて、これは学習したモデルの効率性、堅牢性、公正性、あるいはそれらの組み合わせのいずれかかもしれない。 マルチオブジェクト学習は、初期のトレードオフにコミットすることなく、このような問題に対処するための自然なフレームワークを提供する。 驚くべきことに、これまでの統計学習理論は、多目的学習の一般化特性についてほとんど洞察を与えていない。 本研究では,このギャップを埋める第一歩として,多目的設定の基本的な一般化境界と,スカラー化による学習の一般化と過剰な境界を確立する。 また,真の目的のパレート最適集合と,トレーニングデータからの経験的近似のパレート最適集合との関係について,最初の理論的解析を行った。 特に、驚くべき非対称性を示す: すべてのパレート最適解は、経験的にパレート最適解によって近似できるが、その逆ではない。

Modern machine learning tasks often require considering not just one but multiple objectives. For example, besides the prediction quality, this could be the efficiency, robustness or fairness of the learned models, or any of their combinations. Multi-objective learning offers a natural framework for handling such problems without having to commit to early trade-offs. Surprisingly, statistical learning theory so far offers almost no insight into the generalization properties of multi-objective learning. In this work, we make first steps to fill this gap: we establish foundational generalization bounds for the multi-objective setting as well as generalization and excess bounds for learning with scalarizations. We also provide the first theoretical analysis of the relation between the Pareto-optimal sets of the true objectives and the Pareto-optimal sets of their empirical approximations from training data. In particular, we show a surprising asymmetry: all Pareto-optimal solutions can be approximated by empirically Pareto-optimal ones, but not vice versa.
翻訳日:2022-08-30 12:49:29 公開日:2022-08-29
# LogicRank: ジェネレーティブテキスト・画像システムのための論理誘導リグレード

LogicRank: Logic Induced Reranking for Generative Text-to-Image Systems ( http://arxiv.org/abs/2208.13518v1 )

ライセンス: Link先を確認
Bj\"orn Deiseroth, Patrick Schramowski, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) テキスト・ツー・イメージモデルは最近、写実的品質の正確なサンプルで顕著な成功を収めた。 しかし、最先端の言語モデルはまだ正確なステートメントを一貫して評価するのに苦労しているため、言語モデルベースの画像生成プロセスもそうです。 本研究では,dall-e のような最先端テキスト対画像モデルの問題点を提示し,ドローベンチベンチマークに関連する文から正確なサンプルを生成する。 さらに、CLIPはこれらの生成されたサンプルを一貫してリランクできないことを示す。 この目的のために我々は,そのような精度要求設定のためのより正確なランキングシステムを実現する,ニューロシンボリック推論フレームワークであるLogicRankを提案する。 logicrankはテキストから画像へのモデルの生成プロセスにスムーズに統合され、さらにより論理的な正確なモデルにさらに微調整することができる。

Text-to-image models have recently achieved remarkable success with seemingly accurate samples in photo-realistic quality. However as state-of-the-art language models still struggle evaluating precise statements consistently, so do language model based image generation processes. In this work we showcase problems of state-of-the-art text-to-image models like DALL-E with generating accurate samples from statements related to the draw bench benchmark. Furthermore we show that CLIP is not able to rerank those generated samples consistently. To this end we propose LogicRank, a neuro-symbolic reasoning framework that can result in a more accurate ranking-system for such precision-demanding settings. LogicRank integrates smoothly into the generation process of text-to-image models and moreover can be used to further fine-tune towards a more logical precise model.
翻訳日:2022-08-30 12:49:14 公開日:2022-08-29
# GRASP: Promptを用いたRelAtional Semanticsを用いたガイダンスモデル

GRASP: Guiding model with RelAtional Semantics using Prompt ( http://arxiv.org/abs/2208.12494v2 )

ライセンス: Link先を確認
Junyoung Son, Jinsung Kim, Jungwoo Lim, Heuiseok Lim(参考訳) 対話に基づく関係抽出(ダイアログ)タスクは、対話に現れる議論ペア間の関係を予測することを目的としている。 これまでのほとんどの研究では、複数の話者による対話の低情報密度を補うために、微調整事前学習言語モデル(PLM)を広範囲にしか用いていない。 余分な層を持たずにplmの固有知識を効果的に活用し、引数間の関係に関する散在した意味的手がかりを検討するため、promp(grasp)を用いた関係意味論を用いた指導モデルを提案する。 我々は,プロンプトに基づく微調整手法を採用し,与えられた対話の意味的手がかりをキャプチャする。 1)引数認識型プロンプトマーカー戦略と 2) 関係手がかり検出タスク。 実験では, GRASPは, 余分なレイヤを追加せずにPLMのみを利用するにもかかわらず, ダイアログREデータセット上でのF1とF1cのスコアで最先端のパフォーマンスを達成する。

The dialogue-based relation extraction (DialogRE) task aims to predict the relations between argument pairs that appear in dialogue. Most previous studies utilize fine-tuning pre-trained language models (PLMs) only with extensive features to supplement the low information density of the dialogue by multiple speakers. To effectively exploit inherent knowledge of PLMs without extra layers and consider scattered semantic cues on the relation between the arguments, we propose a Guiding model with RelAtional Semantics using Prompt (GRASP). We adopt a prompt-based fine-tuning approach and capture relational semantic clues of a given dialogue with 1) an argument-aware prompt marker strategy and 2) the relational clue detection task. In the experiments, GRASP achieves state-of-the-art performance in terms of both F1 and F1c scores on a DialogRE dataset even though our method only leverages PLMs without adding any extra layers.
翻訳日:2022-08-30 11:12:58 公開日:2022-08-29
# ニューラルネットワークモデルのためのコンパクト事前学習手法

A Compact Pretraining Approach for Neural Language Models ( http://arxiv.org/abs/2208.12367v2 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, Nazgol Tavabi, Ata Kiapour(参考訳) 大規模ニューラルネットワークモデル(NLM)のドメイン適応は、事前学習フェーズにおいて大量の非構造化データと結合される。 しかし,本研究では,事前学習したNLMが,ドメイン内のキー情報に注目するデータのコンパクトなサブセットから,ドメイン内の情報をより効率的に,より高速に学習できることを示す。 抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクト部分集合を構築する。 特に、抽象的な要約を生成するためにBARTに依存しており、KeyBERTはこれらの要約(または元の非構造化テキスト)からキーワードを抽出する。 3つのデータセットと2つの異なるNLMを組み合わせた6つの異なる設定でアプローチを評価した。 以上の結果から,nlm上でトレーニングされたタスク固有分類器は,従来の事前学習法,すなわちデータ全体に対するランダムマスキング法,および事前学習を行わない手法よりも優れていた。 さらに,我々の戦略は,バニラ前訓練の5倍の事前訓練時間を短縮することを示した。 私たちの実験のコードはhttps://github.com/shahriargolchin/compact-pretrainingで公開されています。

Domain adaptation for large neural language models (NLMs) is coupled with massive amounts of unstructured data in the pretraining phase. In this study, however, we show that pretrained NLMs learn in-domain information more effectively and faster from a compact subset of the data that focuses on the key information in the domain. We construct these compact subsets from the unstructured data using a combination of abstractive summaries and extractive keywords. In particular, we rely on BART to generate abstractive summaries, and KeyBERT to extract keywords from these summaries (or the original unstructured text directly). We evaluate our approach using six different settings: three datasets combined with two distinct NLMs. Our results reveal that the task-specific classifiers trained on top of NLMs pretrained using our method outperform methods based on traditional pretraining, i.e., random masking on the entire data, as well as methods without pretraining. Further, we show that our strategy reduces pretraining time by up to five times compared to vanilla pretraining. The code for all of our experiments is publicly available at https://github.com/shahriargolchin/compact-pretraining.
翻訳日:2022-08-30 11:12:39 公開日:2022-08-29
# マルコフモデルを用いた親和性に基づく強化学習エージェントの記号的説明

Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models ( http://arxiv.org/abs/2208.12627v2 )

ライセンス: Link先を確認
Charl Maree and Christian W. Omlin(参考訳) 人工知能の増殖は、ますますモデル理解に依存している。 モデルの振る舞いに関する人間の推論である解釈と、モデルの機能の象徴的な表現である説明の両方を要求する。 安全、信頼、受容のための透明性の必須性にもかかわらず、最先端の強化学習アルゴリズムの不透明さは、彼らの学習戦略の素性を隠す。 我々は,学習戦略のグローバルな本質的親和性を主張する政策規則化手法を開発した。 これらの親和性は、政策の振る舞いを推論する手段を提供し、本質的に解釈可能である。 我々は、個人が投資戦略を定めているパーソナライズされた繁栄管理において、個別の支出個人が異なる投資クラスと異なる関係を持つ可能性があることを実証した。 我々は, 離散マルコフモデルを用いて, 基礎となる原型的ポリシーを再現することで, モデルを説明する。 これらのグローバルサロゲートは原型的な政策の象徴的表現である。

The proliferation of artificial intelligence is increasingly dependent on model understanding. Understanding demands both an interpretation - a human reasoning about a model's behavior - and an explanation - a symbolic representation of the functioning of the model. Notwithstanding the imperative of transparency for safety, trust, and acceptance, the opacity of state-of-the-art reinforcement learning algorithms conceals the rudiments of their learned strategies. We have developed a policy regularization method that asserts the global intrinsic affinities of learned strategies. These affinities provide a means of reasoning about a policy's behavior, thus making it inherently interpretable. We have demonstrated our method in personalized prosperity management where individuals' spending behavior in time dictate their investment strategies, i.e. distinct spending personalities may have dissimilar associations with different investment classes. We now explain our model by reproducing the underlying prototypical policies with discretized Markov models. These global surrogates are symbolic representations of the prototypical policies.
翻訳日:2022-08-30 11:12:22 公開日:2022-08-29
# スパイクカメラ用不確かさ誘導深度融合

Uncertainty Guided Depth Fusion for Spike Camera ( http://arxiv.org/abs/2208.12653v2 )

ライセンス: Link先を確認
Jianing Li, Jiaming Liu, Xiaobao Wei, Jiyuan Zhang, Ming Lu, Lei Ma, Li Du, Tiejun Huang, Shanghang Zhang(参考訳) 奥行き推定は、自動運転のような様々な重要な実世界応用に不可欠である。 しかし、従来のカメラではぼやけた画像しか撮影できないため、高速シナリオでは性能が著しく低下する。 この問題に対処するため、spike cameraはピクセル毎の輝度強度を高いフレームレートで捉えるように設計されている。 しかし, スパイクカメラを用いた深度推定は, 光度整合性に基づく従来の単分子・ステレオ深度推定アルゴリズムを用いて非常に困難である。 本稿では,スパイクカメラの単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。 ステレオスパイク深度推定は近距離でより良い結果が得られるのに対し,モノクラースパイク深度推定は長距離でより良い結果が得られるという事実が本フレームワークの動機となっている。 そこで本研究では,共同学習戦略を用いた2タスク奥行き推定アーキテクチャを導入し,分散不確かさを推定し,単眼とステレオを融合させる。 従来のカメラ深度推定よりもスパイク深度推定の利点を示すために,20K対のサンプルを含むCitySpike20Kというスパイク深度データセットを用いてスパイク深度推定を行う。 UGDFはCitySpike20Kで最先端の結果を達成し、モノクラーまたはステレオスパイク深さ推定ベースラインを全て上回っている。 我々は,CitySpike20Kにおける手法の有効性と一般化を評価するため,広範囲な実験を行った。 我々の知る限り、我々のフレームワークはスパイクカメラ深度推定のための最初のデュアルタスク融合フレームワークである。 コードとデータセットがリリースされる。

Depth estimation is essential for various important real-world applications such as autonomous driving. However, it suffers from severe performance degradation in high-velocity scenario since traditional cameras can only capture blurred images. To deal with this problem, the spike camera is designed to capture the pixel-wise luminance intensity at high frame rate. However, depth estimation with spike camera remains very challenging using traditional monocular or stereo depth estimation algorithms, which are based on the photometric consistency. In this paper, we propose a novel Uncertainty-Guided Depth Fusion (UGDF) framework to fuse the predictions of monocular and stereo depth estimation networks for spike camera. Our framework is motivated by the fact that stereo spike depth estimation achieves better results at close range while monocular spike depth estimation obtains better results at long range. Therefore, we introduce a dual-task depth estimation architecture with a joint training strategy and estimate the distributed uncertainty to fuse the monocular and stereo results. In order to demonstrate the advantage of spike depth estimation over traditional camera depth estimation, we contribute a spike-depth dataset named CitySpike20K, which contains 20K paired samples, for spike depth estimation. UGDF achieves state-of-the-art results on CitySpike20K, surpassing all monocular or stereo spike depth estimation baselines. We conduct extensive experiments to evaluate the effectiveness and generalization of our method on CitySpike20K. To the best of our knowledge, our framework is the first dual-task fusion framework for spike camera depth estimation. Code and dataset will be released.
翻訳日:2022-08-30 11:11:56 公開日:2022-08-29
# 深層音楽分類器における「音楽学者にやさしい」説明のための概念ベース手法

Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier ( http://arxiv.org/abs/2208.12485v2 )

ライセンス: Link先を確認
Francesco Foscarin, Katharina Hoedt, Verena Praher, Arthur Flexer, Gerhard Widmer(参考訳) 音楽データに適用されるディープラーニングシステムを説明する現在のアプローチは、例えば、スペクトログラムやピアノロールのタイムピッチビンで、潜在的に関連する時間周波数ビンを強調することで、低レベルの特徴空間を提供する。 これは、特に技術的な知識のない音楽学者にとって理解が難しい。 この問題に対処するために,ハイレベルな音楽概念に基づくより人間フレンドリな説明に焦点を当てる。 本研究は,訓練されたシステム (ポストホックな説明) を対象とし,ユーザが音楽概念を定義し,そのシステムに関連するかどうかを検証できる教師付きシステムと,関連する概念を含む楽曲の抜粋を自動的に選択し,ユーザに解釈するための教師なしシステムという2つのアプローチを探求する。 既存のシンボリック作曲家分類システムにおいて,両手法を実証し,その可能性を示し,本質的な限界を強調する。

Current approaches for explaining deep learning systems applied to musical data provide results in a low-level feature space, e.g., by highlighting potentially relevant time-frequency bins in a spectrogram or time-pitch bins in a piano roll. This can be difficult to understand, particularly for musicologists without technical knowledge. To address this issue, we focus on more human-friendly explanations based on high-level musical concepts. Our research targets trained systems (post-hoc explanations) and explores two approaches: a supervised one, where the user can define a musical concept and test if it is relevant to the system; and an unsupervised one, where musical excerpts containing relevant concepts are automatically selected and given to the user for interpretation. We demonstrate both techniques on an existing symbolic composer classification system, showcase their potential, and highlight their intrinsic limitations.
翻訳日:2022-08-30 11:11:31 公開日:2022-08-29
# 代数的説明可能なコントローラ:決定木とサポートベクターマシンの結合

Algebraically Explainable Controllers: Decision Trees and Support Vector Machines Join Forces ( http://arxiv.org/abs/2208.12804v2 )

ライセンス: Link先を確認
Florian J\"ungermann, Jan K\v{r}et\'insk\'y, and Maximilian Weininger(参考訳) 近年、意思決定木(DT)は、コントローラ(戦略、ポリシー、スケジューラなど)の説明可能な表現として使われている。 それらはしばしば非常に効率的であり、離散システムのための小さく理解可能なコントローラを生成するが、複雑な連続力学は依然として課題である。 特に、変数間の関係が多項式のようなより複雑な形式を取るとき、それらは利用可能なDT学習手順では得られない。 対照的に、サポートベクトルマシンはより強力な表現を提供し、そのような関係の多くを発見することができるが、説明可能な形式ではない。 したがって、よりリッチでドメイン関連のある代数述語に対する理解可能な表現を得るために、この2つのフレームワークを組み合わせることを提案する。 提案手法を確立されたベンチマーク上で実験的に実証し評価する。

Recently, decision trees (DT) have been used as an explainable representation of controllers (a.k.a. strategies, policies, schedulers). Although they are often very efficient and produce small and understandable controllers for discrete systems, complex continuous dynamics still pose a challenge. In particular, when the relationships between variables take more complex forms, such as polynomials, they cannot be obtained using the available DT learning procedures. In contrast, support vector machines provide a more powerful representation, capable of discovering many such relationships, but not in an explainable form. Therefore, we suggest to combine the two frameworks in order to obtain an understandable representation over richer, domain-relevant algebraic predicates. We demonstrate and evaluate the proposed method experimentally on established benchmarks.
翻訳日:2022-08-30 11:11:12 公開日:2022-08-29
# voxurf:voxelベースの効率的かつ正確な神経表面再構成

Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2208.12697v2 )

ライセンス: Link先を確認
Tong Wu, Jiaqi Wang, Xingang Pan, Xudong Xu, Christian Theobalt, Ziwei Liu, Dahua Lin(参考訳) 神経表面再構成は、多視点画像に基づく正確な3次元表面の再構築を目的としている。 ニューラルボリュームレンダリングに基づく従来の方法は、主に完全に暗黙のモデルをトレーニングし、1つのシーンで何時間もトレーニングする必要がある。 最近の研究は、学習可能なボクセルグリッドにおける重要な情報を記憶することで最適化プロセスを大幅に加速する明示的な体積表現を探求している。 しかしながら、これらのボクセルに基づく手法は、しばしば細かい幾何学の再構築に苦労する。 実験の結果,高品質な表面再構成は,コヒーレント形状の構築能力と色・幾何学依存性の正確なモデリングの2つの重要な要因にかかっていることがわかった。 特に後者は細部の正確な復元の鍵である。 これらの知見にインスパイアされたVoxurfは,2段階からなる,効率的かつ正確な神経表面再構成のためのボクセルベースアプローチである。 1)学習可能な特徴格子を利用して色場を構築し、コヒーレントな粗い形状を得る。 2) 精密な色-幾何依存性を捉えるデュアルカラーネットワークで詳細な幾何を精査する。 さらに,voxel間の情報共有を可能にする階層幾何機能についても紹介する。 実験の結果,Voxurfは高い効率と高い品質を同時に達成できることがわかった。 dtuベンチマークでは、voxurfは最新技術よりも高いコンストラクション品質を実現し、トレーニングの20倍のスピードアップを実現している。

Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model, and they require hours of training for a single scene. Recent efforts explore the explicit volumetric representation, which substantially accelerates the optimization process by memorizing significant information in learnable voxel grids. However, these voxel-based methods often struggle in reconstructing fine-grained geometry. Through empirical studies, we found that high-quality surface reconstruction hinges on two key factors: the capability of constructing a coherent shape and the precise modeling of color-geometry dependency. In particular, the latter is the key to the accurate reconstruction of fine details. Inspired by these findings, we develop Voxurf, a voxel-based approach for efficient and accurate neural surface reconstruction, which consists of two stages: 1) leverage a learnable feature grid to construct the color field and obtain a coherent coarse shape, and 2) refine detailed geometry with a dual color network that captures precise color-geometry dependency. We further introduce a hierarchical geometry feature to enable information sharing across voxels. Our experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality compared to state-of-the-art methods, with 20x speedup in training.
翻訳日:2022-08-30 11:10:59 公開日:2022-08-29