このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20221211となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ライドベルク励起の空間秩序状態の準断熱的準備における微視的ダイナミクスと有効ランダウ・ツェナー転移 Microscopic dynamics and an effective Landau-Zener transition in the quasi-adiabatic preparation of spatially ordered states of Rydberg excitations ( http://arxiv.org/abs/2111.14553v3 ) ライセンス: Link先を確認 | A. F. Tzortzakakis, D. Petrosyan, M. Fleischhauer, K. M{\o}lmer | (参考訳) 我々は、周波数チャープレーザーパルスによる有限1次元格子中の原子の空間配位Rydberg励起の断熱的準備について、近年の量子イジングモデルシミュレーション実験で実現された。
本研究では,原子の非励起状態からリドバーグ励起の反強磁性様状態への相転移の微視的メカニズムを明らかにすることを目的とする。
裸の原子状態に基づいて、システムはリドバーグ励起のはしごを登って、最終的な秩序状態に向かって最も強い振幅の経路に沿っていることが判明した。
その複雑性にもかかわらず、相互作用する多体系は時間依存ハミルトニアンの1対の最低エネルギーの瞬間的集団固有状態を含む効果的な2段階系として記述できる。
対象状態の最終準備精度はランダウ・ゼナーの公式でよく近似でき、通過中の断熱的集団リークは瞬時集団固有状態に適用した摂動的アプローチを用いて推定できる。 We examine the adiabatic preparation of spatially-ordered Rydberg excitations of atoms in finite one-dimensional lattices by frequency-chirped laser pulses, as realized in a number of recent experiments simulating quantum Ising model. Our aims are to unravel the microscopic mechanism of the phase transition from the unexcited state of atoms to the antiferromagnetic-like state of Rydberg excitations by traversing an extended gapless phase, and to estimate the preparation fidelity of the target state in a moderately sized system amenable to detailed numerical analysis. We find that, in the basis of the bare atomic states, the system climbs the ladder of Rydberg excitations predominantly along the strongest-amplitude paths towards the final ordered state. We show that, despite its complexity, the interacting many-body system can be described as an effective two-level system involving a pair of lowest-energy instantaneous collective eigenstates of the time-dependent Hamiltonian. The final preparation fidelity of the target state can then be well approximated by the Landau-Zener formula, while the nonadiabatic population leakage during the passage can be estimated using a perturbative approach applied to the instantaneous collective eigenstates. | 翻訳日:2023-03-06 09:42:39 公開日:2022-12-11 |
# 最大10キュービットのGreenberger-Horne-Zeilinger状態を生成するためのScQクラウド量子計算 ScQ cloud quantum computation for generating Greenberger-Horne-Zeilinger states of up to 10 qubits ( http://arxiv.org/abs/2203.03000v2 ) ライセンス: Link先を確認 | Chi-Tong Chen, Yun-Hao Shi, Zhong-Cheng Xiang, Zheng-An Wang, Tian-Ming Li, Hao-Yu Sun, Tian-Shen He, Xiao-Hui Song, Shi-Ping Zhao, Dongning Zheng, Kai Xu, Heng Fan | (参考訳) 本研究では,10量子ビット超伝導プロセッサの1dアレイを基盤として,scqと呼ばれるオンライン量子計算プラットフォームを提案する。
各キュービット上でシングルキュービット回転ゲートを実行することができる。
10キュービットの1Dアレイ上の最寄りのサイト間の制御NOTゲートが利用可能である。
我々は、このプラットフォームを通じて最大10キュービットのgreenberger-horne-zeilinger状態のオンライン準備と検証を示す。
グラフィカルユーザインタフェースと量子アセンブリ言語は、ScQに実装されたパラメータスキャン機能に依存する上記のタスクを実現するために提示される。
論理ゲートの忠実度や超伝導デバイスの詳細など,この量子計算プラットフォームの性能について述べる。 In this study, we introduce an online public quantum computation platform, named as ScQ, based on a 1D array of a 10-qubit superconducting processor. Single-qubit rotation gates can be performed on each qubit. Controlled-NOT gates between nearest-neighbor sites on the 1D array of 10 qubits are available. We show the online preparation and verification of Greenberger-Horne-Zeilinger states of up to 10 qubits through this platform for all possible blocks of qubits in the chain. The graphical user interface and quantum assembly language methods are presented to achieve the above tasks, which rely on a parameter scanning feature implemented on ScQ. The performance of this quantum computation platform, such as fidelities of logic gates and details of the superconducting device, are presented. | 翻訳日:2023-02-22 23:58:00 公開日:2022-12-11 |
# 低コスト聴覚スクリーニング用ワイヤレスイヤホン Wireless earbuds for low-cost hearing screening ( http://arxiv.org/abs/2212.05435v1 ) ライセンス: Link先を確認 | Justin Chan, Antonio Glenn, Malek Itani, Lisa R. Mancl, Emily Gallagher, Randall Bly, Shwetak Patel, and Shyamnath Gollakota | (参考訳) 耳音響放射を検知して聴覚スクリーニングを行うことができる最初のワイヤレスイヤホンハードウェアを提案する。
従来の考え方では、耳音響放射(耳障りな音)を検出するには、敏感で高価な音響ハードウェアが必要である。
したがって、聴覚スクリーニングのための医療機器は数千ドルを要し、低所得国や中所得国では利用できない。
安価音響ハードウェアを用いたワイヤレスイヤホンの設計と無線センシングアルゴリズムの組み合わせにより,耳音響放射を確実に識別し,聴覚スクリーニングを行うことができることを示す。
提案手法では,周波数変調チャープを低コストスピーカから放射される広帯域パルスと組み合わせ,耳内反射とエコーから耳音響放射を確実に分離する。
2つの医療施設で50耳の臨床的検討を行った。
本研究は,低コストイヤホンが100%感度と89.7%特異性で難聴を検知し,8000ドルの医療機器に匹敵する性能を示した。
低コストでオープンソースのウェアラブル技術を開発することで、これらの医療機器を民主化することで、聴覚スクリーニングにおける世界的な健康上の問題に対処できるかもしれない。 We present the first wireless earbud hardware that can perform hearing screening by detecting otoacoustic emissions. The conventional wisdom has been that detecting otoacoustic emissions, which are the faint sounds generated by the cochlea, requires sensitive and expensive acoustic hardware. Thus, medical devices for hearing screening cost thousands of dollars and are inaccessible in low and middle income countries. We show that by designing wireless earbuds using low-cost acoustic hardware and combining them with wireless sensing algorithms, we can reliably identify otoacoustic emissions and perform hearing screening. Our algorithms combine frequency modulated chirps with wideband pulses emitted from a low-cost speaker to reliably separate otoacoustic emissions from in-ear reflections and echoes. We conducted a clinical study with 50 ears across two healthcare sites. Our study shows that the low-cost earbuds detect hearing loss with 100% sensitivity and 89.7% specificity, which is comparable to the performance of a $8000 medical device. By developing low-cost and open-source wearable technology, our work may help address global health inequities in hearing screening by democratizing these medical devices. | 翻訳日:2023-02-19 12:56:56 公開日:2022-12-11 |
# クライアントサイドMLによるモバイル市民科学アプリのオーサリングプラットフォーム Authoring Platform for Mobile Citizen Science Apps with Client-side ML ( http://arxiv.org/abs/2212.05411v1 ) ライセンス: Link先を確認 | Fahim Hasan Khan, Akila de Silva, Gregory Dusek, James Davis, Alex Pang | (参考訳) データ収集はあらゆる市民科学プロジェクトにおいて不可欠な部分である。
多様なプロジェクト、ある程度の専門知識、あるいは初心者向けのガイダンスがあれば、収集されたデータの品質を大幅に向上させることができる。
市民科学プロジェクトの大部分は、異なる主題の写真やビデオが必要とされる視覚データに依存している。
遠隔地を含め、これらのビジュアルデータは世界中から収集されることが多い。
本稿では,クライアントサイド機械学習(ML)ガイダンスを応用した,市民科学プロジェクト用モバイルアプリの開発を容易にするオーサリングプラットフォームについて紹介する。
私たちのプラットフォームで作成されたアプリは、参加者が正しいデータを認識し、データ収集プロセスの効率を高めるのに役立つ。
本稿では,提案するプラットフォームを2つのユースケースで応用することを示す。rip電流検出アプリと,生物多様性関連プロジェクトの検出アプリである。 Data collection is an integral part of any citizen science project. Given the wide variety of projects, some level of expertise or, alternatively, some guidance for novice participants can greatly improve the quality of the collected data. A significant portion of citizen science projects depends on visual data, where photos or videos of different subjects are needed. Often these visual data are collected from all over the world, including remote locations. In this article, we introduce an authoring platform for easily creating mobile apps for citizen science projects that are empowered with client-side machine learning (ML) guidance. The apps created with our platform can help participants recognize the correct data and increase the efficiency of the data collection process. We demonstrate the application of our proposed platform with two use cases: a rip current detection app for a planned pilot study and a detection app for biodiversity-related projects. | 翻訳日:2023-02-19 12:56:40 公開日:2022-12-11 |
# 浅量子回路による多部絡み合い Genuinely Multipartite Entanglement vias Shallow Quantum Circuits ( http://arxiv.org/abs/2204.09279v2 ) ライセンス: Link先を確認 | Ming-Xing Luo, Shao-Ming Fei | (参考訳) マルチパーティ・エンタングルメントは、量子通信と量子計算にとって重要な資源である。
本研究の目的は, 量子回路の浅部による多部交絡状態のキャラクタリゼーションである。
まず、有限次元空間上の真の多元的絡み合いを、浅層量子回路モデルにおける最小の非自明な回路深さである2つの分離可能な量子チャネルからなる2層浅層量子回路を用いて証明する。
さらに、量子回路の第2層における局所接続能力に依存する半デバイス非依存の絡み合いモデルを提案する。
これは、真の多部交絡状態を区別する完全な階層を意味する。
量子ネットワークの絡み合いとは全く異なるマルチパーティライト非局所性を示す。
これらの結果は、多成分の絡み合い、量子ネットワーク、測定に基づく量子計算に対する新たな洞察を示す。 Multipartite entanglement is of important resources for quantum communication and quantum computation. Our goal in this paper is to characterize general multipartite entangled states according to shallow quantum circuits. We firstly prove any genuinely multipartite entanglement on finite-dimensional spaces can be generated by using 2-layer shallow quantum circuit consisting of two biseparable quantum channels, which the smallest nontrivial circuit depth in the shallow quantum circuit model. We further propose a semi-device-independent entanglement model depending on the local connection ability in the second layer of quantum circuits. This implies a complete hierarchy of distinguishing genuinely multipartite entangled states. It shows a completely different multipartite nonlocality from the quantum network entanglement. These results show new insights for the multipartite entanglement, quantum network, and measurement-based quantum computation. | 翻訳日:2023-02-16 06:25:35 公開日:2022-12-11 |
# 量子相対エントロピーの収束条件とデナール化された量子 Dini lemma のその他の応用 Convergence conditions for the quantum relative entropy and other applications of the deneralized quantum Dini lemma ( http://arxiv.org/abs/2205.09108v2 ) ライセンス: Link先を確認 | M.E.Shirokov | (参考訳) 本稿では,基本相関と絡み合い測度の局所連続性の解析に従来用いられていた,量子ジニ補題と呼ばれる結果の一般化版について述べる。
一般化は、単一の関数ではなく関数の列を考えることである。
これにより、メソッドの可能な適用範囲を広げることができます。
2つの一般収束定理と凸混合の下で局所連続性を保存する定理を証明した。
これらの定理を用いることで、量子相対エントロピーと、ペア(チャネル、入力状態)の関数と見なされる量子チャネルの相互情報に対するいくつかの収束条件を得る。
フォン・ノイマンエントロピーに対する単純な収束基準も得られる。 We describe a generalized version of the result called quantum Dini lemma that was used previously for analysis of local continuity of basic correlation and entanglement measures. The generalization consists in considering sequences of functions instead of a single function. It allows us to expand the scope of possible applications of the method. We prove two general dominated convergence theorems and the theorem about preserving local continuity under convex mixtures. By using these theorems we obtain several convergence conditions for the quantum relative entropy and for the mutual information of a quantum channel considered as a function of a pair (channel, input state). A simple convergence criterion for the von Neumann entropy is also obtained. | 翻訳日:2023-02-12 17:52:16 公開日:2022-12-11 |
# 閉じ込められたイオンのコヒーレント状態。
量子光学と精密測定への応用 Coherent states for trapped ions. Applications in quantum optics and precision measurements ( http://arxiv.org/abs/2206.12604v2 ) ライセンス: Link先を確認 | Bogdan M. Mihalcea | (参考訳) 閉じ込められたイオンに対する運動の圧縮コヒーレント状態 (CSs) の進化は、シュルンディンガー方程式の時間依存性変動原理 (TDVP) を適用して検討した。
この方法は、古典的なハミルトン方程式と運動方程式が導出されるポールと組み合わせトラップの場合に応用される。
したがって、CSは次のような自然なフレームワークを提供する。
(a)超精密測定を目的とした捕捉イオンの量子相関状態
(b)デコヒーレンスにかかわるメカニズムを探求し、
(c)量子古典遷移を研究する。 The evolution of squeezed coherent states (CSs) of motion for trapped ions is investigated by applying the time dependent variational principle (TDVP) for the Schr\"{o}dinger equation. The method is applied in case of Paul and combined traps, for which the classical Hamiltonian and equations of motion are derived. Hence, CS provide a natural framework to: (a) engineer quantum correlated states for trapped ions intended for ultraprecise measurements, (b) explore the mechanisms responsible for decoherence, and (c) investigate the quantum-classical transition. | 翻訳日:2023-02-08 02:05:19 公開日:2022-12-11 |
# 量子ワイドフォームゲーム Quantum Extensive Form Games ( http://arxiv.org/abs/2207.05435v3 ) ライセンス: Link先を確認 | Kazuki Ikeda | (参考訳) 古典的広角ゲームの拡張である量子広角ゲーム(quantum extensive-form game)の概念を提案する。
広範な形式のゲームは、最近のai革命の引き金となったgo、shogi、チェスといったゲームの一般的な概念であり、経済学における多くの重要なゲーム理論モデルの基礎となっている。
量子遷移は、量子ゲームツリー内の経路を対的に消滅させることを可能にし、特定の結果を生み出す確率分布をもたらす。
これは、グローバーのアルゴリズムで表される量子計算による高速化のメカニズムと原理的に似ている。
量子の拡張形式ゲームは、量子生成逆数ネットワークを含む量子学習の一般化でもある。
量子ワイドフォームゲームの新しい例として、1996年にコンウェイが提唱したエンジェル問題の量子形式を提案する。
古典的な問題は解決されたが、それを定量化することでゲームは非自明になる。 We propose a concept of quantum extensive-form games, which is a quantum extension of classical extensive-form games. Extensive-form games is a general concept of games such as Go, Shogi, and chess, which have triggered the recent AI revolution, and is the basis for many important game theoretic models in economics. Quantum transitions allow for pairwise annihilation of paths in the quantum game tree, resulting in a probability distribution that is more likely to produce a particular outcome. This is similar in principle to the mechanism of speed-up by quantum computation represented by Grover's algorithm. A quantum extensive-form game is also a generalization of quantum learning, including Quantum Generative Adversarial Networks. As an new example of quantum extensive-form games, we propose a quantum form of the Angel problem originally proposed by Conway in 1996. The classical problem has been solved but by quantizing it, the game becomes non-trivial. | 翻訳日:2023-02-05 09:47:18 公開日:2022-12-11 |
# ランダムグラフにおけるアンダーソン転移の臨界特性:2パラメータスケーリング理論、Kosterlitz-Thouless型流れおよび多体局在 Critical properties of the Anderson transition in random graphs: two-parameter scaling theory, Kosterlitz-Thouless type flow and many-body localization ( http://arxiv.org/abs/2209.04337v2 ) ライセンス: Link先を確認 | Ignacio Garc\'ia-Mata, John Martin, Olivier Giraud, Bertrand Georgeot, R\'emy Dubertrand, and Gabriel Lemari\'e | (参考訳) ランダムグラフにおけるアンダーソン遷移は、多体局在化(mbl)遷移と類似性があるため、大きな関心を集めている。
後者とは異なり、乱グラフに対する多くの結果は、特にエルゴディック非局在化相から局所化される臨界障害の存在と正確な値が確立されている。
しかし、再正規化群の流れと遷移の性質はよく理解されていない。
逆に、MBL遷移に関する最近の研究は、流れがコステリッツ-トゥーレス型であることを顕著に予測した。
ここでは、グラフ上のアンダーソン転移が同じ種類のフローを示すことを示す。
私たちの研究は、波動関数が横方向の関数よりもずっと大きなローカライズ長$\xi_\parallel$を持つレアブランチの重要性を証明しています。
すなわち、$\xi_\parallel$ は臨界指数 $\nu_\parallel=1$ で発散し、$\xi_\perp$ は遷移点 $w_c$ で有限普遍値 ${\xi_\perp^c}$ に達する。
実際、$\xi_\perp^{-1} \approx {\xi_\perp^c}^{-1} + \xi^{-1}$, with $\xi \sim (w-w_c)^{-\nu_\perp}$ with a new critical exponent $\nu_\perp = 1/2$, ここで$\exp( \xi)$は有限サイズの効果を制御する。
非局在化位相は、短いスケールで臨界レジームの強い非エルゴード的性質を継承するが、大きなスケールではエルゴード的であり、ユニークな臨界指数は$\nu=1/2$である。
これは mbl 遷移と非常に強い類似性を示している:$\xi_\perp$ の挙動は、現象論的再正規化群フローにおける mbl の典型的な局在長について最近予測されたものと同一である。
我々は,smallworld complex networkモデルにおいて,これらの重要な特性を実証し,アンダーソン局在の異なるネットワークパラメータとキーオブザーバブルを考慮し,結果の普遍性を示す。 The Anderson transition in random graphs has raised great interest, partly because of its analogy with the many-body localization (MBL) transition. Unlike the latter, many results for random graphs are now well established, in particular the existence and precise value of a critical disorder separating a localized from an ergodic delocalized phase. However, the renormalization group flow and the nature of the transition are not well understood. In turn, recent works on the MBL transition have made the remarkable prediction that the flow is of Kosterlitz-Thouless type. Here we show that the Anderson transition on graphs displays the same type of flow. Our work attests to the importance of rare branches along which wave functions have a much larger localization length $\xi_\parallel$ than the one in the transverse direction, $\xi_\perp$. Importantly, these two lengths have different critical behaviors: $\xi_\parallel$ diverges with a critical exponent $\nu_\parallel=1$, while $\xi_\perp$ reaches a finite universal value ${\xi_\perp^c}$ at the transition point $W_c$. Indeed, $\xi_\perp^{-1} \approx {\xi_\perp^c}^{-1} + \xi^{-1}$, with $\xi \sim (W-W_c)^{-\nu_\perp}$ associated with a new critical exponent $\nu_\perp = 1/2$, where $\exp( \xi)$ controls finite-size effects. The delocalized phase inherits the strongly non-ergodic properties of the critical regime at short scales, but is ergodic at large scales, with a unique critical exponent $\nu=1/2$. This shows a very strong analogy with the MBL transition: the behavior of $\xi_\perp$ is identical to that recently predicted for the typical localization length of MBL in a phenomenological renormalization group flow. We demonstrate these important properties for a smallworld complex network model and show the universality of our results by considering different network parameters and different key observables of Anderson localization. | 翻訳日:2023-01-27 05:19:38 公開日:2022-12-11 |
# truncated-cumulant trajectoriesによる開量子スピン格子の量子および古典的相関 Quantum and classical correlations in open quantum-spin lattices via truncated-cumulant trajectories ( http://arxiv.org/abs/2209.13377v3 ) ライセンス: Link先を確認 | Wouter Verstraelen and Dolf Huybrechts and Tommaso Roscilde and Michiel Wouters | (参考訳) リウビリアン開量子システムにおける量子多体物理学の研究は、散逸系に対する最近の実験的制御の進展と、その技術的利用によってますます重要になっている。
オープン量子系における中心的な問題は、量子相関の運命と、ハミルトン力学と浴槽とのカップリングの競合を工学的に制御する可能性に関するものである。
このような問題は、量子相関を忠実に説明する数値的な方法が正確な対角化に依存しているか、扱える大きさを劇的に制限しているか、あるいは密度行列に対する特定のアンサッツの選択に関連する量子相関の範囲や強度を近似しているため、理論的観点からは難しい。
本研究では,開放系力学の解に対する確率的量子軌道に基づいて,開量子スピン格子を扱う新しい手法を提案する。
各軌道に沿って、多点スピンスピンコレレータの運動方程式の階層は、カットオフ$k_c$を超える$k$の多変量$k$-次累積が消えると仮定して、与えられた有限順序に切り替わる。
これにより、全ての長さスケールに対して、量子スピン-スピン相関の進化を追跡することができる。
自発的崩壊を受ける2次元xyz格子の相転移のパラダイム的場合において、このアプローチを検証する。
我々は,パラ磁性から強磁性への定常相転移の存在を,ハミルトニアンカップリングの1つを増加させ,またその古典的イジングの性質を説得力をもって評価する。
さらに, このアプローチにより, 散逸臨界点近傍に有意な量子相関が存在することを示し, 量子フィッシャー情報と密接な結合であるスピンスクイーズの存在を明らかにすることができる。 The study of quantum many-body physics in Liouvillian open quantum systems becomes increasingly important with the recent progress in experimental control on dissipative systems and their technological exploitation . A central question in open quantum systems concerns the fate of quantum correlations, and the possibility of controlling them by engineering the competition between the Hamiltonian dynamics and the coupling to a bath. Such a question is challenging from a theoretical point of view, as numerical methods faithfully accounting for quantum correlations are either relying on exact diagonalization, limiting drastically the sizes that can be treated; or on approximations on the range or strength of quantum correlations, associated to the choice of a specific Ansatz for the density matrix. In this work we propose a new method to treat open quantum-spin lattices, based on stochastic quantum trajectories for the solution of the open-system dynamics. Along each trajectory, the hierarchy of equations of motion for many-point spin-spin correlators is truncated to a given finite order, assuming that multivariate $k$-th order cumulants vanish for $k$ exceeding a cutoff $k_c$. This allows tracking the evolution of quantum spin-spin correlations up to order $k_c$ for all length scales. We validate this approach in the paradigmatic case of the phase transitions of the dissipative 2D XYZ lattice, subject to spontaneous decay. We convincingly assess the existence of steady-state phase transitions from paramagnetic to ferromagnetic, and back to paramagnetic, upon increasing one of the Hamiltonian couplings; as well as their classical Ising nature. Moreover, the approach allows us to show the presence of significant quantum correlations in the vicinity of the dissipative critical point, and to unveil the presence of spin squeezing, a tight lower bound to the quantum Fisher information. | 翻訳日:2023-01-25 00:21:56 公開日:2022-12-11 |
# 文脈性と情報冗長性 Contextuality and Informational Redundancy ( http://arxiv.org/abs/2211.03164v5 ) ライセンス: Link先を確認 | Ehtibar N. Dzhafarov and Janne V. Kujala | (参考訳) 確率変数の非文脈的システムは、新しい変数の集合が加わったとしても、その各変数が古い変数の同じ文脈的関数によって得られるとしても、文脈的になる。
この事実は文脈性の定義から従い、その実演は無矛盾に連結されたシステム(すなわち乱れを持つシステム)にとって自明である。
しかし、与えられた性質が与えられた文脈で測られなければ、この情報は確率変数の関数を定義するのに利用できると認識すれば、一貫した連結(かつ強い連結)システムも保持する。
さらに、すべての不整合接続システムは、本質的に同じ文脈性特性を持つ(強く)一貫して接続されたシステムとして提示することができる。 A noncontextual system of random variables may become contextual if one adds to it a set of new variables, even if each of them is obtained by the same context-wise function of the old variables. This fact follows from the definition of contextuality, and its demonstration is trivial for inconsistently connected systems (i.e. systems with disturbance). However, it also holds for consistently connected (and even strongly consistently connected) systems, provided one acknowledges that if a given property was not measured in a given context, this information can be used in defining functions among the random variables. Moreover, every inconsistently connected system can be presented as a (strongly) consistently connected system with essentially the same contextuality characteristics. | 翻訳日:2023-01-20 04:20:11 公開日:2022-12-11 |
# BASPRO:遺伝的アルゴリズムに基づく音声コーパス収集のためのバランスの取れたスクリプトプロデューサ BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm ( http://arxiv.org/abs/2301.04120v1 ) ライセンス: Link先を確認 | Yu-Wen Chen, Hsin-Min Wang, Yu Tsao | (参考訳) 音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語の音声データを収集するために,音素バランスとリッチな中国語文群を自動構築するBAlanced Script Producer(BASPRO)システムを提案する。
まず,事前学習された自然言語処理システムを用いて,中国語ニューステキストのコーパスから10文字の候補文を抽出する。
次に, 候補文から20文を含む20個の音韻バランス文集合を, 遺伝的アルゴリズムベースで選択する手法を適用した。
BASPROを用いて,400のテン文字文を含むTMNewsというレコードスクリプトを得た。
TMNewsは現実世界で使われている音節の84%をカバーしている。
さらに、音節分布は現実世界の音節分布と0.96コサイン類似性を有する。
2つの音声合成システムを用いて,スクリプトを音声コーパスに変換する。
設計した音声コーパスを用いて,最も重要な回帰処理課題である音声強調処理(se)と自動音声認識(asr)の性能を検証した。
実験の結果,SEモデルとASRモデルは,ランダムに構成された音声コーパスで訓練された音声コーパスよりも優れていた。 The performance of speech-processing models is heavily influenced by the speech corpus that is used for training and evaluation. In this study, we propose BAlanced Script PROducer (BASPRO) system, which can automatically construct a phonetically balanced and rich set of Chinese sentences for collecting Mandarin Chinese speech data. First, we used pretrained natural language processing systems to extract ten-character candidate sentences from a large corpus of Chinese news texts. Then, we applied a genetic algorithm-based method to select 20 phonetically balanced sentence sets, each containing 20 sentences, from the candidate sentences. Using BASPRO, we obtained a recording script called TMNews, which contains 400 ten-character sentences. TMNews covers 84% of the syllables used in the real world. Moreover, the syllable distribution has 0.96 cosine similarity to the real-world syllable distribution. We converted the script into a speech corpus using two text-to-speech systems. Using the designed speech corpus, we tested the performances of speech enhancement (SE) and automatic speech recognition (ASR), which are one of the most important regression- and classification-based speech processing tasks, respectively. The experimental results show that the SE and ASR models trained on the designed speech corpus outperform their counterparts trained on a randomly composed speech corpus. | 翻訳日:2023-01-15 23:24:39 公開日:2022-12-11 |
# 3+1次元ネットワークにおけるトポロジカルスピノルのディラックゲージ理論 Dirac gauge theory for topological spinors in 3+1 dimensional networks ( http://arxiv.org/abs/2212.05621v1 ) ライセンス: Link先を確認 | Ginestra Bianconi | (参考訳) グラフやネットワークに関するゲージ理論は、量子重力へのアプローチだけでなく、量子計算を行うモデルとしても注目を集めている。
任意の計量に付随する3+1$次元ネットワークにおける位相スピノルに対するディラックゲージ理論を提案する。
位相スピノルは、ネットワーク上で定義される$0$-コチェーンと$$$-コチェーンの直和であり、ネットワークのノードとリンクの両方で定義される物質場を記述する。
最近では、離散ディラック作用素によって駆動されるトポロジカルディラック方程式にトポロジカルスピノルが従うことが示されている。
ここで、これらの結果は、局所理論の処理を可能にする重み付きおよび有向3+1$次元ネットワーク上のディラック方程式を定式化することによって拡張される。
ディラック作用素の交換器と反交換器は、それぞれ理論の曲率テンソルと磁場を定義する非消滅型である。
この解釈は、提案されたディラック方程式の非相対論的極限によって確かめられる。
提案されたディラック方程式の非相対論的極限において、リンク上で定義されるスピノルのセクタは正しいジャロ磁性モーメントを持つシュル=オディンガー方程式に従うが、ノード上で定義されるスピノルのセクタはクライン=ゴルドン方程式に従い、無視できない。
提案された場の理論に関連する作用は、ディラック作用と計量作用からなる。
ディラック作用はトポロジカルスピノルを含み、計量作用は曲率テンソルの収縮から得られ、ネットワークの自由度のみを含む。
我々は、アベリア変換と非アベリア変換の両方の下での作用のゲージ不変性を説明し、ディラック場と計量場の場論の運動方程式を提案する。
この理論は、ほぼ平坦な空間の極限における任意の任意のネットワーク上で有効であるより一般的なゲージ理論の極限の場合と解釈できる。 Gauge theories on graphs and networks are attracting increasing attention not only as approaches to quantum gravity but also as models for performing quantum computation. We propose a Dirac gauge theory for topological spinors in $3+1$ dimensional networks associated to an arbitrary metric. Topological spinors are the direct sum of $0$-cochains and $1$-cochains defined on a network and describe a matter field defined on both nodes and links of a network. Recently it has been shown that topological spinors obey the topological Dirac equation driven by the discrete Dirac operator. Here these results are extended by formulating the Dirac equation on weighted and directed $3+1$ dimensional networks which allow for the treatment a local theory. The commutators and anti-commutators of the Dirac operators are non vanishing an they define the curvature tensor and magnetic field of our theory respectively. This interpretation is confirmed by the non-relativistic limit of the proposed Dirac equation. In the non-relativistic limit of the proposed Dirac equation the sector of the spinor defined on links follows the Schr\"odinger equation with the correct giromagnetic moment, while the sector of the spinor defined on nodes follows the Klein-Gordon equation and is not negligible. The action associated to the proposed field theory comprises of a Dirac action and a metric action. The Dirac action involves the topological spinor, the metric action is obtained from the contraction of the curvature tensor and only involves the metric degrees of freedom of the network. We describe the gauge invariance of the action under both Abelian and non-Abelian transformations and we propose the equation of motion of the field theory of both Dirac and metric fields. This theory can be interpreted as a limiting case of a more general gauge theory valid on any arbitrary network in the limit of almost flat spaces. | 翻訳日:2023-01-09 16:29:24 公開日:2022-12-11 |
# ドープ2次元半導体の光学応答に対する仮想展開 Virial expansion for the optical response of doped two-dimensional semiconductors ( http://arxiv.org/abs/2212.05627v1 ) ライセンス: Link先を確認 | B. C. Mulkerin, A. Tiene, F. M. Marchetti, M. M. Parish, and J. Levinsen | (参考訳) ドープ2次元半導体の光応答に対する量子ビリアル展開を提案する。
このように、これは高温または低ドーピング状態における摂動論的に正確な理論であり、電子の熱波長は粒子間間隔よりも小さい。
ウイルスの膨張は、普遍的な低エネルギーエキシトン電子散乱に関連する魅力的な分岐の非自明な形状や、トリオンエネルギーからの魅力的なピークのシフトなど、フォトルミネッセンスの新たな特徴を予測する。
この結果は, ドープ単分子膜MoSe2 (Zipfel et al., Phys. B 105, 075311 (2022)) の最近の実験とよく一致しており, トリチウム結合エネルギーは過去の測定で過大評価された可能性が示唆されている。
さらに,本システムに適用された2つの異なる理論図を正式に統一し,フェルミ・ポーラロン理論の高温・弱い相互作用限界として従来のトライアン図結果が現れる。 We present a quantum virial expansion for the optical response of a doped two-dimensional semiconductor. As we show, this constitutes a perturbatively exact theory in the high-temperature or low-doping regime, where the electrons' thermal wavelength is smaller than their interparticle spacing. The virial expansion predicts new features of the photoluminescence, such as a non-trivial shape of the attractive branch related to universal low-energy exciton-electron scattering and an associated shift of the attractive peak from the trion energy. Our results are in excellent agreement with recent experiments on doped monolayer MoSe2 [Zipfel et al., Phys. Rev. B 105, 075311 (2022)] and they imply that the trion binding energy is likely to have been overestimated in previous measurements. Our theory furthermore allows us to formally unify two distinct theoretical pictures that have been applied to this system, with the conventional trion picture results emerging as a high-temperature and weak-interaction limit of Fermi polaron theory. | 翻訳日:2023-01-09 15:46:03 公開日:2022-12-11 |
# Qubit Clifford 階層における群について On Groups in the Qubit Clifford Hierarchy ( http://arxiv.org/abs/2212.05398v1 ) ライセンス: Link先を確認 | Jonas T. Anderson | (参考訳) ここでは、立方体 Clifford Hierarchy の元を用いて構成できるユニタリ群について検討する。
まず、半クリフォード元と一般化半クリフォード元が Clifford Hierarchy で満たさなければならない必要十分かつ十分な正準形式を提供する。
次に、これらの要素から形成できる群を分類する。
クリフォード共役まで、クリフォード階層の一般化された半クリフォード要素を使って構築できるすべての群を分類する。
我々はこの分類のマイナーな例外を付録で論じる。
これは立方体 Clifford Hierarchy のすべての群の完全な分類ではなく、Clifford Hierarchy のすべての元が半クリフォードに一般化されなければならないかどうかは現在分かっていないからである。
cuiらによって発見された対角ゲート群に加えて、多くの非同型な(対角ゲート群に対する)一般化対称群もクリフォード階層に含まれることを示した。
最後に、この分類の応用として、ここで列挙された群の構造によって与えられる横断ゲートの制約について検討する。 Here we study the unitary groups that can be constructed using elements from the qubit Clifford Hierarchy. We first provide a necessary and sufficient canonical form that semi-Clifford and generalized semi-Clifford elements must satisfy to be in the Clifford Hierarchy. Then we classify the groups that can be formed from such elements. Up to Clifford conjugation, we classify all such groups that can be constructed using generalized semi-Clifford elements in the Clifford Hierarchy. We discuss a possible minor exception to this classification in the appendix. This may not be a full classification of all groups in the qubit Clifford Hierarchy as it is not currently known if all elements in the Clifford Hierarchy must be generalized semi-Clifford. In addition to the diagonal gate groups found by Cui et al., we show that many non-isomorphic (to the diagonal gate groups) generalized symmetric groups are also contained in the Clifford Hierarchy. Finally, as an application of this classification, we examine restrictions on transversal gates given by the structure of the groups enumerated herein which may be of independent interest. | 翻訳日:2023-01-09 15:33:54 公開日:2022-12-11 |
# 準静的プロトコルのカオス支援劣化と量子不可逆性 Chaos-assisted depletion and quantum irreversibility for quasistatic protocols ( http://arxiv.org/abs/2212.05512v1 ) ライセンス: Link先を確認 | Yehoshua Winsten, Doron Cohen | (参考訳) 量子力学において、駆動過程は準静的極限、すなわち断熱定理において可逆的に予測される。
この主張は、混合カオス力学が不可逆性を意味する古典力学とは反対である。
量子可逆性におけるカオスのシグネチャを示すパラダイムは、凝縮ボソンを源軌道から転送することを目的としているスイーププロセスである。
このようなプロトコルは、断熱処理とカオス支援処理の相互作用によって支配される。
後者は、ハミルトニアンのボゴリューボフ可積分性を損なう相互作用項によって示唆される。
スイープレートが低下するにつれて、量子ゆらぎに支配される体制へのクロスオーバーが発生し、量子-古典的対応が崩壊する。
この図の主要な側面は、よく知られた多体型ランダウ・ツェナー・パラダイムの失敗を暗示する2軌道近似では捉えられていない。 In quantum mechanics, a driving process is expected to be reversible in the quasistatic limit, aka adiabatic theorem. This statement stands in opposition to classical mechanics, where mixed chaotic dynamics implies irreversibility. A paradigm for demonstrating the signatures of chaos in quantum irreversibility, is a sweep process whose objective is to transfer condensed bosons from a source orbital. Such protocol is dominated by an interplay of adiabatic-shuttling and chaos-assisted depletion processes. The latter is implied by interaction-terms that spoil the Bogolyubov integrability of the Hamiltonian. As the sweep rate is lowered, a crossover to a regime that is dominated by quantum fluctuations is encountered, featuring a breakdown of quantum-to-classical correspondence. The major aspects of this picture are not captured by the common two-orbital approximation, which implies failure of the familiar manybody Landau-Zener paradigm. | 翻訳日:2023-01-09 15:33:35 公開日:2022-12-11 |
# 原子再構成問題を解決する効率的なアルゴリズム。
II。
assignment-rerouting-ordering (aro) アルゴリズム Efficient algorithms to solve atom reconfiguration problems. II. The assignment-rerouting-ordering (aro) algorithm ( http://arxiv.org/abs/2212.05586v1 ) ライセンス: Link先を確認 | Remy El Sabeh, Jessica Bohm, Zhiqian Ding, Stephanie Maaz, Naomi Nishimura, Izzat El Hajj, Amer E. Mouawad and Alexandre Cooper | (参考訳) プログラム可能な光トラップの配列は、単一原子の構成の組み立てにより、量子多体系の制御実験を行うことができる。
任意の原子構成を所定の原子に変換する制御操作のシーケンスを見つけるには、原子再構成問題を迅速かつ効率的に解く必要がある。
原子再構成問題を解決する典型的なアプローチは、どのトラップに移動する原子を決定するために割り当てアルゴリズムを使用することである。
このアプローチは、変位操作数を正確に最小化する制御プロトコルをもたらすが、置換された原子の数や各原子の変位回数を最適化しないため、制御プロトコルの実行時間と故障率を増加させる不必要な制御操作となる。
本研究では、原子再構成問題の解法において、代入に基づくアルゴリズムの性能を向上させるために、代入順序付けアルゴリズム(aro)を提案する。
アロアルゴリズムは、全ての原子が移動する全距離を最小にするために割り当てサブルーチン、置換された原子の数を減らすためにリルーチンサブルーチン、各原子が最大1回ずれることを保証するために注文サブルーチンを使用する。
順序付けサブルーチンは、グラフ理論の形式的枠組みの中で導入する多項式時間アルゴリズムを用いて得られる動きの部分順序付けの存在に依存している。
我々は,アロアルゴリズムの損失の有無と存在の有無を数値的に定量化し,ベンチマークとして使用する精度,近似,ヒューリスティックアルゴリズムよりも優れていることを示す。
この結果は、高い成功確率と高速な準備時間を持つ原子の大規模な構成と、新しい原子再構成アルゴリズムの設計とベンチマークに有用である。 Programmable arrays of optical traps enable the assembly of configurations of single atoms to perform controlled experiments on quantum many-body systems. Finding the sequence of control operations to transform an arbitrary configuration of atoms into a predetermined one requires solving an atom reconfiguration problem quickly and efficiently. A typical approach to solve atom reconfiguration problems is to use an assignment algorithm to determine which atoms to move to which traps. This approach results in control protocols that exactly minimize the number of displacement operations; however, this approach does not optimize for the number of displaced atoms nor the number of times each atom is displaced, resulting in unnecessary control operations that increase the execution time and failure rate of the control protocol. In this work, we propose the assignment-rerouting-ordering (aro) algorithm to improve the performance of assignment-based algorithms in solving atom reconfiguration problems. The aro algorithm uses an assignment subroutine to minimize the total distance traveled by all atoms, a rerouting subroutine to reduce the number of displaced atoms, and an ordering subroutine to guarantee that each atom is displaced at most once. The ordering subroutine relies on the existence of a partial ordering of moves that can be obtained using a polynomial-time algorithm that we introduce within the formal framework of graph theory. We numerically quantify the performance of the aro algorithm in the presence and in the absence of loss, and show that it outperforms the exact, approximation, and heuristic algorithms that we use as benchmarks. Our results are useful for assembling large configurations of atoms with high success probability and fast preparation time, as well as for designing and benchmarking novel atom reconfiguration algorithms. | 翻訳日:2023-01-09 15:33:20 公開日:2022-12-11 |
# 完全デバイス非依存で検証可能なブラインド量子計算のための並列リモート状態準備 Parallel remote state preparation for fully device-independent verifiable blind quantum computation ( http://arxiv.org/abs/2212.05442v1 ) ライセンス: Link先を確認 | Sean A. Adamson | (参考訳) 従来の検証者が単純な信頼できない量子測定装置(クライアント装置)を使用して、信頼できない量子サーバに量子計算を安全に委譲できる、デバイス非依存の2プロファイラスキームを導入する。
そこで本稿では,J. F. Fitzsimons と E. Kashefi [Phys. Rev. A 96, 012303 (2017)] のUniversal verible blind quantum computing (VBQC) スキームを用いて,デバイス非依存の$n$ qubitsの遠隔操作を行うための並列セルフテストプロトコルを構築した。
我々の自己テストは、我々が考えるアプリケーションに望ましい多くの特性を達成し、実用的で完全にデバイスに依存しないVBQCを生み出します。
xy$-plane の全ての基数と心室内方向の並列測定と計算の基礎を証明し、入力質問(クライアントに対して$n$ の対数とサーバに通信される定数)をほとんど使用せず、クライアントデバイスによって実行されるシングルキュービットの測定のみを必要とする。 We introduce a device-independent two-prover scheme in which a classical verifier is able to use a simple untrusted quantum measurement device (the client device) to securely delegate a quantum computation to an untrusted quantum server. To do this, we construct a parallel self-testing protocol to perform device-independent remote state preparation of $n$ qubits and compose this with the unconditionally secure universal verifiable blind quantum computation (VBQC) scheme of J. F. Fitzsimons and E. Kashefi [Phys. Rev. A 96, 012303 (2017)]. Our self-test achieves a multitude of desirable properties for the application we consider, giving rise to practical and fully device-independent VBQC. It certifies parallel measurements of all cardinal and intercardinal directions in the $XY$-plane as well as the computational basis, uses few input questions (of size logarithmic in $n$ for the client and a constant number communicated to the server), and requires only single-qubit measurements to be performed by the client device. | 翻訳日:2023-01-09 14:58:28 公開日:2022-12-11 |
# 多点水平時空におけるガウス量子ステアリング Gaussian quantum steering in multi-event horizon spacetime ( http://arxiv.org/abs/2212.05483v1 ) ライセンス: Link先を確認 | Shu-Min Wu, Jin-Xuan Li, Xiao-Wei Fan, Wen-Mei Li, Xiao-Li Huang, Hao-Sheng Zeng | (参考訳) 我々は、ブラックホール事象地平線(BEH)と宇宙事象地平線(CEH)の両方で与えられるシュワルツシルト・ド・シッター(SdS)時空におけるガウスの量子ステアリングを研究し、2つの異なるホーキング温度をもたらす。
ブラックホールのホーキング効果は、常に量子ステアリングを減少させるが、膨張する宇宙のホーキング効果は、常に同じ役割を果たすとは限らない。
ホーキング効果が量子ステアリングを改善するのは初めてである。
また、BEHに位置するオブザーバは、CEHに位置するオブザーバよりもステアビリティが高いことが判明した。
さらに,sds時空におけるステアリング非対称性と2方向・1方向・無方向ステアリング条件について検討した。
最後に,有効平衡温度のシナリオにおけるガウス量子ステアリングについて検討する。
量子ステアリングは有効温度で単調に減少するが、ブラックホールのホーキング温度で単調に上昇し、ホーキング効果が量子ステアリングを破壊できるという信念を否定する。 We study Gaussian quantum steering in the Schwarzschild-de Sitter (SdS) spacetime which is endowed with both a black hole event horizon (BEH) and a cosmological event horizon (CEH), giving rise to two different Hawking temperatures. It is shown that the Hawking effect of the black hole always reduces the quantum steering, but the Hawking effect of the expanding universe not always plays the same role. For the first time, we find that the Hawking effect can improve quantum steering. We also find that the observer who locates in the BEH has stronger steerability than the observer who locates in CEH. Further, we study the steering asymmetry, and the conditions for two-way, one-way and no-way steering in the SdS spacetime. Finally, we study the Gaussian quantum steering in the scenario of effective equilibrium temperature. We show that quantum steering reduces monotonically with the effective temperature but now increases monotonically with the Hawking temperature of the black hole, which banishes the belief that the Hawking effect can only destroy quantum steering. | 翻訳日:2023-01-09 14:58:03 公開日:2022-12-11 |
# Alain Aspect のベルの定理に関する実験:量子力学の基礎研究の歴史の転換点 Alain Aspect's experiments on Bell's theorem: A turning point in the history of the research on the foundations of quantum mechanics ( http://arxiv.org/abs/2212.05535v1 ) ライセンス: Link先を確認 | Olival Freire Junior | (参考訳) 1980年代初頭に出版されたアラン・アスペクトのベルの定理に関する3つの実験は、量子力学の基礎の研究の歴史の転換点となった。
これらの実験は10年後に開花する量子情報研究の最も直接的な先駆体と考えられる。 Alain Aspect's three experiments on Bell's theorem, published in the early 1980s, were a turning point in the history of the research on the foundations of quantum mechanics not only because they corroborated entanglement as the distinctive quantum signature but also because these experiments brought wider recognition to this field of research and Aspect himself. These experiments may be considered the most direct precursors of the research on quantum information, which would blossom a decade later. | 翻訳日:2023-01-09 14:57:41 公開日:2022-12-11 |
# 例外点を持つ光力学系におけるサブスレッショルドフォノン生成 Subthreshold phonon generation in an optomechanical system with an exceptional point ( http://arxiv.org/abs/2212.05597v1 ) ライセンス: Link先を確認 | A. Mukhamedyanov, A. A. Zyablovsky, E. S. Andrianov | (参考訳) フォノニックモードを介して相互作用する2つの光モードからなる光機械系に基づくフォノンレーザーを考える。
光学モードの1つを励起する外部波がポンプの役割を担っている。
外部波の振幅には例外的な点が存在することが示されている。
外波振幅が例外点に対応する1未満の場合、固有周波数の分割が行われる。
この場合、外部波振幅の周期的変調は、光力学的不安定性の閾値よりも下でも光子とフォノンを同時に生成することができる。 A phonon laser based on an optomechanical system consisting of two optical modes interacting with each other via a phononic mode is considered. An external wave exciting one of the optical modes plays a role of the pumping. It is shown that at some amplitude of the external wave an exceptional point exists. When the external wave amplitude is less than one corresponding to the exceptional point, the splitting of the eigenfrequencies takes place. It is demonstrated that in this case, the periodic modulation of the external wave amplitude can result in simultaneous generation of photons and phonons even below the threshold of optomechanical instability. | 翻訳日:2023-01-09 14:57:31 公開日:2022-12-11 |
# 論理ランダム化ベンチマークにおける非指数的挙動 Non-Exponential Behaviour in Logical Randomized Benchmarking ( http://arxiv.org/abs/2212.05488v1 ) ライセンス: Link先を確認 | Athena Ceasura, Pavithran Iyer, Joel J. Wallman, Hakop Pashayan | (参考訳) 我々は, 指数関数的に減衰するのではなく, 振動する論理ランダム化ベンチマークプロトコルの出力をもたらす, ゲートと時間に依存しないノイズモデルを構築した。
我々の考えを説明するために、我々はまず標準的なランダム化ベンチマークの例を構築し、そこで 'hidden'' 量子ビットの存在を仮定し、多重度を含むクリフォード群の表現の選択を可能にする。
各ゲートアプリケーションで、出力減衰を指数関数的に保証する定理を回避するために使用するゲート履歴の隠れ記憶を更新するために、多重性を使用する。
論理ランダム化ベンチマークの焦点設定において、量子誤差補正の実装に関連する機械の存在が非指数的減衰を促進することを示した。
論理ランダム化ベンチマークでは、隠れ量子ビットの役割は誤り訂正に用いられる症候群量子ビットに割り当てられ、これらはデコーダを介して論理量子ビットに強く結合される。 We construct a gate and time-independent noise model that results in the output of a logical randomized benchmarking protocol oscillating rather than decaying exponentially. To illustrate our idea, we first construct an example in standard randomized benchmarking where we assume the existence of ``hidden'' qubits, permitting a choice of representation of the Clifford group that contains multiplicities. We use the multiplicities to, with each gate application, update a hidden memory of the gate history that we use to circumvent theorems which guarantee the output decays exponentially. In our focal setting of logical randomized benchmarking, we show that the presence of machinery associated with the implementation of quantum error correction can facilitate non-exponential decay. Since, in logical randomized benchmarking, the role of the hidden qubits is assigned to the syndrome qubits used in error correction and these are strongly coupled to the logical qubits via a decoder. | 翻訳日:2023-01-09 13:57:21 公開日:2022-12-11 |
# 弱共振型アーキテクチャにおける誤り保護型相互共振スイッチ An error-protected cross-resonance switch in weakly-tuneable architectures ( http://arxiv.org/abs/2212.05519v1 ) ライセンス: Link先を確認 | Xuexin Xu and M. Ansari | (参考訳) マイクロ波パルスによって活性化される2量子ビットゲートでは、パルスをオンまたはオフすることで、量子ビットの状態がエンタングルモードまたはアイドルモードの間で交換される。
どちらのモードでも、層状結合の存在は、クビットがコヒーレント位相誤差を蓄積させる。
しかし、2つのモードにおける誤差率は、キュービットがそれぞれのモードにおいて異なる層結合強度を持つため、異なるため、一方のモードから層結合を排除することは他方のモードから取り除くことはできない。
このようなゲートを調整可能なカプラと組み合わせることを提案し、アイドルおよび絡み合ったキュービットが不規則結合から解放されることを示す。
これにより、量子アルゴリズムの演算スイッチ忠実度が大幅に向上する。
さらに, 2つのモードを互いにパラメトリックに近づける最適カプラとして, 微調整可能な量子ビットを提案する。
これにより、リークを減らすことにより、チューニングプロセスが著しく向上する。 In two-qubit gates activated by microwave pulses, by turning pulse on or off, the state of qubits are swapped between entangled or idle modes. In either mode, the presence of stray couplings makes qubits accumulate coherent phase error. However, the error rates in the two modes differ because qubits carry different stray coupling strengths in each mode; therefore, eliminating stray coupling from one mode does not remove it from the other. We propose to combine such a gate with a tunable coupler and show that both idle and entangled qubits can become free from stray couplings. This significantly increases the operational switch fidelity in quantum algorithms. We further propose a weakly-tunable qubit as an optimum coupler to bring the two modes parametrically near each other. This remarkably enhances the tuning process by reducing its leakage. | 翻訳日:2023-01-09 13:56:49 公開日:2022-12-11 |
# 多部門シナリオにおける情報因果関係 Information causality in multipartite scenarios ( http://arxiv.org/abs/2212.05601v1 ) ライセンス: Link先を確認 | Lucas Pollyceno, Rafael Chaves, Rafael Rabelo | (参考訳) ベル非局所性は量子系によって示される最も興味深くて直観に反する現象の1つである。
興味深いことに、このようなより強い古典的な量子相関は何らかの制約を受けており、量子理論の基礎に対する重要な疑問は、それらの制約に物理的で運用的な原理があるかどうかである。
一つの候補は情報因果原理であり、ある特定の場合において、量子系に留まり、量子よりも強い相関によって破られることが証明されている。
しかし、マルチパーティイトのシナリオでは、情報因果原理の元々の定式化が極端に強い量子相関を検出できないことが知られており、真にマルチパーティイトの定式化が必要であることを示唆している。
本研究は,多人数シナリオにおける情報因果原理の新たな定式化を報告し,この目標に向けて前進する。
視点の変化を提案することによって、原則の保持に必要な基準として機能する多部情報不等式を得る。
このような不等式が全ての量子資源に対して成り立つことを証明し、より強い量子資源を禁止した。
最後に,資源の複数コピーが利用可能である場合,あるいはノイズの多い通信チャネルが採用されている場合,本手法が強化可能であることを示す。 Bell nonlocality is one of the most intriguing and counter-intuitive phenomena displayed by quantum systems. Interestingly, such stronger-than-classical quantum correlations are somehow constrained, and one important question to the foundations of quantum theory is whether there is a physical, operational principle responsible for those constraints. One candidate is the information causality principle, which, in some particular cases, is proven to hold for quantum systems and to be violated by stronger-than-quantum correlations. In multipartite scenarios, though, it is known that the original formulation of the information causality principle fails to detect even extremal stronger-than-quantum correlations, thus suggesting that a genuinely multipartite formulation of the principle is necessary. In this work, we advance towards this goal, reporting a new formulation of the information causality principle in multipartite scenarios. By proposing a change of perspective, we obtain multipartite informational inequalities that work as necessary criteria for the principle to hold. We prove that such inequalities hold for all quantum resources, and forbid some stronger-than-quantum ones. Finally, we show that our approach can be strengthened if multiple copies of the resource are available, or, counter-intuitively, if noisy communication channels are employed. | 翻訳日:2023-01-09 13:56:33 公開日:2022-12-11 |
# MnTTS2:モンゴル語テキスト音声合成データセット MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis Dataset ( http://arxiv.org/abs/2301.00657v1 ) ライセンス: Link先を確認 | Kailin Liang, Bin Liu, Yifan Hu, Rui Liu, Feilong Bao, Guanglai Gao | (参考訳) 低リソース言語のためのテキスト音声合成(TTS)は、近年の学術・産業において魅力的な研究課題である。
モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。
しかし、モンゴルのTSのためのオープンソースデータセットが比較的不足している。
そこで我々は,mntts2という,モンゴルのマルチスピーカーttsデータセットをオープンソースとして公開する。
本研究では,様々な話題の書き起こしを準備し,3名のモンゴル人アナウンサーを招き,各アナウンサーがモンゴル語で10時間のスピーチを収録し,合計30時間のttsデータセットを作成する。
さらに,最先端のfastspeech2モデルとhifi-gan vocoderに基づくベースラインシステムを構築する。
実験結果から, MnTTS2データセットは実世界のアプリケーションのための堅牢なマルチスピーカTSモデルを構築するのに十分であることが示唆された。
MnTTS2データセット、トレーニングレシピ、事前訓練されたモデルは、以下の通りリリースされる。 Text-to-Speech (TTS) synthesis for low-resource languages is an attractive research issue in academia and industry nowadays. Mongolian is the official language of the Inner Mongolia Autonomous Region and a representative low-resource language spoken by over 10 million people worldwide. However, there is a relative lack of open-source datasets for Mongolian TTS. Therefore, we make public an open-source multi-speaker Mongolian TTS dataset, named MnTTS2, for the benefit of related researchers. In this work, we prepare the transcription from various topics and invite three professional Mongolian announcers to form a three-speaker TTS dataset, in which each announcer records 10 hours of speeches in Mongolian, resulting 30 hours in total. Furthermore, we build the baseline system based on the state-of-the-art FastSpeech2 model and HiFi-GAN vocoder. The experimental results suggest that the constructed MnTTS2 dataset is sufficient to build robust multi-speaker TTS models for real-world applications. The MnTTS2 dataset, training recipe, and pretrained models are released at: \url{https://github.com/ssmlkl/MnTTS2} | 翻訳日:2023-01-09 13:48:13 公開日:2022-12-11 |
# VWAP戦略最適化のための階層的深層強化学習 Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization ( http://arxiv.org/abs/2212.14670v1 ) ライセンス: Link先を確認 | Xiaodong Li, Pangjing Wu, Chenxin Zou, Qing Li | (参考訳) インテリジェントなボリューム重み付き平均価格(VWAP)戦略を設計することはブローカーにとって重要な関心事である。
多くの研究は、強化学習によるコストの最小化を試みたが、特にVWAP戦略のような長期戦略において、改善のボトルネックがある。
この問題に対処するために,マクロ・メタ・マイクロトレーダー(M3T)と呼ばれる,深層学習と階層的強化学習の統合アーキテクチャを提案する。
マクロトレーダーは、従来のVWAP戦略と同じように、ボリュームプロファイルに基づいて親注文をトランシェに割り当てるが、予測精度を向上させるために長期記憶ニューラルネットワークを使用する。
次に、メタトレーダは、各トランシェ内の即時流動性に適した短期サブゴアを選択してミニトランシェを形成する。
その結果、マイクロトレーダーは、即時市場状態を抽出し、最低の取引コストでサブゴールを満たす。
上海証券取引所に上場した株式に対する実験では、VWAPスリップの基準値よりも高い性能を示し、最適基準値と比較すると平均コストは1.16ポイントである。 Designing an intelligent volume-weighted average price (VWAP) strategy is a critical concern for brokers, since traditional rule-based strategies are relatively static that cannot achieve a lower transaction cost in a dynamic market. Many studies have tried to minimize the cost via reinforcement learning, but there are bottlenecks in improvement, especially for long-duration strategies such as the VWAP strategy. To address this issue, we propose a deep learning and hierarchical reinforcement learning jointed architecture termed Macro-Meta-Micro Trader (M3T) to capture market patterns and execute orders from different temporal scales. The Macro Trader first allocates a parent order into tranches based on volume profiles as the traditional VWAP strategy does, but a long short-term memory neural network is used to improve the forecasting accuracy. Then the Meta Trader selects a short-term subgoal appropriate to instant liquidity within each tranche to form a mini-tranche. The Micro Trader consequently extracts the instant market state and fulfils the subgoal with the lowest transaction cost. Our experiments over stocks listed on the Shanghai stock exchange demonstrate that our approach outperforms baselines in terms of VWAP slippage, with an average cost saving of 1.16 base points compared to the optimal baseline. | 翻訳日:2023-01-09 13:47:30 公開日:2022-12-11 |
# マイクロ波キャビティマグノニクスにおけるカップリング相の出現 Manifestation of the coupling phase in microwave cavity magnonics ( http://arxiv.org/abs/2212.05389v1 ) ライセンス: Link先を確認 | Alan Gardin, Jeremy Bourhill, Vincent Vlaminck, Christian Person, Christophe Fumeaux, Vincent Castel, Giuseppe C. Tettamanzi | (参考訳) マイクロ波光子とマグノンの相互作用はよく理解されており、スピンと磁場の間のゼーマン結合に由来する。
興味深いことに、マグノン/光子相互作用は通常無視される相因子が伴う。
しかし、回転波近似の下では、2つのマグノンモードが2つの共振器共鳴と同時に結合すると、この位相は系の物理を変えるため無視できない。
マグノン/光子結合強度の1つの符号によって異なる2つの系を考える。
この単純な違いは、系の様々なカップリングフェーズに由来するもので、ダークモードメモリとキャビティを媒介するカップリングというハイブリッド光子/マグノンシステムの2つの潜在的な応用を保存または破壊することが示されている。
この系における結合相の観測可能な結果は、離散的なパンチャラトナム・ベリー相の顕在化と類似しており、量子情報処理に有用である。 The interaction between microwave photons and magnons is well understood and originates from the Zeeman coupling between spins and a magnetic field. Interestingly, the magnon/photon interaction is accompanied by a phase factor which can usually be neglected. However, under the rotating wave approximation, if two magnon modes simultaneously couple with two cavity resonances, this phase cannot be ignored as it changes the physics of the system. We consider two such systems, each differing by the sign of one of the magnon/photon coupling strengths. This simple difference, originating from the various coupling phases in the system, is shown to preserve, or destroy, two potential applications of hybrid photon/magnon systems, namely dark mode memories and cavity-mediated coupling. The observable consequences of the coupling phase in this system is akin to the manifestation of a discrete Pancharatnam-Berry phase, which may be useful for quantum information processing. | 翻訳日:2023-01-09 13:46:00 公開日:2022-12-11 |
# 伝播光中のキュービットをコードするガウス育種 Gaussian breeding for encoding a qubit in propagating light ( http://arxiv.org/abs/2212.05436v1 ) ライセンス: Link先を確認 | Kan Takase, Kosuke Fukui, Akito Kawasaki, Warit Asavanant, Mamoru Endo, Jun-ichi Yoshikawa, Peter van Loock, Akira Furusawa | (参考訳) 実用的な量子コンピューティングは、脆弱な量子情報を保護するために物理システムにおける論理量子ビットの堅牢な符号化を必要とする。
現在、ほとんどの物理システムではスケーラビリティの欠如が論理エンコーディングを制限しているため、伝播光の高スケーラビリティは実用的な量子コンピュータを実現するためのゲームチェンジャーとなる。
しかし、伝播光もまた欠点がある:弱い非線形性による論理符号化の難しさ。
本稿では,光伝播において任意のゴッテマン・キタエフ・プレスキル(GKP)量子ビットを符号化したガウス繁殖法を提案する。
鍵となる考え方は、量子伝播光において最も広く用いられる非線形要素である光子検出器による、効率的かつ反復的な量子重ね合わせの生成である。
この定式化により、最小限のリソースで所望のキュービットを体系的に作成できる。
シミュレーションにより,「磁気状態」を含む耐故障しきい値を超えるGKP量子ビットは高い成功確率と0.99を超える忠実度で生成可能であることが示された。
この結果は、実用的な量子コンピューティングへの重要な欠片を埋める。 Practical quantum computing requires robust encoding of logical qubits in physical systems to protect fragile quantum information. Currently, the lack of scalability limits the logical encoding in most physical systems, and thus the high scalability of propagating light can be a game changer for realizing a practical quantum computer. However, propagating light also has a drawback: the difficulty of logical encoding due to weak nonlinearity. Here, we propose Gaussian breeding that encodes arbitrary Gottesman-Kitaev-Preskill (GKP) qubits in propagating light. The key idea is the efficient and iterable generation of quantum superpositions by photon detectors, which is the most widely used nonlinear element in quantum propagating light. This formulation makes it possible to systematically create the desired qubits with minimal resources. Our simulations show that GKP qubits above a fault-tolerant threshold, including ``magic states'', can be generated with a high success probability and with a high fidelity exceeding 0.99. This result fills an important missing piece toward practical quantum computing. | 翻訳日:2023-01-09 13:45:45 公開日:2022-12-11 |
# 一次元格子における多粒子量子ウォーク Multi-particle quantum walks in one-dimensional lattice ( http://arxiv.org/abs/2212.05452v1 ) ライセンス: Link先を確認 | Daer Feng, Shengshi Pang | (参考訳) 量子ウォーク(quantum walk)は、非古典的振る舞いを示し、様々な面で古典的ランダムウォークを上回る量子的ランダムウォーク(quantum random walk)の対数である。
単一粒子の量子ウォークの空間的確率分布は時間的に二次的に拡張できるのに対し、単一粒子の古典的ランダムウォークは線形にしかできないことが知られている。
本稿では、1次元無限格子における非相互作用多粒子の離散時間量子ウォークを解析し、量子ウォーク中の粒子の位置分布における絡み合いと交換対称性の役割について検討する。
多粒子量子ウォークの位置分布を解析するために,粒子間の相対距離を考察し,ウォークステップ数でどのように変化するかを検討する。
多数の歩数に対して漸近的に相対距離を計算し,歩数に乗じて距離が2乗的に増加することを示す。
また、粒子間の極端相対距離について検討し、粒子の分布における初期状態の交換対称性の役割を示す。
さらに, 2粒子相関, 2粒子位置分布の交換対称性依存性を示すとともに, 粒子数による極端状態の絡み合いの指数関数的減少を求める。 Quantum walk is a counterpart of classical random walk in the quantum regime that exhibits non-classical behaviors and outperforms classical random walk in various aspects. It has been known that the spatial probability distribution of a single-particle quantum walk can expand quadratically in time while a single-particle classical random walk can do only linearly. In this paper, we analytically study the discrete-time quantum walk of non-interacting multiple particles in a one-dimensional infinite lattice, and investigate the role of entanglement and exchange symmetry in the position distribution of the particles during the quantum walk. To analyze the position distribution of multi-particle quantum walk, we consider the relative distance between particles, and study how it changes with the number of walk steps. We compute the relative distance asymptotically for a large number of walk steps and find that the distance increases quadratically with the number of walk steps. We also study the extremal relative distances between the particles, and show the role of the exchange symmetry of the initial state in the distribution of the particles. Our study further shows the dependence of two-particle correlations, two-particle position distributions on the exchange symmetry, and find exponential decrement of the entanglement of the extremal state with the number of particles. | 翻訳日:2023-01-09 13:45:26 公開日:2022-12-11 |
# 間接的に勝利するチェス選手のポジション Intransitively winning chess players positions ( http://arxiv.org/abs/2212.11069v1 ) ライセンス: Link先を確認 | Alexander Poddiakov | (参考訳) 非推移的(ロックペーパー・シッサー)関係におけるチェス選手の位置について考察する。
すなわち、白の位置Aが黒の位置Bに、黒の位置Bが白の位置Cに、白の位置Cが黒の位置Dに好まれるが、黒の位置Dが白の位置Bに好まれる。
チェスプレーヤーの位置の勝利の非推移性は、推移的な位置のみを持つ単純なゲームとは対照的に、チェス環境の複雑さの結果であると考えられている。
チェス選手の位置の勝利の間の関係の空間は非ユークリッドである。
ツェルメロ・ヴォン・ノイマンの定理は、チェス選手の位置の推移性の仮定に基づいて純粋に勝利戦略を構築する可能性と不可能性について述べられている。
他のポジションゲームにおけるプレイヤーの非推移的な位置の可能性を疑問視する。 Positions of chess players in intransitive (rock-paper-scissors) relations are considered. Namely, position A of White is preferable (it should be chosen if choice is possible) to position B of Black, position B of Black is preferable to position C of White, position C of White is preferable to position D of Black, but position D of Black is preferable to position A of White. Intransitivity of winningness of positions of chess players is considered to be a consequence of complexity of the chess environment -- in contrast with simpler games with transitive positions only. The space of relations between winningness of positions of chess players is non-Euclidean. The Zermelo-von Neumann theorem is complemented by statements about possibility vs. impossibility of building pure winning strategies based on the assumption of transitivity of positions of chess players. Questions about the possibility of intransitive positions of players in other positional games are raised. | 翻訳日:2022-12-25 03:11:47 公開日:2022-12-11 |
# 社会経済的要因が健康格差に及ぼす影響 The Impact of Socioeconomic Factors on Health Disparities ( http://arxiv.org/abs/2212.04285v2 ) ライセンス: Link先を確認 | Krish Khanna, Jeffrey Lu, Jay Warrier, Phillip Lo, Adela DePavia, Ray Fregly | (参考訳) 米国における高品質な医療は、特定の社会経済グループにとってコストを抑えることができる。
本稿では,米国国勢調査とcdcのデータを用いて,特定の社会経済的要因が特定の健康指標および一般健康指標と相関する程度について検討した。
我々は,変数間のより複雑な関係を特定するために,より広い傾向と予測モデルを見つけるために視覚分析を用いた。
以上の結果から,所得や教育達成といった社会経済的要因は,健康総合指標と高い相関関係にあることが示唆された。 High-quality healthcare in the US can be cost-prohibitive for certain socioeconomic groups. In this paper, we examined data from the US Census and the CDC to determine the degree to which specific socioeconomic factors correlate with both specific and general health metrics. We employed visual analysis to find broad trends and predictive modeling to identify more complex relationships between variables. Our results indicate that certain socioeconomic factors, like income and educational attainment, are highly correlated with aggregate measures of health. | 翻訳日:2022-12-25 03:10:13 公開日:2022-12-11 |
# MAViC:ビデオキャプションのためのマルチモーダルアクティブラーニング MAViC: Multimodal Active Learning for Video Captioning ( http://arxiv.org/abs/2212.11109v1 ) ライセンス: Link先を確認 | Gyanendra Das, Xavier Thomas, Anant Raj, Vikram Gupta | (参考訳) ビデオキャプションモデルのトレーニングには多数のアノテーション付きビデオキャプションペアが必要であるため、アノテーションのコストが高い。
アクティブラーニングは、これらのアノテーション要件を減らすのに役立ちます。
しかし,マルチセマンティクス的に類似したキャプションがビデオに対して有効であるため,映像キャプションに対する能動的学習は困難である。
さらに、ビデオキャプションアルゴリズムは、視覚エンコーダと言語デコーダで本質的にマルチモーダルである。
さらに、出力の逐次的および組合せ的性質により、問題をさらに困難にする。
本稿では,提案するマルチモーダルセマンティクス認識シーケンシャルエントロピー(m-sase)に基づく獲得関数を活用し,ビデオキャプションにおけるアクティブラーニング手法の課題を解決するmavicを提案する。
本手法は,視覚と言語の両方の次元における意味的類似性と不確実性を統合する。
ビデオキャプションにおけるアクティブラーニングにおけるm-saseの有効性を実証実験により実証し, ベースラインの精度向上に寄与した。 A large number of annotated video-caption pairs are required for training video captioning models, resulting in high annotation costs. Active learning can be instrumental in reducing these annotation requirements. However, active learning for video captioning is challenging because multiple semantically similar captions are valid for a video, resulting in high entropy outputs even for less-informative samples. Moreover, video captioning algorithms are multimodal in nature with a visual encoder and language decoder. Further, the sequential and combinatorial nature of the output makes the problem even more challenging. In this paper, we introduce MAViC which leverages our proposed Multimodal Semantics Aware Sequential Entropy (M-SASE) based acquisition function to address the challenges of active learning approaches for video captioning. Our approach integrates semantic similarity and uncertainty of both visual and language dimensions in the acquisition function. Our detailed experiments empirically demonstrate the efficacy of M-SASE for active learning for video captioning and improve on the baselines by a large margin. | 翻訳日:2022-12-25 03:03:49 公開日:2022-12-11 |
# 世界的パンデミック後のソーシャルメディアにおける宗教とスピリチュアリティ Religion and Spirituality on Social Media in the Aftermath of the Global Pandemic ( http://arxiv.org/abs/2212.11121v1 ) ライセンス: Link先を確認 | Olanrewaju Tahir Aduragba, Alexandra I. Cristea, Pete Phillips, Jonas Kurlberg, Jialin Yu | (参考訳) 新型コロナウイルス(covid-19)のパンデミックの間、教会は約800年ぶりに物理的な扉を閉めた。
他の宗教でも同様の状況に陥り、事実上オンラインに移らざるを得なくなり、前例のない出来事である。
本稿では,宗教活動の突然の変化を2次元的に分析する。我々は,オンライン上での宗教活動に関する人々の認識や活動を理解するために,アンケートの作成と提供,およびtwitterデータの解析を行う。
重要な点として,2020年7月から9月にかけての3ヶ月の期間を分析して,この過程の時間的変動を分析する。
2つのデータソースを別々に分析することに加え、結果の三角測量による影響についても論じる。 During the COVID-19 pandemic, the Church closed its physical doors for the first time in about 800 years, which is, arguably, a cataclysmic event. Other religions have found themselves in a similar situation, and they were practically forced to move online, which is an unprecedented occasion. In this paper, we analyse this sudden change in religious activities twofold: we create and deliver a questionnaire, as well as analyse Twitter data, to understand people's perceptions and activities related to religious activities online. Importantly, we also analyse the temporal variations in this process by analysing a period of 3 months: July-September 2020. Additionally to the separate analysis of the two data sources, we also discuss the implications from triangulating the results. | 翻訳日:2022-12-25 03:01:30 公開日:2022-12-11 |
# 産業品質検査のための畳み込みニューラルネットワークを用いたダイヤモンド研磨面異常検出 Diamond Abrasive Electroplated Surface Anomaly Detection using Convolutional Neural Networks for Industrial Quality Inspection ( http://arxiv.org/abs/2212.11122v1 ) ライセンス: Link先を確認 | Parviz Ali | (参考訳) 電気めっきダイヤモンド研磨工具は、研磨接合および部品機能のために金属表面にニッケルコーティングを必要とする。
ニッケル被覆厚が中径の50%〜60%であり、ニッケル層の均一性、電気めっき面上の研磨分布、明るい光沢を有することを特徴とする電気めっきニッケル被覆研磨工具は、高品質な部品性能を有することが期待される。
この目的に応じて電気めっきパラメータを設定する。
ダイヤモンドの光屈折率, 分散特性, 反射性ニッケル表面が原因で, 光学検査装置によるこれらの摩耗電析部品の欠陥の工業的品質検査は極めて困難である。
この課題によって生じる困難さは、主観的でコストがかかる目管で手動で品質検査を行う必要がある。
本研究では, 製造ラインにおける畳み込みニューラルネットワーク(cnn)モデルを用いて, 製造チェーンから異常な状態にある部品や要素を修正・除去し, 最終的には手作業による品質検査コストを削減できる, 研磨電気めっき部品異常を検出する。
モデルのトレーニングには744のサンプルを使用しました。
我々のモデルは異常のある部分の99%以上を特定できた。
キーワード:人工知能、異常検出、工業品質検査、電気めっき、ダイヤモンド磨耗ツール Electroplated diamond abrasive tools require nickel coating on a metal surface for abrasive bonding and part functionality. The electroplated nickel-coated abrasive tool is expected to have a high-quality part performance by having a nickel coating thickness of between 50% to 60% of the abrasive median diameter, uniformity of the nickel layer, abrasive distribution over the electroplated surface, and bright gloss. Electroplating parameters are set accordingly for this purpose. Industrial quality inspection for defects of these abrasive electroplated parts with optical inspection instruments is extremely challenging due to the diamond's light refraction, dispersion nature, and reflective bright nickel surface. The difficulty posed by this challenge requires parts to be quality inspected manually with an eye loupe that is subjective and costly. In this study, we use a Convolutional Neural Network (CNN) model in the production line to detect abrasive electroplated part anomalies allowing us to fix or eliminate those parts or elements that are in bad condition from the production chain and ultimately reduce manual quality inspection cost. We used 744 samples to train our model. Our model successfully identified over 99% of the parts with an anomaly. Keywords: Artificial Intelligence, Anomaly Detection, Industrial Quality Inspection, Electroplating, Diamond Abrasive Tool | 翻訳日:2022-12-25 03:01:18 公開日:2022-12-11 |
# なぜ量子技術は国家レベルで活用されるべきなのか? Why Should and How Can Quantum Technologies Be Leveraged at National Levels? ( http://arxiv.org/abs/2212.08040v1 ) ライセンス: Link先を確認 | AbdulMalek Baitulmal, and Nadia Adem | (参考訳) 量子技術(QT)は、様々な産業において破壊的に技術の景観を変えることを約束する。
そのため、世界中の多くの国が、国家プログラムや国際パートナーシップの開始を通じて、グローバルな量子エコシステムに参入するために投資している。
それにもかかわらず、他のいくつかの国は依然として遅れを取っており、QTが近い将来に提示する新たな規制や大きな影響を考慮して、民間と公共のセクターが略奪に適応するための一連の措置を講じる必要がある。
この意見書では、私たちの知る限りでは、新しい量子技術を活用して国家主導の確立を適切に促進するための、初めて広く適用されながら包括的かつ簡潔な枠組みを提供する。
本稿で提示される洞察は,グローバルに採用されているさまざまなアプローチ,イニシアティブ,ロードマップの調査,および地域,地域の指導者,専門家,政府関係者との会合に基づくものだ。
さらに、リビア社会の社会経済的・制度的な側面を考慮すると、我々はリビア国家の枠組みを立案する。
この意見は、研究者、技術産業の専門家、利害関係者、政府機関にQTを前進させるために必要な役割を見つけるよう促すことを目的としている。 Quantum technologies (QT) promise to change the landscape of technologies disruptively in diverse industries. For this reason, many nations around the globe are investing to emerge within the global quantum ecosystem through initiating national programs and international partnerships. Nonetheless, some other countries are still running behind and yet their governments need to take series actions to help their private and public sectors adapt to the looming changes, considering the new regulations required and the huge influence that QT will present in the near future. In this opinion piece, we provide, for the best of our knowledge, the first generally applicable, yet comprehensive and brief, framework for leveraging the emerging quantum technologies to facilitate the establishment of national initiatives properly. The insights presented in this article were driven based on investigating various approaches, initiatives, and roadmaps adopted globally and meeting with local and regional leaders, professionals, and governmental officials. Furthermore, taken into account socioeconomic and institutional dimensions of the Libyan society, we project the framework for the Libyan nation. This opinion piece is intended to inspire researchers, technical industrial experts, stakeholders, and governmental bodies to find roles they need to play to bring QT forward. | 翻訳日:2022-12-16 17:43:38 公開日:2022-12-11 |
# REF出力の品質スコアはAIによって割り当てられるか?
実験的証拠 Can REF output quality scores be assigned by AI? Experimental evidence ( http://arxiv.org/abs/2212.08041v1 ) ライセンス: Link先を確認 | Mike Thelwall, Kayvan Kousha, Mahshid Abdoli, Emma Stuart, Meiko Makita, Paul Wilson, Jonathan Levitt | (参考訳) 本稿では,人工知能(AI)を用いて今後の研究評価演習における論文のスコアを予測する戦略について述べる。
5つの戦略が評価されている。 This document describes strategies for using Artificial Intelligence (AI) to predict some journal article scores in future research assessment exercises. Five strategies have been assessed. | 翻訳日:2022-12-16 16:35:20 公開日:2022-12-11 |
# 研究アセスメントを支援する人工知能技術 : レビュー Artificial intelligence technologies to support research assessment: A review ( http://arxiv.org/abs/2212.06574v1 ) ライセンス: Link先を確認 | Kayvan Kousha, Mike Thelwall | (参考訳) 本文献レビューは、論文テキスト(例えば、タイトル、要約、長さ、引用参照および可読性)またはメタデータ(例えば、著者数、国際または国内協力数、学術誌のインパクトファクターおよび著者のh-インデックス)から、より高いインパクトまたはより高い品質の研究に関連付けられた指標を特定する。
これには、機械学習技術を用いて、論文やカンファレンス論文の引用数や品質スコアを予測する研究が含まれている。
文献レビューには、以前の英国の研究評価演習(raes)による書誌指標と品質スコアのランキングとの相関の強さに関する証拠や、他の国(例えばオーストラリアとイタリア)からの同様の証拠も含まれている。
これをサポートするため、論文の学術的影響を予測するのに、引用、ソーシャルメディアの告発者、オープンレビューのテキスト(次元、opencitations、altmetric.com、publonsなど)の公開データセットを使用した研究も調査している。
この部分の文献レビューの結果は、このプロジェクトのAI実験レポートに報告されているように、機械学習を使用してREFジャーナルの記事の品質スコアを予測する実験に使用された。
論文レビューはまた、編集プロセスの自動化、論文やレビュアーの提案の品質管理の提供、レビュアーと記事のマッチング、雑誌記事を自動的に分野に分類する技術についても取り上げている。
技術支援評価におけるバイアスと透明性についても論じる。 This literature review identifies indicators that associate with higher impact or higher quality research from article text (e.g., titles, abstracts, lengths, cited references and readability) or metadata (e.g., the number of authors, international or domestic collaborations, journal impact factors and authors' h-index). This includes studies that used machine learning techniques to predict citation counts or quality scores for journal articles or conference papers. The literature review also includes evidence about the strength of association between bibliometric indicators and quality score rankings from previous UK Research Assessment Exercises (RAEs) and REFs in different subjects and years and similar evidence from other countries (e.g., Australia and Italy). In support of this, the document also surveys studies that used public datasets of citations, social media indictors or open review texts (e.g., Dimensions, OpenCitations, Altmetric.com and Publons) to help predict the scholarly impact of articles. The results of this part of the literature review were used to inform the experiments using machine learning to predict REF journal article quality scores, as reported in the AI experiments report for this project. The literature review also covers technology to automate editorial processes, to provide quality control for papers and reviewers' suggestions, to match reviewers with articles, and to automatically categorise journal articles into fields. Bias and transparency in technology assisted assessment are also discussed. | 翻訳日:2022-12-14 15:25:08 公開日:2022-12-11 |
# CPMLHO:カット平面によるハイパーパラメータチューニングと混合レベル最適化 CPMLHO:Hyperparameter Tuning via Cutting Plane and Mixed-Level Optimization ( http://arxiv.org/abs/2212.06150v1 ) ライセンス: Link先を確認 | Shuo Yang, Yang Jiao, Shaoyu Dou, Mana Zheng, Chen Zhu | (参考訳) ニューラルネットワークのハイパーパラメータ最適化は、双レベル最適化問題として表現できる。
バイレベル最適化はハイパーパラメータの自動更新に使用され、ハイパーパラメータの勾配は最良応答関数に基づく近似勾配である。
最高の応答関数を見つけるのは非常に時間がかかる。
本稿では,カット平面法と混合レベル目的関数を用いた新しいハイパーパラメータ最適化手法CPMLHOを提案する。
より高精度な超勾配を得るためには、訓練セットの損失と検証セットを用いて、混合レベルが柔軟に損失関数を調整することができる。
既存の手法と比較して,本手法はトレーニングプロセスのハイパーパラメータを自動的に更新でき,より高精度でより高速なコンバージェンスでより優れたハイパーパラメータを探索できることを示す。 The hyperparameter optimization of neural network can be expressed as a bilevel optimization problem. The bilevel optimization is used to automatically update the hyperparameter, and the gradient of the hyperparameter is the approximate gradient based on the best response function. Finding the best response function is very time consuming. In this paper we propose CPMLHO, a new hyperparameter optimization method using cutting plane method and mixed-level objective function.The cutting plane is added to the inner layer to constrain the space of the response function. To obtain more accurate hypergradient,the mixed-level can flexibly adjust the loss function by using the loss of the training set and the verification set. Compared to existing methods, the experimental results show that our method can automatically update the hyperparameters in the training process, and can find more superior hyperparameters with higher accuracy and faster convergence. | 翻訳日:2022-12-14 15:15:22 公開日:2022-12-11 |
# 非ブラックボックスPDEソリューションとしてのDOSnet:ディープラーニングがオペレータ分割に遭遇する DOSnet as a Non-Black-Box PDE Solver: When Deep Learning Meets Operator Splitting ( http://arxiv.org/abs/2212.05571v1 ) ライセンス: Link先を確認 | Yuan Lan, Zhen Li, Jie Sun, Yang Xiang | (参考訳) 深層ニューラルネットワーク(dnn)は、科学や工学の応用で生じる複雑な微分方程式を解析し、解決するための有望なツールとして最近登場した。
従来の数値スキームの代わりに、学習ベースの解法はDNNの表現力を利用して入力-出力関係を自動で近似する。
しかしながら、ループ内物理の欠如は、高い精度、低い計算負荷、そして解釈可能性を同時に達成するニューラルネットワークソルバの構築を困難にすることが多い。
本研究では,分解可能な演算子を特徴とする進化的pdesのクラスに着目し,これらの方程式を解く古典的な ``operator split''' の数値スキームをニューラルネットワークアーキテクチャの設計に活用できることを示す。
これにより、Deep Operator-Splitting Network (DOSnet)という名前の学習ベースのPDEソルバが生まれる。
このような非ブラックボックスネットワーク設計は、物理ルールから構築され、基礎となるダイナミクスを管理するオペレータには学習可能なパラメータが含まれており、通常の演算子分割方式よりも柔軟である。
トレーニングが完了すると、同じタイプのpdesの高速解法が可能になる。
DOSnet内の特殊構造を検証するため,線形PDEをベンチマークとして,重み挙動の数学的説明を与える。
さらに,新しいaiエンハンス型pdeソルバの利点を示すために,数種類の作用素分解型微分方程式を学習し,検証する。
また,光ファイバー伝送システムにおいて信号処理に重要な応用を有する非線形schr\"odinger方程式 (nlse) にもdosnetを適用することにより,数値スキームやベースラインdnnよりも精度と計算複雑性が向上することを示した。 Deep neural networks (DNNs) recently emerged as a promising tool for analyzing and solving complex differential equations arising in science and engineering applications. Alternative to traditional numerical schemes, learning-based solvers utilize the representation power of DNNs to approximate the input-output relations in an automated manner. However, the lack of physics-in-the-loop often makes it difficult to construct a neural network solver that simultaneously achieves high accuracy, low computational burden, and interpretability. In this work, focusing on a class of evolutionary PDEs characterized by having decomposable operators, we show that the classical ``operator splitting'' numerical scheme of solving these equations can be exploited to design neural network architectures. This gives rise to a learning-based PDE solver, which we name Deep Operator-Splitting Network (DOSnet). Such non-black-box network design is constructed from the physical rules and operators governing the underlying dynamics contains learnable parameters, and is thus more flexible than the standard operator splitting scheme. Once trained, it enables the fast solution of the same type of PDEs. To validate the special structure inside DOSnet, we take the linear PDEs as the benchmark and give the mathematical explanation for the weight behavior. Furthermore, to demonstrate the advantages of our new AI-enhanced PDE solver, we train and validate it on several types of operator-decomposable differential equations. We also apply DOSnet to nonlinear Schr\"odinger equations (NLSE) which have important applications in the signal processing for modern optical fiber transmission systems, and experimental results show that our model has better accuracy and lower computational complexity than numerical schemes and the baseline DNNs. | 翻訳日:2022-12-13 18:43:51 公開日:2022-12-11 |
# 機械学習アルゴリズムを用いたロブスターx線望遠鏡のターゲット検出フレームワーク Target Detection Framework for Lobster Eye X-Ray Telescopes with Machine Learning Algorithms ( http://arxiv.org/abs/2212.05497v1 ) ライセンス: Link先を確認 | Peng Jia, Wenbo Liu, Yuan Liu, Haiwu Pan | (参考訳) ロブスター望遠鏡は、X線帯域の広い視野で天体を観測できるため、X線トランジェントを検出するのに理想的なモニターである。
しかし、ロブスター望遠鏡で得られた画像は独自の点拡散関数によって修正され、高効率な目標検出アルゴリズムの設計が困難になる。
本稿では,複数の機械学習アルゴリズムを統合し,ロブスター眼球望遠鏡が取得したデータのターゲット検出フレームワークを構築する。
我々のフレームワークはまず、検出器上の光子の位置に応じて異なる画素スケールの2つの2d画像を生成する。
次に、形態素演算と2つのニューラルネットワークに基づくアルゴリズムを使用して、これらの2d画像から異なるフラックスを持つ天体の候補を検出する。
最後に、ランダムフォレストアルゴリズムを使用して、前回のステップで得られた候補から最終検出結果を取得する。
アインシュタイン探査機に搭載された広視野x線望遠鏡のシミュレーションデータを用いて, 3 mcrab (9.6 * 10-11 erg/cm2/s) 以上のフラックスを持つターゲットに対して94%以上の純度と90%以上の完全度を達成し, 許容可能な時間コストで低フラックスのターゲットに対して94%以上の純度と中程度の完全度を達成することができた。
本論文では、他のロブスター眼X線望遠鏡で開発されたデータ処理手法の基準として用いることができる。 Lobster eye telescopes are ideal monitors to detect X-ray transients, because they could observe celestial objects over a wide field of view in X-ray band. However, images obtained by lobster eye telescopes are modified by their unique point spread functions, making it hard to design a high efficiency target detection algorithm. In this paper, we integrate several machine learning algorithms to build a target detection framework for data obtained by lobster eye telescopes. Our framework would firstly generate two 2D images with different pixel scales according to positions of photons on the detector. Then an algorithm based on morphological operations and two neural networks would be used to detect candidates of celestial objects with different flux from these 2D images. At last, a random forest algorithm will be used to pick up final detection results from candidates obtained by previous steps. Tested with simulated data of the Wide-field X-ray Telescope onboard the Einstein Probe, our detection framework could achieve over 94% purity and over 90% completeness for targets with flux more than 3 mCrab (9.6 * 10-11 erg/cm2/s) and more than 94% purity and moderate completeness for targets with lower flux at acceptable time cost. The framework proposed in this paper could be used as references for data processing methods developed for other lobster eye X-ray telescopes. | 翻訳日:2022-12-13 18:35:25 公開日:2022-12-11 |
# 可変フル参照画像品質の適用性制限 Applicability limitations of differentiable full-reference image-quality ( http://arxiv.org/abs/2212.05499v1 ) ライセンス: Link先を確認 | Siniukov Maksim, Dmitriy Kulikov and Dmitriy Vatolin | (参考訳) 主観的画像品質測定は画像処理アプリケーションの開発において重要な役割を果たす。
視覚品質指標の目的は主観評価の結果を近似することである。
この点に関して、より多くのメトリクスが開発中であるが、その限界を考慮した研究はほとんどない。
本稿では, 圧縮前の画像前処理が, DISTS, LPIPS, HaarPSI, VIFによって提供される品質スコアを人工的に向上させることを示すとともに, これらのスコアが主観的品質スコアと矛盾することを示す。
JPEG圧縮画像の場合、DisTSを最大34.5%、LPIPSを最大36.8%、VIFを最大98.0%、HaarPSIを最大22.6%増加させる一連のニューラルネットワーク前処理モデルを提案する。
事前処理した画像の主観的な比較では、調査したほとんどのメトリクスにおいて、視覚的品質の低下や維持は変化せず、これらのメトリクスの適用性が制限された。 Subjective image-quality measurement plays a critical role in the development of image-processing applications. The purpose of a visual-quality metric is to approximate the results of subjective assessment. In this regard, more and more metrics are under development, but little research has considered their limitations. This paper addresses that deficiency: we show how image preprocessing before compression can artificially increase the quality scores provided by the popular metrics DISTS, LPIPS, HaarPSI, and VIF as well as how these scores are inconsistent with subjective-quality scores. We propose a series of neural-network preprocessing models that increase DISTS by up to 34.5%, LPIPS by up to 36.8%, VIF by up to 98.0%, and HaarPSI by up to 22.6% in the case of JPEG-compressed images. A subjective comparison of preprocessed images showed that for most of the metrics we examined, visual quality drops or stays unchanged, limiting the applicability of these metrics. | 翻訳日:2022-12-13 18:34:59 公開日:2022-12-11 |
# 灰色放射伝達方程式のマイクロマクロ分解に基づくモデルデータ漸近保存ニューラルネットワーク法 A model-data asymptotic-preserving neural network method based on micro-macro decomposition for gray radiative transfer equations ( http://arxiv.org/abs/2212.05523v1 ) ライセンス: Link先を確認 | Hongyan Li, Song Jiang, Wenjun Sun, Liwei Xu, Guanyu Zhou | (参考訳) 本稿では,非線形灰色の放射伝達方程式(GRTE)を解くために,MD-APNN法を提案する。
このシステムは、従来の数値スキームと、マルチスケール特性のためにバニラ物理情報ニューラルネットワーク(PINN)の両方でシミュレートすることが困難である。
ピンの枠組みの下では, マイクロマクロ結合形式における制御方程式の残差, 付加拡散限界情報を含む初期および境界条件, 保存則, ラベル付きデータを含む, 新たな漸近保存(ap)損失関数を構築するために, マイクロマクロ分解法を用いる。
提案手法に対して収束解析を行い,MD-APNNの効率,特に拡散支配問題に対するニューラルネットワークにおけるAP特性の重要性を示す数値例を多数提示した。
数値計算の結果,非定常GRTEのシミュレーションにおいて,MD-APNNはAPNNや純粋なデータ駆動ネットワークよりも優れた性能を示した。 We propose a model-data asymptotic-preserving neural network(MD-APNN) method to solve the nonlinear gray radiative transfer equations(GRTEs). The system is challenging to be simulated with both the traditional numerical schemes and the vanilla physics-informed neural networks(PINNs) due to the multiscale characteristics. Under the framework of PINNs, we employ a micro-macro decomposition technique to construct a new asymptotic-preserving(AP) loss function, which includes the residual of the governing equations in the micro-macro coupled form, the initial and boundary conditions with additional diffusion limit information, the conservation laws, and a few labeled data. A convergence analysis is performed for the proposed method, and a number of numerical examples are presented to illustrate the efficiency of MD-APNNs, and particularly, the importance of the AP property in the neural networks for the diffusion dominating problems. The numerical results indicate that MD-APNNs lead to a better performance than APNNs or pure data-driven networks in the simulation of the nonlinear non-stationary GRTEs. | 翻訳日:2022-12-13 18:32:57 公開日:2022-12-11 |
# ezDPS: 効率的なゼロ知識機械学習推論パイプライン ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference Pipeline ( http://arxiv.org/abs/2212.05428v1 ) ライセンス: Link先を確認 | Haodi Wang and Thang Hoang | (参考訳) 機械学習・アズ・ア・サービス(MLaaS)は、リソース限定のクライアントが強力なデータ分析サービスにユビキタスにアクセスできるようにする。
そのメリットにもかかわらず、MLaaSはデリゲートされた計算の完全性とサーバのモデルパラメータのプライバシに関する重要な懸念を提起している。
この問題に対処するため、Zhang et al. (CCS'20) はゼロ知識機械学習 (zkML) の研究を開始した。
それ以降、zkMLスキームはほとんど提案されていないが、十分な精度を提供していないり、大規模なトレーニングデータやモデルパラメータを必要とするような唯一のML分類アルゴリズムに重点を置いている。
我々は,新しい効率的かつゼロ知識ML推論スキームであるezDPSを提案する。
従来の作業とは異なり、ezDPSはzkMLパイプラインであり、データを高い精度で複数のステージで処理する。
ezDPSの各ステージには、離散ウェーブレット変換、主成分分析、サポートベクトルマシンなど、さまざまなアプリケーションに有効な確立されたMLアルゴリズムが使用されている。
我々はML操作を効果的に証明する新しいガジェットを設計する。
ezdpsを完全に実装し、実際のデータセットでの性能を評価しました。
実験結果から, ezDPSは汎用回路ベース手法よりも1~3桁効率が高く, 単一ML分類法よりも精度が高いことがわかった。 Machine Learning as a service (MLaaS) permits resource-limited clients to access powerful data analytics services ubiquitously. Despite its merits, MLaaS poses significant concerns regarding the integrity of delegated computation and the privacy of the server's model parameters. To address this issue, Zhang et al. (CCS'20) initiated the study of zero-knowledge Machine Learning (zkML). Few zkML schemes have been proposed afterward; however, they focus on sole ML classification algorithms that may not offer satisfactory accuracy or require large-scale training data and model parameters, which may not be desirable for some applications. We propose ezDPS, a new efficient and zero-knowledge ML inference scheme. Unlike prior works, ezDPS is a zkML pipeline in which the data is processed in multiple stages for high accuracy. Each stage of ezDPS is harnessed with an established ML algorithm that is shown to be effective in various applications, including Discrete Wavelet Transformation, Principal Components Analysis, and Support Vector Machine. We design new gadgets to prove ML operations effectively. We fully implemented ezDPS and assessed its performance on real datasets. Experimental results showed that ezDPS achieves one-to-three orders of magnitude more efficient than the generic circuit-based approach in all metrics while maintaining more desirable accuracy than single ML classification approaches. | 翻訳日:2022-12-13 18:18:09 公開日:2022-12-11 |
# フェデレートベイズ学習のためのクライアント選択 Client Selection for Federated Bayesian Learning ( http://arxiv.org/abs/2212.05492v1 ) ライセンス: Link先を確認 | Jiarong Yang, Yuan Liu, Rahif Kassab | (参考訳) 分散スタイン変分勾配降下(distributed stein variational gradient descent、dsvgd)は、複数のクライアントが複数の非ランダムな粒子をサーバと通信して機械学習モデルを共同で訓練する、フェデレートベイズ学習のための非パラメトリック分散学習フレームワークである。
通信資源は限られているため、最も有益なローカル学習更新を持つクライアントを選択することで、モデルの収束と通信効率が向上する。
本稿では,KSD(Kernelized Stein Discrepancy)とHilbert Inner Product(HIP)に基づくDSVGDの選択手法を提案する。
我々は、両方のスキームの反復当たりのグローバル自由エネルギーの減少の上限を導出し、モデル収束をスピードアップするために最小化する。
様々な学習タスクとデータセットを用いて,モデル精度,収束速度,安定性の観点から,従来のスキームと比較した。 Distributed Stein Variational Gradient Descent (DSVGD) is a non-parametric distributed learning framework for federated Bayesian learning, where multiple clients jointly train a machine learning model by communicating a number of non-random and interacting particles with the server. Since communication resources are limited, selecting the clients with most informative local learning updates can improve the model convergence and communication efficiency. In this paper, we propose two selection schemes for DSVGD based on Kernelized Stein Discrepancy (KSD) and Hilbert Inner Product (HIP). We derive the upper bound on the decrease of the global free energy per iteration for both schemes, which is then minimized to speed up the model convergence. We evaluate and compare our schemes with conventional schemes in terms of model accuracy, convergence speed, and stability using various learning tasks and datasets. | 翻訳日:2022-12-13 18:17:44 公開日:2022-12-11 |
# FactorJoin: ジョインクエリのための新しいカーディナリティ推定フレームワーク FactorJoin: A New Cardinality Estimation Framework for Join Queries ( http://arxiv.org/abs/2212.05526v1 ) ライセンス: Link先を確認 | Ziniu Wu, Parimarjan Negi, Mohammad Alizadeh, Tim Kraska, Samuel Madden | (参考訳) 基数推定はクエリ最適化における最も基本的かつ困難な問題の1つである。
古典的手法も学習的手法も、結合クエリの濃度を推定する際に満足な性能は得られない。
それらは単純化された仮定に頼るか、データ分布を理解するために大規模なモデルを構築し、長い計画時間とクエリ間の一般化性の欠如をもたらす。
本稿では,結合クエリを推定するための新しいフレームワークであるfactorjoinを提案する。
FactorJoinは、古典的な結合ヒストグラム法の背後にあるアイデアを組み合わせて、結合を学習に基づく手法で効率的に処理し、属性相関を正確に捉える。
具体的には、FactJoinはDBのすべてのテーブルをスキャンし、オフライン準備フェーズ中に単一テーブルの条件分布を構築する。
結合クエリが現れると、factorjoinはそれを学習した分布よりも係数グラフモデルに変換し、効果的かつ効率的に濃度を推定する。
既存の学習ベースの方法とは異なり、factorjoinは結合を事前に非正規化したり、モデルをトレーニングするために実行されたクエリワークロードを必要とする必要はない。
シングルテーブルの統計にのみ依存するため、FactJoinは空間オーバーヘッドが小さく、トレーニングとメンテナンスが極めて容易である。
評価では、FactJoinは、従来の最先端の学習ベース手法よりも、40倍のレイテンシ、100倍のモデルサイズ、100倍の高速なトレーニング速度で、より効果的な評価を行うことができる。
さらに、FactJoinは1秒以内に10,000のサブプランクエリを推定してクエリ計画を最適化することができる。 Cardinality estimation is one of the most fundamental and challenging problems in query optimization. Neither classical nor learning-based methods yield satisfactory performance when estimating the cardinality of the join queries. They either rely on simplified assumptions leading to ineffective cardinality estimates or build large models to understand the data distributions, leading to long planning times and a lack of generalizability across queries. In this paper, we propose a new framework FactorJoin for estimating join queries. FactorJoin combines the idea behind the classical join-histogram method to efficiently handle joins with the learning-based methods to accurately capture attribute correlation. Specifically, FactorJoin scans every table in a DB and builds single-table conditional distributions during an offline preparation phase. When a join query comes, FactorJoin translates it into a factor graph model over the learned distributions to effectively and efficiently estimate its cardinality. Unlike existing learning-based methods, FactorJoin does not need to de-normalize joins upfront or require executed query workloads to train the model. Since it only relies on single-table statistics, FactorJoin has small space overhead and is extremely easy to train and maintain. In our evaluation, FactorJoin can produce more effective estimates than the previous state-of-the-art learning-based methods, with 40x less estimation latency, 100x smaller model size, and 100x faster training speed at comparable or better accuracy. In addition, FactorJoin can estimate 10,000 sub-plan queries within one second to optimize the query plan, which is very close to the traditional cardinality estimators in commercial DBMS. | 翻訳日:2022-12-13 18:17:28 公開日:2022-12-11 |
# 異常解析のためのグラフ学習:アルゴリズム、アプリケーション、課題 Graph Learning for Anomaly Analytics: Algorithms, Applications, and Challenges ( http://arxiv.org/abs/2212.05532v1 ) ライセンス: Link先を確認 | Jing Ren, Feng Xia, Azadeh Noori Hoshyar and Charu C. Aggarwal | (参考訳) 異常分析は、数十年にわたって研究されてきた様々な研究状況において、人気があり重要な課題である。
同時に、ディープラーニングは、ノード分類、リンク予測、グラフ分類など、多くのグラフベースのタスクを解決する能力を示している。
近年, 異常解析問題の解法としてグラフ学習モデルを拡張し, グラフに基づく異常解析技術に有益な進歩をもたらした。
本稿では,異常解析タスクのためのグラフ学習手法の包括的概要について述べる。
我々はこれらを,グラフ畳み込みネットワーク(GCN),グラフ注意ネットワーク(GAT),グラフオートエンコーダ(GAE),その他のグラフ学習モデルというモデルアーキテクチャに基づいて,4つのカテゴリに分類する。
これらの方法の違いも体系的に比較される。
さらに,実世界の様々な領域にまたがるグラフベースの異常解析アプリケーションについて概説する。
最後に,この急成長分野における将来研究の5つの方向性について考察する。 Anomaly analytics is a popular and vital task in various research contexts, which has been studied for several decades. At the same time, deep learning has shown its capacity in solving many graph-based tasks like, node classification, link prediction, and graph classification. Recently, many studies are extending graph learning models for solving anomaly analytics problems, resulting in beneficial advances in graph-based anomaly analytics techniques. In this survey, we provide a comprehensive overview of graph learning methods for anomaly analytics tasks. We classify them into four categories based on their model architectures, namely graph convolutional network (GCN), graph attention network (GAT), graph autoencoder (GAE), and other graph learning models. The differences between these methods are also compared in a systematic manner. Furthermore, we outline several graph-based anomaly analytics applications across various domains in the real world. Finally, we discuss five potential future research directions in this rapidly growing field. | 翻訳日:2022-12-13 18:17:00 公開日:2022-12-11 |
# フィッシング検出器に対する灰色のボックス攻撃の緩和 Mitigating Adversarial Gray-Box Attacks Against Phishing Detectors ( http://arxiv.org/abs/2212.05380v1 ) ライセンス: Link先を確認 | Giovanni Apruzzese and V.S. Subrahmanian | (参考訳) 機械学習ベースのアルゴリズムは、フィッシングwebサイトの検出に広く使われているが、このような“フィッシング検出器”(pds)を敵が攻撃する方法については、比較的少ない。
本稿では,pdsに対するグレイボックス攻撃のセットを提案する。その攻撃は,pdに関する知識によって異なる可能性がある。
これらの攻撃はいくつかの既存のPDの有効性を著しく低下させることを示した。
そこで我々は,元の特徴集合を新しい特徴集合に反復的にマッピングする操作連鎖の概念を提案し,そのアルゴリズム「予測操作連鎖(POC)」を開発した。
POCは、ターゲットPDに対する攻撃者の不確実性を高めるために、ランダムな特徴選択と特徴マッピングの組み合わせを利用する。
既存の3つの公開データセットと、私たちが作成した4番目のデータセットをこの論文の公開時に公開することにより、POCは過去の競合する作業よりも、これらの攻撃に対して堅牢であると同時に、敵の攻撃が存在しない場合に予測性能を保っていることを示す。
さらに、POCは1つだけでなく13の異なる分類器に対する攻撃に対して堅牢である。
これらの結果はp < 0.001 レベルで統計的に有意であることが示されている。 Although machine learning based algorithms have been extensively used for detecting phishing websites, there has been relatively little work on how adversaries may attack such "phishing detectors" (PDs for short). In this paper, we propose a set of Gray-Box attacks on PDs that an adversary may use which vary depending on the knowledge that he has about the PD. We show that these attacks severely degrade the effectiveness of several existing PDs. We then propose the concept of operation chains that iteratively map an original set of features to a new set of features and develop the "Protective Operation Chain" (POC for short) algorithm. POC leverages the combination of random feature selection and feature mappings in order to increase the attacker's uncertainty about the target PD. Using 3 existing publicly available datasets plus a fourth that we have created and will release upon the publication of this paper, we show that POC is more robust to these attacks than past competing work, while preserving predictive performance when no adversarial attacks are present. Moreover, POC is robust to attacks on 13 different classifiers, not just one. These results are shown to be statistically significant at the p < 0.001 level. | 翻訳日:2022-12-13 18:06:28 公開日:2022-12-11 |
# abc: アグリゲーション・フォー・コミュニケーション、分散グラフニューラルネットワークトレーニングと効果的な分割のためのコミュニケーション低減フレームワーク ABC: Aggregation before Communication, a Communication Reduction Framework for Distributed Graph Neural Network Training and Effective Partition ( http://arxiv.org/abs/2212.05410v1 ) ライセンス: Link先を確認 | Junwei Su | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造データに適したニューラルネットワークのファミリーであり、グラフ構造データの学習表現において優れた性能を示している。
しかし、大きなグラフ上でのGNNのトレーニングは依然として困難であり、入力グラフを分割し、ワークロードを複数のマシンに分散させるGNNトレーニングは有望な方向である。
既存の分散GNNトレーニングフレームワークの重要なボトルネックは、GNNのグラフデータと集約演算子への依存によって引き起こされる、マシン間通信である。
本稿では,分散GNN訓練における通信複雑性について検討し,通信前集約法(ABC)と呼ばれる単純なロスレス通信低減法を提案する。
ABC法は、GNNs層の置換不変性を利用して、頂点カットが現在普及しているパラダイム(エッジカット)よりも優れた通信性能を持つことが証明されたパラダイムにつながる。
また,新しい分割パラダイムは,グラフ変換過程の未知の確率によるエッジ配置の制御が不可能な動的グラフの場合において,特に理想的であることを示す。 Graph Neural Networks(GNNs) are a family of neural models tailored for graph-structure data and have shown superior performance in learning representations for graph-structured data. However, training GNNs on large graphs remains challenging and a promising direction is distributed GNN training, which is to partition the input graph and distribute the workload across multiple machines. The key bottleneck of the existing distributed GNNs training framework is the across-machine communication induced by the dependency on the graph data and aggregation operator of GNNs. In this paper, we study the communication complexity during distributed GNNs training and propose a simple lossless communication reduction method, termed the Aggregation before Communication (ABC) method. ABC method exploits the permutation-invariant property of the GNNs layer and leads to a paradigm where vertex-cut is proved to admit a superior communication performance than the currently popular paradigm (edge-cut). In addition, we show that the new partition paradigm is particularly ideal in the case of dynamic graphs where it is infeasible to control the edge placement due to the unknown stochastic of the graph-changing process. | 翻訳日:2022-12-13 18:06:09 公開日:2022-12-11 |
# 低ランクテンソル支援k空間生成モデルによる並列画像再構成 Low-rank Tensor Assisted K-space Generative Model for Parallel Imaging Reconstruction ( http://arxiv.org/abs/2212.05503v1 ) ライセンス: Link先を確認 | Wei Zhang, Zengwei Xiao, Hui Tao, Minghui Zhang, Xiaoling Xu, Qiegen Liu | (参考訳) 近年の深層学習法、特に生成モデルでは高速磁気共鳴イメージングの性能が向上しているが、高次元化にはまだ改善の余地がある。
スコアベース生成モデルの内部次元がデータ分布の勾配の推定に重要な影響を与えることを考慮し、並列画像再構成のための低ランクテンソル支援k空間生成モデル(LR-KGM)を提案する。
これは、学習のための元の事前情報を高次元の事前情報に変換することを意味する。
より具体的には、マルチチャネルデータは大きなハンケル行列に構築され、マトリックスはその後、事前学習のためにテンソルに折り畳まれる。
試験段階では、低ランク回転戦略を用いて、生成ネットワークのテンソル出力に低ランク制約を課す。
さらに,従来の生成的反復と低位高次元テンソル反復を交互に用いた。
実験により, LR-KGM法は高い性能を示した。 Although recent deep learning methods, especially generative models, have shown good performance in fast magnetic resonance imaging, there is still much room for improvement in high-dimensional generation. Considering that internal dimensions in score-based generative models have a critical impact on estimating the gradient of the data distribution, we present a new idea, low-rank tensor assisted k-space generative model (LR-KGM), for parallel imaging reconstruction. This means that we transform original prior information into high-dimensional prior information for learning. More specifically, the multi-channel data is constructed into a large Hankel matrix and the matrix is subsequently folded into tensor for prior learning. In the testing phase, the low-rank rotation strategy is utilized to impose low-rank constraints on tensor output of the generative network. Furthermore, we alternately use traditional generative iterations and low-rank high-dimensional tensor iterations for reconstruction. Experimental comparisons with the state-of-the-arts demonstrated that the proposed LR-KGM method achieved better performance. | 翻訳日:2022-12-13 18:00:46 公開日:2022-12-11 |
# RGB-Dデータを用いた未知物体の文脈認識6次元ポス推定 Context-aware 6D Pose Estimation of Known Objects using RGB-D data ( http://arxiv.org/abs/2212.05560v1 ) ライセンス: Link先を確認 | Ankit Kumar, Priya Shukla, Vandana Kushwaha and G.C. Nandi | (参考訳) 6Dオブジェクトのポーズ推定はコンピュータビジョンとロボット工学の分野で研究トピックとなっている。
ロボットの把持、操作、自律ナビゲーションなど、現代の多くのアプリケーションは、特定のタスクを実行するためにシーンに存在するオブジェクトの正しいポーズを必要とする。
オブジェクトが散らかったシーンに置かれ、オクルージョンのレベルが高くなると、さらに難しくなります。
以前の研究はこの問題を克服しようと試みたが、現実のアプリケーションでは信頼できると考えられる精度を達成できなかった。
本稿では,従来の作業とは違ってコンテキスト認識のアーキテクチャを提案する。
オブジェクトについて我々に利用可能なコンテキスト情報を利用する。
提案するアーキテクチャはオブジェクトをその型、すなわち対称と非対称に別々に扱う。
より深い推定器と精製器のネットワークペアは、その内在的な違いによる対称と比較して非対称なオブジェクトに使用される。
実験では,オクルードシーンとクラッタシーンにおけるポーズ推定のベンチマークであるlinemodデータセットの約3.2%の精度向上を示す。
また,実時間の使用には十分な推定時間が得られることを示した。 6D object pose estimation has been a research topic in the field of computer vision and robotics. Many modern world applications like robot grasping, manipulation, autonomous navigation etc, require the correct pose of objects present in a scene to perform their specific task. It becomes even harder when the objects are placed in a cluttered scene and the level of occlusion is high. Prior works have tried to overcome this problem but could not achieve accuracy that can be considered reliable in real-world applications. In this paper, we present an architecture that, unlike prior work, is context-aware. It utilizes the context information available to us about the objects. Our proposed architecture treats the objects separately according to their types i.e; symmetric and non-symmetric. A deeper estimator and refiner network pair is used for non-symmetric objects as compared to symmetric due to their intrinsic differences. Our experiments show an enhancement in the accuracy of about 3.2% over the LineMOD dataset, which is considered a benchmark for pose estimation in the occluded and cluttered scenes, against the prior state-of-the-art DenseFusion. Our results also show that the inference time we got is sufficient for real-time usage. | 翻訳日:2022-12-13 18:00:33 公開日:2022-12-11 |
# YoloCurvSeg: 容器型曲線構造セグメンテーションのためのノイズのみをラベル付けする YoloCurvSeg: You Only Label One Noisy Skeleton for Vessel-style Curvilinear Structure Segmentation ( http://arxiv.org/abs/2212.05566v1 ) ライセンス: Link先を確認 | Li Lin, Linkai Peng, Huaqing He, Pujin Cheng, Jiewei Wu, Kenneth K. Y. Wong, Xiaoying Tang | (参考訳) 弱教師付き学習(weakly supervised learning,wsl)は、粗粒度(point-, box-, scribble-wise)の監督を用いてデータアノテーションコストとモデル性能の衝突を軽減するために提案され、特に画像分割の分野で有望な性能を示している。
しかし、限定的な監督のため、特に少数のラベル付きサンプルしか入手できないため、依然として非常に困難な問題である。
加えて、既存のWSLセグメンテーション手法のほとんど全ては、血管や神経などの曲線構造とは大きく異なる恒星凸構造のために設計されている。
本稿では,画像合成を基盤として,直線構造に対する疎アノテートなセグメンテーションフレームワークであるyolocurvsegを提案する。
背景生成器は、塗布された拡張された骨格を通して実際の分布と密に一致する画像背景を提供する。
抽出した背景は、Space Colonization Algorithmベースの前景生成器とマルチレイヤパッチワイドコントラスト学習シンセサイザによって生成されるランダムなエミュレーション曲線と結合される。
このようにして、画像と曲線セグメンテーションラベルの両方を持つ合成データセットが、1つまたは数個のノイズスケルトンアノテーションのコストで取得される。
最後に、セグメンタは生成されたデータセットとおそらくラベルのないデータセットでトレーニングされる。
提案したYoloCurvSegは4つの公開データセット(OCTA500, CORN, DRIVE, CHASEDB1)で評価され、その結果、YoloCurvSegは最先端のWSLセグメンテーション手法を大きなマージンで上回る結果となった。
ノイズの多いスケルトンアノテーション(0.14%、0.02%、1.4%、0.65%)は、各データセットの完全な教師付きパフォーマンスの97%以上をyolocurvsegが達成している。
コードとデータセットはhttps://github.com/llmir/YoloCurvSegで公開される。 Weakly-supervised learning (WSL) has been proposed to alleviate the conflict between data annotation cost and model performance through employing sparsely-grained (i.e., point-, box-, scribble-wise) supervision and has shown promising performance, particularly in the image segmentation field. However, it is still a very challenging problem due to the limited supervision, especially when only a small number of labeled samples are available. Additionally, almost all existing WSL segmentation methods are designed for star-convex structures which are very different from curvilinear structures such as vessels and nerves. In this paper, we propose a novel sparsely annotated segmentation framework for curvilinear structures, named YoloCurvSeg, based on image synthesis. A background generator delivers image backgrounds that closely match real distributions through inpainting dilated skeletons. The extracted backgrounds are then combined with randomly emulated curves generated by a Space Colonization Algorithm-based foreground generator and through a multilayer patch-wise contrastive learning synthesizer. In this way, a synthetic dataset with both images and curve segmentation labels is obtained, at the cost of only one or a few noisy skeleton annotations. Finally, a segmenter is trained with the generated dataset and possibly an unlabeled dataset. The proposed YoloCurvSeg is evaluated on four publicly available datasets (OCTA500, CORN, DRIVE and CHASEDB1) and the results show that YoloCurvSeg outperforms state-of-the-art WSL segmentation methods by large margins. With only one noisy skeleton annotation (respectively 0.14%, 0.02%, 1.4%, and 0.65% of the full annotation), YoloCurvSeg achieves more than 97% of the fully-supervised performance on each dataset. Code and datasets will be released at https://github.com/llmir/YoloCurvSeg. | 翻訳日:2022-12-13 18:00:16 公開日:2022-12-11 |
# 点クラウド幾何圧縮のための神経体積場学習 Learning Neural Volumetric Field for Point Cloud Geometry Compression ( http://arxiv.org/abs/2212.05589v1 ) ライセンス: Link先を確認 | Yueyu Hu and Yao Wang | (参考訳) 多様な分散性、高次元性、動的点雲の大きな時間変動のため、効率的な点雲圧縮法を設計することは依然として困難である。
神経容積場を学習することにより,与えられた点雲の形状をコード化する。
単一オーバーフィットネットワークを用いてポイントクラウド全体を表現するのではなく、空間全体を小さなキューブに分割し、ニューラルネットワークと入力潜在コードによって各空でないキューブを表現する。
ネットワークは、空間的および時間的冗長性を利用するために、1フレームまたは複数のフレームで全ての立方体間で共有される。
ポイントクラウドのニューラルフィールド表現には、ネットワークパラメータと、ネットワークパラメータとその入力に対するバックプロパゲーションを使用して生成されるすべての潜在コードが含まれている。
ネットワークパラメータと潜時符号のエントロピーと、損失関数における元の立方体と再構成された立方体の歪みを考慮し、レート歪み(R-D)の最適表現を導出する。
実験結果から,提案手法はオクツリーベースG-PCCと比較して,特にポイントクラウドビデオの複数フレームに適用した場合に,優れたR-D性能が得られることが示された。
コードはhttps://github.com/huzi96/NVFPCC/で入手できる。 Due to the diverse sparsity, high dimensionality, and large temporal variation of dynamic point clouds, it remains a challenge to design an efficient point cloud compression method. We propose to code the geometry of a given point cloud by learning a neural volumetric field. Instead of representing the entire point cloud using a single overfit network, we divide the entire space into small cubes and represent each non-empty cube by a neural network and an input latent code. The network is shared among all the cubes in a single frame or multiple frames, to exploit the spatial and temporal redundancy. The neural field representation of the point cloud includes the network parameters and all the latent codes, which are generated by using back-propagation over the network parameters and its input. By considering the entropy of the network parameters and the latent codes as well as the distortion between the original and reconstructed cubes in the loss function, we derive a rate-distortion (R-D) optimal representation. Experimental results show that the proposed coding scheme achieves superior R-D performances compared to the octree-based G-PCC, especially when applied to multiple frames of a point cloud video. The code is available at https://github.com/huzi96/NVFPCC/. | 翻訳日:2022-12-13 17:59:38 公開日:2022-12-11 |
# 引退:高次元でのロバストな期待回帰 Retire: Robust Expectile Regression in High Dimensions ( http://arxiv.org/abs/2212.05562v1 ) ライセンス: Link先を確認 | Rebeka Man, Kean Ming Tan, Zian Wang, and Wen-Xin Zhou | (参考訳) 高次元データは、ヘテロシドスティックな分散や不均質な共変量効果によって、しばしば異質性を示す。
ペナルタライズド量子量分解法と期待回帰法は、高次元データのヘテロシステディティを検出する有用なツールを提供する。
前者はチェック損失の非滑らかな性質のため計算的に困難であり、後者は重み付き誤差分布に敏感である。
本稿では,繰り返し重み付けされた$\ell_1$-penalization に着目し,$\ell_1$-penalization から推定バイアスを低減し,oracle のプロパティに繋がる,(ペナライズされた)堅牢な期待回帰 (retire) を提案し,検討する。
理論的には、退職推定子の統計特性を2つの条件の下で定めている。
(i)$d \ll n$という低次元のレジーム
(ii)$s\ll n\ll d$が$s$で重要な予測器の数を示す高次元のレジーム。
高次元設定では, 繰り返し再重み付けされた$\ell_1$-penalized retirement estimationの解経路を, 折り畳み凹凸正則化のための局所線形近似アルゴリズムを用いて慎重に特徴づける。
穏やかな最小信号強度条件下では、$\log(\log d)$の反復を繰り返すと、最終イテレートがoracleの収束率を享受することを示している。
各イテレーションにおいて、重み付き$\ell_1$-penalized convexプログラムをセミムートニュートン座標降下アルゴリズムによって効率的に解くことができる。
数値解析により,提案手法の競合性能を,非ロバストあるいは量子回帰に基づく方法と比較した。 High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives. | 翻訳日:2022-12-13 17:51:37 公開日:2022-12-11 |
# 腹部臓器の3次元変位場学習による2次元/3次元深部画像登録 2D/3D Deep Image Registration by Learning 3D Displacement Fields for Abdominal Organs ( http://arxiv.org/abs/2212.05445v1 ) ライセンス: Link先を確認 | Ryuto Miura, Megumi Nakao, Mitsuhiro Nakamura, and Tetsuya Matsuda | (参考訳) 腹部臓器の2次元・3次元(2D/3D)画像の変形性登録は,2次元X線画像では腹部臓器が著しく変形し,輪郭が検出されないため,複雑な作業である。
3dボリュームと1視点2d投影画像間の2d/3d変形可能な画像登録を実現する教師付きディープラーニングフレームワークを提案する。
提案手法は,対象2次元投影画像と初期3次元体積から3次元変位場への変換を学習する。
実験では,腹部4D-CTボリュームから生成された3DCTボリュームをデジタルで再構成した。
4D-CTボリュームを35例使用し,非直線的,局所的な呼吸器変位を反映した3D-CTボリュームを再建した。
肝領域で91.6 \%,胃領域で85.9 \%のdice類似度係数を従来の方法と比較し,ct値の精度を有意に向上させた。 Deformable registration of two-dimensional/three-dimensional (2D/3D) images of abdominal organs is a complicated task because the abdominal organs deform significantly and their contours are not detected in two-dimensional X-ray images. We propose a supervised deep learning framework that achieves 2D/3D deformable image registration between 3D volumes and single-viewpoint 2D projected images. The proposed method learns the translation from the target 2D projection images and the initial 3D volume to 3D displacement fields. In experiments, we registered 3D-computed tomography (CT) volumes to digitally reconstructed radiographs generated from abdominal 4D-CT volumes. For validation, we used 4D-CT volumes of 35 cases and confirmed that the 3D-CT volumes reflecting the nonlinear and local respiratory organ displacement were reconstructed. The proposed method demonstrate the compatible performance to the conventional methods with a dice similarity coefficient of 91.6 \% for the liver region and 85.9 \% for the stomach region, while estimating a significantly more accurate CT values. | 翻訳日:2022-12-13 17:48:24 公開日:2022-12-11 |
# 機械学習による記事品質スコアの予測 - uk research excellence framework Predicting article quality scores with machine learning: The UK Research Excellence Framework ( http://arxiv.org/abs/2212.05415v1 ) ライセンス: Link先を確認 | Mike Thelwall, Kayvan Kousha, Mahshid Abdoli, Emma Stuart, Meiko Makita, Paul Wilson, Jonathan Levitt, Petr Knoth, Matteo Cancellieri | (参考訳) 国家研究評価イニシアチブとインセンティブ・スキームは、以前は単純な量的指標と時間消費ピアレビューの間で選択されてきた。
ここでは,人工知能(AI)が,より複数の文献およびメタデータ入力を用いて記事の品質を推定する第3の代替手段を提供するか否かを評価する。
英リサーチ・エクセレンス・フレームワーク2021に提出された84,966件の論文に対して,暫定3段階のref2021ピアレビュースコアを用いてこれを検討した。
uoas(medical and physical sciences unit of assessment)とエコノミクスでは、精度が最も高く、最良のケースではベースライン(全体の72%)を42%上回っています。
これは、各UoAでのトレーニングに使用する1000の文献入力と記事の半分に基づいている。
社会科学、数学、工学、芸術、人文科学の基準の上の予測精度は、UoAsの方がはるかに低く、ゼロに近いものであった。
ランダム・フォレスト分類器(標準または順序)と極勾配ブースティング分類器アルゴリズムは、試験された32項目中最もよく実行された。
UoAsが合併またはスコパス・ワイド・カテゴリに置き換えられた場合、精度は低下した。
提案手法は,能動的学習戦略による精度の向上と,予測確率の高い記事の選択により,アルゴリズムによる推定値が大幅に減少した。 National research evaluation initiatives and incentive schemes have previously chosen between simplistic quantitative indicators and time-consuming peer review, sometimes supported by bibliometrics. Here we assess whether artificial intelligence (AI) could provide a third alternative, estimating article quality using more multiple bibliometric and metadata inputs. We investigated this using provisional three-level REF2021 peer review scores for 84,966 articles submitted to the UK Research Excellence Framework 2021, matching a Scopus record 2014-18 and with a substantial abstract. We found that accuracy is highest in the medical and physical sciences Units of Assessment (UoAs) and economics, reaching 42% above the baseline (72% overall) in the best case. This is based on 1000 bibliometric inputs and half of the articles used for training in each UoA. Prediction accuracies above the baseline for the social science, mathematics, engineering, arts, and humanities UoAs were much lower or close to zero. The Random Forest Classifier (standard or ordinal) and Extreme Gradient Boosting Classifier algorithms performed best from the 32 tested. Accuracy was lower if UoAs were merged or replaced by Scopus broad categories. We increased accuracy with an active learning strategy and by selecting articles with higher prediction probabilities, as estimated by the algorithms, but this substantially reduced the number of scores predicted. | 翻訳日:2022-12-13 17:40:56 公開日:2022-12-11 |
# SchNetPack 2.0: 原子性機械学習のためのニューラルネットワークツールボックス SchNetPack 2.0: A neural network toolbox for atomistic machine learning ( http://arxiv.org/abs/2212.05517v1 ) ライセンス: Link先を確認 | Kristof T. Sch\"utt, Stefaan S. P. Hessmann, Niklas W. A. Gebauer, Jonas Lederer, Michael Gastegger | (参考訳) SchNetPackは、メソッド開発要件と原子論的機械学習の適用の両方に対処する汎用ニューラルネットワークツールボックスである。
バージョン2.0は改良されたデータパイプライン、等価ニューラルネットワークのためのモジュール、分子動力学のpytorch実装を備えている。
PyTorch LightningとHydra設定フレームワークとのオプション統合により、柔軟なコマンドラインインターフェースが実現される。
これにより、SchNetPack 2.0はカスタムコードで容易に拡張でき、3d分子構造の生成のような複雑なトレーニングタスクの準備ができる。 SchNetPack is a versatile neural networks toolbox that addresses both the requirements of method development and application of atomistic machine learning. Version 2.0 comes with an improved data pipeline, modules for equivariant neural networks as well as a PyTorch implementation of molecular dynamics. An optional integration with PyTorch Lightning and the Hydra configuration framework powers a flexible command-line interface. This makes SchNetPack 2.0 easily extendable with custom code and ready for complex training task such as generation of 3d molecular structures. | 翻訳日:2022-12-13 17:39:33 公開日:2022-12-11 |
# テンソル分解によるグラフニューラルネットワークの効率的な関係認識近傍集約 Efficient Relation-aware Neighborhood Aggregation in Graph Neural Networks via Tensor Decomposition ( http://arxiv.org/abs/2212.05581v1 ) ライセンス: Link先を確認 | Peyman Baghershahi, Reshad Hosseini, Hadi Moradi | (参考訳) 多数のモデルが知識グラフを低次元に効果的に埋め込もうとしている。
最先端手法のうち、グラフニューラルネットワーク(gnn)モデルは知識グラフの構造認識表現を提供する。
しかし、それらはしばしば、関係の情報とエンティティとの相互作用を非効率に利用する。
さらに、ほとんどの最先端知識グラフ埋め込みモデルは、エンティティや関係に高次元の埋め込みを割り当てるため、スケーラビリティの問題に悩まされる。
上記の制限に対処するため、よく知られたリレーショナルGNNモデルであるRCCNの集約関数において、強力なテンソル分解法を適応的に含むスケーラブルな汎用知識グラフエンコーダを提案する。
具体的には、エンコーダ内の近傍エンティティを変換するために使用される低ランクコア投影テンソルのパラメータを、マルチタスク学習の恩恵を受けるために相互に共有し、関係情報を効果的に組み込む。
さらに、CP分解を用いたコアテンソルの低ランク推定を行い、正規化法として他の類似線形モデルにも適用可能なモデルを圧縮する。
ダウンストリームタスクとして,知識グラフ補完に関するモデルを評価した。
本研究では,大規模グラフ上の1-n法の学習制限を緩和するコントラスト学習に基づく新しい損失関数の学習モデルを提案する。
fb15-237のrscn性能を0.42%改善し,埋め込みの次元をかなり低くした。 Numerous models have tried to effectively embed knowledge graphs in low dimensions. Among the state-of-the-art methods, Graph Neural Network (GNN) models provide structure-aware representations of knowledge graphs. However, they often utilize the information of relations and their interactions with entities inefficiently. Moreover, most state-of-the-art knowledge graph embedding models suffer from scalability issues because of assigning high-dimensional embeddings to entities and relations. To address the above limitations, we propose a scalable general knowledge graph encoder that adaptively involves a powerful tensor decomposition method in the aggregation function of RGCN, a well-known relational GNN model. Specifically, the parameters of a low-rank core projection tensor, used to transform neighborhood entities in the encoder, are shared across relations to benefit from multi-task learning and incorporate relations information effectively. Besides, we propose a low-rank estimation of the core tensor using CP decomposition to compress the model, which is also applicable, as a regularization method, to other similar linear models. We evaluated our model on knowledge graph completion as a common downstream task. We train our model for using a new loss function based on contrastive learning, which relieves the training limitation of the 1-N method on huge graphs. We improved RGCN performance on FB15-237 by 0.42% with considerably lower dimensionality of embeddings. | 翻訳日:2022-12-13 17:34:26 公開日:2022-12-11 |
# ノイズテンパリングによる誤り認識量子化 Error-aware Quantization through Noise Tempering ( http://arxiv.org/abs/2212.05603v1 ) ライセンス: Link先を確認 | Zheng Wang, Juncheng B Li, Shuhui Qu, Florian Metze, Emma Strubell | (参考訳) 量子化はモデル圧縮の主流となり、推論のためにgpuでトレーニングされた大規模モデルを小さなフォームファクタデバイスに配置できるようになった。
量子化対応トレーニング(QAT)は、量子化エラーをシミュレーションしながら、エンドタスクに関するモデルパラメータを最適化する。
非微分量子化作用素による勾配の近似は、通常、ストレートスルー推定器(ste)または加算雑音を用いて達成される。
しかし、STEに基づく手法はバイアス勾配による不安定性に悩まされる一方、既存のノイズベース手法では結果のばらつきを低減できない。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, グラデーションスケールと量子化ノイズをより最適化した方法で組み合わせることで, 各ウェイトにおける勾配のよりきめ細かい推定とアクティベーション層の量子化器ビンサイズを提供する。
我々の制御ノイズには暗黙の曲率項も含まれており、これは我々の実験で実際にそうであることを示している。
CIFAR-10, CIFAR-100, ImageNetベンチマークを用いてResNetアーキテクチャのトレーニングを行った結果, 均一(非混合精度)量子化のための最先端トップ1分類精度が0.5-1.2%向上した。 Quantization has become a predominant approach for model compression, enabling deployment of large models trained on GPUs onto smaller form-factor devices for inference. Quantization-aware training (QAT) optimizes model parameters with respect to the end task while simulating quantization error, leading to better performance than post-training quantization. Approximation of gradients through the non-differentiable quantization operator is typically achieved using the straight-through estimator (STE) or additive noise. However, STE-based methods suffer from instability due to biased gradients, whereas existing noise-based methods cannot reduce the resulting variance. In this work, we incorporate exponentially decaying quantization-error-aware noise together with a learnable scale of task loss gradient to approximate the effect of a quantization operator. We show this method combines gradient scale and quantization noise in a better optimized way, providing finer-grained estimation of gradients at each weight and activation layer's quantizer bin size. Our controlled noise also contains an implicit curvature term that could encourage flatter minima, which we show is indeed the case in our experiments. Experiments training ResNet architectures on the CIFAR-10, CIFAR-100 and ImageNet benchmarks show that our method obtains state-of-the-art top-1 classification accuracy for uniform (non mixed-precision) quantization, out-performing previous methods by 0.5-1.2% absolute. | 翻訳日:2022-12-13 17:34:06 公開日:2022-12-11 |
# Transductive Linear Probing:Few-Shotノード分類のための新しいフレームワーク Transductive Linear Probing: A Novel Framework for Few-Shot Node Classification ( http://arxiv.org/abs/2212.05606v1 ) ライセンス: Link先を確認 | Zhen Tan, Song Wang, Kaize Ding, Jundong Li and Huan Liu | (参考訳) 少ないショットノード分類は、少数の代表ラベル付きノードを持つ新しいクラスからのノードの正確な予測を提供する。
この問題は、Eコマースプラットフォーム上で新たに追加された商品カテゴリーの製品分類や、患者の類似性グラフ上の稀な疾患の診断など、現実の応用を目論む上で大きな注目を集めている。
非ユークリッドグラフ領域におけるこのような難解なラベル不足問題に対処するために、メタラーニングは成功し、主要なパラダイムとなっている。
最近では、グラフの自己教師型学習の発展に触発されて、数ショットのノード分類のための事前訓練ノードの埋め込みを転送することがメタラーニングの有望な代替になり得るが、未発表のままである。
本研究では,グラフコントラスト学習法から学習した事前学習ノードの埋め込みを転送する代替フレームワーク \textit{Transductive Linear Probing} の可能性を実証的に示す。
さらに,訓練クラスからの監視が不足しているため,メタラーニング手法が容易に展開できないような,より現実的な自己教師付き設定へと,標準の完全教師付きから少数のノード分類の設定を拡張した。
驚くべきことに、接地ラベルがなくても、自己教師付きグラフコントラストによるトランスダクティブ線形探索は、同じプロトコルの下で、最先端の教師付きメタラーニングベースのメソッドよりも優れています。
この研究が、少数ノードの分類問題に新たな光を当て、グラフ上の希少なラベル付きインスタンスからの学習に関する今後の研究を促進できることを願っている。 Few-shot node classification is tasked to provide accurate predictions for nodes from novel classes with only few representative labeled nodes. This problem has drawn tremendous attention for its projection to prevailing real-world applications, such as product categorization for newly added commodity categories on an E-commerce platform with scarce records or diagnoses for rare diseases on a patient similarity graph. To tackle such challenging label scarcity issues in the non-Euclidean graph domain, meta-learning has become a successful and predominant paradigm. More recently, inspired by the development of graph self-supervised learning, transferring pretrained node embeddings for few-shot node classification could be a promising alternative to meta-learning but remains unexposed. In this work, we empirically demonstrate the potential of an alternative framework, \textit{Transductive Linear Probing}, that transfers pretrained node embeddings, which are learned from graph contrastive learning methods. We further extend the setting of few-shot node classification from standard fully supervised to a more realistic self-supervised setting, where meta-learning methods cannot be easily deployed due to the shortage of supervision from training classes. Surprisingly, even without any ground-truth labels, transductive linear probing with self-supervised graph contrastive pretraining can outperform the state-of-the-art fully supervised meta-learning based methods under the same protocol. We hope this work can shed new light on few-shot node classification problems and foster future research on learning from scarcely labeled instances on graphs. | 翻訳日:2022-12-13 17:33:37 公開日:2022-12-11 |
# 学習ダイナミクスのレンズによる一般化 Generalization Through the Lens of Learning Dynamics ( http://arxiv.org/abs/2212.05377v1 ) ライセンス: Link先を確認 | Clare Lyle | (参考訳) 機械学習(ML)システムは、トレーニングセット上の対象関数の出力と一致するだけでなく、デプロイ時に正確な予測を得るために、新しい状況に一般化するためにも学習しなければならない。
ほとんどの実践的なアプリケーションでは、ユーザーはモデルへのあらゆる入力を徹底的に列挙することはできない。したがって、強力な一般化性能は、実世界で展開できる性能と信頼性を備えたMLシステムの開発に不可欠である。
一般化は多くの仮説クラスで理論的によく理解されているが、ディープニューラルネットワークの印象的な一般化性能は理論家を悩ませている。
深部強化学習(RL)では、広く使われているRLアルゴリズムの一般化と安定性の対立により、一般化の理解がさらに複雑になる。
この論文は、教師付き学習タスクと強化学習タスクの両方におけるディープニューラルネットワークの学習ダイナミクスを研究することによって、一般化への洞察を提供する。 A machine learning (ML) system must learn not only to match the output of a target function on a training set, but also to generalize to novel situations in order to yield accurate predictions at deployment. In most practical applications, the user cannot exhaustively enumerate every possible input to the model; strong generalization performance is therefore crucial to the development of ML systems which are performant and reliable enough to be deployed in the real world. While generalization is well-understood theoretically in a number of hypothesis classes, the impressive generalization performance of deep neural networks has stymied theoreticians. In deep reinforcement learning (RL), our understanding of generalization is further complicated by the conflict between generalization and stability in widely-used RL algorithms. This thesis will provide insight into generalization by studying the learning dynamics of deep neural networks in both supervised and reinforcement learning tasks. | 翻訳日:2022-12-13 17:22:40 公開日:2022-12-11 |
# 大規模フレキシブルタイトガウス混合モデルの確率的1次学習 Stochastic First-Order Learning for Large-Scale Flexibly Tied Gaussian Mixture Model ( http://arxiv.org/abs/2212.05402v1 ) ライセンス: Link先を確認 | Mohammad Pasande, Reshad Hosseini, Babak Nadjar Araabi | (参考訳) ガウス混合モデル(英: Gaussian Mixture Models、GMM)は、多くの科学的領域に適用できるカーネルモデルに基づく最も強力なパラメトリック密度推定器の1つである。
近年、データソースの劇的な拡大に伴い、典型的な機械学習アルゴリズム、例えば期待最大化(em)は、高次元およびストリーミングデータで困難に直面する。
さらに、複雑な密度はしばしば多数のガウス成分を必要とする。
本稿では,一階確率最適化を用いたGMMの高速オンラインパラメータ推定アルゴリズムを提案する。
このアプローチは、高次元のストリーミングデータや複雑な密度に直面した場合のGMMの課題に対応するためのフレームワークを提供する。
直交性を保存する新しい確率多様体最適化アルゴリズムを導入し、よく知られたユークリッド空間の数値最適化と共に用いる。
合成データと実データの両方における数多くの実験結果により,提案手法がem法よりも精度良く収束し,収束に必要なエポック数が少なく,エポック当たりの時間消費も少ないという点で有効であることが証明された。 Gaussian Mixture Models (GMM) are one of the most potent parametric density estimators based on the kernel model that finds application in many scientific domains. In recent years, with the dramatic enlargement of data sources, typical machine learning algorithms, e.g. Expectation Maximization (EM), encounters difficulty with high-dimensional and streaming data. Moreover, complicated densities often demand a large number of Gaussian components. This paper proposes a fast online parameter estimation algorithm for GMM by using first-order stochastic optimization. This approach provides a framework to cope with the challenges of GMM when faced with high-dimensional streaming data and complex densities by leveraging the flexibly-tied factorization of the covariance matrix. A new stochastic Manifold optimization algorithm that preserves the orthogonality is introduced and used along with the well-known Euclidean space numerical optimization. Numerous empirical results on both synthetic and real datasets justify the effectiveness of our proposed stochastic method over EM-based methods in the sense of better-converged maximum for likelihood function, fewer number of needed epochs for convergence, and less time consumption per epoch. | 翻訳日:2022-12-13 17:22:27 公開日:2022-12-11 |
# estimator: 軌道上の輸送モード分類のための効率的でスケーラブルなフレームワーク Estimator: An Effective and Scalable Framework for Transportation Mode Classification over Trajectories ( http://arxiv.org/abs/2212.05502v1 ) ライセンス: Link先を確認 | Danlei Hu, Ziquan Fang, Hanxi Fang, Tianyi Li, Chunhui Shen, Lu Chen, Yunjun Gao | (参考訳) 移動物体移動モードのクラスラベルを予測する交通モード分類は、交通管理、都市コンピューティング、行動研究など、様々な現実世界の応用に広く適用されてきた。
しかしながら、既存の交通モード分類の研究は、典型的には軌跡データの明示的な特徴を抽出するが、分類性能に影響を与える暗黙的な特徴を捉えない。
さらに,既存の研究の多くは,小規模データの分類にのみ適するトラジェクトリを組み込むために,RNNベースのモデルを採用することを好んでいる。
以上の課題に対処するために,GPSトラジェクトリを用いた移動モード分類のための効果的でスケーラブルなフレームワーク,Estimatorを提案する。
軌道の空間的および時間的隠蔽特性を利用して高い効率と効率を実現するCNN-TCNアーキテクチャ上に推定器を構築した。
推定器は交通条件に応じて交通空間全体を不規則な空間領域に分割し,スケーラビリティを著しく向上させ,並列交通分類を可能にする。
8つの公開実生活データセットを用いた大規模な実験は、Estimatorの証拠を提供する
一 優れたモデル有効性(精度99%、f1-score 0.98)を達成すること。
二 卓越したモデル効率を示し、最先端の学習方法による7-40倍の高速化を得る。
iii) 大規模分類分析を可能にするモデルスケーラビリティと堅牢性を示す。 Transportation mode classification, the process of predicting the class labels of moving objects transportation modes, has been widely applied to a variety of real world applications, such as traffic management, urban computing, and behavior study. However, existing studies of transportation mode classification typically extract the explicit features of trajectory data but fail to capture the implicit features that affect the classification performance. In addition, most of the existing studies also prefer to apply RNN-based models to embed trajectories, which is only suitable for classifying small-scale data. To tackle the above challenges, we propose an effective and scalable framework for transportation mode classification over GPS trajectories, abbreviated Estimator. Estimator is established on a developed CNN-TCN architecture, which is capable of leveraging the spatial and temporal hidden features of trajectories to achieve high effectiveness and efficiency. Estimator partitions the entire traffic space into disjointed spatial regions according to traffic conditions, which enhances the scalability significantly and thus enables parallel transportation classification. Extensive experiments using eight public real-life datasets offer evidence that Estimator i) achieves superior model effectiveness (i.e., 99% Accuracy and 0.98 F1-score), which outperforms state-of-the-arts substantially; ii) exhibits prominent model efficiency, and obtains 7-40x speedups up over state-of-the-arts learning-based methods; and iii) shows high model scalability and robustness that enables large-scale classification analytics. | 翻訳日:2022-12-13 17:22:08 公開日:2022-12-11 |
# MORTY:Scholarly Articles からのターゲット情報抽出のための構造化要約 MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles ( http://arxiv.org/abs/2212.05429v1 ) ライセンス: Link先を確認 | Mohamad Yaser Jaradeh, Markus Stocker, S\"oren Auer | (参考訳) 学術論文からの情報抽出は,テキスト,図形,引用に隠された膨大な文書長と暗黙の情報によって難しい課題である。
学術的な情報抽出は、デジタル図書館や知識管理システムの探索、アーカイブ、キュレーションサービスに様々な応用がある。
学術論文からテキストの構造化要約を生成する情報抽出手法MORTYを提案する。
我々のアプローチは、構造化要約と呼ばれるセグメント化されたテキストスニペットとして、記事の全文とプロパティ値ペアを凝縮する。
また,学術知識グラフから検索した構造化要約と,それに対応する公開科学論文を組み合わせた学術データセットを公開し,研究コミュニティの資料として公開する。
その結果,構造化要約は質問応答や名前付きエンティティ認識といった他の一般的な手法を補完する目的情報抽出に適した手法であることがわかった。 Information extraction from scholarly articles is a challenging task due to the sizable document length and implicit information hidden in text, figures, and citations. Scholarly information extraction has various applications in exploration, archival, and curation services for digital libraries and knowledge management systems. We present MORTY, an information extraction technique that creates structured summaries of text from scholarly articles. Our approach condenses the article's full-text to property-value pairs as a segmented text snippet called structured summary. We also present a sizable scholarly dataset combining structured summaries retrieved from a scholarly knowledge graph and corresponding publicly available scientific articles, which we openly publish as a resource for the research community. Our results show that structured summarization is a suitable approach for targeted information extraction that complements other commonly used methods such as question answering and named entity recognition. | 翻訳日:2022-12-13 17:16:07 公開日:2022-12-11 |
# SEPT: スケーラブルで効率的なビジュアル事前トレーニングを目指す SEPT: Towards Scalable and Efficient Visual Pre-Training ( http://arxiv.org/abs/2212.05473v1 ) ライセンス: Link先を確認 | Yiqi Lin, Huabin Zheng, Huaping Zhong, Jinjing Zhu, Weijia Li, Conghui He, Lin Wang | (参考訳) 近年、自己教師型事前学習パラダイムは、下流タスク性能を改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
しかし、実世界のシナリオにおけるラベルなし事前学習データの規模を増やすには、計算コストの禁止が必要であり、未計算サンプルの課題に直面している。
これらの課題に対処するため、データ選択の観点からタスク固有の自己教師型事前学習フレームワークを構築し、対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が、大幅なパフォーマンス向上をもたらすという単純な仮説に基づく。
本仮説では,データ選択のための検索パイプラインを導入することで,スケーラブルで効率的な視覚前訓練(SEPT)のための新しいフレームワークを提案する。
SEPTはまず、自己教師付き事前訓練モデルを利用して、検索パイプラインの初期化のためのラベルなしデータセット全体の特徴を抽出する。
そして、特定のターゲットタスクに対して、SEPTはトレーニング前の各ターゲットインスタンスの特徴的類似性に基づいて、ラベルなしデータセットから最も類似したサンプルを検索する。
最後に、SEPTは、ターゲットデータ微調整のために、選択されたラベル付きサンプルでターゲットモデルを事前訓練する。
対象タスクに対する事前トレーニングと利用可能な上流データのスケールを分離することにより、SEPTは上流データセットの高スケーラビリティと事前トレーニングの高効率を実現し、モデルアーキテクチャの柔軟性を高める。
様々なダウンストリームタスクの結果から、SEPTはImageNetの事前トレーニングと比較して競争力やパフォーマンスが向上し、余分なアノテーションを使わずにトレーニングサンプルのサイズを1倍に削減できることが示された。 Recently, the self-supervised pre-training paradigm has shown great potential in leveraging large-scale unlabeled data to improve downstream task performance. However, increasing the scale of unlabeled pre-training data in real-world scenarios requires prohibitive computational costs and faces the challenge of uncurated samples. To address these issues, we build a task-specific self-supervised pre-training framework from a data selection perspective based on a simple hypothesis that pre-training on the unlabeled samples with similar distribution to the target task can bring substantial performance gains. Buttressed by the hypothesis, we propose the first yet novel framework for Scalable and Efficient visual Pre-Training (SEPT) by introducing a retrieval pipeline for data selection. SEPT first leverage a self-supervised pre-trained model to extract the features of the entire unlabeled dataset for retrieval pipeline initialization. Then, for a specific target task, SEPT retrievals the most similar samples from the unlabeled dataset based on feature similarity for each target instance for pre-training. Finally, SEPT pre-trains the target model with the selected unlabeled samples in a self-supervised manner for target data finetuning. By decoupling the scale of pre-training and available upstream data for a target task, SEPT achieves high scalability of the upstream dataset and high efficiency of pre-training, resulting in high model architecture flexibility. Results on various downstream tasks demonstrate that SEPT can achieve competitive or even better performance compared with ImageNet pre-training while reducing the size of training samples by one magnitude without resorting to any extra annotations. | 翻訳日:2022-12-13 16:40:23 公開日:2022-12-11 |
# Focal-PETR:高能率マルチカメラ3Dオブジェクト検出のためのフォアグラウンド Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2212.05505v1 ) ライセンス: Link先を確認 | Shihao Wang, Xiaohui Jiang, Ying Li | (参考訳) 支配的なマルチカメラ3D検出パラダイムは、3D-to-2Dプロジェクションによる局所像の複雑なインデックス化を必要とする明示的な3D特徴構造に基づいている。
他の方法は暗黙的に幾何学的位置符号化を導入し、画像トークンと3dオブジェクトの関係を構築するためにグローバル注意(例えばpetr)を行う。
3D-to-2Dの視点の不整合性とグローバルな注意は、前景トークンとクエリの相関が弱くなり、収束が遅くなる。
本稿では,Focal-PETRをインスタンス誘導型監視モジュールと空間アライメントモジュールで提案し,オブジェクトクエリを差別的前景領域に適応的にフォーカスする。
Focal-PETRは、世界的な注目度を減らすためのダウンサンプリング戦略も導入している。
高並列化実装とダウンサンプリング戦略により,我々のモデルは,大規模なnuScenesベンチマークで先行的な性能を実現し,RTX3090 GPUで30FPSの高速化を実現した。
大規模実験の結果, PETRは3倍の訓練時間を要し, PETRよりも優れていた。
コードは公開される予定だ。 The dominant multi-camera 3D detection paradigm is based on explicit 3D feature construction, which requires complicated indexing of local image-view features via 3D-to-2D projection. Other methods implicitly introduce geometric positional encoding and perform global attention (e.g., PETR) to build the relationship between image tokens and 3D objects. The 3D-to-2D perspective inconsistency and global attention lead to a weak correlation between foreground tokens and queries, resulting in slow convergence. We propose Focal-PETR with instance-guided supervision and spatial alignment module to adaptively focus object queries on discriminative foreground regions. Focal-PETR additionally introduces a down-sampling strategy to reduce the consumption of global attention. Due to the highly parallelized implementation and down-sampling strategy, our model, without depth supervision, achieves leading performance on the large-scale nuScenes benchmark and a superior speed of 30 FPS on a single RTX3090 GPU. Extensive experiments show that our method outperforms PETR while consuming 3x fewer training hours. The code will be made publicly available. | 翻訳日:2022-12-13 16:39:55 公開日:2022-12-11 |
# 不均質な顔再同定のためのミューティモダルランキング最適化 Mutimodal Ranking Optimization for Heterogeneous Face Re-identification ( http://arxiv.org/abs/2212.05510v1 ) ライセンス: Link先を確認 | Hui Hu, Jiawei Zhang, Zhen Han | (参考訳) 不均一な顔の再識別、すなわち、不規則な可視光(VIS)と近赤外線(NIR)カメラをまたいだ異種顔のマッチングは、ビデオ監視アプリケーションにおいて重要な問題となっている。
しかし、異種NIR-VIS面間の大きな領域差は、顔の再識別性能を劇的に低下させる。
この問題を解決するために,不均一顔再同定のための多モード融合ランキング最適化アルゴリズムを提案する。
まず、NIR-VIS/NIR-NIR/VIS-VISフェースペアを含むマルチモーダルフェースペアをNIR-VISフェース間の相互変換により得るヘテロジニアスフェース変換ネットワークを設計する。
次に,マルチモーダル対の初期ランキングリストを集約し,モーダル相補性に基づいて最適化された再ランクリストを得るための線形および非線形融合戦略を提案する。
実験結果から,提案アルゴリズムは相補性を効果的に利用し,SCfaceデータセット上での相対的手法よりも優れていることがわかった。 Heterogeneous face re-identification, namely matching heterogeneous faces across disjoint visible light (VIS) and near-infrared (NIR) cameras, has become an important problem in video surveillance application. However, the large domain discrepancy between heterogeneous NIR-VIS faces makes the performance of face re-identification degraded dramatically. To solve this problem, a multimodal fusion ranking optimization algorithm for heterogeneous face re-identification is proposed in this paper. Firstly, we design a heterogeneous face translation network to obtain multimodal face pairs, including NIR-VIS/NIR-NIR/VIS-VIS face pairs, through mutual transformation between NIR-VIS faces. Secondly, we propose linear and non-linear fusion strategies to aggregate initial ranking lists of multimodal face pairs and acquire the optimized re-ranked list based on modal complementarity. The experimental results show that the proposed multimodal fusion ranking optimization algorithm can effectively utilize the complementarity and outperforms some relative methods on the SCface dataset. | 翻訳日:2022-12-13 16:39:34 公開日:2022-12-11 |
# マルチモーダル表現構築のためのマルチインスタンス学習 Using Multiple Instance Learning to Build Multimodal Representations ( http://arxiv.org/abs/2212.05561v1 ) ライセンス: Link先を確認 | Peiqi Wang, William M. Wells, Seth Berkowitz, Steven Horng, Polina Golland | (参考訳) 画像テキストマルチモーダル表現学習は、モダリティにまたがるデータを整列させ、画像分類、視覚的接地、相互モーダル検索などの重要な医療応用を可能にする。
本研究では,マルチモーダル表現学習と複数インスタンス学習の関連性を確立する。
この関係に基づき,既存のマルチモーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
さらに,このフレームワークを用いて,新しいコントラスト学習手法を導出し,ダウンストリームタスクで最新の結果が得られることを示す。 Image-text multimodal representation learning aligns data across modalities and enables important medical applications, e.g., image classification, visual grounding, and cross-modal retrieval. In this work, we establish a connection between multimodal representation learning and multiple instance learning. Based on this connection, we propose a generic framework for constructing permutation-invariant score functions with many existing multimodal representation learning approaches as special cases. Furthermore, we use the framework to derive a novel contrastive learning approach and demonstrate that our method achieves state-of-the-art results on a number of downstream tasks. | 翻訳日:2022-12-13 16:39:14 公開日:2022-12-11 |
# PromptCAL: 一般化された新しいカテゴリー発見のための補助プロンプトによるコントラスト親和性学習 PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery ( http://arxiv.org/abs/2212.05590v1 ) ライセンス: Link先を確認 | Sheng Zhang, Salman Khan, Zhiqiang Shen, Muzammal Naseer, Guangyi Chen, Fahad Khan | (参考訳) 既存の半教師付き学習モデルは、注釈なしの分布データで学習に顕著な成功を収めるが、多くの場合、閉じたセットの仮定により、新しい意味クラスからサンプリングされたラベルなしのデータでは学習できない。
本研究は,実用的ではあるが未探索の一般新規カテゴリー発見(GNCD)を目標とする。
gncd設定は、部分的にラベル付けされた既知のクラスの情報を利用して、既知のクラスや新しいクラスから来るラベルなしのトレーニングデータを分類することを目的としている。
本稿では,この課題に対処するために,PromptCALと呼ばれる補助視覚プロンプトを用いた2段階のコントラスト親和性学習法を提案する。
提案手法は,クラストークンと視覚的プロンプトのための既知のクラスと新しいクラスのセマンティッククラスタリングを改善するために,信頼性の高いペアワイズサンプル親和性を発見する。
まず,親和性向上のための適応型事前学習型視覚変換器の意味的識別性を強化するために,識別的プロンプト正規化損失を提案する。
また, 半教師付きアフィニティグラフ生成法に基づいて意味表現を校正するコントラスト的アフィニティ学習ステージを提案する。
広範な実験評価により,本手法は限定的なアノテーションを用いても新規クラスの発見に有効であることを示し,汎用および細粒度ベンチマーク(cub-200では約1,1,1,100ドル,imagenet-100では9,9,1,100ドル)において最先端のベンチマークを上回った。 Although existing semi-supervised learning models achieve remarkable success in learning with unannotated in-distribution data, they mostly fail to learn on unlabeled data sampled from novel semantic classes due to their closed-set assumption. In this work, we target a pragmatic but under-explored Generalized Novel Category Discovery (GNCD) setting. The GNCD setting aims to categorize unlabeled training data coming from known and novel classes by leveraging the information of partially labeled known classes. We propose a two-stage Contrastive Affinity Learning method with auxiliary visual Prompts, dubbed PromptCAL, to address this challenging problem. Our approach discovers reliable pairwise sample affinities to learn better semantic clustering of both known and novel classes for the class token and visual prompts. First, we propose a discriminative prompt regularization loss to reinforce semantic discriminativeness of prompt-adapted pre-trained vision transformer for refined affinity relationships. Besides, we propose a contrastive affinity learning stage to calibrate semantic representations based on our iterative semi-supervised affinity graph generation method for semantically-enhanced prompt supervision. Extensive experimental evaluation demonstrates that our PromptCAL method is more effective in discovering novel classes even with limited annotations and surpasses the current state-of-the-art on generic and fine-grained benchmarks (with nearly $11\%$ gain on CUB-200, and $9\%$ on ImageNet-100) on overall accuracy. | 翻訳日:2022-12-13 16:39:03 公開日:2022-12-11 |
# イベントカメラを用いた物体検出用リカレントビジョントランス Recurrent Vision Transformers for Object Detection with Event Cameras ( http://arxiv.org/abs/2212.05598v1 ) ライセンス: Link先を確認 | Mathias Gehrig and Davide Scaramuzza | (参考訳) イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
イベントカメラは、高ダイナミックレンジでミリ秒以下のレイテンシで視覚情報を提供する。
これらのユニークな特性は、時間クリティカルなシナリオにおける低レイテンシオブジェクトの検出と追跡に大きな可能性を提供します。
イベントベースのビジョンでの以前の作業は、優れた検出性能を達成しているが、実質的な推論時間(通常は40ミリ秒以上)のコストで達成されている。
リカレントビジョンバックボーンのハイレベルな設計を再検討することにより、同様のパフォーマンスを維持しつつ推論時間を5倍に短縮する。
これを実現するために,各段階において3つの重要な概念,すなわち条件付き位置埋め込みと見なすことができる畳み込み前処理を用いる多段階設計を探索する。
第二に、局所的および拡張的グローバルな自己注意による空間的特徴の相互作用
第3に、時間情報を保持しながらレイテンシを最小限に抑えるために、繰り返し時間的特徴集約。
RVTは、Gen1オートマチックデータセット上で47.5%のmAPを達成するイベントベースのオブジェクト検出において、最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
同時にRVTは高速な推論(T4 GPUで13ミリ秒)と良好なパラメータ効率(先行技術より5倍少ない)を提供する。
私たちの研究は、イベントベースのビジョンを超えた研究に実りある効果的な設計選択に新たな洞察をもたらします。 We present Recurrent Vision Transformers (RVTs), a novel backbone for object detection with event cameras. Event cameras provide visual information with sub-millisecond latency at a high-dynamic range and with strong robustness against motion blur. These unique properties offer great potential for low-latency object detection and tracking in time-critical scenarios. Prior work in event-based vision has achieved outstanding detection performance but at the cost of substantial inference time, typically beyond 40 milliseconds. By revisiting the high-level design of recurrent vision backbones, we reduce inference time by a factor of 5 while retaining similar performance. To achieve this, we explore a multi-stage design that utilizes three key concepts in each stage: First, a convolutional prior that can be regarded as a conditional positional embedding. Second, local- and dilated global self-attention for spatial feature interaction. Third, recurrent temporal feature aggregation to minimize latency while retaining temporal information. RVTs can be trained from scratch to reach state-of-the-art performance on event-based object detection - achieving an mAP of 47.5% on the Gen1 automotive dataset. At the same time, RVTs offer fast inference (13 ms on a T4 GPU) and favorable parameter efficiency (5 times fewer than prior art). Our study brings new insights into effective design choices that could be fruitful for research beyond event-based vision. | 翻訳日:2022-12-13 16:38:35 公開日:2022-12-11 |
# 効率的なトレーニング戦略による自己指導型学習の高速化 Accelerating Self-Supervised Learning via Efficient Training Strategies ( http://arxiv.org/abs/2212.05611v1 ) ライセンス: Link先を確認 | Mustafa Taha Ko\c{c}yi\u{g}it, Timothy M. Hospedales, Hakan Bilen | (参考訳) 近年、コンピュータビジョンコミュニティの焦点は、高価な教師あり学習から視覚表現の自己教師あり学習へとシフトしている。
監視対象と自己監視対象との間のパフォーマンスギャップは狭まっているが、自己監視型ディープネットワークのトレーニング時間は、進捗を阻害し、炭素コストを課し、実質的な資源を持つ機関に社会的な利益を制限する監視対象ネットワークよりも桁違いに大きいままである。
これらの課題に乗じて,近年の自己監督手法の訓練時間を,この問題に未使用の様々なモデル非依存戦略により削減する。
特に, 拡張可能な循環学習率のスケジュール, 漸進的拡大度と画像解像度のスケジュール, 強化難度に基づく強正のマイニング戦略の3つの戦略について検討した。
これら3つの手法が組み合わさって,複数の自己教師あり学習の学習時間において最大2.7倍の高速化を実現し,標準の自己教師付き学習環境と同等の性能を保った。 Recently the focus of the computer vision community has shifted from expensive supervised learning towards self-supervised learning of visual representations. While the performance gap between supervised and self-supervised has been narrowing, the time for training self-supervised deep networks remains an order of magnitude larger than its supervised counterparts, which hinders progress, imposes carbon cost, and limits societal benefits to institutions with substantial resources. Motivated by these issues, this paper investigates reducing the training time of recent self-supervised methods by various model-agnostic strategies that have not been used for this problem. In particular, we study three strategies: an extendable cyclic learning rate schedule, a matching progressive augmentation magnitude and image resolutions schedule, and a hard positive mining strategy based on augmentation difficulty. We show that all three methods combined lead up to 2.7 times speed-up in the training time of several self-supervised methods while retaining comparable performance to the standard self-supervised learning setting. | 翻訳日:2022-12-13 16:38:13 公開日:2022-12-11 |
# DISCO : 局所的障害機能を有する対人防御 DISCO: Adversarial Defense with Local Implicit Functions ( http://arxiv.org/abs/2212.05630v1 ) ライセンス: Link先を確認 | Chih-Hui Ho, Nuno Vasconcelos | (参考訳) 画像分類における対角的防御の問題として, 対角的例に対する分類器の堅牢化が目的である。
これらの例が自然像多様体の向こうにあるという仮説に触発されて、局所的インプリシットファンクティオン(DISCO)を持つ新しい aDversarIal defenSe が、局所化された多様体射影による対角的摂動を取り除くために提案されている。
DISCOは、逆画像とクエリピクセル位置を消費し、その位置でクリーンなRGB値を出力する。
エンコーダとローカル暗黙モジュールで実装され、前者はピクセル単位の深い特徴を生成し、後者はクエリピクセル近傍の機能を使用してクリーンなrgb値を予測する。
大規模な実験では、DICOとそのカスケードバージョンは、攻撃者に対して防御が知られているかどうかに関わらず、前もって防御に優れていた。
DISCOはまた、データとパラメータの効率が良く、データセット、分類器、アタック間で転送される防御をマウントする。 The problem of adversarial defenses for image classification, where the goal is to robustify a classifier against adversarial examples, is considered. Inspired by the hypothesis that these examples lie beyond the natural image manifold, a novel aDversarIal defenSe with local impliCit functiOns (DISCO) is proposed to remove adversarial perturbations by localized manifold projections. DISCO consumes an adversarial image and a query pixel location and outputs a clean RGB value at the location. It is implemented with an encoder and a local implicit module, where the former produces per-pixel deep features and the latter uses the features in the neighborhood of query pixel for predicting the clean RGB value. Extensive experiments demonstrate that both DISCO and its cascade version outperform prior defenses, regardless of whether the defense is known to the attacker. DISCO is also shown to be data and parameter efficient and to mount defenses that transfers across datasets, classifiers and attacks. | 翻訳日:2022-12-13 16:37:53 公開日:2022-12-11 |
# ピクセルレベルと特徴レベル分布アライメントによるブラックボックス攻撃に対する一般敵防御 General Adversarial Defense Against Black-box Attacks via Pixel Level and Feature Level Distribution Alignments ( http://arxiv.org/abs/2212.05387v1 ) ライセンス: Link先を確認 | Xiaogang Xu, Hengshuang Zhao, Philip Torr, Jiaya Jia | (参考訳) ディープニューラルネットワーク(dnn)は、高い転送性を持つブラックボックス攻撃に対して脆弱である。
この脅威は、ターゲットDNNの機能空間における敵とクリーンなサンプルの分布ギャップから生じる。
本稿では,分布ギャップを解消するための新しい学習機構を備えた深層生成ネットワーク(dgns)を提案する。
トレーニングされたDGNは、画素値の変換により、敵サンプルとターゲットDNNのクリーンな分布を整列する。
従来とは違って,より効果的な画素レベルのトレーニング制約を提案し,対向サンプルの堅牢性を向上する。
さらに、統合分布アライメントのためにクラス対応特徴レベル制約を定式化する。
本手法は,画像分類,意味セグメンテーション,オブジェクト検出など,複数のタスクに適用可能な汎用的手法である。
異なるデータセットに対して広範な実験を行う。
我々の戦略はブラックボックス攻撃に対するその独特な効果と汎用性を示している。 Deep Neural Networks (DNNs) are vulnerable to the black-box adversarial attack that is highly transferable. This threat comes from the distribution gap between adversarial and clean samples in feature space of the target DNNs. In this paper, we use Deep Generative Networks (DGNs) with a novel training mechanism to eliminate the distribution gap. The trained DGNs align the distribution of adversarial samples with clean ones for the target DNNs by translating pixel values. Different from previous work, we propose a more effective pixel level training constraint to make this achievable, thus enhancing robustness on adversarial samples. Further, a class-aware feature-level constraint is formulated for integrated distribution alignment. Our approach is general and applicable to multiple tasks, including image classification, semantic segmentation, and object detection. We conduct extensive experiments on different datasets. Our strategy demonstrates its unique effectiveness and generality against black-box attacks. | 翻訳日:2022-12-13 16:29:34 公開日:2022-12-11 |
# DiffAlign : 拡散に基づく合成とアライメントを用いたFew-shot Learning DiffAlign : Few-shot learning using diffusion based synthesis and alignment ( http://arxiv.org/abs/2212.05404v1 ) ライセンス: Link先を確認 | Aniket Roy, Anshul Shah, Ketul Shah, Anirban Roy, Rama Chellappa | (参考訳) 我々は,限られたサンプルセットから分類器を学習することを目的とした,少数ショット分類の問題に対処する。
データ駆動学習は様々なアプリケーションで有効であることが示されているが、少ないデータからの学習はまだ難しい。
この課題に対処するため、既存のアプローチでは、トレーニングサンプルの数を増やすための様々なデータ拡張技術を検討する。
Pseudo-labelingは、大まかにラベル付けされていない画像に対して近似ラベルを推定する数ショット設定で一般的に使用される。
クラスラベルから画像を生成することに焦点を当てたDiffAlignを提案する。
具体的には、テキストから現実的な画像を生成することができる生成モデル(例えば、DALL-Eや拡散モデル)の最近の成功を活用する。
しかし,実画像と合成画像の領域差のため,合成画像でのナイーブ学習は不十分である。
そこで我々は,合成画像と実画像との整合を最小化するために,MMD損失の最大値を用いる。
本手法は,cifar-fs,fc100,miniimagenet,tieredimagenet,およびクロスドメインの少数ショット分類ベンチマークであるminiimagenet to cubを用いて評価した。
提案手法は,これらのベンチマークの5ショットおよび1ショットのセットアップにおいて,最先端を著しく上回っている。
また,本手法はゼロショット分類設定において有効であることを示す。 We address the problem of few-shot classification where the goal is to learn a classifier from a limited set of samples. While data-driven learning is shown to be effective in various applications, learning from less data still remains challenging. To address this challenge, existing approaches consider various data augmentation techniques for increasing the number of training samples. Pseudo-labeling is commonly used in a few-shot setup, where approximate labels are estimated for a large set of unlabeled images. We propose DiffAlign which focuses on generating images from class labels. Specifically, we leverage the recent success of the generative models (e.g., DALL-E and diffusion models) that can generate realistic images from texts. However, naive learning on synthetic images is not adequate due to the domain gap between real and synthetic images. Thus, we employ a maximum mean discrepancy (MMD) loss to align the synthetic images to the real images minimizing the domain gap. We evaluate our method on the standard few-shot classification benchmarks: CIFAR-FS, FC100, miniImageNet, tieredImageNet and a cross-domain few-shot classification benchmark: miniImageNet to CUB. The proposed approach significantly outperforms the stateof-the-art in both 5-shot and 1-shot setups on these benchmarks. Our approach is also shown to be effective in the zero-shot classification setup | 翻訳日:2022-12-13 16:29:23 公開日:2022-12-11 |
# 学ぶべきことを学ぶ Learning What You Should Learn ( http://arxiv.org/abs/2212.05422v1 ) ライセンス: Link先を確認 | Shitong Shao and Huanran Chen and Zhen Huang and Linrui Gong and Shuai Wang and Xinxiao Wu | (参考訳) 実教育のシナリオでは、優秀な教師は常に自分が得意とするものを教えるが、生徒はそうではない。
この方法によって学生は、自分の(または彼女の)弱点を補い、全体として良い人になるための最善の助けとなる。
そこで本研究では,知識蒸留フレームワークへのアプローチを導入し,<TST(Teaching What you Should Teach)'というデータベースの蒸留手法を提案する。
具体的には、TSTは、優先バイアスを持つニューラルネットワークベースのデータ拡張モジュールを含み、学生が大きさや確率を学習し、適切なサンプルを生成することによって、教師が得意としているものを見つけるのに役立つ。
データ拡張モジュールと一般化蒸留パラダイムを訓練することにより、優れた一般化能力を有する学生モデルを作成することができる。
TSTの有効性を検証するため,オブジェクト認識(CIFAR-100とImageNet-1k),検出(MS-COCO),セグメンテーション(Cityscapes)タスクについて広範囲に比較実験を行った。
実験的に実証されたように、TSTはほとんど全ての教師と学生のペアで最先端のパフォーマンスを達成する。
さらに, より強い教師による性能劣化の解決方法や, 蒸留フレームワークに必要な規模や可能性など, TSTの興味深い研究を行う。 In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This method gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the approach to the knowledge distillation framework and propose a data-based distillation method named ``Teaching what you Should Teach (TST)''. To be specific, TST contains a neural network-based data augmentation module with the priori bias, which can assist in finding what the teacher is good at while the student are not by learning magnitudes and probabilities to generate suitable samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model that has excellent generalization ability can be created. To verify the effectiveness of TST, we conducted extensive comparative experiments on object recognition (CIFAR-100 and ImageNet-1k), detection (MS-COCO), and segmentation (Cityscapes) tasks. As experimentally demonstrated, TST achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct intriguing studies of TST, including how to solve the performance degradation caused by the stronger teacher and what magnitudes and probabilities are needed for the distillation framework. | 翻訳日:2022-12-13 16:28:55 公開日:2022-12-11 |
# 仮面注意を伴う3次元畳み込みを用いたエゴ車の速度推定 Ego Vehicle Speed Estimation using 3D Convolution with Masked Attention ( http://arxiv.org/abs/2212.05432v1 ) ライセンス: Link先を確認 | Athul M. Mathew, Thariq Khalid | (参考訳) エゴ車両の速度推定は、自動運転と高度な運転支援技術の実現に不可欠である。
機能的およびレガシーな問題により、従来の方法は車内センサに依存し、制御エリアネットワークバスを介して車両の速度を抽出する。
しかし、知覚タスクを実行するために外部センサに感受性のないモジュールシステムを持つことが望ましい。
本論文では,正面単眼カメラを用いた車速推定のためのマスキング・アテンション・アーキテクチャを備えた新しい3d-cnnを提案する。
提案手法の有効性を示すため,公開データセットであるnuImagesとKITTIを用いて実験を行った。
また,従来の3D-CNNと比較し,マスク注意の有効性を示した。 Speed estimation of an ego vehicle is crucial to enable autonomous driving and advanced driver assistance technologies. Due to functional and legacy issues, conventional methods depend on in-car sensors to extract vehicle speed through the Controller Area Network bus. However, it is desirable to have modular systems that are not susceptible to external sensors to execute perception tasks. In this paper, we propose a novel 3D-CNN with masked-attention architecture to estimate ego vehicle speed using a single front-facing monocular camera. To demonstrate the effectiveness of our method, we conduct experiments on two publicly available datasets, nuImages and KITTI. We also demonstrate the efficacy of masked-attention by comparing our method with a traditional 3D-CNN. | 翻訳日:2022-12-13 16:28:33 公開日:2022-12-11 |
# ロバスト表情認識のための注意プール付き視覚変換器 Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition ( http://arxiv.org/abs/2212.05463v1 ) ライセンス: Link先を確認 | Fanglei Xue, Qiangchang Wang, Zichang Tan, Zhongsong Ma, and Guodong Guo | (参考訳) 野生における表情認識(FER)は非常に難しい課題である。
近年、いくつかのビジョントランスフォーマー (ViT) がFERのために探索されているが、その多くは畳み込みニューラルネットワーク (CNN) と比較して劣っている。
これは, 誘導バイアスの欠如や咬合や騒音領域への集中が容易なため, 新モジュールがスクラッチからうまく収束しにくいことが主な原因である。
FERの代表的なトランスフォーマーベースの方法であるTransFERは、これをマルチブランチのアテンションダウンで緩和するが、過剰な計算をもたらす。
反対に,注意プーリング(ap)モジュールを2つ設け,ノイズの多い機能を直接プールする。
APモジュールには、Attentive Patch Pooling (APP)とAttentive Token Pooling (ATP)がある。
彼らはモデルを導き、最も識別的な特徴を強調しながら、より関連性の低い特徴の影響を減らすことを目指している。
提案するAPPはCNN機能に関する最も情報性の高いパッチの選択に使用され、ATPはViTで重要でないトークンを破棄する。
簡単に実装でき、学習可能なパラメータなしでは、アプリとatpは直感的に計算コストを削減し、最も識別的な特徴だけを追求することでパフォーマンスを高めます。
定性的な結果は,注意プールの動機と効果を示す。
さらに、Wild内の6つのデータセットの定量的結果は、他の最先端の手法よりも優れている。 Facial Expression Recognition (FER) in the wild is an extremely challenging task. Recently, some Vision Transformers (ViT) have been explored for FER, but most of them perform inferiorly compared to Convolutional Neural Networks (CNN). This is mainly because the new proposed modules are difficult to converge well from scratch due to lacking inductive bias and easy to focus on the occlusion and noisy areas. TransFER, a representative transformer-based method for FER, alleviates this with multi-branch attention dropping but brings excessive computations. On the contrary, we present two attentive pooling (AP) modules to pool noisy features directly. The AP modules include Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to emphasize the most discriminative features while reducing the impacts of less relevant features. The proposed APP is employed to select the most informative patches on CNN features, and ATP discards unimportant tokens in ViT. Being simple to implement and without learnable parameters, the APP and ATP intuitively reduce the computational cost while boosting the performance by ONLY pursuing the most discriminative features. Qualitative results demonstrate the motivations and effectiveness of our attentive poolings. Besides, quantitative results on six in-the-wild datasets outperform other state-of-the-art methods. | 翻訳日:2022-12-13 16:28:21 公開日:2022-12-11 |
# 階層型時間計画に基づく動的ホイストスケジューリング問題の解法 A Hierarchical Temporal Planning-Based Approach for Dynamic Hoist Scheduling Problems ( http://arxiv.org/abs/2212.05412v1 ) ライセンス: Link先を確認 | Kebing Jin, Yingkai Xiao, Hankz Hankui Zhuo, Renyong Ma | (参考訳) ホイストスケジューリングは、自律デバイスの開発で産業応用の電気めっきのボトルネックとなっている。
課題を対象とするアプローチはいくつか提案されているが,大規模スケジューリング問題へのスケールアップは一般的に不可能である。
本稿では,適応型PDDLの形で新たな時間計画問題としてホイストスケジューリング問題を定式化し,スケジューリング問題を効率的に解くための新しい階層型時間計画手法を提案する。
さらに、この問題に対するソリューションメソッドの評価に使用できる実生活ベンチマークインスタンスのコレクションも提供します。
提案手法は,最先端のベースラインと比較して,大規模リアルタイムベンチマークインスタンスの高品質なソリューションを効率的に見つけることができることを示す。 Hoist scheduling has become a bottleneck in electroplating industry applications with the development of autonomous devices. Although there are a few approaches proposed to target at the challenging problem, they generally cannot scale to large-scale scheduling problems. In this paper, we formulate the hoist scheduling problem as a new temporal planning problem in the form of adapted PDDL, and propose a novel hierarchical temporal planning approach to efficiently solve the scheduling problem. Additionally, we provide a collection of real-life benchmark instances that can be used to evaluate solution methods for the problem. We exhibit that the proposed approach is able to efficiently find solutions of high quality for large-scale real-life benchmark instances, with comparison to state-of-the-art baselines. | 翻訳日:2022-12-13 16:22:21 公開日:2022-12-11 |
# 特徴レベル劣化自然言語理解 Feature-Level Debiased Natural Language Understanding ( http://arxiv.org/abs/2212.05421v1 ) ライセンス: Link先を確認 | Yougang Lyu, Piji Li, Yechang Yang, Maarten de Rijke, Pengjie Ren, Yukun Zhao, Dawei Yin, Zhaochun Ren | (参考訳) 既存の自然言語理解(NLU)モデルは、特定のデータセット上で高いパフォーマンスを達成するために、意図されたタスク関連機能ではなく、データセットバイアスに依存することが多い。
その結果、これらのモデルはトレーニングディストリビューション以外のデータセットではパフォーマンスが低下する。
最近の研究では、トレーニングプロセス中に偏りのあるサンプルの重量を減らすことでこの問題に対処している。
しかしながら、これらの手法は、モデル予測を妨げるバイアスの動的性質を無視し、表現におけるバイアス付き潜伏特徴を符号化している。
本研究では,DCT(Debiasing contrastive Learning)と命名されたNLU脱バイアス法を提案する。
我々は, バイアスの少ない正のサンプルを選択することで, バイアスのある潜在特徴を緩和する, バイアスの少ない正のサンプリング戦略を考案した。
また, バイアスのみのモデルを用いて, 最もよく似たバイアスサンプルを動的に選択することで, バイアスの動的影響を捉える動的負サンプリング戦略を提案する。
3つのNLUベンチマークデータセットで実験を行う。
実験の結果,dctは分散性能を維持しつつ,分散外データセットの最先端ベースラインを上回ることがわかった。
また,DCTがモデル表現からバイアスのある潜在特徴を低減できることを確認した。 Existing natural language understanding (NLU) models often rely on dataset biases rather than intended task-relevant features to achieve high performance on specific datasets. As a result, these models perform poorly on datasets outside the training distribution. Some recent studies address the above issue by reducing the weights of biased samples during the training process. However, these methods still encode biased latent features in representations and neglect the dynamic nature of bias, which hinders model prediction. We propose an NLU debiasing method, named debiasing contrastive learning (DCT), to simultaneously alleviate the above problems based on contrastive learning. We devise a debiasing positive sampling strategy to mitigate biased latent features by selecting the least similar biased positive samples. We also propose a dynamic negative sampling strategy to capture the dynamic influence of biases by employing a bias-only model to dynamically select the most similar biased negative samples. We conduct experiments on three NLU benchmark datasets. Experimental results show that DCT outperforms state-of-the-art baselines on out-of-distribution datasets while maintaining in-distribution performance. We also verify that DCT can reduce biased latent features from the model's representations. | 翻訳日:2022-12-13 16:13:45 公開日:2022-12-11 |
# FastClass: 弱修正テキスト分類のための時間効率のよいアプローチ FastClass: A Time-Efficient Approach to Weakly-Supervised Text Classification ( http://arxiv.org/abs/2212.05506v1 ) ライセンス: Link先を確認 | Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang | (参考訳) 弱教師付きテキスト分類は、クラス記述とラベルなしデータのみを使用して分類器を訓練することを目的としている。
最近の研究では、キーワード駆動の手法が様々なタスクで最先端のパフォーマンスを達成できることが示されている。
しかし、これらのメソッドは、クラス固有のキーワードを取得するために慎重に作られたクラス記述に頼るだけでなく、かなりの量のラベルのないデータを必要とし、訓練するのに長い時間がかかる。
本稿では,効率的な弱教師付き分類手法であるfastclassを提案する。
密度の高いテキスト表現を使用して、外部ラベルのないコーパスからクラス関連文書を検索し、分類器を訓練する最適なサブセットを選択する。
キーワード駆動型メソッドと比較して,各クラス記述をクラス固有のキーワードセットに拡張する必要がなくなるため,初期クラス記述への依存度は低い。
幅広い分類タスクにおける実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも高い精度を示し,学習速度の桁違いをしばしば享受することが示された。 Weakly-supervised text classification aims to train a classifier using only class descriptions and unlabeled data. Recent research shows that keyword-driven methods can achieve state-of-the-art performance on various tasks. However, these methods not only rely on carefully-crafted class descriptions to obtain class-specific keywords but also require substantial amount of unlabeled data and takes a long time to train. This paper proposes FastClass, an efficient weakly-supervised classification approach. It uses dense text representation to retrieve class-relevant documents from external unlabeled corpus and selects an optimal subset to train a classifier. Compared to keyword-driven methods, our approach is less reliant on initial class descriptions as it no longer needs to expand each class description into a set of class-specific keywords. Experiments on a wide range of classification tasks show that the proposed approach frequently outperforms keyword-driven models in terms of classification accuracy and often enjoys orders-of-magnitude faster training speed. | 翻訳日:2022-12-13 16:13:28 公開日:2022-12-11 |
# 米国退役軍人における自然言語処理(nlp)の健康要因と自殺死亡との関連性 Associations Between Natural Language Processing (NLP) Enriched Social Determinants of Health and Suicide Death among US Veterans ( http://arxiv.org/abs/2212.05546v1 ) ライセンス: Link先を確認 | Avijit Mitra, Richeek Pradhan, Rachel D Melamed, Kun Chen, David C Hoaglin, Katherine L Tucker, Joel I Reisman, Zhichao Yang, Weisong Liu, Jack Tsai, and Hong Yu | (参考訳) 重要性: 社会的健康決定因子(SDOH)は自殺行為のリスクの増加と関連していることが知られているが、非構造化電子健康記録(EHR)ノートからSDOHを利用した研究はほとんどない。
目的: 構造的および非構造的データを用いて同定された自殺と最近のsdohとの関連性を検討する。
デザイン:ケースコントロールの研究。
設定:US Veterans Health Administration (VHA)のEHRデータ。
参加者: 2010年10月1日から2015年9月30日までに米国のvhaで介護を受けた退役軍人6,122,785人。
暴露: SDOHの発生は最大2年間に及んだが, SDOHの発生は認められなかった。
主な結果と対策: 自殺死亡のケースは、出生年数、入園日、性別、フォローアップ期間の4つのコントロールと一致した。
非構造化音符からSDOHを抽出するNLPシステムを開発した。
構造化データ,非構造化データに対するNLPと組み合わせると,それぞれ7,8,9のSDOHが得られる。
条件付きロジスティック回帰を用いて,調整オッズ比 (aORs) と95%信頼区間 (CIs) を推定した。
結果:8,821人の獣医が23,725,382人のフォローアップ(入所率37.18/100,000人)で自殺した。
うちのコホートは男性(92.23%)と白人(76.99%)が多かった。
6つの共通SDOHは共変量であり、NLP抽出SDOHは平均84.38%を占める。
構造化データとNLPによって測定された全SDOHは、自殺リスクの増加に大きく関連していた。
最大の影響を持つSDOHは法的問題(aOR=2.67、95% CI=2.46-2.89)であり、暴力(aOR=2.26、95% CI=2.11-2.43)が続いた。
NLP抽出および構造化SDOHも自殺と関連していた。
結論と関連性: NLPを抽出したSDOHは常に獣医の自殺リスクの増加と大きく関連しており, 公衆衛生研究におけるNLPの可能性が示唆された。 Importance: Social determinants of health (SDOH) are known to be associated with increased risk of suicidal behaviors, but few studies utilized SDOH from unstructured electronic health record (EHR) notes. Objective: To investigate associations between suicide and recent SDOH, identified using structured and unstructured data. Design: Nested case-control study. Setting: EHR data from the US Veterans Health Administration (VHA). Participants: 6,122,785 Veterans who received care in the US VHA between October 1, 2010, and September 30, 2015. Exposures: Occurrence of SDOH over a maximum span of two years compared with no occurrence of SDOH. Main Outcomes and Measures: Cases of suicide deaths were matched with 4 controls on birth year, cohort entry date, sex, and duration of follow-up. We developed an NLP system to extract SDOH from unstructured notes. Structured data, NLP on unstructured data, and combining them yielded seven, eight and nine SDOH respectively. Adjusted odds ratios (aORs) and 95% confidence intervals (CIs) were estimated using conditional logistic regression. Results: In our cohort, 8,821 Veterans committed suicide during 23,725,382 person-years of follow-up (incidence rate 37.18 /100,000 person-years). Our cohort was mostly male (92.23%) and white (76.99%). Across the six common SDOH as covariates, NLP-extracted SDOH, on average, covered 84.38% of all SDOH occurrences. All SDOH, measured by structured data and NLP, were significantly associated with increased risk of suicide. The SDOH with the largest effects was legal problems (aOR=2.67, 95% CI=2.46-2.89), followed by violence (aOR=2.26, 95% CI=2.11-2.43). NLP-extracted and structured SDOH were also associated with suicide. Conclusions and Relevance: NLP-extracted SDOH were always significantly associated with increased risk of suicide among Veterans, suggesting the potential of NLP in public health studies. | 翻訳日:2022-12-13 16:13:11 公開日:2022-12-11 |
# 様々なロボットマニピュレータタスクを扱うオフポリシー深層強化学習アルゴリズム Off-Policy Deep Reinforcement Learning Algorithms for Handling Various Robotic Manipulator Tasks ( http://arxiv.org/abs/2212.05572v1 ) ライセンス: Link先を確認 | Altun Rzayev, Vahid Tavakol Aghaei | (参考訳) システムの複雑化やデータ密度の強い需要による障害を発生させる従来の制御手法を避けるためには,より効率的な制御手法を開発する必要がある。
このようにして、強化学習のオフポリシーとモデルフリーなアルゴリズムは、複雑なモデルを扱うのを避けるのに役立つ。
速度と精度の面では、アルゴリズムが過去の経験を使って最適なポリシーを学ぶため、顕著な手法となる。
本研究では,MuJoCoシミュレーション環境におけるFetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべてオフポリシーであり、ポリシーとバリュー関数の両方を最適化することで、望ましい目標を達成することができる。
本研究では,これら3つのアルゴリズムの効率と速度を制御された環境で解析する。 In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, developing modern and more efficient control methods are required. In this way, reinforcement learning off-policy and model-free algorithms help to avoid working with complex models. In terms of speed and accuracy, they become prominent methods because the algorithms use their past experience to learn the optimal policies. In this study, three reinforcement learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator for four different tasks in MuJoCo simulation environment. All of these algorithms are off-policy and able to achieve their desired target by optimizing both policy and value functions. In the current study, the efficiency and the speed of these three algorithms are analyzed in a controlled environment. | 翻訳日:2022-12-13 16:03:16 公開日:2022-12-11 |
# indicxtreme:indic言語評価のためのマルチタスクベンチマーク IndicXTREME: A Multi-Task Benchmark For Evaluating Indic Languages ( http://arxiv.org/abs/2212.05409v1 ) ライセンス: Link先を確認 | Sumanth Doddapaneni, Rahul Aralikatte, Gowtham Ramesh, Shreya Goyal, Mitesh M. Khapra, Anoop Kunchukuttan, Pratyush Kumar | (参考訳) IndicXTREMEは、4つのファミリーに属するIndicサブ大陸から18言語をカバーする9つの多様なタスクからなるベンチマークである。
言語やタスク全体にわたって、IndicXTREMEには合計103の評価セットが含まれており、そのうち51が新たな文献への貢献である。
高い品質を維持するために、自動翻訳システムを使用し、第2の人間の検証と修正のステップを行うために、人間の注釈をキュレートまたはtranslation\footnote{for indicxparaphrase にのみ使用する。
} データセット。
我々の知る限りでは、事前訓練された言語モデルのゼロショット機能をテストすることを目的とした、Indic言語の標準ベンチマークを作成するための最初の取り組みである。
IndicCorp v2は、24言語で20.9億のトークンを含むIndicCorpのアップデート版で、はるかに大きなバージョンです。
IndicCorp v2でIndicBERT v2をプレトレーニングし、IndicXTREMEで評価し、XLM-RやMuRILのような既存の多言語言語モデルよりも優れていることを示す。 In this work, we introduce IndicXTREME, a benchmark consisting of nine diverse tasks covering 18 languages from the Indic sub-continent belonging to four different families. Across languages and tasks, IndicXTREME contains a total of 103 evaluation sets, of which 51 are new contributions to the literature. To maintain high quality, we only use human annotators to curate or translate\footnote{for IndicXParaphrase, where an automatic translation system is used, a second human verification and correction step is done.} our datasets. To the best of our knowledge, this is the first effort toward creating a standard benchmark for Indic languages that aims to test the zero-shot capabilities of pretrained language models. We also release IndicCorp v2, an updated and much larger version of IndicCorp that contains 20.9 billion tokens in 24 languages. We pretrain IndicBERT v2 on IndicCorp v2 and evaluate it on IndicXTREME to show that it outperforms existing multilingual language models such as XLM-R and MuRIL. | 翻訳日:2022-12-13 16:00:55 公開日:2022-12-11 |
# ニューラル連続時間マルコフモデル Neural Continuous-Time Markov Models ( http://arxiv.org/abs/2212.05378v1 ) ライセンス: Link先を確認 | Majerle Reeves and Harish S. Bhat | (参考訳) 連続時間マルコフ連鎖は、例えば、生死過程、化学反応ネットワーク、人口動態、遺伝子制御ネットワークなど、不規則な時期に遷移が起こる確率システムのモデル化に用いられる。
完全観測時系列から連続時間マルコフ連鎖の遷移率関数を学習する手法を開発した。
既存の手法とは対照的に, 遷移速度は状態変数と外部共変量の両方に非線形に依存できる。
Gillespieアルゴリズムは、確率関数(反応速度)が知られている確率系の軌道を生成するために用いられる。
確率的反応ネットワークの軌道を与えられたとき、プロペンシティ関数の推定値を生成する。
従来の手法では線形あるいは対数線形法で転移率を共変量に結びつけていたが,ニューラルネットワークを用いて学習モデルの容量と潜在的な精度を高めた。
化学的文脈では、この手法は非質量作用運動学から確率関数を学習することができる。
本手法は, 遷移速度が既知のシステムから生成した合成データを用いてテストを行う。
本手法は, 基礎的真理と予測的遷移率の平均絶対誤差の観点から, 対数線形法よりもかなり高い精度でこれらの遷移率を学習することを示す。
また,連続時間マルコフ連鎖の開ループ制御への手法の適用例を示す。 Continuous-time Markov chains are used to model stochastic systems where transitions can occur at irregular times, e.g., birth-death processes, chemical reaction networks, population dynamics, and gene regulatory networks. We develop a method to learn a continuous-time Markov chain's transition rate functions from fully observed time series. In contrast with existing methods, our method allows for transition rates to depend nonlinearly on both state variables and external covariates. The Gillespie algorithm is used to generate trajectories of stochastic systems where propensity functions (reaction rates) are known. Our method can be viewed as the inverse: given trajectories of a stochastic reaction network, we generate estimates of the propensity functions. While previous methods used linear or log-linear methods to link transition rates to covariates, we use neural networks, increasing the capacity and potential accuracy of learned models. In the chemical context, this enables the method to learn propensity functions from non-mass-action kinetics. We test our method with synthetic data generated from a variety of systems with known transition rates. We show that our method learns these transition rates with considerably more accuracy than log-linear methods, in terms of mean absolute error between ground truth and predicted transition rates. We also demonstrate an application of our methods to open-loop control of a continuous-time Markov chain. | 翻訳日:2022-12-13 15:54:09 公開日:2022-12-11 |
# 相互作用系の学習のためのランダム特徴モデル Random Feature Models for Learning Interacting Dynamical Systems ( http://arxiv.org/abs/2212.05591v1 ) ライセンス: Link先を確認 | Yuxuan Liu, Scott G. McCalla, Hayden Schaeffer | (参考訳) 粒子動力学とマルチエージェントシステムは、複雑な相互作用系の挙動を研究し予測するための正確な力学モデルを提供する。
それらはしばしば、相互作用カーネルによってパラメータ化された高次元の微分方程式の体系の形をとり、エージェント間の引力や反発力をモデル化する。
エージェントの経路のノイズ観測から直接相互作用力のデータに基づく近似を構築することの問題点を考察する。
学習された相互作用カーネルは、長い時間間隔でエージェントの振る舞いを予測するために使用される。
この研究で開発された近似は、ランダム化特徴アルゴリズムとスパースランダム化特徴アプローチを用いる。
スパーシティ・プロモーティング・レグレッション(sprsity-promoting regression)は、データに制限がある場合、特に他のアプローチよりも過度に適合しないという、ランダムに生成された特徴を刈り取るメカニズムを提供する。
さらに,カーネル評価コストを低減し,マルチエージェントシステム予測のシミュレーションコストを大幅に削減する。
本手法は,均質および不均質相互作用を有する一階システム,二階均質システム,新しい羊群システムなど,様々な例に適用できる。 Particle dynamics and multi-agent systems provide accurate dynamical models for studying and forecasting the behavior of complex interacting systems. They often take the form of a high-dimensional system of differential equations parameterized by an interaction kernel that models the underlying attractive or repulsive forces between agents. We consider the problem of constructing a data-based approximation of the interacting forces directly from noisy observations of the paths of the agents in time. The learned interaction kernels are then used to predict the agents behavior over a longer time interval. The approximation developed in this work uses a randomized feature algorithm and a sparse randomized feature approach. Sparsity-promoting regression provides a mechanism for pruning the randomly generated features which was observed to be beneficial when one has limited data, in particular, leading to less overfitting than other approaches. In addition, imposing sparsity reduces the kernel evaluation cost which significantly lowers the simulation cost for forecasting the multi-agent systems. Our method is applied to various examples, including first-order systems with homogeneous and heterogeneous interactions, second order homogeneous systems, and a new sheep swarming system. | 翻訳日:2022-12-13 15:53:45 公開日:2022-12-11 |
# バックドア拡散モデルはどうすればよいか? How to Backdoor Diffusion Models? ( http://arxiv.org/abs/2212.05400v1 ) ライセンス: Link先を確認 | Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho | (参考訳) 拡散モデルは最先端のディープラーニングエンパワードジェネレーティブモデルであり、プログレッシブノイズ付加とデノージングを通じて前方および逆拡散プロセスを学習する原理に基づいて訓練される。
そこで本研究では,バックドア攻撃に対する拡散モデルのロバスト性に関する最初の研究を行った。
具体的には,バックドア植込みのモデルトレーニング中に拡散過程を破る新たな攻撃フレームワークであるbaddiffusionを提案する。
推論段階では、バックドア拡散モデルは通常のデータ入力のためのアンタンパードジェネレータのように振る舞うが、埋め込みされたトリガー信号を受け取ると、悪いアクターが設計したターゲット結果が誤って生成される。
このような重大なリスクは、問題のあるモデルの上に構築された下流のタスクやアプリケーションに対して恐れられる。
様々なバックドアアタック設定に関する広範な実験により,baddiffusionは,高い実用性とターゲット特異性を持つ拡散モデルに一貫して影響することが示された。
さらに悪いことに、BadDiffusionは、クリーンなトレーニング済みの拡散モデルをバックドアに移植することで、コスト効率を上げることができる。
リスク軽減対策の可能性についても検討する。
以上より,拡散モデルのリスクと誤用の可能性に注目した。 Diffusion models are state-of-the-art deep learning empowered generative models that are trained based on the principle of learning forward and reverse diffusion processes via progressive noise-addition and denoising. To gain a better understanding of the limitations and potential risks, this paper presents the first study on the robustness of diffusion models against backdoor attacks. Specifically, we propose BadDiffusion, a novel attack framework that engineers compromised diffusion processes during model training for backdoor implantation. At the inference stage, the backdoored diffusion model will behave just like an untampered generator for regular data inputs, while falsely generating some targeted outcome designed by the bad actor upon receiving the implanted trigger signal. Such a critical risk can be dreadful for downstream tasks and applications built upon the problematic model. Our extensive experiments on various backdoor attack settings show that BadDiffusion can consistently lead to compromised diffusion models with high utility and target specificity. Even worse, BadDiffusion can be made cost-effective by simply finetuning a clean pre-trained diffusion model to implant backdoors. We also explore some possible countermeasures for risk mitigation. Our results call attention to potential risks and possible misuse of diffusion models. | 翻訳日:2022-12-13 15:52:18 公開日:2022-12-11 |
# 断熱限界におけるエネルギーに基づく一般系列エピソード記憶ネットワーク Energy-based General Sequential Episodic Memory Networks at the Adiabatic Limit ( http://arxiv.org/abs/2212.05563v1 ) ライセンス: Link先を確認 | Arjun Karuvally, Terry J. Sejnowski, Hava T. Siegelmann | (参考訳) GAMM(General Associative Memory Model)は、一定の状態依存エネルギー表面を持ち、出力ダイナミクスを一定点に導くことで、非同期にプリロード可能なメモリのコレクションから単一のメモリを取得する。
そこで本研究では, 時間変化エネルギー面を示す新しい一般シーケンスエピソードメモリモデル(gsemm)を紹介し, 逐次エピソードメモリである一連のメタ安定状態へと導く。
動的エネルギー面は、ネットワークの隠された層に信号の伝搬遅延を伴う新しい非対称なシナプスによって実現される。
GSEMMクラスにおける2つのメモリモデルの理論的および経験的特性について検討した。
lisem は特徴層に非線形性を持ち、dsem は隠れ層に非線形性を持つ。
原則として、DSEMは、ネットワーク内のニューロンの数とともに指数関数的に増加する記憶容量を持つ。
エネルギー最小化原理に基づくシナプスの学習ルールを導入し、単一の記憶とその逐次関係をオンラインで学習できることを示す。
この規則は、ニューロン間のシナプスが強度を変化させる条件を記述したヘビー学習アルゴリズムやspike-timingdependent plasticity(stdp)に類似している。
したがって、gsemmはエピソディックメモリの静的および動的特性を単一の理論的枠組みで結合し、神経科学、機械学習、人工知能を橋渡しする。 The General Associative Memory Model (GAMM) has a constant state-dependant energy surface that leads the output dynamics to fixed points, retrieving single memories from a collection of memories that can be asynchronously preloaded. We introduce a new class of General Sequential Episodic Memory Models (GSEMM) that, in the adiabatic limit, exhibit temporally changing energy surface, leading to a series of meta-stable states that are sequential episodic memories. The dynamic energy surface is enabled by newly introduced asymmetric synapses with signal propagation delays in the network's hidden layer. We study the theoretical and empirical properties of two memory models from the GSEMM class, differing in their activation functions. LISEM has non-linearities in the feature layer, whereas DSEM has non-linearity in the hidden layer. In principle, DSEM has a storage capacity that grows exponentially with the number of neurons in the network. We introduce a learning rule for the synapses based on the energy minimization principle and show it can learn single memories and their sequential relationships online. This rule is similar to the Hebbian learning algorithm and Spike-Timing Dependent Plasticity (STDP), which describe conditions under which synapses between neurons change strength. Thus, GSEMM combines the static and dynamic properties of episodic memory under a single theoretical framework and bridges neuroscience, machine learning, and artificial intelligence. | 翻訳日:2022-12-13 15:45:35 公開日:2022-12-11 |
# 直交svd共分散条件と潜在性乱れ Orthogonal SVD Covariance Conditioning and Latent Disentanglement ( http://arxiv.org/abs/2212.05599v1 ) ライセンス: Link先を確認 | Yue Song, Nicu Sebe, Wei Wang | (参考訳) SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になり、トレーニング安定性と一般化能力のモデルに悪影響を及ぼす可能性がある。
本稿では,プレSVD層に直交性を持たせることで,共分散条件の改善方法を体系的に研究する。
既往の体重に対する直交治療について検討した。
しかし、これらの技術はコンディショニングを改善することができるが、性能を損なう。
このような副作用を避けるために,最も近い直交勾配 (nog) と最適学習率 (olr) を提案する。
本手法の有効性は,Decorrelated Batch Normalization (BN) と Global Covariance Pooling (GCP) の2つのアプリケーションで検証されている。
広汎な視覚認識実験により,共分散条件と一般化を同時に改善できることが示されている。
直交重量との組合せは性能をさらに高めることができる。
さらに,本手法は,様々なベンチマークにおける一連の実験を通して,潜在性不連続性を改善するための生成モデルに有用であることを示す。
コードは以下の通り。 \href{https://github.com/KingJamesSong/OrthoImproveCond}{https://github.com/KingJamesSong/OrthoImproveCond}。 Inserting an SVD meta-layer into neural networks is prone to make the covariance ill-conditioned, which could harm the model in the training stability and generalization abilities. In this paper, we systematically study how to improve the covariance conditioning by enforcing orthogonality to the Pre-SVD layer. Existing orthogonal treatments on the weights are first investigated. However, these techniques can improve the conditioning but would hurt the performance. To avoid such a side effect, we propose the Nearest Orthogonal Gradient (NOG) and Optimal Learning Rate (OLR). The effectiveness of our methods is validated in two applications: decorrelated Batch Normalization (BN) and Global Covariance Pooling (GCP). Extensive experiments on visual recognition demonstrate that our methods can simultaneously improve covariance conditioning and generalization. The combinations with orthogonal weight can further boost the performance. Moreover, we show that our orthogonality techniques can benefit generative models for better latent disentanglement through a series of experiments on various benchmarks. Code is available at: \href{https://github.com/KingJamesSong/OrthoImproveCond}{https://github.com/KingJamesSong/OrthoImproveCond}. | 翻訳日:2022-12-13 15:35:49 公開日:2022-12-11 |
# resfed: 深い圧縮残差の伝達による効果的な連合学習 ResFed: Communication Efficient Federated Learning by Transmitting Deep Compressed Residuals ( http://arxiv.org/abs/2212.05602v1 ) ライセンス: Link先を確認 | Rui Song, Liguo Zhou, Lingjuan Lyu, Andreas Festag, Alois Knoll | (参考訳) フェデレートラーニングは、学習したローカルモデルパラメータを共有することで、大規模分散クライアント間の協調トレーニングを可能にする。
しかし、モデルサイズの増加に伴い、連合学習の展開には大きな通信帯域が必要となり、無線ネットワークへの展開が制限される。
このボトルネックに対処するために,モデルパラメータではなく残差をトレーニング用通信ネットワークに送信する残差ベースフェデレーション学習フレームワーク(resfed)を導入する。
特に、サーバ間通信とクライアント間通信の両方において、モデル予測のための2組の共有予測器を統合する。
共通予測ルールを用いることで、ローカルモデルとグローバルモデルの両方が常にクライアントとサーバで完全に回復可能である。
我々は、残差は1つのラウンド間におけるモデルの準更新のみを示し、それゆえ、より密な情報を含み、モデルよりもエントロピーが低いことを強調する。
この特性に基づいて、スペーシフィケーションと量子化による残余の損失圧縮を行い、効率的な通信のために符号化する。
実験の結果,resfedでは通信コストが著しく削減され,標準連関学習に比べて感度の低い残差を活用することで精度が向上した。
例えば、CIFAR-10上で10クライアントで4.08MBのCNNモデルを非独立で同一に分散した(Non-IID)設定でトレーニングするには、各通信ラウンドにおける700倍以上の圧縮比を精度に最小限の影響で達成する。
70%の精度に達するためには、全通信量の99%をアップストリームで587.61 Mbから6.79 Mbに、ダウンストリームで平均4.61 Mbに節約する。 Federated learning enables cooperative training among massively distributed clients by sharing their learned local model parameters. However, with increasing model size, deploying federated learning requires a large communication bandwidth, which limits its deployment in wireless networks. To address this bottleneck, we introduce a residual-based federated learning framework (ResFed), where residuals rather than model parameters are transmitted in communication networks for training. In particular, we integrate two pairs of shared predictors for the model prediction in both server-to-client and client-to-server communication. By employing a common prediction rule, both locally and globally updated models are always fully recoverable in clients and the server. We highlight that the residuals only indicate the quasi-update of a model in a single inter-round, and hence contain more dense information and have a lower entropy than the model, comparing to model weights and gradients. Based on this property, we further conduct lossy compression of the residuals by sparsification and quantization and encode them for efficient communication. The experimental evaluation shows that our ResFed needs remarkably less communication costs and achieves better accuracy by leveraging less sensitive residuals, compared to standard federated learning. For instance, to train a 4.08 MB CNN model on CIFAR-10 with 10 clients under non-independent and identically distributed (Non-IID) setting, our approach achieves a compression ratio over 700X in each communication round with minimum impact on the accuracy. To reach an accuracy of 70%, it saves around 99% of the total communication volume from 587.61 Mb to 6.79 Mb in up-streaming and to 4.61 Mb in down-streaming on average for all clients. | 翻訳日:2022-12-13 15:27:45 公開日:2022-12-11 |
# 一般線形モデルに対する破壊耐性アルゴリズム Corruption-tolerant Algorithms for Generalized Linear Models ( http://arxiv.org/abs/2212.05430v1 ) ライセンス: Link先を確認 | Bhaskar P Mukhoty and Debojyoti Dey and Purushottam Kar | (参考訳) 本稿では,SVAM(Sequential Variance-Altered MLE)について述べる。
svamは最小二乗回帰、ロジスティック回帰、ガンマ回帰といったタスクに拡張されるが、ラベル破壊で学習する多くの既存の作業は最小二乗回帰のみに焦点を当てている。
SVAMは、独立した関心を持つ可能性のある新しい分散還元技術に基づいており、GLM目標の分散修飾バージョンよりも重み付きMLEを反復的に解くことで機能する。
SVAMは、一定の数のトレーニングラベルが逆向きに破損しても、堅牢な回帰のために最先端のモデル回復を保証する。
SVAMはまた、堅牢な回帰と分類のための既存の問題固有のテクニックを経験的に上回っている。
SVAMのコードはhttps://github.com/purushottamkar/svam/で入手できる。 This paper presents SVAM (Sequential Variance-Altered MLE), a unified framework for learning generalized linear models under adversarial label corruption in training data. SVAM extends to tasks such as least squares regression, logistic regression, and gamma regression, whereas many existing works on learning with label corruptions focus only on least squares regression. SVAM is based on a novel variance reduction technique that may be of independent interest and works by iteratively solving weighted MLEs over variance-altered versions of the GLM objective. SVAM offers provable model recovery guarantees superior to the state-of-the-art for robust regression even when a constant fraction of training labels are adversarially corrupted. SVAM also empirically outperforms several existing problem-specific techniques for robust regression and classification. Code for SVAM is available at https://github.com/purushottamkar/svam/ | 翻訳日:2022-12-13 15:26:09 公開日:2022-12-11 |
# mul-gad:マルチビュー情報集約による半教師付きグラフ異常検出フレームワーク Mul-GAD: a semi-supervised graph anomaly detection framework via aggregating multi-view information ( http://arxiv.org/abs/2212.05478v1 ) ライセンス: Link先を確認 | Zhiyuan Liu, Chunjie Cao and Jingzhang Sun | (参考訳) 異常検出は、期待される振る舞いに適合しないパターンの発見として定義される。
従来, 従来の浅層学習技術を用いて異常検出を行ったが, ほとんど改善されなかった。
グラフニューラルネットワーク(GNN)の出現に伴い,グラフ異常検出が大幅に進展した。
しかし、近年の研究では、グラフ異常検出アルゴリズムがほとんどのデータセットで一般化できないという問題に直面している。
タップをブリッジするために,グラフ異常検出(mul-gad)のためのマルチビュー融合手法を提案する。
ビューレベルの融合は異なるビュー間の重要度を捉え、特徴レベルの融合は補完情報を完全に活用する。
我々は,核融合戦略の有効性を理論的に実験的に詳述する。
より包括的な結論として,目的関数と融合ビュー数による検出性能への影響について検討する。
本研究は,Mul-GADに核融合戦略と目的関数を併用して実施した。
他の最先端検出方法と比較して,Pubmed,Amazon Computer,Amazon Photo,Weibo,Booksで実施した一連の実験を通じて,ほとんどのシナリオにおいて,より優れた検出性能と一般化を実現している。
私たちのコードはhttps://github.com/liuyishoua/mul-graph-fusionで利用可能です。 Anomaly detection is defined as discovering patterns that do not conform to the expected behavior. Previously, anomaly detection was mostly conducted using traditional shallow learning techniques, but with little improvement. As the emergence of graph neural networks (GNN), graph anomaly detection has been greatly developed. However, recent studies have shown that GNN-based methods encounter challenge, in that no graph anomaly detection algorithm can perform generalization on most datasets. To bridge the tap, we propose a multi-view fusion approach for graph anomaly detection (Mul-GAD). The view-level fusion captures the extent of significance between different views, while the feature-level fusion makes full use of complementary information. We theoretically and experimentally elaborate the effectiveness of the fusion strategies. For a more comprehensive conclusion, we further investigate the effect of the objective function and the number of fused views on detection performance. Exploiting these findings, our Mul-GAD is proposed equipped with fusion strategies and the well-performed objective function. Compared with other state-of-the-art detection methods, we achieve a better detection performance and generalization in most scenarios via a series of experiments conducted on Pubmed, Amazon Computer, Amazon Photo, Weibo and Books. Our code is available at https://github.com/liuyishoua/Mul-Graph-Fusion. | 翻訳日:2022-12-13 15:18:28 公開日:2022-12-11 |
# テキストローカライゼーションのための拡張TrOCR -フルページスキャン画像のOCR- Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images ( http://arxiv.org/abs/2212.05525v1 ) ライセンス: Link先を確認 | Hongkuan Zhang, Edward Whittaker, Ikuo Kitagishi | (参考訳) スキャンされたレシートのデジタル化は、レシート画像からテキストを取り出し、構造化されたドキュメントに保存することを目的としている。
これは通常、テキストローカライゼーションと光学文字認識(OCR)という2つのサブタスクに分けられる。
既存のocrモデルは、テキスト領域検出モデルが提供するバウンディングボックス情報を必要とするクロッピングされたテキストインスタンスイメージのみに焦点を当てている。
テキストインスタンスイメージを事前に識別するための追加検出器の導入は非効率であるが、インスタンスレベルのOCRモデルでは、さまざまなレイアウトに配置された複数のテキスト行を含むレシート画像など、ドキュメントレベルのOCRの全体像を処理する場合の精度が極めて低い。
そこで本研究では,レシート画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するローカライズフリーな文書レベルOCRモデルを提案する。
具体的には,事前学習されたトランスフォーマーベースのインスタンスレベルモデルtrocrをランダムに切り抜いた画像チャンクで微調整し,画像チャンクサイズを徐々に増やし,インスタンス画像からフルページ画像への認識能力を一般化する。
SROIE受信OCRデータセットを用いた実験では,単語レベルと文字レベルで64.4F1スコアと22.8%の文字誤り率(CER)を達成し,48.5F1スコアと50.6%CERのベースライン結果を上回った。
最良のモデルは、全画像を15の等サイズのチャンクに分割し、87.8 f1-scoreと4.98% cerを与え、出力の予備処理または後処理を最小化する。
また、生成した文書レベルシーケンス内の文字を読み出し順に配置し、実世界のアプリケーションで実用的である。 Digitization of scanned receipts aims to extract text from receipt images and save it into structured documents. This is usually split into two sub-tasks: text localization and optical character recognition (OCR). Most existing OCR models only focus on the cropped text instance images, which require the bounding box information provided by a text region detection model. Introducing an additional detector to identify the text instance images in advance is inefficient, however instance-level OCR models have very low accuracy when processing the whole image for the document-level OCR, such as receipt images containing multiple text lines arranged in various layouts. To this end, we propose a localization-free document-level OCR model for transcribing all the characters in a receipt image into an ordered sequence end-to-end. Specifically, we finetune the pretrained Transformer-based instance-level model TrOCR with randomly cropped image chunks, and gradually increase the image chunk size to generalize the recognition ability from instance images to full-page images. In our experiments on the SROIE receipt OCR dataset, the model finetuned with our strategy achieved 64.4 F1-score and a 22.8% character error rates (CER) on the word-level and character-level metrics, respectively, which outperforms the baseline results with 48.5 F1-score and 50.6% CER. The best model, which splits the full image into 15 equally sized chunks, gives 87.8 F1-score and 4.98% CER with minimal additional pre or post-processing of the output. Moreover, the characters in the generated document-level sequences are arranged in the reading order, which is practical for real-world applications. | 翻訳日:2022-12-13 15:09:20 公開日:2022-12-11 |
# 疎い深層学習の統計的保証 Statistical guarantees for sparse deep learning ( http://arxiv.org/abs/2212.05427v1 ) ライセンス: Link先を確認 | Johannes Lederer | (参考訳) ニューラルネットワークはアプリケーションで人気が高まっているが、その可能性と限界に関する数学的理解はまだ限られている。
本稿では,スパース深層学習に対する統計的保証を開発することにより,この理解をさらに深める。
従来の研究とは対照的に、アクティブコネクションの少なさ、アクティブノードの少なさ、その他の標準ベースのスパーシティといった、異なるタイプのスパーシティを考える。
さらに、我々の理論は、複数の出力、正規化、l2-lossなど、以前の理論が無視した重要な側面をカバーしている。
保証はネットワークの幅と深さに軽度に依存しており、統計的な観点からは疎遠だが広大で深いネットワークの応用をサポートすることを意味する。
私たちが導出した概念やツールのいくつかは、ディープラーニングでは珍しく、従って、追加の関心を持つかもしれません。 Neural networks are becoming increasingly popular in applications, but our mathematical understanding of their potential and limitations is still limited. In this paper, we further this understanding by developing statistical guarantees for sparse deep learning. In contrast to previous work, we consider different types of sparsity, such as few active connections, few active nodes, and other norm-based types of sparsity. Moreover, our theories cover important aspects that previous theories have neglected, such as multiple outputs, regularization, and l2-loss. The guarantees have a mild dependence on network widths and depths, which means that they support the application of sparse but wide and deep networks from a statistical perspective. Some of the concepts and tools that we use in our derivations are uncommon in deep learning and, hence, might be of additional interest. | 翻訳日:2022-12-13 15:00:14 公開日:2022-12-11 |
# スラング表現法に関する研究 A Study of Slang Representation Methods ( http://arxiv.org/abs/2212.05613v1 ) ライセンス: Link先を確認 | Aravinda Kolla, Filip Ilievski, H\^ong-\^An Sandlin and Alain Mermoud | (参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
オンラインコンテンツの大量発生を考えると、slangを意識した自動ツールは社会的利益を促進するために必要不可欠であり、政策立案者やモデレーターが攻撃的言語、虐待、ヘイトスピーチの拡散を制限するのを助ける。
大きな言語モデルの成功とスラング辞書の自然発生にもかかわらず、下流の社会的良いタスクに対するスラング理解の観点から、それらの組み合わせがどこまで進んでいるかは明らかでない。
本稿では,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせを研究するための枠組みを提供する。
実験の結果,ソーシャルメディア上で事前学習したモデルの方が優れており,辞書の影響は静的な単語埋め込みにのみ肯定的であることがわかった。
我々の誤り分析は,スラング表現学習における中核的な課題を識別するものであり,言語外単語,多節語,分散,アノテーションの不一致など,スラングの特徴を急速に進化し,主観的な言語として捉えることができる。 Warning: this paper contains content that may be offensive or upsetting. Considering the large amount of content created online by the minute, slang-aware automatic tools are critically needed to promote social good, and assist policymakers and moderators in restricting the spread of offensive language, abuse, and hate speech. Despite the success of large language models and the spontaneous emergence of slang dictionaries, it is unclear how far their combination goes in terms of slang understanding for downstream social good tasks. In this paper, we provide a framework to study different combinations of representation learning models and knowledge resources for a variety of downstream tasks that rely on slang understanding. Our experiments show the superiority of models that have been pre-trained on social media data, while the impact of dictionaries is positive only for static word embeddings. Our error analysis identifies core challenges for slang representation learning, including out-of-vocabulary words, polysemy, variance, and annotation disagreements, which can be traced to characteristics of slang as a quickly evolving and highly subjective language. | 翻訳日:2022-12-13 14:58:44 公開日:2022-12-11 |
# アラビア語から英語放送ニュースへのエンドツーエンド音声翻訳 End-to-End Speech Translation of Arabic to English Broadcast News ( http://arxiv.org/abs/2212.05479v1 ) ライセンス: Link先を確認 | Fethi Bougares and Salim Jouili | (参考訳) 音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに変換するタスクである。
stタスクは、長い間、2つのモジュールによるパイプラインアプローチを使用して対処されてきた。まず、ソース言語における自動音声認識(asr)と、テキストからテキストへの機械翻訳(mt)だ。
過去数年間,シーケンシャル・ツー・シーケンシャルなディープニューラルネットワークモデルを用いたエンドツーエンドアプローチへのパラダイムシフトがみられた。
本稿では、アラビア語から英語への初の音声翻訳システムの開発に向けた取り組みについて述べる。
独立したasrとmt ldcのリリースから、マニュアルの書き起こしがセグメントレベルで英語に翻訳された約92時間のアラビア語音声録音を識別することができた。
これらのデータは、転送学習やデータ拡張技術を含む複数のシナリオで、パイプラインとエンドツーエンド音声翻訳システムのトレーニングと比較に使用された。 Speech translation (ST) is the task of directly translating acoustic speech signals in a source language into text in a foreign language. ST task has been addressed, for a long time, using a pipeline approach with two modules : first an Automatic Speech Recognition (ASR) in the source language followed by a text-to-text Machine translation (MT). In the past few years, we have seen a paradigm shift towards the end-to-end approaches using sequence-to-sequence deep neural network models. This paper presents our efforts towards the development of the first Broadcast News end-to-end Arabic to English speech translation system. Starting from independent ASR and MT LDC releases, we were able to identify about 92 hours of Arabic audio recordings for which the manual transcription was also translated into English at the segment level. These data was used to train and compare pipeline and end-to-end speech translation systems under multiple scenarios including transfer learning and data augmentation techniques. | 翻訳日:2022-12-13 14:52:08 公開日:2022-12-11 |
# マルチモーダルおよび説明可能なインターネットミーム分類 Multimodal and Explainable Internet Meme Classification ( http://arxiv.org/abs/2212.05612v1 ) ライセンス: Link先を確認 | Abhinav Kumar Thakur, Filip Ilievski, H\^ong-\^An Sandlin, Alain Mermoud, Zhivar Sourati, Luca Luceri and Riccardo Tommasini | (参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
オンラインプラットフォームが様々な地政学的イベントや社会問題で効果的に武器化されている現在の状況では、インターネットミームは大規模で公平なコンテンツのモデレーションをさらに難しくしている。
ミーム分類と追跡に関する既存の研究は、ミームの意味論やそれらの作成の文脈を明示的に考慮しないブラックボックスメソッドに焦点を当てている。
本稿では,インターネット・ミーム理解のためのモジュール型で説明可能なアーキテクチャを追求する。
我々は,実例とプロトタイプに基づく推論をトレーニングケース上で行うマルチモーダル分類法を設計・実装し,テキストモデルとビジュアルソータモデルの両方を利用して個々の事例を表現した。
既存の課題であるヘイトスピーチ検出とミソジニー分類における有害なミームの検出におけるモジュラーモデルと説明可能なモデルの関連性について検討した。
本研究は,サンプルベース手法とプロトタイプベース手法,テキストモデル,視覚モデル,マルチモーダルモデルのパフォーマンスを,有害性(ステレオタイプ,オブジェクト化など)の異なるカテゴリで比較する。
ユーザフレンドリなインターフェースを考案し,すべてのモデルが収集したサンプルの比較分析を容易にし,説明可能なメソッドの長所と短所をコミュニティに通知します。 Warning: this paper contains content that may be offensive or upsetting. In the current context where online platforms have been effectively weaponized in a variety of geo-political events and social issues, Internet memes make fair content moderation at scale even more difficult. Existing work on meme classification and tracking has focused on black-box methods that do not explicitly consider the semantics of the memes or the context of their creation. In this paper, we pursue a modular and explainable architecture for Internet meme understanding. We design and implement multimodal classification methods that perform example- and prototype-based reasoning over training cases, while leveraging both textual and visual SOTA models to represent the individual cases. We study the relevance of our modular and explainable models in detecting harmful memes on two existing tasks: Hate Speech Detection and Misogyny Classification. We compare the performance between example- and prototype-based methods, and between text, vision, and multimodal models, across different categories of harmfulness (e.g., stereotype and objectification). We devise a user-friendly interface that facilitates the comparative analysis of examples retrieved by all of our models for any given meme, informing the community about the strengths and limitations of these explainable methods. | 翻訳日:2022-12-13 14:51:22 公開日:2022-12-11 |