このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220920となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ポート型テレポーテーションにおけるかなり良い測定の最適性 Optimality of the pretty good measurement for port-based teleportation ( http://arxiv.org/abs/2008.11194v2 ) ライセンス: Link先を確認 | Felix Leditzky | (参考訳) ポートベーステレポーテーション(ポートベーステレポーテーション、Port-based teleportation、PBT)は、ポート状態とフォワード古典通信と呼ばれる共有多部状態の測定を用いて、アリスが未知の量子状態をボブにテレポーテーションするプロトコルである。
本稿では,最大絡み合った状態の独立コピーをポート状態とするPBTプロトコルにおいて,いわゆる「かなりよい測定」あるいは「平方根の測定」が最適であることを示す。
次に、最善のpbtプロトコルを生成するためにポート状態が最適化された場合でも、同じ測定が最適であることを示す。
したがって、両方のケースで最適な性能を達成するための、非常に良い測定方法がひとつあります。
これらの結果の証明には、以下の有名な事実が鍵となる。
(i)pbtの自然対称性であって、表現論的データの項による説明を導くもの
(2) PBT と特定の状態判別問題との運用等価性により,関連する半定値プログラムの双対性を利用することができる。
その過程で,[Studzi\'nski et al., 2017] と [Mozrzymas et al., 2018] で証明された PBT プロトコルの性能に関する表現論的公式を,ユニタリ群と対称群の表現論の標準手法のみを用いて再現する。
この論文の主な目的の1つは、これらの美しい公式の簡易な導出である。 Port-based teleportation (PBT) is a protocol in which Alice teleports an unknown quantum state to Bob using measurements on a shared entangled multipartite state called the port state and forward classical communication. In this paper, we give an explicit proof that the so-called pretty good measurement, or square-root measurement, is optimal for the PBT protocol with independent copies of maximally entangled states as the port state. We then show that the very same measurement remains optimal even when the port state is optimized to yield the best possible PBT protocol. Hence, there is one particular pretty good measurement achieving the optimal performance in both cases. The following well-known facts are key ingredients in the proofs of these results: (i) the natural symmetries of PBT, leading to a description in terms of representation-theoretic data; (ii) the operational equivalence of PBT with certain state discrimination problems, which allows us to employ duality of the associated semidefinite programs. Along the way, we rederive the representation-theoretic formulas for the performance of PBT protocols proved in [Studzi\'nski et al., 2017] and [Mozrzymas et al., 2018] using only standard techniques from the representation theory of the unitary and symmetric groups. Providing a simplified derivation of these beautiful formulas is one of the main goals of this paper. | 翻訳日:2023-05-04 23:42:43 公開日:2022-09-20 |
# Twitterで再購入を誤解する Misleading Repurposing on Twitter ( http://arxiv.org/abs/2010.10600v2 ) ライセンス: Link先を確認 | Tu\u{g}rulcan Elmas, Rebekah Overdorf, Karl Aberer | (参考訳) 本稿では,悪意のあるユーザがソーシャルメディアアカウントのアイデンティティを変更し,そのアカウントをフォロワーを維持しながら新しい目的に利用するためにプロファイル属性を変更するという,ミスリーディング・リパーポーティングに関する,初めての,大規模かつ詳細な研究について述べる。
本稿では,インターネットアーカイブのTwitter Stream Grabから収集したデータに対する教師あり学習を用いて,再利用アカウントのフラグ付けを行う手法と行動の定義を提案する。
再利用された可能性があるアカウントは10万以上あった。
また、リユースされたアカウントを特徴付け、古いツイートを削除した後にリユースされる可能性が高くなった。
また,フォロワー数の多いアカウントを対象とするアカウントを再利用する証拠も提供し,フォローバックスキームに参加することでフォロワー数を高くする事例も提示した。
本研究の結果は,ソーシャルメディアプラットフォームのセキュリティと整合性,歴史的データがどのように考慮されているかのデータサイエンス研究,そして社会全体において,利用者が意見の人気を欺くことができるか,といったことが示唆された。 We present the first in-depth and large-scale study of misleading repurposing, in which a malicious user changes the identity of their social media account via, among other things, changes to the profile attributes in order to use the account for a new purpose while retaining their followers. We propose a definition for the behavior and a methodology that uses supervised learning on data mined from the Internet Archive's Twitter Stream Grab to flag repurposed accounts. We found over 100,000 accounts that may have been repurposed. We also characterize repurposed accounts and found that they are more likely to be repurposed after a period of inactivity and deleting old tweets. We also provide evidence that adversaries target accounts with high follower counts to repurpose, and some make them have high follower counts by participating in follow-back schemes. The results we present have implications for the security and integrity of social media platforms, for data science studies in how historical data is considered, and for society at large in how users can be deceived about the popularity of an opinion. | 翻訳日:2023-04-28 05:22:31 公開日:2022-09-20 |
# フェルミオン系の相互情報 Mutual information for fermionic systems ( http://arxiv.org/abs/2012.00045v2 ) ライセンス: Link先を確認 | Luca Lepori, Simone Paganelli, Fabio Franchini, and Andrea Trombettoni | (参考訳) 様々な二次性フェルミオン鎖における相互情報 (mi) の挙動について, 短距離ホッピングと短距離ホッピングのペアリング条件と無条件で検討した。
検討されたモデルは、北エフモデルの短距離極限と長距離バージョンを含むとともに、絡み合いエントロピーの領域法則が対数的または非対数的である場合も含む。
すべての場合において、地域法則がほとんどの対数的に破られるとき、MI は共形四点比 x の単調に増大する関数である。
領域法則の非対数的違反が存在する場合、MIと4点比の非単調な特徴が観察され、パラメータの他の自然な組み合わせと同様に、MIの全体構造を1つの曲線に崩壊させて捉えるのに十分でないことが判明した。
我々はこの挙動を、ピークの構造がベル対の非普遍空間構成と関連していることを示す指標として解釈する。
完全体積法則を示すモデルでは、MIは同一に消滅する。
キタエフモデルでは、MI は x -> 0 に対して消滅し、ギャップ付きの場合において有限 x までは保たない。
一般に、ペアリングのより大きな範囲は、小さな x での MI の減少に対応する。
強結合限界におけるAdS/CFT対応による結果との比較検討を行った。 We study the behavior of the mutual information (MI) in various quadratic fermionic chains, with and without pairing terms and both with short- and long-range hoppings. The models considered include the short-range limit and long-range versions of the Kitaev model as well, and also cases in which the area law for the entanglement entropy is - logarithmically or non-logarithmically - violated. In all cases surveyed, when the area law is violated at most logarithmically, the MI is a monotonically increasing function of the conformal four-point ratio x. Where non-logarithmic violations of the area law are present, non-monotonic features can be observed in the MI and the four-point ratio, as well as other natural combinations of the parameters, is found not to be sufficient to capture the whole structure of the MI with a collapse onto a single curve. We interpret this behavior as a sign that the structure of peaks is related to a non-universal spatial configuration of Bell pairs. For the model exhibiting a perfect volume law, the MI vanishes identically. For the Kitaev model the MI is vanishing for x -> 0 and it remains zero up to a finite x in the gapped case. In general, a larger range of the pairing corresponds to a reduction of the MI at small x. A discussion of the comparison with the results obtained by the AdS/CFT correspondence in the strong coupling limit is presented. | 翻訳日:2023-04-22 14:11:33 公開日:2022-09-20 |
# 対称ガウス状態におけるEPRステアリング EPR steering in symmetrical Gaussian states ( http://arxiv.org/abs/2103.10418v3 ) ライセンス: Link先を確認 | Eugenia Benech, Adriana Auyuanet, Arturo Lezama | (参考訳) 対称2モードガウス状態における量子アインシュタイン・ポドルスキー・ローゼンステアリングをガウス的および非ガウス的測定を用いて検討した。
ガウス計測では、しきい値入力状態の二次分散圧縮が達成された場合の純度にかかわらず、対称ビームスプリッターの出力モード間のステアリングが可能となる。
[1] で導入された非ガウス作用素を用いて、非ガウス測度が対称状態のガウス測度より優れていることを示す。
また,非ゲージ計測により非対称計測が可能となる可能性を分析し,そのような非対称性がステアリングの解明に最適な例を示す。
[1]Ji,SW。
、Lee, J., Park, J. et al。
非ガウス的測定によるガウス状態の量子ステアリング
背番号はsci rep 6, 29729 (2016)。
https://doi.org/10.1038/srep29729 We have explored quantum Einstein-Podolsky-Rosen steering in symmetric two-mode Gaussian states using Gaussian and non-Gaussian measurements. For Gaussian measurements, we show that steering between the output modes of a symmetric beamsplitter is possible regardless of purity when a threshold input-state quadrature variance compression is achieved. Using the non-Gaussian operators introduced in [1] we show that non-Gaussian measurements can outperform Gaussian measurements for symmetrical states. We also analyze the possibility of asymmetric measurements setups made possible by non-Gaussian measurements and provide examples where such asymmetry is optimal for revealing steering. [1] Ji, SW., Lee, J., Park, J. et al. Quantum steering of Gaussian states via non-Gaussian measurements. Sci Rep 6, 29729 (2016). https://doi.org/10.1038/srep29729 | 翻訳日:2023-04-07 18:51:09 公開日:2022-09-20 |
# PULSEE: 広範囲の磁気共鳴観測装置の量子シミュレーションのためのソフトウェア PULSEE: A software for the quantum simulation of an extensive set of magnetic resonance observables ( http://arxiv.org/abs/2108.11415v2 ) ライセンス: Link先を確認 | Davide Candoli, Ilija K. Nikolov, Lucas Z. Brito, Stephen Car, Samuele Sanna, Vesna F. Mitrovi\'c | (参考訳) 本稿では,核磁気・四極子共鳴NMR/NQRおよび電子スピン共鳴(ESR)を含む磁気共鳴実験における観測可能性のシミュレーションのためのオープンソースソフトウェアについて述べる。
ここで導入されたパッケージは、標準NMR分光観測器のシミュレーションと、複雑なパルス列、すなわち量子ゲートの相互作用する単一スピン系の時間進化を可能にする。
このソフトウェアの主な目的は、多くの必要なnmrベースの創発的量子秩序プローブの開発を促進することである。
このソフトウェアはNMR/NQR実験における核スピンダイナミクスの量子力学的記述に基づいており、利用可能な理論および実験結果で広くテストされている。
さらに、ソフトウェアの構造は、汎用スピンシステムの数値シミュレーションに必要な全てのライブラリを含むため、基礎実験をより洗練されたものに容易に一般化することができる。
プログラムを大規模なユーザベースに容易にアクセスできるようにするため,ユーザフレンドリなグラフィカルインターフェース,jupyterノートブック,詳細なドキュメントを開発した。
最後に,強い相関関係を持つ材料における創発的相の効率的な検証のために,qisに触発された新しいnmrパラダイムの可能性を示すコードの実行例をいくつか紹介する。 We present an open-source software for the simulation of observables in magnetic resonance experiments, including nuclear magnetic/quadrupole resonance NMR/NQR and electron spin resonance (ESR), developed to assist experimental research in the design of new strategies for the investigation of fundamental quantum properties of materials, as inspired by magnetic resonance protocols that emerged in the context of quantum information science (QIS). The package introduced here enables the simulation of both standard NMR spectroscopic observables and the time-evolution of an interacting single-spin system subject to complex pulse sequences, i.e. quantum gates. The main purpose of this software is to facilitate in the development of much needed novel NMR-based probes of emergent quantum orders, which can be elusive to standard experimental probes. The software is based on a quantum mechanical description of nuclear spin dynamics in NMR/NQR experiments and has been widely tested on available theoretical and experimental results. Moreover, the structure of the software allows for basic experiments to easily be generalized to more sophisticated ones, as it includes all the libraries required for the numerical simulation of generic spin systems. In order to make the program easily accessible to a large user base, we developed a user-friendly graphical interface, Jupyter notebooks, and fully-detailed documentation. Lastly, we portray several examples of the execution of the code that illustrate the potential of a novel NMR paradigm, inspired by QIS, for efficient investigation of emergent phases in strongly correlated materials. | 翻訳日:2023-03-17 05:14:58 公開日:2022-09-20 |
# エネルギー外挿による量子最適化におけるアルゴリズム誤差の緩和 Mitigating algorithmic errors in quantum optimization through energy extrapolation ( http://arxiv.org/abs/2109.08132v5 ) ライセンス: Link先を確認 | Chenfeng Cao, Yunlong Yu, Zipeng Wu, Nic Shannon, Bei Zeng, Robert Joynt | (参考訳) 量子最適化アルゴリズムは、短期量子デバイス上でターゲットハミルトンの基底状態を見つけるための有望な経路を提供する。
さもなければデコヒーレンスが計算を劣化させるため、進化時間と回路の深さを可能な限り制限する必要がある。
そして、これを行う場合でも、基底状態エネルギーの推定には無視できない誤りが必ず存在する。
本稿では,量子アニーリング(qa),変分量子固有解法(vqe),量子虚数時間発展法(qite)の3つの最適化アルゴリズムを用いて得られた推定値を大幅に改善した,この誤りを緩和するためのスケーラブルな外挿法を提案する。
このアプローチは、アニール時間から無限遠への外挿、あるいは見積もりの0への分散に基づいている。
この手法はノイズに対して合理的に堅牢であり、少数体の相互作用のみを含むハミルトニアンにとって、計算オーバーヘッドは定数係数による測定数の増加である。
解析的導出は、QAにおける時間の関数としてのエネルギーの推定の2次収束と、3つのアルゴリズムの全ての分散の関数としての見積もりの線形収束に与えられる。
我々は,IBM量子コンピュータ上での数値シミュレーションと実験により,これらの手法の有効性を検証した。
この研究は、古典的な後処理を通じて短期量子コンピューティングを強化する、有望な新しい方法を提案する。 Quantum optimization algorithms offer a promising route to finding the ground states of target Hamiltonians on near-term quantum devices. None the less, it remains necessary to limit the evolution time and circuit depth as much as possible, since otherwise decoherence will degrade the computation. And even where this is done, there always exists a non-negligible error in estimates of the ground state energy. Here we present a scalable extrapolation approach to mitigating this error, which significantly improves estimates obtained using three of the most popular optimization algorithms: quantum annealing (QA), the variational quantum eigensolver (VQE), and quantum imaginary time evolution (QITE), at fixed evolution time or circuit depth. The approach is based on extrapolating the annealing time to infinity, or the variance of estimates to zero. The method is reasonably robust against noise, and for Hamiltonians which only involve few-body interactions, the additional computational overhead is an increase in the number of measurements by a constant factor. Analytic derivations are provided for the quadratic convergence of estimates of energy as a function of time in QA, and the linear convergence of estimates as a function of variance in all three algorithms. We have verified the validity of these approaches through both numerical simulation and experiments on an IBM quantum computer. This work suggests a promising new way to enhance near-term quantum computing through classical post-processing. | 翻訳日:2023-03-14 21:01:09 公開日:2022-09-20 |
# イジング鎖の準定常状態における量子相転移の検出 Detecting quantum phase transitions in the quasi-stationary regime of Ising chains ( http://arxiv.org/abs/2110.02995v2 ) ライセンス: Link先を確認 | Ceren B. Da\u{g}, Philipp Uhrich, Yidan Wang, Ian P. McCulloch, Jad C. Halimeh | (参考訳) 近年,磁化過程における普遍的臨界温熱時制の出現による動的臨界性の検出に,単サイト観測が有用であることが示されている(arxiv:2105.05986]。
ここでは、積分可能かつ非可積分な逆場イジング鎖(TFIC)における量子相転移のプローブとしての単一サイト可観測体のポテンシャルについて検討する。
バルクプローブ部位に出現する準定常時相レジームに対するゼロモードの必要性を解析的に証明し、このレジームが動的順序プロファイルにおける非解析的振る舞いをいかに生み出すかを示す。
我々の$t$-DMRG計算は、有限サイズおよび有限時間スケーリング解析の両方を用いて、準可積分TFICのクエンチ平均場理論の結果を検証する。
有限サイズ解析と有限時間解析の両方が、強非可積分かつ局所連結なTFICに対する動的臨界点を示唆している。
最後に, パワーロー相互作用tficにおける準定常レジームの存在を実証し, 代数的光円錐を持つ長距離イジング普遍性クラスtficの局所動的順序プロファイルを抽出する。 Recently, single-site observables have been shown to be useful for the detection of dynamical criticality due to an emergence of a universal critically-prethermal temporal regime in the magnetization [arXiv:2105.05986]. Here, we explore the potential of single-site observables as probes of quantum phase transitions in integrable and nonintegrable transverse-field Ising chains (TFIC). We analytically prove the requirement of zero modes for a quasi-stationary temporal regime to emerge at a bulk probe site, and show how this regime gives rise to a non-analytic behavior in the dynamical order profiles. Our $t$-DMRG calculations verify the results of the quench mean-field theory for near-integrable TFIC both with finite-size and finite-time scaling analyses. We find that both finite-size and finite-time analyses suggest a dynamical critical point for a strongly nonintegrable and locally connected TFIC. We finally demonstrate the presence of a quasi-stationary regime in the power-law interacting TFIC, and extract local dynamical order profiles for TFIC in the long-range Ising universality class with algebraic light cones. | 翻訳日:2023-03-12 07:50:10 公開日:2022-09-20 |
# ゲージ理論とボゾン系の確率的高精度シミュレーション Provably accurate simulation of gauge theories and bosonic systems ( http://arxiv.org/abs/2110.06942v2 ) ライセンス: Link先を確認 | Yu Tong, Victor V. Albert, Jarrod R. McClean, John Preskill, Yuan Su | (参考訳) ボソニックモードやゲージ場を含む量子多体系は無限次元の局所ヒルベルト空間を持ち、古典的あるいは量子的コンピュータ上でリアルタイムダイナミクスのシミュレーションを行うために切断する必要がある。
トラクション誤差を解析するために,格子におけるモードの占有数や格子リンクでの電場などの局所量子数の成長率を境界とする手法を開発した。
我々のアプローチは、スピンやフェルミオンと相互作用するボソンの様々なモデルや、アーベルゲージ理論と非アーベルゲージ理論にも適用される。
これらのモデルにおける状態が各局所量子数に上限$\Lambda$を課すことで妨げられ、初期状態が局所量子数が少ない場合、最大$\epsilon$の誤差は、エネルギー保存に基づく以前の境界よりも指数関数的な改善である$$\Lambda$を多元対数スケールする$\Lambda$を選択することで達成できることを示す。
Hubbard-Holsteinモデルの場合、精度が$\epsilon$となる$\Lambda$のバウンダリを数値計算し、様々なパラメーターレシエーションで大幅に改善された推定値を得る。
また、時間進化の正確さを証明可能な保証でハミルトンを破る基準を確立する。
この結果に基づいて、格子ゲージ理論とボソニックモードを持つモデルの動的シミュレーションのための量子アルゴリズムを定式化し、ゲートの複雑性は前者の時空体積にほぼ線形に依存し、後者の場合では時間にほぼ2次に依存する。
この2次スケーリングを時間とともに改善できないボソンを含むシステムが存在することを示す下界を確立した。
時間進化におけるトラニケート誤差に我々の結果を適用することで、スペクトル的に孤立したエネルギー固有状態が、$\Lambda=\textrm{polylog}(\epsilon^{-1})$で局所量子数をトラニケートすることで、精度$\epsilon$で近似できることも証明できる。 Quantum many-body systems involving bosonic modes or gauge fields have infinite-dimensional local Hilbert spaces which must be truncated to perform simulations of real-time dynamics on classical or quantum computers. To analyze the truncation error, we develop methods for bounding the rate of growth of local quantum numbers such as the occupation number of a mode at a lattice site, or the electric field at a lattice link. Our approach applies to various models of bosons interacting with spins or fermions, and also to both abelian and non-abelian gauge theories. We show that if states in these models are truncated by imposing an upper limit $\Lambda$ on each local quantum number, and if the initial state has low local quantum numbers, then an error at most $\epsilon$ can be achieved by choosing $\Lambda$ to scale polylogarithmically with $\epsilon^{-1}$, an exponential improvement over previous bounds based on energy conservation. For the Hubbard-Holstein model, we numerically compute a bound on $\Lambda$ that achieves accuracy $\epsilon$, obtaining significantly improved estimates in various parameter regimes. We also establish a criterion for truncating the Hamiltonian with a provable guarantee on the accuracy of time evolution. Building on that result, we formulate quantum algorithms for dynamical simulation of lattice gauge theories and of models with bosonic modes; the gate complexity depends almost linearly on spacetime volume in the former case, and almost quadratically on time in the latter case. We establish a lower bound showing that there are systems involving bosons for which this quadratic scaling with time cannot be improved. By applying our result on the truncation error in time evolution, we also prove that spectrally isolated energy eigenstates can be approximated with accuracy $\epsilon$ by truncating local quantum numbers at $\Lambda=\textrm{polylog}(\epsilon^{-1})$. | 翻訳日:2023-03-11 14:24:54 公開日:2022-09-20 |
# 偏光縮退空洞におけるほぼパーセル励起量子ドットによる光透過 Optical transparency induced by a largely Purcell-enhanced quantum dot in a polarization-degenerate cavity ( http://arxiv.org/abs/2111.13653v4 ) ライセンス: Link先を確認 | Harjot Singh, Demitry Farfurnik, Zhouchen Luo, Allan S. Bracker, Samuel G. Carter, and Edo Waks | (参考訳) 光活性スピン系は、高い協調性を持つフォトニックキャビティと結合し、量子ネットワークの重要な要素である強い光-物質相互作用を生成することができる。
しかし、量子情報処理のための高い協調性を得るには、自由空間、特にスピンのコヒーレント制御に必要な円偏光への光学的アクセスが乏しいフォトニック結晶空洞を用いることが多い。
ここでは、InAs/GaAs量子ドットの最大8ドルと、ほぼ縮退したガウス偏光モードで効率的な光アクセスを実現するブルジー空洞との結合を実証する。
量子ドットの自然発光寿命は、80$ ps ($\approx 15$ Purcell enhancement) と、空洞から反射される光の透明度が$\approx 80\%である。
量子ドットスピンをコヒーレントに制御しながら光子スイッチングのための誘導透過性を活用することは、量子ネットワークの確立に寄与する。 Optically-active spin systems coupled to photonic cavities with high cooperativity can generate strong light-matter interactions, a key ingredient in quantum networks. But obtaining high cooperativities for quantum information processing often involves the use of photonic crystal cavities that feature a poor optical access from the free space, especially to circularly polarized light required for the coherent control of the spin. Here, we demonstrate coupling with cooperativity as high as $8$ of an InAs/GaAs quantum dot to a fabricated bullseye cavity that provides nearly degenerate and Gaussian polarization modes for efficient optical accessing. We observe spontaneous emission lifetimes of the quantum dot as short as $80$ ps (a $\approx 15$ Purcell enhancement) and a $\approx 80\%$ transparency of light reflected from the cavity. Leveraging the induced transparency for photon switching while coherently controlling the quantum dot spin could contribute to ongoing efforts of establishing quantum networks. | 翻訳日:2023-03-06 19:32:00 公開日:2022-09-20 |
# 一般化Hong-Ou-Mandel実験における実数分解能 Realistic photon-number resolution in generalized Hong-Ou-Mandel experiment ( http://arxiv.org/abs/2112.07028v2 ) ライセンス: Link先を確認 | V. Ye. Len, M. M. Byelova, V. A. Uzunova, A. A. Semenov | (参考訳) ホン・ウー・マンデル実験からマルチモードの場合への一般化において,現実的な光検出を考える。
この実験の基本的なレイアウトは、非普遍量子計算の有望なモデルであるボーソンサンプリングに基づいている。
このような実験における光計数確率の特異性は、ボーソン粒子の識別不能性に関連する電磁界の重要な非古典的性質を示す。
実際には、これらの確率は、束ねられた光子の数を識別する現実的な検出器が不完全であるために、理論値から変化する。
実数光子数分解(pnr)検出器の場合の一般化されたhong-ou-mandel実験における光数分布の解析式を導出する。
適切な後続事象の確率は、完全PNR検出器で得られる確率に比例することを示した。
本研究は,有限デッドタイムの影響を受けるオン/オフ検出器と検出器のアレイの例を示す。 We consider realistic photodetection in a generalization of the Hong-Ou-Mandel experiment to the multimode case. The basic layout of this experiment underlies boson sampling -- a promising model of nonuniversal quantum computations. Peculiarities of photocounting probabilities in such an experiment witness important nonclassical properties of electromagnetic field related to indistinguishability of boson particles. In practice, these probabilities are changed from their theoretical values due to the imperfect ability of realistic detectors to distinguish numbers of bunched photons. We derive analytical expressions for photocounting distributions in the generalized Hong-Ou-Mandel experiment for the case of realistic photon-number resolving (PNR) detectors. It is shown that probabilities of properly postselected events are proportional to probabilities obtained for perfect PNR detectors. Our results are illustrated with examples of arrays of on/off detectors and detectors affected by a finite dead time. | 翻訳日:2023-03-04 16:13:17 公開日:2022-09-20 |
# 二次元共形場理論における一般化エンタングルメントエントロピー Generalized entanglement entropies in two-dimensional conformal field theory ( http://arxiv.org/abs/2112.09000v3 ) ライセンス: Link先を確認 | Sara Murciano, Pasquale Calabrese and Robert M. Konik | (参考訳) 一般化された r\'enyi エントロピーを ${\rm tr}_b (|\psi_i\rangle\langle \psi_j|)$ (|\psi_i\rangle$ は二次元共形場理論(cft)の固有状態である。
これらの対象が CFT の固有状態の標準 R'enyi エントロピーに還元されるとき、|\Psi_i\rangle=|\Psi_j\rangle$ となる。
経路積分形式をエクスプロットすると、第二の一般化 R'enyi エントロピーが四点相関子に等しいことを示す。
次に、場のモード展開により、すべての固有状態に対して2番目の一般化された R'enyi エントロピーを計算する効率的な戦略を開発することができる自由ボゾン理論に焦点をあてる。
副産物として、このアプローチは標準 r\'enyi の新たな結果とボソニック cft の任意の下降状態を含む相対エントロピーをもたらす。 We introduce and study generalized R\'enyi entropies defined through the traces of products of ${\rm Tr}_B (|\Psi_i\rangle\langle \Psi_j|)$ where $|\Psi_i\rangle$ are eigenstates of a two-dimensional conformal field theory (CFT). When $|\Psi_i\rangle=|\Psi_j\rangle$ these objects reduce to the standard R\'enyi entropies of the eigenstates of the CFT. Exploiting the path integral formalism, we show that the second generalized R\'enyi entropies are equivalent to four-point correlators. We then focus on a free bosonic theory for which the mode expansion of the fields allows us to develop an efficient strategy to compute the second generalized R\'enyi entropy for all eigenstates. As a byproduct, our approach also leads to new results for the standard R\'enyi and relative entropies involving arbitrary descendent states of the bosonic CFT. | 翻訳日:2023-03-04 09:31:06 公開日:2022-09-20 |
# 低磁場フェシュバッハ共鳴を用いた全光学的$^{39}$Kボース・アインシュタイン凝縮の高速生成 Rapid generation of all-optical $^{39}$K Bose-Einstein condensates using a low-field Feshbach resonance ( http://arxiv.org/abs/2201.04544v3 ) ライセンス: Link先を確認 | Alexander Herbst, Henning Albers, Knut Stolzenberg, Sebastian Bode and Dennis Schlippert | (参考訳) ウルトラコールドカリウムは、低磁場磁気フェシュバッハ共鳴による原子内相互作用の制御を可能にするため、量子技術応用と基礎研究の興味深い候補である。
しかしながら、ボース・アインシュタイン凝縮体の高流動源の実現は、磁場を自由パラメータとして使用するために光トラップが必要であるため、依然として困難である。
a_0$, 300\, a_0$, a_0$, a_0$ の範囲で散乱長を調整することにより, 蒸発速度と最終原子数とのトレードオフを示し, 蒸発速度を約5ドルに短縮する。
この目的のために、我々は5,8\times10^4$の原子を8,50$msの蒸発時間内に、それぞれ15,8\,a_0$の3.9$ s以内に232\,a_0$,1.6\times10^5$の完全な凝縮アンサンブルを作成できる。
我々は,散乱長に関してフラックスと原子数スケーリングを分析し,現在の限界を特定し,設定の最適性能をシミュレートする数値モデルを構築した。
本研究は,慣性センシングのための超低温カリウムの高流動源への道筋について述べる。 Ultracold potassium is an interesting candidate for quantum technology applications and fundamental research as it allows controlling intra-atomic interactions via low-field magnetic Feshbach resonances. However, the realization of high-flux sources of Bose-Einstein condensates remains challenging due to the necessity of optical trapping to use magnetic fields as free parameter. We investigate the production of all-optical $^{39}$K Bose-Einstein condensates with different scattering lengths using a Feshbach resonance near $33$ G. By tuning the scattering length in a range between $75\, a_0$ and $300\, a_0$ we demonstrate a trade off between evaporation speed and final atom number and decrease our evaporation time by a factor of $5$ while approximately doubling the evaporation flux. To this end, we are able to produce fully condensed ensembles with $5.8\times10^4$ atoms within $850$ ms evaporation time at a scattering length of $232\, a_0$ and $1.6\times10^5$ atoms within $3.9$ s at $158\, a_0$, respectively. We deploy a numerical model to analyse the flux and atom number scaling with respect to scattering length, identify current limitations and simulate the optimal performance of our setup. Based on our findings we describe routes towards high-flux sources of ultra-cold potassium for inertial sensing. | 翻訳日:2023-03-01 08:49:31 公開日:2022-09-20 |
# スリット中における物質波の散乱に関する研究 A Study on the Scattering of Matter Waves through Slits ( http://arxiv.org/abs/2201.12521v2 ) ライセンス: Link先を確認 | Hardeep Singh and A. Bhagwat | (参考訳) スリットを通る物質波の散乱はファインマンパス積分形式を用いて検討されている。
我々は、スリット近傍の挙動を分析するために、ゼロに近い確率密度を明示的にプロットする。
そうすると興味深いパターンが現れ、特に二重スリットの場合のブレイドのような構造は、スリットの数を増やすにつれて複雑さが増大する。
さらに,超幾何関数として波動関数を明示的に表現して解析した縞状構造に対して,ゼロに近い確率点の分布が変化する遷移領域の存在を示す。
これらのパターンは、確率密度ゼロの領域に対する連続性方程式とその影響を考慮しながら解析される。
その結果, 物質波の波長よりも小さく, 大きさを制御できる領域に準トラップが存在することがわかった。 Scattering of matter waves through slits has been explored using the Feynman Path Integral formalism. We explicitly plot the near-zero probability densities to analyse the behaviour near the slit. Upon doing so, intriguing patterns emerge, most notably the braid-like structure in the case of double slits, whose complexity increases as one increases the number of slits. Furthermore, the plot shows the existence of a transition region, where the distribution of near-zero probability points changes from the braided to the fringe-like structure, which has been analysed by explicitly expressing the wavefunction as a hypergeometric function. These patterns are analysed while considering the continuity equation and its consequences for the regions with zero probability density. As a result, we find quasi-traps in the region whose size can be controlled and made much smaller than the wavelength of matter waves. | 翻訳日:2023-02-27 09:05:56 公開日:2022-09-20 |
# ランダム回路における絡み込み複素性の遷移 Transitions in Entanglement Complexity in Random Circuits ( http://arxiv.org/abs/2202.02648v4 ) ライセンス: Link先を確認 | Sarah True, Alioscia Hamma | (参考訳) 絡み合いは量子力学の定義的特徴である。
バイパルタイトの絡み合いはフォン・ノイマンエントロピーによって特徴づけられる。
絡み合いは単に数によって記述されるだけでなく、複雑さのレベルによっても特徴付けられる。
絡み合いの複雑さは、量子カオスの発生、絡み合いスペクトル統計の普遍分布、絡み合いアルゴリズムの硬さ、未知のランダム回路の量子機械学習、および普遍的時間絡み合いゆらぎの根源にある。
本稿では,単純な絡み合いのパターンから普遍的で複雑なパターンへのクロスオーバーが,ランダムなクリフォード回路を$T$ゲートでドーピングすることでどのように駆動できるかを数値的に示す。
この研究は、量子複雑性と複雑な絡み合いは、絡み合いと非安定化資源(マジックとも呼ばれる)の結合に起因することを示している。 Entanglement is the defining characteristic of quantum mechanics. Bipartite entanglement is characterized by the von Neumann entropy. Entanglement is not just described by a number, however; it is also characterized by its level of complexity. The complexity of entanglement is at the root of the onset of quantum chaos, universal distribution of entanglement spectrum statistics, hardness of a disentangling algorithm and of the quantum machine learning of an unknown random circuit, and universal temporal entanglement fluctuations. In this paper, we numerically show how a crossover from a simple pattern of entanglement to a universal, complex pattern can be driven by doping a random Clifford circuit with $T$ gates. This work shows that quantum complexity and complex entanglement stem from the conjunction of entanglement and non-stabilizer resources, also known as magic. | 翻訳日:2023-02-26 18:57:21 公開日:2022-09-20 |
# 等価トランスポーターネットワーク Equivariant Transporter Network ( http://arxiv.org/abs/2202.09400v5 ) ライセンス: Link先を確認 | Haojie Huang, Dian Wang, Robin Walters, Robert Platt | (参考訳) Transporter Netは、ごく少数の専門家によるデモから優れた操作ポリシーを学ぶことができる、最近提案されたフレームワークである。
トランスポーターネットがこれほどサンプル効率が高い理由は、モデルがピックモジュールに回転同分散を組み込んでおり、モデルが学習されたピック知識を、異なる向きのオブジェクトに即座に一般化するからである。
本稿では,ピック方向と位置方向の両方に同値なトランスポーターネットの新バージョンを提案する。
その結果,従来のように選択知識を一般化することに加えて,配置知識を異なる位置指向に即時に一般化する。
最終的に、我々の新しいモデルはよりサンプリング効率が高く、ベースライントランスポーターネットモデルよりも優れた選択と成功率を達成する。 Transporter Net is a recently proposed framework for pick and place that is able to learn good manipulation policies from a very few expert demonstrations. A key reason why Transporter Net is so sample efficient is that the model incorporates rotational equivariance into the pick module, i.e. the model immediately generalizes learned pick knowledge to objects presented in different orientations. This paper proposes a novel version of Transporter Net that is equivariant to both pick and place orientation. As a result, our model immediately generalizes place knowledge to different place orientations in addition to generalizing pick knowledge as before. Ultimately, our new model is more sample efficient and achieves better pick and place success rates than the baseline Transporter Net model. | 翻訳日:2023-02-24 17:25:03 公開日:2022-09-20 |
# XP安定化形式主義--任意相を持つパウリ安定化形式主義の一般化 The XP Stabiliser Formalism: a Generalisation of the Pauli Stabiliser Formalism with Arbitrary Phases ( http://arxiv.org/abs/2203.00103v3 ) ライセンス: Link先を確認 | Mark A. Webster, Benjamin J. Brown, Stephen D. Bartlett | (参考訳) 我々は、ある整数 n$ に対して、z$ 軸の周りで 2\pi/n$ 個の回転を含むpauli stabiliser 形式の拡張を提案する。
XP安定化器形式主義(XP安定化器形式主義)は、より広い範囲の状態と符号空間を表現できる。
形式主義で生じる状態について記述し、XP安定化状態と「重み付きハイパーグラフ状態」の同値性(ハイパーグラフと重み付きグラフの両状態の一般化)を示す。
任意のxp演算子セットが与えられると、xpコードのコード空間と論理演算子を決定するアルゴリズムを提供する。
最後に,xp符号におけるxp演算子の測定を古典的にシミュレートできるかどうかを検討する。 We propose an extension to the Pauli stabiliser formalism that includes fractional $2\pi/N$ rotations around the $Z$ axis for some integer $N$. The resulting generalised stabiliser formalism - denoted the XP stabiliser formalism - allows for a wider range of states and codespaces to be represented. We describe the states which arise in the formalism, and demonstrate an equivalence between XP stabiliser states and 'weighted hypergraph states' - a generalisation of both hypergraph and weighted graph states. Given an arbitrary set of XP operators, we present algorithms for determining the codespace and logical operators for an XP code. Finally, we consider whether measurements of XP operators on XP codes can be classically simulated. | 翻訳日:2023-02-23 17:30:10 公開日:2022-09-20 |
# QCDにおけるトップクォークを用いた量子情報 Quantum information with top quarks in QCD ( http://arxiv.org/abs/2203.05582v2 ) ライセンス: Link先を確認 | Yoav Afik and Juan Ram\'on Mu\~noz de Nova | (参考訳) トップクォークはスピン相関を測定できるため、高エネルギー衝突器で量子力学の基本的な側面を研究することができるため、ユニークな高エネルギー系を表す。
ここでは、高エネルギーコライダーにおける量子色力学(QCD)によって生成されるトップアンチトップ(t\bar{t}$)クォーク対の量子状態の一般的な枠組みを示す。
一般に、衝突型加速器で観測できる全量子状態は、生成スピン密度行列によって与えられるが、これは必ずしも混合状態をもたらす。
我々は、最も基本的なQCDプロセスから生成される$t\bar{t}$ペアの量子状態を計算し、位相空間の異なる領域における絡み合いとCHSH違反の存在を発見する。
t\bar{t}$ 対の現実的なハドロン生成は、これらの基本的な qcd 過程の統計的混合である。
我々は、lhcとテバトロンで実施した陽子-陽子-反陽子衝突と陽子-反陽子衝突の実験的関連事例に注目し、衝突のエネルギーと量子状態の依存性を分析した。
エンタングルメントおよびCHSH違反シグネチャを実験的に観察する。
lhcでは、これらのシグネチャは単一のオブザーバブルの測定によって与えられるが、エンタングルメントの場合はコーシー=シュワルツの不等式に違反する。
我々は、文献で提案された$t\bar{t}$ペアの量子トモグラフィープロトコルの有効性を、より一般的な量子状態、および任意の生産機構に拡張する。
最後に、衝突器で測定されたchsh違反はベルの定理を破る弱い形式であり、必然的に多くの抜け穴を含んでいると論じる。 Top quarks represent unique high-energy systems since their spin correlations can be measured, thus allowing to study fundamental aspects of quantum mechanics with qubits at high-energy colliders. We present here the general framework of the quantum state of a top-antitop ($t\bar{t}$) quark pair produced through quantum chromodynamics (QCD) in a high-energy collider. We argue that, in general, the total quantum state that can be probed in a collider is given in terms of the production spin density matrix, which necessarily gives rise to a mixed state. We compute the quantum state of a $t\bar{t}$ pair produced from the most elementary QCD processes, finding the presence of entanglement and CHSH violation in different regions of phase space. We show that any realistic hadronic production of a $t\bar{t}$ pair is a statistical mixture of these elementary QCD processes. We focus on the experimentally relevant cases of proton-proton and proton-antiproton collisions, performed at the LHC and the Tevatron, analyzing the dependence of the quantum state with the energy of the collisions. We provide experimental observables for entanglement and CHSH-violation signatures. At the LHC, these signatures are given by the measurement of a single observable, which in the case of entanglement represents the violation of a Cauchy-Schwarz inequality. We extend the validity of the quantum tomography protocol for the $t\bar{t}$ pair proposed in the literature to more general quantum states, and for any production mechanism. Finally, we argue that a CHSH violation measured in a collider is only a weak form of violation of Bell's theorem, necessarily containing a number of loopholes. | 翻訳日:2023-02-22 11:50:22 公開日:2022-09-20 |
# AI研究のためのX-Risk解析 X-Risk Analysis for AI Research ( http://arxiv.org/abs/2206.05862v7 ) ライセンス: Link先を確認 | Dan Hendrycks, Mantas Mazeika | (参考訳) 人工知能(AI)は、社会を大幅に改善する可能性があるが、強力なテクノロジーと同様に、リスクと責任が高められる。
現在のAI研究は、投機的長期リスクを含むAIシステムから長期リスクを管理する方法に関する体系的な議論を欠いている。
AIの潜在的なメリットを念頭に置いておくと、よりインテリジェントで強力なAIシステムを構築することで、最終的には私たちよりも強力なシステムが生まれるのではないかという懸念がある。
まず、ハザード分析や、より安全な方向に大きなプロセスを操るように設計されたシステム安全性といった、時間テストされた概念を描きながら、今日のシステムがどのように安全なものにできるかをレビューします。
次に,今後のシステムの安全性に長期的影響を与える戦略について議論する。
最後に、安全性と一般能力のバランスを改善することで、aiシステムを安全にするための重要な概念について論じる。
この文書と提示された概念とツールは、AI x-リスクの分析方法を理解するための有用なガイドになることを期待しています。 Artificial intelligence (AI) has the potential to greatly improve society, but as with any powerful technology, it comes with heightened risks and responsibilities. Current AI research lacks a systematic discussion of how to manage long-tail risks from AI systems, including speculative long-term risks. Keeping in mind the potential benefits of AI, there is some concern that building ever more intelligent and powerful AI systems could eventually result in systems that are more powerful than us; some say this is like playing with fire and speculate that this could create existential risks (x-risks). To add precision and ground these discussions, we provide a guide for how to analyze AI x-risk, which consists of three parts: First, we review how systems can be made safer today, drawing on time-tested concepts from hazard analysis and systems safety that have been designed to steer large processes in safer directions. Next, we discuss strategies for having long-term impacts on the safety of future systems. Finally, we discuss a crucial concept in making AI systems safer by improving the balance between safety and general capabilities. We hope this document and the presented concepts and tools serve as a useful guide for understanding how to analyze AI x-risk. | 翻訳日:2023-02-19 17:43:14 公開日:2022-09-20 |
# 接続レコメンダシステムにおけるフェアネス干渉の長期ダイナミクス Long-term Dynamics of Fairness Intervention in Connection Recommender Systems ( http://arxiv.org/abs/2203.16432v4 ) ライセンス: Link先を確認 | Nil-Jana Akpinar, Cyrus DiCiccio, Preetam Nandy, Kinjal Basu | (参考訳) レコメンダシステムフェアネスは、コンテンツ制作者、コンテンツそのもの、レコメンデーションの受取人を含む様々な利害関係者の視点から研究されてきた。
どの種類の利害関係者が考慮されるかに関わらず、この領域のほとんどの作品は、ワンショットの静的設定のレンズを通して単一の固定公正基準を評価することにより、公正な介入の有効性を評価する。
しかし、レコメンダシステムは、レコメンデーションから基礎となる人口分布へのフィードバックループを持つ動的システムを構成する。
本稿では,Webスケールのソーシャルネットワークが採用するシステムに倣ってパターン化されたコネクションレコメンデーションシステムについて検討し,このリコメンデーションにおける介入の長期的影響について分析する。
全体としては公平であるように思えるが、一般的な露出とユーティリティパリティの介入は長期的にバイアスの増幅を緩和しない。
我々は、ある公正な介入が、形式化されたP\'{o}lya urnモデルにおけるバイアス増幅力学に与える影響を理論的に特徴づける。 Recommender system fairness has been studied from the perspectives of a variety of stakeholders including content producers, the content itself and recipients of recommendations. Regardless of which type of stakeholders are considered, most works in this area assess the efficacy of fairness intervention by evaluating a single fixed fairness criterion through the lens of a one-shot, static setting. Yet recommender systems constitute dynamical systems with feedback loops from the recommendations to the underlying population distributions which could lead to unforeseen and adverse consequences if not taken into account. In this paper, we study a connection recommender system patterned after the systems employed by web-scale social networks and analyze the long-term effects of intervening on fairness in the recommendations. We find that, although seemingly fair in aggregate, common exposure and utility parity interventions fail to mitigate amplification of biases in the long term. We theoretically characterize how certain fairness interventions impact the bias amplification dynamics in a stylized P\'{o}lya urn model. | 翻訳日:2023-02-19 15:53:11 公開日:2022-09-20 |
# 基本的サプライズイベントに対するレジリエンス研究モデル活用の枠組み--大学における新型コロナウイルス対策の観察から A Framework for Operations Research Model Use in Resilience to Fundamental Surprise Events: Observations from University Operations during COVID-19 ( http://arxiv.org/abs/2210.08963v1 ) ライセンス: Link先を確認 | Thomas C. Sharkey, Steven Foster, Sudeep Hegde, Mary E. Kurz, and Emily L. Tucker | (参考訳) 運用研究(または)のアプローチは、システムのレジリエンスをモデル化してイベントを驚かせるためにますます使われています。
驚きのイベントをモデル化するには、その特性を理解し、結果のモデルにおけるパラメータ、決定、および/または制約となる必要がある。
これは、これらのモデルが(直接的に)基本的なサプライズイベントを処理できないことを意味する。
しかし、新型コロナウイルス(covid-19)のパンデミックのような根本的なサプライズイベント中に、それに対応するために適応、即興、あるいは作成される場合もある。
大学がパンデミックに対応するためにどのようにモデルを適用するかという枠組みを提供し、基本的なサプライズイベントにおけるモデルの役割を理解するのに役立ちます。
私たちのフレームワークには、データ適応、制約の追加、モデルスイッチング、モデリングツールキットからのプル、新しいモデルの作成などが含まれています。
それぞれの適応は正式に発表され、パンデミックに対する大学の反応に関わるモデルやユーザーとのインタビューを通じて裏付けられた。
このフレームワークがORとレジリエンスの両方に与える影響について論じる。 Operations research (OR) approaches have been increasingly applied to model the resilience of a system to surprise events. In order to model a surprise event, one must have an understanding of its characteristics, which then become parameters, decisions, and/or constraints in the resulting model. This means that these models cannot (directly) handle fundamental surprise events, which are events that could not be defined before they happen. However, OR models may be adapted, improvised, or created during a fundamental surprise event, such as the COVID-19 pandemic, to help respond to it. We provide a framework for how OR models were applied by a university in response to the pandemic, thus helping to understand the role of OR models during fundamental surprise events. Our framework includes the following adaptations: adapting data, adding constraints, model switching, pulling from the modeling toolkit, and creating a new model. Each of these adaptations is formally presented, with supporting evidence gathered through interviews with modelers and users involved in the university response to the pandemic. We discuss the implications of this framework for both OR and resilience. | 翻訳日:2023-02-19 11:45:17 公開日:2022-09-20 |
# ソーシャルメディアの致命的な現実--新型コロナウイルスの犠牲者が共有する誤情報の実態調査 The Morbid Realities of Social Media: An Investigation into the Misinformation Shared by the Deceased Victims of COVID-19 ( http://arxiv.org/abs/2209.09964v1 ) ライセンス: Link先を確認 | Hussam Habib and Rishab Nithyanand | (参考訳) ソーシャルメディアプラットフォームは、特に新型コロナウイルス(covid-19)パンデミックの間、現実世界に大きな影響を与えてきた。
コビッドウイルスに関する誤報は、抗ワクチンやコビッドの否定といった危険な信念と関係しているため、特に人口に大きな影響を及ぼした可能性がある。
本研究では、Covid-19に感染する前に、Covid-19の誤情報を共有し、信じていたユーザーによるFacebook投稿のユニークなデータセットを調査した。
我々は、被害者の投稿に存在する主要なテーマとソースを特徴付け、致命的な物語を扱うプラットフォームの役割を特定することを目的としている。
我々の分析は、右翼政治とメディアのエコシステムによって広められた反政府的テーマの流行を通じて、Covid-19の圧倒的な政治化を明らかにします。
さらに、誤情報をユーザーに警告することを目的とした、Facebookの実装失敗とソフトモデレーションアクションの完全性を強調した。
本研究の成果は、世論の形成における政治エリートの役割と、有害な誤報の広がりを抑える上でのプラットフォームの役割について考察する。 Social media platforms have had considerable impact on the real world especially during the Covid-19 pandemic. Misinformation related to Covid-19 might have caused significant impact on the population specifically due to its association with dangerous beliefs such as anti-vaccination and Covid denial. In this work, we study a unique dataset of Facebook posts by users who shared and believed in Covid-19 misinformation before succumbing to Covid-19 often resulting in death. We aim to characterize the dominant themes and sources present in the victim's posts along with identifying the role of the platform in handling deadly narratives. Our analysis reveals the overwhelming politicization of Covid-19 through the prevalence of anti-government themes propagated by right-wing political and media ecosystem. Furthermore, we highlight the failures of Facebook's implementation and completeness of soft moderation actions intended to warn users of misinformation. Results from this study bring insights into the responsibility of political elites in shaping public discourse and the platform's role in dampening the reach of harmful misinformation. | 翻訳日:2023-02-19 11:17:16 公開日:2022-09-20 |
# 合成人口の生成 Generating Synthetic Population ( http://arxiv.org/abs/2209.09961v1 ) ライセンス: Link先を確認 | Bhavesh Neekhra, Kshitij Kapoor, Debayan Gupta | (参考訳) 本論文では,インドなどの国において,様々な行政レベルで合成人口を生成する方法を提案する。
この人工個体群は、インド国勢調査2011, IHDS-II, NSS-68th Round, GPWなどの調査データに適用された機械学習および統計手法を用いて作成される。
合成人口は、年齢、性別、身長、体重、家や職場の場所、家庭構造、既往の健康状態、社会経済的地位、雇用といった特徴を持つ集団の個人を定義している。
提案手法を用いてインド各地の合成個体数を推定した。
また,この合成個体群を各種指標を用いてソースデータと比較した。
実験の結果,インド各地域の人口をリアルにシミュレートできることがわかった。 In this paper, we provide a method to generate synthetic population at various administrative levels for a country like India. This synthetic population is created using machine learning and statistical methods applied to survey data such as Census of India 2011, IHDS-II, NSS-68th round, GPW etc. The synthetic population defines individuals in the population with characteristics such as age, gender, height, weight, home and work location, household structure, preexisting health conditions, socio-economical status, and employment. We used the proposed method to generate the synthetic population for various districts of India. We also compare this synthetic population with source data using various metrics. The experiment results show that the synthetic data can realistically simulate the population for various districts of India. | 翻訳日:2023-02-19 11:17:00 公開日:2022-09-20 |
# 高度データ保護制御(ADPC):学際的概要 Advanced Data Protection Control (ADPC): An Interdisciplinary Overview ( http://arxiv.org/abs/2209.09724v1 ) ライセンス: Link先を確認 | Soheil Human | (参考訳) adpc(advanced data protection control)は、プライバシーと同意データ、メタデータ、情報、要求、選好、決定に関する新しい標準化された手段を提供することによって、インターネットベースの個人データ保護と同意に関する現在の実践を変えることができる技術仕様とそれを取り巻く社会技術的メカニズムのセットである。
ADPCは、個人のデータと同意の処理に対して、より人間中心のコントロールを提供することで、プライバシとエージェンシーの権利の実践を支援する。
データコントローラは、ユーザエクスペリエンスの向上を支援し、関連する法的および倫理的要件と期待に応える、採用の容易な手段を提供します。 The Advanced Data Protection Control (ADPC) is a technical specification - and a set of sociotechnical mechanisms surrounding it - that can change the current practice of Internet-based personal data protection and consenting by providing novel and standardized means for the communication of privacy and consenting data, meta-data, information, requests, preferences, and decisions. The ADPC supports humans in practicing their rights to privacy and agency by giving them more human-centric control over the processing of their personal data and consent. It helps the data controllers to improve their users' experiences and provides them with easy-to-adopt means to comply with the relevant legal and ethical requirements and expectations. | 翻訳日:2023-02-19 11:16:14 公開日:2022-09-20 |
# イオン結晶の蛍光熱量測定 Fluorescence calorimetry of an ion crystal ( http://arxiv.org/abs/2204.06513v4 ) ライセンス: Link先を確認 | Marvin Gajewski, Wenbing Li, Sebastian Wolf, Walter Hahn, Christoph E. D\"ullmann, Dmitry Budker, Giovanna Morigi, Ferdinand Schmidt-Kaler | (参考訳) コールドイオン結晶中の侵入イオンを同定することの課題により,発光した蛍光光の温度測定を行った。
連続ドップラー冷却では、イオン結晶は一定レベルの蛍光強度で温度平衡に達し、結晶の運動エネルギーの変化は、この強度を変化させる。
イオン結晶の蛍光速度を温度の関数として理論的に決定し、レーザー光が2レベルの電子遷移に沿って散乱していると仮定し、光の力学的効果によって結晶の振動と結合する。
入射侵入機イオンの衝突により放散した熱が散乱率をどう変えるかを分析する。
我々は、入射する$^{229}$Th$^{10+}$イオンによるエネルギー変化は、10$^{3}$イオン結晶の分画を照らすことによって、100$\mu$s内で曖昧に検出できると主張している。
この方法では、トリウム同位体の荷電状態の捕捉と分光、高荷電イオンの調査を含む応用が可能である。 Motivated by the challenge of identifying intruder ions in a cold ion crystal, we investigate calorimetry from emitted fluorescence light. Under continuous Doppler cooling, the ion crystal reaches a temperature equilibrium with a fixed level of fluorescence intensity and any change in the motional energy of the crystal results in a modification of this intensity. We theoretically determine the fluorescence rate of an ion crystal as a function of the temperature, assuming that laser light is scattered along a two-level electronic transition, which couples to the crystal's vibrations via the mechanical effects of light. We analyze how the heat dissipated by collisions of an incoming intruder ion alters the scattering rate. We argue that an energy change by an incoming $^{229}$Th$^{10+}$ ion can be unambiguously detected within 100 $\mu$s via illuminating a fraction of a 10$^{3}$ ion crystal. This method enables applications including capture and spectroscopy of charged states of thorium isotopes and investigation of highly charged ions. | 翻訳日:2023-02-17 02:45:59 公開日:2022-09-20 |
# 暗カウント補正による絡み合い定量化 Entanglement quantification enhanced by dark count correction ( http://arxiv.org/abs/2205.01074v2 ) ライセンス: Link先を確認 | Artur Czerwinski | (参考訳) 本稿では、絡み合った光子対の量子状態トモグラフィにおける暗数補正法を提案する。
このフレームワークは、測定形式に課されるダークカウントの線形モデルに基づいている。
偏光エンタングル光子実験から得られた実験データを用いて実験を行った。
暗カウント補正に対する数値的なアプローチは、標準推定よりも信頼性の高い状態再構成を保証できることを実証する。
しかし、最も重要なことは、概念的に単純な理論アプローチは、実験手法よりも絡み合い定量化の方が効率的であることが証明される。 In this letter, we propose a method of dark count correction in quantum state tomography of entangled photon pairs. The framework is based on a linear model of dark counts, which is imposed on the measurement formalism. The method is tested on empirical data derived from an experiment on polarization-entangled photons. We demonstrate that the numerical approach to dark count correction guarantees more reliable state reconstruction compared with standard estimation. Most importantly, however, the conceptually simple theoretical approach proves to be more efficient at entanglement quantification than experimental techniques. | 翻訳日:2023-02-14 20:31:49 公開日:2022-09-20 |
# 集積回路用オンデマンド連続可変量子エンタングルメント源 On-demand continuous-variable quantum entanglement source for integrated circuits ( http://arxiv.org/abs/2205.12741v2 ) ライセンス: Link先を確認 | Mehmet G\"unay, Priyam Das, Emre Yuce, Emre Ozan Polat, Alpan Bek, Mehmet Emre Tasgin | (参考訳) フォトニック回路への(絡み合いのような)非古典状態を生成するデバイスの統合は、集積量子回路(IQC)を達成するための主要な目標の1つである。
これはここ数十年で成功している。
これらのマイクロンスケールデバイスにおける非古典性生成を制御することは、IQCの堅牢な動作にも不可欠である。
本稿では,非線形性(したがって生成される非古典性)を線形応答を変化させることなく,数桁の次数で調整できるマイクロンスケール量子絡み合わせデバイスを提案する。
レベルスペーシングを電圧で調整できる量子エミッタ~(qes)は、金属ナノ構造~(mns)のホットスポットに埋め込まれる。
QE-MNS結合は ``非線形応答'' においてファノ共鳴を導入する。
局所化により既に非常に高められた非線形性は、QEのレベルスポーキングによって制御できる。
非線形性は(プローブがデバイス上にある場合も)抑制されるか、さらにいくつかの順序で強化される。
ファノ共鳴は比較的狭い周波数窓で発生し、QEsに対する$\sim$meVの電圧可変性は、非古典性のオン/オフの \textit{continuous} に十分である。
これにより最大で5桁の変調深度が得られる。 Integration of devices generating nonclassical states~(such as entanglement) into photonic circuits is one of the major goals in achieving integrated quantum circuits~(IQCs). This is demonstrated successfully in recent decades. Controlling the nonclassicality generation in these micron-scale devices is also crucial for the robust operation of the IQCs. Here, we propose a micron-scale quantum entanglement device whose nonlinearity (so the generated nonclassicality) can be tuned by several orders of magnitude via an \textit{applied voltage} without altering the linear response. Quantum emitters~(QEs), whose level-spacing can be tuned by voltage, are embedded into the hotspot of a metal nanostructure~(MNS). QE-MNS coupling introduces a Fano resonance in the ``nonlinear response''. Nonlinearity, already enhanced extremely due to localization, can be controlled by the QEs' level-spacing. Nonlinearity can either be suppressed (also when the probe is on the device) or be further enhanced by several orders. Fano resonance takes place in a relatively narrow frequency window so that $\sim$meV voltage-tunability for QEs becomes sufficient for a \textit{continuous} turning on/off of the nonclassicality. This provides as much as 5 orders of magnitude modulation depths. | 翻訳日:2023-02-11 19:24:12 公開日:2022-09-20 |
# 量子および古典マックスカットの量子および古典的ストリーミング複雑性 The Quantum and Classical Streaming Complexity of Quantum and Classical Max-Cut ( http://arxiv.org/abs/2206.00213v2 ) ライセンス: Link先を確認 | John Kallaugher, Ojas Parekh | (参考訳) グラフストリーミング問題であるMax-Cutとその量子アナログQuantum Max-Cutの空間複雑性について検討する。
Kapralov と Krachun [STOC `19] による以前の研究は、任意の$(2 - \varepsilon)$-approximation が$\Omega(n)$ space ($$$2$-approximation は $\textrm{O}(\log n)$ space で自明である)であることが示されている。
これらの等式を一般化し、アルゴリズムが量子状態を維持することを許されたとしても、$(2 - \varepsilon)$-approximating Max-Cut and Quantum Max-Cut に対して$\Omega(n)$ space lower bounds を示す。
Quantum Max-Cut の自明な近似アルゴリズムは 4$-approximation しか与えないため、$(2 + \varepsilon)$-approximation を $\textrm{O}(\log n)$ space のグラフの Quantum Max-Cut 値に戻すアルゴリズムとの密接性を示す。
我々の研究は、$\textrm{o}(n)$空間を用いて量子および古典マックスカットの量子および古典近似性を解決している。
ブールフーリエ解析(Boolean Fourier analysis)による下界の証明を行う。
本稿では,各プレイヤーが前者のプレイヤーから量子メッセージを受信し,次に送信する前に任意の量子演算を行うことのできる,一方向量子通信へのこれらの手法の最初の応用について述べる。
この目的のために,フーリエ解析手法を用いて量子チャネルの応用を理解する方法を示す。 We investigate the space complexity of two graph streaming problems: Max-Cut and its quantum analogue, Quantum Max-Cut. Previous work by Kapralov and Krachun [STOC `19] resolved the classical complexity of the \emph{classical} problem, showing that any $(2 - \varepsilon)$-approximation requires $\Omega(n)$ space (a $2$-approximation is trivial with $\textrm{O}(\log n)$ space). We generalize both of these qualifiers, demonstrating $\Omega(n)$ space lower bounds for $(2 - \varepsilon)$-approximating Max-Cut and Quantum Max-Cut, even if the algorithm is allowed to maintain a quantum state. As the trivial approximation algorithm for Quantum Max-Cut only gives a $4$-approximation, we show tightness with an algorithm that returns a $(2 + \varepsilon)$-approximation to the Quantum Max-Cut value of a graph in $\textrm{O}(\log n)$ space. Our work resolves the quantum and classical approximability of quantum and classical Max-Cut using $\textrm{o}(n)$ space. We prove our lower bounds through the techniques of Boolean Fourier analysis. We give the first application of these methods to sequential one-way quantum communication, in which each player receives a quantum message from the previous player, and can then perform arbitrary quantum operations on it before sending it to the next. To this end, we show how Fourier-analytic techniques may be used to understand the application of a quantum channel. | 翻訳日:2023-02-11 01:22:36 公開日:2022-09-20 |
# 関係量子力学の理解の試み An attempt to understand relational quantum mechanics ( http://arxiv.org/abs/2207.01380v2 ) ライセンス: Link先を確認 | Pekka Lahti, Juha-Pekka Pellonp\"a\"a | (参考訳) 我々は、量子力学の関連解釈の重要なアイデアの数学的定式化の可能性を探し、それらの結果について研究する。
また、量子力学のヒルベルト空間定式化の公理的再構成のための関係量子力学の提案についても概説する。 We search for a possible mathematical formulation of some of the key ideas of the relational interpretation of quantum mechanics and study their consequences. We also briefly overview some proposals of relational quantum mechanics for an axiomatic reconstruction of the Hilbert space formulation of quantum mechanics. | 翻訳日:2023-02-06 19:11:52 公開日:2022-09-20 |
# ニュース分析における弱監視--経済政策の不確実性への応用 Weak Supervision in Analysis of News: Application to Economic Policy Uncertainty ( http://arxiv.org/abs/2209.05383v2 ) ライセンス: Link先を確認 | Paul Trust, Ahmed Zahran, Rosane Minghim | (参考訳) 経済決定のためのタイムリーなデータ分析の必要性は、ほとんどの経済学者や政策立案者が従来のデータソースを検索するきっかけとなった。
その文脈で、テキストデータは収集が容易で豊富であるため、従来のデータソースを豊かにするために研究されています。
本研究は、経済政策の不確実性(EPU)を測定するために、テキストデータ、特にニュースデータの可能性を研究することに焦点を当てている。
経済政策の不確実性は、新しい政策と将来の経済基本の下で、決定の結果を予測できないと定義されている。
EPUの定量化は政策立案者、経済学者、投資家にとって非常に重要である。
EPUの測定にニュース記事を使った以前の研究のほとんどは手動か単純なキーワード検索に基づいていた。
本研究は、経済政策の不確実性に関して、ニュース記事の分類を弱くする機械学習ベースのソリューションを提案する。
弱監視は、ドメイン知識とヒューリスティックスを活用することなく、低リソース設定で機械学習モデルを適用するための効率的な機械学習パラダイムであることが示されている。
我々はさらに,アイルランドのマクロ経済指標と共に広範な計量分析を行った弱い監督に基づくepu指標を作成し,その指標がマクロ経済性能を低下させるかどうかを検証した。 The need for timely data analysis for economic decisions has prompted most economists and policy makers to search for non-traditional supplementary sources of data. In that context, text data is being explored to enrich traditional data sources because it is easy to collect and highly abundant. Our work focuses on studying the potential of textual data, in particular news pieces, for measuring economic policy uncertainty (EPU). Economic policy uncertainty is defined as the public's inability to predict the outcomes of their decisions under new policies and future economic fundamentals. Quantifying EPU is of great importance to policy makers, economists, and investors since it influences their expectations about the future economic fundamentals with an impact on their policy, investment and saving decisions. Most of the previous work using news articles for measuring EPU are either manual or based on a simple keyword search. Our work proposes a machine learning based solution involving weak supervision to classify news articles with regards to economic policy uncertainty. Weak supervision is shown to be an efficient machine learning paradigm for applying machine learning models in low resource settings with no or scarce training sets, leveraging domain knowledge and heuristics. We further generated a weak supervision based EPU index that we used to conduct extensive econometric analysis along with the Irish macroeconomic indicators to validate whether our generated index foreshadows weaker macroeconomic performance | 翻訳日:2023-02-01 10:03:21 公開日:2022-09-20 |
# 2021年雪塊の量子センサ研究会活動報告 Report of the Topical Group on Quantum Sensors for Snowmass 2021 ( http://arxiv.org/abs/2208.13310v2 ) ライセンス: Link先を確認 | Thomas Cecil, Kent Irwin, Reina Maruyama, Matt Pyle, Silvia Zorzetti | (参考訳) 量子センサーは高エネルギー物理実験において感度を高める大きな可能性を提供する。
本報告では、干渉計、光メカニクス、時計、スピン依存センサ、超伝導センサ、量子カロリメータといった重要な量子センサー技術の概要を述べる。
また,高エネルギー物理応用に使用される量子センサの状態をさらに前進させるキーメッセージのセットを提供する。 Quantum Sensors offer great potential for providing enhanced sensitivity in high energy physics experiments. In this report we provide a summary of key quantum sensors technologies - interferometers, optomechanics, and clocks; spin dependent sensors; superconducting sensors; and quantum calorimeters - highlighting existing experiments along with areas for development. We also provide a set of key messages intended to further advance the state of quantum sensors used for high energy physics specific applications. | 翻訳日:2023-01-28 17:18:27 公開日:2022-09-20 |
# ネットワーク非局所性に対するポシビリスティックアプローチ Possibilistic approach to network nonlocality ( http://arxiv.org/abs/2208.13526v2 ) ライセンス: Link先を確認 | Antoine Restivo, Nicolas Brunner, Denis Rosset | (参考訳) ベル非局所性の研究は伝統的に、ある測定結果を観察する共同確率に依存している。
この研究では、可能な結果のパターンのみを重要視するポシビリスティックなアプローチを探求し、独立した情報源を持つネットワークのベル非局所性に適用する。
本稿では,古典的資源や非署名的資源から得られる結果パターンを決定するアルゴリズムについて述べる。
次に、三角形と正方形ネットワーク(バイナリ出力と入力なし)を考慮し、ネットワーク構造と互換性のないパターンを識別し、非局所性を示すパターンを示す。
特に、二元結果を持つ正方形ネットワークにおける量子非局所性の例を得る。
さらに,あるパターンの非局所性を検出するための証明を,結合確率を伴う非線形ベル型不等式として構築する方法を示す。
最後に,ネットワーク内のソースが部分的に相関する場合には,これらの不等式が有効であることを示す。 The investigation of Bell nonlocality traditionally relies on joint probabilities of observing certain measurement outcomes. In this work we explore a possibilistic approach, where only patterns of possible outcomes matter, and apply it to Bell nonlocality in networks with independent sources. We present various algorithms for determining whether a given outcome pattern can be achieved via classical resources or via non-signaling resources. Next we illustrate these methods considering the triangle and square networks (with binary outputs and no inputs), identifying patterns that are incompatible with the network structure, as well as patterns that imply nonlocality. In particular, we obtain an example of quantum nonlocality in the square network with binary outcomes. Moreover, we show how to construct certificates for detecting the nonlocality of a certain pattern, in the form of nonlinear Bell-type inequalities involving joint probabilities. Finally, we show that these inequalities remain valid in the case where the sources in the network become partially correlated. | 翻訳日:2023-01-28 14:53:38 公開日:2022-09-20 |
# 風味振動における自然崩壊の観測可能性とCPおよびCPT対称性との関係 Observability of spontaneous collapse in flavor oscillations and its relation to the CP and CPT symmetries ( http://arxiv.org/abs/2208.14383v2 ) ライセンス: Link先を確認 | Kyrylo Simonov | (参考訳) 自然崩壊モデルは、マクロな重ね合わせを抑制する存在論的客観的メカニズムとして波動関数の崩壊を導入することで、量子力学の測定問題を解決することを目的としている。
特に、崩壊の強さは系の質量に依存する。
中性中間子のようなフレーバー振動系は、異なる質量の状態の重ね合わせを特徴とし、したがって、自発的崩壊モデルの有効性をテストできる。
近年、質量比CSLモデルは中性中間子振動の指数減衰を引き起こすことが示されているが、これは現在の加速器施設では観測できないほど強いものではない。
本稿では, 混合における$\mathcal{CP}$対称性の違反が, 風味振動に対する自然崩壊効果とその観測可能性に与える影響について検討する。 Spontaneous collapse models aim at solving the measurement problem of quantum mechanics by introducing collapse of wave function as an ontologically objective mechanism that suppresses macroscopic superpositions. In particular, the strength of collapse depends on the mass of the system. Flavor oscillating systems such as neutral mesons feature superpositions of states of different masses and, hence, could be used to test the validity of spontaneous collapse models. Recently, it has been shown that the mass-proportional CSL model causes exponential damping of the neutral meson oscillations which, however, is not strong enough to be observed in the present accelerator facilities. In this Letter, we study how the violation of the $\mathcal{CP}$ symmetry in mixing changes the spontaneous collapse effect on flavor oscillations and its observability. | 翻訳日:2023-01-28 11:41:55 公開日:2022-09-20 |
# 量子テンソルネットワーク最適化におけるバレン高原 Barren plateaus in quantum tensor network optimization ( http://arxiv.org/abs/2209.00292v2 ) ライセンス: Link先を確認 | Enrique Cervero Mart\'in, Kirill Plekhanov, Michael Lubasch | (参考訳) 行列積状態(qMPS)、ツリーテンソルネットワーク(qTTN)、およびマルチスケールエンタングルメント再正規化アンサッツ(qMERA)にインスパイアされた量子回路の変動最適化におけるバレンプラトー現象を解析した。
コスト関数として、局所項の和であるハミルトニアンの期待値を考える。
ランダムに選択された変動パラメータに対して、コスト関数勾配の分散は量子テンソルネットワークの正準中心からハミルトン項の距離と指数関数的に減少することを示す。
したがって、qMPS の量子ビット数関数として、ほとんどの勾配分散は指数関数的に減少し、qTTN と qMERA は多項式的に減少する。
また、これらの勾配の計算は量子コンピュータよりも古典的コンピュータの方が指数関数的に効率的であることを示す。 We analyze the barren plateau phenomenon in the variational optimization of quantum circuits inspired by matrix product states (qMPS), tree tensor networks (qTTN), and the multiscale entanglement renormalization ansatz (qMERA). We consider as the cost function the expectation value of a Hamiltonian that is a sum of local terms. For randomly chosen variational parameters we show that the variance of the cost function gradient decreases exponentially with the distance of a Hamiltonian term from the canonical centre in the quantum tensor network. Therefore, as a function of qubit count, for qMPS most gradient variances decrease exponentially and for qTTN as well as qMERA they decrease polynomially. We also show that the calculation of these gradients is exponentially more efficient on a classical computer than on a quantum computer. | 翻訳日:2023-01-28 06:46:19 公開日:2022-09-20 |
# エンタングルメント強化光原子時計 Entanglement-Enhanced Optical Atomic Clocks ( http://arxiv.org/abs/2209.00471v3 ) ライセンス: Link先を確認 | Simone Colombo, Edwin Pedrozo-Pe\~nafiel, Vladan Vuleti\'c | (参考訳) 近年の原子物理学の発展により、多体絡み合い状態の実験的な生成により、標準量子限界(sql)を超える量子センサーの性能が向上した。
この制限は、量子測定の固有の射影雑音によって課される。
本稿では,SQL以外の量子センサを動作させるための多体絡み合った状態を生成する実験手法について述べる。
特に、現状の光学原子時計に量子エンタングルメントを適用する可能性に焦点を当てる。
さらに,我々は,sql サブ計測の精度を必要とせず,高い量子フィッシャー情報を持つ複雑な状態を利用する時間反転プロトコルを開発した。
我々は、そのようなプロトコルに基づいて、近ハイゼンベルク制限量子メートル法に到達する可能性について論じる。 Recent developments in atomic physics have enabled the experimental generation of many-body entangled states to boost the performance of quantum sensors beyond the Standard Quantum Limit (SQL). This limit is imposed by the inherent projection noise of a quantum measurement. In this perspective article, we describe the commonly used experimental methods to create many-body entangled states to operate quantum sensors beyond the SQL. In particular, we focus on the potential of applying quantum entanglement to state-of-the-art optical atomic clocks. In addition, we present recently developed time-reversal protocols that make use of complex states with high quantum Fisher information without requiring sub-SQL measurement resolution. We discuss the prospects for reaching near-Heisenberg limited quantum metrology based on such protocols. | 翻訳日:2023-01-28 06:40:40 公開日:2022-09-20 |
# 量子トッフォリゲートのハードウェアによる最適化 Hardware-Conscious Optimization of the Quantum Toffoli Gate ( http://arxiv.org/abs/2209.02669v2 ) ライセンス: Link先を確認 | Max Aksel Bowman, Pranav Gokhale, Jeffrey Larson, Ji Liu, Martin Suchara | (参考訳) 量子コンピューティングは組合せ最適化、電子構造計算、数論などいくつかの分野において大きな可能性を秘めているが、量子コンピューティングの現在の時代はノイズの多いハードウェアによって制限されている。
ノイズ適応型コンパイルや効率的な量子ビットルーティングを含む多くの量子コンパイルアプローチは、臨界経路長などの目的のために量子回路を最適化することで、不完全なハードウェアの影響を軽減することができる。
しかし、これらのアプローチのいくつかは、ターゲットハードウェアで利用可能なベンダー校正操作(すなわちネイティブゲート)の集合の観点から量子回路を考える。
本稿では,この抽象化レベルで量子回路を最適化するための解析的手法と数値的手法の両方をレビューし,拡張する。
さらに,解析的ネイティブゲートレベル最適化の強みと数値最適化を組み合わせる手法を提案する。
我々は、これらの手法を用いて、量子コンパイルと機械学習の短期的応用を含む複数の量子アルゴリズムの基本構築ブロックである toffoli ゲートの最適化実装を作成する。
本稿では,ibmqネイティブゲート集合に焦点を当てるが,提案手法は任意の超伝導量子ビットアーキテクチャに一般化できる。
解析的に最適化された実装は、IBM Jakartaで量子プロセストモグラフィーでベンチマークされた標準実装と比較すると、不忠実度を18 %以上削減することを示した。
ibmqネイティブゲートセットにマルチキュービットのクロス共振ゲートを包含すると仮定した6つのマルチキュービットゲートの実装を,線形接続キュービットの標準8つのマルチキュービット実装から$25\%削減した。
これらの結果は、量子回路のネイティブゲートレベル最適化の有効性を示し、このトピックに対するさらなる研究を動機付けるものである。 While quantum computing holds great potential in several fields including combinatorial optimization, electronic structure calculation, and number theory, the current era of quantum computing is limited by noisy hardware. Many quantum compilation approaches, including noise-adaptive compilation and efficient qubit routing, can mitigate the effects of imperfect hardware by optimizing quantum circuits for objectives such as critical path length. Few of these approaches, however, consider quantum circuits in terms of the set of vendor-calibrated operations (i.e., native gates) available on target hardware. In this paper, we review and expand both analytical and numerical methodology for optimizing quantum circuits at this abstraction level. Additionally, we present a procedure for combining the strengths of analytical native gate-level optimization with numerical optimization. We use these methods to produce optimized implementations of the Toffoli gate, a fundamental building block of several quantum algorithms with near-term applications in quantum compilation and machine learning. This paper focuses on the IBMQ native gate set, but the methods presented are generalizable to any superconducting qubit architecture. Our analytically optimized implementation demonstrated a $18\%$ reduction in infidelity compared with the canonical implementation as benchmarked on IBM Jakarta with quantum process tomography. Our numerical methods produced implementations with six multi-qubit gates assuming the inclusion of multi-qubit cross-resonance gates in the IBMQ native gate set, a $25\%$ reduction from the canonical eight multi-qubit implementation for linearly-connected qubits. These results demonstrate the efficacy of native gate-level optimization of quantum circuits and motivate further research into this topic. | 翻訳日:2023-01-27 18:21:12 公開日:2022-09-20 |
# 識別不能単一光子エミッタからの超ポアソン光の発生 Emergence of super-Poissonian light from indistinguishable single-photon emitters ( http://arxiv.org/abs/2209.09059v2 ) ライセンス: Link先を確認 | A. Kovalenko, D. Babjak, A. Le\v{s}und\'ak, L. Podhora, L. Lachman, P. Ob\v{s}il, T. Pham, O. \v{C}\'ip, R. Filip, L. Slodi\v{c}ka | (参考訳) 光学干渉は現代物理学における最重要資源を構成する。
個々の原子や光子のスケールでは、異なるコヒーレントな現象を引き起こす様々な概念である。
本研究は、単一から数百個の原子粒子の寄与により、閉じ込められたイオンのアンサンブルから放出される光のコヒーレントと統計特性の両方を実験的にキャラクタリゼーションすることを目的とする。
これは、超ポアソン量子統計学が、単一検出モードの極限において、有限個の区別不可能な単一光子エミッタから純粋に生じることを決定的に示している。
これらの独立な原子が超ポアソニアン統計にコヒーレントに寄与する新しい光学発光系は、原子スケールでの光コヒーレンスの発生に関する新たな視点を与え、最も顕微鏡レベルの生成と制御のためのユニークなツールボックスを構成する。 The optical interference constitutes a paramount resource in modern physics. At the scale of individual atoms and photons, it is a diverse concept that causes different coherent phenomena. We present the experimental characterization of both coherent and statistical properties of light emitted from ensembles of trapped ions increasing with a number of contributing phase-incoherent independent atomic particles ranging from a single to up to several hundreds. It conclusively demonstrates how super-Poissonian quantum statistics non-trivially arises purely from the finite number of indistinguishable single-photon emitters in the limit of a single detection mode. The achieved new optical emission regime in which these independent atoms contribute coherently to the super-Poissonian statistics provides a new perspective on the emergence of optical coherence at the atomic scale and constitutes a unique toolbox for its generation and control at the most microscopic level. | 翻訳日:2023-01-26 02:14:30 公開日:2022-09-20 |
# トポロジカルフォールトトレラント量子誤差補正のための連結方式 Concatenation Schemes for Topological Fault-tolerant Quantum Error Correction ( http://arxiv.org/abs/2209.09390v1 ) ライセンス: Link先を確認 | Zhaoyi Li, Isaac Kim, Patrick Hayden | (参考訳) 本稿では,3次元クラスタ状態との小さな誤り検出や誤り訂正符号の結合に基づく,フォールトトレラントな量子誤り訂正手法の系統について検討する。
本稿では,全ての回路レベルのエラーを消去エラーに効果的に変換し,クラスタ状態の高しきい値を利用するフォールトトレラント状態の準備と復号化手法を提案する。
我々は、そのような変換が可能な符号の集合を見つけ、それらの性能を標準回路レベルの非分極モデルと比較する。
我々の最良の実行方式は、古典的なコードとの結合に基づいて、しきい値を16.5\%$改善し、結合のないスキームと比較して、時空オーバーヘッドを32\%$減少させ、各スキームは、物理的エラー率10^{-3}$、論理エラー率10^{-6}$とする。 We investigate a family of fault-tolerant quantum error correction schemes based on the concatenation of small error detection or error correction codes with the three-dimensional cluster state. We propose fault-tolerant state preparation and decoding schemes that effectively convert every circuit-level error into an erasure error, leveraging the cluster state's high threshold against such errors. We find a set of codes for which such a conversion is possible, and study their performance against the standard circuit-level depolarizing model. Our best performing scheme, which is based on a concatenation with a classical code, improves the threshold by $16.5\%$ and decreases the spacetime overhead by $32\%$ compared to the scheme without concatenation, with each scheme subject to a physical error rate of $10^{-3}$ and achieving a logical error rate of $10^{-6}$. | 翻訳日:2023-01-25 23:41:35 公開日:2022-09-20 |
# 対称部分空間をもつ量子アニール Quantum annealing with symmetric subspaces ( http://arxiv.org/abs/2209.09575v1 ) ライセンス: Link先を確認 | Takashi Imoto, Yuya Seki, Yuichiro Matsuzaki | (参考訳) 量子アニール(QA)は、組合せ最適化問題を解くだけでなく、凝縮物質物理学のような量子多体系をシミュレートする上で有望なアプローチである。
しかし、非断熱遷移はQAの重要な課題である。
駆動ハミルトニアンの選択は、非断熱遷移の抑制の可能性からQAの性能に影響を与えることが知られている。
本稿では,より効率的なqaのための問題ハミルトニアンの対称性を保ったドライブハミルトニアンの利用を提案する。
駆動ハミルトニアンの選択により、この解はQA中に適切な対称部分空間で探索される。
非断熱遷移は特定の部分空間内でのみ起こるため、このアプローチは不要な非断熱遷移を抑制する可能性がある。
このスキームの性能を評価するために、Z$軸に沿った全磁化を通勤する問題ハミルトニアンの基底状態を求めるために、XYモデルを駆動ハミルトニアンとして利用する。
提案手法は,QA後の目標基底状態と状態間の忠実度の観点から従来のスキームよりも優れていた。 Quantum annealing (QA) is a promising approach for not only solving combinatorial optimization problems but also simulating quantum many-body systems such as those in condensed matter physics. However, non-adiabatic transitions constitute a key challenge in QA. The choice of the drive Hamiltonian is known to affect the performance of QA because of the possible suppression of non-adiabatic transitions. Here, we propose the use of a drive Hamiltonian that preserves the symmetry of the problem Hamiltonian for more efficient QA. Owing to our choice of the drive Hamiltonian, the solution is searched in an appropriate symmetric subspace during QA. As non-adiabatic transitions occur only inside the specific subspace, our approach can potentially suppress unwanted non-adiabatic transitions. To evaluate the performance of our scheme, we employ the XY model as the drive Hamiltonian in order to find the ground state of problem Hamiltonians that commute with the total magnetization along the $z$ axis. We find that our scheme outperforms the conventional scheme in terms of the fidelity between the target ground state and the states after QA. | 翻訳日:2023-01-25 23:40:36 公開日:2022-09-20 |
# 安定化器近似 Stabilizer Approximation ( http://arxiv.org/abs/2209.09564v1 ) ライセンス: Link先を確認 | Xinying Li, Jianan Wang, Chuixiong Wu, and Fen Zuo | (参考訳) そこで本研究では,安定器形式に基づく量子ビット形式のハミルトニアンの近似基底状態を求めるヒューリスティック手法を提案する。
これらの状態は、さらに洗練された計算のための適切な初期状態として機能する。
メソッドの効率性とスケーラビリティを評価するのは興味深いことです。 We propose a heuristic method to obtain the approximate groundstate for a Hamiltonian in the qubit form, based on the stabilizer formalism. These states may serve as proper initial states for further refined computation. It would be interesting to assess the efficiency and scalability of the method. | 翻訳日:2023-01-25 23:40:17 公開日:2022-09-20 |
# 熱衝突モデルにおける波動関数の実現 Wave function realization of a thermal collision model ( http://arxiv.org/abs/2209.09519v1 ) ライセンス: Link先を確認 | Ronnie Kosloff Uriel Shafir | (参考訳) オープン量子システムのダイナミクスをシミュレートする効率的なアルゴリズムを提案する。
この方法は密度演算子記述に収束する確率波関数を解き放つことによって力学を記述する。
確率的手法は量子衝突モデルに基づいている。
波動関数による力学系のモデリングと衝突シーケンスによる環境との相互作用のモデル化は、複雑性のスケールを大幅に削減する。
開発されたアルゴリズムは量子コンピュータで実装できる。
本稿では,マルコビアン性,ブラウン運動,二元分布などの統計的特徴を利用した確率的手法を提案する。
中央極限定理は、波動ベクトルによって表される純粋量子状態の確率力学の分布の収束を研究するために用いられる。
分布における関数のサンプルを平均することで、密度作用素によって記述される混合量子状態へのダイナミクスの収束を証明し、実証する。 An efficient algorithm to simulate dynamics of open quantum system is presented. The method describes the dynamics by unraveling stochastic wave functions converging to a density operator description. The stochastic techniques are based on the quantum collision model. Modeling systems dynamics by wave functions and modeling the interaction with the environment with a collision sequence reduces the complexity scale significantly. The algorithm developed, can be implemented on quantum computers. We introduce stochastic methods that exploit statistical characters of the model, as Markovianity, Brownian motion and binary distribution. The central limit theorem is employed to study the convergence of distributions of stochastic dynamics of pure quantum states represented by wave vectors. By averaging a sample of functions in the distribution we prove and demonstrate the convergence of the dynamics to the mixed quantum state described by a density operator. | 翻訳日:2023-01-25 23:40:04 公開日:2022-09-20 |
# パーセプトロンニューラルネットワーク学習のための量子回路のパラメトリック合成 Parametric Synthesis of Quantum Circuits for Training Perceptron Neural Networks ( http://arxiv.org/abs/2209.09496v1 ) ライセンス: Link先を確認 | Cesar Borisovich Pronin, Andrey Vladimirovich Ostroukh | (参考訳) 本稿では、パーセプトロンニューラルネットワークを訓練するための量子回路のパラメトリック合成法を示す。
シナプス重みは、修正されたoracle関数を持つgroverのアルゴリズムを用いて見出される。
3つの異なる位相のパーセプトロンを訓練するためのパラメトリック合成回路の実行結果について述べる。
回路は100量子ビットのIBM量子シミュレータ上で動作した。
量子回路の合成は、この研究の範囲内で開発された量子シンセサイザ「ナギナタ」を用いて行われ、ソースコードが公開され、さらにgithubにドキュメント化されている。
この記事では、単一層パーセプトロンをトレーニングするための量子回路合成アルゴリズムについて述べる。
量子回路は、主に量子ビットを象徴する線上に論理要素を手動で配置することによって作られる。
量子回路合成器"Naginata"を作成する目的は、量子アルゴリズムにおける演算数がわずかに増加しても、対応する量子回路のサイズが大幅に増加するという事実による。
これにより、これらの量子回路の作成とデバッグが困難になる。
量子シンセサイザの目的は、ユーザが高レベルコマンドを使って量子アルゴリズムを実装する機会を提供することです。
これは、加算器、乗算器、デジタルコンパレータ(比較演算子)など、頻繁に使用される操作のためのジェネリックブロックを作成することで実現される。
したがって、ユーザーはこれらの汎用ブロックを用いて量子アルゴリズムを実装でき、量子シンセサイザーは選択された量子計算環境によってサポートされているフォーマットで、このアルゴリズムに適した回路を作成することになる。
このアプローチは量子アルゴリズムの開発とデバッグのプロセスを大幅に単純化する。 This paper showcases a method of parametric synthesis of quantum circuits for training perceptron neural networks. Synapse weights are found using Grover's algorithm with a modified oracle function. The results of running these parametrically synthesized circuits for training perceptrons of three different topologies are described. The circuits were run on a 100-qubit IBM quantum simulator. The synthesis of quantum circuits is carried out using quantum synthesizer "Naginata", which was developed in the scope of this work, the source code of which is published and further documented on GitHub. The article describes the quantum circuit synthesis algorithm for training single-layer perceptrons. At the moment, quantum circuits are created mainly by manually placing logic elements on lines that symbolize quantum bits. The purpose of creating Quantum Circuit Synthesizer "Naginata" was due to the fact that even with a slight increase in the number of operations in a quantum algorithm, leads to the significant increase in size of the corresponding quantum circuit. This causes serious difficulties both in creating and debugging these quantum circuits. The purpose of our quantum synthesizer is enabling users an opportunity to implement quantum algorithms using higher-level commands. This is achieved by creating generic blocks for frequently used operations such as: the adder, multiplier, digital comparator (comparison operator), etc. Thus, the user could implement a quantum algorithm by using these generic blocks, and the quantum synthesizer would create a suitable circuit for this algorithm, in a format that is supported by the chosen quantum computation environment. This approach greatly simplifies the processes of development and debugging a quantum algorithm. | 翻訳日:2023-01-25 23:39:48 公開日:2022-09-20 |
# プログラマブルな時間多重スクイーズ光源 Programmable time-multiplexed squeezed light source ( http://arxiv.org/abs/2209.09458v1 ) ライセンス: Link先を確認 | Hiroko Tomoda, Takato Yoshida, Takahiro Kashiwazaki, Takeshi Umeki, Yutaro Enomoto, Shuntaro Takeda | (参考訳) 大規模量子情報処理(QIP)における主要なアプローチの1つは、時間多重化(TM)に基づく連続可変(CV)スキームである。
このアプローチの基本的な構築ブロックとして、時間多重圧縮光パルスを逐次生成する量子光源が必要であるが、従来のCV TM実験では、圧縮パルスを同じ周波数レベルと位相でしか出力できない固定光源を用いている。
ここでは,100 ns以下の時間間隔で,様々なスキューズレベルと位相の逐次パルスを生成することのできる,プログラム可能な時間多重圧縮光源について述べる。
生成パターンは、ハードウェア構成を変更することなく、ソフトウェアによって任意に選択することができる。
これは導波路光パラメトリック増幅器を用いて連続ポンプ光を変調することによって実現される。
光源は様々な大規模CVQIPタスクを実装します。 One of the leading approaches to large-scale quantum information processing (QIP) is the continuous-variable (CV) scheme based on time multiplexing (TM). As a fundamental building block for this approach, quantum light sources to sequentially produce time-multiplexed squeezed-light pulses are required; however, conventional CV TM experiments have used fixed light sources that can only output the squeezed pulses with the same squeezing levels and phases. We here demonstrate a programmable time-multiplexed squeezed light source that can generate sequential squeezed pulses with various squeezing levels and phases at a time interval below 100 ns. The generation pattern can be arbitrarily chosen by software without changing its hardware configuration. This is enabled by using a waveguide optical parametric amplifier and modulating its continuous pump light. Our light source will implement various large-scale CV QIP tasks. | 翻訳日:2023-01-25 23:39:25 公開日:2022-09-20 |
# 正確に可解な解析的二重井戸ポテンシャル $v_{d}(x)=min[(x+d)^2,(x-d)^2]$とその双対単一井戸ポテンシャル $v_{s}(x)=max[(x+d)^2,(x-d)^2]$ Exactly solvable piecewise analytic double well potential $V_{D}(x)=min[(x+d)^2,(x-d)^2]$ and its dual single well potential $V_{S}(x)=max[(x+d)^2,(x-d)^2]$ ( http://arxiv.org/abs/2209.09445v1 ) ライセンス: Link先を確認 | Ryu Sasaki | (参考訳) 2つの高調波発振器ポテンシャル$x^2$を分離$2d$で並べることで、自由パラメータ$d>0$を持つ正確に可解な2つの分析量子系が得られる。
ミラー対称性により、その固有値は偶数と奇数のパリティセクターに対して$E$であり、収束超幾何関数 ${}_1F_1$ of $d$ と $E$ の特定の組み合わせの零点として正確に決定されるが、これは$V_{D}$ と $V_{S}$ に共通するが、2つの異なる枝において異なる。
固有関数は${}_1f_1$、いわゆる$u$関数の分割二乗積分可能な組合せである。
分離 $d$ の様々な値に対する固有値と固有関数を比較することで、二つの井戸の間のトンネル効果を示す鮮明な絵が展開される。 By putting two harmonic oscillator potential $x^2$ side by side with a separation $2d$, two exactly solvable piecewise analytic quantum systems with a free parameter $d>0$ are obtained. Due to the mirror symmetry, their eigenvalues $E$ for the even and odd parity sectors are determined exactly as the zeros of certain combinations of the confluent hypergeometric function ${}_1F_1$ of $d$ and $E$, which are common to $V_{D}$ and $V_{S}$ but in two different branches. The eigenfunctions are the piecewise square integrable combinations of ${}_1F_1$, the so called $U$ functions. By comparing the eigenvalues and eigenfunctions for various values of the separation $d$, vivid pictures unfold showing the tunneling effects between the two wells. | 翻訳日:2023-01-25 23:39:10 公開日:2022-09-20 |
# 方向不偏光を用いた干渉計測と高次元位相測定 Interferometry and higher-dimensional phase measurements using directionally unbiased linear optics ( http://arxiv.org/abs/2209.09414v1 ) ライセンス: Link先を確認 | David S. Simon, Christopher R. Schwarze, and Alexander V. Sergienko | (参考訳) グローバーマルチポートはビームスプリッターの高次元の一般化であり、4つのポートのいずれかへの入力は、入力ポートを含む同じ4つのポートのいずれかで出力される確率が等しい。
本稿では,このようなマルチポートを用いた干渉計に新しい特徴があることを実証する。
例えば、2光子入力と偶然測定を組み合わせると、これらの干渉計は、Hong-Ou-Mandel (HOM) 間の容易に制御可能な補間や反HOMの動作など、標準ビームスプリッターベースの干渉計以上の機能を持つことが示された。
さらに,マッハ・ツェンダー干渉計のGrover-based analogは3つの相を同時に測定できることが示されている。
2つのマルチポート間の伝送線を異なる平面に配置することで、同じ干渉計が高次元のサニャック干渉計として機能し、3つの異なる軸の回転速度を1つの装置で測定することができる。 Grover multiports are higher-dimensional generalizations of beam splitters, in which input to any one of the four ports has equal probability of exiting at any of the same four ports, including the input port. In this paper, we demonstrate that interferometers built from such multiports have novel features. For example, when combined with two-photon input and coincidence measurements, it is shown that such interferometers have capabilities beyond those of standard beam-splitter-based interferometers, such as easily controlled interpolation between Hong-Ou-Mandel (HOM) and anti-HOM behavior. Further, it is shown that the Grover-based analog of the Mach-Zehnder interferometer can make three separate phase measurements simultaneously. By arranging the transmission lines between the two multiports to lie in different planes, the same interferometer acts as a higher-dimensional Sagnac interferometer, allowing rotation rates about three different axes to be measured with a single device. | 翻訳日:2023-01-25 23:38:43 公開日:2022-09-20 |
# 量子スピンダイナミクスのための軌道分解ワイス場 Trajectory-Resolved Weiss Fields for Quantum Spin Dynamics ( http://arxiv.org/abs/2209.09409v1 ) ライセンス: Link先を確認 | S. E. Begg, A. G. Green, and M. J. Bhaseen | (参考訳) 古典的確率過程への厳密なマッピングを用いて、2次元および3次元の量子スピン系のダイナミクスを探索する。
近年の研究では、確率的に平均化されたWeiss場によって決定された平均場の進化に関するサンプリングの有効性について検討した。
ここでは,各確率軌跡を別々に取り込んだ即時ワイス場をサンプリングすることにより,このアプローチを著しく拡張できることを示す。
この軌道分解アプローチはサンプルをサンプルゆらぎに取り入れ、より長いシミュレーション時間を可能にする。
2次元および3次元量子イジングモデルにおけるクエンチに対するこのアプローチの有用性を実証する。
平均ワイス場が消滅する状況では特に有利であるが、軌道分解ワイス場はゼロではない。
我々は、軌跡分解されたワイス場をゲージ自由度として解釈できるゲージ-P位相空間アプローチへの接続について議論する。 We explore the dynamics of quantum spin systems in two and three dimensions using an exact mapping to classical stochastic processes. In recent work we explored the effectiveness of sampling around the mean field evolution as determined by a stochastically averaged Weiss field. Here, we show that this approach can be significantly extended by sampling around the instantaneous Weiss field associated with each stochastic trajectory taken separately. This trajectory-resolved approach incorporates sample to sample fluctuations and allows for longer simulation times. We demonstrate the utility of this approach for quenches in the two-dimensional and three-dimensional quantum Ising model. We show that the method is particularly advantageous in situations where the average Weiss-field vanishes, but the trajectory-resolved Weiss fields are non-zero. We discuss the connection to the gauge-P phase space approach, where the trajectory-resolved Weiss field can be interpreted as a gauge degree of freedom. | 翻訳日:2023-01-25 23:38:24 公開日:2022-09-20 |
# 任意のボソニックユニタリ実現のための普遍時間依存制御法 A universal time-dependent control scheme for realizing arbitrary bosonic unitaries ( http://arxiv.org/abs/2209.09396v1 ) ライセンス: Link先を確認 | Ze-Liang Xiang, Diego Gonz\'alez Olivares, Juan Jos\'e Garc\'ia-Ripoll, Peter Rabl | (参考訳) 本研究では、フォトニック量子チャネルを介して接続される2組の静止ボソニックモード間の任意のユニタリ変換の実装について検討する。
モードとチャネル間の個別結合を制御することにより、レジスタA内の初期$N$-partite量子状態がマルチフォトンウェーブパケットとして解放され、連続してレジスタBに再吸収される。ここでは、この転送を任意に高い忠実度で実装する制御パルスのセットが存在し、同時に、2つのモードのセット間の既定の$N\times N$ユニタリ変換を実現する。
さらに,これらの制御パルスを構成するための数値アルゴリズムを提案し,このプロトコルのスケーリングとロバスト性について,いくつかの例から考察する。
純粋に制御ベースであり、基盤となるハードウェアのいかなる適応にも依存しないので、このスキームは非常に柔軟であり、例えば、ボソンサンプリング実験、マルチ量子ビット状態転送プロトコル、連続変数量子コンピューティングアーキテクチャなど、広く応用することができる。 We study the implementation of arbitrary unitary transformations between two sets of $N$ stationary bosonic modes, which are connected through a photonic quantum channel. By controlling the individual couplings between the modes and the channel, an initial $N$-partite quantum state in register A can be released as a multi-photon wavepacket and, successively, be reabsorbed in register B. Here we prove that there exists a set of control pulses that implement this transfer with arbitrarily high fidelity and, simultaneously, realize a pre-specified $N\times N$ unitary transformation between the two sets of modes. Moreover, we provide a numerical algorithm for constructing these control pulses and discuss the scaling and robustness of this protocol in terms of several illustrative examples. By being purely control-based and not relying on any adaptions of the underlying hardware, the presented scheme is extremely flexible and can find widespread applications, for example, for boson-sampling experiments, multi-qubit state transfer protocols or in continuous-variable quantum computing architectures. | 翻訳日:2023-01-25 23:38:10 公開日:2022-09-20 |
# フォールトトレラント量子バスアーキテクチャにおける長距離データ伝送 Long-range data transmission in a fault-tolerant quantum bus architecture ( http://arxiv.org/abs/2209.09774v1 ) ライセンス: Link先を確認 | Shin Ho Choe and Robert Koenig | (参考訳) 本稿では,長さ$R$の矩形配列と,サイズ$d\times d$と$d=O(\log R)$の正方形断面の端におけるフォールトトレラントな長距離絡み合わせ生成手法を提案する。
効率よく計算可能なパウリ補正まで、このスキームは近くのクリフォードゲートと局所測定のみからなる深さ6$の回路を用いて、2つの量子ビットの最大絡み合った状態を生成する。
量子通信のための既存のフォールトトレランススキームと比較すると、このプロトコルは低レイテンシによって区別される: 製品状態から始まり、絡み合った状態は、ローカルゲートと測定操作時間$t_{\textrm{local}}$によってのみ決定される時間$o(t_{\textrm{local}})$で作成される。
それぞれのリピータは$\theta(\log^2 r)$ qubits のみを使用し、ライフタイムは $o(t_{\textrm{local}})$である。
距離$R$を超えるフォールトトレラント量子通信のためのすべての低レイテンシスキームのうち、リピータ当たりのキュービット数に対して、逆有界$\Omega(\log R)$を証明した。
さらに、リピータ内の全ての演算は、キュービットが正方形格子に配置されるときに局所的である。
提案手法の耐雑音性は,クラスタ状態の耐障害性に依存する。
完全誤差解析を行い、一般的な(回路レベルの)局所確率雑音に対する耐故障しきい値を確立し、準備、エンタングリング操作、測定に影響を及ぼす。
これは特に時間と空間で相関した誤差を含んでいる。
我々の保守的な分析的な推定は驚くほど楽観的であり、このスキームは短期の量子コンピューティングデバイス間の長距離の絡み合い生成に適していることを示唆している。 We propose a scheme for fault-tolerant long-range entanglement generation at the ends of a rectangular array of qubits of length $R$ and a square cross section of size $d\times d$ with $d=O(\log R)$. Up to an efficiently computable Pauli correction, the scheme generates a maximally entangled state of two qubits using a depth-$6$ circuit consisting of nearest-neighbor Clifford gates and local measurements only. Compared with existing fault-tolerance schemes for quantum communication, the protocol is distinguished by its low latency: starting from a product state, the entangled state is prepared in a time $O(t_{\textrm{local}})$ determined only by the local gate and measurement operation time $t_{\textrm{local}}$. Furthermore, the requirements on local repeater stations are minimal: Each repeater uses only $\Theta(\log^2 R)$ qubits with a lifetime of order $O(t_{\textrm{local}})$. We prove a converse bound $\Omega(\log R)$ on the number of qubits per repeater among all low-latency schemes for fault-tolerant quantum communication over distance $R$. Furthermore, all operations within a repeater are local when the qubits are arranged in a square lattice. The noise-resilience of our scheme relies on the fault-tolerance properties of the underlying cluster state. We give a full error analysis, establishing a fault-tolerance threshold against general (circuit-level) local stochastic noise affecting preparation, entangling operations and measurements. This includes, in particular, errors correlated in time and space. Our conservative analytical estimates are surprisingly optimistic, suggesting that the scheme is suited for long-range entanglement generation both in and between near-term quantum computing devices. | 翻訳日:2023-01-25 23:31:04 公開日:2022-09-20 |
# 浮揚光機械センサによる横軌道角運動量計測 Structured transverse orbital angular momentum probed by a levitated optomechanical sensor ( http://arxiv.org/abs/2209.09759v1 ) ライセンス: Link先を確認 | Yanhui Hu, Jack J. Kingsley-Smith, Maryam Nikkhou, James A. Sabin, Francisco J. Rodr\'iguez-Fortu\~no, Xiaohao Xu and James Millen | (参考訳) 構造された光電場によって運ばれる運動量は、様々な驚くべき特徴を示す。
本研究では,2つの平行な直線偏光集束ビームの干渉場における横軌道角運動量(TOAM)を生成し,固有TOAMを有する同一のハンドネス渦列を合成する。
回転が光角運動量のプローブであり、非常に大きなトルクを発生させる光学浮揚シリコンナノロッドからなる光機械センサを用いて、この構造された光場を探索する。
この単純なTOAMの生成と直接観察は、基礎物理学、物質の光学的操作、量子光学の研究に応用される。 The momentum carried by structured light fields exhibits a rich array of surprising features. In this work, we generate transverse orbital angular momentum (TOAM) in the interference field of two parallel and counterpropagating linearly-polarised focused beams, synthesising an array of identical handedness vortices carrying intrinsic TOAM. We explore this structured light field using an optomechanical sensor, consisting of an optically levitated silicon nanorod, whose rotation is a probe of the optical angular momentum, which generates an exceptionally large torque. This simple creation and direct observation of TOAM will have applications in studies of fundamental physics, the optical manipulation of matter and quantum optomechanics. | 翻訳日:2023-01-25 23:30:30 公開日:2022-09-20 |
# グラフェン量子ビット回路の室温機能を実現する波長可変スペクトル狭化 Tunable spectral narrowing enabling the functionality of graphene qubit circuits at room temperature ( http://arxiv.org/abs/2209.09747v1 ) ライセンス: Link先を確認 | S. E. Shafraniuk | (参考訳) ジグザグ原子縁(zz-stripes)を持つグラフェンストライプに基づく量子ドットクラスターと配列の電気制御可能な量子コヒーレンスをdirac方程式とs行列法を用いて研究した。
各マルチ量子ビット回路は、コヒーレンス時間が隣接区間におけるatバンド間の電子輸送による固有スペクトル狭化により数桁長くなると、室温まで安定した動作を約束する。
また、非弾性電子フォノン散乱を抑えながら、雑音環境への量子ビットの結合を減少させる。
Starkスプリッティング技術は、エネルギーレベル位置と幅のすべての{電気的チューニング、レベル分割、キュービット間カップリングの制御、コヒーレンス時間などの幅広い操作を可能にする。
共鳴エネルギーでは、位相コヒーレンスは数千の期間にわたって広がる。
このような現象は、室温での量子コンピューティングや通信アプリケーションで利用することができる。 Electrically controllable quantum coherence in quantum dot clusters and arrays based on graphene stripes with zigzag atomic edges (ZZ-stripes) is studied using the Dirac equation and S-matrix technique. We find that respective multiqubit circuits promise stable operation up to room temperatures when the coherence time is prolonged up by a few orders of magnitude through the intrinsic spectral narrowing owing to electron transport between at bands in adjacent sections. Respectively, the coupling of qubits to a noisy environment is diminished, while the inelastic electron-phonon scattering is suppressed. The Stark splitting technique enables a broad range of operations such as all{electrical tuning of the energy level positions and width, level splitting, controlling of the inter-qubit coupling, and the coherence time. At the resonant energies, the phase coherence spreads over thousands of periods. Such phenomena potentially can be utilized in quantum computing and communication applications at room temperature. | 翻訳日:2023-01-25 23:30:18 公開日:2022-09-20 |
# 崩壊ダイナミクスは拡散する Collapse dynamics are diffusive ( http://arxiv.org/abs/2209.09697v1 ) ライセンス: Link先を確認 | Sandro Donadi, Luca Ferialdi and Angelo Bassi | (参考訳) 非干渉計測実験は、大規模システムに対する量子重ね合わせ原理の違反を予測する自然波動関数崩壊のモデルに成功している。
これらの実験は、これらのモデルによると、力学が空間における波動関数を崩壊させるだけでなく、特徴的なシグネチャを持つ拡散運動を生成するノイズによって駆動されるという事実に基づいている。
非干渉的アプローチは、空間の波動関数を崩壊させるモデルではなく、ノイズのダイナミクスを通じて崩壊を実装するモデルにのみ適用できるように思われる。
合理的な仮定の下では、任意の崩壊ダイナミクス(空間内)は拡散的である。
具体的には、無信号制約を満たした任意の空間遷移不変力学は、もし空間における波動関数を崩壊させるならば、系の平均運動量および/またはその拡散を変える必要があることを証明する。 Non-interferometric experiments have been successfully employed to constrain models of spontaneous wave function collapse, which predict a violation of the quantum superposition principle for large systems. These experiments are grounded on the fact that, according to these models, the dynamics is driven by a noise that, besides collapsing the wave function in space, generates a diffusive motion with characteristic signatures, which, though small, can be tested. The non-interferometric approach might seem applicable only to those models which implement the collapse through a noisy dynamics, not to any model, which collapses the wave function in space. Here we show that this is not the case: under reasonable assumptions, any collapse dynamics (in space) is diffusive. Specifically, we prove that any space-translation invariant dynamics which complies with the no-signaling constraint, if collapsing the wave function in space, must change the average momentum of the system, and/or its spread. | 翻訳日:2023-01-25 23:29:41 公開日:2022-09-20 |
# 最適な超電導ハイブリッドマシン An optimal superconducting hybrid machine ( http://arxiv.org/abs/2209.09654v1 ) ライセンス: Link先を確認 | Rosa Lopez, Jong Soo Lim, Kun Woo Kim | (参考訳) 最適エンジン性能は量子効果によって達成される。
ここでは,(1)複数の有用なタスクをこなせるハイブリッドマシンとして動作する量子システム,(2)そのようなタスクを行う際の変動の抑制という,理想的なエンジンへの2つの経路を探索する。
古典的な装置では、揺らぎの欠如は熱力学的不確実性関係を規定する高いエントロピー生成によって条件付けられる。
ここでは,ハイブリッドサーマルマシンとして動作する多端子導体について,そのような関係を一般化する。
これらの関係は、通常の金属と接触した二重量子ドットと、絡み合ったクーパー対の生成体である貯水池に対して、量子導体において克服される。 Optimal engine performances are accomplished by quantum effects. Here we explore two routes towards ideal engines, namely (1) quantum systems that operate as hybrid machines being able to perform more than one useful task and (2) the suppression of fluctuations in doing such tasks. For classical devices, the absence of fluctuations is conditioned by a high entropy production as dictate the thermodynamic uncertainty relations. Here we generalize such relations for multiterminal conductors that operate as hybrid thermal machines. These relations are overcome in quantum conductors as we demonstrate for a double quantum dot contacted to normal metals and a reservoir being a generator of entangled Cooper pairs. | 翻訳日:2023-01-25 23:29:25 公開日:2022-09-20 |
# ロバスト量子最適制御によるラムダイク領域外の高速イオンゲート Fast Ion Gates Outside the Lamb-Dicke Regime by Robust Quantum Optimal Control ( http://arxiv.org/abs/2209.09615v1 ) ライセンス: Link先を確認 | Xiaodong Yang, Yiheng Lin, Yao Lu, Jun Li | (参考訳) イオントラップ量子プロセッサ上で高速絡み合いゲートを実装するためのロバスト量子最適制御フレームワークを提案する。
この枠組みでは、調整されたレーザーパルスを利用してイオンの複数の振動サイドバンドを駆動し、フォノンを媒介する絡み合いゲートを作り、芸術の状況とは異なり、弱結合のラムダイク近似も摂動処理も必要としない。
勾配に基づく最適制御の適用により、ランブ・ディッケ政権を超えて動作する振幅および位相変調レーザー制御プロトコルを見つけ、特徴的なトラップ周波数に匹敵するマイクロ秒のゲート速度を期待できる。
また、イオンの温度と初期光位相のロバスト性要件は、実験の不完全性に対して高品質の高速ゲートを追求するために便利に含むことができる。
提案手法は,量子ゲートを高速化し,量子計算とシミュレーションのためのより大きな量子回路を実現するためのステップである。 We present a robust quantum optimal control framework for implementing fast entangling gates on ion-trap quantum processors. The framework leverages tailored laser pulses to drive the multiple vibrational sidebands of the ions to create phonon-mediated entangling gates and, unlike the state of the art, requires neither weak-coupling Lamb-Dicke approximation nor perturbation treatment. With the application of gradient-based optimal control, it enables finding amplitude- and phase-modulated laser control protocols that work beyond the Lamb-Dicke regime, promising gate speed at the order of microseconds comparable to the characteristic trap frequencies. Also, robustness requirements on the temperature of the ions and initial optical phase can be conveniently included to pursue high-quality fast gates against experimental imperfections. Our approach represents a step in speeding up quantum gates to achieve larger quantum circuits for quantum computation and simulation, and thus can find applications in near-future experiments. | 翻訳日:2023-01-25 23:29:15 公開日:2022-09-20 |
# Tavis-Cummings-Hubbardモデルにおける中性水素分子のモデリングとシミュレーション Modeling and simulating formation of neutral hydrogen molecule in Tavis-Cummings-Hubbard model ( http://arxiv.org/abs/2209.09607v1 ) ライセンス: Link先を確認 | Miao Hui-hui and Ozhigov Yuri Igorevich | (参考訳) 中性水素分子の結合解離モデルと呼ばれる光学キャビティに置かれた量子ドット上に2つの2レベル人工原子を持つ有限次元化学モデルを記述する。
中性水素分子の人工類似体形成の初期条件について論じる。
原子核の運動は量子形式で表される。
分子内の原子の結合は量子マスター方程式によってシミュレートされ、原子軌道の分子へのハイブリダイゼーションが核の位置に依存する。
電子の電子スピン転移や電子と核のスピンスピン相互作用も考慮される。
フォトニックモードの温度変化が一元進化および中性水素分子の形成に及ぼす影響について検討した。 A finite-dimensional model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, called the association-dissociation model of neutral hydrogen molecule, is described. The initial conditions for formation of the artificial analogue of the neutral hydrogen molecule are discussed. The motion of the nuclei can be represented in quantum form. The association of atoms in the molecule is simulated through a quantum master equation, containing hybridization of atomic orbitals into molecular - depending on the position of the nuclei. Electron spin transitions of electrons and spin-spin interactions between electrons and nuclei are also considered. The influence of temperature variation of photonic modes to unitary evolution and formation of neutral hydrogen molecule is investigated. | 翻訳日:2023-01-25 23:28:56 公開日:2022-09-20 |
# 任意波形発生器のない量子最適制御 Quantum Optimal Control without Arbitrary Waveform Generators ( http://arxiv.org/abs/2209.09869v1 ) ライセンス: Link先を確認 | Qi-Ming Chen and Herschel Rabitz and Re-Bing Wu | (参考訳) 大きな量子情報プロセッサを操作するには、シンプルで正確で堅牢な制御が必要である。
しかし、高忠実度量子制御への既存の経路は、スケールアップが難しい任意の波形発生器に大きく依存している。
ここで、量子システムの任意の制御は、単に適切なシーケンスの制御フィールドをオン・オフするだけで実現できることを示す。
スイッチングインスタンスは従来の量子最適制御アルゴリズムで設計できるが、行列指数関数に必要な計算資源は大幅に削減できる。
結果の制御プロトコルの柔軟性と堅牢性を実証し、それを超伝導量子回路に適用して図示する。
我々は、この提案が、スケーラブルな量子コンピューティングに向けた重要なステップを提供する現在の半導体および超伝導技術と容易に対応できることを期待している。 Simple, precise, and robust control is demanded for operating a large quantum information processor. However, existing routes to high-fidelity quantum control rely heavily on arbitrary waveform generators that are difficult to scale up. Here, we show that arbitrary control of a quantum system can be achieved by simply turning on and off the control fields in a proper sequence. The switching instances can be designed by conventional quantum optimal control algorithms, while the required computational resources for matrix exponential can be substantially reduced. We demonstrate the flexibility and robustness of the resulting control protocol, and apply it to superconducting quantum circuits for illustration. We expect this proposal to be readily achievable with current semiconductor and superconductor technologies, which offers a significant step towards scalable quantum computing. | 翻訳日:2023-01-25 23:22:54 公開日:2022-09-20 |
# 1+1次元QCDのハドロンにおける原子価と海クォークの絡み合い Entanglement between Valence and Sea Quarks in Hadrons of 1+1 Dimensional QCD ( http://arxiv.org/abs/2209.09867v1 ) ライセンス: Link先を確認 | Peter J. Ehlers | (参考訳) 原子価と海クォークの分離の概念的な解釈は、パートン模型の重要な側面であり、ハドロン構造の直観的な図式であり、qcdの量子効果によって曖昧になる。
このことは、QCDに存在するが、VS(Valence-sea)の明確な分離を伴う直感的な画像には存在しないクォーク自由度間の絡み合いの尺度が存在することを示唆している。
本稿では,QCDにおけるVSエンタングルメントの最初の厳密な尺度を定義し,この問題に概念的明確性をもたらすこと,そして潜在的にQCD境界状態へのパートンモデルの適用可能性の尺度を求める。
このVSの絡み合いは、大きな$N_c$極限で消え、有限$N_c$状態が大きな$N_c$状態と似ている場合、依然として低い。
1+1次元離散光錐量子化QCDにおけるVSエンタングルメントの数値解析を行い、その過程で1+1d QCDのカラーシンクレットベースを構築する方法を開発した。
このVSエンタングルメントエントロピーを初めて計算し、基底状態ハドロンのVSエントロピーが最小となるスペクトルの他の全ての状態と比較して、中間子とバリオンの両方の最初の少数の励起状態に対して相対的に低いことを発見した。
また、基底状態中間子の場合、エントロピーは1/N_c$近似でよく説明される。
これらの結果は、低エネルギーハドロンが大きなN_c$展開を持つ唯一のQCDバウンド状態であり、おそらくパートンモデルが正確な記述をもたらすことを示唆している。
この研究は、QCDの3+1dにおけるVSエンタングルメントエントロピーがクォークとハドロンの自由度の間の遷移の順序パラメータとして機能し、大きなN_c$展開によって摂動的にアクセス可能であるという最初の証拠も提供する。 The conceptual interpretation of valence- and sea-quark separation, which is a key aspect of the parton model and of an intuitive picture of hadron structure, becomes obscured by quantum effects in QCD. This suggests that there may be measures of entanglement between quark degrees of freedom that are present in QCD, but absent in the intuitive picture with a clear valence-sea (VS) separation. In this paper, we define the first rigorous measure of VS entanglement in QCD in an attempt to bring conceptual clarity to this issue, and, potentially, to find a measure of the applicability of the parton model to QCD bound states. This VS entanglement vanishes in the large-$N_c$ limit, and it remains low when finite-$N_c$ states resemble their large-$N_c$ counterparts. We perform a numerical study of VS entanglement in 1+1 dimensional discrete light-cone quantized QCD, and in the process develop a method for building the color-singlet basis of 1+1d QCD that is manifestly complete and orthogonal by construction. We calculate this VS entanglement entropy for the first time and find that it is relatively low for the first few excited states of both mesons and baryons compared to all other states in the spectrum, with the VS entropy of ground state hadrons providing a minimum. We also see that for ground state mesons the entropy is well described in the $1/N_c$ approximation. These results suggest that low energy hadrons may be the only QCD bound states for which the large-$N_c$ expansion, and perhaps the parton model, provide an accurate description. This work also provides the first evidence that the VS entanglement entropy of QCD in 3+1d, which would likely serve as an order parameter for the transition between quark and hadron degrees of freedom, may be perturbatively accessible through a large-$N_c$ expansion. | 翻訳日:2023-01-25 23:22:44 公開日:2022-09-20 |
# バナジウムフタロシアニン分子を用いた単一量子エミッタの光学的キャラクタリゼーション Optical Characterization of a Single Quantum Emitter Based on Vanadium Phthalocyanine Molecules ( http://arxiv.org/abs/2209.09842v1 ) ライセンス: Link先を確認 | Richard Escalante, Mohan C. Mathpal, Luis J. Mart\'inez, Lo\"ik Gence, Griselda Garcia, Iv\'an A. Gonz\'alez, Jer\'onimo R. Maze | (参考訳) 単一量子エミッターは量子リピータや量子情報処理といった量子技術の発展において基本的な役割を果たす。
個々の分子を安定な光放射で分離することはこれらの用途、特に室温で大きなコヒーレンス時間を示す分子にとって重要なステップである。
そのうち、バナジウム酸化フタロシアニン(VOPc)分子は、アンサンブルで測定されるコヒーレンス時間が大きいため、有望な候補である。
しかし、個々の分子の光学的性質はまだ報告されていない。
ここでは室温で安定な光学特性を持つ単一のVOPc分子を分離可能であることを示す。
異なる偏極のレーザー照射下での分子の光応答は、ピラミッド型c$_{4v}$対称性を持つ系とよく一致することが判明した。
さらに、分子は、その寿命が尋問されたときに励起波長に依存する非放射遷移速度を示す。
実験結果を裏付ける理論的計算を行い、フォノンの役割と分子の内部電子構造についての洞察を与える。
これらの結果から、この1つの常磁性分子は、環境条件下で光学的安定性を示しながら単一量子エミッタとして機能し、本質的性質を調べることができることが示された。 Single quantum emitters play a fundamental role in the development of quantum technologies such as quantum repeaters, and quantum information processing. Isolating individual molecules with stable optical emission is an essential step for these applications, specially for those molecules that present large coherence times at room temperature. Among them, vanadium-oxide phthalocyanine (VOPc) molecules stand out as promising candidates due to their large coherence times measured in ensemble. However, the optical properties of individual molecules have not yet been reported. Here we show that single VOPc molecules with stable optical properties at room temperature can be isolated. We find that the optical response of the molecule under laser illumination of different polarization agrees well with a system having pyramidal C$_{4v}$ symmetry. Furthermore, the molecule reveals a non-radiative transition rate that depends on the excitation wavelength when its lifetime is interrogated. We provide theoretical calculations that support our experimental findings and provide insight to the role of phonons and internal electronic structure of the molecule. These results demonstrate that this single paramagnetic molecule can function as a single quantum emitter while displaying optical stability under ambient conditions to have their intrinsic properties investigated. | 翻訳日:2023-01-25 23:22:07 公開日:2022-09-20 |
# 固有状態熱化のない熱化 Thermalization without eigenstate thermalization ( http://arxiv.org/abs/2209.09826v1 ) ライセンス: Link先を確認 | Aram W. Harrow and Yichen Huang | (参考訳) 孤立量子多体系における一元進化の過程において、サブシステムの熱化の研究を行い、残りの系を浴として扱う。
この設定では、固有状態熱化仮説(ETH)が熱化を説明するために提案された。
ほぼ可積分なsachdev-ye-kitaevモデルを考えると、ランダムな自由フェルミオンモデルに対する摂動として、無作為な全対体相互作用を付加することで得られる。
サブシステムのサイズが平方根よりも大きいが、それでも系のサイズが消える割合である場合、系がランダムな積状態で初期化され、ほぼすべての固有状態がETHに反することを示す。
この意味で、ETHは熱化に必要な条件ではない。 In an isolated quantum many-body system undergoing unitary evolution, we study the thermalization of a subsystem, treating the rest of the system as a bath. In this setting, the eigenstate thermalization hypothesis (ETH) was proposed to explain thermalization. Consider a nearly integrable Sachdev-Ye-Kitaev model obtained by adding random all-to-all $4$-body interactions as a perturbation to a random free-fermion model. When the subsystem size is larger than the square root of but is still a vanishing fraction of the system size, we prove thermalization if the system is initialized in a random product state, while almost all eigenstates violate the ETH. In this sense, the ETH is not a necessary condition for thermalization. | 翻訳日:2023-01-25 23:21:47 公開日:2022-09-20 |
# 40dB以上のLiDARを提供する量子および非局所効果 Quantum and Non-local Effects Offer LiDAR over 40dB Advantage ( http://arxiv.org/abs/2209.09799v1 ) ライセンス: Link先を確認 | Phillip S. Blakey, Han Liu, Georgios Papangelakis, Yutian Zhang, Zacharie M. Leger, Meng Lon Iu, Amr S. Helmy | (参考訳) 非局所効果は、実験室環境だけでなく実践的な実装においても古典的なLiDARよりも有利になるように、量子強化LiDARを根本的に前進させる可能性がある。
本研究では,従来の位相非感性LiDARシステムと比較して,時間周波数の絡み合いに基づく量子強化LiDARを用いた43dB低信号対雑音比を示す。
我々のシステムは、検出器飽和前にLiDARシステムをカウントする古典的な単光子よりも3桁以上のノイズを許容することができる。
これらの利点を達成するため, 極端に大きい検出時間不確実性の順序にもかかわらず, 光子対の強い時間相関を利用するために分散の非局所キャンセルを用いる。
このスキームを,ノイズのある環境における非反射対象の撮像に,目的を組み込んだ走査集光光学に組み込む。 Non-local effects have the potential to radically move forward quantum enhanced LiDAR to provide an advantage over classical LiDAR not only in laboratory environments but practical implementation. In this work, we demonstrate a 43dB lower signal-to-noise ratio using a quantum enhanced LiDAR based on time-frequency entanglement compared with a classical phase-insensitive LiDAR system. Our system can tolerate more than 3 orders of magnitude higher noise than classical singlephoton counting LiDAR systems before detector saturation. To achieve these advantages, we use non-local cancellation of dispersion to take advantage of the strong temporal correlations in photon pairs in spite of the orders of magnitude larger detector temporal uncertainty. We go on to incorporate this scheme with purpose-built scanning collection optics to image non-reflecting targets in an environment with noise. | 翻訳日:2023-01-25 23:21:20 公開日:2022-09-20 |
# 量子ビット制御のためのバイポーラ単一フラックス量子パルス列探索のための遺伝的アルゴリズム Genetic algorithm for searching bipolar Single-Flux-Quantum pulse sequences for qubit control ( http://arxiv.org/abs/2209.09790v1 ) ライセンス: Link先を確認 | M.V. Bastrakova, D.S. Kulandin, T. Laptyeva, V.A. Vozhakov, A.V. Liniov | (参考訳) 現在、超伝導量子プロセッサのほとんどはトランスモン型の電荷量子ビットを使用している。
それらはエネルギー効率の良い量子状態制御スキームの実装を必要とする。
有望なアプローチは、単一磁束量子(SFQ)パルスで動作する超伝導デジタル回路を使用することである。
SFQパルス制御シーケンスの持続時間は通常、従来のマイクロ波駆動パルスよりも大きいが、その長さは既知のパラメータを持つシステムに最適化できる。
本稿では,計算部分空間からの量子ビット状態の漏洩を最小化する一極性または双極性sfq制御シーケンス探索のための遺伝的アルゴリズムを提案する。
アルゴリズムはまた、制御チップのメモリを保存するために繰り返しサブシーケンスの形で解を見つけることもできる。
その並列実装は、適切な時間内に実用範囲から任意のシステムパラメータの適切なシーケンスを見つけることができる。
このアルゴリズムは軸周りの回転ゲートの例で、99.99%以上の忠実度を持つ角度$\pi/2$で示される。
本稿では, 単一キュービットシステムに対する結果について述べるが, 将来的には2つのキュービットシステムの研究に, 先進的なアプローチを適用する。 Nowadays most of superconducting quantum processors use charge qubits of a transmon type. They require implementation of energy efficient qubit state control scheme. A promising approach is the use of superconducting digital circuits operating with single-flux-quantum (SFQ) pulses. The duration of SFQ pulse control sequence is typically larger than that of conventional microwave drive pulses but its length can be optimized for the system with known parameters. Here we introduce a genetic algorithm for unipolar or bipolar SFQ control sequence search that minimize qubit state leakage from the computational subspace. The algorithm is also able to find a solution in the form of a repeating subsequence in order to save memory on the control chip. Its parallel implementation can find the appropriate sequence for arbitrary system parameters from a practical range in a reasonable time. The algorithm is illustrated by the example of the rotation gate around the axis by an angle $\pi/2$ with fidelity over 99.99%. In this paper, we present the results for a single-qubit system, but in the future we will apply the developed approach to study a system of two qubits. | 翻訳日:2023-01-25 23:20:08 公開日:2022-09-20 |
# パルスドットドナー核スピン間の分散キャビティを介する量子ゲート Dispersive cavity-mediated quantum gate between driven dot-donor nuclear spins ( http://arxiv.org/abs/2209.10026v1 ) ライセンス: Link先を確認 | Jonas Mielke and Guido Burkard | (参考訳) 核スピンは、非常に長いコヒーレンス時間を示すが、核スピン量子ビットの制御に関しては、その環境からの良好な隔離が課題である。
特に難しいのは、核スピン量子ビットだけでなく、遠い量子ビット間の2量子ゲートの実現である。
近年、電子スピンとマイクロ波共振器光子 [1,2] の強い結合と、共振性[3]と分散性[4]レジームの両方で2つの電子スピンを媒介するマイクロ波共振器の結合が報告されており、マイクロ波共振器を媒介とする電子スピン2量子ゲート [5] が到達しているようである。
これらの知見に触発されて、我々はマイクロ波共振器とSiホスト材料に埋め込まれたゲート定義Si QDと側方置換$^{31}$Pリンドナー原子からなるハイブリッド量子ドットドナー(QDD)システムとの相互作用を理論的に検討した。
QDDシステムの駆動は、MHz系におけるドナー核スピン分裂とGHz系における典型的な超伝導共振器周波数との周波数ミスマッチを補償し、有効な核スピン光子結合を可能にする。
この結合が弱くなると予想する一方で、マイクロ波共振器に分散して2つの離れたQDD系の核スピンを結合することで、共振器を媒介する核スピンを2-qubit $\sqrt{i\mathrm{SWAP}}$ゲートで実装できると予測する。
[1] X. Mi et al., Nature 555, 599 (2018)。
[2] N. Samkharadze et al., Science 359, 1123 (2018)。
[3] f. borjans et al., nature 577, 195 (2020)。
[4]P. Harvey-Collard et al., arXiv:2108.01206 (2021)
M. Benito et al., Phys.
a b 100, 081412 (2019)。 Nuclear spins show exceptionally long coherence times but the underlying good isolation from their environment is a challenge when it comes to controlling nuclear spin qubits. A particular difficulty, not only for nuclear spin qubits, is the realization of two-qubit gates between distant qubits. Recently, strong coupling between an electron spin and microwave resonator photons [1,2] as well as a microwave resonator mediated coupling between two electron spins both in the resonant [3] and the dispersive [4] regime have been reported and, thus, a microwave resonator mediated electron spin two qubit gate [5] seems to be in reach. Inspired by these findings, we theoretically investigate the interaction of a microwave resonator with a hybrid quantum dot-donor (QDD) system consisting of a gate defined Si QD and a laterally displaced $^{31}$P phosphorous donor atom implanted in the Si host material. We find that driving the QDD system allows to compensate the frequency mismatch between the donor nuclear spin splitting in the MHz regime and typical superconducting resonator frequencies in the GHz regime, and also enables an effective nuclear spin-photon coupling. While we expect this coupling to be weak, we predict that coupling the nuclear spins of two distant QDD systems dispersively to the microwave resonator allows the implementation of a resonator mediated nuclear spin two-qubit $\sqrt{i\mathrm{SWAP}}$ gate with a gate fidelity approaching $95\%$. [1] X. Mi et al., Nature 555, 599 (2018). [2] N. Samkharadze et al., Science 359, 1123 (2018). [3] F. Borjans et al., Nature 577, 195 (2020). [4] P. Harvey-Collard et al., arXiv:2108.01206 (2021). [5] M. Benito et al., Phys. Rev. B 100, 081412 (2019). | 翻訳日:2023-01-25 23:12:46 公開日:2022-09-20 |
# 事象の地平線は量子絡み合いの調整可能な工場である Event horizons are tunable factories of quantum entanglement ( http://arxiv.org/abs/2209.09980v1 ) ライセンス: Link先を確認 | Ivan Agullo, Anthony J. Brady, Dimitrios Kranas | (参考訳) この事象の地平線はホーキング効果を通じて量子相関を生成することはよく知られている。
しかし、この地平線を適切に照らすことにより、絡み合いの生成を望ましいように調整できると主張する。
量子情報理論の手法を応用してホーキング過程中に生じる絡み合いを定量化し,周囲の熱雑音(cmb放射など)が劣化する一方で,内部領域と外部領域との非分離性が制御された方法で高まることを示した。
我々はさらに、実験室で合成されたアナログ事象の地平線に適用し、エンタングルメントの生成を調整できることは、解明されたホーキング効果の量子シグネチャを検出するための有望な手段であると主張する。 That event horizons generate quantum correlations via the Hawking effect is well known. We argue, however, that the creation of entanglement can be modulated as desired, by appropriately illuminating the horizon. We adapt techniques from quantum information theory to quantify the entanglement produced during the Hawking process and show that, while ambient thermal noise (e.g., CMB radiation) degrades it, the use of squeezed inputs can boost the non-separability between the interior and exterior regions in a controlled manner. We further apply our ideas to analog event horizons concocted in the laboratory and insist that the ability to tune the generation of entanglement offers a promising route towards detecting quantum signatures of the elusive Hawking effect. | 翻訳日:2023-01-25 23:12:07 公開日:2022-09-20 |
# パス絡み合った部分空間量子鍵分布の耐雑音性解析 Improved noise resistance analysis for path-entangled subspace quantum key distribution ( http://arxiv.org/abs/2209.09970v1 ) ライセンス: Link先を確認 | Osk\'ar Adam V\'alent and Matej Pivoluska | (参考訳) 我々は[Phys.Rev.Lett.~127,~110505,~2021]で報告された経路絡みによる高次元量子鍵分布プロトコルの実践的実装を再考する。
そこで本研究では,無騒音実験データに対する各種チャネル雑音の影響をシミュレーションし,雑音ロバスト性解析を洗練する。
さらに,解析を2種類の非対称なシナリオに拡張する。
最初のシナリオでは、絡み合いの源はアリスの研究室に置かれているため、1つのノイズチャンネルだけを考慮する必要がある。
第2のシナリオでは、ボブの検出器は異なる物理的位置に配置されるため、そのようなシナリオは単純な通信ネットワークを実装している。
この解析は他の実験プラットフォームにも拡張できるため、高次元量子鍵分散プロトコルの公正なノイズロバスト性比較のための新しいフレームワークを提供する。 We revisit the practical implementation of high-dimensional quantum key distribution protocol using path entanglement reported in [Phys.Rev.Lett.~127,~110505,~2021]. Here we refine the noise robustness analysis performed there by simulating the effect of different types of channel noise on the noiseless experimental data. Further, we extend the analysis to two kinds of asymmetric scenarios. In the first scenario the entanglement source is placed in Alice's lab and thus Only one noisy channel has to be considered. In the second scenario, Bob's detectors are placed at different physical locations and therefore such scenario implements a simple communication network. Our analysis can also be extended to other experimental platforms and therefore provides a novel framework for fair noise robustness comparison of high-dimensional quantum key distribution protocols. | 翻訳日:2023-01-25 23:11:50 公開日:2022-09-20 |
# 量子コンピュータにおける放射過程 Radiative processes on a quantum computer ( http://arxiv.org/abs/2209.09962v1 ) ライセンス: Link先を確認 | Paulo F. Bedaque, Ratna Khadka, Gautam Rupak, Muhammad Yusf | (参考訳) 粒子の衝突や崩壊によって光子/ニュートリノが放出される放射過程は、原子、核、および粒子物理学において中心的な役割を果たす。
その速度は初期状態と最終状態の異なる特定の対角行列要素によって決定される。
量子コンピュータを用いて計算する手法を提案する。
特定の意味では光子/ニュートリノを表す1つの余剰量子ビットに依存している。
この行列要素を余剰量子ビットの振動の振幅と周波数に関連付ける一般的な公式は、単に近接共鳴の場合に従う。
本手法を実際の量子計算や単純なシステムのシミュレーションに利用することで実現可能性を示す。 Radiative processes, where a photon/neutrino is emitted as a result of a collision or decay of a particle, play a central role in atomic, nuclear and particle physics. Their rate is determined by certain off-diagonal matrix elements with different initial and final states. We propose a method to compute them using quantum computers. It relies on a single extra qubit that, in a certain sense, represents the photon/neutrino. The generic formula relating this matrix element to the amplitude and frequency of oscillations of the extra qubit follows simply in the near resonance case. We demonstrate the feasibility of the method by using it in actual quantum computations and simulations of simple systems. | 翻訳日:2023-01-25 23:11:38 公開日:2022-09-20 |
# 絡み合いの前提条件としての文脈性 Contextuality as a precondition for entanglement ( http://arxiv.org/abs/2209.09942v1 ) ライセンス: Link先を確認 | Martin Pl\'avala, Otfried G\"uhne | (参考訳) 量子理論は、情報処理タスクのリソースとして考えられるいくつかの現象を特徴としている。
これらの効果のいくつか、例えば絡み合いは、異なるパーティ間で量子状態が分散される非局所的なシナリオで生じる。
文脈性のような他の現象は、量子状態が準備され、次に測定の順序に従うと観測できる。
ここでは,非局所的シナリオの絡み合いが,非局所的シナリオから派生した逐次シナリオにおいて,非局所的シナリオの絡み合いが存在する場合にのみ生じることを証明することにより,異なる資源間の密接な関係を示す。
さらに、絡み合いの欠如は文脈性の欠如を意味する。
直接的な結果として,本研究の結果は, 準備・測定における不平等を絡み合いテストに変換することができ, さらに, 絡み合いの証人は, 新たな文脈不平等を得るために利用できる。 Quantum theory features several phenomena which can be considered as resources for information processing tasks. Some of these effects, such as entanglement, arise in a non-local scenario, where a quantum state is distributed between different parties. Other phenomena, such as contextuality can be observed, if quantum states are prepared and then subjected to sequences of measurements. Here we provide an intimate connection between different resources by proving that entanglement in a non-local scenario can only arise if there is preparation & measurement contextuality in a sequential scenario derived from the non-local one by remote state preparation. Moreover, the robust absence of entanglement implies the absence of contextuality. As a direct consequence, our result allows to translate any inequality for testing preparation & measurement contextuality into an entanglement test; in addition, entanglement witnesses can be used to obtain novel contextuality inequalities. | 翻訳日:2023-01-25 23:11:28 公開日:2022-09-20 |
# 複素量子アルゴリズムのための計算回路のパラメトリック合成 Parametric Synthesis of Computational Circuits for Complex Quantum Algorithms ( http://arxiv.org/abs/2209.09903v1 ) ライセンス: Link先を確認 | Cesar Borisovich Pronin, Andrey Vladimirovich Ostroukh | (参考訳) 量子回路は、主に量子ビットを象徴する線上に論理要素を手動で配置することによって作られる。
量子回路合成器"Naginata"を作成する目的は、量子アルゴリズムにおける演算数がわずかに増加しても、対応する量子回路のサイズが大幅に増加するという事実による。
これにより、これらの量子回路の作成とデバッグが困難になる。
量子シンセサイザの目的は、ユーザが高レベルコマンドを使って量子アルゴリズムを実装する機会を提供することです。
これは、加算器、乗算器、デジタルコンパレータ(比較演算子)など、頻繁に使用される操作のためのジェネリックブロックを作成することで実現される。
したがって、ユーザーはこれらの汎用ブロックを用いて量子アルゴリズムを実装でき、量子シンセサイザーは選択された量子計算環境によってサポートされているフォーマットで、このアルゴリズムに適した回路を作成することになる。
このアプローチは量子アルゴリズムの開発とデバッグのプロセスを大幅に単純化する。
量子アルゴリズムを実装するための提案手法は、機械学習分野への応用の可能性があり、この点において、簡単なニューラルネットワークをトレーニングするための回路を作成する例を示した。
ニューラルネットワークは、輸送と道路複合体の技術的発展に大きな影響を与え、量子コンピューティングの導入を通じて、量子計算を利用して学習プロセスの信頼性と効率を向上させる可能性を秘めている。 At the moment, quantum circuits are created mainly by manually placing logic elements on lines that symbolize quantum bits. The purpose of creating Quantum Circuit Synthesizer "Naginata" was due to the fact that even with a slight increase in the number of operations in a quantum algorithm, leads to the significant increase in size of the corresponding quantum circuit. This causes serious difficulties both in creating and debugging these quantum circuits. The purpose of our quantum synthesizer is enabling users an opportunity to implement quantum algorithms using higher-level commands. This is achieved by creating generic blocks for frequently used operations such as: the adder, multiplier, digital comparator (comparison operator), etc. Thus, the user could implement a quantum algorithm by using these generic blocks, and the quantum synthesizer would create a suitable circuit for this algorithm, in a format that is supported by the chosen quantum computation environment. This approach greatly simplifies the processes of development and debugging a quantum algorithm. The proposed approach for implementing quantum algorithms has a potential application in the field of machine learning, in this regard, we provided an example of creating a circuit for training a simple neural network. Neural networks have a significant impact on the technological development of the transport and road complex, and there is a potential for improving the reliability and efficiency of their learning process by utilizing quantum computation, through the introduction of quantum computing. | 翻訳日:2023-01-25 23:10:42 公開日:2022-09-20 |
# ガウス過程の促進 Gaussian Process Boosting ( http://arxiv.org/abs/2004.02653v6 ) ライセンス: Link先を確認 | Fabio Sigrist | (参考訳) ブースティングとガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
これにより、ガウス過程における事前平均関数と群化されたランダム効果モデルに対するゼロまたは線形性仮定を柔軟な非パラメトリックな方法で緩和し、第二に、ほとんどのブースティングアルゴリズムでなされる独立性仮定を可能にする。
前者は予測精度とモデルの誤特定を避けるために有利である。
後者は固定効果予測関数の効率的な学習と確率的予測を得る上で重要である。
提案アルゴリズムは,高次心電図の分類変数を扱う新しい手法でもある。
さらに,共分散パラメータ推定のための新しい結果に依存するガウス過程モデルに対して,vecchia近似を用いた大規模データへの拡張を提案する。
複数のシミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。 We introduce a novel way to combine boosting with Gaussian process and mixed effects models. This allows for relaxing, first, the zero or linearity assumption for the prior mean function in Gaussian process and grouped random effects models in a flexible non-parametric way and, second, the independence assumption made in most boosting algorithms. The former is advantageous for prediction accuracy and for avoiding model misspecifications. The latter is important for efficient learning of the fixed effects predictor function and for obtaining probabilistic predictions. Our proposed algorithm is also a novel solution for handling high-cardinality categorical variables in tree-boosting. In addition, we present an extension that scales to large data using a Vecchia approximation for the Gaussian process model relying on novel results for covariance parameter inference. We obtain increased prediction accuracy compared to existing approaches on multiple simulated and real-world data sets. | 翻訳日:2022-12-16 06:11:09 公開日:2022-09-20 |
# DTR Bandit: 低レグレットで応答適応型決定を学習する DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret ( http://arxiv.org/abs/2005.02791v3 ) ライセンス: Link先を確認 | Yichun Hu and Nathan Kallus | (参考訳) 動的治療体制(DTR)はパーソナライズされ適応された多段階の治療計画であり、個々の初期特徴とその後の段階における中間結果と特徴の両方に適応し、前段階の意思決定に影響される。
例えば、糖尿病、がん、うつ病などの慢性疾患のパーソナライズされた第一線および第二線治療は、第一線治療に対する患者の反応、疾患の進行、個人の特性に適応する。
既存の文献では, 逐次ランダム化試験などのオフラインデータから最適dtrを推定することが主眼であるが, 個人間の相互作用が蓄積報酬と今後の学習のためのデータ収集の両方に影響を及ぼすオンライン手法による最適dtrの開発の問題について検討する。
これをDTRバンドイット問題と呼ぶ。
本研究では,探索と搾取を慎重にバランスさせることで,トランジッションモデルと報酬モデルが線形な場合のレート最適後悔を実現する新しいアルゴリズムを提案する。
我々は,本アルゴリズムとその利点を,実世界のデータを用いた大うつ病の適応治療のケーススタディと合成実験で実証した。 Dynamic treatment regimes (DTRs) are personalized, adaptive, multi-stage treatment plans that adapt treatment decisions both to an individual's initial features and to intermediate outcomes and features at each subsequent stage, which are affected by decisions in prior stages. Examples include personalized first- and second-line treatments of chronic conditions like diabetes, cancer, and depression, which adapt to patient response to first-line treatment, disease progression, and individual characteristics. While existing literature mostly focuses on estimating the optimal DTR from offline data such as from sequentially randomized trials, we study the problem of developing the optimal DTR in an online manner, where the interaction with each individual affect both our cumulative reward and our data collection for future learning. We term this the DTR bandit problem. We propose a novel algorithm that, by carefully balancing exploration and exploitation, is guaranteed to achieve rate-optimal regret when the transition and reward models are linear. We demonstrate our algorithm and its benefits both in synthetic experiments and in a case study of adaptive treatment of major depressive disorder using real-world data. | 翻訳日:2022-12-06 05:14:24 公開日:2022-09-20 |
# Acme: 分散強化学習のための研究フレームワーク Acme: A Research Framework for Distributed Reinforcement Learning ( http://arxiv.org/abs/2006.00979v2 ) ライセンス: Link先を確認 | Matthew W. Hoffman, Bobak Shahriari, John Aslanides, Gabriel Barth-Maron, Nikola Momchev, Danila Sinopalnikov, Piotr Sta\'nczyk, Sabela Ramos, Anton Raichuk, Damien Vincent, L\'eonard Hussenot, Robert Dadashi, Gabriel Dulac-Arnold, Manu Orsini, Alexis Jacq, Johan Ferret, Nino Vieillard, Seyed Kamyar Seyed Ghasemipour, Sertan Girgin, Olivier Pietquin, Feryal Behbahani, Tamara Norman, Abbas Abdolmaleki, Albin Cassirer, Fan Yang, Kate Baumli, Sarah Henderson, Abe Friesen, Ruba Haroun, Alex Novikov, Sergio G\'omez Colmenarejo, Serkan Cabi, Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Andrew Cowie, Ziyu Wang, Bilal Piot, Nando de Freitas | (参考訳) 深層強化学習(rl)は、近年、そして画期的な進歩をもたらした。
しかしながら、これらの進歩は、基礎となるアーキテクチャをトレーニングする際のスケールの増大と、トレーニングに使用するRLアルゴリズムの複雑さの増大の両方のコストが伴うことが多い。
これらの増加により、研究者が新しいアイデアを迅速にプロトタイプしたり、公開されたRLアルゴリズムを再現することがより困難になった。
これらの懸念に対処するため、本書ではacmeについて説明する。これは新しいrlアルゴリズムを構築するためのフレームワークで、様々な実行スケールで使用できるシンプルでモジュール化されたコンポーネントを使用して構築されたエージェントを可能にするように設計されている。
acmeの第一の目的はアルゴリズム開発のためのフレームワークを提供することであるが、第二の目的は重要なアルゴリズムや最先端アルゴリズムの簡単な参照実装を提供することである。
これらの実装は、設計決定の検証と、RL研究における再現性への重要な貢献の両方に役立ちます。
本稿では,Acmeにおける設計決定について述べるとともに,そのコンポーネントをさまざまなアルゴリズムの実装に利用する方法について,さらに詳しく述べる。
我々の実験は、多くの一般的な最先端のアルゴリズムのベースラインを提供し、これらのアルゴリズムがより大きく複雑な環境でどのようにスケールアップできるかを示している。
これはAcmeの主な利点の1つを浮き彫りにしている。すなわち、大規模に実行できる大規模な分散RLアルゴリズムの実装に使用することができ、その実装の固有の可読性を維持しながら利用できる。
この論文は、モジュラリティの増大、デモアルゴリズムによるオフライン、模倣、学習の強化、acmeの一部として実装された様々な新しいエージェントと一致した、第2版の論文である。 Deep reinforcement learning (RL) has led to many recent and groundbreaking advances. However, these advances have often come at the cost of both increased scale in the underlying architectures being trained as well as increased complexity of the RL algorithms used to train them. These increases have in turn made it more difficult for researchers to rapidly prototype new ideas or reproduce published RL algorithms. To address these concerns this work describes Acme, a framework for constructing novel RL algorithms that is specifically designed to enable agents that are built using simple, modular components that can be used at various scales of execution. While the primary goal of Acme is to provide a framework for algorithm development, a secondary goal is to provide simple reference implementations of important or state-of-the-art algorithms. These implementations serve both as a validation of our design decisions as well as an important contribution to reproducibility in RL research. In this work we describe the major design decisions made within Acme and give further details as to how its components can be used to implement various algorithms. Our experiments provide baselines for a number of common and state-of-the-art algorithms as well as showing how these algorithms can be scaled up for much larger and more complex environments. This highlights one of the primary advantages of Acme, namely that it can be used to implement large, distributed RL algorithms that can run at massive scales while still maintaining the inherent readability of that implementation. This work presents a second version of the paper which coincides with an increase in modularity, additional emphasis on offline, imitation and learning from demonstrations algorithms, as well as various new agents implemented as part of Acme. | 翻訳日:2022-11-26 06:06:25 公開日:2022-09-20 |
# Promptベースの時系列予測:新しいタスクとデータセット Prompt-Based Time Series Forecasting: A New Task and Dataset ( http://arxiv.org/abs/2210.08964v1 ) ライセンス: Link先を確認 | Hao Xue and Flora D.Salim | (参考訳) 時系列予測の研究は、天気予報から人の移動や交通予測まで、幅広い応用に効果がある。
本稿では,時系列予測問題を全く新しい視点から考察する。
既存の手法では、予測モデルは入力として数値の列を取り、出力として数値を産出する。
事前学習された言語基盤モデルの成功に触発されて、これらのモデルが時系列予測タスクにも適用できるかどうかを疑問視する。
そこで我々は,新しいプロンプトベースの時系列予測(PromptCast)タスクを提案する。
このタスクでは、数値入力と出力は言語文プロンプトに変換される。
予測タスクを文から文へのフレーム化することで,予測目的の言語モデルを直接適用することができる。
本研究を支援するために,本論文では,3つの実世界の予測シナリオを含む大規模データセット(PISA)も提示する。
我々は,bart や bigbird などの言語生成モデルを用いて,最先端の数値予測手法の評価を行った。
ベンチマークの結果,言語生成モデルを用いたプロンプトに基づく時系列予測が有望な研究方向であることが示された。
また,従来の数値ベース予測と比較して,プロンプトベース予測の方が一般化能力が高い。
我々は,提案した PromptCast ベンチマークタスクと PISA データセットが新たな洞察を与え,時系列予測領域における新たな研究方向を導出できると考えている。 The research of time series forecasting benefits a wide range of applications from weather forecasting to human mobility or traffic prediction. This paper studies the time series forecasting problem from a whole new perspective. In the existing methods, the forecasting models take a sequence of numerical values as input and yield numerical values as output. Inspired by the successes of pre-trained language foundation models, we pose a question about whether these models can also be adapted to time series forecasting tasks. Thus, we propose a novel prompt-based time series forecasting (PromptCast) task. In this task, the numerical input and output are transformed into language sentence prompts. We frame the forecasting task in a sentence-to-sentence manner which makes it possible to directly apply language models for the forecasting purpose. To support and facilitate the research of this task, we also present a large-scale dataset (PISA) that includes three real-world forecasting scenarios in this paper. We evaluate different state-of-the-art numerical-based forecasting methods and language generation models such as Bart and Bigbird. The benchmark results demonstrate that the proposed prompt-based time series forecasting with language generation models is a promising research direction. In addition, in comparison to conventional numerical-based forecasting, prompt-based forecasting shows a better generalization ability. We believe that the proposed PromptCast benchmark task as well as our PISA dataset could provide novel insights and further lead to new research directions in the time series forecasting domain. | 翻訳日:2022-10-23 21:02:40 公開日:2022-09-20 |
# 適応的嗜好を有するエージェントの多角的推奨 Diversified Recommendations for Agents with Adaptive Preferences ( http://arxiv.org/abs/2210.07773v1 ) ライセンス: Link先を確認 | Arpit Agarwal, William Brown | (参考訳) エージェントが選択するコンテンツのメニューを推薦するプラットフォームを訪問したとき、アイテムの選択は、固定された好みだけでなく、プラットフォームとの以前のエンゲージメントにも依存する。
Recommenderの主な目的は、通常、広告収入などの報酬を最適化するコンテンツ消費を促進することであるが、エージェントが時間をかけて幅広いコンテンツを消費することを保証することもしばしば目的としている。
我々はこの問題を敵対的バンディットタスクとして定式化する。
各ステップで、レコメンダは、エージェントに$k$ (out of $n$)アイテムのメニューを表示し、そのエージェントは、その未知の選好モデルに従ってメニュー内の1つのアイテムを選択し、過去のアイテムの履歴を相対的な選択確率にマップする。
その後、レコメンダーはエージェントの選択したアイテムを観察し、アイテムの報酬の盗聴フィードバックを受け取る。
選択したアイテムからの報酬の最適化に加えて、リコメンダーは選択したアイテムの合計分布が十分に高いエントロピーを持つことを保証する必要がある。
局所的に学習可能な選好モデルのクラスを定義する。すなわち、領域全体の振舞いは、小さな領域の振舞いを観察するだけで推定できる。
このクラスに対して、我々はRecommenderに対して、メニュー上のいくつかの分布によって、十分に多様化し、任意の履歴において瞬時に実現可能であるという2つの条件を満たす全てのアイテム分布に対して、$\tilde{O}(T^{3/4})$後悔を与えるアルゴリズムを与える。
十分に高エントロピー分布は、あらゆる項目の歴史において瞬時に実現可能である。
また、非ローカル学習のランタイムローバウンドと代替ベンチマークの線形後悔ローバウンドという形で、仮定を正当化するネガティブな結果も与えています。 When an Agent visits a platform recommending a menu of content to select from, their choice of item depends not only on fixed preferences, but also on their prior engagements with the platform. The Recommender's primary objective is typically to encourage content consumption which optimizes some reward, such as ad revenue, but they often also aim to ensure that a wide variety of content is consumed by the Agent over time. We formalize this problem as an adversarial bandit task. At each step, the Recommender presents a menu of $k$ (out of $n$) items to the Agent, who selects one item in the menu according to their unknown preference model, which maps their history of past items to relative selection probabilities. The Recommender then observes the Agent's chosen item and receives bandit feedback of the item's reward. In addition to optimizing reward from selected items, the Recommender must also ensure that the total distribution of chosen items has sufficiently high entropy. We define a class of preference models which are locally learnable, i.e. behavior over the entire domain can be estimated by only observing behavior in a small region; this includes models representable by bounded-degree polynomials as well as functions with a sparse Fourier basis. For this class, we give an algorithm for the Recommender which obtains $\tilde{O}(T^{3/4})$ regret against all item distributions satisfying two conditions: they are sufficiently diversified, and they are instantaneously realizable at any history by some distribution over menus. We show that these conditions are closely connected: all sufficiently high-entropy distributions are instantaneously realizable at any item history. We also give a set of negative results justifying our assumptions, in the form of a runtime lower bound for non-local learning and linear regret lower bounds for alternate benchmarks. | 翻訳日:2022-10-23 21:01:01 公開日:2022-09-20 |
# 非滑らかな非凸最適化のための慣性ブロックメジャー化最小化フレームワーク An Inertial Block Majorization Minimization Framework for Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2010.12133v3 ) ライセンス: Link先を確認 | Le Thi Khanh Hien, Duy Nhat Phan, Nicolas Gillis | (参考訳) 本稿では,非滑らかな非凸最適化問題に対して,新しいinertial block majorizaTion minimizAtioNフレームワークであるTITANを紹介する。
我々の知る限り、TITANは、ブロック更新の各ステップに慣性力を埋め込みながら、メジャー化最小化フレームワークに依存するブロックコーディネート更新メソッドの最初のフレームワークである。
慣性力は、ブロック近位勾配法のために重球およびネステロフ型加速度を特別な場合として推定する外挿演算子によって得られる。
近位、リプシッツ勾配、ブレグマン、二次関数、複合サーロゲート関数などの様々なサーロゲート関数を選択し、外挿演算子を変化させることで、titanは豊富な慣性ブロック座標更新法を生成する。
我々は,TITANの生成配列に対するサブシーケンス収束とグローバル収束について検討した。
本稿では,TITANの非負行列分解と行列補完という2つの重要な機械学習問題に対する有効性について述べる。 In this paper, we introduce TITAN, a novel inerTIal block majorizaTion minimizAtioN framework for non-smooth non-convex optimization problems. To the best of our knowledge, TITAN is the first framework of block-coordinate update method that relies on the majorization-minimization framework while embedding inertial force to each step of the block updates. The inertial force is obtained via an extrapolation operator that subsumes heavy-ball and Nesterov-type accelerations for block proximal gradient methods as special cases. By choosing various surrogate functions, such as proximal, Lipschitz gradient, Bregman, quadratic, and composite surrogate functions, and by varying the extrapolation operator, TITAN produces a rich set of inertial block-coordinate update methods. We study sub-sequential convergence as well as global convergence for the generated sequence of TITAN. We illustrate the effectiveness of TITAN on two important machine learning problems, namely sparse non-negative matrix factorization and matrix completion. | 翻訳日:2022-10-04 00:21:39 公開日:2022-09-20 |
# 知識を考慮したベイズディープトピックモデル Knowledge-Aware Bayesian Deep Topic Model ( http://arxiv.org/abs/2209.14228v1 ) ライセンス: Link先を確認 | Dongsheng Wang, Yishi Xu, Miaoge Li, Zhibin Duan, Chaojie Wang, Bo Chen and Mingyuan Zhou | (参考訳) 本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
組込みトピックモデル(ETM)とその変種は、テキスト分析において有望なパフォーマンスを得たが、主に単語共起パターンのマイニングに焦点を当てており、トピックのコヒーレンスを高めるのに役立つ、潜在的に容易に維持可能なトピック階層を無視している。
最近、いくつかの知識に基づくトピックモデルが提案されているが、それらは浅い階層のみに適用するか、提供される事前知識の品質に敏感である。
そこで我々は,単語とトピックを同じ空間に埋め込むことで,文書と与えられた事前知識を共同でモデル化する,新しい深層EMMを開発した。
提案するモデルでは, 提案手法は, 解釈可能な分類体系に分類されたトピック階層を発見する傾向にある。
さらに,与えられたグラフを適応させる手法を用いて,対象コーパスに適合させるように事前のトピック構造を微調整することができるように拡張した。
広範な実験により,提案モデルが先行知識を効率的に統合し,階層的トピック発見と文書表現の両方を改善したことを示す。 We propose a Bayesian generative model for incorporating prior domain knowledge into hierarchical topic modeling. Although embedded topic models (ETMs) and its variants have gained promising performance in text analysis, they mainly focus on mining word co-occurrence patterns, ignoring potentially easy-to-obtain prior topic hierarchies that could help enhance topic coherence. While several knowledge-based topic models have recently been proposed, they are either only applicable to shallow hierarchies or sensitive to the quality of the provided prior knowledge. To this end, we develop a novel deep ETM that jointly models the documents and the given prior knowledge by embedding the words and topics into the same space. Guided by the provided knowledge, the proposed model tends to discover topic hierarchies that are organized into interpretable taxonomies. Besides, with a technique for adapting a given graph, our extended version allows the provided prior topic structure to be finetuned to match the target corpus. Extensive experiments show that our proposed model efficiently integrates the prior knowledge and improves both hierarchical topic discovery and document representation. | 翻訳日:2022-10-02 23:05:55 公開日:2022-09-20 |
# 教師なし学習アルゴリズムと人間プロセスの公正化に向けて Towards Auditing Unsupervised Learning Algorithms and Human Processes For Fairness ( http://arxiv.org/abs/2209.11762v1 ) ライセンス: Link先を確認 | Ian Davidson and S. S. Ravi | (参考訳) フェアネスに関する既存の作業は通常、既知の機械学習アルゴリズムをより公平にすることに焦点を当てている。
分類、クラスタリング、異常検出、その他のアルゴリズムのフェア変種が存在する。
しかしながら、未調査領域は、公正性を決定するためにアルゴリズムの出力を監査するトピックである。
既存の研究は、統計パリティの標準定義を用いてバイナリ保護ステータス変数の2つのグループ分類問題を探求している。
ここでは、より複雑なフェアネスの定義の下でマルチグループ設定を探索することで、監査の領域を構築する。 Existing work on fairness typically focuses on making known machine learning algorithms fairer. Fair variants of classification, clustering, outlier detection and other styles of algorithms exist. However, an understudied area is the topic of auditing an algorithm's output to determine fairness. Existing work has explored the two group classification problem for binary protected status variables using standard definitions of statistical parity. Here we build upon the area of auditing by exploring the multi-group setting under more complex definitions of fairness. | 翻訳日:2022-10-02 23:05:19 公開日:2022-09-20 |
# 特徴選択のためのテントL'evy Flying Sparrow Searchアルゴリズム:COVID-19のケーススタディ A Tent L\'evy Flying Sparrow Search Algorithm for Feature Selection: A COVID-19 Case Study ( http://arxiv.org/abs/2209.10542v1 ) ライセンス: Link先を確認 | Qinwen Yang, Yuelin Gao, Yanjie Song | (参考訳) 情報科学の急速な発展によって引き起こされる「次元のカルス」は、大きなデータセットを扱う際に負の影響をもたらす可能性がある。
本稿では,スナロー探索アルゴリズム (SSA) の変種である Tent L\'evy flying sparrow search algorithm (TFSSA) を提案する。
SSAは、最近提案されたアルゴリズムであり、特徴選択問題に体系的に適用されていない。
CEC2020ベンチマーク関数による検証の後、TFSSAは最適な特徴の組み合わせを選択し、分類精度を最大化し、選択した特徴の数を最小化する。
提案したTFSSAは文献の9つのアルゴリズムと比較される。
9つの評価指標を使用して、uciリポジトリの21のデータセットにおけるこれらのアルゴリズムのパフォーマンスを適切に評価し比較する。
さらに、このアプローチは、新型コロナウイルス(COVID-19)データセットに適用され、それぞれ93.47%と2.1の平均的な分類精度と特徴選択数が得られる。
実験により,提案アルゴリズムの利点は,他のラッパーベースアルゴリズムと比較して,分類精度の向上と特徴数削減にある。 The "Curse of Dimensionality" induced by the rapid development of information science, might have a negative impact when dealing with big datasets. In this paper, we propose a variant of the sparrow search algorithm (SSA), called Tent L\'evy flying sparrow search algorithm (TFSSA), and use it to select the best subset of features in the packing pattern for classification purposes. SSA is a recently proposed algorithm that has not been systematically applied to feature selection problems. After verification by the CEC2020 benchmark function, TFSSA is used to select the best feature combination to maximize classification accuracy and minimize the number of selected features. The proposed TFSSA is compared with nine algorithms in the literature. Nine evaluation metrics are used to properly evaluate and compare the performance of these algorithms on twenty-one datasets from the UCI repository. Furthermore, the approach is applied to the coronavirus disease (COVID-19) dataset, yielding the best average classification accuracy and the average number of feature selections, respectively, of 93.47% and 2.1. Experimental results confirm the advantages of the proposed algorithm in improving classification accuracy and reducing the number of selected features compared to other wrapper-based algorithms. | 翻訳日:2022-09-23 13:42:28 公開日:2022-09-20 |
# 視覚変換器を用いた交通事故リスク予測 Traffic Accident Risk Forecasting using Contextual Vision Transformers ( http://arxiv.org/abs/2209.11180v1 ) ライセンス: Link先を確認 | Khaled Saleh and Artur Grigorev and Adriana-Simona Mihaita | (参考訳) 近年,交通事故リスク予測の課題は,交通クリアランスに大きな影響を及ぼすため,インテリジェント交通システムコミュニティの注目を集めている。
この問題は、交通事故リスク予測問題に不可欠であることが示されているため、時間的および空間的インシデントの影響をモデル化するデータ駆動アプローチを用いて文献に一般的に取り組まれている。
これを実現するために、ほとんどのアプローチは時空間相関機能をキャプチャするために異なるアーキテクチャを構築し、大規模な交通事故データセットでは非効率になる。
そこで本研究では,事故リスクの予測を精度良く行なえながら,この問題の空間的・時間的側面を効果的に推論可能な,エンドツーエンドで訓練可能な,新たな統一フレームワークであるコンテキストビジョントランスフォーマを提案する。
提案手法の性能を,2つの異なる地域から2つの大規模交通事故データセットにまたがる文献からのベースラインアプローチと比較した。
その結果,前回のsof-art works(sota)と比較してrmseスコアが約2\%向上した。
さらに,提案手法は2つのデータセットに対して,23倍の計算量しか必要とせず,SoTA技術よりも優れていた。 Recently, the problem of traffic accident risk forecasting has been getting the attention of the intelligent transportation systems community due to its significant impact on traffic clearance. This problem is commonly tackled in the literature by using data-driven approaches that model the spatial and temporal incident impact, since they were shown to be crucial for the traffic accident risk forecasting problem. To achieve this, most approaches build different architectures to capture the spatio-temporal correlations features, making them inefficient for large traffic accident datasets. Thus, in this work, we are proposing a novel unified framework, namely a contextual vision transformer, that can be trained in an end-to-end approach which can effectively reason about the spatial and temporal aspects of the problem while providing accurate traffic accident risk predictions. We evaluate and compare the performance of our proposed methodology against baseline approaches from the literature across two large-scale traffic accident datasets from two different geographical locations. The results have shown a significant improvement with roughly 2\% in RMSE score in comparison to previous state-of-art works (SoTA) in the literature. Moreover, our proposed approach has outperformed the SoTA technique over the two datasets while only requiring 23x fewer computational requirements. | 翻訳日:2022-09-23 12:51:04 公開日:2022-09-20 |
# データの離散化のための最大関連分断基準とナイーブベイへの応用 A Max-relevance-min-divergence Criterion for Data Discretization with Applications on Naive Bayes ( http://arxiv.org/abs/2209.10095v1 ) ライセンス: Link先を確認 | Shihe Wang, Jianfeng Ren, Ruibin Bai, Yuan Yao, Xudong Jiang | (参考訳) 多くの分類モデルでは、データはより正確に分布を推定するために離散化される。
既存の離散化手法では、識別データの識別能力の最大化を目標とし、分類におけるデータ離散化の主目的が一般化性能の向上であるという事実を見越すことが多い。
その結果、識別されていないデータが最大判別情報を保持するため、データは多くの小さなビンにオーバースプライトされる傾向がある。
そこで本研究では,識別データの識別情報と一般化能力の両方を最大化する,MDmD(Max-Dependency-Min-Divergence)基準を提案する。
より具体的には、最大依存性基準は離散化データと分類変数との統計的依存性を最大化し、min-divergence基準はトレーニングデータと所定の離散化スキームの検証データとの間のjs-divergenceを明示的に最小化する。
提案するMDmD基準は技術的に魅力的であるが,属性と分類変数の高次結合分布を確実に推定することは困難である。
そこで我々は,離散化データの識別情報と一般化能力を同時に最大化することにより,各属性を離散化するより実用的な解であるmax-relevance-min-divergence(mrmd)離散化スキームを提案する。
提案したMRmDは,45の機械学習ベンチマークデータセット上のベイズ分類フレームワークに基づく最先端の離散化アルゴリズムと比較される。
ほとんどのデータセットで比較したメソッドよりも大幅に優れています。 In many classification models, data is discretized to better estimate its distribution. Existing discretization methods often target at maximizing the discriminant power of discretized data, while overlooking the fact that the primary target of data discretization in classification is to improve the generalization performance. As a result, the data tend to be over-split into many small bins since the data without discretization retain the maximal discriminant information. Thus, we propose a Max-Dependency-Min-Divergence (MDmD) criterion that maximizes both the discriminant information and generalization ability of the discretized data. More specifically, the Max-Dependency criterion maximizes the statistical dependency between the discretized data and the classification variable while the Min-Divergence criterion explicitly minimizes the JS-divergence between the training data and the validation data for a given discretization scheme. The proposed MDmD criterion is technically appealing, but it is difficult to reliably estimate the high-order joint distributions of attributes and the classification variable. We hence further propose a more practical solution, Max-Relevance-Min-Divergence (MRmD) discretization scheme, where each attribute is discretized separately, by simultaneously maximizing the discriminant information and the generalization ability of the discretized data. The proposed MRmD is compared with the state-of-the-art discretization algorithms under the naive Bayes classification framework on 45 machine-learning benchmark datasets. It significantly outperforms all the compared methods on most of the datasets. | 翻訳日:2022-09-22 17:39:50 公開日:2022-09-20 |
# 物理インフォームドニューラルネットワーク(PINN)における故障モードの調査と緩和 Investigating and Mitigating Failure Modes in Physics-informed Neural Networks (PINNs) ( http://arxiv.org/abs/2209.09988v1 ) ライセンス: Link先を確認 | Shamsulhaq Basir | (参考訳) 本稿では,物理インフォームドニューラルネットワークを用いて,複雑な問題に対処する上での課題を実証し,検討する。
特に,訓練モデルの損失景観を可視化し,物理存在下での逆伝播勾配の感度解析を行う。
以上より,既存の手法はナビゲートが困難である非凸損失景観を生じさせることが示唆された。
さらに、高次PDEは、収束を妨げたり妨げたりするバックプロパゲート勾配を汚染する。
そこで我々は,高次PDE演算子の計算を回避し,バックプロパゲート勾配の汚染を軽減する新しい手法を提案する。
そこで我々は, 解の探索空間の次元を削減し, 非スムース解の学習を促進させる。
私たちの定式化は、モデルが学習が難しいドメインの複雑な領域に適応的に焦点を合わせるのに役立つフィードバックメカニズムも提供します。
次に、ラグランジュ乗算法を適用して、制約のない双対問題を定式化する。
本稿では,線形および非線形PDEが支配するいくつかのベンチマーク問題の解決に本手法を適用した。 In this paper, we demonstrate and investigate several challenges that stand in the way of tackling complex problems using physics-informed neural networks. In particular, we visualize the loss landscapes of trained models and perform sensitivity analysis of backpropagated gradients in the presence of physics. Our findings suggest that existing methods produce highly non-convex loss landscapes that are difficult to navigate. Furthermore, high-order PDEs contaminate the backpropagated gradients that may impede or prevent convergence. We then propose a novel method that bypasses the calculation of high-order PDE operators and mitigates the contamination of backpropagating gradients. In doing so, we reduce the dimension of the search space of our solution and facilitate learning problems with non-smooth solutions. Our formulation also provides a feedback mechanism that helps our model adaptively focus on complex regions of the domain that are difficult to learn. We then formulate an unconstrained dual problem by adapting the Lagrange multiplier method. We apply our method to solve several challenging benchmark problems governed by linear and non-linear PDEs. | 翻訳日:2022-09-22 17:36:50 公開日:2022-09-20 |
# 部分観測軌道からの作動型クープマン発電機の非線形モデル学習 Learning Bilinear Models of Actuated Koopman Generators from Partially-Observed Trajectories ( http://arxiv.org/abs/2209.09977v1 ) ライセンス: Link先を確認 | Samuel E. Otto, Sebastian Peitz, Clarence W. Rowley | (参考訳) 基礎となるkoopman演算子やジェネレータの近似に基づく非線形力学系のデータ駆動モデルは、予測、特徴学習、状態推定、制御に成功している。
制御-アフィン系に対するクープマン生成器は入力に対するアフィン依存性も持つことがよく知られており、ダイナミクスの便利な有限次元双線型近似に繋がる。
しかし、動作を伴うシステムのクープマン発生器を近似するための現在のアプローチの範囲を制限する2つの主要な障害がある。
まず、既存の手法の性能は、クープマン生成器が近似される基底関数の選択に大きく依存する。
第二に、もし我々が完全な状態を観測しなければ、ダイナミクスを記述するのに十分豊富な関数の集合にアクセスできないかもしれない。
これは、時間遅延オブザーバブルを形成する一般的な方法がアクチュエーションがある場合に失敗するためである。
これらの問題を解決するため、koopman生成器が制御する可観測性のダイナミクスを双線型隠れマルコフモデルとして記述し、期待最大化(em)アルゴリズムを用いてモデルパラメータを決定する。
Eステップは標準のカルマンフィルタとスムーズで、Mステップはジェネレータの制御-アフィン動的モード分解に似ている。
本手法は,ゆるい多様体を持つ作動系に対する有限次元koopman-invariant部分空間の復元,非強制ダフィング方程式に対するkoopman固有関数の推定,揚力と抗力のノイズ観測のみに基づく流体ピンボール系のモデル予測制御といった3つの実例で性能を示す。 Data-driven models for nonlinear dynamical systems based on approximating the underlying Koopman operator or generator have proven to be successful tools for forecasting, feature learning, state estimation, and control. It has become well known that the Koopman generators for control-affine systems also have affine dependence on the input, leading to convenient finite-dimensional bilinear approximations of the dynamics. Yet there are still two main obstacles that limit the scope of current approaches for approximating the Koopman generators of systems with actuation. First, the performance of existing methods depends heavily on the choice of basis functions over which the Koopman generator is to be approximated; and there is currently no universal way to choose them for systems that are not measure preserving. Secondly, if we do not observe the full state, we may not gain access to a sufficiently rich collection of such functions to describe the dynamics. This is because the commonly used method of forming time-delayed observables fails when there is actuation. To remedy these issues, we write the dynamics of observables governed by the Koopman generator as a bilinear hidden Markov model, and determine the model parameters using the expectation-maximization (EM) algorithm. The E-step involves a standard Kalman filter and smoother, while the M-step resembles control-affine dynamic mode decomposition for the generator. We demonstrate the performance of this method on three examples, including recovery of a finite-dimensional Koopman-invariant subspace for an actuated system with a slow manifold; estimation of Koopman eigenfunctions for the unforced Duffing equation; and model-predictive control of a fluidic pinball system based only on noisy observations of lift and drag. | 翻訳日:2022-09-22 17:36:33 公開日:2022-09-20 |
# 暗号化データに対するプライベートニューラルネットワークの監査とロバスト性向上 Audit and Improve Robustness of Private Neural Networks on Encrypted Data ( http://arxiv.org/abs/2209.09996v1 ) ライセンス: Link先を確認 | Jiaqi Xue, Lei Xu, Lin Chen, Weidong Shi, Kaidi Xu, Qian Lou | (参考訳) 暗号化データを復号化せずにニューラルネットワークを推論することは、プライバシ保存ニューラルネットワーク(pnet)をサービスとして有効化する一般的な方法である。
マシンラーニング・アズ・ア・サービス用にデプロイされる通常のニューラルネットワークと比較して、pnetには、量子化精度数や多項式活性化といった追加のエンコーディングが必要である。
暗号化入力はまた、敵対的ロバスト性やセキュリティといった新しい課題も導入している。
私たちの知識を最大限に活用するために、私たちは最初に質問などを研究する。
(i)PNetが通常のニューラルネットワークよりも敵入力に対して堅牢であるかどうか。
(ii)暗号化入力を復号化せずにロバストなpnetを設計する方法
我々はPNet-Attackを提案し、ターゲットとターゲットの両方でPNetを攻撃できるブラックボックスの敵例を生成する。
攻撃結果から,pnetの対向入力に対するロバスト性が向上することが示唆された。
PNetモデルオーナが入力値の平文にアクセスできないため、入力チューニングやモデル正規化、敵の訓練といった既存の検出および防御手法が適用されないため、これは簡単なタスクではない。
この課題に対処するために,ロバストニューラルネットワークとプライベートニューラルネットワークを設計するRPNetという,高速かつ高精度なノイズ挿入手法を提案する。
我々の総合的な実験によると、PNet-Attack は以前の作業よりも少なくとも$2.5\times$クエリを削減している。
理論的にRPNet法を解析し、RPNetが$\sim 91.88\%$攻撃成功率を下げることを示す。 Performing neural network inference on encrypted data without decryption is one popular method to enable privacy-preserving neural networks (PNet) as a service. Compared with regular neural networks deployed for machine-learning-as-a-service, PNet requires additional encoding, e.g., quantized-precision numbers, and polynomial activation. Encrypted input also introduces novel challenges such as adversarial robustness and security. To the best of our knowledge, we are the first to study questions including (i) Whether PNet is more robust against adversarial inputs than regular neural networks? (ii) How to design a robust PNet given the encrypted input without decryption? We propose PNet-Attack to generate black-box adversarial examples that can successfully attack PNet in both target and untarget manners. The attack results show that PNet robustness against adversarial inputs needs to be improved. This is not a trivial task because the PNet model owner does not have access to the plaintext of the input values, which prevents the application of existing detection and defense methods such as input tuning, model normalization, and adversarial training. To tackle this challenge, we propose a new fast and accurate noise insertion method, called RPNet, to design Robust and Private Neural Networks. Our comprehensive experiments show that PNet-Attack reduces at least $2.5\times$ queries than prior works. We theoretically analyze our RPNet methods and demonstrate that RPNet can decrease $\sim 91.88\%$ attack success rate. | 翻訳日:2022-09-22 17:27:49 公開日:2022-09-20 |
# 制御バリア関数による可変安全制御器の設計 Differentiable Safe Controller Design through Control Barrier Functions ( http://arxiv.org/abs/2209.10034v1 ) ライセンス: Link先を確認 | Shuo Yang, Shaoru Chen, Victor M. Preciado, Rahul Mangharam | (参考訳) ニューラルネットワーク(NN)コントローラのような学習ベースのコントローラは、経験的なパフォーマンスを示すが、正式な安全保証がない。
この問題に対処するため、制御障壁関数(CBF)は、閉ループシステムの安全性を保証するために、学習ベースコントローラの出力を監視・修正するための安全フィルタとして適用されている。
しかし、このような修正は予測不能な長期的な影響を伴う近視的変化である。
そこで本研究では,cbfベースの安全層を用いた安全バイコンストラクションnnコントローラを提案し,学習ベース制御における安全バイコンストラクションnnコントローラの性能について検討する。
具体的には、二つの制御器の定式化を比較し、一方は射影ベースであり、もう一方は提案する集合論的パラメータ化に依存する。
いずれの手法も、数値実験においてCBFを別個の安全フィルタとして用いるよりもクローズドループ性能が向上したことを示す。 Learning-based controllers, such as neural network (NN) controllers, can show high empirical performance but lack formal safety guarantees. To address this issue, control barrier functions (CBFs) have been applied as a safety filter to monitor and modify the outputs of learning-based controllers in order to guarantee the safety of the closed-loop system. However, such modification can be myopic with unpredictable long-term effects. In this work, we propose a safe-by-construction NN controller which employs differentiable CBF-based safety layers, and investigate the performance of safe-by-construction NN controllers in learning-based control. Specifically, two formulations of controllers are compared: one is projection-based and the other relies on our proposed set-theoretic parameterization. Both methods demonstrate improved closed-loop performance over using CBF as a separate safety filter in numerical experiments. | 翻訳日:2022-09-22 17:27:27 公開日:2022-09-20 |
# 協調異常検出 Collaborative Anomaly Detection ( http://arxiv.org/abs/2209.09923v1 ) ライセンス: Link先を確認 | Ke Bai, Aonan Zhang, Zhizhong Li, Ricardo Heano, Chong Wang, Lawrence Carin | (参考訳) レコメンデーションシステムでは、アイテムはさまざまなユーザに公開される可能性が高いので、既存のアイテムで新しいユーザの親密性について学びたいと思っています。
これは、"common users" (nominal) と "fresh users" (nomalous) を区別する異常検出(AD)問題として定式化することができる。
各項目に従来の単一タスク検出手法を独立に適用することは、アイテムの量とユーザイットのペアデータの空間性を考えると、アイテム間の相関を無視しながら、すぐに困難になる。
このマルチタスク異常検出問題に対処するために,タスク間の相関を埋め込むことで,全てのタスクを共同で学習するCADを提案する。
条件密度推定と条件確率比推定を用いてCADを探索する。
i$) 確率比の推定は、より効率的な学習を享受し、密度の推定よりも優れた結果を得る。
$ii$) タスクの埋め込みモデルを学ぶために予め少数のタスクを選択し、タスクの埋め込みをウォームスタートするためにそれを使うのは有益です。
その結果、これらの埋め込みはタスク間の相関を捉え、新しい相関タスクに一般化することができる。 In recommendation systems, items are likely to be exposed to various users and we would like to learn about the familiarity of a new user with an existing item. This can be formulated as an anomaly detection (AD) problem distinguishing between "common users" (nominal) and "fresh users" (anomalous). Considering the sheer volume of items and the sparsity of user-item paired data, independently applying conventional single-task detection methods on each item quickly becomes difficult, while correlations between items are ignored. To address this multi-task anomaly detection problem, we propose collaborative anomaly detection (CAD) to jointly learn all tasks with an embedding encoding correlations among tasks. We explore CAD with conditional density estimation and conditional likelihood ratio estimation. We found that: $i$) estimating a likelihood ratio enjoys more efficient learning and yields better results than density estimation. $ii$) It is beneficial to select a small number of tasks in advance to learn a task embedding model, and then use it to warm-start all task embeddings. Consequently, these embeddings can capture correlations between tasks and generalize to new correlated tasks. | 翻訳日:2022-09-22 17:20:22 公開日:2022-09-20 |
# FoVolNet:Foveated Deep Neural Networksを用いた高速ボリュームレンダリング FoVolNet: Fast Volume Rendering using Foveated Deep Neural Networks ( http://arxiv.org/abs/2209.09965v1 ) ライセンス: Link先を確認 | David Bauer and Qi Wu and Kwan-Liu Ma | (参考訳) ボリュームデータは、多くの重要な科学および工学の応用で見られる。
このデータを高品質でインタラクティブなレートで視覚化するバーチャルリアリティーのようなアプリケーションでは、プロフェッショナルグレードのハードウェアを使っても、容易には達成できない。
我々はfovolnet -- ボリュームデータの可視化性能を大幅に向上させる手法を紹介する。
本研究では,焦点付近のボリュームをばらばらにサンプリングし,ディープニューラルネットワークを用いて全フレームを再構築する,コスト効率のよいフォベテッドレンダリングパイプラインを開発した。
foveated renderingは、ユーザの焦点の周りにレンダリング計算を優先するテクニックである。
このアプローチは、人間の視覚システムの特性を利用して、ユーザーの視野の周囲にデータをレンダリングする際に計算資源を節約する。
我々の再構成ネットワークは、直接およびカーネル予測手法を組み合わせて、高速で安定かつ知覚的に説得力のある出力を生成する。
スリムな設計と量子化の利用により、本手法は、エンドツーエンドのフレーム時間と視覚的品質の両方において最先端のニューラル再構成技術より優れる。
我々は,システムのレンダリング性能,推論速度,知覚特性を広範囲に評価し,競合するニューラルイメージ再構成手法との比較を行った。
実験の結果,fovolnetは知覚的品質を維持しつつ,従来のレンダリングよりも大幅な時間を節約できることがわかった。 Volume data is found in many important scientific and engineering applications. Rendering this data for visualization at high quality and interactive rates for demanding applications such as virtual reality is still not easily achievable even using professional-grade hardware. We introduce FoVolNet -- a method to significantly increase the performance of volume data visualization. We develop a cost-effective foveated rendering pipeline that sparsely samples a volume around a focal point and reconstructs the full-frame using a deep neural network. Foveated rendering is a technique that prioritizes rendering computations around the user's focal point. This approach leverages properties of the human visual system, thereby saving computational resources when rendering data in the periphery of the user's field of vision. Our reconstruction network combines direct and kernel prediction methods to produce fast, stable, and perceptually convincing output. With a slim design and the use of quantization, our method outperforms state-of-the-art neural reconstruction techniques in both end-to-end frame times and visual quality. We conduct extensive evaluations of the system's rendering performance, inference speed, and perceptual properties, and we provide comparisons to competing neural image reconstruction techniques. Our test results show that FoVolNet consistently achieves significant time saving over conventional rendering while preserving perceptual quality. | 翻訳日:2022-09-22 17:20:03 公開日:2022-09-20 |
# 無線センサネットワークにおけるワーム伝播の学習 Learning the Propagation of Worms in Wireless Sensor Networks ( http://arxiv.org/abs/2209.09984v1 ) ライセンス: Link先を確認 | Yifan Wang, Siqi Wang, Guangmo Tong | (参考訳) 無線センサネットワーク(wsns)は空間的に分布するセンサで構成されており、ワームとその変種による攻撃に対して脆弱であると考えられている。
ワーム伝播の異なる戦略のため、ダイナミックな挙動はセンサーの異なる特徴によって異なる。
ワームの拡散をモデル化することは、ワーム攻撃の挙動を理解し、伝播過程を分析するのに役立つ。
本稿では,様々な寄生虫のコミュニケーションモデルを設計する。
我々は,競争性のあるワーム伝播のダイナミクスを解析的に導出するために,提案モデルを学ぶことを目的とする。
複雑なニューラルネットワークモデルを組み合わせた新しい探索空間を開発した。
さらに,本実験の結果を検証し,提案した学習アルゴリズムの性能を実証した。 Wireless sensor networks (WSNs) are composed of spatially distributed sensors and are considered vulnerable to attacks by worms and their variants. Due to the distinct strategies of worms propagation, the dynamic behavior varies depending on the different features of the sensors. Modeling the spread of worms can help us understand the worm attack behaviors and analyze the propagation procedure. In this paper, we design a communication model under various worms. We aim to learn our proposed model to analytically derive the dynamics of competitive worms propagation. We develop a new searching space combined with complex neural network models. Furthermore, the experiment results verified our analysis and demonstrated the performance of our proposed learning algorithms. | 翻訳日:2022-09-22 17:19:43 公開日:2022-09-20 |
# 深海管mpcを用いた昆虫小型軟動空中ロボットのロバスト・高速追跡 Robust, High-Rate Trajectory Tracking on Insect-Scale Soft-Actuated Aerial Robots with Deep-Learned Tube MPC ( http://arxiv.org/abs/2209.10007v1 ) ライセンス: Link先を確認 | Andrea Tagliabue (1), Yi-Hsuan Hsiao (2), Urban Fasel (3), J. Nathan Kutz (4), Steven L. Brunton (5), YuFeng Chen (2) and Jonathan P. How (1) ((1) Department of Aeronautics and Astronautics, Massachusetts Institute of Technology, (2) Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, (3) Department of Aeronautics, Imperial College London, (4) Department of Applied Mathematics, University of Washington, (5) Department of Mechanical Engineering, University of Washington) | (参考訳) マイクロ・エアリアル・ビークル(MAV)の高精度かつアジャイルな軌道追跡は、ロボットの小さなスケールが大きなモデルの不確実性を誘導し、堅牢なフィードバックコントローラを要求する一方で、高速なダイナミックスと計算の制約が計算コストのかかる戦略の展開を妨げているため、困難である。
本研究では,サブグラムMAV (0.7gs) であるMIT SoftFly 上で,アジャイルで効率的な軌道追跡手法を提案する。
提案手法では,適応姿勢制御器と,軌道追従型ロバスト管モデル予測制御器(rtmpc)を模倣するニューラルネットワークポリシを組み合わせたカスケード制御方式を採用している。
ニューラルネットワークポリシは,rtmpcのロバスト性を維持しつつ,その計算コストのごく一部で実現可能な,最近の研究で得られたものである。
我々は,我々のアプローチを実験的に評価し,より困難な操作においても,ルート平均角誤差を1.8cm以下にし,従来の作業に比べて最大位置誤差を60%低減し,大きな外乱に対する堅牢性を実証した。 Accurate and agile trajectory tracking in sub-gram Micro Aerial Vehicles (MAVs) is challenging, as the small scale of the robot induces large model uncertainties, demanding robust feedback controllers, while the fast dynamics and computational constraints prevent the deployment of computationally expensive strategies. In this work, we present an approach for agile and computationally efficient trajectory tracking on the MIT SoftFly, a sub-gram MAV (0.7 grams). Our strategy employs a cascaded control scheme, where an adaptive attitude controller is combined with a neural network policy trained to imitate a trajectory tracking robust tube model predictive controller (RTMPC). The neural network policy is obtained using our recent work, which enables the policy to preserve the robustness of RTMPC, but at a fraction of its computational cost. We experimentally evaluate our approach, achieving position Root Mean Square Errors lower than 1.8 cm even in the more challenging maneuvers, obtaining a 60% reduction in maximum position error compared to our previous work, and demonstrating robustness to large external disturbances | 翻訳日:2022-09-22 17:19:34 公開日:2022-09-20 |
# フェデレーションエッジ学習におけるオーバーザ・エア計算の実証 A Demonstration of Over-the-Air Computation for Federated Edge Learning ( http://arxiv.org/abs/2209.09954v1 ) ライセンス: Link先を確認 | Alphan Sahin | (参考訳) 本研究では,ソフトウェア定義無線(SDR)の集合が,対応するコンピュータのベースバンド処理を維持しつつ,正確なタイミングで任意の位相/四分数データの送信や受信を可能にする汎用同期手法を提案する。
提案手法は、受信方向と送信方向の両方における同期波形の検出と、処理システムと協調して直接メモリアクセスブロックを制御する。
この同期手法を低コストのSDRに実装することにより、周波数シフトキー(FSK)ベースの多数決(MV)、すなわちフェデレーションエッジ学習のためのオーバー・ザ・エア計算方式の性能を実証し、対応する手順を紹介する。
実験では,エッジデバイスでチャネル状態情報を使わずに,均質かつ異質なデータ分布に対して95%以上の精度が得られることを示した。 In this study, we propose a general-purpose synchronization method that allows a set of software-defined radios (SDRs) to transmit or receive any in-phase/quadrature data with precise timings while maintaining the baseband processing in the corresponding companion computers. The proposed method relies on the detection of a synchronization waveform in both receive and transmit directions and controlling the direct memory access blocks jointly with the processing system. By implementing this synchronization method on a set of low-cost SDRs, we demonstrate the performance of frequency-shift keying (FSK)-based majority vote (MV), i.e., an over-the-air computation scheme for federated edge learning, and introduce the corresponding procedures. Our experiment shows that the test accuracy can reach more than 95% for homogeneous and heterogeneous data distributions without using channel state information at the edge devices. | 翻訳日:2022-09-22 17:10:51 公開日:2022-09-20 |
# 部分可観測性下におけるマクロアクションベースマルチエージェント/ロボット深層強化学習 Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under Partial Observability ( http://arxiv.org/abs/2209.10003v1 ) ライセンス: Link先を確認 | Yuchen Xiao | (参考訳) 最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供している。
しかし、これらの手法はすべてエージェントが同期したプリミティブアクションの実行を実行すると仮定しており、エージェント/ロボットが非同期にハイレベルなアクションの選択を時間毎に判断する必要があるような、真のスケーラブルな実世界のマルチエージェント/ロボットタスクではない。
MacDec-POMDP (Macro-Action Decentralized partially Observable Markov Decision Process) は、完全協調型マルチエージェントタスクにおける不確実性の下での非同期決定の一般的な形式化である。
本稿では,まず,分散学習と制御,集中学習と制御,分散実行のための集中トレーニング(CTDE)という3つのパラダイムにおいて,エージェントがマクロアクション値関数を用いて非同期学習と意思決定を行うことができる,MacDec-POMDPに対する価値ベースRLアプローチのグループを提案する。
上記の研究に基づいて、3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化し、エージェントはパラメータ化されたポリシーを直接非同期に最適化することができる。
本手法は,様々な現実的な領域において,シミュレーションと実ロボットの両方で評価する。
実験結果は,大規模マルチエージェント問題に対する我々のアプローチの優位性を示し,マクロアクションを用いた高品質・非同期ソリューション学習におけるアルゴリズムの有効性を検証する。 The state-of-the-art multi-agent reinforcement learning (MARL) methods have provided promising solutions to a variety of complex problems. Yet, these methods all assume that agents perform synchronized primitive-action executions so that they are not genuinely scalable to long-horizon real-world multi-agent/robot tasks that inherently require agents/robots to asynchronously reason about high-level action selection at varying time durations. The Macro-Action Decentralized Partially Observable Markov Decision Process (MacDec-POMDP) is a general formalization for asynchronous decision-making under uncertainty in fully cooperative multi-agent tasks. In this thesis, we first propose a group of value-based RL approaches for MacDec-POMDPs, where agents are allowed to perform asynchronous learning and decision-making with macro-action-value functions in three paradigms: decentralized learning and control, centralized learning and control, and centralized training for decentralized execution (CTDE). Building on the above work, we formulate a set of macro-action-based policy gradient algorithms under the three training paradigms, where agents are allowed to directly optimize their parameterized policies in an asynchronous manner. We evaluate our methods both in simulation and on real robots over a variety of realistic domains. Empirical results demonstrate the superiority of our approaches in large multi-agent problems and validate the effectiveness of our algorithms for learning high-quality and asynchronous solutions with macro-actions. | 翻訳日:2022-09-22 17:10:37 公開日:2022-09-20 |
# ドメイン適応回帰のためのadversarial bi-regressor network Adversarial Bi-Regressor Network for Domain Adaptive Regression ( http://arxiv.org/abs/2209.09943v1 ) ライセンス: Link先を確認 | Haifeng Xia, Pu (Perry) Wang, Toshiaki Koike-Akino, Ye Wang, Philip Orlik, Zhengming Ding | (参考訳) ドメイン適応(da)は、ラベルなしのターゲット学習を容易にするために、ラベル付きソースドメインの知識を転送することを目的としている。
屋内(Wi-Fi)のローカライゼーションのような特定のタスクに切り替える場合、ドメインシフトを軽減するためにクロスドメイン回帰器を学ぶことが不可欠である。
本稿では,より効果的なクロスドメイン回帰モデルを求める新しい手法であるadversarial bi-regressor network (abrnet)を提案する。
具体的には、ソース分布から遠く離れた未知のターゲットインスタンスを発見するためにbi-regressorの違いを最大化するために離散的なbi-regressorアーキテクチャを開発し、特徴抽出器と2つのレグレプタの間で逆のトレーニング機構を採用してドメイン不変表現を生成する。
さらに大きなドメインギャップを埋めるために、ドメイン固有の拡張モジュールは、2つのソース類似およびターゲット類似の中間ドメインを合成して、元のドメインミスマッチを徐々に除去するように設計されている。
2つのクロスドメインレグレッシブベンチマークに関する実証研究は、ドメイン適応回帰(dar)問題を解決するための手法の力を示している。 Domain adaptation (DA) aims to transfer the knowledge of a well-labeled source domain to facilitate unlabeled target learning. When turning to specific tasks such as indoor (Wi-Fi) localization, it is essential to learn a cross-domain regressor to mitigate the domain shift. This paper proposes a novel method Adversarial Bi-Regressor Network (ABRNet) to seek more effective cross-domain regression model. Specifically, a discrepant bi-regressor architecture is developed to maximize the difference of bi-regressor to discover uncertain target instances far from the source distribution, and then an adversarial training mechanism is adopted between feature extractor and dual regressors to produce domain-invariant representations. To further bridge the large domain gap, a domain-specific augmentation module is designed to synthesize two source-similar and target-similar intermediate domains to gradually eliminate the original domain mismatch. The empirical studies on two cross-domain regressive benchmarks illustrate the power of our method on solving the domain adaptive regression (DAR) problem. | 翻訳日:2022-09-22 17:03:43 公開日:2022-09-20 |
# 異なる環境下における高ダイナミックレンジ映像の主観評価 Subjective Assessment of High Dynamic Range Videos Under Different Ambient Conditions ( http://arxiv.org/abs/2209.10005v1 ) ライセンス: Link先を確認 | Zaixi Shang, Joshua P. Ebenezer, Alan C. Bovik, Yongjun Wu, Hai Wei, Sriram Sethuraman | (参考訳) 高ダイナミックレンジ(HDR)ビデオは、標準ダイナミックレンジ(SDR)ビデオよりもはるかに多くの明るさと色を表現でき、急速に業界標準になりつつある。
HDRビデオは、従来のSDRビデオよりも、キャプチャ、トランスミッション、表示要求が難しい。
より深いビット深度、高度な電気光学変換機能、より広い色域では、HDRビデオの品質を予測するために特別に設計されたビデオ品質アルゴリズムが必要である。
この目的のために,HDRビデオの大規模主観的研究を初めて公開する。
圧縮やエイリアスなどの歪みがHDRビデオの品質に及ぼす影響について検討する。
また, 環境照明がHDR映像の知覚品質に及ぼす影響について, 暗室環境と明るいリビングルーム環境の両方で研究を行うことにより検討した。
この研究には66人の被験者が参加し、2万点以上の意見スコアが集められた。
我々は、このデータセットが、HDRビデオの知覚品質のより良いモデルを開発するための貴重なリソースになることを期待している。 High Dynamic Range (HDR) videos can represent a much greater range of brightness and color than Standard Dynamic Range (SDR) videos and are rapidly becoming an industry standard. HDR videos have more challenging capture, transmission, and display requirements than legacy SDR videos. With their greater bit depth, advanced electro-optical transfer functions, and wider color gamuts, comes the need for video quality algorithms that are specifically designed to predict the quality of HDR videos. Towards this end, we present the first publicly released large-scale subjective study of HDR videos. We study the effect of distortions such as compression and aliasing on the quality of HDR videos. We also study the effect of ambient illumination on perceptual quality of HDR videos by conducting the study in both a dark lab environment and a brighter living-room environment. A total of 66 subjects participated in the study and more than 20,000 opinion scores were collected, which makes this the largest in-lab study of HDR video quality ever. We anticipate that the dataset will be a valuable resource for researchers to develop better models of perceptual quality for HDR videos. | 翻訳日:2022-09-22 17:03:11 公開日:2022-09-20 |
# 内部検証手法を用いた外部クラスタリング検証ベンチマークの正当性チェック Sanity Check for External Clustering Validation Benchmarks using Internal Validation Measures ( http://arxiv.org/abs/2209.10042v1 ) ライセンス: Link先を確認 | Hyeon Jeon, Michael Aupetit, DongHwa Shin, Aeri Cho, Seokhyeon Park, Jinwook Seo | (参考訳) ラベル付きデータセットに基づくベンチマーククラスタリング技術における信頼性の欠如に対処する。
外部クラスタリング検証の標準的なスキームは、各クラスが単一の明確に分離されたクラスタを形成するという仮定に基づいて、クラスラベルを基底真理クラスタとして使用することである。
しかし、このようなクラスタラベルマッチング(CLM)の仮定がしばしば破られるため、ベンチマークデータセットのCLMに対する健全性チェックの実施の欠如は、外部検証の有効性に疑問を投げかけている。
それでも、CLMの程度を評価することは難しい。
例えば、内部クラスタリング検証尺度は、同じデータセット内のclmを定量化し、異なるクラスタリングを評価するために使用できるが、異なるデータセットのクラスタリングを比較するように設計されていない。
本研究では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成する方法を提案する。
まず,アッカーマンとベンダビッドのデータセット内公理を補完する,データセット間内測度のための4つの公理を決定する。
次に、これらの新しい公理を満たすための内部測度を一般化し、データセット間clm評価のために広く使用されるcalinski-harabaszインデックスを拡張するプロセスを提案する。
定量的実験により,(1)一般化プロセスの有効性と必要性を検証し,(2)データセット間でのCalinski-Harabasz指数がCLMを精度良く評価することを示した。
最後に,外部検証を行う前にベンチマークデータセットのclmを評価することの重要性を示す。 We address the lack of reliability in benchmarking clustering techniques based on labeled datasets. A standard scheme in external clustering validation is to use class labels as ground truth clusters, based on the assumption that each class forms a single, clearly separated cluster. However, as such cluster-label matching (CLM) assumption often breaks, the lack of conducting a sanity check for the CLM of benchmark datasets casts doubt on the validity of external validations. Still, evaluating the degree of CLM is challenging. For example, internal clustering validation measures can be used to quantify CLM within the same dataset to evaluate its different clusterings but are not designed to compare clusterings of different datasets. In this work, we propose a principled way to generate between-dataset internal measures that enable the comparison of CLM across datasets. We first determine four axioms for between-dataset internal measures, complementing Ackerman and Ben-David's within-dataset axioms. We then propose processes to generalize internal measures to fulfill these new axioms, and use them to extend the widely used Calinski-Harabasz index for between-dataset CLM evaluation. Through quantitative experiments, we (1) verify the validity and necessity of the generalization processes and (2) show that the proposed between-dataset Calinski-Harabasz index accurately evaluates CLM across datasets. Finally, we demonstrate the importance of evaluating CLM of benchmark datasets before conducting external validation. | 翻訳日:2022-09-22 16:55:05 公開日:2022-09-20 |
# オープンソースの機械学習プロジェクトにおける実際のバグの比較分析 -- 登録レポート Comparative analysis of real bugs in open-source Machine Learning projects -- A Registered Report ( http://arxiv.org/abs/2209.09932v1 ) ライセンス: Link先を確認 | Tuan Dung Lai, Anj Simmons, Scott Barnett, Jean-Guy Schneider, Rajesh Vasa | (参考訳) 背景: マシンラーニング(ML)システムは予測にデータに依存しており、データ処理パイプラインやサービスパイプライン、モデルトレーニングといった従来のソフトウェアシステムと比較して、多くのコンポーネントが追加されている。
ソフトウェアメンテナンスに関する既存の研究は、パフォーマンスやセキュリティの問題など、さまざまな種類の問題に対する問題報告のニーズと解決プロセスを調査している。
しかし、MLシステムには特定の障害クラスがあり、ML問題の報告にはドメイン固有の情報が必要である。
mlと従来のソフトウェアエンジニアリングシステムの違いから、報告のニーズがどの程度異なるのか、そして、これらの違いがどの程度問題解決プロセスに影響を与えるのかはわかりません。
目的:我々の目的は,MLと非ML課題の解決時間分布に相違があるか,また,オープンソース適用MLプロジェクトにおける実際の課題報告に基づいて,特定のカテゴリのML課題が解決に時間がかかるかを検討することである。
さらに,ML問題と非ML問題の大きさについて検討する。
方法:最近のアクティブなMLプロジェクトのイシューレポート,プルリクエスト,コードファイルをGithubから抽出し,MLや非MLの問題を自動でフィルタリングする。
ディープラーニングバグの既知の分類を用いて,問題を手作業でラベル付けする。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。 Background: Machine Learning (ML) systems rely on data to make predictions, the systems have many added components compared to traditional software systems such as the data processing pipeline, serving pipeline, and model training. Existing research on software maintenance has studied the issue-reporting needs and resolution process for different types of issues, such as performance and security issues. However, ML systems have specific classes of faults, and reporting ML issues requires domain-specific information. Because of the different characteristics between ML and traditional Software Engineering systems, we do not know to what extent the reporting needs are different, and to what extent these differences impact the issue resolution process. Objective: Our objective is to investigate whether there is a discrepancy in the distribution of resolution time between ML and non-ML issues and whether certain categories of ML issues require a longer time to resolve based on real issue reports in open-source applied ML projects. We further investigate the size of fix of ML issues and non-ML issues. Method: We extract issues reports, pull requests and code files in recent active applied ML projects from Github, and use an automatic approach to filter ML and non-ML issues. We manually label the issues using a known taxonomy of deep learning bugs. We measure the resolution time and size of fix of ML and non-ML issues on a controlled sample and compare the distributions for each category of issue. | 翻訳日:2022-09-22 16:53:32 公開日:2022-09-20 |
# jsdp: javaの確率動的プログラミングライブラリ jsdp: a Java Stochastic Dynamic Programming Library ( http://arxiv.org/abs/2209.09979v1 ) ライセンス: Link先を確認 | Roberto Rossi | (参考訳) 確率的プログラミングは不確実性の下で意思決定の問題をモデル化し解決するためのフレームワークである。
確率動的プログラミング(Stochastic Dynamic Programming)は、最適ポリシーの発見に「関数型方程式」アプローチを採用する確率的プログラミングの一分野である。
MapReduceフレームワークを運用するためにJavaで実装されたコンストラクト(ラムダ式、関数インターフェイス、コレクション、集約演算子)を活用することで、jsdpは確率動的プログラムのモデリングと解決のための汎用ライブラリを提供する。 Stochastic Programming is a framework for modelling and solving problems of decision making under uncertainty. Stochastic Dynamic Programming is a branch of Stochastic Programming that takes a "functional equation" approach to the discovery of optimal policies. By leveraging constructs - lambda expressions, functional interfaces, collections and aggregate operators - implemented in Java to operationalise the MapReduce framework, jsdp provides a general purpose library for modelling and solving Stochastic Dynamic Programs. | 翻訳日:2022-09-22 16:53:09 公開日:2022-09-20 |
# Deep-Steiner: Euclidean Steiner Treeの問題を解決するための学習 Deep-Steiner: Learning to Solve the Euclidean Steiner Tree Problem ( http://arxiv.org/abs/2209.09983v1 ) ライセンス: Link先を確認 | Siqi Wang, Yifan Wang, Guangmo Tong | (参考訳) Euclidean Steiner ツリー問題では、ターゲット位置の集合体を接続するミニコストネットワークが求められ、無線ネットワークの多くの応用の基礎となっている。
本稿では,グラフ表現学習によって強化された強化学習を用いたユークリッドスタイナーツリー問題の解法について述べる。
トラベルセールスマン問題や探索空間が有限である車両ルーティング問題など、一般的に研究されている接続問題とは異なり、ユークリッドステイナーツリー問題はユークリッド空間全体を探索する必要があるため、既存の手法は適用できない。
本稿では,Steiner木の特徴を活かした離散化手法を設計し,インクリメンタルな構成中に出現する動的Steiner点を扱うための新しいトレーニング手法を提案する。
従来型組合せ法に代わる方法としての手法の有用性を実証し,データセットの集合実験を用いて健全性チェックを行い,提案手法の有効性を検証した。 The Euclidean Steiner tree problem seeks the min-cost network to connect a collection of target locations, and it underlies many applications of wireless networks. In this paper, we present a study on solving the Euclidean Steiner tree problem using reinforcement learning enhanced by graph representation learning. Different from the commonly studied connectivity problems like travelling salesman problem or vehicle routing problem where the search space is finite, the Euclidean Steiner tree problem requires to search over the entire Euclidean space, thereby making the existing methods not applicable. In this paper, we design discretization methods by leveraging the unique characteristics of the Steiner tree, and propose new training schemes for handling the dynamic Steiner points emerging during the incremental construction. Our design is examined through a sanity check using experiments on a collection of datasets, with encouraging results demonstrating the utility of our method as an alternative to classic combinatorial methods. | 翻訳日:2022-09-22 16:43:18 公開日:2022-09-20 |
# 半超過繰り返しVAEを用いた意図的コレオグラフィー Intentional Choreography with Semi-Supervised Recurrent VAEs ( http://arxiv.org/abs/2209.10010v1 ) ライセンス: Link先を確認 | Mathilde Papillon, Mariel Pettee, Nina Miolane | (参考訳) 半教師付きリカレント変分オートエンコーダであるPirouNetのモデルと結果を要約する。
定性的な振付でラベル付けされた少量のダンスシーケンスが与えられると、ピルーネは振付師のスタイルで条件付きでダンスシーケンスを生成する。 We summarize the model and results of PirouNet, a semi-supervised recurrent variational autoencoder. Given a small amount of dance sequences labeled with qualitative choreographic annotations, PirouNet conditionally generates dance sequences in the style of the choreographer. | 翻訳日:2022-09-22 16:42:59 公開日:2022-09-20 |
# データ:プラスチック薄板の構造的健康モニタリングにおける衝撃イベント Dataset: Impact Events for Structural Health Monitoring of a Plastic Thin Plate ( http://arxiv.org/abs/2209.10018v1 ) ライセンス: Link先を確認 | Ioannis Katsidimas and Thanasis Kotzakolios and Sotiris Nikoletseas and Stefanos H. Panagiotou and Konstantinos Timpilis and Constantinos Tsakonas | (参考訳) 現在、システムやモデルの研究と開発に向けてデータセットが公開され、直接比較、ソリューションの継続的な改善、実験的な実データへの研究者の関与が実現されている。
しかし、特にSHM(Structure Health Monitoring)領域では、新しい研究プロジェクトが構造設計と実装、センサーの選択、そして文献における個々の研究の構成に適合しない技術的イネーブラーの独特な組み合わせを持つケースが数多く存在する。
したがって,関連するリポジトリが見つからないため,ケーススタディのデータを研究コミュニティに共有しています。
具体的には,モノのインターネット(IoT)デバイスに接続されたセラミック圧電トランスデューサ(PZT)を用いて,プラスチック薄板上での衝撃検出と位置決めを行う新しい時系列データセットを提案する。
データセットは、各実験ごとに少なくとも3回の繰り返しを含む低速度で低エネルギーの衝撃イベントの実験手順から収集され、入力の測定はプレートの隅に4つのPZTセンサーが配置された。
繰り返しとセンサごとに、5000の値が100KHzのサンプリングレートで格納される。
システムはスチールボールで興奮しており、放たれる高さは10cmから20cm程度である。
データセットはGitHubで入手できる(https://github.com/Smart-Objects/Impact-Events-Dataset)。 Nowadays, more and more datasets are published towards research and development of systems and models, enabling direct comparisons, continuous improvement of solutions, and researchers engagement with experimental, real life data. However, especially in the Structural Health Monitoring (SHM) domain, there are plenty of cases where new research projects have a unique combination of structure design and implementation, sensor selection and technological enablers that does not fit with the configuration of relevant individual studies in the literature. Thus, we share the data from our case study to the research community as we did not find any relevant repository available. More specifically, in this paper, we present a novel time-series dataset for impact detection and localization on a plastic thin-plate, towards Structural Health Monitoring applications, using ceramic piezoelectric transducers (PZTs) connected to an Internet of Things (IoT) device. The dataset was collected from an experimental procedure of low-velocity, low-energy impact events that includes at least 3 repetitions for each unique experiment, while the input measurements come from 4 PZT sensors placed at the corners of the plate. For each repetition and sensor, 5000 values are stored with 100 KHz sampling rate. The system is excited with a steel ball, and the height from which it is released varies from 10 cm to 20 cm. The dataset is available in GitHub (https://github.com/Smart-Objects/Impact-Events-Dataset). | 翻訳日:2022-09-22 16:42:53 公開日:2022-09-20 |
# wildNeRF:スパースモノクラーデータを用いた地中動的シーンの完全なビュー合成 wildNeRF: Complete view synthesis of in-the-wild dynamic scenes captured using sparse monocular data ( http://arxiv.org/abs/2209.10399v1 ) ライセンス: Link先を確認 | Shuja Khalid, Frank Rudzicz | (参考訳) 本稿では,動的非構造シーンの新規視点合成のために,自己教師付きで学習可能な新しいニューラルラジアンスモデルを提案する。
エンドツーエンドのトレーニング可能なアルゴリズムは、非常に複雑で実世界の静的なシーンを数秒で学習し、剛体と非剛体の両方で数分以内に動的シーンを学習します。
静止画素と動き中心画素を区別することにより、スパース画像から高品質な表現を生成する。
既存のベンチマークで定性的かつ定量的な評価を行い、NVIDIA Dynamic Scenes Datasetのパフォーマンス測定に最先端を設定します。
また,cholec80 や surgeryactions160 のような実世界の課題データセットにおけるモデル性能の評価を行った。 We present a novel neural radiance model that is trainable in a self-supervised manner for novel-view synthesis of dynamic unstructured scenes. Our end-to-end trainable algorithm learns highly complex, real-world static scenes within seconds and dynamic scenes with both rigid and non-rigid motion within minutes. By differentiating between static and motion-centric pixels, we create high-quality representations from a sparse set of images. We perform extensive qualitative and quantitative evaluation on existing benchmarks and set the state-of-the-art on performance measures on the challenging NVIDIA Dynamic Scenes Dataset. Additionally, we evaluate our model performance on challenging real-world datasets such as Cholec80 and SurgicalActions160. | 翻訳日:2022-09-22 16:34:14 公開日:2022-09-20 |
# MR画像における弱視下脳腫瘍分離のためのスーパーピクセル生成とクラスタリング Superpixel Generation and Clustering for Weakly Supervised Brain Tumor Segmentation in MR Images ( http://arxiv.org/abs/2209.09930v1 ) ライセンス: Link先を確認 | Jay J. Yoo, Khashayar Namdar, Farzad Khalvati | (参考訳) 医療画像における腫瘍やその他の異常をセグメント化するための機械学習(ml)モデルのトレーニングは、ますます一般的な研究分野であるが、一般的には、かなりの時間とリソースを必要とする手作業による地上真実セグメンテーションを必要とする。
本研究は,二項分類ラベルを用いたMLモデルのパイプラインを提案し,基礎的真理アノテーションを必要とせずにROIを分割する。
我々は,Multimodal Brain tumor Segmentation Challenge (BraTS) 2020データセットからのMRIの2Dスライスと,高次グリオーマ(HGG)腫瘍の存在を示すラベルを用いてパイプラインを訓練した。
このパイプラインでは,クラスタ化されたスーパーピクセルで指導されたトレーニングを可能とし,同時にスーパーピクセルクラスタリングモデルを訓練する。
我々のパイプラインのセグメンテーションはDice係数61.7%を達成し,LIME(Local Interpretable Model-Agnostic Explanations)法で得られたDice係数42.8%を大きく改善した。 Training Machine Learning (ML) models to segment tumors and other anomalies in medical images is an increasingly popular area of research but generally requires manually annotated ground truth segmentations which necessitates significant time and resources to create. This work proposes a pipeline of ML models that utilize binary classification labels, which can be easily acquired, to segment ROIs without requiring ground truth annotations. We used 2D slices of Magnetic Resonance Imaging (MRI) brain scans from the Multimodal Brain Tumor Segmentation Challenge (BraTS) 2020 dataset and labels indicating the presence of high-grade glioma (HGG) tumors to train the pipeline. Our pipeline also introduces a novel variation of deep learning-based superpixel generation, which enables training guided by clustered superpixels and simultaneously trains a superpixel clustering model. On our test set, our pipeline's segmentations achieved a Dice coefficient of 61.7%, which is a substantial improvement over the 42.8% Dice coefficient acquired when the popular Local Interpretable Model-Agnostic Explanations (LIME) method was used. | 翻訳日:2022-09-22 16:19:30 公開日:2022-09-20 |
# ジェネレータモデルのスパース潜在表現の学習 Learning Sparse Latent Representations for Generator Model ( http://arxiv.org/abs/2209.09949v1 ) ライセンス: Link先を確認 | Hanao Li, Tian Han | (参考訳) スパーシティは望ましい属性です。
これは高密度モデルよりも効率的で効果的な表現につながる可能性がある。
一方,コンピュータビジョンや機械学習では,学習の難易度が低かったため,学習の難易度が問題となっている。
本稿では,従来のように徐々にスパース化スパイクとスラブ分布を持つ発電機モデルの潜在空間にスパース性を持たせるための教師なし学習手法を提案する。
我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。
非永続勾配法を用いて, 発電機後向きの潜伏変数を推定できる。
推論ステップにおけるスパイクとスラブの正則化は、非形式的潜在次元をゼロへ押し上げ、空間性を誘導する。
広範に実験した結果,既存の手法に比べて精度が向上し,疎い表現で元の画像から得られる情報の大半を保存できることがわかった。
我々は,このモデルが不連続なセマンティクスを学習し,潜在コードの説明可能性を高めつつ,分類や弁別作業におけるロバスト性を高めることができることを観察する。 Sparsity is a desirable attribute. It can lead to more efficient and more effective representations compared to the dense model. Meanwhile, learning sparse latent representations has been a challenging problem in the field of computer vision and machine learning due to its complexity. In this paper, we present a new unsupervised learning method to enforce sparsity on the latent space for the generator model with a gradually sparsified spike and slab distribution as our prior. Our model consists of only one top-down generator network that maps the latent variable to the observed data. Latent variables can be inferred following generator posterior direction using non-persistent gradient based method. Spike and Slab regularization in the inference step can push non-informative latent dimensions towards zero to induce sparsity. Extensive experiments show the model can preserve majority of the information from original images with sparse representations while demonstrating improved results compared to other existing methods. We observe that our model can learn disentangled semantics and increase explainability of the latent codes while boosting the robustness in the task of classification and denoising. | 翻訳日:2022-09-22 16:19:09 公開日:2022-09-20 |
# MARIO:RoboCup SPLにおける視覚統計計算のためのモジュール的で拡張可能なアーキテクチャ MARIO: Modular and Extensible Architecture for Computing Visual Statistics in RoboCup SPL ( http://arxiv.org/abs/2209.09987v1 ) ライセンス: Link先を確認 | Domenico D. Bloisi, Andrea Pennisi, Cristian Zampino, Flavio Biancospino, Francesco Laus, Gianluca Di Stefano, Michele Brienza, Rocchina Romano | (参考訳) この技術レポートは、バンコク(タイ)で開催されたRoboCup 2022のSPL Open Research Challengeで発表されたRoboCup SPL(MARIO)で、視覚統計を計算するためのモジュラーで拡張可能なアーキテクチャを記述している。
MARIOはオープンソースで使えるソフトウェアアプリケーションで、RoboCup SPLコミュニティの成長に貢献することを目的としている。
MARIOには、自動カメラキャリブレーション、バックグラウンドサブトラクション、ホモグラフィ計算、プレーヤー+ボール追跡とローカライゼーション、NAOロボットのポーズ推定とフォール検出を含む、複数の機械学習とコンピュータビジョンベースの機能を統合するGUIが付属している。
MARIOはOpen Research Challengeで1位にランクインしている。 This technical report describes a modular and extensible architecture for computing visual statistics in RoboCup SPL (MARIO), presented during the SPL Open Research Challenge at RoboCup 2022, held in Bangkok (Thailand). MARIO is an open-source, ready-to-use software application whose final goal is to contribute to the growth of the RoboCup SPL community. MARIO comes with a GUI that integrates multiple machine learning and computer vision based functions, including automatic camera calibration, background subtraction, homography computation, player + ball tracking and localization, NAO robot pose estimation and fall detection. MARIO has been ranked no. 1 in the Open Research Challenge. | 翻訳日:2022-09-22 16:18:54 公開日:2022-09-20 |
# きめ細かいvrスケッチ:データセットとインサイト Fine-Grained VR Sketching: Dataset and Insights ( http://arxiv.org/abs/2209.10008v1 ) ライセンス: Link先を確認 | Ling Luo, Yulia Gryaditskaya, Yongxin Yang, Tao Xiang, Yi-Zhe Song | (参考訳) 1,497個のVRスケッチと大きな形状の椅子カテゴリーの3次元形状ペアの最初の詳細なデータセットを提示する。
我々のデータセットは、微粒なデータ分析に関するスケッチコミュニティの最近のトレンドをサポートし、それを活発に開発されている3Dドメインに拡張する。
我々は、スケッチがスパースラインで構成され、スケッチスキルや事前のトレーニング、正確な描画を必要としない、最も便利なスケッチシナリオについて論じる。
次に,3次元形状検索のための細粒度3dvrスケッチのシナリオを,新たなvrスケッチアプリケーションとして初めて検討し,今後の研究に汎用的な洞察を与えるための実証的基盤について検討した。
この新しい問題に対して慎重に選択された設計要素の組み合わせを実験することにより、作業の続行に役立つ重要な結論を導き出す。
我々のデータセットは、特にきめ細かい3D形状の再構成のような細かな角度を必要とする他の新しい応用を可能にすることを願っている。
データセットは littleurl.com/VRSketch3DV21 で利用可能である。 We present the first fine-grained dataset of 1,497 3D VR sketch and 3D shape pairs of a chair category with large shapes diversity. Our dataset supports the recent trend in the sketch community on fine-grained data analysis, and extends it to an actively developing 3D domain. We argue for the most convenient sketching scenario where the sketch consists of sparse lines and does not require any sketching skills, prior training or time-consuming accurate drawing. We then, for the first time, study the scenario of fine-grained 3D VR sketch to 3D shape retrieval, as a novel VR sketching application and a proving ground to drive out generic insights to inform future research. By experimenting with carefully selected combinations of design factors on this new problem, we draw important conclusions to help follow-on work. We hope our dataset will enable other novel applications, especially those that require a fine-grained angle such as fine-grained 3D shape reconstruction. The dataset is available at tinyurl.com/VRSketch3DV21. | 翻訳日:2022-09-22 16:18:39 公開日:2022-09-20 |
# 3次元vr-sketchから3次元形状検索へ Towards 3D VR-Sketch to 3D Shape Retrieval ( http://arxiv.org/abs/2209.10020v1 ) ライセンス: Link先を確認 | Ling Luo, Yulia Gryaditskaya, Yongxin Yang, Tao Xiang, Yi-Zhe Song | (参考訳) 無料のオンライン3D形状コレクションは、3D検索の研究を規定している。
しかし、活発な議論が続いている。
(i)検索をトリガーする最良の入力モダリティ、及び
(ii)そのような検索の究極の使用シナリオ。
本稿では,3次元スケッチを入力モダリティとして用い,検索を行うVRシナリオを提案する。
したがって、究極のビジョンは、ユーザーがvr環境でエアドルリングすることで3dモデルを自由に取得できることだ。
この新しい3dvr-sketch to 3d shape searchの問題を初めて見たとき、私たちは4つの貢献をした。
まず、VRユーティリティをコーディングして、3DVRスケッチを収集し、検索を行う。
第二に、ModelNetから2つの形状カテゴリーについて、最初の167ドルの3DVRスケッチを収集する。
第3に,深層ネットワークを学習するために,抽象レベルが異なる人間の3Dスケッチの合成データセットを作成する手法を提案する。
最後に,3次元の形状検索と3次元の形状検索とは対照的に,3次元の形状検索と3次元の立体スケッチのスパースで抽象的な性質により,3次元の形状検索に優れた性能を示すことを示す。
これらのコントリビュートが、この課題に対する今後の試みの実現に一役買うと私たちは信じています。
VRインターフェース、コード、データセットはhttps://tinyurl.com/3DSketch3DVで入手できる。 Growing free online 3D shapes collections dictated research on 3D retrieval. Active debate has however been had on (i) what the best input modality is to trigger retrieval, and (ii) the ultimate usage scenario for such retrieval. In this paper, we offer a different perspective towards answering these questions -- we study the use of 3D sketches as an input modality and advocate a VR-scenario where retrieval is conducted. Thus, the ultimate vision is that users can freely retrieve a 3D model by air-doodling in a VR environment. As a first stab at this new 3D VR-sketch to 3D shape retrieval problem, we make four contributions. First, we code a VR utility to collect 3D VR-sketches and conduct retrieval. Second, we collect the first set of $167$ 3D VR-sketches on two shape categories from ModelNet. Third, we propose a novel approach to generate a synthetic dataset of human-like 3D sketches of different abstract levels to train deep networks. At last, we compare the common multi-view and volumetric approaches: We show that, in contrast to 3D shape to 3D shape retrieval, volumetric point-based approaches exhibit superior performance on 3D sketch to 3D shape retrieval due to the sparse and abstract nature of 3D VR-sketches. We believe these contributions will collectively serve as enablers for future attempts at this problem. The VR interface, code and datasets are available at https://tinyurl.com/3DSketch3DV. | 翻訳日:2022-09-22 16:18:22 公開日:2022-09-20 |
# Fast-Image2Point:3次元スーパービジョンを用いた単一画像のリアルタイムクラウド再構築に向けて Fast-Image2Point: Towards Real-Time Point Cloud Reconstruction of a Single Image using 3D Supervision ( http://arxiv.org/abs/2209.10029v1 ) ライセンス: Link先を確認 | AmirHossein Zamani, Amir G. Aghdam and Kamran Ghaffari T | (参考訳) 3D再構成の問題は、3Dオブジェクトをモデル化するための機械やロボットの訓練方法である。
自動運転車のようなリアルタイムシステムのナビゲーションのような多くのタスクは、この問題に直接依存する。
これらのシステムは通常、計算能力に制限がある。
近年の3次元再構築システムの進歩にもかかわらず、既存の手法の複雑さと計算要求が高いため、自動運転車のナビゲーションシステムのようなリアルタイムシステムに適用することは依然として困難である。
本研究では、より高速(リアルタイム)な単一視点画像で表示されたオブジェクトの再構成における現在の問題に対処する。
この目的のために、シンプルで強力なディープニューラルネットワークフレームワークが開発されている。
提案するフレームワークは,特徴抽出モジュールと3Dジェネレータモジュールの2つのコンポーネントで構成されている。
再建モジュールの出力にはポイントクラウド表現を使用します。
ShapeNetデータセットを使用して、計算時間と精度の点で既存の結果と比較する。
シミュレーションにより提案手法の優れた性能を示す。
インデックス項-リアルタイム3D再構成、一視点再構成、教師付き学習、ディープニューラルネットワーク A key question in the problem of 3D reconstruction is how to train a machine or a robot to model 3D objects. Many tasks like navigation in real-time systems such as autonomous vehicles directly depend on this problem. These systems usually have limited computational power. Despite considerable progress in 3D reconstruction systems in recent years, applying them to real-time systems such as navigation systems in autonomous vehicles is still challenging due to the high complexity and computational demand of the existing methods. This study addresses current problems in reconstructing objects displayed in a single-view image in a faster (real-time) fashion. To this end, a simple yet powerful deep neural framework is developed. The proposed framework consists of two components: the feature extractor module and the 3D generator module. We use point cloud representation for the output of our reconstruction module. The ShapeNet dataset is utilized to compare the method with the existing results in terms of computation time and accuracy. Simulations demonstrate the superior performance of the proposed method. Index Terms-Real-time 3D reconstruction, single-view reconstruction, supervised learning, deep neural network | 翻訳日:2022-09-22 16:18:00 公開日:2022-09-20 |
# mtr-a: 2022 waymo open dataset challengeの1位ソリューション - モーション予測 MTR-A: 1st Place Solution for 2022 Waymo Open Dataset Challenge -- Motion Prediction ( http://arxiv.org/abs/2209.10033v1 ) ライセンス: Link先を確認 | Shaoshuai Shi, Li Jiang, Dengxin Dai, Bernt Schiele | (参考訳) 本報告では,2022年のwaymo open dataset challengeにおいて,モーション予測トラックのための第1位解を提案する。
そこで本研究では,意図的局所化と反復的運動改善を共同で行うことで,より優れたマルチモーダル未来の軌道を生成するための,一連の新しい動作クエリペアを提案する。
非最大圧縮による単純なモデルアンサンブル戦略を採用し、最終的な性能をさらに向上させる。
当社のアプローチは,2022年のwaymo open dataset challengeのモーション予測リーダボードで,目立ったマージンを持つ他の手法を上回って,第1位を達成した。
コードはhttps://github.com/sshaoshuai/MTRで入手できる。 In this report, we present the 1st place solution for motion prediction track in 2022 Waymo Open Dataset Challenges. We propose a novel Motion Transformer framework for multimodal motion prediction, which introduces a small set of novel motion query pairs for generating better multimodal future trajectories by jointly performing the intention localization and iterative motion refinement. A simple model ensemble strategy with non-maximum-suppression is adopted to further boost the final performance. Our approach achieves the 1st place on the motion prediction leaderboard of 2022 Waymo Open Dataset Challenges, outperforming other methods with remarkable margins. Code will be available at https://github.com/sshaoshuai/MTR. | 翻訳日:2022-09-22 16:17:45 公開日:2022-09-20 |
# 知識認識質問応答のための動的関連グラフネットワーク Dynamic Relevance Graph Network for Knowledge-Aware Question Answering ( http://arxiv.org/abs/2209.09947v1 ) ライセンス: Link先を確認 | Chen Zheng and Parisa Kordjamshidi | (参考訳) 本研究は,知識グラフ(KG)の形式で外部知識源を付与したコモンセンス質問回答の学習と推論の課題について検討する。
本稿では,DRGN(Dynamic Relevance Graph Network)と呼ばれる新しいグラフニューラルネットワークアーキテクチャを提案する。
DRGNは、質問と回答のエンティティに基づいて所定のKGサブグラフで動作し、ノード間の関連スコアを使用して、グラフネットワーク内のノード表現を学習するために、新しいエッジを動的に確立する。
グラフエッジとしての関連性の明示的な使用には、次のような利点がある。
a)モデルでは,既存の関係を利用して,ノードの重み付けを再スケールし,近傍ノードの表現がkgサブグラフに集約される方法に影響を与えることができる。
b) 推論に必要なkgの欠落したエッジを回収する可能性がある。
さらに,副産物として,質問ノードとグラフエンティティの関係を考慮し,ネガティブな質問の処理を改善する。
提案手法は2つのQAベンチマークであるCommonsenseQAとOpenbookQAの競合性能を示す。 This work investigates the challenge of learning and reasoning for Commonsense Question Answering given an external source of knowledge in the form of a knowledge graph (KG). We propose a novel graph neural network architecture, called Dynamic Relevance Graph Network (DRGN). DRGN operates on a given KG subgraph based on the question and answers entities and uses the relevance scores between the nodes to establish new edges dynamically for learning node representations in the graph network. This explicit usage of relevance as graph edges has the following advantages, a) the model can exploit the existing relationships, re-scale the node weights, and influence the way the neighborhood nodes' representations are aggregated in the KG subgraph, b) It potentially recovers the missing edges in KG that are needed for reasoning. Moreover, as a byproduct, our model improves handling the negative questions due to considering the relevance between the question node and the graph entities. Our proposed approach shows competitive performance on two QA benchmarks, CommonsenseQA and OpenbookQA, compared to the state-of-the-art published results. | 翻訳日:2022-09-22 16:09:37 公開日:2022-09-20 |
# 非構造健康記録の抽出要約のための最適粒度探索 : 日本最大の多施設健康記録アーカイブの分析 Exploring Optimal Granularity for Extractive Summarization of Unstructured Health Records: Analysis of the Largest Multi-Institutional Archive of Health Records in Japan ( http://arxiv.org/abs/2209.10041v1 ) ライセンス: Link先を確認 | Kenichiro Ando, Takashi OkumuraID, Mamoru Komachi, Hiromasa Horiguchi, Yuji Matsumoto | (参考訳) 臨床テキストの自動要約は、医療専門家の負担を軽減することができる。
毎日の入院記録から生成できるため、この要約の有望な応用の一つに「ディスチャージサマリー」がある。
予備実験では, 退院サマリーの20~31%が入院記録の内容と重なることが示唆された。
しかし、どのようなサマリーを非構造化ソースから生成すべきかは定かではない。
本研究は,医師の要約過程を分解するために,要約の最適粒度を特定することを目的とした。
まず, 文全体, 臨床セグメント, 節のアウトプット・サマリー生成の性能を比較するために, 粒度の異なる3種類の要約単位を定義した。
本研究では,最小の医学的意味概念の表現を目的とした臨床セグメントを定義した。
臨床セグメントを得るには,パイプラインの第1段階で自動的にテキストを分割する必要がある。
そこで,本研究ではルールベース手法と機械学習法を比較し,後者がf1得点0.846で前者を上回る結果を得た。
次に, ROUGE-1測定値に基づく抽出要約の精度を, 日本における多施設の保健記録アーカイブ上で実験的に測定した。
全文,臨床セグメント,節を用いた抽出要約の精度は,それぞれ31.91,36.15,25.18であった。
その結果,臨床セグメントは文や節よりも精度が高かった。
この結果から,患者記録の要約は文指向処理よりも細粒度を要求されることが示唆された。
日本の健康記録のみを用いたが、医師は患者の記録から「医学的意義の概念」を抽出し、それらを再結合する。 Automated summarization of clinical texts can reduce the burden of medical professionals. "Discharge summaries" are one promising application of the summarization, because they can be generated from daily inpatient records. Our preliminary experiment suggests that 20-31% of the descriptions in discharge summaries overlap with the content of the inpatient records. However, it remains unclear how the summaries should be generated from the unstructured source. To decompose the physician's summarization process, this study aimed to identify the optimal granularity in summarization. We first defined three types of summarization units with different granularities to compare the performance of the discharge summary generation: whole sentences, clinical segments, and clauses. We defined clinical segments in this study, aiming to express the smallest medically meaningful concepts. To obtain the clinical segments, it was necessary to automatically split the texts in the first stage of the pipeline. Accordingly, we compared rule-based methods and a machine learning method, and the latter outperformed the formers with an F1 score of 0.846 in the splitting task. Next, we experimentally measured the accuracy of extractive summarization using the three types of units, based on the ROUGE-1 metric, on a multi-institutional national archive of health records in Japan. The measured accuracies of extractive summarization using whole sentences, clinical segments, and clauses were 31.91, 36.15, and 25.18, respectively. We found that the clinical segments yielded higher accuracy than sentences and clauses. This result indicates that summarization of inpatient records demands finer granularity than sentence-oriented processing. Although we used only Japanese health records, it can be interpreted as follows: physicians extract "concepts of medical significance" from patient records and recombine them ... | 翻訳日:2022-09-22 16:09:22 公開日:2022-09-20 |
# リズムシーンの設定:任意の言語キューからの深層学習に基づくドラムループ生成 Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues ( http://arxiv.org/abs/2209.10016v1 ) ライセンス: Link先を確認 | Ignacio J. Tripodi | (参考訳) 創造的な人工知能モデルは、プロのミュージシャンを助け、ホビイストのための音楽制作プロセスを民主化するために、音楽の構成とライブパフォーマンスにとって貴重な助けとなる。
ここでは、英単語やフレーズを与えられた場合、与えられた言語キューの「ムード」を具現化した4ピースドラムパターンの2つのコンパスを生成するか、言語キューによって記述された音声視覚シーンに使用できる新しい手法を提案する。
我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。
このモデルのトレーニングサンプルを作成するために,「シーン」や「ムード」といった用語の手動アノテーションに加えて,任意の曲のコンセンサスドラムトラックを抽出する新しい手法を考案した。
曲の主な打楽器的モチーフを表す2バールの4ピースのドラムパターンで構成されており、あらゆる音楽ループデバイスやライブループソフトウェアにインポートすることができる。
これら2つの重要な要素(一般化された入力からのドラムパターン生成とコンセンサスパーカッション抽出)は、コンピュータ支援合成に対する新しいアプローチを示し、より包括的なリズム生成のためのステップストーンを提供する。 Generative artificial intelligence models can be a valuable aid to music composition and live performance, both to aid the professional musician and to help democratize the music creation process for hobbyists. Here we present a novel method that, given an English word or phrase, generates 2 compasses of a 4-piece drum pattern that embodies the "mood" of the given language cue, or that could be used for an audiovisual scene described by the language cue. We envision this tool as composition aid for electronic music and audiovisual soundtrack production, or an improvisation tool for live performance. In order to produce the training samples for this model, besides manual annotation of the "scene" or "mood" terms, we have designed a novel method to extract the consensus drum track of any song. This consists of a 2-bar, 4-piece drum pattern that represents the main percussive motif of a song, which could be imported into any music loop device or live looping software. These two key components (drum pattern generation from a generalizable input, and consensus percussion extraction) present a novel approach to computer-aided composition and provide a stepping stone for more comprehensive rhythm generation. | 翻訳日:2022-09-22 16:00:49 公開日:2022-09-20 |
# マルチエージェント強化学習のための非同期アクタークリティック Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.10113v1 ) ライセンス: Link先を確認 | Yuchen Xiao, Weihao Tan and Christopher Amato | (参考訳) エージェントが他のエージェントが終了し、確実に終了について通信するのを待たなければならないため、現実的な設定で複数のエージェント間での意思決定の同期は問題となる。
理想的には、エージェントは非同期に学習し実行する必要がある。
このような非同期メソッドは、状況と実行されたアクションに基づいて異なる量の時間を要する、時間軸に拡張されたアクションも可能にする。
残念なことに、現在のポリシー勾配法は非同期設定では適用できない。
非同期学習と意思決定を可能にするために,エージェントが分散学習,集中学習,分散実行のための集中学習という3つの標準トレーニングパラダイムにおいて,非同期ポリシを直接最適化する非同期マルチエージェントアクタ批判手法を定式化した。
様々な現実的な領域における経験的結果(シミュレーションとハードウェア)は、大規模マルチエージェント問題における我々のアプローチの優位性を示し、高品質で非同期なソリューションを学習するためのアルゴリズムの有効性を検証する。 Synchronizing decisions across multiple agents in realistic settings is problematic since it requires agents to wait for other agents to terminate and communicate about termination reliably. Ideally, agents should learn and execute asynchronously instead. Such asynchronous methods also allow temporally extended actions that can take different amounts of time based on the situation and action executed. Unfortunately, current policy gradient methods are not applicable in asynchronous settings, as they assume that agents synchronously reason about action selection at every time step. To allow asynchronous learning and decision-making, we formulate a set of asynchronous multi-agent actor-critic methods that allow agents to directly optimize asynchronous policies in three standard training paradigms: decentralized learning, centralized learning, and centralized training for decentralized execution. Empirical results (in simulation and hardware) in a variety of realistic domains demonstrate the superiority of our approaches in large multi-agent problems and validate the effectiveness of our algorithms for learning high-quality and asynchronous solutions. | 翻訳日:2022-09-22 15:52:18 公開日:2022-09-20 |
# ソフトウェア脆弱性の原因となるコードステートメントを識別するための情報理論と対比学習に基づくアプローチ An Information-Theoretic and Contrastive Learning-based Approach for Identifying Code Statements Causing Software Vulnerability ( http://arxiv.org/abs/2209.10414v1 ) ライセンス: Link先を確認 | Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung Nguyen, Seyit Camtepe, Paul Quirk and Dinh Phung | (参考訳) コンピュータシステムのプログラムや機能に存在するソフトウェアの脆弱性は、深刻で重要な問題である。
通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはごくわずかである。
脆弱性ラベリングは現在、マシンラーニングツールの助けを借りて、専門家による関数やプログラムレベルで行われている。
このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。
本稿では,特定の関数の脆弱性関連コード文を特定するための,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を利用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。
そこで我々は,脆弱性関連コード文の表現学習とロバスト選択プロセスをさらに改善するために,新しい空間的コントラスト学習を提案する。
200k以上のc/c++関数の実世界のデータセットにおける実験結果は、他の最先端のベースラインよりも優れた方法を示している。
一般に,本手法は,教師なし環境で実世界のデータセット上で動作する場合,ベースライン上でのVCP,VCA,Top-10 ACCの3倍から14倍の精度を示す。
リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。
} Software vulnerabilities existing in a program or function of computer systems are a serious and crucial concern. Typically, in a program or function consisting of hundreds or thousands of source code statements, there are only few statements causing the corresponding vulnerabilities. Vulnerability labeling is currently done on a function or program level by experts with the assistance of machine learning tools. Extending this approach to the code statement level is much more costly and time-consuming and remains an open problem. In this paper we propose a novel end-to-end deep learning-based approach to identify the vulnerability-relevant code statements of a specific function. Inspired by the specific structures observed in real world vulnerable code, we first leverage mutual information for learning a set of latent variables representing the relevance of the source code statements to the corresponding function's vulnerability. We then propose novel clustered spatial contrastive learning in order to further improve the representation learning and the robust selection process of vulnerability-relevant code statements. Experimental results on real-world datasets of 200k+ C/C++ functions show the superiority of our method over other state-of-the-art baselines. In general, our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of between 3\% to 14\% over the baselines when running on real-world datasets in an unsupervised setting. Our released source code samples are publicly available at \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.} | 翻訳日:2022-09-22 15:50:01 公開日:2022-09-20 |
# 画像誘導現象を用いた2型糖尿病の学習による放射能予測 Learning-Based Radiomic Prediction of Type 2 Diabetes Mellitus Using Image-Derived Phenotypes ( http://arxiv.org/abs/2209.10043v1 ) ライセンス: Link先を確認 | Michael S. Yao, Allison Chae, Matthew T. MacLean, Anurag Verma, Jeffrey Duda, James Gee, Drew A. Torigian, Daniel Rader, Charles Kahn, Walter R. Witschey, Hersh Sagreiya | (参考訳) 2型糖尿病(T2DM)の早期診断は、タイムリーな治療介入とライフスタイルの変更を可能にするために重要である。
多くの患者で医用画像データが利用可能になるにつれて, 画像由来の表現型データを表型学習分類器モデルで活用し, 血液検査を使わずにT2DMの出現を予測できるかどうかを検討した。
画像由来の表現型を用いたニューラルネットワークと決定木モデルの両方が、リコールスコア87.6%の患者t2dmステータスを予測できることを示した。
また,血液ヘモグロビンA1C実験室測定を模倣した解釈可能な値を出力できる「シンスA1cエンコーダ」と同じアーキテクチャの新規な利用を提案する。
最後に, 入力ベクトル成分の小さな摂動に対するT2DMリスク予測モデルを用いて, 既往の患者集団から採取した共変量の性能を予測できることを実証した。 Early diagnosis of Type 2 Diabetes Mellitus (T2DM) is crucial to enable timely therapeutic interventions and lifestyle modifications. As medical imaging data become more widely available for many patient populations, we sought to investigate whether image-derived phenotypic data could be leveraged in tabular learning classifier models to predict T2DM incidence without the use of invasive blood lab measurements. We show that both neural network and decision tree models that use image-derived phenotypes can predict patient T2DM status with recall scores as high as 87.6%. We also propose the novel use of these same architectures as 'SynthA1c encoders' that are able to output interpretable values mimicking blood hemoglobin A1C empirical lab measurements. Finally, we demonstrate that T2DM risk prediction model sensitivity to small perturbations in input vector components can be used to predict performance on covariates sampled from previously unseen patient populations. | 翻訳日:2022-09-22 15:41:46 公開日:2022-09-20 |
# 異常検出を含む多くの授業に対する受入領域の学習 Learning Acceptance Regions for Many Classes with Anomaly Detection ( http://arxiv.org/abs/2209.09963v1 ) ライセンス: Link先を確認 | Zhou Wang, Xingye Qiao | (参考訳) 集合値分類は、観察対象のすべての可視クラスを特定することを目的とした新しい分類パラダイムであり、全てのクラスに対する受容領域を学習することで得られる。
既存の集合値分類法の多くは、トレーニングデータに存在しない新しいクラスがテストデータに現れる可能性を考慮していない。
さらに、クラス数が大きくなると計算コストが高くなる。
テストデータに新しいクラスが存在する可能性を考慮しつつ、受入領域を推定するための一般化予測セット(gps)手法を提案する。
提案する分類器は、予測セットの期待されるサイズを最小化し、クラス固有の精度が少なくとも予め定められた値であることを保証する。
従来の手法とは異なり,提案手法は精度,効率,異常検出率のバランスが良好である。
さらに,計算負担を軽減するために,全てのクラスに並列に適用することができる。
提案手法の有効性を説明するために, 理論解析および数値実験を行った。 Set-valued classification, a new classification paradigm that aims to identify all the plausible classes that an observation belongs to, can be obtained by learning the acceptance regions for all classes. Many existing set-valued classification methods do not consider the possibility that a new class that never appeared in the training data appears in the test data. Moreover, they are computationally expensive when the number of classes is large. We propose a Generalized Prediction Set (GPS) approach to estimate the acceptance regions while considering the possibility of a new class in the test data. The proposed classifier minimizes the expected size of the prediction set while guaranteeing that the class-specific accuracy is at least a pre-specified value. Unlike previous methods, the proposed method achieves a good balance between accuracy, efficiency, and anomaly detection rate. Moreover, our method can be applied in parallel to all the classes to alleviate the computational burden. Both theoretical analysis and numerical experiments are conducted to illustrate the effectiveness of the proposed method. | 翻訳日:2022-09-22 15:32:55 公開日:2022-09-20 |
# 強化学習と模倣学習による作物管理の最適化 Optimizing Crop Management with Reinforcement Learning and Imitation Learning ( http://arxiv.org/abs/2209.09991v1 ) ライセンス: Link先を確認 | Ran Tao, Pan Zhao, Jing Wu, Nicolas F. Martin, Matthew T. Harrison, Carla Ferreira, Zahra Kalantari, Naira Hovakimyan | (参考訳) 窒素(n)の肥料化や灌水管理を含む作物管理は、作物の収量、経済的な利益、環境に大きな影響を与える。
経営指針は存在するが、特定の植林環境と作物に最適な経営実践を見つけることは困難である。
以前の研究では、強化学習(RL)と作物シミュレータを使用してこの問題を解決するが、訓練されたポリシーは性能が限られているか、実際の世界では展開できない。
本稿では,農業技術移転決定支援システム (dssat) を用いて, rl, 模倣学習 (il), 作物シミュレーションによるn施肥と灌水を同時に最適化する知的作物管理システムを提案する。
我々はまず、ディープRL、特にディープQネットワークを使用して、シミュレータからのすべての状態情報を観察(完全な観察)として要求する管理ポリシーを訓練する。
次に、実世界で容易に得ることのできる限られた量の状態情報しか必要としない経営方針(部分観察)を、以前のRL訓練方針の動作をフル観察で模倣することにより、ILを訓練する。
フロリダでmaizeを用いたケーススタディで実験を行い,訓練されたポリシーをmaize管理ガイドラインと比較した。
我々の訓練された政策は、完全な観測と部分的観測の両方の下でより良い結果をもたらし、より高い利益または環境影響の少ない同様の利益をもたらす。
さらに、部分観測管理ポリシーは、利用可能な情報を使用するため、現実世界に直接デプロイ可能である。 Crop management, including nitrogen (N) fertilization and irrigation management, has a significant impact on the crop yield, economic profit, and the environment. Although management guidelines exist, it is challenging to find the optimal management practices given a specific planting environment and a crop. Previous work used reinforcement learning (RL) and crop simulators to solve the problem, but the trained policies either have limited performance or are not deployable in the real world. In this paper, we present an intelligent crop management system which optimizes the N fertilization and irrigation simultaneously via RL, imitation learning (IL), and crop simulations using the Decision Support System for Agrotechnology Transfer (DSSAT). We first use deep RL, in particular, deep Q-network, to train management policies that require all state information from the simulator as observations (denoted as full observation). We then invoke IL to train management policies that only need a limited amount of state information that can be readily obtained in the real world (denoted as partial observation) by mimicking the actions of the previously RL-trained policies under full observation. We conduct experiments on a case study using maize in Florida and compare trained policies with a maize management guideline in simulations. Our trained policies under both full and partial observations achieve better outcomes, resulting in a higher profit or a similar profit with a smaller environmental impact. Moreover, the partial-observation management policies are directly deployable in the real world as they use readily available information. | 翻訳日:2022-09-22 15:23:43 公開日:2022-09-20 |
# メタデータ考古学: トレーニングダイナミクスを活用したデータサブセットの発掘 Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics ( http://arxiv.org/abs/2209.10015v1 ) ライセンス: Link先を確認 | Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker | (参考訳) 現代の機械学習の研究は、比較的慎重にキュレートされたデータセットに頼っている。
これらのデータセットでさえも、通常 ‘untidy’ や raw data では、実践者はデータ品質と多様性の重大な問題に直面しており、それは強制的に対処しなければならない。
これらの課題に対処する既存の方法は、特定の問題に対して強い前提を定め、ドメインラベルのような事前知識やメタデータを必要とすることが多い。
代わりに、メタデータ考古学のための統一的で効率的なフレームワーク -- データセットのサンプルのメタデータを発見して推論する -- を提供することに重点を置いています。
データセットに存在する可能性のあるデータの異なるサブセット(例えば、誤ったラベル付き、非定型的、あるいは分散的例)を単純な変換を使ってキュレートし、これらのプローブスイート間の学習ダイナミクスの違いを利用して、関心のあるメタデータを推測します。
提案手法は, ミスラベル付きサンプルの識別と修正, マイノリティグループサンプルの分類, トレーニングに関連するポイントの優先順位付け, 関連事例のスケーラブルな人間監査の実現など, さまざまなタスクにわたる高度な緩和手法と同等である。 Modern machine learning research relies on relatively few carefully curated datasets. Even in these datasets, and typically in `untidy' or raw data, practitioners are faced with significant issues of data quality and diversity which can be prohibitively labor intensive to address. Existing methods for dealing with these challenges tend to make strong assumptions about the particular issues at play, and often require a priori knowledge or metadata such as domain labels. Our work is orthogonal to these methods: we instead focus on providing a unified and efficient framework for Metadata Archaeology -- uncovering and inferring metadata of examples in a dataset. We curate different subsets of data that might exist in a dataset (e.g. mislabeled, atypical, or out-of-distribution examples) using simple transformations, and leverage differences in learning dynamics between these probe suites to infer metadata of interest. Our method is on par with far more sophisticated mitigation methods across different tasks: identifying and correcting mislabeled examples, classifying minority-group samples, prioritizing points relevant for training and enabling scalable human auditing of relevant examples. | 翻訳日:2022-09-22 15:23:19 公開日:2022-09-20 |
# バッチ製造プロセスのための産業データ科学 Industrial Data Science for Batch Manufacturing Processes ( http://arxiv.org/abs/2209.09660v1 ) ライセンス: Link先を確認 | Imanol Arzac-Garmendia, Mattia Vallerio, Carlos Perez-Galvan and Francisco J. Navarro-Brull | (参考訳) バッチプロセスは、原料の特性から、製造プロセスにおける異なるイベントの間に変化する初期および進化の条件まで、いくつかの変動の源を示す。
この章では、この明らかに過剰なデータを減らすために、マシンラーニングを使用して、プロセスエンジニアの関連する情報を維持しながら、産業的な例を示します。
一般的なユースケースは2つある。
1)バッチプロセスデータに相関関係を素早く発見するためのオートML分析
2)プロセス制御の改善につながる異常バッチの監視と識別のための軌道解析。 Batch processes show several sources of variability, from raw materials' properties to initial and evolving conditions that change during the different events in the manufacturing process. In this chapter, we will illustrate with an industrial example how to use machine learning to reduce this apparent excess of data while maintaining the relevant information for process engineers. Two common use cases will be presented: 1) AutoML analysis to quickly find correlations in batch process data, and 2) trajectory analysis to monitor and identify anomalous batches leading to process control improvements. | 翻訳日:2022-09-21 19:51:24 公開日:2022-09-20 |
# FedToken:フェデレートラーニングにおけるデータ貢献のためのトークン化インセンティブ FedToken: Tokenized Incentives for Data Contribution in Federated Learning ( http://arxiv.org/abs/2209.09775v1 ) ライセンス: Link先を確認 | Shashi Raj Pandey, Lam Duc Nguyen, and Petar Popovski | (参考訳) 連合学習モデル(fl)モデルの分散トレーニングにおける関連するコストを補償するインセンティブは、クライアントの長期参加のための重要な刺激として機能する。
しかし、以下がないことから、顧客に対して、flの品質参加を説得することは困難である。
(i) クライアントのデータ品質及び特性に関する完全な情報
(ii)クライアントのデータ提供の価額
(iii)金融インセンティブ提供の信頼できるメカニズム。
これはしばしば訓練やコミュニケーションの効率が悪くなる。
この問題を克服するための戦略的なインセンティブ設計とクライアント選択に焦点をあてる作業はいくつかあるが、学習目標を同時に満たしながら、Web 3.0を含む先進的なデジタル経済に合わせた全体的な設計に関して、大きな知識ギャップがある。
このギャップに対処するために,ブロックチェーン技術が支援する,モデルトレーニング中のデータ評価に対応するクライアント間のトークンの公平な割り当てを保証する,コントリビューションベースのトークン化インセンティブスキーム,すなわち \texttt{fedtoken}を提案する。
シャプレーに基づく手法を活かし,まず,モデル集約時の局所モデルの寄与を概算し,次に,制約付き金融予算の下で,通信ラウンドを縮小してコンバージェンスを行い,\emph{affordable}トークンをアロケートする方法を戦略的にスケジュールする。
本手法の有効性をシミュレーションにより検証した。 Incentives that compensate for the involved costs in the decentralized training of a Federated Learning (FL) model act as a key stimulus for clients' long-term participation. However, it is challenging to convince clients for quality participation in FL due to the absence of: (i) full information on the client's data quality and properties; (ii) the value of client's data contributions; and (iii) the trusted mechanism for monetary incentive offers. This often leads to poor efficiency in training and communication. While several works focus on strategic incentive designs and client selection to overcome this problem, there is a major knowledge gap in terms of an overall design tailored to the foreseen digital economy, including Web 3.0, while simultaneously meeting the learning objectives. To address this gap, we propose a contribution-based tokenized incentive scheme, namely \texttt{FedToken}, backed by blockchain technology that ensures fair allocation of tokens amongst the clients that corresponds to the valuation of their data during model training. Leveraging the engineered Shapley-based scheme, we first approximate the contribution of local models during model aggregation, then strategically schedule clients lowering the communication rounds for convergence and anchor ways to allocate \emph{affordable} tokens under a constrained monetary budget. Extensive simulations demonstrate the efficacy of our proposed method. | 翻訳日:2022-09-21 19:51:17 公開日:2022-09-20 |
# 効率的な大域最適化の最悪の複雑さに関する下界 Lower Bounds on the Worst-Case Complexity of Efficient Global Optimization ( http://arxiv.org/abs/2209.09655v1 ) ライセンス: Link先を確認 | Wenjie Xu and Yuning Jiang and Emilio T. Maddalena and Colin N. Jones | (参考訳) 効率的なグローバル最適化は、ハイパーパラメータのチューニングや新しい素材の設計など、高価なブラックボックス機能の最適化に広く使われている方法である。
その人気にもかかわらず、問題の本質的な難しさを分析することにはあまり注意が払われていないが、その広範な利用を考えると、効率的なグローバル最適化アルゴリズムの基本的な限界を理解することが重要である。
本稿では,効率的な大域最適化問題の最悪の複雑性について検討し,既存のカーネル固有の結果とは対照的に,対応する再生カーネルヒルベルト空間~(RKHS)における球の計量エントロピーの観点から,効率的な大域最適化の複雑さに対する統一的な下界を導出する。
Specifically, we show that if there exists a deterministic algorithm that achieves suboptimality gap smaller than $\epsilon$ for any function $f\in S$ in $T$ function evaluations, it is necessary that $T$ is at least $\Omega\left(\frac{\log\mathcal{N}(S(\mathcal{X}), 4\epsilon,\|\cdot\|_\infty)}{\log(\frac{R}{\epsilon})}\right)$, where $\mathcal{N}(\cdot,\cdot,\cdot)$ is the covering number, $S$ is the ball centered at $0$ with radius $R$ in the RKHS and $S(\mathcal{X})$ is the restriction of $S$ over the feasible set $\mathcal{X}$.
さらに、この下限は、よく使われる二乗指数核とmat\'ernカーネルに対する非適応探索アルゴリズムによって達成された上限にほぼ一致し、大きな平滑性パラメータである$\nu$、最大で$d/2$から$d$、対数項$\log\frac{r}{\epsilon}$が置き換えられることを示した。
つまり、我々の下限はこれらのカーネルにほぼ最適である。 Efficient global optimization is a widely used method for optimizing expensive black-box functions such as tuning hyperparameter, and designing new material, etc. Despite its popularity, less attention has been paid to analyzing the inherent hardness of the problem although, given its extensive use, it is important to understand the fundamental limits of efficient global optimization algorithms. In this paper, we study the worst-case complexity of the efficient global optimization problem and, in contrast to existing kernel-specific results, we derive a unified lower bound for the complexity of efficient global optimization in terms of the metric entropy of a ball in its corresponding reproducing kernel Hilbert space~(RKHS). Specifically, we show that if there exists a deterministic algorithm that achieves suboptimality gap smaller than $\epsilon$ for any function $f\in S$ in $T$ function evaluations, it is necessary that $T$ is at least $\Omega\left(\frac{\log\mathcal{N}(S(\mathcal{X}), 4\epsilon,\|\cdot\|_\infty)}{\log(\frac{R}{\epsilon})}\right)$, where $\mathcal{N}(\cdot,\cdot,\cdot)$ is the covering number, $S$ is the ball centered at $0$ with radius $R$ in the RKHS and $S(\mathcal{X})$ is the restriction of $S$ over the feasible set $\mathcal{X}$. Moreover, we show that this lower bound nearly matches the upper bound attained by non-adaptive search algorithms for the commonly used squared exponential kernel and the Mat\'ern kernel with a large smoothness parameter $\nu$, up to a replacement of $d/2$ by $d$ and a logarithmic term $\log\frac{R}{\epsilon}$. That is to say, our lower bound is nearly optimal for these kernels. | 翻訳日:2022-09-21 19:49:17 公開日:2022-09-20 |
# 知覚誤差モデルの上流適応サンプリングによる希少下流安全違反の検証 Testing Rare Downstream Safety Violations via Upstream Adaptive Sampling of Perception Error Models ( http://arxiv.org/abs/2209.09674v1 ) ライセンス: Link先を確認 | Craig Innes and Subramanian Ramamoorthy | (参考訳) シミュレーションにおけるブラックボックスの知覚制御システムのテストは2つの困難に直面している。
第一に、シミュレーションにおける知覚入力は実世界のセンサー入力の忠実さを欠いている。
第二に、合理的に正確な知覚システムでは、まれな障害軌道に遭遇するには、多くのシミュレーションを実行する必要がある。
本稿では,センサベース検出システムにおける知覚誤差モデルと状態依存適応重要度サンプリングを組み合わせる。
これにより,実世界の知覚制御系におけるまれな故障確率をシミュレーション内で効率的に評価することができる。
rgb障害物検出装置を内蔵した自律制動システムを用いた実験により,本手法は安価にシミュレーションを行い,正確な故障確率を算出できることを示した。
さらに,安全基準の選択が,高確率障害を確実にサンプリングできる提案分布の学習プロセスにどのように影響するかを示す。 Testing black-box perceptual-control systems in simulation faces two difficulties. Firstly, perceptual inputs in simulation lack the fidelity of real-world sensor inputs. Secondly, for a reasonably accurate perception system, encountering a rare failure trajectory may require running infeasibly many simulations. This paper combines perception error models -- surrogates for a sensor-based detection system -- with state-dependent adaptive importance sampling. This allows us to efficiently assess the rare failure probabilities for real-world perceptual control systems within simulation. Our experiments with an autonomous braking system equipped with an RGB obstacle-detector show that our method can calculate accurate failure probabilities with an inexpensive number of simulations. Further, we show how choice of safety metric can influence the process of learning proposal distributions capable of reliably sampling high-probability failures. | 翻訳日:2022-09-21 19:48:41 公開日:2022-09-20 |
# グラフニューラルネットワークにおけるスパース攻撃 Sparse Vicious Attacks on Graph Neural Networks ( http://arxiv.org/abs/2209.09688v1 ) ライセンス: Link先を確認 | Giovanni Trappolini, Valentino Maiorca, Silvio Severino, Emanuele Rodol\`a, Fabrizio Silvestri, Gabriele Tolomei | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの予測モデリングタスクで成功している。
これらのタスクのうち、リンク予測は、レコメンダシステムなど、多くの現実世界のアプリケーションにとって根本的な問題の一つです。
しかし、GNNは敵の攻撃に免疫がない、すなわち予測モデルを騙すように設計された悪意のある例を慎重に作っている。
本研究では、GNNベースのリンク予測モデルに対する、特定のホワイトボックス攻撃に焦点を当て、悪意のあるノードが、特定の対象者に対する推奨ノードリストに現れることを目標としている。
この目標を達成するために、攻撃者ノードは、ネットワークに多数の‘vicious’ノードを注入する能力を直接制御する他の既存のピアの協力も考慮する可能性がある。
具体的には、これらすべての悪意のあるノードは、新しいエッジを追加したり、既存のノードを削除することができる。
そこで我々は,このタイプのリンク予測攻撃をマウントする新しいフレームワークと手法であるSAVAGEを提案する。
SAVAGEは敵の目標を最適化タスクとして定式化し、攻撃の有効性と必要となる悪意のあるリソースの空白とのバランスを崩す。
実世界のデータセットと合成データセットで実施された大規模な実験は、SAVAGEを通じて実施された敵攻撃が、少数の悪質なノードを使用しても高い攻撃成功率を達成することを示した。
最後に、これらの攻撃は対象モデルの完全な知識を必要とするが、リンク予測のための他のブラックボックス手法への転送に成功していることを示す。 Graph Neural Networks (GNNs) have proven to be successful in several predictive modeling tasks for graph-structured data. Amongst those tasks, link prediction is one of the fundamental problems for many real-world applications, such as recommender systems. However, GNNs are not immune to adversarial attacks, i.e., carefully crafted malicious examples that are designed to fool the predictive model. In this work, we focus on a specific, white-box attack to GNN-based link prediction models, where a malicious node aims to appear in the list of recommended nodes for a given target victim. To achieve this goal, the attacker node may also count on the cooperation of other existing peers that it directly controls, namely on the ability to inject a number of ``vicious'' nodes in the network. Specifically, all these malicious nodes can add new edges or remove existing ones, thereby perturbing the original graph. Thus, we propose SAVAGE, a novel framework and a method to mount this type of link prediction attacks. SAVAGE formulates the adversary's goal as an optimization task, striking the balance between the effectiveness of the attack and the sparsity of malicious resources required. Extensive experiments conducted on real-world and synthetic datasets demonstrate that adversarial attacks implemented through SAVAGE indeed achieve high attack success rate yet using a small amount of vicious nodes. Finally, despite those attacks require full knowledge of the target model, we show that they are successfully transferable to other black-box methods for link prediction. | 翻訳日:2022-09-21 19:48:28 公開日:2022-09-20 |
# ニューラルグラフデータベース Neural Graph Databases ( http://arxiv.org/abs/2209.09732v1 ) ライセンス: Link先を確認 | Maciej Besta, Patrick Iff, Florian Scheidl, Kazuki Osawa, Nikoli Dryden, Michal Podstawski, Tiancheng Chen, Torsten Hoefler | (参考訳) グラフデータベース(GDB)は、構造化されていない、複雑な、リッチで、通常は広大なグラフデータセットの処理と分析を可能にする。
学術と産業の両方においてGDBの重要性は大きいが、グラフニューラルネットワーク(GNN)の予測能力と統合するための努力はほとんど行われていない。
本稿では,ほぼすべてのGNNモデルをGDBの計算能力とシームレスに組み合わせる方法について述べる。
このため、これらのシステムの大部分はラベル付きプロパティグラフ(LPG)と呼ばれるグラフデータモデルに基づいており、頂点とエッジは任意の複雑なラベルとプロパティを持つことができる。
次に、任意のLPGデータセットを、畳み込み、注意、メッセージパッシング、さらに高階またはスペクトルモデルを含む幅広いGNNのクラスで直接使用できる表現に変換するエンコーダであるLPG2vecを開発する。
本評価では,LPGラベルやプロパティとして表されるリッチな情報をLPG2vecで適切に保存し,LPGラベルやプロパティを持たないグラフと比較して,目標とする学習タスクや使用済みGNNモデルに関わらず,予測精度を最大34%向上することを示した。
一般的に、LPG2vecは、最も強力なGNNの予測能力とLPGモデルに符号化された情報の完全なスコープを組み合わせ、保守されたデータの膨大な複雑さが、現代および将来のグラフ機械学習手法の恩恵を受けるようなシステムのクラスであるニューラルグラフデータベースへの道を開くことができる。 Graph databases (GDBs) enable processing and analysis of unstructured, complex, rich, and usually vast graph datasets. Despite the large significance of GDBs in both academia and industry, little effort has been made into integrating them with the predictive power of graph neural networks (GNNs). In this work, we show how to seamlessly combine nearly any GNN model with the computational capabilities of GDBs. For this, we observe that the majority of these systems are based on, or support, a graph data model called the Labeled Property Graph (LPG), where vertices and edges can have arbitrarily complex sets of labels and properties. We then develop LPG2vec, an encoder that transforms an arbitrary LPG dataset into a representation that can be directly used with a broad class of GNNs, including convolutional, attentional, message-passing, and even higher-order or spectral models. In our evaluation, we show that the rich information represented as LPG labels and properties is properly preserved by LPG2vec, and it increases the accuracy of predictions regardless of the targeted learning task or the used GNN model, by up to 34% compared to graphs with no LPG labels/properties. In general, LPG2vec enables combining predictive power of the most powerful GNNs with the full scope of information encoded in the LPG model, paving the way for neural graph databases, a class of systems where the vast complexity of maintained data will benefit from modern and future graph machine learning methods. | 翻訳日:2022-09-21 19:48:04 公開日:2022-09-20 |
# 分子生成設計のための確率的生成変換言語モデル Probabilistic Generative Transformer Language models for Generative Design of Molecules ( http://arxiv.org/abs/2209.09406v1 ) ライセンス: Link先を確認 | Lai Wei, Nihang Fu, Yuqi Song, Qian Wang, Jianjun Hu | (参考訳) 自己組織化されたニューラルネットワークモデルは、最近、下流構造分類と機能予測のための表現学習と同様に、有機分子やタンパク質配列の生成設計に広く応用されている。
しかしながら、分子設計のための既存のディープラーニングモデルの多くは、通常、大きなデータセットを必要とし、ブラックボックスアーキテクチャを持っているため、設計ロジックの解釈が困難である。
本稿では,分子生成設計のための確率的ニューラルネットワークモデルであるgmtransformerを提案する。
本モデルはテキスト処理用に開発された空白の充填言語モデルに基づいて構築され,高品質な生成・解釈・データ効率で「分子文法」を学習する上で,独自の利点が示された。
MOSESデータセットをベンチマークし、我々のモデルは、他のベースラインと比較して、非常に斬新さと難解さを達成します。
確率論的生成段階は、学習された暗黙の分子化学によって導かれる説明で既存の分子をどう修正するかを推奨する能力のため、分子設計を阻害する可能性がある。
ソースコードとデータセットはhttps://github.com/usccolumbia/GMTransformerで自由にアクセスできる。 Self-supervised neural language models have recently found wide applications in generative design of organic molecules and protein sequences as well as representation learning for downstream structure classification and functional prediction. However, most of the existing deep learning models for molecule design usually require a big dataset and have a black-box architecture, which makes it difficult to interpret their design logic. Here we propose Generative Molecular Transformer (GMTransformer), a probabilistic neural network model for generative design of molecules. Our model is built on the blank filling language model originally developed for text processing, which has demonstrated unique advantages in learning the "molecules grammars" with high-quality generation, interpretability, and data efficiency. Benchmarked on the MOSES datasets, our models achieve high novelty and Scaf compared to other baselines. The probabilistic generation steps have the potential in tinkering molecule design due to their capability of recommending how to modify existing molecules with explanation, guided by the learned implicit molecule chemistry. The source code and datasets can be accessed freely at https://github.com/usccolumbia/GMTransformer | 翻訳日:2022-09-21 19:46:31 公開日:2022-09-20 |
# 感染拡大軌道アーチタイプを露呈する原因ネットワーク埋め込みモデル Attributed Network Embedding Model for Exposing COVID-19 Spread Trajectory Archetypes ( http://arxiv.org/abs/2209.09448v1 ) ライセンス: Link先を確認 | Junwei Ma, Bo Li, Qingchun Li, Chao Fan and Ali Mostafavi | (参考訳) 新型コロナウイルスの感染拡大は、伝染リスクパターンが異なる都市やコミュニティに均質ではないことを明らかにし、様々な異質な特徴が拡散経路に影響を与える可能性がある。
したがって、予測的パンデミックのモニタリングには、特定のパンデミックの伝播経路を区別する都市やコミュニティにおける潜伏した異質な特徴を探求することが不可欠である。
この目的のために,本研究では,パンデミック拡散伝達軌跡に基づいて,地域間訪問ネットワークをキャプチャするネットワーク埋め込みモデルと,米国内の郡群を探索する異種特徴を作成した。
2020年3月3日から6月29日までの2,787郡(初期波)で位置情報情報を収集・計算した。
第2に,ノード属性として郡の特徴を取り入れ,ネットワークエッジとして郡間を訪問する人的訪問ネットワークを構築した。
属性付きネットワーク埋め込み手法は,クロスカントリー訪問ネットワークの類型的特徴と異種特徴を統合した。
本報告では, 属性ネットワーク埋め込みのクラスタリング解析を行い, 4郡に対応して, 拡散リスクトラジェクトリの4つのアーキタイプを明らかにした。
その後,アーチタイプ間で異なる伝達リスクパターンの基盤となる4つの重要な特徴を同定した。
推定されたネットワーク埋め込みアプローチと調査結果は、予測的パンデミックのモニタリングのために郡全体で発生しないパンデミックリスクの軌跡を特定し、説明する。
この研究は、パンデミックにおける政策分析の標準的な疫学モデルを補完する、パンデミック分析のためのデータ駆動型およびディープラーニングベースのアプローチにも貢献する。 The spread of COVID-19 revealed that transmission risk patterns are not homogenous across different cities and communities, and various heterogeneous features can influence the spread trajectories. Hence, for predictive pandemic monitoring, it is essential to explore latent heterogeneous features in cities and communities that distinguish their specific pandemic spread trajectories. To this end, this study creates a network embedding model capturing cross-county visitation networks, as well as heterogeneous features to uncover clusters of counties in the United States based on their pandemic spread transmission trajectories. We collected and computed location intelligence features from 2,787 counties from March 3 to June 29, 2020 (initial wave). Second, we constructed a human visitation network, which incorporated county features as node attributes, and visits between counties as network edges. Our attributed network embeddings approach integrates both typological characteristics of the cross-county visitation network, as well as heterogeneous features. We conducted clustering analysis on the attributed network embeddings to reveal four archetypes of spread risk trajectories corresponding to four clusters of counties. Subsequently, we identified four features as important features underlying the distinctive transmission risk patterns among the archetypes. The attributed network embedding approach and the findings identify and explain the non-homogenous pandemic risk trajectories across counties for predictive pandemic monitoring. The study also contributes to data-driven and deep learning-based approaches for pandemic analytics to complement the standard epidemiological models for policy analysis in pandemics. | 翻訳日:2022-09-21 19:46:15 公開日:2022-09-20 |
# 反因果予測における公正性と堅牢性 Fairness and robustness in anti-causal prediction ( http://arxiv.org/abs/2209.09423v1 ) ライセンス: Link先を確認 | Maggie Makar, Alexander D'Amour | (参考訳) 分散シフトと公平性に対する堅牢性は、現代の機械学習モデルに必要な2つの重要なデシデラタとして独立に現れてきた。
これら2つのデシデラタは関連しているように見えるが、実際にはそれらの関係はしばしば不明確である。
本稿では,分類器(画像など)への入力が対象ラベルと保護属性の関数として生成されると仮定した反因果予測タスクに着目し,因果レンズを介してこれらの接続について議論する。
この観点から,共通フェアネス基準 - 分離 - とロバスト性 - の共通概念 - リスク不変性との間に,明らかな関係を描き出す。
これらのつながりは、分離基準をアンチコーサル設定に適用する新たな動機を与え、フェアネスパフォーマンストレードオフに関する古い議論を知らせる。
さらに,ロバストネスを動機とするアプローチは,分離を強制するためにも有効であり,分離を直接強制する手法よりも実践的に優れていることが示唆された。
医学的データセットを用いて,X線から肺炎を検出する作業において,性集団間の有病率の差異が公平さの緩和を動機づける状況において,その知見を実証的に検証した。
本研究は,公正度基準の選択・実施における因果構造の検討の重要性を強調した。 Robustness to distribution shift and fairness have independently emerged as two important desiderata required of modern machine learning models. While these two desiderata seem related, the connection between them is often unclear in practice. Here, we discuss these connections through a causal lens, focusing on anti-causal prediction tasks, where the input to a classifier (e.g., an image) is assumed to be generated as a function of the target label and the protected attribute. By taking this perspective, we draw explicit connections between a common fairness criterion - separation - and a common notion of robustness - risk invariance. These connections provide new motivation for applying the separation criterion in anticausal settings, and inform old discussions regarding fairness-performance tradeoffs. In addition, our findings suggest that robustness-motivated approaches can be used to enforce separation, and that they often work better in practice than methods designed to directly enforce separation. Using a medical dataset, we empirically validate our findings on the task of detecting pneumonia from X-rays, in a setting where differences in prevalence across sex groups motivates a fairness mitigation. Our findings highlight the importance of considering causal structure when choosing and enforcing fairness criteria. | 翻訳日:2022-09-21 19:41:08 公開日:2022-09-20 |
# PolyMPCNet: 二次元計算に基づくプライベート推論におけるReLUフリーニューラルネットワーク探索を目指して PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party Computation Based Private Inference ( http://arxiv.org/abs/2209.09424v1 ) ライセンス: Link先を確認 | Hongwu Peng, Shanglin Zhou, Yukui Luo, Shijin Duan, Nuo Xu, Ran Ran, Shaoyi Huang, Chenghong Wang, Tong Geng, Ang Li, Wujie Wen, Xiaolin Xu and Caiwen Ding | (参考訳) ディープラーニング(DL)の急速な成長と展開は、新たなプライバシとセキュリティ上の懸念を目の当たりにした。
これらの問題を緩和するため、プライバシー保護のDL計算を可能にするために、セキュアなマルチパーティ計算(MPC)が議論されている。
実際には、計算と通信のオーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
2つの直交研究トレンドは、セキュアなディープラーニングにおけるエネルギー効率、すなわちmpc比較プロトコルのオーバーヘッド削減とハードウェアアクセラレーションに多大な関心を寄せている。
しかし、計算量や通信量が少ないため、低還元率を達成し、レイテンシの低下に悩まされるか、あるいはCPUやGPUといった一般的なコンピューティングプラットフォームに重点を置いているため、電力不足になる。
そこで本研究では,暗号ビルディングブロックのハードウェア遅延をdnn損失関数に統合し,高エネルギー効率,精度,セキュリティ保証を実現し,mpc比較プロトコルとハードウェアアクセラレーションを共同でオーバーヘッド削減するシステムフレームワークであるpolympcnetを開発した。
DNNが十分にトレーニングされた後、モデル感度をヒューリスティックにチェックする代わりに(いくつかの非ポリノミカル演算子を削除または削除することで)、DNN設計で想定されることを正確に実施すること -- ハードウェア効率と安全性の両方のDNNをトレーニングし、ローカルのミニマやサドルポイントを回避し、高い精度を維持することです。
具体的には、高価な2P-ReLU演算子を置き換えるために、暗号ハードウェアフレンドリなトレーニング可能な多項式アクティベーション関数の直通多項式アクティベーション初期化法を提案する。
我々は,フィールドプログラマブルゲートアレイ(fpga)プラットフォームのための暗号ハードウェアスケジューラと対応する性能モデルを開発した。 The rapid growth and deployment of deep learning (DL) has witnessed emerging privacy and security concerns. To mitigate these issues, secure multi-party computation (MPC) has been discussed, to enable the privacy-preserving DL computation. In practice, they often come at very high computation and communication overhead, and potentially prohibit their popularity in large scale systems. Two orthogonal research trends have attracted enormous interests in addressing the energy efficiency in secure deep learning, i.e., overhead reduction of MPC comparison protocol, and hardware acceleration. However, they either achieve a low reduction ratio and suffer from high latency due to limited computation and communication saving, or are power-hungry as existing works mainly focus on general computing platforms such as CPUs and GPUs. In this work, as the first attempt, we develop a systematic framework, PolyMPCNet, of joint overhead reduction of MPC comparison protocol and hardware acceleration, by integrating hardware latency of the cryptographic building block into the DNN loss function to achieve high energy efficiency, accuracy, and security guarantee. Instead of heuristically checking the model sensitivity after a DNN is well-trained (through deleting or dropping some non-polynomial operators), our key design principle is to em enforce exactly what is assumed in the DNN design -- training a DNN that is both hardware efficient and secure, while escaping the local minima and saddle points and maintaining high accuracy. More specifically, we propose a straight through polynomial activation initialization method for cryptographic hardware friendly trainable polynomial activation function to replace the expensive 2P-ReLU operator. We develop a cryptographic hardware scheduler and the corresponding performance model for Field Programmable Gate Arrays (FPGA) platform. | 翻訳日:2022-09-21 19:40:47 公開日:2022-09-20 |
# 確率的dalek -- 超新星トモグラフィのための確率的予測を伴うエミュレータフレームワーク Probabilistic Dalek -- Emulator framework with probabilistic prediction for supernova tomography ( http://arxiv.org/abs/2209.09453v1 ) ライセンス: Link先を確認 | Wolfgang Kerzendorf, Nutan Chen, Jack O'Brien, Johannes Buchner, Patrick van der Smagt | (参考訳) 超新星スペクトル時系列は、超新星トモグラフィーとして知られる空間的に解決された爆発モデルを再構成するために用いられる。
観測されたスペクトル時系列に加えて、超新星トモグラフィーは、再構成のための不確実な定量化を伴う逆問題を実行するために放射移動モデルを必要とする。
超新星トモグラフィーモデルの最小のパラメトリゼーションは、100以上を必要とする現実的なパラメータの約1ダースである。
現実的なラジエーション伝達モデルは、単一の評価のために数百のcpu分を必要とするため、このような問題のために何百万ものmcmcサンプルを必要とする従来の手段では計算が難しい。
機械学習技術を用いたサロゲートモデルやエミュレータとして知られるシミュレーションを高速化する新しい手法は、そのような問題に対する解決策と、スペクトル時系列から前駆者/爆発を理解する方法を提供する。
tardis supernova radiationive transfer codeのエミュレータは存在するが、それらは単純な低次元モデル(およそ12のパラメータ)でのみうまく動作し、超新星の分野における知識獲得に少数の応用がある。
本研究では,既存のエミュレータより優れているだけでなく,その予測に不確実性をもたらす放射転送符号TARDISの新しいエミュレータを提案する。
超新星と関連する分野における緊急質問を解き放つために必須となる数百のパラメータの非常に高次元の空間をエミュレートできる、将来のアクティブラーニングベースの機械の基礎を提供する。 Supernova spectral time series can be used to reconstruct a spatially resolved explosion model known as supernova tomography. In addition to an observed spectral time series, a supernova tomography requires a radiative transfer model to perform the inverse problem with uncertainty quantification for a reconstruction. The smallest parametrizations of supernova tomography models are roughly a dozen parameters with a realistic one requiring more than 100. Realistic radiative transfer models require tens of CPU minutes for a single evaluation making the problem computationally intractable with traditional means requiring millions of MCMC samples for such a problem. A new method for accelerating simulations known as surrogate models or emulators using machine learning techniques offers a solution for such problems and a way to understand progenitors/explosions from spectral time series. There exist emulators for the TARDIS supernova radiative transfer code but they only perform well on simplistic low-dimensional models (roughly a dozen parameters) with a small number of applications for knowledge gain in the supernova field. In this work, we present a new emulator for the radiative transfer code TARDIS that not only outperforms existing emulators but also provides uncertainties in its prediction. It offers the foundation for a future active-learning-based machinery that will be able to emulate very high dimensional spaces of hundreds of parameters crucial for unraveling urgent questions in supernovae and related fields. | 翻訳日:2022-09-21 19:40:13 公開日:2022-09-20 |
# 時系列予測のための注意無料短期記憶 An Attention Free Long Short-Term Memory for Time Series Forecasting ( http://arxiv.org/abs/2209.09548v1 ) ライセンス: Link先を確認 | Hugo Inzirillo and Ludovic De Villelongue | (参考訳) ディープラーニングは時系列分析においてますます重要な役割を担っている。
我々は,より効率的なフレームワークである注意自由機構を用いた時系列予測に着目し,線形モデルでは時間依存を捉えられないような時系列予測のための新しいアーキテクチャを提案した。
本研究では,無注意LSTM層を用いて,条件分散予測のための線形モデルを克服するアーキテクチャを提案する。
本研究は,LSTMの予測能力を向上させるとともに,学習作業の効率化を図ることができるモデルの有効性を確認した。 Deep learning is playing an increasingly important role in time series analysis. We focused on time series forecasting using attention free mechanism, a more efficient framework, and proposed a new architecture for time series prediction for which linear models seem to be unable to capture the time dependence. We proposed an architecture built using attention free LSTM layers that overcome linear models for conditional variance prediction. Our findings confirm the validity of our model, which also allowed to improve the prediction capacity of a LSTM, while improving the efficiency of the learning task. | 翻訳日:2022-09-21 19:39:43 公開日:2022-09-20 |
# ハードウェアとアルゴリズム共設計による注意型nnsのための適応型バタフライ加速器 Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design ( http://arxiv.org/abs/2209.09570v1 ) ライセンス: Link先を確認 | Hongxiang Fan, Thomas Chau, Stylianos I. Venieris, Royson Lee, Alexandros Kouris, Wayne Luk, Nicholas D. Lane, Mohamed S. Abdelfattah | (参考訳) 注意に基づくニューラルネットワークは、多くのaiタスクで普及している。
その優れたアルゴリズム性能にもかかわらず、アテンション機構とフィードフォワードネットワーク(FFN)の使用は過剰な計算とメモリ資源を必要とし、ハードウェアの性能を損なう。
様々なスパース変種が導入されたが、ほとんどのアプローチは、実際のハードウェア設計にメソッドをマッピングする効率を明示的に考慮することなく、アルゴリズムレベルでの注意の2次スケーリングを緩和することのみに焦点を当てている。
さらに、ほとんどの取り組みは注意機構またはFFNにのみ焦点をあてるが、両方の部品を共同最適化することなく、現在の設計では異なる入力長を扱う際にスケーラビリティが欠如している。
本稿では,ハードウェアの観点から異なる変種における空間パターンを体系的に考察する。
アルゴリズムレベルでは,アテンション機構とffnの両方を近似するために,統一バタフライスパーシティパターンを採用したハードウェアフレンドリーなfabnetを提案する。
ハードウェアレベルでは、単一の統一ハードウェアエンジンを用いて異なるバタフライ層を加速するために、専用のハードウェア制御を介して実行時に設定できる新しい適応型バタフライ加速器が提案されている。
Long-Range-Arenaデータセットでは、FABNetはバニラ変換器と同じ精度で計算量を10倍から66倍、パラメータ数を2倍から22倍に削減する。
アルゴリズムとハードウェアを共同で最適化することにより、FPGAベースのバタフライアクセラレータは、同じ計算予算に正規化された最先端アクセラレータよりも14.2倍から23.2倍のスピードアップを達成する。
Raspberry Pi 4とJetson Nanoで最適化されたCPUとGPUの設計と比較して、我々のシステムは同じ電力予算で最大273.8と15.1倍高速である。 Attention-based neural networks have become pervasive in many AI tasks. Despite their excellent algorithmic performance, the use of the attention mechanism and feed-forward network (FFN) demands excessive computational and memory resources, which often compromises their hardware performance. Although various sparse variants have been introduced, most approaches only focus on mitigating the quadratic scaling of attention on the algorithm level, without explicitly considering the efficiency of mapping their methods on real hardware designs. Furthermore, most efforts only focus on either the attention mechanism or the FFNs but without jointly optimizing both parts, causing most of the current designs to lack scalability when dealing with different input lengths. This paper systematically considers the sparsity patterns in different variants from a hardware perspective. On the algorithmic level, we propose FABNet, a hardware-friendly variant that adopts a unified butterfly sparsity pattern to approximate both the attention mechanism and the FFNs. On the hardware level, a novel adaptable butterfly accelerator is proposed that can be configured at runtime via dedicated hardware control to accelerate different butterfly layers using a single unified hardware engine. On the Long-Range-Arena dataset, FABNet achieves the same accuracy as the vanilla Transformer while reducing the amount of computation by 10 to 66 times and the number of parameters 2 to 22 times. By jointly optimizing the algorithm and hardware, our FPGA-based butterfly accelerator achieves 14.2 to 23.2 times speedup over state-of-the-art accelerators normalized to the same computational budget. Compared with optimized CPU and GPU designs on Raspberry Pi 4 and Jetson Nano, our system is up to 273.8 and 15.1 times faster under the same power budget. | 翻訳日:2022-09-21 19:39:28 公開日:2022-09-20 |
# 動的判別器によるgans改善 Improving GANs with A Dynamic Discriminator ( http://arxiv.org/abs/2209.09897v1 ) ライセンス: Link先を確認 | Ceyuan Yang, Yujun Shen, Yinghao Xu, Deli Zhao, Bo Dai, Bolei Zhou | (参考訳) 判別器は、実検体と合成検体を区別することにより、生成敵ネットワーク(GAN)を訓練する上で重要な役割を担っている。
実際のデータ分布は同じであるが、生成器の進化により合成分布が変化し続けるため、判別器の2つの分類タスクに対応する変化が生じる。
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
包括的実証研究により, 提案手法はdynamicdと呼ばれ, 計算コストや学習目標の増大を伴わずに合成性能を向上できることを確認した。
異なるデータ体制下でGANを訓練するための2つの容量調整スキームが開発されている。
一 十分な量の訓練データを与えられた場合、段階的に学習能力の増大による差別者給付
二 訓練データに制限があるときは、徐々に層幅を減らし、判別器の過度に適合する問題を緩和する。
様々なデータセットを用いた2次元および3次元画像合成タスクの実験は、我々のDynamicDの一般化可能性に加えて、ベースラインよりも大幅に改善されている。
さらに、DynamicDは他の差別化手法(データ強化、正規化、事前学習を含む)と相乗効果があり、GANを学習する際に連続的なパフォーマンス向上をもたらす。 Discriminator plays a vital role in training generative adversarial networks (GANs) via distinguishing real and synthesized samples. While the real data distribution remains the same, the synthesis distribution keeps varying because of the evolving generator, and thus effects a corresponding change to the bi-classification task for the discriminator. We argue that a discriminator with an on-the-fly adjustment on its capacity can better accommodate such a time-varying task. A comprehensive empirical study confirms that the proposed training strategy, termed as DynamicD, improves the synthesis performance without incurring any additional computation cost or training objectives. Two capacity adjusting schemes are developed for training GANs under different data regimes: i) given a sufficient amount of training data, the discriminator benefits from a progressively increased learning capacity, and ii) when the training data is limited, gradually decreasing the layer width mitigates the over-fitting issue of the discriminator. Experiments on both 2D and 3D-aware image synthesis tasks conducted on a range of datasets substantiate the generalizability of our DynamicD as well as its substantial improvement over the baselines. Furthermore, DynamicD is synergistic to other discriminator-improving approaches (including data augmentation, regularizers, and pre-training), and brings continuous performance gain when combined for learning GANs. | 翻訳日:2022-09-21 19:31:34 公開日:2022-09-20 |
# Text2Light: ゼロショットテキスト駆動HDRパノラマ生成 Text2Light: Zero-Shot Text-Driven HDR Panorama Generation ( http://arxiv.org/abs/2209.09898v1 ) ライセンス: Link先を確認 | Zhaoxi Chen, Guangcong Wang, Ziwei Liu | (参考訳) 高品質HDRI(High Dynamic Range Images)は、一般的にHDRパノラマであり、フォトリアリスティック照明と3Dシーンの360度リフレクションを作成する最も一般的な方法の1つである。
HDRIを捕捉することの難しさから、汎用的で制御可能な生成モデルが非常に望まれており、レイマンユーザは直感的に生成プロセスを制御できる。
しかし、既存の最先端の手法は、複雑なシーンで高品質のパノラマを合成するのに苦労している。
そこで本研究では、4K+解像度のHDRIを生成するためのゼロショットテキスト駆動フレームワークであるText2Lightを提案する。
シーン記述として自由形式のテキストが与えられた場合、対応するHDRIを2つの専用ステップで合成する。
1)低ダイナミックレンジ(ldr)および低解像度におけるテキスト駆動パノラマ生成と,
2) 超解像逆トーンマッピングはldrパノラマを解像度とダイナミックレンジの両方でスケールアップする。
具体的には、ゼロショットテキスト駆動パノラマ生成を実現するために、まず、多様な環境テクスチャの離散表現として二重コードブックを構築する。
そして、事前訓練されたCLIPモデルにより、テキスト条件付きグローバルサンプリングは、入力テキストに従って、グローバルコードブックから全体論的意味をサンプリングすることを学ぶ。
さらに、構造認識型局所サンプリング器は、総括的意味論により誘導されたldrパノラマパッチバイパッチを合成することを学ぶ。
超高分解能逆トーンマッピングを実現するため,LDRパノラマからの360度画像の連続的表現を球に固定した構造化潜在符号の集合として導出した。
この連続表現により、汎用モジュールは解像度とダイナミックレンジを同時にスケールアップすることができる。
大規模な実験は、高品質なHDRパノラマ生成におけるText2Lightの優れた能力を実証している。
さらに、現実的なレンダリングと没入型VRにおける私たちの仕事の可能性も示しています。 High-quality HDRIs(High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, where layman users can intuitively control the generation process. However, existing state-of-the-art methods still struggle to synthesize high-quality panoramas for complex scenes. In this work, we propose a zero-shot text-driven framework, Text2Light, to generate 4K+ resolution HDRIs without paired training data. Given a free-form text as the description of the scene, we synthesize the corresponding HDRI with two dedicated steps: 1) text-driven panorama generation in low dynamic range(LDR) and low resolution, and 2) super-resolution inverse tone mapping to scale up the LDR panorama both in resolution and dynamic range. Specifically, to achieve zero-shot text-driven panorama generation, we first build dual codebooks as the discrete representation for diverse environmental textures. Then, driven by the pre-trained CLIP model, a text-conditioned global sampler learns to sample holistic semantics from the global codebook according to the input text. Furthermore, a structure-aware local sampler learns to synthesize LDR panoramas patch-by-patch, guided by holistic semantics. To achieve super-resolution inverse tone mapping, we derive a continuous representation of 360-degree imaging from the LDR panorama as a set of structured latent codes anchored to the sphere. This continuous representation enables a versatile module to upscale the resolution and dynamic range simultaneously. Extensive experiments demonstrate the superior capability of Text2Light in generating high-quality HDR panoramas. In addition, we show the feasibility of our work in realistic rendering and immersive VR. | 翻訳日:2022-09-21 19:31:17 公開日:2022-09-20 |
# スマートフォンを用いた多発性硬化症のパーソナライズド縦断評価 Personalized Longitudinal Assessment of Multiple Sclerosis Using Smartphones ( http://arxiv.org/abs/2209.09692v1 ) ライセンス: Link先を確認 | Oliver Y. Ch\'en, Florian Lipsmeier, Huy Phan, Frank Dondelinger, Andrew Creagh, Christian Gossens, Michael Lindemann, Maarten de Vos | (参考訳) パーソナライズされた縦断的評価は,多発性硬化症(MS)の治療戦略を迅速診断し,適切に管理し,最適適応するために重要である。
特発性主題特異的疾患プロファイルの同定にも重要である。
そこで本研究では, センサデータを用いて, 個々の疾患の軌跡を自動マッピングする新しい縦型モデルを設計した。
まず,スマートフォン上での歩行,バランス,上肢機能に関するデジタル計測を,センサによる評価を用いて行う。
次に、欠落したデータをインプテーションで扱う。
次に, 一般化推定式を用いて, ms の潜在的なマーカーを見つける。
その後、複数のトレーニングデータセットから学習されたパラメータをアンサンブルして、msを持つ未発見の人に対して、msを経時的に予測するための、単純で統一された縦方向予測モデルを構築し、重度疾患スコアを持つ人に対する潜在的な過小評価を軽減する。
また,センサを用いた評価からリモートで収集した歩行・バランスおよび上肢機能に関連する特徴が,経時的にMSを予測する上で有用なデジタルマーカーであることが示唆された。 Personalized longitudinal disease assessment is central to quickly diagnosing, appropriately managing, and optimally adapting the therapeutic strategy of multiple sclerosis (MS). It is also important for identifying the idiosyncratic subject-specific disease profiles. Here, we design a novel longitudinal model to map individual disease trajectories in an automated way using sensor data that may contain missing values. First, we collect digital measurements related to gait and balance, and upper extremity functions using sensor-based assessments administered on a smartphone. Next, we treat missing data via imputation. We then discover potential markers of MS by employing a generalized estimation equation. Subsequently, parameters learned from multiple training datasets are ensembled to form a simple, unified longitudinal predictive model to forecast MS over time in previously unseen people with MS. To mitigate potential underestimation for individuals with severe disease scores, the final model incorporates additional subject-specific fine-tuning using data from the first day. The results show that the proposed model is promising to achieve personalized longitudinal MS assessment; they also suggest that features related to gait and balance as well as upper extremity function, remotely collected from sensor-based assessments, may be useful digital markers for predicting MS over time. | 翻訳日:2022-09-21 19:30:34 公開日:2022-09-20 |
# 大規模プログラムと確率プログラムを解く機械学習アプローチ:サイクリングネットワーク設計への応用 A Machine Learning Approach to Solving Large Bilevel and Stochastic Programs: Application to Cycling Network Design ( http://arxiv.org/abs/2209.09404v1 ) ライセンス: Link先を確認 | Timothy C. Y. Chan, Bo Lin, Shoshanna Saxe | (参考訳) 本稿では,2段階確率計画を含む,多数の独立系フォロワーを含むバイレベルプログラムを解決するための,機械学習に基づく新しい手法を提案する。
本研究では,フォロワーのサンプリングされたサブセットを明示的に考慮し,機械学習モデルを用いて非サンプリングフォロワーの客観的値を推定する最適化モデルを提案する。
既存のアプローチとは異なり、機械学習モデルのトレーニングを最適化問題に組み込むことで、リーダー決定で表現できない一般的なフォロワー機能を利用することができます。
我々は、全従者集合を考える元の目的関数によって測定される生成したリーダー決定の最適性ギャップの境界を証明する。
次に,境界を厳格化するためのフォロワサンプリングアルゴリズムと,組込み機械学習モデルへの入力として使用できるフォロワ特徴を学習するための表現学習手法を開発した。
サイクリングネットワーク設計問題の合成例を用いて,本手法の計算性能とベースライン法との比較を行った。
我々のアプローチは、フォロー対象の値に対するより正確な予測を提供し、さらに重要なことに、より高い品質のリーダー決定を生成する。
最後に、サイクリングインフラ計画の現実的なケーススタディを行い、100万人以上のフォロワーを持つネットワーク設計問題を解決するために我々のアプローチを適用します。
提案手法は,現在のサイクリングネットワーク拡張方式と比較して,良好な性能を示す。 We present a novel machine learning-based approach to solving bilevel programs that involve a large number of independent followers, which as a special case include two-stage stochastic programming. We propose an optimization model that explicitly considers a sampled subset of followers and exploits a machine learning model to estimate the objective values of unsampled followers. Unlike existing approaches, we embed machine learning model training into the optimization problem, which allows us to employ general follower features that can not be represented using leader decisions. We prove bounds on the optimality gap of the generated leader decision as measured by the original objective function that considers the full follower set. We then develop follower sampling algorithms to tighten the bounds and a representation learning approach to learn follower features, which can be used as inputs to the embedded machine learning model. Using synthetic instances of a cycling network design problem, we compare the computational performance of our approach versus baseline methods. Our approach provides more accurate predictions for follower objective values, and more importantly, generates leader decisions of higher quality. Finally, we perform a real-world case study on cycling infrastructure planning, where we apply our approach to solve a network design problem with over one million followers. Our approach presents favorable performance compared to the current cycling network expansion practices. | 翻訳日:2022-09-21 19:28:41 公開日:2022-09-20 |
# エッジでのディープラーニングでリアルタイムストリーミングptychographyイメージングが可能に Deep learning at the edge enables real-time streaming ptychographic imaging ( http://arxiv.org/abs/2209.09408v1 ) ライセンス: Link先を確認 | Anakha V Babu, Tao Zhou, Saugat Kandel, Tekin Bicer, Zhengchun Liu, William Judge, Daniel J. Ching, Yi Jiang, Sinisa Veseli, Steven Henke, Ryan Chard, Yudong Yao, Ekaterina Sirazitdinova, Geetika Gupta, Martin V. Holt, Ian T. Foster, Antonino Miceli, Mathew J. Cherukara | (参考訳) コヒーレント顕微鏡技術は、構造材料から量子デバイス、集積回路から生体細胞まで、科学および技術分野にわたる材料の非並列的多スケールビューを提供する。
明るい光源と高レート検出器の構築によって、プチコグラフィーのようなコヒーレントX線顕微鏡法はナノスケールの材料特性に革命をもたらす。
しかしながら、データと計算ニーズの大幅な増加は、従来の手法では高速コヒーレントイメージング実験からサンプル画像をリアルタイムに回収するには不十分であることを意味する。
本稿では,最先端の人工知能とハイパフォーマンスコンピューティングを活用して,検出器から直接2khzでストリームされるx線ピンチグラフィデータのリアルタイムインバージョンを実現するワークフローを実演する。
提案するai対応ワークフローは従来のptychographyによって課されるサンプリング制約を取り除き、従来の方法よりも桁違いに少ないデータで低線量イメージングを可能にする。 Coherent microscopy techniques provide an unparalleled multi-scale view of materials across scientific and technological fields, from structural materials to quantum devices, from integrated circuits to biological cells. Driven by the construction of brighter sources and high-rate detectors, coherent X-ray microscopy methods like ptychography are poised to revolutionize nanoscale materials characterization. However, associated significant increases in data and compute needs mean that conventional approaches no longer suffice for recovering sample images in real-time from high-speed coherent imaging experiments. Here, we demonstrate a workflow that leverages artificial intelligence at the edge and high-performance computing to enable real-time inversion on X-ray ptychography data streamed directly from a detector at up to 2 kHz. The proposed AI-enabled workflow eliminates the sampling constraints imposed by traditional ptychography, allowing low dose imaging using orders of magnitude less data than required by traditional methods. | 翻訳日:2022-09-21 19:28:21 公開日:2022-09-20 |
# 画像誘導点雲形状完了のためのクロスモーダル学習 Cross-modal Learning for Image-Guided Point Cloud Shape Completion ( http://arxiv.org/abs/2209.09552v1 ) ライセンス: Link先を確認 | Emanuele Aiello, Diego Valsesia, Enrico Magli | (参考訳) 本稿では,補助画像によるポイントクラウドの完成に関する最近の話題について考察する。
本稿では,局所化された潜在空間における2つのモダリティからの情報を効果的に結合できることを示す。
また,画像空間の忠実度を測定するために,完成点雲上の微分可能レンダラを用いて,補助画像が学習プロセスに監視信号を提供する,新たな弱教師付き設定について検討する。
実験は、一様および多様の完成のための最先端の教師付き手法よりも大幅に改善された。
また,複数の教師付き手法を上回り,ポイントクラウド情報のみを利用する最新の教師付きモデルと競合する弱い教師付きアプローチの有効性を示す。 In this paper we explore the recent topic of point cloud completion, guided by an auxiliary image. We show how it is possible to effectively combine the information from the two modalities in a localized latent space, thus avoiding the need for complex point cloud reconstruction methods from single views used by the state-of-the-art. We also investigate a novel weakly-supervised setting where the auxiliary image provides a supervisory signal to the training process by using a differentiable renderer on the completed point cloud to measure fidelity in the image space. Experiments show significant improvements over state-of-the-art supervised methods for both unimodal and multimodal completion. We also show the effectiveness of the weakly-supervised approach which outperforms a number of supervised methods and is competitive with the latest supervised models only exploiting point cloud information. | 翻訳日:2022-09-21 19:22:11 公開日:2022-09-20 |
# CoV-TI-Net:COVID-19診断のためのエンド層変更による移行初期化 CoV-TI-Net: Transferred Initialization with Modified End Layer for COVID-19 Diagnosis ( http://arxiv.org/abs/2209.09556v1 ) ライセンス: Link先を確認 | Sadia Khanam, Mohammad Reza Chalak Qazani, Subrota Kumar Mondal, H M Dipu Kabir, Abadhan S. Sabyasachi, Houshyar Asadi, Keshav Kumar, Farzin Tabarsinezhad, Shady Mohamed, Abbas Khorsavi, Saeid Nahavandi | (参考訳) 本稿では、新型コロナウイルス診断のための完全連結層を改良したトランスファー初期化を提案する。
畳み込みニューラルネットワーク(CNN)は画像分類において顕著な結果を得た。
しかし、画像認識アプリケーションの複雑さのため、ハイパフォーマンスモデルのトレーニングは非常に複雑で時間を要する。
一方、転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野に採用されている。
本研究では,PyTorch事前学習モデル (VGG19\_bn と WideResNet -101) を MNIST データセットに初期化として初めて適用し,完全連結層を修正した。
採用されたPyTorch事前訓練モデルは、以前はImageNetでトレーニングされていた。
提案したモデルはKaggleのノートブックで開発・検証され、ネットワークのトレーニング過程において膨大な計算時間を要さずに99.77%の精度に達した。
またSIIM-FISABIO-RSNA COVID-19検出データセットにも同様の手法を適用し,80.01%の精度で測定した。
対照的に、以前の方法は、高いパフォーマンスモデルに到達するためにトレーニングプロセス中に大きなコンパクト化時間を必要とする。
コードは以下のリンクで入手できる。 github.com/dipuk0506/SpinalNet This paper proposes transferred initialization with modified fully connected layers for COVID-19 diagnosis. Convolutional neural networks (CNN) achieved a remarkable result in image classification. However, training a high-performing model is a very complicated and time-consuming process because of the complexity of image recognition applications. On the other hand, transfer learning is a relatively new learning method that has been employed in many sectors to achieve good performance with fewer computations. In this research, the PyTorch pre-trained models (VGG19\_bn and WideResNet -101) are applied in the MNIST dataset for the first time as initialization and with modified fully connected layers. The employed PyTorch pre-trained models were previously trained in ImageNet. The proposed model is developed and verified in the Kaggle notebook, and it reached the outstanding accuracy of 99.77% without taking a huge computational time during the training process of the network. We also applied the same methodology to the SIIM-FISABIO-RSNA COVID-19 Detection dataset and achieved 80.01% accuracy. In contrast, the previous methods need a huge compactional time during the training process to reach a high-performing model. Codes are available at the following link: github.com/dipuk0506/SpinalNet | 翻訳日:2022-09-21 19:21:58 公開日:2022-09-20 |
# 色眼底画像からの網膜動脈と静脈の同時分割と分類 Simultaneous segmentation and classification of the retinal arteries and veins from color fundus images ( http://arxiv.org/abs/2209.09582v1 ) ライセンス: Link先を確認 | Jos\'e Morano, \'Alvaro S. Hervella, Jorge Novo, Jos\'e Rouco | (参考訳) 網膜血管の研究は、多くの疾患のスクリーニングと診断の基本的な段階である。
完全な網膜血管分析では、網膜の血管を動脈と静脈(A/V)に分割し分類する必要がある。
初期の自動手法は、これらの分割と分類タスクを2段階に分けた。
しかし,これらのタスクは,分類結果が船体セグメンテーションの有効性に大きく依存するため,関節セグメンテーションタスクとしてアプローチされている。
そこで本研究では,眼底画像からの網膜A/Vの同時分画と分類のための新しいアプローチを提案する。
特に,従来のアプローチと異なり,新しい損失により,関節,静脈,血管ツリー全体を対象とする3つの分節問題に分解する新しい手法を提案する。
この構成により、血管横断を直感的に扱うことができ、異なるターゲットの血管木の正確なセグメンテーションマスクを直接提供する。
公開網膜画像血管抽出(rite)データセットに関するアブレーション研究は,提案手法が,特に異なる構造のセグメンテーションにおいて,良好な性能をもたらすことを実証するものである。
さらに,A/V分類において,本手法は高い競合性を示すとともに,血管の分節化を著しく改善することを示す。
提案手法により, より多くの容器を検出し, 異なる構造を分割し, 競争力のある分類性能を達成できる。
また,本研究のアプローチは,様々な参考研究のアプローチよりも優れている。
さらに, 従来の手法とは対照的に, 提案手法では, 船体交差を直接検出し, 複雑な場所でのA/Vの連続性を保つことができる。 The study of the retinal vasculature is a fundamental stage in the screening and diagnosis of many diseases. A complete retinal vascular analysis requires to segment and classify the blood vessels of the retina into arteries and veins (A/V). Early automatic methods approached these segmentation and classification tasks in two sequential stages. However, currently, these tasks are approached as a joint semantic segmentation task, as the classification results highly depend on the effectiveness of the vessel segmentation. In that regard, we propose a novel approach for the simultaneous segmentation and classification of the retinal A/V from eye fundus images. In particular, we propose a novel method that, unlike previous approaches, and thanks to a novel loss, decomposes the joint task into three segmentation problems targeting arteries, veins and the whole vascular tree. This configuration allows to handle vessel crossings intuitively and directly provides accurate segmentation masks of the different target vascular trees. The provided ablation study on the public Retinal Images vessel Tree Extraction (RITE) dataset demonstrates that the proposed method provides a satisfactory performance, particularly in the segmentation of the different structures. Furthermore, the comparison with the state of the art shows that our method achieves highly competitive results in A/V classification, while significantly improving vascular segmentation. The proposed multi-segmentation method allows to detect more vessels and better segment the different structures, while achieving a competitive classification performance. Also, in these terms, our approach outperforms the approaches of various reference works. Moreover, in contrast with previous approaches, the proposed method allows to directly detect the vessel crossings, as well as preserving the continuity of A/V at these complex locations. | 翻訳日:2022-09-21 19:21:39 公開日:2022-09-20 |
# 低リソース画像設定におけるディープラーニングモデルの一般化可能性:アフリカ5カ国における胎児超音波による検討 Generalisability of deep learning models in low-resource imaging settings: A fetal ultrasound study in 5 African countries ( http://arxiv.org/abs/2209.09610v1 ) ライセンス: Link先を確認 | Carla Sendra-Balcells and V\'ictor M. Campello and Jordina Torrents-Barrena and Yahya Ali Ahmed and Mustafa Elattar and Benard Ohene Botwe and Pempho Nyangulu and William Stones and Mohammed Ammar and Lamya Nawal Benamer and Harriet Nalubega Kisembo and Senai Goitom Sereke and Sikolia Z. Wanyonyi and Marleen Temmerman and Kamil Mikolaj and Martin Gr{\o}nneb{\ae}k Tolsgaard and Karim Lekadir | (参考訳) ほとんどの人工知能(AI)研究は、画像データ、ITインフラ、臨床専門知識が豊富である高所得国に集中している。
しかし、医療画像を必要とする限られた資源環境では、進行が遅くなっている。
例えば、サハラ以南のアフリカでは、周産期死亡率は非常に高い。
これらの国では、臨床医が胎児異常の診断のために胎児超音波面の取得を支援するためにAIモデルを実装することができる。
これまでのところ、標準胎児平面を識別するためにディープラーニングモデルが提案されているが、ハイエンドの超音波機器やデータへのアクセスが制限されたセンターで一般化できるという証拠はない。
本研究は,高資源臨床センターで訓練され,新しい低資源センターに移管された胎児平面分類モデルのドメインシフト効果を低減するための異なる戦略について検討する。
そのために、スペインから1,792人の患者を訓練した分類器が、デンマークの新しいセンターで1,008人の患者に最適な条件で評価され、その後、25人の患者を持つ5つのアフリカセンター(エジプト、アルジェリア、ウガンダ、ガーナ、マラウイ)で同じパフォーマンスに達するように最適化された。
その結果,少人数のアフリカサンプルを先進国で既存の大規模データベースに統合するトランスファーラーニング手法が有効であることが示された。
特に、リコールを0.92 \pm 0.04$に増やし、同時にセンター間で高い精度を維持することで、アフリカの人口のパフォーマンスを高めるために、モデルを再調整し最適化することができる。
このフレームワークは、困難で不均質な状況で取得された限られたデータを持つ臨床センターにまたがる新しいaiモデルを構築することを約束しており、リソースの少ない国でaiのユーザビリティのための新しいソリューションを開発するためのさらなる研究を求める。 Most artificial intelligence (AI) research have concentrated in high-income countries, where imaging data, IT infrastructures and clinical expertise are plentiful. However, slower progress has been made in limited-resource environments where medical imaging is needed. For example, in Sub-Saharan Africa the rate of perinatal mortality is very high due to limited access to antenatal screening. In these countries, AI models could be implemented to help clinicians acquire fetal ultrasound planes for diagnosis of fetal abnormalities. So far, deep learning models have been proposed to identify standard fetal planes, but there is no evidence of their ability to generalise in centres with limited access to high-end ultrasound equipment and data. This work investigates different strategies to reduce the domain-shift effect for a fetal plane classification model trained on a high-resource clinical centre and transferred to a new low-resource centre. To that end, a classifier trained with 1,792 patients from Spain is first evaluated on a new centre in Denmark in optimal conditions with 1,008 patients and is later optimised to reach the same performance in five African centres (Egypt, Algeria, Uganda, Ghana and Malawi) with 25 patients each. The results show that a transfer learning approach can be a solution to integrate small-size African samples with existing large-scale databases in developed countries. In particular, the model can be re-aligned and optimised to boost the performance on African populations by increasing the recall to $0.92 \pm 0.04$ and at the same time maintaining a high precision across centres. This framework shows promise for building new AI models generalisable across clinical centres with limited data acquired in challenging and heterogeneous conditions and calls for further research to develop new solutions for usability of AI in countries with less resources. | 翻訳日:2022-09-21 19:21:14 公開日:2022-09-20 |
# 高品質セグメンテーションのための心血管系MRIの呼吸運動アーチファクトの検出 Detecting respiratory motion artefacts for cardiovascular MRIs to ensure high-quality segmentation ( http://arxiv.org/abs/2209.09678v1 ) ライセンス: Link先を確認 | Amin Ranem, John Kalkhof, Caner \"Ozer, Anirban Mukhopadhyay, Ilkay Oksuz | (参考訳) 機械学習アプローチはトレーニング領域でうまく機能するが、現実のアプリケーションでは一般的に失敗する傾向がある。
心血管性磁気共鳴画像(CMR)では, 呼吸運動は, 取得品質やその後の解析, 最終診断において大きな課題である。
CMRxMotion Challenge 2022において,CMRにおける呼吸運動の重症度スコアを予測するワークフローを提案する。
これは、患者がいまだ近くにいる間、品質の悪い画像を直接取得できるため、技術者が取得中にCMRの品質に関するフィードバックを直ちに提供するための重要なツールである。
そこで本手法は,得られたCMRがさらなる診断に使用される前に,特定の品質基準を保持できることを保証する。
このため、重度な運動アーチファクトの場合に、時間とコストのかかる再取得を伴わずに、適切な診断のための効率的なベースを提供することができる。
私たちのセグメンテーションモデルと組み合わせることで、心臓科医や技術者が毎日のルーチンで、適切な品質評価と心血管スキャンの真のセグメンテーションを保証する完全なパイプラインを提供することができます。
コードベースはhttps://github.com/MECLabTUDA/QA_med_data/tree/dev_QA_CMRxMotionで公開されている。 While machine learning approaches perform well on their training domain, they generally tend to fail in a real-world application. In cardiovascular magnetic resonance imaging (CMR), respiratory motion represents a major challenge in terms of acquisition quality and therefore subsequent analysis and final diagnosis. We present a workflow which predicts a severity score for respiratory motion in CMR for the CMRxMotion challenge 2022. This is an important tool for technicians to immediately provide feedback on the CMR quality during acquisition, as poor-quality images can directly be re-acquired while the patient is still available in the vicinity. Thus, our method ensures that the acquired CMR holds up to a specific quality standard before it is used for further diagnosis. Therefore, it enables an efficient base for proper diagnosis without having time and cost-intensive re-acquisitions in cases of severe motion artefacts. Combined with our segmentation model, this can help cardiologists and technicians in their daily routine by providing a complete pipeline to guarantee proper quality assessment and genuine segmentations for cardiovascular scans. The code base is available at https://github.com/MECLabTUDA/QA_med_data/tree/dev_QA_CMRxMotion. | 翻訳日:2022-09-21 19:20:29 公開日:2022-09-20 |
# 呼吸運動人工物を用いた伝達学習による心臓の分節 Cardiac Segmentation using Transfer Learning under Respiratory Motion Artifacts ( http://arxiv.org/abs/2209.09714v1 ) ライセンス: Link先を確認 | Carles Garcia-Cabrera, Eric Arazo, Kathleen M. Curran, Noel E. O'Connor and Kevin McGuinness | (参考訳) 心臓磁気共鳴画像(MRI)のアーチファクトに対する耐性を保ちながら心室セグメンテーションを行う手法は、それらの組織の構造的および機能的解析の質を保証するために重要である。
アルゴリズムの品質向上には大きな取り組みがあったが、予測において人工物が生み出す害に対処する研究はほとんどない。
本研究では,これらのアーティファクトに対する従来の手法のレジリエンスを改善するために,事前学習ネットワークの微調整について検討する。
提案手法では,これらのアーティファクトを模倣するデータ拡張を広範囲に活用した。
その結果、ベースラインセグメンテーション(最大0.06 diceスコア、4mmハウスドルフ距離改善)が大幅に改善した。 Methods that are resilient to artifacts in the cardiac magnetic resonance imaging (MRI) while performing ventricle segmentation, are crucial for ensuring quality in structural and functional analysis of those tissues. While there has been significant efforts on improving the quality of the algorithms, few works have tackled the harm that the artifacts generate in the predictions. In this work, we study fine tuning of pretrained networks to improve the resilience of previous methods to these artifacts. In our proposed method, we adopted the extensive usage of data augmentations that mimic those artifacts. The results significantly improved the baseline segmentations (up to 0.06 Dice score, and 4mm Hausdorff distance improvement). | 翻訳日:2022-09-21 19:20:07 公開日:2022-09-20 |
# スコアベース生成モデルを用いたCBCTプロジェクションの金属塗布 Metal Inpainting in CBCT Projections Using Score-based Generative Model ( http://arxiv.org/abs/2209.09733v1 ) ライセンス: Link先を確認 | Siyuan Mei, Fuxin Fan, Andreas Maier | (参考訳) 整形外科手術中、金属インプラントやスクリューの挿入は移動式Cアームシステムでしばしば行われる。
金属の高減衰のため、3次元復元では重金属のアーティファクトが発生し、画質が著しく低下する。
アーティファクトを減らすために、多くの金属アーティファクト低減アルゴリズムが開発され、プロジェクションドメインの金属インペインティングは必須のステップである。
本研究は, 膝投射を模擬したスコアベース生成モデルを訓練し, 条件付き再サンプリングプロセスにおいて, ノイズを取り除き, インペインテッド画像を得る。
その結果、スコアベース生成モデルによるインペイント画像は、補間法やCNN法と比較して、より詳細な情報を持ち、最小平均絶対誤差と最高ピーク信号-雑音比を達成することが示唆された。
さらに、スコアベースモデルでは、大きな丸いマスクと長方形のマスクで投影を復元することができる。 During orthopaedic surgery, the inserting of metallic implants or screws are often performed under mobile C-arm systems. Due to the high attenuation of metals, severe metal artifacts occur in 3D reconstructions, which degrade the image quality greatly. To reduce the artifacts, many metal artifact reduction algorithms have been developed and metal inpainting in projection domain is an essential step. In this work, a score-based generative model is trained on simulated knee projections and the inpainted image is obtained by removing the noise in conditional resampling process. The result implies that the inpainted images by score-based generative model have more detailed information and achieve the lowest mean absolute error and the highest peak-signal-to-noise-ratio compared with interpolation and CNN based method. Besides, the score-based model can also recover projections with big circlar and rectangular masks, showing its generalization in inpainting task. | 翻訳日:2022-09-21 19:19:54 公開日:2022-09-20 |
# 高密度乳腺マモグラムの高分解能合成 : 深層学習に基づく質量検出におけるフェアネス向上への応用 High-resolution synthesis of high-density breast mammograms: Application to improved fairness in deep learning based mass detection ( http://arxiv.org/abs/2209.09809v1 ) ライセンス: Link先を確認 | Lidia Garrucho, Kaisar Kushibar, Richard Osuala, Oliver Diaz, Alessandro Catanese, Javier del Riego, Maciej Bobowicz, Fredrik Strand, Laura Igual, Karim Lekadir | (参考訳) 深層学習に基づくコンピュータ支援検出システムは乳癌検出において優れた性能を示した。
しかし密度の高い乳房は、密度の高い組織がマスをマスクしたりシミュレートしたりできるため、検出性能が低くなる。
したがって、乳がん検出のためのマンモグラフィーの感度は、高濃度乳がんでは20%以上低下することができる。
さらに,低密度乳房と比較して癌リスクが増大した。
本研究では, 高密度フルフィールドデジタルマンモグラム (ffdm) を母乳マス検出モデルトレーニングにおけるデータ強化として用いることで, 高密度乳房のマス検出性能の向上を目指す。
この目的のために,3つのFFDMデータセットを用いた5つのサイクル一貫性GAN(CycleGAN)モデルを用いて,高分解能マンモグラムの低密度画像翻訳を訓練した。
トレーニング画像は乳房密度 BI-RADS の分類で区切られ, BI-RADS A はほぼ完全に脂肪酸であり, BI-RADS D は極度に高濃度の乳房であった。
提案手法は, 2種類のテストセットにおいて, 高密度乳房における質量検出の感度と精度を2%, 6%向上させ, ドメイン適応法として有用であった。
さらに,2名の専門放射線医と1名の外科腫瘍医を対象とする読影者を対象に,合成画像の臨床的リアリズムを評価した。 Computer-aided detection systems based on deep learning have shown good performance in breast cancer detection. However, high-density breasts show poorer detection performance since dense tissues can mask or even simulate masses. Therefore, the sensitivity of mammography for breast cancer detection can be reduced by more than 20% in dense breasts. Additionally, extremely dense cases reported an increased risk of cancer compared to low-density breasts. This study aims to improve the mass detection performance in high-density breasts using synthetic high-density full-field digital mammograms (FFDM) as data augmentation during breast mass detection model training. To this end, a total of five cycle-consistent GAN (CycleGAN) models using three FFDM datasets were trained for low-to-high-density image translation in high-resolution mammograms. The training images were split by breast density BI-RADS categories, being BI-RADS A almost entirely fatty and BI-RADS D extremely dense breasts. Our results showed that the proposed data augmentation technique improved the sensitivity and precision of mass detection in high-density breasts by 2% and 6% in two different test sets and was useful as a domain adaptation technique. In addition, the clinical realism of the synthetic images was evaluated in a reader study involving two expert radiologists and one surgical oncologist. | 翻訳日:2022-09-21 19:19:38 公開日:2022-09-20 |
# 超解像と雑音低減深層学習技術を用いた糖尿病性足潰瘍のモニタリング Diabetic foot ulcers monitoring by employing super resolution and noise reduction deep learning techniques ( http://arxiv.org/abs/2209.09880v1 ) ライセンス: Link先を確認 | Agapi Davradou, Eftychios Protopapadakis, Maria Kaselimi, Anastasios Doulamis, Nikolaos Doulamis | (参考訳) 糖尿病性足潰瘍 (dfus) は糖尿病患者の重篤な合併症である。
DFU患者のケアは、早期診断、潰瘍予防、既存の潰瘍の合併症管理を実現するために、自己管理によって大幅に改善することができる。
本稿では,糖尿病性足部潰瘍の意思決定とモニタリングを支援する画像から画像への翻訳技術(ititt)の2つのカテゴリについて検討する。
前例では,畳み込みニューラルネットワークスタックドオートエンコーダ(CNN-SAE)のノイズ除去能力について検討した。
CNN-SAEはガウスノイズによって誘導されるRGB画像上で試験された。
後者のシナリオは、4つのディープラーニングスーパーレゾリューションモデルの導入に関するものだ。
両方のシナリオにおいて、全てのモデルのパフォーマンスは実行時間と知覚された品質で評価された。
提案手法は,DFUモニタリング用に設計されたシステムで使用すべき,実用的で実装が容易な代替手段であることを示す。 Diabetic foot ulcers (DFUs) constitute a serious complication for people with diabetes. The care of DFU patients can be substantially improved through self-management, in order to achieve early-diagnosis, ulcer prevention, and complications management in existing ulcers. In this paper, we investigate two categories of image-to-image translation techniques (ItITT), which will support decision making and monitoring of diabetic foot ulcers: noise reduction and super-resolution. In the former case, we investigated the capabilities on noise removal, for convolutional neural network stacked-autoencoders (CNN-SAE). CNN-SAE was tested on RGB images, induced with Gaussian noise. The latter scenario involves the deployment of four deep learning super-resolution models. The performance of all models, for both scenarios, was evaluated in terms of execution time and perceived quality. Results indicate that applied techniques consist a viable and easy to implement alternative that should be used by any system designed for DFU monitoring. | 翻訳日:2022-09-21 19:19:18 公開日:2022-09-20 |
# フランジプラットフォームからの反社会的行動のスパイル : コミュニティ禁止の意図しない結果 Spillover of Antisocial Behavior from Fringe Platforms: The Unintended Consequences of Community Banning ( http://arxiv.org/abs/2209.09803v1 ) ライセンス: Link先を確認 | Giuseppe Russo, Luca Verginer, Manoel Horta Ribeiro, Giona Casiraghi | (参考訳) オンラインプラットフォームは、コミュニティを公然と尊重し続けるよう圧力にさらされている。
このように、redditやfacebookのような主流プラットフォームから問題のあるオンラインコミュニティの禁止は、しばしば熱烈な世論の反応に遭っている。
しかし、このポリシーにより、ユーザーはより低モデレーション基準の代替プラットフォームに移行することができ、トロルやハラスメントといった反社会的行動が広く受け入れられる。
これらのコミュニティのユーザは、主流プラットフォームとフリンジプラットフォーム間で \ca のままであることが多いため、反社会的行動が主流プラットフォームにこぼれる可能性がある。
r/The\_Donald、r/GenderCritical、r/Incelsの3つの禁止されたコミュニティからの70,000ドルのユーザを分析して、この流出の可能性を調査した。
差異の異なる設計を用いて、 \ca ユーザとマッチングしたユーザを比較して、reddit における fringe プラットフォーム参加の反社会的行動に対する因果効果を推定する。
私たちの結果は、フリンジコミュニティに参加することで、Reddit上での(パースペクティブAPIによって測定された)ユーザの毒性が増加し、禁止されているコミュニティと同様のサブレディットへの関与が増加します。
この効果は、時間とフリンジプラットフォームへの露出によって強化される。
要するに私たちは、fringeプラットフォームからredditへの共同参加を通じて、反社会的行動が流出した証拠を見つけました。 Online platforms face pressure to keep their communities civil and respectful. Thus, the bannings of problematic online communities from mainstream platforms like Reddit and Facebook are often met with enthusiastic public reactions. However, this policy can lead users to migrate to alternative fringe platforms with lower moderation standards and where antisocial behaviors like trolling and harassment are widely accepted. As users of these communities often remain \ca across mainstream and fringe platforms, antisocial behaviors may spill over onto the mainstream platform. We study this possible spillover by analyzing around $70,000$ users from three banned communities that migrated to fringe platforms: r/The\_Donald, r/GenderCritical, and r/Incels. Using a difference-in-differences design, we contrast \ca users with matched counterparts to estimate the causal effect of fringe platform participation on users' antisocial behavior on Reddit. Our results show that participating in the fringe communities increases users' toxicity on Reddit (as measured by Perspective API) and involvement with subreddits similar to the banned community -- which often also breach platform norms. The effect intensifies with time and exposure to the fringe platform. In short, we find evidence for a spillover of antisocial behavior from fringe platforms onto Reddit via co-participation. | 翻訳日:2022-09-21 19:13:15 公開日:2022-09-20 |
# QuestSim:シミュレーションアバターによるスパースセンサーからの人間のモーショントラッキング QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars ( http://arxiv.org/abs/2209.09391v1 ) ライセンス: Link先を確認 | Alexander Winkler, Jungdam Won, Yuting Ye | (参考訳) 人体の動きのリアルタイム追跡は、AR/VRにおけるインタラクティブで没入的な体験に不可欠である。
しかし、身体に関する非常に限られたセンサーデータは、HMD(Head Mounted Devices)やARグラスのようなスタンドアロンのウェアラブルデバイスから利用できる。
そこで本研究では,hmdと2つのコントローラからのスパース信号を取り込んで,実用的かつ物理的に有効な全身動作をシミュレートする強化学習フレームワークを提案する。
訓練中、質の高い全身運動を密集した監督として使用することで、単純なポリシーネットワークは、入力信号に忠実に追従しながら、キャラクタのバランス、歩行、ジョギングに適切なトルクを出力することができる。
以上の結果から,HMDの6次元変換のみの入力であっても,下肢の観察を行なわずに,下肢の動きに驚くほどよく似ていることが示された。
また、1つのポリシーが多様なロコモーションスタイル、異なるボディサイズ、そして新しい環境に対して堅牢であることも示しています。 Real-time tracking of human body motion is crucial for interactive and immersive experiences in AR/VR. However, very limited sensor data about the body is available from standalone wearable devices such as HMDs (Head Mounted Devices) or AR glasses. In this work, we present a reinforcement learning framework that takes in sparse signals from an HMD and two controllers, and simulates plausible and physically valid full body motions. Using high quality full body motion as dense supervision during training, a simple policy network can learn to output appropriate torques for the character to balance, walk, and jog, while closely following the input signals. Our results demonstrate surprisingly similar leg motions to ground truth without any observations of the lower body, even when the input is only the 6D transformations of the HMD. We also show that a single policy can be robust to diverse locomotion styles, different body sizes, and novel environments. | 翻訳日:2022-09-21 19:12:32 公開日:2022-09-20 |
# 格子型3次元物体検出における次元化の再考 Rethinking Dimensionality Reduction in Grid-based 3D Object Detection ( http://arxiv.org/abs/2209.09464v1 ) ライセンス: Link先を確認 | Dihe Huang, Ying Chen, Yikang Ding, Jinli Liao, Jianlin Liu, Kai Wu, Qiang Nie, Yong Liu, Chengjie Wang | (参考訳) バードアイビュー (Bird's Eye View, BEV) は、よく探索された2D検出技術の適用性のため、現在の雲検出器のほとんどで広く採用されている。
しかし、既存の方法では、ボクセルや点の特徴を高さ次元に沿って簡単に折り畳み、BEVの特徴が得られ、3次元空間情報が失われる。
情報損失を軽減するため,MDRNetと呼ばれるマルチレベル特徴量次元削減戦略に基づく新しいポイントクラウド検出ネットワークを提案する。
MDRNetでは、空間認識次元度低減(SDR)は、ボクセル-BEV間の特徴変換において、オブジェクトの価値のある部分に動的に集中するように設計されている。
さらに,BEV特徴写像の多レベル空間情報を融合するために,MSR(Multi-level Spatial Residuals)を提案する。
ヌッセンに関する広範囲な実験により,提案手法が最先端手法よりも優れていることが示された。
コードは公開時に公開されます。 Bird's eye view (BEV) is widely adopted by most of the current point cloud detectors due to the applicability of well-explored 2D detection techniques. However, existing methods obtain BEV features by simply collapsing voxel or point features along the height dimension, which causes the heavy loss of 3D spatial information. To alleviate the information loss, we propose a novel point cloud detection network based on a Multi-level feature dimensionality reduction strategy, called MDRNet. In MDRNet, the Spatial-aware Dimensionality Reduction (SDR) is designed to dynamically focus on the valuable parts of the object during voxel-to-BEV feature transformation. Furthermore, the Multi-level Spatial Residuals (MSR) is proposed to fuse the multi-level spatial information in the BEV feature maps. Extensive experiments on nuScenes show that the proposed method outperforms the state-of-the-art methods. The code will be available upon publication. | 翻訳日:2022-09-21 19:12:15 公開日:2022-09-20 |
# BuFF:光拘束型3D再構成のためのバースト機能ファインダ BuFF: Burst Feature Finder for Light-Constrained 3D Reconstruction ( http://arxiv.org/abs/2209.09470v1 ) ライセンス: Link先を確認 | Ahalya Ravendran, Mitch Bryson, Donald G. Dansereau | (参考訳) 従来のビジョンカメラを使って夜間に作動するロボットは、ノイズ制限画像による復元において重大な課題に直面している。
これまでの研究は、バーストイメージング技術がこの問題を部分的に克服するために使用できることを示した。
本稿では,超低照度環境下での視覚的再構成を向上する画像バーストを直接操作する特徴検出器を開発した。
提案手法は,マルチスケールおよびマルチモーション空間を共同で探索することにより,各バースト内における明瞭なスケールと明らかな動きのキーポイントを求める。
これらの特徴を,信号対雑音比が高い段階で記述するため,検出された特徴は従来のノイズ画像やバーストマージ画像よりも高精度であり,高精度,リコール,マッチング性能を示す。
撮影性能の向上とカメラのポーズ推定を行い,照度制約のあるシーンにおける特徴検出装置を用いて,撮影性能の向上を示す。
我々の機能ファインダは、夜間操作を含む低照度シナリオやアプリケーションで動作するロボットに対して重要なステップを提供する。 Robots operating at night using conventional vision cameras face significant challenges in reconstruction due to noise-limited images. Previous work has demonstrated that burst-imaging techniques can be used to partially overcome this issue. In this paper, we develop a novel feature detector that operates directly on image bursts that enhances vision-based reconstruction under extremely low-light conditions. Our approach finds keypoints with well-defined scale and apparent motion within each burst by jointly searching in a multi-scale and multi-motion space. Because we describe these features at a stage where the images have higher signal-to-noise ratio, the detected features are more accurate than the state-of-the-art on conventional noisy images and burst-merged images and exhibit high precision, recall, and matching performance. We show improved feature performance and camera pose estimates and demonstrate improved structure-from-motion performance using our feature detector in challenging light-constrained scenes. Our feature finder provides a significant step towards robots operating in low-light scenarios and applications including night-time operations. | 翻訳日:2022-09-21 19:12:01 公開日:2022-09-20 |
# エゴセントリックrgbビデオからの3次元手ポーズ推定と動作認識のための階層的時間変換 Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos ( http://arxiv.org/abs/2209.09484v1 ) ライセンス: Link先を確認 | Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura, Wenping Wang | (参考訳) 自我中心のRGBビデオから動的手の動きや動作を理解することは、自己排他性と曖昧さのため、基本的な課題である。
咬合と曖昧さに対処するために,時間的情報を利用してロバストな推定を行うトランスフォーマティブ・フレームワークを開発した。
手振り推定と動作認識の時間的粒度の違いと意味的相関に気付き、2つのカスケードトランスフォーマーエンコーダでネットワーク階層を構築し、まず手振り推定の短期的キューを利用し、後者はフレームごとのポーズとオブジェクト情報を長い時間をかけて集約し、その動作を認識する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
広範なアブレーション研究は 設計上の選択を検証します
今後の研究を促進するために、コードとデータをオープンソースにします。 Understanding dynamic hand motions and actions from egocentric RGB videos is a fundamental yet challenging task due to self-occlusion and ambiguity. To address occlusion and ambiguity, we develop a transformer-based framework to exploit temporal information for robust estimation. Noticing the different temporal granularity of and the semantic correlation between hand pose estimation and action recognition, we build a network hierarchy with two cascaded transformer encoders, where the first one exploits the short-term temporal cue for hand pose estimation, and the latter aggregates per-frame pose and object information over a longer time span to recognize the action. Our approach achieves competitive results on two first-person hand action benchmarks, namely FPHA and H2O. Extensive ablation studies verify our design choices. We will open-source code and data to facilitate future research. | 翻訳日:2022-09-21 19:11:45 公開日:2022-09-20 |
# デジタルヒューマンヘッドの知覚品質評価 Perceptual Quality Assessment for Digital Human Heads ( http://arxiv.org/abs/2209.09489v1 ) ライセンス: Link先を確認 | Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai | (参考訳) デジタル人間はこの10年間でますます研究の関心を惹きつけており、その生成、表現、レンダリング、アニメーションは大量の努力に費やされている。
しかし、デジタル人間の品質評価は遅れている。
そこで,デジタル人間品質評価の課題に取り組むために,スキャンされたデジタル人頭(dhhs)に対する最初の大規模品質評価データベースを提案する。
構築されたデータベースは、55の参照DHHと1,540の歪んだDHHと、主観評価からなる。
次に,単純かつ効果的なフルリファレンス(fr)投影法を提案する。
プリトレーニングされたスウィントランスを階層的特徴抽出に利用し、マルチヘッドアテンションモジュールを特徴融合に利用する。
実験の結果,本手法は主要なFR測定値の最先端性能を示すことがわかった。
この作業で提示されたデータベースとメソッドは公開されます。 Digital humans are attracting more and more research interest during the last decade, the generation, representation, rendering, and animation of which have been put into large amounts of effort. However, the quality assessment for digital humans has fallen behind. Therefore, to tackle the challenge of digital human quality assessment issues, we propose the first large-scale quality assessment database for scanned digital human heads (DHHs). The constructed database consists of 55 reference DHHs and 1,540 distorted DHHs along with the subjective ratings. Then, a simple yet effective full-reference (FR) projection-based method is proposed. The pretrained Swin Transformer tiny is employed for hierarchical feature extraction and the multi-head attention module is utilized for feature fusion. The experimental results reveal that the proposed method exhibits state-of-the-art performance among the mainstream FR metrics. The database and the method presented in this work will be made publicly available. | 翻訳日:2022-09-21 19:11:27 公開日:2022-09-20 |
# NBD-GAP: クリーンターゲット画像のない非ブラインド画像 NBD-GAP: Non-Blind Image Deblurring Without Clean Target Images ( http://arxiv.org/abs/2209.09498v1 ) ライセンス: Link先を確認 | Nithin Gopalakrishnan Nair, Rajeev Yasarla and Vishal M. Patel | (参考訳) 近年,ディープニューラルネットワークを用いた復元手法は,様々な画像デブラリング作業において最先端の成果を得られている。
しかし、ディープラーニングに基づくデブロワーリングネットワークの大きな欠点の1つは、優れたパフォーマンスを得るためには、訓練に大量のぼやけたクリーンなイメージペアが必要であることである。
さらに、テスト中のぼやけた画像とぼやけたカーネルがトレーニング中に使用するものとは大きく異なる場合、ディープネットワークはよく機能しないことが多い。
これは主に、トレーニングデータに対するネットワークパラメータの過度な適合に起因する。
本稿では,これらの問題に対処する手法を提案する。
非ブリンド画像のデブラリング問題をデノジング問題と見なす。
そこで我々は,1対のぼかし画像に対して,対応するぼかしカーネルを用いてワイナーフィルタリングを行う。
この結果、カラーノイズのある2つの画像が生成される。
したがって、デブルリング問題はデノージング問題に翻訳される。
次に, 明示的なクリーンターゲット画像を用いずに, 雑音除去問題を解く。
本手法は,最先端の非盲検作業と同等の結果が得られることを示すため,広範囲な実験を行った。 In recent years, deep neural network-based restoration methods have achieved state-of-the-art results in various image deblurring tasks. However, one major drawback of deep learning-based deblurring networks is that large amounts of blurry-clean image pairs are required for training to achieve good performance. Moreover, deep networks often fail to perform well when the blurry images and the blur kernels during testing are very different from the ones used during training. This happens mainly because of the overfitting of the network parameters on the training data. In this work, we present a method that addresses these issues. We view the non-blind image deblurring problem as a denoising problem. To do so, we perform Wiener filtering on a pair of blurry images with the corresponding blur kernels. This results in a pair of images with colored noise. Hence, the deblurring problem is translated into a denoising problem. We then solve the denoising problem without using explicit clean target images. Extensive experiments are conducted to show that our method achieves results that are on par to the state-of-the-art non-blind deblurring works. | 翻訳日:2022-09-21 19:11:13 公開日:2022-09-20 |
# 心臓dti sms関連アーティファクト除去のためのデータタイプとモデル次元の検討 Review of data types and model dimensionality for cardiac DTI SMS-related artefact removal ( http://arxiv.org/abs/2209.09522v1 ) ライセンス: Link先を確認 | Michael Tanzer, Sea Hee Yook, Guang Yang, Daniel Rueckert, Sonia Nielles-Vallespin | (参考訳) 拡散テンソルイメージング(DTI)は、心臓の微細構造を非侵襲的に評価するユニークな能力によって、心臓イメージングにおいて人気が高まり、ディープラーニングベースの人工知能は、長いスキャン時間など、その欠点を緩和する重要なツールになりつつある。
ペースの速い研究環境ではよくあることだが、深層学習の能力を示すことには多くの注意が払われているが、入力とアーキテクチャのプロパティが心のdtiアクセラレーションに最も有益であるかどうかを調べるのに時間がないことが多い。
本研究では,マルチスライス(SMS)の同時取得によるアーティファクトの除去を訓練したモデルの性能に対する,複数の入力型(マグニチュード画像対複素画像),複数次元性(2Dと3Dの操作),複数入力型(シングルスライス対マルチスライス)の影響を比較した。
最初の直観にもかかわらず、我々の実験は、固定数のパラメータに対して、より単純な2次元実数値モデルの方が、より高度な3Dまたは複雑なモデルよりも優れていることを示した。
最良の性能は、取得したデータの大きさと位相の両方を使って訓練された実数値モデルによって得られる。
この挙動は, パラメータの少ない実数値モデルと, 実験で使用したSMSアクセラレーションの低さから空間情報を活用できない3次元モデルに起因していると考えている。 As diffusion tensor imaging (DTI) gains popularity in cardiac imaging due to its unique ability to non-invasively assess the cardiac microstructure, deep learning-based Artificial Intelligence is becoming a crucial tool in mitigating some of its drawbacks, such as the long scan times. As it often happens in fast-paced research environments, a lot of emphasis has been put on showing the capability of deep learning while often not enough time has been spent investigating what input and architectural properties would benefit cardiac DTI acceleration the most. In this work, we compare the effect of several input types (magnitude images vs complex images), multiple dimensionalities (2D vs 3D operations), and multiple input types (single slice vs multi-slice) on the performance of a model trained to remove artefacts caused by a simultaneous multi-slice (SMS) acquisition. Despite our initial intuition, our experiments show that, for a fixed number of parameters, simpler 2D real-valued models outperform their more advanced 3D or complex counterparts. The best performance is although obtained by a real-valued model trained using both the magnitude and phase components of the acquired data. We believe this behaviour to be due to real-valued models making better use of the lower number of parameters, and to 3D models not being able to exploit the spatial information because of the low SMS acceleration factor used in our experiments. | 翻訳日:2022-09-21 19:10:57 公開日:2022-09-20 |
# 3次元mriによる脳梗塞病変の自動分割 Automated ischemic stroke lesion segmentation from 3D MRI ( http://arxiv.org/abs/2209.09546v1 ) ライセンス: Link先を確認 | Md Mahfuzur Rahman Siddique, Dong Yang, Yufan He, Daguang Xu, Andriy Myronenko | (参考訳) Ischemic Stroke Lesion Segmentation Challenge (ISLES 2022)は、研究者がソリューションを3D MRIから虚血脳梗塞領域の3Dセグメンテーションと比較するためのプラットフォームを提供する。
本稿では,ISLES 2022セグメンテーションタスクに対するソリューションについて述べる。
我々は、すべての画像を共通の解像度に再サンプリングし、2つのMRIモード(DWIとADC)を使用し、MONAIからSegResNetセマンティックセグメンテーションネットワークを訓練する。
最終的な提出は15モデルのアンサンブル(5倍のクロスバリデーションの3つの実行から)である。
私たちのソリューション(チーム名nvauto)は、diceメトリック(0.824)と総合ランク2(合計メトリックランキングに基づく)の点で最上位に到達します。 Ischemic Stroke Lesion Segmentation challenge (ISLES 2022) offers a platform for researchers to compare their solutions to 3D segmentation of ischemic stroke regions from 3D MRIs. In this work, we describe our solution to ISLES 2022 segmentation task. We re-sample all images to a common resolution, use two input MRI modalities (DWI and ADC) and train SegResNet semantic segmentation network from MONAI. The final submission is an ensemble of 15 models (from 3 runs of 5-fold cross validation). Our solution (team name NVAUTO) achieves the top place in terms of Dice metric (0.824), and overall rank 2 (based on the combined metric ranking). | 翻訳日:2022-09-21 19:10:30 公開日:2022-09-20 |
# 高速関数抽出と非線形最小二乗最適化による記号回帰 Symbolic Regression with Fast Function Extraction and Nonlinear Least Squares Optimization ( http://arxiv.org/abs/2209.09675v1 ) ライセンス: Link先を確認 | Lukas Kammerer, Gabriel Kronberger, Michael Kommenda | (参考訳) fast function extraction (ffx) は記号回帰問題を解く決定論的アルゴリズムである。
非線形関数の引数にパラメータを追加することでFFXの精度を向上させる。
線形パラメータを最適化する代わりに、可変射影アルゴリズムを用いて分離可能な非線形最小二乗最適化を行う非線形パラメータを最適化する。
FFXと我々の新しいアルゴリズムはPennMLベンチマークスイートに適用される。
提案するffxの拡張により,同じ長さのモデルを提供しながら,与えられたデータ上でのランタイムをほんの少し増加させるだけで,精度が向上することを示す。
私たちの結果は、与えられたベンチマークスイートですでに公開された大量の回帰メソッドと比較されます。 Fast Function Extraction (FFX) is a deterministic algorithm for solving symbolic regression problems. We improve the accuracy of FFX by adding parameters to the arguments of nonlinear functions. Instead of only optimizing linear parameters, we optimize these additional nonlinear parameters with separable nonlinear least squared optimization using a variable projection algorithm. Both FFX and our new algorithm is applied on the PennML benchmark suite. We show that the proposed extensions of FFX leads to higher accuracy while providing models of similar length and with only a small increase in runtime on the given data. Our results are compared to a large set of regression methods that were already published for the given benchmark suite. | 翻訳日:2022-09-21 19:04:21 公開日:2022-09-20 |
# 変圧器モデルにおける整数微調整 Integer Fine-tuning of Transformer-based Models ( http://arxiv.org/abs/2209.09815v1 ) ライセンス: Link先を確認 | Mohammadreza Tayaranian, Alireza Ghaffari, Marzieh S. Tahaei, Mehdi Rezagholizadeh, Masoud Asgharian, Vahid Partovi Nia | (参考訳) トランスフォーマーベースのモデルは、様々なディープラーニングタスクにおける最先端のパフォーマンスを達成するために使用される。
トランスフォーマーベースのモデルには多くのパラメータがあるため、下流タスクの微調整は計算量が多く、省エネである。
このようなモデルの自動混合精度fp32/fp16の微調整は、計算リソース要件の低減にこれまで用いられてきた。
しかし、低ビット整数バックプロパゲーションの最近の進歩により、計算とメモリフットプリントをさらに削減することができる。
本研究では,線形,畳み込み,層ノルム,埋め込み層の前方伝播および勾配計算に整数演算を用いる新しい整数学習法について検討する。
さらに,様々な整数ビット幅の影響について検討し,変圧器モデルにおける整数微調整に必要な最小ビット幅を求める。
整数層を用いて、人気のある下流タスク上でBERTとViTモデルを微調整する。
16ビット整数モデルは浮動小数点ベースライン性能に適合することを示す。
ビット幅を10に減らすと、平均スコアが0.5低下する。
最後に、ビット幅を8に下げると平均スコアが1.7ポイント低下する。 Transformer based models are used to achieve state-of-the-art performance on various deep learning tasks. Since transformer-based models have large numbers of parameters, fine-tuning them on downstream tasks is computationally intensive and energy hungry. Automatic mixed-precision FP32/FP16 fine-tuning of such models has been previously used to lower the compute resource requirements. However, with the recent advances in the low-bit integer back-propagation, it is possible to further reduce the computation and memory foot-print. In this work, we explore a novel integer training method that uses integer arithmetic for both forward propagation and gradient computation of linear, convolutional, layer-norm, and embedding layers in transformer-based models. Furthermore, we study the effect of various integer bit-widths to find the minimum required bit-width for integer fine-tuning of transformer-based models. We fine-tune BERT and ViT models on popular downstream tasks using integer layers. We show that 16-bit integer models match the floating-point baseline performance. Reducing the bit-width to 10, we observe 0.5 average score drop. Finally, further reduction of the bit-width to 8 provides an average score drop of 1.7 points. | 翻訳日:2022-09-21 19:04:12 公開日:2022-09-20 |
# ESTA:Esportsの軌跡とアクションデータセット ESTA: An Esports Trajectory and Action Dataset ( http://arxiv.org/abs/2209.09861v1 ) ライセンス: Link先を確認 | Peter Xenopoulos, Claudio Silva | (参考訳) スポーツは、グローバルなリーチとインパクトに富んだ予測タスクのおかげで、機械学習モデルをデプロイするエキサイティングな領域である。
しかし、従来のスポーツのデータはそのサイズ、正確性、アクセシビリティのために研究に適さないことが多い。
これらの問題に対処するため,従来のスポーツと同じような能力でプレイされるビデオゲームを対象とするエスポートに目を向ける。
esportsデータは周辺センサーではなくサーバログ経由で取得されるため、esportsは、従来のスポーツで収集されたものと類似した、クリーンで詳細な時空間データの膨大なコレクションを得るユニークな機会を提供する。
エスポートデータを解析するために,オープンソースのエスポートゲームログ解析ライブラリであるawpyを開発し,ゲームログからプレイヤーの軌跡やアクションを抽出する。
awpyを用いて、プロのCounter-Strikeトーナメントの1,558のゲームログから8.6mのアクション、7.9mのゲームフレーム、417kのトラジェクトリを解析し、Esports Trajectory and Actions(ESTA)データセットを作成する。
ESTAは、これまでで最大かつ最も細かく公開されているスポーツデータセットの1つである。
我々はestaを用いてプレイヤー固有の情報を用いたウィン予測のためのベンチマークを開発した。
ESTAデータはhttps://github.com/pnxenopoulos/estaで入手できる。 Sports, due to their global reach and impact-rich prediction tasks, are an exciting domain to deploy machine learning models. However, data from conventional sports is often unsuitable for research use due to its size, veracity, and accessibility. To address these issues, we turn to esports, a growing domain that encompasses video games played in a capacity similar to conventional sports. Since esports data is acquired through server logs rather than peripheral sensors, esports provides a unique opportunity to obtain a massive collection of clean and detailed spatiotemporal data, similar to those collected in conventional sports. To parse esports data, we develop awpy, an open-source esports game log parsing library that can extract player trajectories and actions from game logs. Using awpy, we parse 8.6m actions, 7.9m game frames, and 417k trajectories from 1,558 game logs from professional Counter-Strike tournaments to create the Esports Trajectory and Actions (ESTA) dataset. ESTA is one of the largest and most granular publicly available sports data sets to date. We use ESTA to develop benchmarks for win prediction using player-specific information. The ESTA data is available at https://github.com/pnxenopoulos/esta and awpy is made public through PyPI. | 翻訳日:2022-09-21 19:03:56 公開日:2022-09-20 |
# スプリングバック予測を曲げた小型二層金属管の物理論理強化ネットワーク Physical Logic Enhanced Network for Small-Sample Bi-Layer Metallic Tubes Bending Springback Prediction ( http://arxiv.org/abs/2209.09870v1 ) ライセンス: Link先を確認 | Chang Sun, Zili Wang, Shuyou Zhang, Le Wang, Jianrong Tan | (参考訳) 両層金属管(BMT)は工学的応用において極めて重要な役割を担い、ロータリードローイング曲げ(RDB)により高精度な曲げ加工が可能となるが、さらなるスプリングバックが期待できる。
BMTの複雑な構造とデータセット取得のコストが高いため、メカニズム研究と機械学習に基づく既存の手法は、スプリングバック予測の工学的要件を満たすことができない。
予備メカニズム解析に基づいて,物理論理拡張ネットワーク(PE-NET)を提案する。
このアーキテクチャは、BMTを単層管に等価するES-NETと、十分な単層管サンプルを持つスプリングバックの最終述語としてSP-NETを含む。
具体的には、理論駆動前爆発とデータ駆動前訓練により、es-netとsp-netがそれぞれ構築される。
第2段階では、物理論理の下でPE-NETはES-NETとSP-NETで組み立てられ、小さなサンプルBMTデータセットと複合損失関数で微調整される。
提案手法の有効性と安定性をFEシミュレーションデータセットを用いて検証し,小サンプルデータセットBMTスプリングバック角予測を行い,予測可能性および工学的応用の可能性を示す。 Bi-layer metallic tube (BMT) plays an extremely crucial role in engineering applications, with rotary draw bending (RDB) the high-precision bending processing can be achieved, however, the product will further springback. Due to the complex structure of BMT and the high cost of dataset acquisi-tion, the existing methods based on mechanism research and machine learn-ing cannot meet the engineering requirements of springback prediction. Based on the preliminary mechanism analysis, a physical logic enhanced network (PE-NET) is proposed. The architecture includes ES-NET which equivalent the BMT to the single-layer tube, and SP-NET for the final predic-tion of springback with sufficient single-layer tube samples. Specifically, in the first stage, with the theory-driven pre-exploration and the data-driven pretraining, the ES-NET and SP-NET are constructed, respectively. In the second stage, under the physical logic, the PE-NET is assembled by ES-NET and SP-NET and then fine-tuned with the small sample BMT dataset and composite loss function. The validity and stability of the proposed method are verified by the FE simulation dataset, the small-sample dataset BMT springback angle prediction is achieved, and the method potential in inter-pretability and engineering applications are demonstrated. | 翻訳日:2022-09-21 19:03:34 公開日:2022-09-20 |
# コンフリクトベース探索 (cbs) と焦点探索 (fs) の組み合わせに基づくanytime mapfソルバの解析 Analysis Of The Anytime MAPF Solvers Based On The Combination Of Conflict-Based Search (CBS) and Focal Search (FS) ( http://arxiv.org/abs/2209.09612v1 ) ライセンス: Link先を確認 | Ilya Ivanashev, Anton Andreychuk, Konstantin Yakovlev | (参考訳) conflict-based search (cbs) はマルチエージェントパスファイニング(mapf)問題を最適に解くために広く用いられているアルゴリズムである。
cbsの核となる考え方は階層的探索を行い、高レベルにおいて解候補のツリーを探索し、低レベルにおいては特定のエージェント(特定の制約に従属する)の個別計画を実行することである。
CBSの高次・低次探索ルーチンを変更するため、制限付き準最適CBSの異なる変種を走らせるためのトレードオフ最適性を設計した。
さらに、CBSの高レベルなCBS - Anytime BCBSにFocal Search(FS)を適用する、CBSのあらゆるバリエーションが存在する。
しかし、cbsのサブオプティビティのバウンドが低下しただけの場合、このアルゴリズムがナイーブに比較していかにうまく機能するかの包括的な分析は行われなかった。
この仕事はこのギャップを埋めることを目指している。
さらに,CBSの両レベルにおいてFSを使用するCBSの任意のバージョンを提示し,評価する。
実験により,その挙動はAnytime BCBSが示したものとは大きく異なることがわかった。
最後に、両アルゴリズムを真っ向から比較し、CBSの両レベルでFocal Searchを使用することは、幅広い設定において有益であることを示す。 Conflict-Based Search (CBS) is a widely used algorithm for solving multi-agent pathfinding (MAPF) problems optimally. The core idea of CBS is to run hierarchical search, when, on the high level the tree of solutions candidates is explored, and on the low-level an individual planning for a specific agent (subject to certain constraints) is carried out. To trade-off optimality for running time different variants of bounded sub-optimal CBS were designed, which alter both high- and low-level search routines of CBS. Moreover, anytime variant of CBS does exist that applies Focal Search (FS) to the high-level of CBS - Anytime BCBS. However, no comprehensive analysis of how well this algorithm performs compared to the naive one, when we simply re-invoke CBS with the decreased sub-optimality bound, was present. This work aims at filling this gap. Moreover, we present and evaluate another anytime version of CBS that uses FS on both levels of CBS. Empirically, we show that its behavior is principally different from the one demonstrated by Anytime BCBS. Finally, we compare both algorithms head-to-head and show that using Focal Search on both levels of CBS can be beneficial in a wide range of setups. | 翻訳日:2022-09-21 19:03:11 公開日:2022-09-20 |
# HPの強化フィルターは、想像以上に一般的なものだ The boosted HP filter is more general than you might think ( http://arxiv.org/abs/2209.09810v1 ) ライセンス: Link先を確認 | Ziwei Mei, Peter C. B. Phillips, Zhentao Shi | (参考訳) 世界的な金融危機とコビッド不況は、マクロ経済データにおけるトレンドサイクル発見に関する新たな議論を巻き起こし、最近、人気のHPフィルタを、データリッチで高速な計算環境に適した現代的な機械学習デバイスにアップグレードした。
本稿では,HPフィルタのスムース化と一般トレンド検出の高速化による整合性の両方を簡易に説明しながら,トレンドサイクル決定の汎用性に光を当てる。
fred databaseの時系列の宇宙に適用することで、危機や回復時のダウンターンをタイムリーに捉えて、他の手法を上回ります。
適用範囲が広いHPフィルタは,マクロコノメトリツールキットに機械学習を自動で追加する手段として有用である。 The global financial crisis and Covid recession have renewed discussion concerning trend-cycle discovery in macroeconomic data, and boosting has recently upgraded the popular HP filter to a modern machine learning device suited to data-rich and rapid computational environments. This paper sheds light on its versatility in trend-cycle determination, explaining in a simple manner both HP filter smoothing and the consistency delivered by boosting for general trend detection. Applied to a universe of time series in FRED databases, boosting outperforms other methods in timely capturing downturns at crises and recoveries that follow. With its wide applicability the boosted HP filter is a useful automated machine learning addition to the macroeconometric toolkit. | 翻訳日:2022-09-21 19:02:15 公開日:2022-09-20 |
# イノベーターの言語と社会的行動 The language and social behavior of innovators ( http://arxiv.org/abs/2209.09511v1 ) ライセンス: Link先を確認 | A. Fronzetti Colladon, L. Toschi, E. Ughetto, F. Greco | (参考訳) イノベーターは、革新的な組織の主要なエンジンを表す画期的なアイデアを活用できる創造的な人々である。
過去の研究は、イノベーターが誰で、仕事関連の活動でどのように振る舞うかを幅広く研究してきた。
本稿では,形式的構造やルール,作業義務を伴わずに知識を共有する非公式なコミュニケーション空間などにおいて,イノベーターが他の文脈でどのように振る舞うかを分析する必要があることを示唆する。
コミュニケーションとネットワーク理論に基づき,多国籍企業のイントラネットフォーラムで利用可能な投稿約38,000本を分析した。
このことから,イノベーターが他の従業員とソーシャル・ネットワークの行動や言語特性の点でどのように異なるかを説明する。
テキストマイニングによって、イノベーターはより多くの文章を書き、より複雑な言語を使い、新しい概念/イデアを導入し、ポジティブだが事実に基づく言語を使う。
イノベーターの振る舞いとコミュニケーションを理解することは、イノベーションを育てたいマネージャの意思決定プロセスを支援する。 Innovators are creative people who can conjure the ground-breaking ideas that represent the main engine of innovative organizations. Past research has extensively investigated who innovators are and how they behave in work-related activities. In this paper, we suggest that it is necessary to analyze how innovators behave in other contexts, such as in informal communication spaces, where knowledge is shared without formal structure, rules, and work obligations. Drawing on communication and network theory, we analyze about 38,000 posts available in the intranet forum of a large multinational company. From this, we explain how innovators differ from other employees in terms of social network behavior and language characteristics. Through text mining, we find that innovators write more, use a more complex language, introduce new concepts/ideas, and use positive but factual-based language. Understanding how innovators behave and communicate can support the decision-making processes of managers who want to foster innovation. | 翻訳日:2022-09-21 19:01:39 公開日:2022-09-20 |
# 構造化ガウス過程を用いた部分配列ラベリング Partial sequence labeling with structured Gaussian Processes ( http://arxiv.org/abs/2209.09397v1 ) ライセンス: Link先を確認 | Xiaolei Lu, Tommy W.S. Chow | (参考訳) 既存の部分列ラベリングモデルは主に、予測の不確実性評価の提供に失敗するmax-marginフレームワークに焦点を当てている。
さらに、これらのモデルが採用する一意な根拠真理曖昧化戦略は、パラメータ学習のための間違ったラベル情報を含むかもしれない。
本稿では,予測の不確かさを符号化し,モデル選択やハイパーパラメータ学習に余計な労力を要しない部分列ラベリング(sgppsl)のための構造化ガウス過程を提案する。
このモデルは、線形連鎖グラフ構造を一組の断片に分割し、基本的なマルコフランダムフィールド構造を保存し、部分的に注釈付きデータによって生成される多数の候補出力シーケンスの処理を効果的に回避する。
次に、モデルに信頼度尺度を導入し、候補ラベルの異なる貢献に対処することにより、基底ラベル情報をパラメータ学習に活用することができる。
提案モデルの変分下限の導出した下限に基づいて、変分パラメータと信頼度測度を交互最適化の枠組みで推定する。
さらに、重み付きビタビアルゴリズムは、トレーニングデータ中の複数のアノテーションから生じるラベルのあいまいさを考慮し、信頼性測定をシーケンス予測に組み込むことにより、性能の向上を支援する。
SGPPSLを複数のシーケンスラベリングタスクで評価し,実験結果から提案モデルの有効性を示した。 Existing partial sequence labeling models mainly focus on max-margin framework which fails to provide an uncertainty estimation of the prediction. Further, the unique ground truth disambiguation strategy employed by these models may include wrong label information for parameter learning. In this paper, we propose structured Gaussian Processes for partial sequence labeling (SGPPSL), which encodes uncertainty in the prediction and does not need extra effort for model selection and hyperparameter learning. The model employs factor-as-piece approximation that divides the linear-chain graph structure into the set of pieces, which preserves the basic Markov Random Field structure and effectively avoids handling large number of candidate output sequences generated by partially annotated data. Then confidence measure is introduced in the model to address different contributions of candidate labels, which enables the ground-truth label information to be utilized in parameter learning. Based on the derived lower bound of the variational lower bound of the proposed model, variational parameters and confidence measures are estimated in the framework of alternating optimization. Moreover, weighted Viterbi algorithm is proposed to incorporate confidence measure to sequence prediction, which considers label ambiguity arose from multiple annotations in the training data and thus helps improve the performance. SGPPSL is evaluated on several sequence labeling tasks and the experimental results show the effectiveness of the proposed model. | 翻訳日:2022-09-21 18:54:58 公開日:2022-09-20 |
# クリックスルー率予測における特徴埋め込み Feature embedding in click-through rate prediction ( http://arxiv.org/abs/2209.09481v1 ) ライセンス: Link先を確認 | Samo Pahor, Davorin Kopi\v{c}, Jure Dem\v{s}ar | (参考訳) クリックスルー率予測プロセスを改善するために,機能埋め込みの課題に取り組む。
我々は,ロジスティック回帰,因子分解マシン,深層因子化マシンの3つのモデルをベースラインとして選択し,組み込みスケーリング,fm組込み,エンベロープエンコーディング,nn組込み,埋め込み重み付けモジュールの5つの異なる機能組込みモジュールを提案する。
埋め込みモジュールはベースラインモデルの特徴埋め込みを改善する手段として機能し、他のモデルのパラメータとともにエンドツーエンドでトレーニングされる。
各モジュールはベースラインモデルに個別に追加され、新しい拡張モデルが得られる。
我々は,クリックスルー率予測モデルのベンチマークに使用される公開データセット上で,拡張モデルの予測性能をテストする。
提案する組込みモジュールは,トレーニング時間を大幅に増加させることなく,予測性能を著しく向上させることを示す。 We tackle the challenge of feature embedding for the purposes of improving the click-through rate prediction process. We select three models: logistic regression, factorization machines and deep factorization machines, as our baselines and propose five different feature embedding modules: embedding scaling, FM embedding, embedding encoding, NN embedding and the embedding reweighting module. The embedding modules act as a way to improve baseline model feature embeddings and are trained alongside the rest of the model parameters in an end-to-end manner. Each module is individually added to a baseline model to obtain a new augmented model. We test the predictive performance of our augmented models on a publicly accessible dataset used for benchmarking click-through rate prediction models. Our results show that several proposed embedding modules provide an important increase in predictive performance without a drastic increase in training time. | 翻訳日:2022-09-21 18:54:34 公開日:2022-09-20 |
# 補完ラベル学習から確率推定への還元 Reduction from Complementary-Label Learning to Probability Estimates ( http://arxiv.org/abs/2209.09500v1 ) ライセンス: Link先を確認 | Wei-I Lin, Hsuan-Tien Lin | (参考訳) 補完ラベル学習 (Complementary-Label Learning, CLL) は、補完ラベルのみから多クラス分類器を学習することを目的とした、弱い教師付き学習問題である。
既存のアプローチは主に通常の分類への還元のパラダイムを採用しており、CLLを通常の分類に戻すために特定の変換を適用し、損失を補う。
しかし、これらのアプローチは、過度に適合する傾向や深いモデルに縛られる傾向など、いくつかの制限に直面している。
本稿では,これらの制約を新たな視点,すなわち補足クラスの確率推定への還元に脇取りする。
補ラベルの正確な確率推定は、簡単な復号化ステップを通じて、良い分類器をもたらすことが証明される。
この証明は、CLLから確率推定への還元フレームワークを確立する。
このフレームワークは、いくつかの重要なCLLアプローチを特別なケースとして説明し、ノイズの多い環境でより堅牢な改良アルゴリズムを設計できるようにします。
このフレームワークはまた、確率推定の質に基づいた検証手順も提案しており、補完ラベルのみを持つモデルを検証する別の方法に繋がる。
フレキシブルフレームワークは、CLL問題を解くために、確率推定のためにディープモデルとノンディープモデルを使用する幅広い未探索の機会を開放する。
実験により、様々な環境でのフレームワークの有効性と堅牢性をさらに検証した。 Complementary-Label Learning (CLL) is a weakly-supervised learning problem that aims to learn a multi-class classifier from only complementary labels, which indicate a class to which an instance does not belong. Existing approaches mainly adopt the paradigm of reduction to ordinary classification, which applies specific transformations and surrogate losses to connect CLL back to ordinary classification. Those approaches, however, face several limitations, such as the tendency to overfit or be hooked on deep models. In this paper, we sidestep those limitations with a novel perspective--reduction to probability estimates of complementary classes. We prove that accurate probability estimates of complementary labels lead to good classifiers through a simple decoding step. The proof establishes a reduction framework from CLL to probability estimates. The framework offers explanations of several key CLL approaches as its special cases and allows us to design an improved algorithm that is more robust in noisy environments. The framework also suggests a validation procedure based on the quality of probability estimates, leading to an alternative way to validate models with only complementary labels. The flexible framework opens a wide range of unexplored opportunities in using deep and non-deep models for probability estimates to solve the CLL problem. Empirical experiments further verified the framework's efficacy and robustness in various settings. | 翻訳日:2022-09-21 18:54:19 公開日:2022-09-20 |
# ナイーブベイズの判別力を高める Boosting the Discriminant Power of Naive Bayes ( http://arxiv.org/abs/2209.09532v1 ) ライセンス: Link先を確認 | Shihe Wang, Jianfeng Ren, Xiaoyu Lian, Ruibin Bai, Xudong Jiang | (参考訳) Naive Bayesは、数値データと分類データの両方を扱う単純さと能力のため、多くのアプリケーションで広く使われている。
しかし、特徴間の相関関係のモデル化の欠如は性能を制限している。
さらに、実世界のデータセットのノイズと外れ値も、分類性能を著しく低下させる。
本稿では,スタック自動エンコーダを用いて,データ中のノイズを低減し,ベイズの判別力を高める特徴拡張手法を提案する。
提案するスタックオートエンコーダは,異なる目的で2つのオートエンコーダで構成される。
第1エンコーダは、ノイズと冗長情報を除去するために、初期特徴を縮小してコンパクトな特徴表現を導出する。
第2のエンコーダは、それらを高次元の空間に拡張することで特徴の判別力を高めるので、異なる種類のサンプルを高次元の空間でより分離することができる。
提案手法を正規化したナイーブベイズと統合することにより,モデルの識別能力が大幅に向上した。
提案手法は,機械学習ベンチマークデータセットのセット上で評価される。
実験結果から,提案手法は最先端のベイズ分類器よりも大きく,かつ一貫した性能を示した。 Naive Bayes has been widely used in many applications because of its simplicity and ability in handling both numerical data and categorical data. However, lack of modeling of correlations between features limits its performance. In addition, noise and outliers in the real-world dataset also greatly degrade the classification performance. In this paper, we propose a feature augmentation method employing a stack auto-encoder to reduce the noise in the data and boost the discriminant power of naive Bayes. The proposed stack auto-encoder consists of two auto-encoders for different purposes. The first encoder shrinks the initial features to derive a compact feature representation in order to remove the noise and redundant information. The second encoder boosts the discriminant power of the features by expanding them into a higher-dimensional space so that different classes of samples could be better separated in the higher-dimensional space. By integrating the proposed feature augmentation method with the regularized naive Bayes, the discrimination power of the model is greatly enhanced. The proposed method is evaluated on a set of machine-learning benchmark datasets. The experimental results show that the proposed method significantly and consistently outperforms the state-of-the-art naive Bayes classifiers. | 翻訳日:2022-09-21 18:53:58 公開日:2022-09-20 |
# ジェンダーワージギャップの閉鎖--求職勧告における相手の公正性 Closing the Gender Wage Gap: Adversarial Fairness in Job Recommendation ( http://arxiv.org/abs/2209.09592v1 ) ライセンス: Link先を確認 | Clara Rus, Jeffrey Luppes, Harrie Oosterhuis, Gido H. Schoenmacker | (参考訳) 本研究の目的は、求職者の履歴書に基づいて、偏見のない求人推薦を提供することで、既存の男女賃金格差を緩和することである。
我々は,1200万のジョブ空白テキストと900万の履歴書のword2vec表現からジェンダーバイアスを取り除くために,生成型adversarial networkを用いる。
その結果,採用テキストから生成された表現にはアルゴリズム的バイアスが伴い,このバイアスはレコメンデーションシステムに現実的な結果をもたらすことがわかった。
偏りをコントロールできなければ、女性は私たちのデータでかなり低い給与で推奨される仕事です。
反対に公正な表現では、この賃金格差は消滅し、偏った雇用勧告によって賃金差別が減ることを意味する。
単語表現の逆偏りは、システムの現実的公正性を高めることができるため、公平性を考慮したレコメンデーションシステムを構築するためのソリューションの一部である可能性がある。 The goal of this work is to help mitigate the already existing gender wage gap by supplying unbiased job recommendations based on resumes from job seekers. We employ a generative adversarial network to remove gender bias from word2vec representations of 12M job vacancy texts and 900k resumes. Our results show that representations created from recruitment texts contain algorithmic bias and that this bias results in real-world consequences for recommendation systems. Without controlling for bias, women are recommended jobs with significantly lower salary in our data. With adversarially fair representations, this wage gap disappears, meaning that our debiased job recommendations reduce wage discrimination. We conclude that adversarial debiasing of word representations can increase real-world fairness of systems and thus may be part of the solution for creating fairness-aware recommendation systems. | 翻訳日:2022-09-21 18:53:40 公開日:2022-09-20 |
# データ検証のための形状制約型回帰アルゴリズムの比較 Comparing Shape-Constrained Regression Algorithms for Data Validation ( http://arxiv.org/abs/2209.09602v1 ) ライセンス: Link先を確認 | Florian Bachinger, Gabriel Kronberger | (参考訳) 産業や科学の応用は、人間の手作業による検証が不可能な大量のデータを扱う。
したがって、データ品質の信頼性の高い評価を行うためには、ドメインエキスパートの事前知識を考慮可能な自動データ検証アプローチが必要である。
以前の知識はしばしば、ターゲットに関する入力の相互作用を記述する規則として利用され、例えば、ターゲットは、入力値の増大に対して単調に減少し、凸である必要がある。
ドメインの専門家は一度に複数のインタラクションを検証することができます。
しかし、既存のルールベースのデータ検証アプローチでは、これらの制約を考慮できない。
本研究では,その分類精度と実行時性能に基づいて,データ検証のための異なる形状制約付き回帰アルゴリズムを比較する。 Industrial and scientific applications handle large volumes of data that render manual validation by humans infeasible. Therefore, we require automated data validation approaches that are able to consider the prior knowledge of domain experts to produce dependable, trustworthy assessments of data quality. Prior knowledge is often available as rules that describe interactions of inputs with regard to the target e.g. the target must be monotonically decreasing and convex over increasing input values. Domain experts are able to validate multiple such interactions at a glance. However, existing rule-based data validation approaches are unable to consider these constraints. In this work, we compare different shape-constrained regression algorithms for the purpose of data validation based on their classification accuracy and runtime performance. | 翻訳日:2022-09-21 18:53:23 公開日:2022-09-20 |
# MAC: 機能学習と再結合のためのメタ学習アプローチ MAC: A Meta-Learning Approach for Feature Learning and Recombination ( http://arxiv.org/abs/2209.09613v1 ) ライセンス: Link先を確認 | S. Tiwari, M. Gogoi, S. Verma, K.P. Singh | (参考訳) 最適化ベースのメタ学習は、いくつかのグラデーションアップデートで新しい見えないタスクを学習できるように初期化を学ぶことを目的としている。
Model Agnostic Meta-Learning (MAML) は2つの最適化ループからなるベンチマークアルゴリズムである。
内部ループは新しいタスクの学習に特化しており、外部ループはメタ初期化に繋がる。
しかし、ANILアルゴリズム(ほとんど内部ループなし)は、機能再利用がMAMLにおける迅速な学習の代替であることを示している。
したがって、メタ初期化フェーズにより、MAMLは機能の再利用を前提とし、迅速な学習の必要性を回避できる。
ANILとは対照的に、メタテスト中に新しい機能を学ぶ必要があるかもしれないという仮説を立てる。
非類似分布からの新たな見えないタスクは、既存の機能の再利用と再結合に加えて、迅速な学習を必要とする。
本稿では,ニューラルネットワークの幅深双対性に着目し,余分な計算単位(acu)を追加することにより,ネットワークの幅を増加させる。
ACUはメタテストタスクにおける新しい原子の特徴の学習を可能にし、関連する拡張幅はフォワードパスにおける情報伝達を容易にする。
新しい学習機能は、メタ学習のための最後のレイヤにある既存の機能と組み合わせられる。
実験結果から,提案手法は,非類似タスク分布に対する既存のANILアルゴリズムを約13%向上させた(5ショットタスク設定)。 Optimization-based meta-learning aims to learn an initialization so that a new unseen task can be learned within a few gradient updates. Model Agnostic Meta-Learning (MAML) is a benchmark algorithm comprising two optimization loops. The inner loop is dedicated to learning a new task and the outer loop leads to meta-initialization. However, ANIL (almost no inner loop) algorithm shows that feature reuse is an alternative to rapid learning in MAML. Thus, the meta-initialization phase makes MAML primed for feature reuse and obviates the need for rapid learning. Contrary to ANIL, we hypothesize that there may be a need to learn new features during meta-testing. A new unseen task from non-similar distribution would necessitate rapid learning in addition reuse and recombination of existing features. In this paper, we invoke the width-depth duality of neural networks, wherein, we increase the width of the network by adding extra computational units (ACU). The ACUs enable the learning of new atomic features in the meta-testing task, and the associated increased width facilitates information propagation in the forwarding pass. The newly learnt features combine with existing features in the last layer for meta-learning. Experimental results show that our proposed MAC method outperformed existing ANIL algorithm for non-similar task distribution by approximately 13% (5-shot task setting) | 翻訳日:2022-09-21 18:53:15 公開日:2022-09-20 |
# 脳病変検出のためのビューディスタングル変換器 View-Disentangled Transformer for Brain Lesion Detection ( http://arxiv.org/abs/2209.09657v1 ) ライセンス: Link先を確認 | Haofeng Li, Junjia Huang, Guanbin Li, Zhou Liu, Yihong Zhong, Yingying Chen, Yunfei Wang, Xiang Wan | (参考訳) ディープニューラルネットワーク(DNN)は脳病変の検出とセグメンテーションに広く採用されている。
しかし, 2次元MRIスライスにおける小さな病変の発見は困難であり, 3次元コンテキストアグリゲーションの粒度と計算複雑性のバランスをとる必要がある。
本稿では,より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディスタングル変換器を提案する。
まず,提案するトランスフォーマは3次元脳スキャンにおいて,異なる位置間の長距離相関を推定する。
第二に、変換器は複数の2次元ビューとしてスライス特徴のスタックをモデル化し、これら特徴のビュー・バイ・ビューを強化し、ほぼ効率的に3次元相関計算を実現する。
第3に,提案するトランスフォーマーモジュールをトランスフォーマーバックボーンに配置し,脳病変周辺の2次元領域を効果的に検出する。
実験の結果,提案手法は難易度の高い脳mriデータにおいて脳病変検出に有効であることがわかった。 Deep neural networks (DNNs) have been widely adopted in brain lesion detection and segmentation. However, locating small lesions in 2D MRI slices is challenging, and requires to balance between the granularity of 3D context aggregation and the computational complexity. In this paper, we propose a novel view-disentangled transformer to enhance the extraction of MRI features for more accurate tumour detection. First, the proposed transformer harvests long-range correlation among different positions in a 3D brain scan. Second, the transformer models a stack of slice features as multiple 2D views and enhance these features view-by-view, which approximately achieves the 3D correlation computing in an efficient way. Third, we deploy the proposed transformer module in a transformer backbone, which can effectively detect the 2D regions surrounding brain lesions. The experimental results show that our proposed view-disentangled transformer performs well for brain lesion detection on a challenging brain MRI dataset. | 翻訳日:2022-09-21 18:46:45 公開日:2022-09-20 |
# 視覚障害者のコンピュータビジョンに基づく指導のための評価フレームワーク Evaluation Framework for Computer Vision-Based Guidance of the Visually Impaired ( http://arxiv.org/abs/2209.09676v1 ) ライセンス: Link先を確認 | Kre\v{s}imir Romi\'c, Irena Gali\'c, Marija Habijan, Hrvoje Leventi\'c | (参考訳) 視覚障害者は日常運動に重大な問題を抱えている。
そのため、これまでの研究では、視覚障害者を危機的状況に導く支援システムの開発にコンピュータビジョンが関与していた。
これらの状況の中には、道路横断歩道や屋内・屋外の階段などが含まれる。
本稿では,コンピュータビジョンに基づく視覚障害者の視覚障害者指導のための評価枠組みを提案する。
プレゼンテーションフレームワークには、指示指示のための参照人間の決定をラベル付けし、記憶するためのインタフェースが含まれており、それらをコンピュータビジョンに基づく決定と比較する。
この研究分野における厳密な評価手法は明確に定義されておらず、視覚障害者への情報伝達の具体的特徴から、特定簡易誘導指示の評価基準が提案されている。 Visually impaired persons have significant problems in their everyday movement. Therefore, some of our previous work involves computer vision in developing assistance systems for guiding the visually impaired in critical situations. Some of those situations includes crosswalks on road crossings and stairs in indoor and outdoor environment. This paper presents an evaluation framework for computer vision-based guiding of the visually impaired persons in such critical situations. Presented framework includes the interface for labeling and storing referent human decisions for guiding directions and compares them to computer vision-based decisions. Since strict evaluation methodology in this research field is not clearly defined and due to the specifics of the transfer of information to visually impaired persons, evaluation criterion for specific simplified guiding instructions is proposed. | 翻訳日:2022-09-21 18:46:28 公開日:2022-09-20 |
# GANet:動き予測のためのゴールエリアネットワーク GANet: Goal Area Network for Motion Forecasting ( http://arxiv.org/abs/2209.09723v1 ) ライセンス: Link先を確認 | Mingkun Wang, Xinge Zhu, Changqian Yu, Wei Li, Yuexin Ma, Ruochun Jin, Xiaoguang Ren, Dongchun Ren, Mingxu Wang, Wenjing Yang | (参考訳) 道路参加者の将来の動きを予測することは自動運転に不可欠であるが、停滞する動きの不確実性のために非常に困難である。
近年,動き予測手法のほとんどがゴールベースの戦略、すなわち動き軌道の終端を全体軌道を後退させる条件として予測することで,解の探索空間を縮小できる。
しかし、正確なゴール座標は予測と評価が難しい。
さらに、目的地のポイント表現は、豊かな道路コンテキストの利用を制限するため、多くの場合、不正確な予測結果をもたらす。
ゴール領域、すなわちゴール座標ではなく目的地領域は、より寛容さとガイダンスを伴って潜在的な軌道を探すためのよりソフトな制約を与えることができる。
そこで我々は,軌道予測の前提条件として,正確な目標座標ではなく,目標領域をモデル化し,より堅牢かつ正確に動作させる,動き予測用ゴールエリアネットワーク(GANet)を提案する。
具体的には,ゴール領域における意味的レーン特徴を効果的に抽出し,モデルアクターの将来の相互作用をモデル化するgoicrop(goal area of interest)オペレータを提案する。
GANetは、Argoverse Challengeのリーダーボードで、すべての公開文学の中で第1位にランクインしている(論文の提出まで)。 Predicting the future motion of road participants is crucial for autonomous driving but is extremely challenging due to staggering motion uncertainty. Recently, most motion forecasting methods resort to the goal-based strategy, i.e., predicting endpoints of motion trajectories as conditions to regress the entire trajectories, so that the search space of solution can be reduced. However, accurate goal coordinates are hard to predict and evaluate. In addition, the point representation of the destination limits the utilization of a rich road context, leading to inaccurate prediction results in many cases. Goal area, i.e., the possible destination area, rather than goal coordinate, could provide a more soft constraint for searching potential trajectories by involving more tolerance and guidance. In view of this, we propose a new goal area-based framework, named Goal Area Network (GANet), for motion forecasting, which models goal areas rather than exact goal coordinates as preconditions for trajectory prediction, performing more robustly and accurately. Specifically, we propose a GoICrop (Goal Area of Interest) operator to effectively extract semantic lane features in goal areas and model actors' future interactions, which benefits a lot for future trajectory estimations. GANet ranks the 1st on the leaderboard of Argoverse Challenge among all public literature (till the paper submission), and its source codes will be released. | 翻訳日:2022-09-21 18:46:18 公開日:2022-09-20 |
# 複数のGANを用いた熱赤外画像における車両検出精度の向上 Enhancing vehicle detection accuracy in thermal infrared images using multiple GANs ( http://arxiv.org/abs/2209.09808v1 ) ライセンス: Link先を確認 | Shivom Bhargava and Pranamesh Chakraborty | (参考訳) 車両検出精度は良好な照度条件では極めて高いが、低照度条件では検出精度が低くなる。
車両ヘッドライトやテールライトからの低照度とグラアの複合効果により、車両検出の失敗は最先端の物体検出モデルにより起こりやすい。
しかし、熱赤外画像は照明変化に頑健であり、熱放射に基づいている。
近年,画像ドメイン転送タスクにおいてGAN(Generative Adversarial Networks)が広く利用されている。
最先端のGANモデルは、赤外線画像から日中RGB画像に変換することにより、夜間における車両検出精度の向上を図っている。
しかし、これらのモデルでは、昼間のモデルに比べて夜間の条件下では性能が低かった。
そこで本研究では,日時と夜間の赤外画像の特徴分布ギャップを低減するために,GANモデルの組み合わせによる3つの異なるアプローチを提案することにより,この欠点を軽減することを試みた。
提案モデルと最先端モデルを比較するための定量的解析は、最先端オブジェクト検出モデルを用いてモデルをテストすることによって行われている。
定量的および定性的な分析により,提案モデルが夜間の車両検出において最先端のganモデルよりも優れており,提案モデルの有効性が示された。 Vehicle detection accuracy is fairly accurate in good-illumination conditions but susceptible to poor detection accuracy under low-light conditions. The combined effect of low-light and glare from vehicle headlight or tail-light results in misses in vehicle detection more likely by state-of-the-art object detection models. However, thermal infrared images are robust to illumination changes and are based on thermal radiations. Recently, Generative Adversarial Networks (GANs) have been extensively used in image domain transfer tasks. State-of-the-art GAN models have attempted to improve vehicle detection accuracy in night-time by converting infrared images to day-time RGB images. However, these models have been found to under-perform during night-time conditions compared to day-time conditions. Therefore, this study attempts to alleviate this shortcoming by proposing three different approaches based on combination of GAN models at two different levels that tries to reduce the feature distribution gap between day-time and night-time infrared images. Quantitative analysis to compare the performance of the proposed models with the state-of-the-art models have been done by testing the models using state-of-the-art object detection models. Both the quantitative and qualitative analyses have shown that the proposed models outperform the state-of-the-art GAN models for vehicle detection in night-time conditions, showing the efficacy of the proposed models. | 翻訳日:2022-09-21 18:45:52 公開日:2022-09-20 |
# スマートデータ選択によるリプレイベース連続セマンティックセグメンテーションの改善 Improving Replay-Based Continual Semantic Segmentation with Smart Data Selection ( http://arxiv.org/abs/2209.09839v1 ) ライセンス: Link先を確認 | Tobias Kalb, Bj\"orn Mauthe, J\"urgen Beyerer | (参考訳) セマンティックセグメンテーション(CSS)の継続的な学習は急速に発展し、セグメンテーションモデルの能力は、新しいクラスや新しいドメインを学ぶことによって徐々に改善される。
連続学習における中心的な課題は破滅的な忘れ込みの影響を克服することであり、これはモデルが新しいクラスやドメインでトレーニングされた後、学習したタスクに対する突然の正確さの低下を指す。
連続的な分類では、この課題は以前のタスクから少数のサンプルをリプレイすることで克服されることが多いが、CSSではリプレイはほとんど考慮されない。
そこで本研究では,セマンティクスセグメンテーションにおける様々なリプレイ戦略の影響を調査し,それらをクラス・インクリメンタル・セグメンテーションで評価する。
本研究は,クラス増分設定において,バッファ内の異なるクラスに対して一様分布を達成し,新たに学習したクラスに対するバイアスを回避することが重要であることを示唆する。
ドメインインクリメンタルな設定では、学習した特徴表現の分布から一様にサンプリングしたり、中央値のエントロピーを持つサンプルを選択することでバッファサンプルを選択することが最も効果的である。
最後に, 実効サンプリング手法は, 初期層における表現シフトを著しく減少させるのに有効であることが観察された。 Continual learning for Semantic Segmentation (CSS) is a rapidly emerging field, in which the capabilities of the segmentation model are incrementally improved by learning new classes or new domains. A central challenge in Continual Learning is overcoming the effects of catastrophic forgetting, which refers to the sudden drop in accuracy on previously learned tasks after the model is trained on new classes or domains. In continual classification this challenge is often overcome by replaying a small selection of samples from previous tasks, however replay is rarely considered in CSS. Therefore, we investigate the influences of various replay strategies for semantic segmentation and evaluate them in class- and domain-incremental settings. Our findings suggest that in a class-incremental setting, it is critical to achieve a uniform distribution for the different classes in the buffer to avoid a bias towards newly learned classes. In the domain-incremental setting, it is most effective to select buffer samples by uniformly sampling from the distribution of learned feature representations or by choosing samples with median entropy. Finally, we observe that the effective sampling methods help to decrease the representation shift significantly in early layers, which is a major cause of forgetting in domain-incremental learning. | 翻訳日:2022-09-21 18:45:33 公開日:2022-09-20 |
# 物体検出のための知識蒸留におけるデータ拡張の再考 Rethinking Data Augmentation in Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2209.09841v1 ) ライセンス: Link先を確認 | Jiawei Liang, Siyuan Liang, Aishan Liu, Mingli Zhu, Danni Yuan, Chenye Xu, Xiaochun Cao | (参考訳) 知識蒸留(KD)は、AI知識(教師検出器)と人間の知識(人間専門家)の両方の監督の下で、コンパクトな物体検出器を訓練する。
しかし、既存の研究では、AIの知識と人間の知識を一貫して扱い、学習中に均一なデータ拡張戦略を採用することで、マルチスケールオブジェクトのバイアス学習と、不満足な蒸留性能を引き起こす教師検出のための不十分な学習につながる。
これらの問題に対処するため,サンプル固有のデータ拡張と対角的特徴増強を提案する。
まず,マルチスケールオブジェクトによる影響を軽減するために,フーリエの観点からの観測に基づく適応的データ拡張を提案する。
第2に,教師検出器の情報マイニングの不十分さを補うために,AI知識を模倣するための逆例に基づく機能拡張手法を提案する。
さらに,提案手法は統一され,他のKD法にも容易に拡張できる。
広範な実験により,1段階および2段階の検出器において,フレームワークの有効性を実証し,最先端の手法の性能を改善した。 Knowledge distillation (KD) has shown its effectiveness for object detection, where it trains a compact object detector under the supervision of both AI knowledge (teacher detector) and human knowledge (human expert). However, existing studies treat the AI knowledge and human knowledge consistently and adopt a uniform data augmentation strategy during learning, which would lead to the biased learning of multi-scale objects and insufficient learning for the teacher detector causing unsatisfactory distillation performance. To tackle these problems, we propose the sample-specific data augmentation and adversarial feature augmentation. Firstly, to mitigate the impact incurred by multi-scale objects, we propose an adaptive data augmentation based on our observations from the Fourier perspective. Secondly, we propose a feature augmentation method based on adversarial examples for better mimicking AI knowledge to make up for the insufficient information mining of the teacher detector. Furthermore, our proposed method is unified and easily extended to other KD methods. Extensive experiments demonstrate the effectiveness of our framework and improve the performance of state-of-the-art methods in one-stage and two-stage detectors, bringing at most 0.5 mAP gains. | 翻訳日:2022-09-21 18:45:09 公開日:2022-09-20 |
# 周波数降下:ランダムフィルタによる特徴レベル正規化 Frequency Dropout: Feature-Level Regularization via Randomized Filtering ( http://arxiv.org/abs/2209.09844v1 ) ライセンス: Link先を確認 | Mobarakol Islam and Ben Glocker | (参考訳) 深層畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて顕著な性能を示してきたが、トレーニング信号から急激な相関関係を拾うことができる。
いわゆる「ショートカット」は、例えば、出力予測と相関する画像データに特定の周波数が存在する場合、学習中に発生する。
高周波数と低周波数は、画像内容に関するタスク関連情報よりも、画像取得によって引き起こされる基礎的なノイズ分布に特徴付けられる。
この特性ノイズに関する特徴を学習するモデルは、新しいデータにうまく一般化しません。
本研究では、畳み込みニューラルネットワークが周波数固有の画像特徴を学習するのを防ぐため、シンプルで効果的なトレーニング戦略である周波数降下法を提案する。
我々は,機能レベルの正規化として機能する特徴マップをランダムにフィルタリングする。
本研究ではgaussian smoothing, laplacian of gaussian, gabor filterなどの画像処理フィルタについて検討する。
私たちのトレーニング戦略はモデルに依存しず、あらゆるコンピュータビジョンタスクに使用できる。
本研究では,画像分類,ドメイン適応,意味セグメンテーションなどのタスクにおいて,コンピュータビジョンと医用画像データセットの双方を用いた周波数ドロップアウトの有効性を示す。
提案手法は,予測精度の向上だけでなく,ドメインシフトに対する堅牢性の向上も示唆している。 Deep convolutional neural networks have shown remarkable performance on various computer vision tasks, and yet, they are susceptible to picking up spurious correlations from the training signal. So called `shortcuts' can occur during learning, for example, when there are specific frequencies present in the image data that correlate with the output predictions. Both high and low frequencies can be characteristic of the underlying noise distribution caused by the image acquisition rather than in relation to the task-relevant information about the image content. Models that learn features related to this characteristic noise will not generalize well to new data. In this work, we propose a simple yet effective training strategy, Frequency Dropout, to prevent convolutional neural networks from learning frequency-specific imaging features. We employ randomized filtering of feature maps during training which acts as a feature-level regularization. In this study, we consider common image processing filters such as Gaussian smoothing, Laplacian of Gaussian, and Gabor filtering. Our training strategy is model-agnostic and can be used for any computer vision task. We demonstrate the effectiveness of Frequency Dropout on a range of popular architectures and multiple tasks including image classification, domain adaptation, and semantic segmentation using both computer vision and medical imaging datasets. Our results suggest that the proposed approach does not only improve predictive accuracy but also improves robustness against domain shift. | 翻訳日:2022-09-21 18:44:48 公開日:2022-09-20 |
# {\alpha}-skew Jensen-Shannon 拡散を伴うソルダー継手のきめ細かい分類 Fine-grained Classification of Solder Joints with {\alpha}-skew Jensen-Shannon Divergence ( http://arxiv.org/abs/2209.09857v1 ) ライセンス: Link先を確認 | Furkan Ulger, Seniha Esen Yuksel, Atila Yilmaz, and Dincer Gokcen | (参考訳) はんだ接合検査(sji)はプリント基板(pcb)の製造において重要な工程である。
SJIにおける破断誤差の検出は非常に困難であり, 破断継手は非常に小さく, 形状も様々である。
本研究では,まず,半田が特徴多様性が低いこと,SJIが難易度の高いオブジェクトクラスに着目したきめ細かな画像分類タスクとして実行可能であることを示す。
詳細な分類精度を向上させるために,エントロピーの最大化による信頼度モデル予測が文献で有用であった。
この情報に基づいて,モデル予測の信頼性を証明するために, {\alpha}-skew Jensen-Shannon divergence ({\alpha}-JS) を提案する。
α}-js正則化と既存のエントロピーレギュライゼーションベース法と,注意機構,セグメンテーション手法,トランスフォーマモデル,および細粒度画像分類タスクにおける特定の損失関数に基づく手法を比較した。
提案手法は, きめ細かな半田関節分類タスクにおいて, 異なるモデルのF1スコアと競争精度を最大化できることを示す。
最後に、アクティベーションマップを可視化し、エントロピー正規化により、より正確なクラス判別領域が局所化され、ノイズにも耐性があることを示す。
コードは受理次第、ここで入手できる。 Solder joint inspection (SJI) is a critical process in the production of printed circuit boards (PCB). Detection of solder errors during SJI is quite challenging as the solder joints have very small sizes and can take various shapes. In this study, we first show that solders have low feature diversity, and that the SJI can be carried out as a fine-grained image classification task which focuses on hard-to-distinguish object classes. To improve the fine-grained classification accuracy, penalizing confident model predictions by maximizing entropy was found useful in the literature. Inline with this information, we propose using the {\alpha}-skew Jensen-Shannon divergence ({\alpha}-JS) for penalizing the confidence in model predictions. We compare the {\alpha}-JS regularization with both existing entropyregularization based methods and the methods based on attention mechanism, segmentation techniques, transformer models, and specific loss functions for fine-grained image classification tasks. We show that the proposed approach achieves the highest F1-score and competitive accuracy for different models in the finegrained solder joint classification task. Finally, we visualize the activation maps and show that with entropy-regularization, more precise class-discriminative regions are localized, which are also more resilient to noise. Code will be made available here upon acceptance. | 翻訳日:2022-09-21 18:44:28 公開日:2022-09-20 |
# 生成的敵攻撃における多目的シーンの局所パッチ差の活用 Leveraging Local Patch Differences in Multi-Object Scenes for Generative Adversarial Attacks ( http://arxiv.org/abs/2209.09883v1 ) ライセンス: Link先を確認 | Abhishek Aich, Shasha Li, Chengyu Song, M. Salman Asif, Srikanth V. Krishnamurthy, Amit K. Roy-Chowdhury | (参考訳) 画像分類器に対する最先端の生成モデルに基づく攻撃は、単一のオブジェクト(すなわち単一の支配的オブジェクト)イメージに圧倒的に焦点を当てている。
このような設定と異なり、現実のシーンを代表している多目的画像(つまり、複数の支配的物体)を用いて、対向的摂動を生成するというより実践的な問題に取り組む。
私たちの目標は、このような画像に固有の局所パッチの違い(例えば、オブジェクトの「人」の局所パッチと、トラフィックシーンの「バイク」のオブジェクトの違い)を利用して、このような自然なシーンから学ぶことができる攻撃戦略を設計することです。
敵のマルチオブジェクトイメージを誤分類するには、イメージ内の各ローカルパッチが被害者の分類器を混乱させる必要があります。
そこで本研究では,マルチオブジェクトシーンの特徴空間の局所的な差異を利用して摂動生成を最適化する,新たな生成的攻撃(ローカルパッチ差(LPD-Attack))を提案する。
様々な被害者畳み込みニューラルネットワークの様々な実験を通して,ホワイトボックスとブラックボックスの設定で評価した場合,本手法がベースライン生成攻撃よりも高い摂動特性を持つことを示す。 State-of-the-art generative model-based attacks against image classifiers overwhelmingly focus on single-object (i.e., single dominant object) images. Different from such settings, we tackle a more practical problem of generating adversarial perturbations using multi-object (i.e., multiple dominant objects) images as they are representative of most real-world scenes. Our goal is to design an attack strategy that can learn from such natural scenes by leveraging the local patch differences that occur inherently in such images (e.g. difference between the local patch on the object `person' and the object `bike' in a traffic scene). Our key idea is: to misclassify an adversarial multi-object image, each local patch in the image should confuse the victim classifier. Based on this, we propose a novel generative attack (called Local Patch Difference or LPD-Attack) where a novel contrastive loss function uses the aforesaid local differences in feature space of multi-object scenes to optimize the perturbation generator. Through various experiments across diverse victim convolutional neural networks, we show that our approach outperforms baseline generative attacks with highly transferable perturbations when evaluated under different white-box and black-box settings. | 翻訳日:2022-09-21 18:44:03 公開日:2022-09-20 |
# 最適化によるビット割り当て Bit Allocation using Optimization ( http://arxiv.org/abs/2209.09422v1 ) ライセンス: Link先を確認 | Tongda Xu, Han Gao, Chenjian Gao, Jinyong Pi, Yanghao Li, Yuanyuan Wang, Ziyu Zhu, Dailan He, Mao Ye, Hongwei Qin, Yan Wang | (参考訳) 本稿では,ニューラルビデオ圧縮(NVC)におけるビット割り当ての問題について考察する。
フレーム参照構造のため、全てのフレームに対して同じr-d (rate-distortion) トレードオフパラメータである$\lambda$を使用する現在のnvcメソッドは最適ではないため、ビット割り当てが必要となる。
経験的R-Dモデルに基づく従来の手法とは異なり、勾配に基づく最適化によりこの問題を解決することを提案する。
具体的には,Semi-Amortized Variational Inference (SAVI)に基づく連続ビット実装手法を提案する。
次に,saviターゲットの変更による反復最適化を用いた画素レベルの暗黙的ビット割当法を提案する。
さらに,NVCの微分可能特性に基づいて,高精度なR-Dモデルを導出する。
また, 正確なR-Dモデルを用いて, ビット割り当てと等価性を証明し, 提案手法の最適性を示す。
実験の結果,提案手法はNVC法を大幅に改善し,既存のビット割り当て法より優れていた。
我々のアプローチは、すべての異なるNVCメソッドに対してプラグイン・アンド・プレイであり、既存の事前学習モデルに直接適用することができる。 In this paper, we consider the problem of bit allocation in neural video compression (NVC). Due to the frame reference structure, current NVC methods using the same R-D (Rate-Distortion) trade-off parameter $\lambda$ for all frames are suboptimal, which brings the need for bit allocation. Unlike previous methods based on heuristic and empirical R-D models, we propose to solve this problem by gradient-based optimization. Specifically, we first propose a continuous bit implementation method based on Semi-Amortized Variational Inference (SAVI). Then, we propose a pixel-level implicit bit allocation method using iterative optimization by changing the SAVI target. Moreover, we derive the precise R-D model based on the differentiable trait of NVC. And we show the optimality of our method by proofing its equivalence to the bit allocation with precise R-D model. Experimental results show that our approach significantly improves NVC methods and outperforms existing bit allocation methods. Our approach is plug-and-play for all differentiable NVC methods, and it can be directly adopted on existing pre-trained models. | 翻訳日:2022-09-21 18:37:50 公開日:2022-09-20 |
# アプリケーション駆動型きめ細かいデータセット設計に基づくデータ中心型AIパラダイム A Data-Centric AI Paradigm Based on Application-Driven Fine-grained Dataset Design ( http://arxiv.org/abs/2209.09449v1 ) ライセンス: Link先を確認 | Huan Hu, Yajie Cui, Zhaoxiang Liu and Shiguo Lian | (参考訳) ディープラーニングは産業シナリオにおいて幅広い応用があるが、偽警報(FA)を減らすことは依然として大きな困難である。
ネットワークアーキテクチャやネットワークパラメータの最適化は、アプリケーションシナリオにおけるデータの本質的な特性を無視しながら、学術的なサークルでのこの問題に対処するために使用される。
本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。
我々は、データおよびアプリケーション要件の本質的な特徴に応じて、正と負のサンプルセットを柔軟に選択し、残りのサンプルを不確実性クラスとしてトレーニングセットに追加する。
実験データとして,さまざまなアプリケーションシナリオをカバーする1万以上のマスク着用認識サンプルを収集した。
従来のデータ設計手法と比較して,本手法はより良い結果が得られ,FAを効果的に低減する。
すべてのコントリビューションを研究コミュニティに提供して,より広範な利用を可能にしています。
コントリビューションはhttps://github.com/huh30/opendatasetsで入手できる。 Deep learning has a wide range of applications in industrial scenario, but reducing false alarm (FA) remains a major difficulty. Optimizing network architecture or network parameters is used to tackle this challenge in academic circles, while ignoring the essential characteristics of data in application scenarios, which often results in increased FA in new scenarios. In this paper, we propose a novel paradigm for fine-grained design of datasets, driven by industrial applications. We flexibly select positive and negative sample sets according to the essential features of the data and application requirements, and add the remaining samples to the training set as uncertainty classes. We collect more than 10,000 mask-wearing recognition samples covering various application scenarios as our experimental data. Compared with the traditional data design methods, our method achieves better results and effectively reduces FA. We make all contributions available to the research community for broader use. The contributions will be available at https://github.com/huh30/OpenDatasets. | 翻訳日:2022-09-21 18:37:32 公開日:2022-09-20 |
# 高分解能サルエント物体検出のための再訪像ピラミッド構造 Revisiting Image Pyramid Structure for High Resolution Salient Object Detection ( http://arxiv.org/abs/2209.09475v1 ) ライセンス: Link先を確認 | Taehun Kim, Kunhee Kim, Joonyeong Lee, Dongmin Cha, Jiho Lee, Daijin Kim | (参考訳) 局所物体検出(SOD)は近年注目されているが,高分解能(HR)画像では研究が進んでいない。
残念なことに、HR画像とそのピクセルレベルのアノテーションは、低解像度(LR)画像やアノテーションに比べて、明らかに労働集約的で時間を要する。
そこで我々は,画像ピラミッドを用いたSODフレームワークInSPyReNetを提案し,HRデータセットを使わずにHR予測を行う。
そこで我々は,inspyrenetをデザインし,saliency mapの厳密な画像ピラミッド構造を作成する。
HR予測のために、同じ画像から一対のLRとHRスケールから2つの異なる画像ピラミッドを合成し、有効受容場(ERF)の差を克服するピラミッドブレンディング法を設計する。
公開LRおよびHR SODベンチマークの広範な評価は、InSPyReNetが様々なSOD測定値と境界精度でState-of-the-Art(SotA)法を上回ることを示した。 Salient object detection (SOD) has been in the spotlight recently, yet has been studied less for high-resolution (HR) images. Unfortunately, HR images and their pixel-level annotations are certainly more labor-intensive and time-consuming compared to low-resolution (LR) images and annotations. Therefore, we propose an image pyramid-based SOD framework, Inverse Saliency Pyramid Reconstruction Network (InSPyReNet), for HR prediction without any of HR datasets. We design InSPyReNet to produce a strict image pyramid structure of saliency map, which enables to ensemble multiple results with pyramid-based image blending. For HR prediction, we design a pyramid blending method which synthesizes two different image pyramids from a pair of LR and HR scale from the same image to overcome effective receptive field (ERF) discrepancy. Our extensive evaluations on public LR and HR SOD benchmarks demonstrate that InSPyReNet surpasses the State-of-the-Art (SotA) methods on various SOD metrics and boundary accuracy. | 翻訳日:2022-09-21 18:37:15 公開日:2022-09-20 |
# 3Dポイントクラウドセグメンテーションのための解釈可能なエッジ強化と抑圧学習 Interpretable Edge Enhancement and Suppression Learning for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2209.09483v1 ) ライセンス: Link先を確認 | Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka | (参考訳) 3Dポイントクラウドは、フレキシブルに連続した表面を表現でき、様々なアプリケーションに使用できるが、構造情報の欠如はポイントクラウド認識を困難にしている。
近年のエッジ認識手法は,学習を容易にするために,局所構造を記述する余分な特徴としてエッジ情報を主に用いている。
これらの手法は、エッジをネットワーク設計に組み込むことが有益であることを示しているが、一般的には解釈可能性に欠けており、エッジがどの程度役立つのか疑問に思う。
そこで本研究では,エッジを解釈可能な方法で処理し,良好な改善を実現する拡散ユニット(DU)を提案する。
我々の方法は3つの方法で解釈できる。
まず,duがタスク指向のエッジ強化と抑制を行うことを理論的に示す。
第2に,エッジの強化と抑制行動を実験的に観察し,検証する。
第3に、この振る舞いがパフォーマンス改善に寄与することを実証的に示します。
挑戦的なベンチマークで行った広範囲な実験は、解釈可能性と性能向上の両方の観点からduの優位性を検証する。
具体的には、ShapeNet部分とS3DISを用いたシーンセグメンテーションを用いて、オブジェクト部分セグメンテーションにおける最先端性能を実現する。
ソースコードはhttps://github.com/martianxiu/diffusionunitで公開します。 3D point clouds can flexibly represent continuous surfaces and can be used for various applications; however, the lack of structural information makes point cloud recognition challenging. Recent edge-aware methods mainly use edge information as an extra feature that describes local structures to facilitate learning. Although these methods show that incorporating edges into the network design is beneficial, they generally lack interpretability, making users wonder how exactly edges help. To shed light on this issue, in this study, we propose the Diffusion Unit (DU) that handles edges in an interpretable manner while providing decent improvement. Our method is interpretable in three ways. First, we theoretically show that DU learns to perform task-beneficial edge enhancement and suppression. Second, we experimentally observe and verify the edge enhancement and suppression behavior. Third, we empirically demonstrate that this behavior contributes to performance improvement. Extensive experiments performed on challenging benchmarks verify the superiority of DU in terms of both interpretability and performance gain. Specifically, our method achieves state-of-the-art performance in object part segmentation using ShapeNet part and scene segmentation using S3DIS. Our source code will be released at https://github.com/martianxiu/DiffusionUnit. | 翻訳日:2022-09-21 18:36:56 公開日:2022-09-20 |
# 単分子擬似LiDARからの自己監督型3次元物体検出 Self-supervised 3D Object Detection from Monocular Pseudo-LiDAR ( http://arxiv.org/abs/2209.09486v1 ) ライセンス: Link先を確認 | Curie Kim, Ue-Hwan Kim, Jong-Hwan Kim | (参考訳) ステレオカメラ画像とLiDARセンサーデータを融合して3Dオブジェクトを検出する試みや、単眼画像のみを事前学習してテストする方法があるが、精度が低いため、単眼画像のみを使用する試みは少ない。
また、単眼画像のみを用いた深度予測では、スケール一貫性のない深さしか予測できないため、研究者が単眼画像のみを使用するのを嫌う理由である。
そこで本研究では,検出ネットワークと深度予測ネットワークのエンドツーエンド学習を可能にすることによって,単眼画像のみを用いた絶対深度予測と3次元物体検出手法を提案する。
その結果,提案手法は,KITTI 3Dデータセット上での他の既存手法を上回る性能を示した。
学習中に単眼画像と3次元ライダーを併用して性能向上を試みても,同一入力を用いた他の手法と比較して,高い性能を示す。
さらに,車などの3次元物体のサイズが近似サイズによって決定されるという事実を利用して,エンド・ツー・エンドの学習により深度予測性能が向上するだけでなく,絶対深度予測が可能となる。 There have been attempts to detect 3D objects by fusion of stereo camera images and LiDAR sensor data or using LiDAR for pre-training and only monocular images for testing, but there have been less attempts to use only monocular image sequences due to low accuracy. In addition, when depth prediction using only monocular images, only scale-inconsistent depth can be predicted, which is the reason why researchers are reluctant to use monocular images alone. Therefore, we propose a method for predicting absolute depth and detecting 3D objects using only monocular image sequences by enabling end-to-end learning of detection networks and depth prediction networks. As a result, the proposed method surpasses other existing methods in performance on the KITTI 3D dataset. Even when monocular image and 3D LiDAR are used together during training in an attempt to improve performance, ours exhibit is the best performance compared to other methods using the same input. In addition, end-to-end learning not only improves depth prediction performance, but also enables absolute depth prediction, because our network utilizes the fact that the size of a 3D object such as a car is determined by the approximate size. | 翻訳日:2022-09-21 18:36:40 公開日:2022-09-20 |
# GAMA: ジェネレーティブな対戦型マルチオブジェクトシーンアタック GAMA: Generative Adversarial Multi-Object Scene Attacks ( http://arxiv.org/abs/2209.09502v1 ) ライセンス: Link先を確認 | Abhishek Aich, Calvin Khang-Ta, Akash Gupta, Chengyu Song, Srikanth V. Krishnamurthy, M. Salman Asif, Amit K. Roy-Chowdhury | (参考訳) 敵攻撃を作ろうという手法の大半は、単一の支配的なオブジェクト(例えばImageNetの画像)を持つシーンに焦点を当てている。
一方、自然のシーンには、意味的に関連づけられた複数の支配的なオブジェクトが含まれている。
したがって、単一オブジェクトシーンの学習を超えた攻撃戦略を設計することや、単一オブジェクトの被害者分類器を攻撃することが重要である。
未知のモデルに対する摂動の強い伝達可能性という本質的性質から,多目的シーンに対する攻撃に対して生成モデルを用いた最初のアプローチを提案する。
入力シーンにおける異なるオブジェクト間の関係を表現するために、私たちは、視覚空間と共に言語空間で符号化された意味論を活用すべく、オープンソースの視覚言語モデルクリップ(contrastive language-image pre-training)を活用しています。
我々はこの攻撃アプローチをGAMA(Generative Adversarial Multi-Object scene Attacks)と呼ぶ。
GAMAは攻撃者のツールとしてCLIPモデルの有用性を実証し、多目的シーンのための強迫性摂動ジェネレータを訓練する。
GAMAは, 共同画像テキスト機能を用いて, 様々な攻撃環境において, 被害者の分類を騙すために, 強力なトランスファー可能な摂動を実現できることを示す。
例えば、gamaは、攻撃者の分類アーキテクチャとデータ分散が被害者と異なるブラックボックス設定において、最先端のジェネレーティブアプローチよりも16%以上の誤分類をトリガーする。
私たちのコードはまもなく公開されます。 The majority of methods for crafting adversarial attacks have focused on scenes with a single dominant object (e.g., images from ImageNet). On the other hand, natural scenes include multiple dominant objects that are semantically related. Thus, it is crucial to explore designing attack strategies that look beyond learning on single-object scenes or attack single-object victim classifiers. Due to their inherent property of strong transferability of perturbations to unknown models, this paper presents the first approach of using generative models for adversarial attacks on multi-object scenes. In order to represent the relationships between different objects in the input scene, we leverage upon the open-sourced pre-trained vision-language model CLIP (Contrastive Language-Image Pre-training), with the motivation to exploit the encoded semantics in the language space along with the visual space. We call this attack approach Generative Adversarial Multi-object scene Attacks (GAMA). GAMA demonstrates the utility of the CLIP model as an attacker's tool to train formidable perturbation generators for multi-object scenes. Using the joint image-text features to train the generator, we show that GAMA can craft potent transferable perturbations in order to fool victim classifiers in various attack settings. For example, GAMA triggers ~16% more misclassification than state-of-the-art generative approaches in black-box settings where both the classifier architecture and data distribution of the attacker are different from the victim. Our code will be made publicly available soon. | 翻訳日:2022-09-21 18:36:20 公開日:2022-09-20 |
# 画像解析のためのグラフ推論変換器 Graph Reasoning Transformer for Image Parsing ( http://arxiv.org/abs/2209.09545v1 ) ライセンス: Link先を確認 | Dong Zhang, Jinhui Tang, and Kwang-Ting Cheng | (参考訳) 長距離依存関係のキャプチャは、幅広いコンピュータビジョンタスクで有効であることが実証されている。
このトピックの進歩的な進歩は、マルチヘッドアテンション機構の助けを借りてトランスフォーマーフレームワークの雇用を通じて行われてきた。
しかしながら、注意に基づくイメージパッチの相互作用は、クラス内パッチの冗長な相互作用とクラス間パッチの非指向的な相互作用の問題に直面する可能性がある。
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
具体的には、線形に埋め込まれた画像パッチをまずグラフ空間に投影し、各ノードは画像パッチのクラスタの暗黙の視覚的中心を表し、各エッジは隣接する2つのノード間の関係重みを反映する。
その後、このグラフ上でグローバルな関係推論を行う。
最後に、関係情報を含む全てのノードは、後続のプロセスのために元の空間にマッピングされる。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
挑戦的なCityscapesとADE20Kデータセットで実験が行われている。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現することがわかった。 Capturing the long-range dependencies has empirically proven to be effective on a wide range of computer vision tasks. The progressive advances on this topic have been made through the employment of the transformer framework with the help of the multi-head attention mechanism. However, the attention-based image patch interaction potentially suffers from problems of redundant interactions of intra-class patches and unoriented interactions of inter-class patches. In this paper, we propose a novel Graph Reasoning Transformer (GReaT) for image parsing to enable image patches to interact following a relation reasoning pattern. Specifically, the linearly embedded image patches are first projected into the graph space, where each node represents the implicit visual center for a cluster of image patches and each edge reflects the relation weight between two adjacent nodes. After that, global relation reasoning is performed on this graph accordingly. Finally, all nodes including the relation information are mapped back into the original space for subsequent processes. Compared to the conventional transformer, GReaT has higher interaction efficiency and a more purposeful interaction pattern. Experiments are carried out on the challenging Cityscapes and ADE20K datasets. Results show that GReaT achieves consistent performance gains with slight computational overheads on the state-of-the-art transformer baselines. | 翻訳日:2022-09-21 18:35:52 公開日:2022-09-20 |
# 画像セグメンテーションのロバスト化に向けて Towards Robust Referring Image Segmentation ( http://arxiv.org/abs/2209.09554v1 ) ライセンス: Link先を確認 | Jianzong Wu, Xiangtai Li, Xia Li, Henghui Ding, Yunhai Tong, Dacheng Tao | (参考訳) Referring Image Segmentation (RIS)は、基本的な視覚言語タスクであるテキスト記述が与えられたオブジェクトマスクを出力することで、画像と言語を接続することを目的としている。
RISでかなりの進歩を遂げた多くの著作にもかかわらず、本書では「記述が間違っていたり、文章の記述を誤解させたりしたらどうするか」という本質的な疑問を探求する。
私たちはそのような文を否定的な文と呼ぶ。
しかし、既存の作業ではそのような設定は処理できない。
この目的のために,ロバスト参照画像セグメンテーション (R-RIS) という新しいRISの定式化を提案する。
通常のテキスト入力に加えて、負の文入力も考慮する。
入力否定文の強化と、両方の入力タイプを統一するための新しいメトリクスによって、3つの異なるデータセットを示す。
さらに,RefSegformerと呼ばれる新しいトランスフォーマーモデルの設計を行い,トークンベースのビジョンと言語融合モジュールを導入する。
このようなモジュールは、余分な空白トークンを追加することで、R-RIS設定に容易に拡張できます。
提案したRefSegformerは,3つの通常のRISデータセットと3つのR-RISデータセットに対して,新たな最先端結果を実現する。
プロジェクトページは \url{https://lxtgh.github.io/project/robust_ref_seg/} にある。 Referring Image Segmentation (RIS) aims to connect image and language via outputting the corresponding object masks given a text description, which is a fundamental vision-language task. Despite lots of works that have achieved considerable progress for RIS, in this work, we explore an essential question, "what if the description is wrong or misleading of the text description?". We term such a sentence as a negative sentence. However, we find that existing works cannot handle such settings. To this end, we propose a novel formulation of RIS, named Robust Referring Image Segmentation (R-RIS). It considers the negative sentence inputs besides the regularly given text inputs. We present three different datasets via augmenting the input negative sentences and a new metric to unify both input types. Furthermore, we design a new transformer-based model named RefSegformer, where we introduce a token-based vision and language fusion module. Such module can be easily extended to our R-RIS setting by adding extra blank tokens. Our proposed RefSegformer achieves the new state-of-the-art results on three regular RIS datasets and three R-RIS datasets, which serves as a new solid baseline for further research. The project page is at \url{https://lxtgh.github.io/project/robust_ref_seg/}. | 翻訳日:2022-09-21 18:35:33 公開日:2022-09-20 |
# 長期的人物識別のための特異な特徴表現のサンプリング Sampling Agnostic Feature Representation for Long-Term Person Re-identification ( http://arxiv.org/abs/2209.09574v1 ) ライセンス: Link先を確認 | Seongyeop Yang, Byeongkeun Kang, Yeejin Lee | (参考訳) 人物再識別は、重複しないカメラで個人を特定する問題である。
再同定問題では顕著な進展がみられてきたが、同一人物の外観変化や類似した人物の出現が問題となっている。
いくつかの先行研究は、正のサンプルの特徴と負のサンプルの特徴を分離することで問題を解決した。
しかし、既存のモデルの性能は、トレーニングに使用するサンプルの特性と統計に大きく依存する。
そこで本稿では,ランダムに選択したサンプルから乱交した特徴の埋め込みを学習する独立頑健な特徴表現ネットワーク~(SirNet)を提案する。
クラスタの同一人物のモデルサンプルに対して、独立して設計した標本化最大一致損失を導入する。
その結果,提案フレームワークは学習した特徴を用いて付加的な強陰性/肯定性を生成することができ,その結果,他者との識別性が向上する。
大規模ベンチマークデータセットの大規模な実験結果から,提案モデルが従来の最先端モデルよりも有効であることが確認された。 Person re-identification is a problem of identifying individuals across non-overlapping cameras. Although remarkable progress has been made in the re-identification problem, it is still a challenging problem due to appearance variations of the same person as well as other people of similar appearance. Some prior works solved the issues by separating features of positive samples from features of negative ones. However, the performances of existing models considerably depend on the characteristics and statistics of the samples used for training. Thus, we propose a novel framework named sampling independent robust feature representation network~(SirNet) that learns disentangled feature embedding from randomly chosen samples. A carefully designed sampling independent maximum discrepancy loss is introduced to model samples of the same person as a cluster. As a result, the proposed framework can generate additional hard negatives/positives using the learned features, which results in better discriminability from other identities. Extensive experimental results on large-scale benchmark datasets verify that the proposed model is more effective than prior state-of-the-art models. | 翻訳日:2022-09-21 18:35:11 公開日:2022-09-20 |
# マルチターゲットマルチカメラ車両追跡のための半自動データアノテーションシステム Semi-automatic Data Annotation System for Multi-Target Multi-Camera Vehicle Tracking ( http://arxiv.org/abs/2209.09606v1 ) ライセンス: Link先を確認 | Haohong Liao, Silin Zheng, Xuelin Shen, Mark Junjie Li and Xu Wang | (参考訳) マルチターゲットマルチカメラトラッキング(MTMCT)は、インテリジェントビデオ分析、監視ビデオ検索、その他のアプリケーションシナリオにおいて重要な役割を果たす。
現在、ディープラーニングベースのMTMCTが主流であり、精度と効率のトラッキングに関して素晴らしい改善を遂げている。
しかし,本研究によると,現実世界のアプリケーションシナリオに着目したデータセットの欠如は,現在の学習ベースTMCTモデルのさらなる改善を妨げている。
特に、一般的なデータセットによる学習ベースのmtmctモデルは、現実世界のアプリケーションシナリオで満足のいく結果を得ることができない。
そこで本稿では,実世界のmtmctデータセット構築を容易にする半自動データアノテーションシステムを提案する。
提案システムは,まず,深層学習に基づく単一カメラトラジェクトリ生成手法を用いて,監視ビデオからトラジェクトリを自動的に抽出する。
その後、システムは以下の手動のクロスカメラ軌道マッチングプロセスで推奨リストを提供する。
推奨リストは、カメラ位置、タイムスタンプ関係、背景シーンなどのサイド情報に基づいて生成される。
実験段階では,提案システムの有効性がさらに証明された。 Multi-target multi-camera tracking (MTMCT) plays an important role in intelligent video analysis, surveillance video retrieval, and other application scenarios. Nowadays, the deep-learning-based MTMCT has been the mainstream and has achieved fascinating improvements regarding tracking accuracy and efficiency. However, according to our investigation, the lacking of datasets focusing on real-world application scenarios limits the further improvements for current learning-based MTMCT models. Specifically, the learning-based MTMCT models training by common datasets usually cannot achieve satisfactory results in real-world application scenarios. Motivated by this, this paper presents a semi-automatic data annotation system to facilitate the real-world MTMCT dataset establishment. The proposed system first employs a deep-learning-based single-camera trajectory generation method to automatically extract trajectories from surveillance videos. Subsequently, the system provides a recommendation list in the following manual cross-camera trajectory matching process. The recommendation list is generated based on side information, including camera location, timestamp relation, and background scene. In the experimental stage, extensive results further demonstrate the efficiency of the proposed system. | 翻訳日:2022-09-21 18:34:55 公開日:2022-09-20 |
# グラフ値の反復 Graph Value Iteration ( http://arxiv.org/abs/2209.09608v1 ) ライセンス: Link先を確認 | Dieqiao Feng, Carla P. Gomes, Bart Selman | (参考訳) 近年、深層強化学習(rl)は、2人のプレイヤーによるゲームや科学的発見など様々な組み合わせ探索領域で成功を収めている。
しかし、計画領域に深いRLを直接適用することは依然として困難である。
最大の難点は、人造ヒューリスティック関数がなければ、学習フレームワークが解決計画を見つけない限り、報酬信号はゼロのままである。
計画の最小長が増加するにつれて、探索空間は "emph{exponentially larger" となり、プランの最小長が数百から数千のステップを持つ計画インスタンスにとって深刻な制限となる。
ディープニューラルネットワークと余分に生成されたサブゴールでグラフ検索を増強する以前の学習フレームワークは、さまざまな挑戦的な計画領域で成功している。
しかし、有用なサブゴールを生成するには広範なドメイン知識が必要である。
本稿では,グラフ探索をグラフ値反復で拡張し,ドメイン固有化解法に到達できないハードプランニングインスタンスを解くドメイン独立手法を提案する。
特に,発見された計画からのみ学習信号を受け取るのではなく,目標状態が到達していない探索の試みから学習する。
グラフ値反復成分は、局所探索空間のグラフ構造を利用して、より情報的な学習信号を提供する。
また、カリキュラム戦略を用いて学習プロセスを円滑にし、グラフ値の反復のスケール方法と学習を可能にする方法も示す。 In recent years, deep Reinforcement Learning (RL) has been successful in various combinatorial search domains, such as two-player games and scientific discovery. However, directly applying deep RL in planning domains is still challenging. One major difficulty is that without a human-crafted heuristic function, reward signals remain zero unless the learning framework discovers any solution plan. Search space becomes \emph{exponentially larger} as the minimum length of plans grows, which is a serious limitation for planning instances with a minimum plan length of hundreds to thousands of steps. Previous learning frameworks that augment graph search with deep neural networks and extra generated subgoals have achieved success in various challenging planning domains. However, generating useful subgoals requires extensive domain knowledge. We propose a domain-independent method that augments graph search with graph value iteration to solve hard planning instances that are out of reach for domain-specialized solvers. In particular, instead of receiving learning signals only from discovered plans, our approach also learns from failed search attempts where no goal state has been reached. The graph value iteration component can exploit the graph structure of local search space and provide more informative learning signals. We also show how we use a curriculum strategy to smooth the learning process and perform a full analysis of how graph value iteration scales and enables learning. | 翻訳日:2022-09-21 18:29:40 公開日:2022-09-20 |
# 産業自動化のための一様因果モデルについて On a Uniform Causality Model for Industrial Automation ( http://arxiv.org/abs/2209.09618v1 ) ライセンス: Link先を確認 | Maria Krantz, Alexander Windmann, Rene Heesch, Lukas Moddemann, Oliver Niggemann | (参考訳) サイバーフィジカルシステム(cps)の複雑さの増大は、産業の自動化を困難にしている。
センサが記録した大量のデータを処理して、故障の診断などのタスクを適切に実行する必要がある。
この複雑さを扱うための有望なアプローチは因果性の概念である。
しかし、因果関係に関するほとんどの研究は、未知のシステムの部分間の因果関係の推測に焦点を当てている。
複雑なシステムはコンポーネントと既知の制御可能な振る舞いを組み合わせることで構築されます。
CPSは第2のアプローチで構築されているため、ほとんどのデータベースの因果関係モデルは産業自動化には適していない。
このギャップを埋めるために,産業オートメーションのさまざまな応用分野に対して,統一的な因果関係モデルが提案されている。
その結果、cpsの挙動を数学的に記述し、そのモデルがアプリケーション領域のユニークな要件に基づいて評価されていることから、一様因果関係モデルが機械学習に焦点をあてた産業オートメーションにおける新しいアプローチの適用の基盤として機能することが示されている。 The increasing complexity of Cyber-Physical Systems (CPS) makes industrial automation challenging. Large amounts of data recorded by sensors need to be processed to adequately perform tasks such as diagnosis in case of fault. A promising approach to deal with this complexity is the concept of causality. However, most research on causality has focused on inferring causal relations between parts of an unknown system. Engineering uses causality in a fundamentally different way: complex systems are constructed by combining components with known, controllable behavior. As CPS are constructed by the second approach, most data-based causality models are not suited for industrial automation. To bridge this gap, a Uniform Causality Model for various application areas of industrial automation is proposed, which will allow better communication and better data usage across disciplines. The resulting model describes the behavior of CPS mathematically and, as the model is evaluated on the unique requirements of the application areas, it is shown that the Uniform Causality Model can work as a basis for the application of new approaches in industrial automation that focus on machine learning. | 翻訳日:2022-09-21 18:29:17 公開日:2022-09-20 |
# 効率的なモデルベース診断 Efficient Model Based Diagnosis ( http://arxiv.org/abs/2209.09819v1 ) ライセンス: Link先を確認 | Nico Roos | (参考訳) 本稿では,入力と出力の因果関係を持つシステムに対して,効率的なモデルに基づく診断プロセスについて述べる。
この診断プロセスでは、まず、壊れやすいコンポーネントに焦点を当てたセットが決定される。
第二に、各焦点について、焦点内の最も情報に富む探究点を決定することができる。
診断プロセスのどちらのステップも、最悪のケースタイムの複雑さは${\cal O}(n^2)$で、$n$はコンポーネントの数である。
しかし、コンポーネントの接続性が低い場合、診断プロセスは線形時間の複雑さを示す。
また,ループを含む動的システムやシステムにおいて,診断プロセスがどのように適用できるかを示す。
動的システムの診断において、断続的故障を検出するか、非断続性を想定して診断精度を向上させるかを選択することができる。 In this paper an efficient model based diagnostic process is described for systems whose components possess a causal relation between their inputs and their outputs. In this diagnostic process, firstly, a set of focuses on likely broken components is determined. Secondly, for each focus the most informative probing point within the focus can be determined. Both these steps of the diagnostic process have a worst case time complexity of ${\cal O}(n^2)$ where $n$ is the number of components. If the connectivity of the components is low, however, the diagnostic process shows a linear time complexity. It is also shown how the diagnostic process described can be applied in dynamic systems and systems containing loops. When diagnosing dynamic systems it is possible to choose between detecting intermitting faults or to improve the diagnostic precision by assuming non-intermittency. | 翻訳日:2022-09-21 18:28:58 公開日:2022-09-20 |
# 議論の対立の解決について On resolving conflicts between arguments ( http://arxiv.org/abs/2209.09838v1 ) ライセンス: Link先を確認 | Nico Roos | (参考訳) 論証体系は命題の議論、すなわち命題の信念を正当化する構造化された理由を構築できるという考えに基づいている。
デファシブルなルールを用いることで、全ての状況において引数が有効である必要はないので、命題の引数やその否定を構築できるかもしれない。
議論が対立する命題をサポートするとき、引数の1つを倒さなければならない。
法的議論において、メタルールは、紛争に関係する各議論の最終決定可能なルールを考慮し、有効な議論を決定する。
最後のルールを使って議論を評価するのが簡単であるため、関係する引数の最後のデファシブルなルールだけを考慮すれば、衝突を解決できるだろうか?
本稿では,議論間の敗北関係を導出する代わりに,デファシブルルールの破滅に関する「emph{undercutting-arguments}」を構築する新たな議論システムを提案する。
このシステムにより、(\textit{i}) は不一致の引数の最後のルールのみを使用して競合(反論の一般化)を解決し(\textit{ii})、(\textit{ii}) は jtms に基づくアルゴリズムを用いて線形時間で有効な(未定義)引数の集合を決定でき、(\textit{iii}) はデフォルト論理との関係を確立することができ(\textit{iv})、(\textit{iv}) は \emph{cumulativity} のような閉包プロパティを証明できる。
また,ケースによるemph{reasoning by cases}を可能にする引数システムの拡張も提案する。 Argument systems are based on the idea that one can construct arguments for propositions; i.e., structured reasons justifying the belief in a proposition. Using defeasible rules, arguments need not be valid in all circumstances, therefore, it might be possible to construct an argument for a proposition as well as its negation. When arguments support conflicting propositions, one of the arguments must be defeated, which raises the question of \emph{which (sub-)arguments can be subject to defeat}? In legal argumentation, meta-rules determine the valid arguments by considering the last defeasible rule of each argument involved in a conflict. Since it is easier to evaluate arguments using their last rules, \emph{can a conflict be resolved by considering only the last defeasible rules of the arguments involved}? We propose a new argument system where, instead of deriving a defeat relation between arguments, \emph{undercutting-arguments} for the defeat of defeasible rules are constructed. This system allows us, (\textit{i}) to resolve conflicts (a generalization of rebutting arguments) using only the last rules of the arguments for inconsistencies, (\textit{ii}) to determine a set of valid (undefeated) arguments in linear time using an algorithm based on a JTMS, (\textit{iii}) to establish a relation with Default Logic, and (\textit{iv}) to prove closure properties such as \emph{cumulativity}. We also propose an extension of the argument system that enables \emph{reasoning by cases}. | 翻訳日:2022-09-21 18:28:35 公開日:2022-09-20 |
# 低離散系列を用いた不均一学習粒子群最適化における速度の更新 Updating velocities in heterogeneous comprehensive learning particle swarm optimization with low-discrepancy sequences ( http://arxiv.org/abs/2209.09438v1 ) ライセンス: Link先を確認 | Yuelin Zhao, Feng Wu, Jianhua Pang, Wanxie Zhong | (参考訳) ヘテロジニアス包括学習粒子群最適化(hclpso)は、探索と搾取能力を強化した進化的アルゴリズムの一種である。
低差分シーケンス(LDS)は、ランダムシーケンスよりも探索空間をカバーしている。
本稿では,HCLPSOの改良にLDSの良質な均一性を生かした。
LDSのみを用いて初期個体群を生成することでHCLPSOの探索能力を効果的に向上することは不可能であることを示す数値実験を行った。
しかし、hclpso速度更新式からランダムシーケンスを適切に選択し、決定論的ldsに置き換えれば、より効率的なアルゴリズムを得ることができる。
HCLPSOは従来のHCLPSOと同一の精度で比較し、決定論的LDSで速度を更新することで、成功率を低下させることなく最適解を見つけるのに必要なイテレーションを大幅に削減することができる。 Heterogeneous comprehensive learning particle swarm optimization (HCLPSO) is a type of evolutionary algorithm with enhanced exploration and exploitation capabilities. The low-discrepancy sequence (LDS) is more uniform in covering the search space than random sequences. In this paper, making use of the good uniformity of LDS to improve HCLPSO is researched. Numerical experiments are performed to show that it is impossible to effectively improve the search ability of HCLPSO by only using LDS to generate the initial population. However, if we properly choose some random sequences from the HCLPSO velocities updating formula and replace them with the deterministic LDS, we can obtain a more efficient algorithm. Compared with the original HCLPSO under the same accuracy requirement, the HCLPSO updating the velocities with the deterministic LDS can significantly reduce the iterations required for finding the optimal solution, without decreasing the success rate. | 翻訳日:2022-09-21 18:28:04 公開日:2022-09-20 |
# 行動認識における表現バイアスの軽減:アルゴリズムとベンチマーク Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks ( http://arxiv.org/abs/2209.09393v1 ) ライセンス: Link先を確認 | Haodong Duan, Yue Zhao, Kai Chen, Yuanjun Xiong, Dahua Lin | (参考訳) ディープラーニングモデルは、大規模ビデオベンチマークで優れた認識結果を達成している。
しかし、既存のビデオデータセットのバイアスが原因で、希少なシーンやオブジェクトの動画に適用するとパフォーマンスが低下する。
我々はアルゴリズムとデータセットの2つの異なる角度からこの問題に取り組む。
アルゴリズムの観点からは,多視点対向トレーニングによる明示的偏りと空間行動強調モジュールによる暗黙的偏りの両方を取り入れた空間認識型多視点偏り(SMAD)を提案し,非作用面に不変なより汎用的な表現を学習する。
内在的なデータセットバイアスを中和するため,我々はwebデータを選択的に活用し,より少ないwebデータで高いパフォーマンスを実現するための大雑把さを提案する。
有効性を検証するため,評価プロトコルを確立し,既存データセットの再分散分割と,レアシーンでの動作に着目した新たな評価データセットの両方について広範な実験を行う。
また、デバイアス表現は他のデータセットやタスクに転送するとより一般化できることも示している。 Deep learning models have achieved excellent recognition results on large-scale video benchmarks. However, they perform poorly when applied to videos with rare scenes or objects, primarily due to the bias of existing video datasets. We tackle this problem from two different angles: algorithm and dataset. From the perspective of algorithms, we propose Spatial-aware Multi-Aspect Debiasing (SMAD), which incorporates both explicit debiasing with multi-aspect adversarial training and implicit debiasing with the spatial actionness reweighting module, to learn a more generic representation invariant to non-action aspects. To neutralize the intrinsic dataset bias, we propose OmniDebias to leverage web data for joint training selectively, which can achieve higher performance with far fewer web data. To verify the effectiveness, we establish evaluation protocols and perform extensive experiments on both re-distributed splits of existing datasets and a new evaluation dataset focusing on the action with rare scenes. We also show that the debiased representation can generalize better when transferred to other datasets and tasks. | 翻訳日:2022-09-21 18:26:29 公開日:2022-09-20 |
# detclip:オープンワールド検出のための辞書エンリッチビジュアルコンセプタ並列事前学習 DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection ( http://arxiv.org/abs/2209.09407v1 ) ライセンス: Link先を確認 | Lewei Yao, Jianhua Han, Youpeng Wen, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Chunjing Xu, Hang Xu | (参考訳) オープンワールドオブジェクト検出は、より一般的で挑戦的な目標として、任意のカテゴリ名で記述されたオブジェクトを認識し、ローカライズすることを目的としている。
最近の研究であるglipは、検出データセットのすべてのカテゴリ名を文に結合することで、この問題を接地問題として定式化している。
本稿では,設計した概念辞書から知識の豊かさに頼り,オープンワールド検出のための並列視覚概念事前学習手法であるdetclipを提案する。
学習効率を向上させるために,異種データセット(検出,接地,画像テキストペア)を訓練に利用するために,概念を別々に抽出する並列型概念定式化を提案する。
我々はさらに,各概念の事前知識を提供するために,様々なオンラインソースと検出データセットから概念辞書を(説明付きで)設計する。
概念を記述で豊かにすることで、オープンドメイン学習を促進するために、さまざまな概念間の関係を明示的に構築します。
提案する概念辞書は,単語領域のアライメント損失の構成に十分な負の概念を提供するとともに,画像とテキストのペアデータのキャプションに記述のないオブジェクトのラベルを完備する。
提案フレームワークは,例えばLVISデータセット上で,当社のDetCLIP-TがGLIP-Tを9.9%向上させ,当社と同じバックボーンを持つ完全教師付きモデルと比較して,稀なカテゴリを13.5%改善するなど,強力なゼロショット検出性能を示す。 Open-world object detection, as a more general and challenging goal, aims to recognize and localize objects described by arbitrary category names. The recent work GLIP formulates this problem as a grounding problem by concatenating all category names of detection datasets into sentences, which leads to inefficient interaction between category names. This paper presents DetCLIP, a paralleled visual-concept pre-training method for open-world detection by resorting to knowledge enrichment from a designed concept dictionary. To achieve better learning efficiency, we propose a novel paralleled concept formulation that extracts concepts separately to better utilize heterogeneous datasets (i.e., detection, grounding, and image-text pairs) for training. We further design a concept dictionary~(with descriptions) from various online sources and detection datasets to provide prior knowledge for each concept. By enriching the concepts with their descriptions, we explicitly build the relationships among various concepts to facilitate the open-domain learning. The proposed concept dictionary is further used to provide sufficient negative concepts for the construction of the word-region alignment loss\, and to complete labels for objects with missing descriptions in captions of image-text pair data. The proposed framework demonstrates strong zero-shot detection performances, e.g., on the LVIS dataset, our DetCLIP-T outperforms GLIP-T by 9.9% mAP and obtains a 13.5% improvement on rare categories compared to the fully-supervised model with the same backbone as ours. | 翻訳日:2022-09-21 18:26:09 公開日:2022-09-20 |
# プロンプトによる残量情報抽出のための簡単なアプローチ A Few-shot Approach to Resume Information Extraction via Prompts ( http://arxiv.org/abs/2209.09450v1 ) ライセンス: Link先を確認 | Chengguang Gan, Tatsunori Mori | (参考訳) プロンプト学習は、非常に少ないトレーニング例で、ほとんどのテキスト分類タスクでほぼ微妙なパフォーマンスを達成できることが示されている。
サンプルが不足しているNLPタスクには有利である。
本稿では,情報抽出を再開する現実的なシナリオに適用し,既存の手法を強化して,情報抽出タスクにもっと適用できるようにする。
特に,履歴書のテキスト的特徴に基づいて,複数の手動テンプレートと動詞を作成した。
さらに,この課題に対して,masked Language Model (MLM) プレトレーニング言語モデル (PLM) と Seq2Seq PLM の性能を比較した。
さらに,他のアプリケーションベース NLP タスクに対する Prompt テンプレートの設計例を提供するために,知識型 Prompt-tuning のための動詞化器の設計方法を改善する。
本稿では,手動知識言語(Manual Knowledgeable Verbalizer, MKV)の概念を提案する。
アプリケーションシナリオに対応するKnowledgeable Verbalizerを構築するためのルール。
実験は、既存の手動テンプレートや自動生成プロンプトメソッドよりも、私たちのルールに基づいて設計されたテンプレートや動詞化器の方が効率的で堅牢であることを実証します。
現在利用可能な自動プロンプトメソッドは、いくつかの現実的なタスクシナリオのために手作業で設計されたプロンプトテンプレートと競合することができない。
最終混乱行列の結果,提案したMKVは試料不均衡問題を著しく解決した。 Prompt learning has been shown to achieve near-Fine-tune performance in most text classification tasks with very few training examples. It is advantageous for NLP tasks where samples are scarce. In this paper, we attempt to apply it to a practical scenario, i.e resume information extraction, and to enhance the existing method to make it more applicable to the resume information extraction task. In particular, we created multiple sets of manual templates and verbalizers based on the textual characteristics of resumes. In addition, we compared the performance of Masked Language Model (MLM) pre-training language models (PLMs) and Seq2Seq PLMs on this task. Furthermore, we improve the design method of verbalizer for Knowledgeable Prompt-tuning in order to provide a example for the design of Prompt templates and verbalizer for other application-based NLP tasks. In this case, we propose the concept of Manual Knowledgeable Verbalizer(MKV). A rule for constructing the Knowledgeable Verbalizer corresponding to the application scenario. Experiments demonstrate that templates and verbalizers designed based on our rules are more effective and robust than existing manual templates and automatically generated prompt methods. It is established that the currently available automatic prompt methods cannot compete with manually designed prompt templates for some realistic task scenarios. The results of the final confusion matrix indicate that our proposed MKV significantly resolved the sample imbalance issue. | 翻訳日:2022-09-21 18:19:29 公開日:2022-09-20 |
# クリニカルノートにおける症状イベント抽出のためのドメインの一般化 Generalizing through Forgetting -- Domain Generalization for Symptom Event Extraction in Clinical Notes ( http://arxiv.org/abs/2209.09485v1 ) ライセンス: Link先を確認 | Sitong Zhou, Kevin Lybarger, Meliha Yetisgen Mari Ostendorf | (参考訳) 症状情報は、主にフリーテキストの臨床ノートに記録されており、下流のアプリケーションには直接アクセスできない。
この課題に対処するためには、様々な施設や専門分野にまたがる臨床言語の変化に対処できる情報抽出アプローチが必要である。
本稿では, 施設, 専門, 患者集団の観点から, 対象領域と異なる事前訓練データと微調整データを用いた症状抽出のための領域一般化について述べる。
変圧器を用いたジョイントエンティティと関係抽出法を用いて症状イベントを抽出する。
ドメイン固有の特徴への依存を軽減するため,ソースドメイン内の頻繁な症状語を動的にマスキングする領域一般化手法を提案する。
さらに、より優れた表現のために、タスク関連未ラベルテキスト上でトランスフォーマー言語モデル(LM)を事前訓練する。
実験により,マスキングおよび適応事前学習手法は,ソース領域が対象領域からより遠い場合,性能を著しく向上できることが示唆された。 Symptom information is primarily documented in free-text clinical notes and is not directly accessible for downstream applications. To address this challenge, information extraction approaches that can handle clinical language variation across different institutions and specialties are needed. In this paper, we present domain generalization for symptom extraction using pretraining and fine-tuning data that differs from the target domain in terms of institution and/or specialty and patient population. We extract symptom events using a transformer-based joint entity and relation extraction method. To reduce reliance on domain-specific features, we propose a domain generalization method that dynamically masks frequent symptoms words in the source domain. Additionally, we pretrain the transformer language model (LM) on task-related unlabeled texts for better representation. Our experiments indicate that masking and adaptive pretraining methods can significantly improve performance when the source domain is more distant from the target domain. | 翻訳日:2022-09-21 18:19:07 公開日:2022-09-20 |
# 韓国の「普遍的依存」のもう1つのフォーマット Yet Another Format of Universal Dependencies for Korean ( http://arxiv.org/abs/2209.09742v1 ) ライセンス: Link先を確認 | Yige Chen and Eunkyul Leah Jo and Yundong Yao and KyungTae Lim and Miikka Silfverberg and Francis M. Tyers and Jungyeul Park | (参考訳) 本研究では,韓国の係り受け解析のための形態素に基づくスキームを提案し,このスキームをユニバーサル依存に適用する。
本稿では,形態素ベースのフォーマットを採用する動機と必要性を示す言語学的根拠を示し,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
UDPipe や Stanza などの統計モデルとニューラルモデルにより,韓国語へのモーフィムベースの単語埋め込みを慎重に構築した上で,韓国語係り受け解析方式の有効性を検証した。
morphudは韓国全ud木バンクの解析結果を上回り,詳細な誤差解析を行う。 In this study, we propose a morpheme-based scheme for Korean dependency parsing and adopt the proposed scheme to Universal Dependencies. We present the linguistic rationale that illustrates the motivation and the necessity of adopting the morpheme-based format, and develop scripts that convert between the original format used by Universal Dependencies and the proposed morpheme-based format automatically. The effectiveness of the proposed format for Korean dependency parsing is then testified by both statistical and neural models, including UDPipe and Stanza, with our carefully constructed morpheme-based word embedding for Korean. morphUD outperforms parsing results for all Korean UD treebanks, and we also present detailed error analyses. | 翻訳日:2022-09-21 18:18:50 公開日:2022-09-20 |
# 目標誘導型オープンドメイン会話計画 Target-Guided Open-Domain Conversation Planning ( http://arxiv.org/abs/2209.09746v1 ) ライセンス: Link先を確認 | Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki, Kentaro Inui | (参考訳) 目標指向の会話的タスクに取り組む以前の研究は、目標指向の人工知能エージェント、すなわち計画の文脈で集中的に研究されてきた重要な概念を欠いている。
本研究では,対話エージェントが目標指向の会話計画能力を持つかどうかを評価するために,TGCP(Target-Guided Open-Domain Conversation Planning)タスクを提案する。
tgcpタスクを用いて,既存の検索モデルと近年の強力な生成モデルの対話計画能力について検討する。
実験結果から現在の技術が直面する課題が明らかになった。 Prior studies addressing target-oriented conversational tasks lack a crucial notion that has been intensively studied in the context of goal-oriented artificial intelligence agents, namely, planning. In this study, we propose the task of Target-Guided Open-Domain Conversation Planning (TGCP) task to evaluate whether neural conversational agents have goal-oriented conversation planning abilities. Using the TGCP task, we investigate the conversation planning abilities of existing retrieval models and recent strong generative models. The experimental results reveal the challenges facing current technology. | 翻訳日:2022-09-21 18:18:37 公開日:2022-09-20 |
# イタリアの言語多様性のためのNLP : 課題と道のり NLP for Language Varieties of Italy: Challenges and the Path Forward ( http://arxiv.org/abs/2209.09757v1 ) ライセンス: Link先を確認 | Alan Ramponi | (参考訳) イタリアはヨーロッパ一流の言語多様性の風景を特徴とし、現地の知識、文化の伝統、芸術表現、話者の歴史を暗黙的にエンコードしている。
しかし、イタリアの30以上の言語品種は数世代以内に消滅する恐れがある。
言語技術は、絶滅危惧言語を保存する上で主要な役割を担っているが、現在では、未資源であり、ほとんどは標準化された正書法に欠けており、主に音声設定で使われている。
本稿では,イタリアの言語文脈について紹介し,イタリアの言語品種におけるNLP技術の発展に直面する課題について論じる。
我々は、潜在的な方向性を提供し、パラダイムを機械中心から話者中心のnlpに移行することを提唱する。
最後に,イタリアの言語・方言のための言語・言語技術の責任ある参加型開発に向けた地域コミュニティの構築を提案する。 Italy is characterized by a one-of-a-kind linguistic diversity landscape in Europe, which implicitly encodes local knowledge, cultural traditions, artistic expression, and history of its speakers. However, over 30 language varieties in Italy are at risk of disappearing within few generations. Language technology has a main role in preserving endangered languages, but it currently struggles with such varieties as they are under-resourced and mostly lack standardized orthography, being mainly used in spoken settings. In this paper, we introduce the linguistic context of Italy and discuss challenges facing the development of NLP technologies for Italy's language varieties. We provide potential directions and advocate for a shift in the paradigm from machine-centric to speaker-centric NLP. Finally, we propose building a local community towards responsible, participatory development of speech and language technologies for languages and dialects of Italy. | 翻訳日:2022-09-21 18:18:28 公開日:2022-09-20 |
# マルチモーダル感情認識のためのプログレッシブなトリモーダル注意を伴うエンド・ツー・エンドトランスフォーマタ An Efficient End-to-End Transformer with Progressive Tri-modal Attention for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2209.09768v1 ) ライセンス: Link先を確認 | Yang Wu, Pai Peng, Zhenyu Zhang, Yanyan Zhao, Bing Qin | (参考訳) 近年、マルチモーダルな感情認識がエンドツーエンドモデルに移行し、ターゲットタスクによって監督されるタスク固有の特徴を、2相パイプラインと比較して抽出することができる。
しかし, 従来の手法では, テキストと視覚的モーダル間の特徴的相互作用のみをモデル化し, 音響的モーダルと視覚的モーダル間の特徴的相互作用を捉えることを無視していた。
本稿では,テキスト,音響,視覚間の相互作用を低レベル,高レベルで効果的にモデル化できるマルチモーダルエンド・ツー・エンドトランス(me2et)を提案する。
低レベルにおいては、2パス戦略を採用することで3モーダル特徴相互作用をモデル化し、さらにそのような相互作用を活用して入力トークン長を減らし、計算とメモリの複雑さを著しく低減できるプログレッシブ・トリモーダル・アテンションを提案する。
高レベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
CMU-MOSEIとIEMOCAPデータセットの実験結果は、ME2ETが最先端のパフォーマンスを達成することを示す。
さらに詳細な分析により,提案手法の有効性, 効率, 解釈可能性を示すとともに, 計算コストとメモリコストを大幅に削減しつつ, モデルの性能向上に寄与する。
私たちのコードは公開されます。 Recent works on multi-modal emotion recognition move towards end-to-end models, which can extract the task-specific features supervised by the target task compared with the two-phase pipeline. However, previous methods only model the feature interactions between the textual and either acoustic and visual modalities, ignoring capturing the feature interactions between the acoustic and visual modalities. In this paper, we propose the multi-modal end-to-end transformer (ME2ET), which can effectively model the tri-modal features interaction among the textual, acoustic, and visual modalities at the low-level and high-level. At the low-level, we propose the progressive tri-modal attention, which can model the tri-modal feature interactions by adopting a two-pass strategy and can further leverage such interactions to significantly reduce the computation and memory complexity through reducing the input token length. At the high-level, we introduce the tri-modal feature fusion layer to explicitly aggregate the semantic representations of three modalities. The experimental results on the CMU-MOSEI and IEMOCAP datasets show that ME2ET achieves the state-of-the-art performance. The further in-depth analysis demonstrates the effectiveness, efficiency, and interpretability of the proposed progressive tri-modal attention, which can help our model to achieve better performance while significantly reducing the computation and memory cost. Our code will be publicly available. | 翻訳日:2022-09-21 18:18:14 公開日:2022-09-20 |
# レジスタのバリエーションは60言語で安定している Register Variation Remains Stable Across 60 Languages ( http://arxiv.org/abs/2209.09813v1 ) ライセンス: Link先を確認 | Haipeng Li, Jonathan Dunn, Andrea Nini | (参考訳) 本稿では,言語間レジスタ変動の安定性を計測する。
レジスタは言語外文脈に関連する言語の一種である。
レジスタを構成する言語的特徴は、コミュニケーションの状況のニーズと制約によって動機付けられている。
この見解はレジスタが普遍的であるべきであると仮定し、レジスタを定義する言語外コンテキストとレジスタが持つ言語的特徴の集合との安定した関係を期待する。
本稿では,60ヶ国語における登録固有のコーパス間の差異を,つぶやきやwikipediaの記事に匹敵する状況で生成されたコーパスを用いて比較することにより,レジスタ変動の普遍性とロバスト性を検証する。
本研究は,レジスタ変動が実際は普遍的であるという予測を裏付けるものである。 This paper measures the stability of cross-linguistic register variation. A register is a variety of a language that is associated with extra-linguistic context. The relationship between a register and its context is functional: the linguistic features that make up a register are motivated by the needs and constraints of the communicative situation. This view hypothesizes that register should be universal, so that we expect a stable relationship between the extra-linguistic context that defines a register and the sets of linguistic features which the register contains. In this paper, the universality and robustness of register variation is tested by comparing variation within vs. between register-specific corpora in 60 languages using corpora produced in comparable communicative situations: tweets and Wikipedia articles. Our findings confirm the prediction that register variation is, in fact, universal. | 翻訳日:2022-09-21 18:17:48 公開日:2022-09-20 |
# Twitterのトピック分類 Twitter Topic Classification ( http://arxiv.org/abs/2209.09824v1 ) ライセンス: Link先を確認 | Dimosthenis Antypas, Asahi Ushio, Jose Camacho-Collados, Leonardo Neves, V\'itor Silva, Francesco Barbieri | (参考訳) ソーシャルメディアプラットフォームは、毎日発生するさまざまなトピックに関する議論をホストしている。
すべてのコンテンツを理解し、それをカテゴリに整理するのは大変な作業です。
この問題に対処する一般的な方法は、トピックモデリングに依存するが、この技術で発見されたトピックは解釈が難しく、コーパスとコーパスが異なる可能性がある。
本稿では,ツイートのトピック分類に基づく新しいタスクを提案し,関連するデータセットを2つリリースする。
ソーシャルメディアにおける最も重要な議論ポイントを網羅する幅広いトピックを想定し,ツイート分類モデルの評価に使用できる,最近の期間のトレーニングおよびテストデータを提供する。
さらに,タスクの課題や性質について,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。 Social media platforms host discussions about a wide variety of topics that arise everyday. Making sense of all the content and organising it into categories is an arduous task. A common way to deal with this issue is relying on topic modeling, but topics discovered using this technique are difficult to interpret and can differ from corpus to corpus. In this paper, we present a new task based on tweet topic classification and release two associated datasets. Given a wide range of topics covering the most important discussion points in social media, we provide training and testing data from recent time periods that can be used to evaluate tweet classification models. Moreover, we perform a quantitative evaluation and analysis of current general- and domain-specific language models on the task, which provide more insights on the challenges and nature of the task. | 翻訳日:2022-09-21 18:17:36 公開日:2022-09-20 |
# AIサッカーのためのディープQネットワーク Deep Q-Network for AI Soccer ( http://arxiv.org/abs/2209.09491v1 ) ライセンス: Link先を確認 | Curie Kim, Yewon Hwang, and Jong-Hwan Kim | (参考訳) 強化学習は、ゲーム、特にatariゲームやgoの応用において、優れたパフォーマンスを示している。
これらの成功例に基づき、AIサッカーゲームによく知られた強化学習アルゴリズムであるディープQネットワークを適用しようとする。
ai soccerは5:5のロボットサッカーゲームで、各参加者は対戦相手を倒すためにチーム内の5つのロボットを制御するアルゴリズムを開発した。
Deep Q-Networkは、元の報酬、状態空間、アクションスペースを実装して、各エージェントをトレーニングすることで、ゲーム中に異なる状況で適切なアクションをすることができるように設計されています。
我々のアルゴリズムはエージェントの訓練に成功し、AIサッカー国際大会に参加を希望する10チームに対するミニコンペティションを通じて、そのパフォーマンスが実証された。
この大会は、WCG 2019 Xi'an AI Mastersと共に、AIワールドカップ委員会によって組織された。
私たちのアルゴリズムでは、39カ国の130チームと、この国際コンペティションで16のラウンドに進むという成果を得ました。 Reinforcement learning has shown an outstanding performance in the applications of games, particularly in Atari games as well as Go. Based on these successful examples, we attempt to apply one of the well-known reinforcement learning algorithms, Deep Q-Network, to the AI Soccer game. AI Soccer is a 5:5 robot soccer game where each participant develops an algorithm that controls five robots in a team to defeat the opponent participant. Deep Q-Network is designed to implement our original rewards, the state space, and the action space to train each agent so that it can take proper actions in different situations during the game. Our algorithm was able to successfully train the agents, and its performance was preliminarily proven through the mini-competition against 10 teams wishing to take part in the AI Soccer international competition. The competition was organized by the AI World Cup committee, in conjunction with the WCG 2019 Xi'an AI Masters. With our algorithm, we got the achievement of advancing to the round of 16 in this international competition with 130 teams from 39 countries. | 翻訳日:2022-09-21 18:17:24 公開日:2022-09-20 |
# 臨床治療におけるガイドライン適合性判定の試み Declarative Guideline Conformance Checking of Clinical Treatments: A Case Study ( http://arxiv.org/abs/2209.09535v1 ) ライセンス: Link先を確認 | Joscha Gr\"uger, Tobias Geyer, Martin Kuhn, Stefan Braun, Ralph Bergmann | (参考訳) コンフォーマンスチェック(Conformance check)は、特定のモデルに対するプロセスインスタンスの適合性を検証するためのプロセスマイニング手法である。
したがって、このテクニックは、治療症例と臨床ガイドラインの比較に医療的文脈で使用されることが前提となっている。
しかし、医療プロセスは高度に変動し、動的であり、複雑である。
これにより、医療領域における命令適合性検査アプローチの使用が困難になる。
研究によると、宣言的アプローチはこれらの特徴に対処できる。
しかし、いずれのアプローチも実際は受け入れられていない。
もうひとつの課題はアライメントであり、医学的な観点からの付加価値はない。
そこで本研究では,hl7標準arden構文を用いた宣言型,ルールベースの適合性検査,手作業によるアライメントの利用について検討する。
本手法により, 治療症例の適合性を確認し, 医療ガイドラインの大部分に医学的に有意なアライメントを作成することができた。 Conformance checking is a process mining technique that allows verifying the conformance of process instances to a given model. Thus, this technique is predestined to be used in the medical context for the comparison of treatment cases with clinical guidelines. However, medical processes are highly variable, highly dynamic, and complex. This makes the use of imperative conformance checking approaches in the medical domain difficult. Studies show that declarative approaches can better address these characteristics. However, none of the approaches has yet gained practical acceptance. Another challenge are alignments, which usually do not add any value from a medical point of view. For this reason, we investigate in a case study the usability of the HL7 standard Arden Syntax for declarative, rule-based conformance checking and the use of manually modeled alignments. Using the approach, it was possible to check the conformance of treatment cases and create medically meaningful alignments for large parts of a medical guideline. | 翻訳日:2022-09-21 18:17:08 公開日:2022-09-20 |
# 2レベル格子ニューラルネットワーク制御器を用いたLTIシステムの多項式時間到達性 Polynomial-Time Reachability for LTI Systems with Two-Level Lattice Neural Network Controllers ( http://arxiv.org/abs/2209.09400v1 ) ライセンス: Link先を確認 | James Ferlez and Yasser Shoukry | (参考訳) 本稿では,Rectified Linear Unit (ReLU) Two-Level Lattice (TLL) Neural Network (NN) コントローラによって制御される線形時間不変系(LTI)の到達可能な集合を束縛する計算複雑性について考察する。
特に、そのようなシステムやコントローラでは、tll nnコントローラ(ニューロン数)のサイズの大きさで多項式時間で正確に1ステップ到達可能な集合を計算できることを示す。
さらに、2つの多項式時間法により到達可能な集合のタイトな有界ボックスを得ることができ、一方はTLLの大きさの多項式複雑性を持つもので、もう一方はコントローラのリプシッツ定数の多項式複雑性を持つものである。
重要なことに、これら2つのうちより小さいものは、非退化TLL NNに対して多項式時間で決定できる。
最後に,L-TLLBox と呼ばれる実測到達性と近似到達性の利点を適応的に組み合わせた実用的アルゴリズムを提案する。
我々は,L-TLLBoxを最先端のNNコントローラの到達性ツールと比較した。
これらの実験では、L-TLLBoxは、同じネットワーク/システム上でこのツールよりも5,000倍早く到達可能性解析を完了し、面積の0.08から1.42倍のリーチボックスを生成することができた。 In this paper, we consider the computational complexity of bounding the reachable set of a Linear Time-Invariant (LTI) system controlled by a Rectified Linear Unit (ReLU) Two-Level Lattice (TLL) Neural Network (NN) controller. In particular, we show that for such a system and controller, it is possible to compute the exact one-step reachable set in polynomial time in the size of the size of the TLL NN controller (number of neurons). Additionally, we show that it is possible to obtain a tight bounding box of the reachable set via two polynomial-time methods: one with polynomial complexity in the size of the TLL and the other with polynomial complexity in the Lipschitz constant of the controller and other problem parameters. Crucially, the smaller of the two can be decided in polynomial time for non-degenerate TLL NNs. Finally, we propose a pragmatic algorithm that adaptively combines the benefits of (semi-)exact reachability and approximate reachability, which we call L-TLLBox. We evaluate L-TLLBox with an empirical comparison to a state-of-the-art NN controller reachability tool. In these experiments, L-TLLBox was able to complete reachability analysis as much as 5000x faster than this tool on the same network/system, while producing reach boxes that were from 0.08 to 1.42 times the area. | 翻訳日:2022-09-21 18:11:30 公開日:2022-09-20 |
# 集合変換器による関係推論:確率効率とMARLへの応用 Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL ( http://arxiv.org/abs/2209.09845v1 ) ライセンス: Link先を確認 | Fengzhuo Zhang, Boyi Liu, Kaixin Wang, Vincent Y. F. Tan, Zhuoran Yang, Zhaoran Wang | (参考訳) 置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな成功を収めている。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
本稿では,変換器が複雑な関係推論を実装していることを検証し,モデルフリーおよびモデルベースオフラインMARLアルゴリズムを変換器近似器を用いて提案・解析する。
モデルフリーアルゴリズムとモデルベースアルゴリズムの下位最適性ギャップは,それぞれエージェント数と対数から独立していることが証明され,多くのエージェントの呪いを緩和する。
これらの結果は、変圧器の新しい一般化誤差境界と、変圧器を用いたシステムダイナミクスの最大度推定(mle)の新しい解析の結果である。
我々のモデルベースアルゴリズムは、エージェントの置換不変性を明示的に活用する最初の証明可能なMARLアルゴリズムである。 The cooperative Multi-A gent R einforcement Learning (MARL) with permutation invariant agents framework has achieved tremendous empirical successes in real-world applications. Unfortunately, the theoretical understanding of this MARL problem is lacking due to the curse of many agents and the limited exploration of the relational reasoning in existing works. In this paper, we verify that the transformer implements complex relational reasoning, and we propose and analyze model-free and model-based offline MARL algorithms with the transformer approximators. We prove that the suboptimality gaps of the model-free and model-based algorithms are independent of and logarithmic in the number of agents respectively, which mitigates the curse of many agents. These results are consequences of a novel generalization error bound of the transformer and a novel analysis of the Maximum Likelihood Estimate (MLE) of the system dynamics with the transformer. Our model-based algorithm is the first provably efficient MARL algorithm that explicitly exploits the permutation invariance of the agents. | 翻訳日:2022-09-21 18:11:09 公開日:2022-09-20 |
# 深部一般schr\"odinger橋 Deep Generalized Schr\"odinger Bridge ( http://arxiv.org/abs/2209.09893v1 ) ライセンス: Link先を確認 | Guan-Horng Liu, Tianrong Chen, Oswin So, Evangelos A. Theodorou | (参考訳) Mean-Field Game (MFG) は、多数の集団と確率的に相互作用する個々のエージェントの集団的振る舞いをモデル化する重要な数学的枠組みである。
本研究は,これらの相互作用する選好の相違性を解決できないようなMFGの難解なクラスを解くことを目的としており,人口は,所望の分布に正確に収束するよう促されている。
これらの設定は、実用的な目的のために十分に動機づけられているにもかかわらず、ほとんどの(深い)数値解法を麻痺させるほど複雑である。
それにもかかわらず、Shr\"odinger Bridge - エントロピー規則化された最適輸送モデルとして、平均場構造を受け入れるように一般化できることを示し、これらのMFGを解く。
これはForward-Backward Stochastic Differential Equations理論の適用によって達成され、これは興味深いことに、時間差分学習に類似した構造を持つ計算フレームワークに導かれる。
これにより,Deep Reinforcement Learning(深層強化学習)への新たなアルゴリズム接続が開き,実践的なトレーニングを容易にする。
提案する目的関数が平均場問題に必要かつ十分な条件を提供することを示す。
提案手法はDeep Generalized Schr\"odinger Bridge (DeepGSB) と名付けられ,従来のMFGの解法に勝るだけでなく,1000次元の意見非分極を解き,高次元のMFGに対する新しい数値解法を構築することができる。
私たちのコードはhttps://github.com/ghliu/DeepGSB.comで公開されます。 Mean-Field Game (MFG) serves as a crucial mathematical framework in modeling the collective behavior of individual agents interacting stochastically with a large population. In this work, we aim at solving a challenging class of MFGs in which the differentiability of these interacting preferences may not be available to the solver, and the population is urged to converge exactly to some desired distribution. These setups are, despite being well-motivated for practical purposes, complicated enough to paralyze most (deep) numerical solvers. Nevertheless, we show that Schr\"odinger Bridge - as an entropy-regularized optimal transport model - can be generalized to accepting mean-field structures, hence solving these MFGs. This is achieved via the application of Forward-Backward Stochastic Differential Equations theory, which, intriguingly, leads to a computational framework with a similar structure to Temporal Difference learning. As such, it opens up novel algorithmic connections to Deep Reinforcement Learning that we leverage to facilitate practical training. We show that our proposed objective function provides necessary and sufficient conditions to the mean-field problem. Our method, named Deep Generalized Schr\"odinger Bridge (DeepGSB), not only outperforms prior methods in solving classical population navigation MFGs, but is also capable of solving 1000-dimensional opinion depolarization, setting a new state-of-the-art numerical solver for high-dimensional MFGs. Our code will be made available at https://github.com/ghliu/DeepGSB. | 翻訳日:2022-09-21 18:10:53 公開日:2022-09-20 |
# 深層学習型医療セグメンテーションにおける拡張性不確実性定量化のための校正アンサンブル Calibrating Ensembles for Scalable Uncertainty Quantification in Deep Learning-based Medical Segmentation ( http://arxiv.org/abs/2209.09563v1 ) ライセンス: Link先を確認 | Thomas Buddenkotte, Lorena Escudero Sanchez, Mireia Crispin-Ortuzar, Ramona Woitek, Cathal McCague, James D. Brenton, Ozan \"Oktem, Evis Sala, Leonardo Rundo | (参考訳) 自動画像解析における不確かさの定量化は、多くのアプリケーションで非常に望ましい。
通常、分類やセグメンテーションにおける機械学習モデルはバイナリな回答を提供するためにのみ開発されるが、モデルの不確実性を定量化することは、例えばアクティブな学習やマシンヒューマンインタラクションにおいて重要な役割を果たす。
多くのイメージング応用において最先端のディープラーニングモデルを使用する場合、不確かさの定量化は特に困難である。
現在の不確実量化アプローチは、高次元実世界の問題ではうまくスケールしない。
スケーラブルなソリューションは、後方分布を得るために、異なるランダムシードを持つ同一モデルの推論やトレーニングの間、ドロップアウトのような古典的なテクニックに依存することが多い。
本稿では,これらの手法が分類確率を近似できないことを示す。
そこで本研究では,ディープラーニングモデルのアンサンブルを校正し,分類確率を近似する不確実性定量化測定を行うスケーラブルで直感的なフレームワークを提案する。
未確認試験データでは,標準手法と比較した場合の校正精度,感度(3例中2例),精度が向上した。
さらに,この手法をアクティブラーニングに活用し,ラベルのない画像から学習するための擬似ラベルを作成し,人間と機械のコラボレーションを行う。 Uncertainty quantification in automated image analysis is highly desired in many applications. Typically, machine learning models in classification or segmentation are only developed to provide binary answers; however, quantifying the uncertainty of the models can play a critical role for example in active learning or machine human interaction. Uncertainty quantification is especially difficult when using deep learning-based models, which are the state-of-the-art in many imaging applications. The current uncertainty quantification approaches do not scale well in high-dimensional real-world problems. Scalable solutions often rely on classical techniques, such as dropout, during inference or training ensembles of identical models with different random seeds to obtain a posterior distribution. In this paper, we show that these approaches fail to approximate the classification probability. On the contrary, we propose a scalable and intuitive framework to calibrate ensembles of deep learning models to produce uncertainty quantification measurements that approximate the classification probability. On unseen test data, we demonstrate improved calibration, sensitivity (in two out of three cases) and precision when being compared with the standard approaches. We further motivate the usage of our method in active learning, creating pseudo-labels to learn from unlabeled images and human-machine collaboration. | 翻訳日:2022-09-21 18:10:14 公開日:2022-09-20 |
# 文埋め込みのコントラスト学習のための非言語的スーパービジョン Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2209.09433v1 ) ライセンス: Link先を確認 | Yiren Jian and Chongyang Gao and Soroush Vosoughi | (参考訳) 文のセマンティック表現学習は、NLPにおいて重要かつよく研究された問題である。
このタスクの現在のトレンドは、テキストとの対比目的、すなわち意味的に類似した意味を持つ文章をクラスタリングし、他の文章を散乱することでトランスフォーマベースの文エンコーダを訓練することである。
本研究では,文エンコーダとしてのTransformerモデルの性能を,他のモダリティ(文や無関係画像/オーディオデータなど)の未ペア例を用いて,マルチモーダルなマルチタスク損失のトレーニングによって向上できることを示す。
特に、テキストにおける対照的な損失による学習に加えて、我々のモデルは、類似した対照的な損失を伴う非言語的ドメイン(例えば、ビジュアル/オーディオ)からサンプルをクラスタリングする。
非言語的データに対する我々のフレームワークの依存は言語に依存しないので、英語のNLPを超えて広く適用することができる。
7つの意味的テキスト類似性ベンチマークの実験により、追加の非言語的(イメージ/オーディオ)で訓練されたモデルは、高い品質の文の埋め込みにつながることが明らかになった。
このことは、Transformerモデルが、類似したタスク(すなわちクラスタリング)をマルチタスク方式で異なるモダリティの例で実行することで、より一般化できることを示している。 Semantic representation learning for sentences is an important and well-studied problem in NLP. The current trend for this task involves training a Transformer-based sentence encoder through a contrastive objective with text, i.e., clustering sentences with semantically similar meanings and scattering others. In this work, we find the performance of Transformer models as sentence encoders can be improved by training with multi-modal multi-task losses, using unpaired examples from another modality (e.g., sentences and unrelated image/audio data). In particular, besides learning by the contrastive loss on text, our model clusters examples from a non-linguistic domain (e.g., visual/audio) with a similar contrastive loss at the same time. The reliance of our framework on unpaired non-linguistic data makes it language-agnostic, enabling it to be widely applicable beyond English NLP. Experiments on 7 semantic textual similarity benchmarks reveal that models trained with the additional non-linguistic (images/audio) contrastive objective lead to higher quality sentence embeddings. This indicates that Transformer models are able to generalize better by doing a similar task (i.e., clustering) with unpaired examples from different modalities in a multi-task fashion. | 翻訳日:2022-09-21 18:08:49 公開日:2022-09-20 |
# Vega-MT:JD Explore Academy Translation System for WMT22 Vega-MT: The JD Explore Academy Translation System for WMT22 ( http://arxiv.org/abs/2209.09444v1 ) ライセンス: Link先を確認 | Changtong Zan, Keqin Peng, Liang Ding, Baopu Qiu, Boan Liu, Shwai He, Qingyu Lu, Zheng Zhang, Chuang Liu, Weifeng Liu, Yibing Zhan, Dacheng Tao | (参考訳) 本稿では,JD Explore AcademyによるWMT 2022の共通翻訳タスクについて述べる。
我々は、中国英語、ドイツ英語、チェコ英語、ロシア英語、日英語を含む、すべての高資源トラックと1つの中資源トラックに参加した。
我々は、言語ペアとモデルサイズ、すなわち \textbf{Vega-MT} システムという2つの主要な要素をスケールアップすることで、翻訳のための双方向トレーニングの限界を推し進める。
言語ペアに関しては、"双方向"を"双方向"設定にスケールアップし、すべての言語をカバーし、言語間の共通知識を活用し、下流のバイリンガルタスクに転送します。
モデルサイズについては、Transformer-Bigを約470億のパラメータを持つ非常に大きなモデルに拡張し、Vega-MTのモデル容量を完全に強化します。
また,単言語データのサイクル変換や双方向・単言語データの双方向自己学習といったデータ拡張戦略を採用し,両言語・単言語データを総合的に活用する。
一般領域テストセットにVega-MTを適用するために、一般化チューニングを設計する。
Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively.
MTコミュニティを促進するために、GitHubとOmniForce Platformを通じてモデルがリリースされる。 We describe the JD Explore Academy's submission of the WMT 2022 shared general translation task. We participated in all high-resource tracks and one medium-resource track, including Chinese-English, German-English, Czech-English, Russian-English, and Japanese-English. We push the limit of our previous work -- bidirectional training for translation by scaling up two main factors, i.e. language pairs and model sizes, namely the \textbf{Vega-MT} system. As for language pairs, we scale the "bidirectional" up to the "multidirectional" settings, covering all participating languages, to exploit the common knowledge across languages, and transfer them to the downstream bilingual tasks. As for model sizes, we scale the Transformer-Big up to the extremely large model that owns nearly 4.7 Billion parameters, to fully enhance the model capacity for our Vega-MT. Also, we adopt the data augmentation strategies, e.g. cycle translation for monolingual data, and bidirectional self-training for bilingual and monolingual data, to comprehensively exploit the bilingual and monolingual data. To adapt our Vega-MT to the general domain test set, generalization tuning is designed. Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively. Models will be released to facilitate the MT community through GitHub and OmniForce Platform. | 翻訳日:2022-09-21 18:08:28 公開日:2022-09-20 |
# 変圧器モデルの緩和注意 Relaxed Attention for Transformer Models ( http://arxiv.org/abs/2209.09735v1 ) ライセンス: Link先を確認 | Timo Lohrenz and Bj\"orn M\"oller and Zhengyang Li and Tim Fingscheidt | (参考訳) オールアテンションベースのトランスフォーマーアーキテクチャの強力なモデリング能力は、しばしば過剰フィッティングを引き起こし、自然言語処理タスクでは、外部言語モデルの統合を複雑にする自己回帰トランスフォーマーデコーダの内部言語モデルに暗黙的に学習される。
本稿では, 注意重みの簡易な平滑化, 一般変圧器アーキテクチャの2倍の改善を図り, エンコーダの自己保持層に適用した場合, 注意の緩和により正規化が図られることを示す。
第2に,デコーダのクロス注意を緩和することにより,暗黙的に学習される内部言語モデルを抑制することにより,外部言語モデルの統合を自然にサポートすることを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩める利点を実証する。
具体的には,最大のリップ読み取りlrs3ベンチマークにおいて,26.31%の単語誤り率で26.90%の単語誤り率を,iwslt14 (de$\rightarrow$en) 機械翻訳タスクで37.67という最高パフォーマンスのbleuスコアを,外部言語モデルなしで,実質的にモデルパラメータを必要とせずに達成した。
コードとモデルは公開される予定だ。 The powerful modeling capabilities of all-attention-based transformer architectures often cause overfitting and - for natural language processing tasks - lead to an implicitly learned internal language model in the autoregressive transformer decoder complicating the integration of external language models. In this paper, we explore relaxed attention, a simple and easy-to-implement smoothing of the attention weights, yielding a two-fold improvement to the general transformer architecture: First, relaxed attention provides regularization when applied to the self-attention layers in the encoder. Second, we show that it naturally supports the integration of an external language model as it suppresses the implicitly learned internal language model by relaxing the cross attention in the decoder. We demonstrate the benefit of relaxed attention across several tasks with clear improvement in combination with recent benchmark approaches. Specifically, we exceed the former state-of-the-art performance of 26.90% word error rate on the largest public lip-reading LRS3 benchmark with a word error rate of 26.31%, as well as we achieve a top-performing BLEU score of 37.67 on the IWSLT14 (DE$\rightarrow$EN) machine translation task without external language models and virtually no additional model parameters. Code and models will be made publicly available. | 翻訳日:2022-09-21 18:02:12 公開日:2022-09-20 |
# 移動ロボットの視覚異常検出性能向上のための外周露光手法 An Outlier Exposure Approach to Improve Visual Anomaly Detection Performance for Mobile Robots ( http://arxiv.org/abs/2209.09786v1 ) ライセンス: Link先を確認 | Dario Mantegazza, Alessandro Giusti, Luca Maria Gambardella and J\'er\^ome Guzzi | (参考訳) 移動ロボットの視覚異常検出システム構築の問題点について考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
しかしながら、ロボット工学の応用においては、しばしば(潜在的に非常に少ない)異常の例が利用可能である。
これらのデータを利用して実nvp異常検出モデルの性能を最小化し、実nvp損失、補助的異常露光マージン損失を最小化することで改善する。
室内パトロールシナリオにおける異常検出を目的とした新しいデータセット(補足材料として公開)の定量的実験を行った。
解離テストセットでは,提案手法は代替手法よりも優れており,少数の異常フレームを露出しても性能が大幅に向上することを示す。 We consider the problem of building visual anomaly detection systems for mobile robots. Standard anomaly detection models are trained using large datasets composed only of non-anomalous data. However, in robotics applications, it is often the case that (potentially very few) examples of anomalies are available. We tackle the problem of exploiting these data to improve the performance of a Real-NVP anomaly detection model, by minimizing, jointly with the Real-NVP loss, an auxiliary outlier exposure margin loss. We perform quantitative experiments on a novel dataset (which we publish as supplementary material) designed for anomaly detection in an indoor patrolling scenario. On a disjoint test set, our approach outperforms alternatives and shows that exposing even a small number of anomalous frames yields significant performance improvements. | 翻訳日:2022-09-21 18:01:46 公開日:2022-09-20 |
# 実世界計画のためのオープンボキャブラリクエリー可能なシーン表現 Open-vocabulary Queryable Scene Representations for Real World Planning ( http://arxiv.org/abs/2209.09874v1 ) ライセンス: Link先を確認 | Boyuan Chen and Fei Xia and Brian Ichter and Kanishka Rao and Keerthana Gopalakrishnan and Michael S. Ryoo and Austin Stone and Daniel Kappler | (参考訳) 大規模言語モデル(LLM)は、人間の指示からタスク計画の新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
本稿では,この問題に対処するオープン語彙およびクエリ可能なシーン表現であるNLMapを開発する。
NLMapは、LLMプランナにコンテキスト情報を収集、統合するためのフレームワークとして機能し、コンテキスト条件のプランを生成する前に、シーンで利用可能なオブジェクトを閲覧、クエリすることができる。
NLMapはまず、ビジュアル言語モデル(VLM)を用いた自然言語クエリ可能なシーン表現を確立する。
LLMベースのオブジェクト提案モジュールは命令を解析し、オブジェクトの可用性と位置に関するシーン表現をクエリする関連オブジェクトを提案する。
LLMプランナーは、そのシーンに関するそのような情報を計画する。
NLMapは、固定されたオブジェクトのリストや実行可能なオプションなしでロボットを動作させることができる。
プロジェクトサイト: https://nlmap-saycan.github.io Large language models (LLMs) have unlocked new capabilities of task planning from human instructions. However, prior attempts to apply LLMs to real-world robotic tasks are limited by the lack of grounding in the surrounding scene. In this paper, we develop NLMap, an open-vocabulary and queryable scene representation to address this problem. NLMap serves as a framework to gather and integrate contextual information into LLM planners, allowing them to see and query available objects in the scene before generating a context-conditioned plan. NLMap first establishes a natural language queryable scene representation with Visual Language models (VLMs). An LLM based object proposal module parses instructions and proposes involved objects to query the scene representation for object availability and location. An LLM planner then plans with such information about the scene. NLMap allows robots to operate without a fixed list of objects nor executable options, enabling real robot operation unachievable by previous methods. Project website: https://nlmap-saycan.github.io | 翻訳日:2022-09-21 18:01:34 公開日:2022-09-20 |
# マルコフ連鎖を学習するスパイクニューラルネットワーク A Spiking Neural Network Learning Markov Chain ( http://arxiv.org/abs/2209.09572v1 ) ライセンス: Link先を確認 | Mikhail Kiselev | (参考訳) 本稿では, スパイキングニューラルネットワーク (SNN) が内部構造をどのように学習し, 修正するかを, 外部世界ダイナミクスのモデルとして検討する。
この問題はモデルベース強化学習(rl)の実施において重要であり、snによる決定とその報酬・加減信号による評価を重要な時間間隔と中間評価・中立世界状態のシーケンスで分けることができる。
本研究では,ネットワークによって学習されるべき事前状態遷移確率の未知なマルコフ連鎖として,世界力学を定式化する。
この問題をより現実的にするために、私はそれを連続時間で解き、マルコフ連鎖の全ての状態の持続時間が異なる可能性があり、未知である。
特別に設計された構造と局所的なシナプス可塑性規則を持つSNNによって、このタスクがどのように達成できるかを実証した。
例えば、このネットワークモチーフは、ボールが正方形の箱の中を動き、ランダムな新しい方向と速度で壁から跳ね返る、単純だが自明でない世界でどのように機能するかを示す。 In this paper, the question how spiking neural network (SNN) learns and fixes in its internal structures a model of external world dynamics is explored. This question is important for implementation of the model-based reinforcement learning (RL), the realistic RL regime where the decisions made by SNN and their evaluation in terms of reward/punishment signals may be separated by significant time interval and sequence of intermediate evaluation-neutral world states. In the present work, I formalize world dynamics as a Markov chain with unknown a priori state transition probabilities, which should be learnt by the network. To make this problem formulation more realistic, I solve it in continuous time, so that duration of every state in the Markov chain may be different and is unknown. It is demonstrated how this task can be accomplished by an SNN with specially designed structure and local synaptic plasticity rules. As an example, we show how this network motif works in the simple but non-trivial world where a ball moves inside a square box and bounces from its walls with a random new direction and velocity. | 翻訳日:2022-09-21 18:01:04 公開日:2022-09-20 |
# sleepyco:機能ピラミッドとコントラスト学習を備えた自動睡眠スコア SleePyCo: Automatic Sleep Scoring with Feature Pyramid and Contrastive Learning ( http://arxiv.org/abs/2209.09452v1 ) ライセンス: Link先を確認 | Seongju Lee, Yeonguk Yu, Seunghyeok Back, Hogeon Seo, Kyoobin Lee | (参考訳) 睡眠自動採点は睡眠障害の診断と治療に必須であり、家庭での睡眠追跡を可能にする。
従来,睡眠中にマルチチャネル信号を得るのが困難であるため,単チャンネル脳波による学習に基づく睡眠自動スコアリングが積極的に研究されている。
しかし,脳波信号からの学習表現は,次のような問題から困難である。
1)睡眠関連脳波パターンは時間的・頻度的に異なる。
2)睡眠段階は同様の脳波パターンを持つ。
これらの問題に対処するため,我々はSleePyCoというディープラーニングフレームワークを提案する。
1) 特徴ピラミッド,及び
2)自動睡眠得点のための教師付きコントラスト学習
特徴ピラミッドでは,異なる時間・周波数スケールで複数の特徴系列を検討するために,SleePyCo-backboneと呼ばれるバックボーンネットワークを提案する。
教師付きコントラスト学習(supervised contrastive learning)は,クラス内特徴間の距離を最小化し,クラス間特徴を最大化することによって,クラス識別的特徴を抽出する。
4つの公開データセットの比較分析は、SleePyCoが単一チャネルのEEGに基づいて既存のフレームワークを一貫して上回っていることを示している。
広範囲にわたるアブレーション実験により、SleePyCoは全体的な性能が向上し、N1とラピッドアイムーブメント(REM)ステージの識別が大幅に改善された。 Automatic sleep scoring is essential for the diagnosis and treatment of sleep disorders and enables longitudinal sleep tracking in home environments. Conventionally, learning-based automatic sleep scoring on single-channel electroencephalogram (EEG) is actively studied because obtaining multi-channel signals during sleep is difficult. However, learning representation from raw EEG signals is challenging owing to the following issues: 1) sleep-related EEG patterns occur on different temporal and frequency scales and 2) sleep stages share similar EEG patterns. To address these issues, we propose a deep learning framework named SleePyCo that incorporates 1) a feature pyramid and 2) supervised contrastive learning for automatic sleep scoring. For the feature pyramid, we propose a backbone network named SleePyCo-backbone to consider multiple feature sequences on different temporal and frequency scales. Supervised contrastive learning allows the network to extract class discriminative features by minimizing the distance between intra-class features and simultaneously maximizing that between inter-class features. Comparative analyses on four public datasets demonstrate that SleePyCo consistently outperforms existing frameworks based on single-channel EEG. Extensive ablation experiments show that SleePyCo exhibits enhanced overall performance, with significant improvements in discrimination between the N1 and rapid eye movement (REM) stages. | 翻訳日:2022-09-21 18:00:06 公開日:2022-09-20 |
# FACT: 整数列の背後にある抽象化を克服する学習 FACT: Learning Governing Abstractions Behind Integer Sequences ( http://arxiv.org/abs/2209.09543v1 ) ライセンス: Link先を確認 | Peter Belc\'ak, Ard Kastrati, Flavio Schenker, Roger Wattenhofer | (参考訳) 整数列は完全な有限項記述を許容する概念のモデリングにおいて重要である。
このような概念の学習に関する新たな見解を紹介し,機械学習モデルによる概念理解を目的とした,一連のベンチマークタスクを概説する。
これらのタスクは、モデルを抽象化する能力を間接的に評価し、代表例を観察することによって得られる知識から補間的および外挿的の両方を推論する。
知識表現と推論の研究をさらに支援するため,FACT(Finitary Abstraction Comprehension Toolkit)を提案する。
このツールキットは、有機的および合成的エントリ、データ前処理および生成のためのライブラリ、モデルパフォーマンス評価ツールのセット、およびベースラインモデル実装の集合からなる整数列の大規模なデータセットを取り囲んで、将来の進歩を容易に作成することができる。 Integer sequences are of central importance to the modeling of concepts admitting complete finitary descriptions. We introduce a novel view on the learning of such concepts and lay down a set of benchmarking tasks aimed at conceptual understanding by machine learning models. These tasks indirectly assess model ability to abstract, and challenge them to reason both interpolatively and extrapolatively from the knowledge gained by observing representative examples. To further aid research in knowledge representation and reasoning, we present FACT, the Finitary Abstraction Comprehension Toolkit. The toolkit surrounds a large dataset of integer sequences comprising both organic and synthetic entries, a library for data pre-processing and generation, a set of model performance evaluation tools, and a collection of baseline model implementations, enabling the making of the future advancements with ease. | 翻訳日:2022-09-21 17:59:44 公開日:2022-09-20 |
# ソフトアクション優先:ロバストな政策移行を目指す Soft Action Priors: Towards Robust Policy Transfer ( http://arxiv.org/abs/2209.09882v1 ) ライセンス: Link先を確認 | Matheus Centa and Philippe Preux | (参考訳) 多くの挑戦的な問題で成功したにもかかわらず、強化学習(RL)は、エージェントに事前知識を導入することで軽減されるサンプル不効率に直面している。
しかし、強化学習における多くの伝達技術は、教師が専門家であるという仮定を限定している。
本稿では,強化学習より先行したアクションを,ベイズ前ではなく教師方針に類似した各状態におけるアクションの分布を推論フレームワークとして活用し,最先端の政策蒸留手法を回収する。
そこで本研究では,報酬形成と補助正規化損失を組み合わせることで,行動先行を堅牢に活用できる適応手法のクラスを提案する。
従来の作業とは対照的に、私たちは、それでも価値のある知識を与える可能性のある、最適でない行動優先を活用できるアルゴリズムを開発しています。
提案アルゴリズムは,各状態における教師の有用性を推定し,教師のフィードバックの強さを調整することで適応する。
本研究では,提案手法が準最適先行学習において,最先端の性能を達成することを示す表計算実験を行った。
最後に, 適応アルゴリズムの頑健性を示すため, 既存の蒸留法と比較して, 適応アルゴリズムの安定性が大幅に向上した。 Despite success in many challenging problems, reinforcement learning (RL) is still confronted with sample inefficiency, which can be mitigated by introducing prior knowledge to agents. However, many transfer techniques in reinforcement learning make the limiting assumption that the teacher is an expert. In this paper, we use the action prior from the Reinforcement Learning as Inference framework - that is, a distribution over actions at each state which resembles a teacher policy, rather than a Bayesian prior - to recover state-of-the-art policy distillation techniques. Then, we propose a class of adaptive methods that can robustly exploit action priors by combining reward shaping and auxiliary regularization losses. In contrast to prior work, we develop algorithms for leveraging suboptimal action priors that may nevertheless impart valuable knowledge - which we call soft action priors. The proposed algorithms adapt by adjusting the strength of teacher feedback according to an estimate of the teacher's usefulness in each state. We perform tabular experiments, which show that the proposed methods achieve state-of-the-art performance, surpassing it when learning from suboptimal priors. Finally, we demonstrate the robustness of the adaptive algorithms in continuous action deep RL problems, in which adaptive algorithms considerably improved stability when compared to existing policy distillation methods. | 翻訳日:2022-09-21 17:53:21 公開日:2022-09-20 |
# クラスタリングアルゴリズムのベンチマークのためのフレームワーク A Framework for Benchmarking Clustering Algorithms ( http://arxiv.org/abs/2209.09493v1 ) ライセンス: Link先を確認 | Marek Gagolewski | (参考訳) クラスタリングアルゴリズムの評価は、様々なベンチマーク問題上でそれらを実行し、それらの出力を専門家が提供した基準的基幹グループと比較することで行うことができる。
残念なことに、多くの研究論文や研究論文は少数のデータセットしか考慮していない。
また、与えられた問題集合をクラスタリングする等しく有効な方法が多数存在するという事実もまれである。
これらの制限を克服するために,クラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
さらに,機械学習やデータマイニングの分野で参照される多数のクラスタリングベンチマークバッテリを集約,洗練,標準化し,さまざまな次元,サイズ,クラスタタイプのデータセットを新たに導入した。
インタラクティブなデータセットエクスプローラ、Python APIのドキュメント、RやMATLABといった他のプログラミング言語からのフレームワークとのインタラクション方法の説明、その他の詳細はすべてhttps://clustering-benchmarks.gagolewski.comで提供されている。 The evaluation of clustering algorithms can be performed by running them on a variety of benchmark problems, and comparing their outputs to the reference, ground-truth groupings provided by experts. Unfortunately, many research papers and graduate theses consider only a small number of datasets. Also, rarely the fact that there can be many equally valid ways to cluster a given problem set is taken into account. In order to overcome these limitations, we have developed a framework whose aim is to introduce a consistent methodology for testing clustering algorithms. Furthermore, we have aggregated, polished, and standardised many clustering benchmark batteries referred to across the machine learning and data mining literature, and included new datasets of different dimensionalities, sizes, and cluster types. An interactive datasets explorer, the documentation of the Python API, a description of the ways to interact with the framework from other programming languages such as R or MATLAB, and other details are all provided at https://clustering-benchmarks.gagolewski.com. | 翻訳日:2022-09-21 17:52:13 公開日:2022-09-20 |
# 深部物理学補正器:確率微分方程式を解くための物理強化深部学習アーキテクチャ Deep Physics Corrector: A physics enhanced deep learning architecture for solving stochastic differential equations ( http://arxiv.org/abs/2209.09750v1 ) ライセンス: Link先を確認 | Tushar and Souvik Chakraborty | (参考訳) 確率微分方程式(SDE)によって制御される物理系に対する新しいグレーボックスモデリングアルゴリズムを提案する。
提案手法はDeep Physics Corrector (DPC)と呼ばれ、SDEとDeep Neural Network (DNN)で表される近似物理学をブレンドする。
第一のアイデアは、DNNを利用して行方不明の物理学をモデル化することだ。
不完全な物理とデータを組み合わせることで、モデルは解釈可能になり、より一般化できるという仮説を立てる。
確率シミュレータのトレーニング代理モデルに関連する主なボトルネックは、しばしば適切な損失関数を選択することである。
文献で利用可能な異なる損失関数のうち,dpcの条件付き最大平均損失関数(cmmd)は,その性能が証明されている。
全体として、物理データ融合とCMMDにより、DPCはスパースデータから学習することができる。
提案するdpcの性能を,文献から得られた4つのベンチマーク例で示す。
その結果,確率シミュレータのサロゲートモデルとしての利用の可能性が示唆された。 We propose a novel gray-box modeling algorithm for physical systems governed by stochastic differential equations (SDE). The proposed approach, referred to as the Deep Physics Corrector (DPC), blends approximate physics represented in terms of SDE with deep neural network (DNN). The primary idea here is to exploit DNN to model the missing physics. We hypothesize that combining incomplete physics with data will make the model interpretable and allow better generalization. The primary bottleneck associated with training surrogate models for stochastic simulators is often associated with selecting the suitable loss function. Among the different loss functions available in the literature, we use the conditional maximum mean discrepancy (CMMD) loss function in DPC because of its proven performance. Overall, physics-data fusion and CMMD allow DPC to learn from sparse data. We illustrate the performance of the proposed DPC on four benchmark examples from the literature. The results obtained are highly accurate, indicating its possible application as a surrogate model for stochastic simulators. | 翻訳日:2022-09-21 17:51:40 公開日:2022-09-20 |
# 視覚認識のための動的グラフメッセージパッシングネットワーク Dynamic Graph Message Passing Networks for Visual Recognition ( http://arxiv.org/abs/2209.09760v1 ) ライセンス: Link先を確認 | Li Zhang, Mohan Chen, Anurag Arnab, Xiangyang Xue, Philip H.S. Torr | (参考訳) 長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
畳み込みニューラルネットワーク(cnns)は多くのビジョンタスクで優れているが、通常は局所カーネルの層で構成された長距離構造的関係を捉えることは制限されている。
トランスフォーマーの自己注意操作のような完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,完全連結グラフをモデル化する関連作業と比較して計算量を大幅に削減する動的グラフメッセージパッシングネットワークを提案する。
これは、メッセージパッシングのために入力に条件付きでグラフ内のノードを適応的にサンプリングすることで達成される。
サンプルノードに基づき,ノード依存フィルタ重みとそれらの間の情報伝達のための親和性行列を動的に予測する。
この定式化により、自己アテンションモジュールを設計することができ、さらに重要なのは、画像分類事前トレーニングと、さまざまな下流タスク(オブジェクト検出、インスタンス、セマンティックセグメンテーション)に使用するトランスフォーマーベースのバックボーンネットワークである。
このモデルを用いて,4つのタスクに対して,強靭で最先端のベースラインに対する大幅な改善を示す。
また,浮動小数点演算やパラメータをかなり少なくしながら,完全連結グラフよりも優れた手法を提案する。
コードとモデルはhttps://github.com/fudan-zvg/DGMN2で公開される。 Modelling long-range dependencies is critical for scene understanding tasks in computer vision. Although convolution neural networks (CNNs) have excelled in many vision tasks, they are still limited in capturing long-range structured relationships as they typically consist of layers of local kernels. A fully-connected graph, such as the self-attention operation in Transformers, is beneficial for such modelling, however, its computational overhead is prohibitive. In this paper, we propose a dynamic graph message passing network, that significantly reduces the computational complexity compared to related works modelling a fully-connected graph. This is achieved by adaptively sampling nodes in the graph, conditioned on the input, for message passing. Based on the sampled nodes, we dynamically predict node-dependent filter weights and the affinity matrix for propagating information between them. This formulation allows us to design a self-attention module, and more importantly a new Transformer-based backbone network, that we use for both image classification pretraining, and for addressing various downstream tasks (object detection, instance and semantic segmentation). Using this model, we show significant improvements with respect to strong, state-of-the-art baselines on four different tasks. Our approach also outperforms fully-connected graphs while using substantially fewer floating-point operations and parameters. Code and models will be made publicly available at https://github.com/fudan-zvg/DGMN2 | 翻訳日:2022-09-21 17:50:59 公開日:2022-09-20 |
# アウトオブディストリビューション検出のための極端に簡単なアクティベーションシェーピング Extremely Simple Activation Shaping for Out-of-Distribution Detection ( http://arxiv.org/abs/2209.09858v1 ) ライセンス: Link先を確認 | Andrija Djurisic, Nebojsa Bozanic, Arjun Ashok, Rosanne Liu | (参考訳) トレーニングと機械学習モデルのデプロイメントの分離は、デプロイメントで遭遇したすべてのシナリオがトレーニング中に予測できるわけではないことを意味するため、トレーニングの進歩のみに依存することが限界となる。
アウト・オブ・ディストリビューション(OOD)検出は、モデルが目に見えない状況に対処する能力をテストする重要な領域である。
既存のOOD検出方法は、追加のトレーニングステップ、追加データ、あるいはトレーニングされたネットワークに非自明な変更を加える。
対照的に,本研究では,試料の後期層での活性化の大部分(例:90%)を除去し,残りの部分(例:10%)を簡易あるいは軽快に調整する,極端に単純でポストホックなオンザフライ活性化成形法であるASHを提案する。
形状は推論時に適用され、トレーニングデータから計算された統計は不要である。
実験により、この単純な処理は、ImageNet上で最先端のOOD検出を可能にするために、分布内および分布外サンプルの区別を向上し、分布内精度を著しく低下させないことが示された。
2つの説明と検証を要求し、発見をさらに検証し理解するための集団的な力を信じている。
コール、ビデオ、コードは以下の通り。 The separation between training and deployment of machine learning models implies that not all scenarios encountered in deployment can be anticipated during training, and therefore relying solely on advancements in training has its limits. Out-of-distribution (OOD) detection is an important area that stress-tests a model's ability to handle unseen situations: Do models know when they don't know? Existing OOD detection methods either incur extra training steps, additional data or make nontrivial modifications to the trained network. In contrast, in this work, we propose an extremely simple, post-hoc, on-the-fly activation shaping method, ASH, where a large portion (e.g. 90%) of a sample's activation at a late layer is removed, and the rest (e.g. 10%) simplified or lightly adjusted. The shaping is applied at inference time, and does not require any statistics calculated from training data. Experiments show that such a simple treatment enhances in-distribution and out-of-distribution sample distinction so as to allow state-of-the-art OOD detection on ImageNet, and does not noticeably deteriorate the in-distribution accuracy. We release alongside the paper two calls for explanation and validation, believing the collective power to further validate and understand the discovery. Calls, video and code can be found at: https://andrijazz.github.io/ash | 翻訳日:2022-09-21 17:50:35 公開日:2022-09-20 |
# 簡単にできますか?
NLGのための簡易, 効率的, 高品質評価指標 Can we do that simpler? Simple, Efficient, High-Quality Evaluation Metrics for NLG ( http://arxiv.org/abs/2209.09593v1 ) ライセンス: Link先を確認 | Jens Gr\"unwald, Christoph Leiter, Steffen Eger | (参考訳) 自然言語生成(NLG)の効率的な評価指標について検討する。
効率的なメトリクスを実現するために
(i) bertscore、moverscore、bartscore、xmoverscoreなどのメトリクスにおける計算量の多いトランスフォーマーと、より軽いバージョン(蒸留したものなど)と
(ii)線形および二次近似による単語移動距離などの立方的推論時間アライメントアルゴリズム。
6つの評価指標(単言語と多言語の両方)を3つの異なる機械翻訳データセットで評価し,16個の軽量トランスフォーマーを代替として検討した。
私たちは、とりわけ、それを見つける。
(a)TinyBERTはBERTScoreファミリーのセマンティック類似度指標に最適な品質効率のトレードオフを示し、平均推定時間では99%の品質を維持し、5倍高速である。
(b)CPUとGPUのスピードアップには大きな違いがあり(CPUのスピードアップがかなり高い)、
(c) WMD近似は効率性は向上しないが, 検討した3つのデータセットのうち2つに対して, 品質が著しく低下する。 We explore efficient evaluation metrics for Natural Language Generation (NLG). To implement efficient metrics, we replace (i) computation-heavy transformers in metrics such as BERTScore, MoverScore, BARTScore, XMoverScore, etc. with lighter versions (such as distilled ones) and (ii) cubic inference time alignment algorithms such as Word Mover Distance with linear and quadratic approximations. We consider six evaluation metrics (both monolingual and multilingual), assessed on three different machine translation datasets, and 16 light-weight transformers as replacement. We find, among others, that (a) TinyBERT shows best quality-efficiency tradeoff for semantic similarity metrics of the BERTScore family, retaining 97\% quality and being 5x faster at inference time on average, (b) there is a large difference in speed-ups on CPU vs. GPU (much higher speed-ups on CPU), and (c) WMD approximations yield no efficiency gains but lead to a substantial drop in quality on 2 out of 3 datasets we examine. | 翻訳日:2022-09-21 17:44:33 公開日:2022-09-20 |
# 強化学習における局所制約表現 Locally Constrained Representations in Reinforcement Learning ( http://arxiv.org/abs/2209.09441v1 ) ライセンス: Link先を確認 | Somjit Nath and Samira Ebrahimi Kahou | (参考訳) 強化学習(rl)の成功は、環境の観察から堅牢な表現を学ぶ能力に大きく依存している。
ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。
しかし、学んだ表現は、目の前のタスクにあまり具体的ではない。
RL の目的にのみ依存すると、連続する時間ステップで大きく異なる表現が得られる。
さらに、rl損失はターゲットが変化するため、学習した表現は現在の値や政治家の良さに依存します。
したがって、メインタスクから表現を遠ざけることで、一般化を改善するトランジションダイナミクスのキャプチャにもっと集中することができる。
この目的のために、補助的損失により状態表現が隣接状態の表現によって予測可能となる局所的制約付き表現を提案する。
これにより、表現は価値/政治学習だけでなく、自己監督学習によっても駆動され、表現が急激な変化を妨げます。
提案手法をいくつかの既知のベンチマークで評価し,高い性能を示す。
特に連続制御タスクでは,実験は強いベースラインに対して大きな優位性を示す。 The success of Reinforcement Learning (RL) heavily relies on the ability to learn robust representations from the observations of the environment. In most cases, the representations learned purely by the reinforcement learning loss can differ vastly across states depending on how the value functions change. However, the representations learned need not be very specific to the task at hand. Relying only on the RL objective may yield representations that vary greatly across successive time steps. In addition, since the RL loss has a changing target, the representations learned would depend on how good the current values/policies are. Thus, disentangling the representations from the main task would allow them to focus more on capturing transition dynamics which can improve generalization. To this end, we propose locally constrained representations, where an auxiliary loss forces the state representations to be predictable by the representations of the neighbouring states. This encourages the representations to be driven not only by the value/policy learning but also self-supervised learning, which constrains the representations from changing too rapidly. We evaluate the proposed method on several known benchmarks and observe strong performance. Especially in continuous control tasks, our experiments show a significant advantage over a strong baseline. | 翻訳日:2022-09-21 17:43:21 公開日:2022-09-20 |
# ベースラインレグレット削減のための共用模擬強化学習フレームワーク A Joint Imitation-Reinforcement Learning Framework for Reduced Baseline Regret ( http://arxiv.org/abs/2209.09446v1 ) ライセンス: Link先を確認 | Sheelabhadra Dey, Sumedh Pendurkar, Guni Sharon, Josiah P. Hanna | (参考訳) 各種の制御タスクドメインでは、既存のコントローラは、おそらく最適ではないかもしれないが、ベースラインレベルのパフォーマンスを提供する。
状態と行動空間の広範な探索に依存する強化学習(RL)アルゴリズムは、制御ポリシーの最適化に使用できる。
しかし、完全探索RLアルゴリズムは、トレーニング中にベースラインレベル以下の性能を低下させる可能性がある。
本稿では,基本方針性能に対する後悔を最小限に抑えつつ,制御ポリシのオンライン最適化の問題に対処する。
本稿では,JIRLと表記される共用模倣強化学習フレームワークを提案する。
JIRLの学習プロセスはベースラインポリシーの可用性を前提としており、2つの目的を念頭に設計されている。
(a) ベースラインのオンラインデモンストレーションを活用して,トレーニング中のベースラインポリシーであるw.r.tを最小化する。
(b) 最終的にベースライン性能を超える。
JIRLは、最初にベースラインポリシーを模倣し、ベースラインからRLエージェントへ制御を徐々にシフトさせることで、これらの目的に対処する。
実験の結果,JIRLは複数の連続的な行動空間領域において,上記の目的を効果的に達成できることが示された。
その結果、JIRLは最終性能において最先端のアルゴリズムに匹敵するが、提示されたすべてのドメインでのトレーニングにおいて、ベースラインの後悔は著しく低いことが示されている。
さらに, 最先端のベースライン後悔最小化アプローチに対して, ベースライン後悔を最大21ドル削減する要因が示された。 In various control task domains, existing controllers provide a baseline level of performance that -- though possibly suboptimal -- should be maintained. Reinforcement learning (RL) algorithms that rely on extensive exploration of the state and action space can be used to optimize a control policy. However, fully exploratory RL algorithms may decrease performance below a baseline level during training. In this paper, we address the issue of online optimization of a control policy while minimizing regret w.r.t a baseline policy performance. We present a joint imitation-reinforcement learning framework, denoted JIRL. The learning process in JIRL assumes the availability of a baseline policy and is designed with two objectives in mind \textbf{(a)} leveraging the baseline's online demonstrations to minimize the regret w.r.t the baseline policy during training, and \textbf{(b)} eventually surpassing the baseline performance. JIRL addresses these objectives by initially learning to imitate the baseline policy and gradually shifting control from the baseline to an RL agent. Experimental results show that JIRL effectively accomplishes the aforementioned objectives in several, continuous action-space domains. The results demonstrate that JIRL is comparable to a state-of-the-art algorithm in its final performance while incurring significantly lower baseline regret during training in all of the presented domains. Moreover, the results show a reduction factor of up to $21$ in baseline regret over a state-of-the-art baseline regret minimization approach. | 翻訳日:2022-09-21 17:43:03 公開日:2022-09-20 |
# タスク優先政策構成に向けて Towards Task-Prioritized Policy Composition ( http://arxiv.org/abs/2209.09536v1 ) ライセンス: Link先を確認 | Finn Rietz, Erik Schaffernicht, Todor Stoyanov, Johannes A. Stork | (参考訳) モジュール設計が可能で、知識転送によるデータの再利用が容易であるため、学習したポリシを優先順位付け、順序付けした方法で組み合わせることが望ましい。
制御理論では、優先度付き合成は、低優先度制御アクションが高優先度制御アクションのヌルスペースに投影されるヌルスペース制御によって実現される。
このような方法は、現在強化学習では利用できない。
本稿では,強化学習のための新しいタスク優先型構成フレームワークを提案する。
本フレームワークは,強化学習エージェントのためのデータ効率とデータ再利用を大幅に向上しつつ,知識伝達とモジュール設計を促進する可能性を秘めている。
さらに,本手法は,ロボット工学のような安全クリティカルな分野の学習を約束する,優先度の高い制約満足度を確保する。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。 Combining learned policies in a prioritized, ordered manner is desirable because it allows for modular design and facilitates data reuse through knowledge transfer. In control theory, prioritized composition is realized by null-space control, where low-priority control actions are projected into the null-space of high-priority control actions. Such a method is currently unavailable for Reinforcement Learning. We propose a novel, task-prioritized composition framework for Reinforcement Learning, which involves a novel concept: The indifferent-space of Reinforcement Learning policies. Our framework has the potential to facilitate knowledge transfer and modular design while greatly increasing data efficiency and data reuse for Reinforcement Learning agents. Further, our approach can ensure high-priority constraint satisfaction, which makes it promising for learning in safety-critical domains like robotics. Unlike null-space control, our approach allows learning globally optimal policies for the compound task by online learning in the indifference-space of higher-level policies after initial compound policy construction. | 翻訳日:2022-09-21 17:42:41 公開日:2022-09-20 |
# Exemplarsによる説明可能なクラスタリング:複雑さと効率的な近似アルゴリズム Explainable Clustering via Exemplars: Complexity and Efficient Approximation Algorithms ( http://arxiv.org/abs/2209.09670v1 ) ライセンス: Link先を確認 | Ian Davidson, Michael Livanos, Antoine Gourru, Peter Walker, Julien Velcin and S. S. Ravi | (参考訳) 説明可能なAI(XAI)は重要な開発領域であるが、クラスタリングの分野ではまだ比較的過小評価されている。
本稿では,クラスタを探索するだけでなく,各クラスタを説明する実例を探索する手法を提案する。
理解のための例題の使用は、心理学における例題ベースの概念定義学派によって支持されている。
1つのクラスタでさえも説明できるような小さな例を見つけることは計算に難解であることを示し、全体的な問題は困難である。
本稿では,クラスタリングの品質および使用例数に関して,証明可能な性能保証を提供する近似アルゴリズムを開発した。
この基本的なアルゴリズムは、各クラスタのすべてのインスタンスを解析する一方、別の近似アルゴリズムは、より単純な説明を可能にするために、境界付けられた多数の例を使って、すべてのインスタンスの大部分を確実にカバーする。
画像やテキストの深い埋め込みを理解するのが難しい領域では,本研究が有用であることを示す。 Explainable AI (XAI) is an important developing area but remains relatively understudied for clustering. We propose an explainable-by-design clustering approach that not only finds clusters but also exemplars to explain each cluster. The use of exemplars for understanding is supported by the exemplar-based school of concept definition in psychology. We show that finding a small set of exemplars to explain even a single cluster is computationally intractable; hence, the overall problem is challenging. We develop an approximation algorithm that provides provable performance guarantees with respect to clustering quality as well as the number of exemplars used. This basic algorithm explains all the instances in every cluster whilst another approximation algorithm uses a bounded number of exemplars to allow simpler explanations and provably covers a large fraction of all the instances. Experimental results show that our work is useful in domains involving difficult to understand deep embeddings of images and text. | 翻訳日:2022-09-21 17:42:25 公開日:2022-09-20 |
# SCGG: 深い構造を持つグラフ生成モデル SCGG: A Deep Structure-Conditioned Graph Generative Model ( http://arxiv.org/abs/2209.09681v1 ) ライセンス: Link先を確認 | Faezeh Faez, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah, Hamid R. Rabiee | (参考訳) ディープラーニングベースのグラフ生成アプローチは、グラフデータモデリングに顕著な能力を持ち、幅広い現実世界の問題を解決することができる。
これらの手法を生成手順中に異なる条件を考慮できるようにすることで、所望の基準を満たす新しいグラフサンプルを生成することで、その効果をさらに高めることができる。
本稿では,特定の構造条件を考慮した条件付き深層グラフ生成法であるscggを提案する。
特に,提案するscggモデルでは,初期サブグラフを自動生成し,与えられた条件付きサブ構造の上に新しいノードとそのエッジを生成する。
SCGGのアーキテクチャは、グラフ表現学習ネットワークと、エンドツーエンドで訓練された自己回帰生成モデルで構成される。
このモデルを用いることで、グラフの完全性、欠落したノードとその関連エッジの回復という、本質的に困難な問題に対処できる。
合成と実世界の両方のデータセットに対する実験結果は,最先端のベースラインと比較して,本手法の優位性を示している。 Deep learning-based graph generation approaches have remarkable capacities for graph data modeling, allowing them to solve a wide range of real-world problems. Making these methods able to consider different conditions during the generation procedure even increases their effectiveness by empowering them to generate new graph samples that meet the desired criteria. This paper presents a conditional deep graph generation method called SCGG that considers a particular type of structural conditions. Specifically, our proposed SCGG model takes an initial subgraph and autoregressively generates new nodes and their corresponding edges on top of the given conditioning substructure. The architecture of SCGG consists of a graph representation learning network and an autoregressive generative model, which is trained end-to-end. Using this model, we can address graph completion, a rampant and inherently difficult problem of recovering missing nodes and their associated edges of partially observed graphs. Experimental results on both synthetic and real-world datasets demonstrate the superiority of our method compared with state-of-the-art baselines. | 翻訳日:2022-09-21 17:42:09 公開日:2022-09-20 |
# 電気自動車用強化ラグランジアンを用いた深層強化学習型充電スケジューリング手法 A Deep Reinforcement Learning-Based Charging Scheduling Approach with Augmented Lagrangian for Electric Vehicle ( http://arxiv.org/abs/2209.09772v1 ) ライセンス: Link先を確認 | Guibin. Chen and Xiaoying. Shi | (参考訳) 本稿では、需要応答(DR)に参加する際に電気自動車(EV)の充電/放電スケジュールを最適化する問題に対処する。
EVの残エネルギー、到着・出発時間、将来の電気価格に不確実性が存在するため、EVの電池状態(SOC)が一定の範囲内であることを保証しながら充電コストを最小化するために充電決定を行うことは極めて困難である。
本稿では、このジレンマに対処するため、EV充電スケジューリング問題を制約付きマルコフ決定過程(CMDP)として定式化する。
拡張ラグランジアン法とソフトアクター批判アルゴリズムを相乗的に組み合わせることで, CMDPを解くために, 安全な非政治強化学習(RL)手法を提案する。
アクタネットワークは、ラグランジアン値関数と共にポリシー勾配的に更新される。
二重批判ネットワークを用いて、動作値関数を同期的に推定し、過大評価バイアスを回避する。
提案アルゴリズムは, 高い凸性保証を必要としないため, 試料効率がよい。
実世界の電力価格を用いた包括的数値実験により,提案手法が解の最適性と制約の遵守を実現できることを示す。 This paper addresses the problem of optimizing charging/discharging schedules of electric vehicles (EVs) when participate in demand response (DR). As there exist uncertainties in EVs' remaining energy, arrival and departure time, and future electricity prices, it is quite difficult to make charging decisions to minimize charging cost while guarantee that the EV's battery state-of-the-charge (SOC) is within certain range. To handle with this dilemma, this paper formulates the EV charging scheduling problem as a constrained Markov decision process (CMDP). By synergistically combining the augmented Lagrangian method and soft actor critic algorithm, a novel safe off-policy reinforcement learning (RL) approach is proposed in this paper to solve the CMDP. The actor network is updated in a policy gradient manner with the Lagrangian value function. A double-critics network is adopted to synchronously estimate the action-value function to avoid overestimation bias. The proposed algorithm does not require strong convexity guarantee of examined problems and is sample efficient. Comprehensive numerical experiments with real-world electricity price demonstrate that our proposed algorithm can achieve high solution optimality and constraints compliance. | 翻訳日:2022-09-21 17:41:55 公開日:2022-09-20 |
# スケーラブル超次元計算のためのストリーミング符号化アルゴリズム Streaming Encoding Algorithms for Scalable Hyperdimensional Computing ( http://arxiv.org/abs/2209.09868v1 ) ライセンス: Link先を確認 | Anthony Thomas, Behnam Khaleghi, Gopi Krishna Jha, Nageen Himayat, Ravi Iyer, Nilesh Jain, Tajana Rosing | (参考訳) hyperdimensional computing (hdc) は、計算神経科学を起源とするデータ表現と学習のためのパラダイムである。
HDCはデータを高次元の低精度ベクトルとして表現し、学習やリコールといった様々な情報処理タスクに使用できる。
高次元空間へのマッピングはHDCの基本的な問題であり、入力データ自体が高次元である場合、既存の手法はスケーラビリティの問題に直面する。
本稿では,ハッシュ化に基づくストリーミングエンコーディング手法のファミリーについて検討する。
我々は,これらの手法が既存の代替手段よりもはるかに効率的でありながら,学習アプリケーションの性能に匹敵する保証を享受できることを正式に示す。
これらの結果を,一般的な高次元分類問題を用いて実験的に検証し,そのアプローチが大規模データセットに容易に拡張できることを示す。 Hyperdimensional computing (HDC) is a paradigm for data representation and learning originating in computational neuroscience. HDC represents data as high-dimensional, low-precision vectors which can be used for a variety of information processing tasks like learning or recall. The mapping to high-dimensional space is a fundamental problem in HDC, and existing methods encounter scalability issues when the input data itself is high-dimensional. In this work, we explore a family of streaming encoding techniques based on hashing. We show formally that these methods enjoy comparable guarantees on performance for learning applications while being substantially more efficient than existing alternatives. We validate these results experimentally on a popular high-dimensional classification problem and show that our approach easily scales to very large data sets. | 翻訳日:2022-09-21 17:35:03 公開日:2022-09-20 |
# CofeNet: 複雑な引用抽出のためのコンテキストと元ラベル拡張ネット CofeNet: Context and Former-Label Enhanced Net for Complicated Quotation Extraction ( http://arxiv.org/abs/2209.09432v1 ) ライセンス: Link先を確認 | Yequan Wang, Xiang Li, Aixin Sun, Xuying Meng, Huaming Liao, Jiafeng Guo | (参考訳) 引用抽出は、文章から引用を抽出することを目的としている。
引用には3つの要素がある: ソースは引用の保持者を指し、キューはトリガーワードであり、コンテンツは本体である。
引用抽出のための既存のソリューションは主にルールベースのアプローチとシーケンスラベリングモデルを利用している。
ルールベースのアプローチはしばしばリコールを少なくするが、シーケンスラベリングモデルは複雑な構造を持つ引用をうまく扱えない。
本稿では、引用抽出のためのContext and former-Label Enhanced Net(CofeNet)を提案する。
CofeNetは可変長と複雑な構造を持つ複雑な引用を抽出することができる。
2つの公開データセット(すなわち PolNeAR と Riqua)と1つのプロプライエタリデータセット(すなわち PoliticsZH)では、複雑な引用抽出でCofeNetが最先端のパフォーマンスを達成することを示す。 Quotation extraction aims to extract quotations from written text. There are three components in a quotation: source refers to the holder of the quotation, cue is the trigger word(s), and content is the main body. Existing solutions for quotation extraction mainly utilize rule-based approaches and sequence labeling models. While rule-based approaches often lead to low recalls, sequence labeling models cannot well handle quotations with complicated structures. In this paper, we propose the Context and Former-Label Enhanced Net (CofeNet) for quotation extraction. CofeNet is able to extract complicated quotations with components of variable lengths and complicated structures. On two public datasets (i.e., PolNeAR and Riqua) and one proprietary dataset (i.e., PoliticsZH), we show that our CofeNet achieves state-of-the-art performance on complicated quotation extraction. | 翻訳日:2022-09-21 17:34:47 公開日:2022-09-20 |
# 多様な論理応答生成への因果解析の導入 Incorporating Casual Analysis into Diversified and Logical Response Generation ( http://arxiv.org/abs/2209.09482v1 ) ライセンス: Link先を確認 | Jiayi Liu, Wei Wei, Zhixuan Chu, Xing Gao, Ji Zhang, Tan Yan and Yulin Kang | (参考訳) Conditional Variational AutoEncoder (CVAE) モデルは従来のSeq2Seqモデルよりも多様な応答を生成できるが、応答は入力語との関係が低い場合が多い。
背景となる理由を研究するために因果解析を行い、対話における媒介者を探し出し、矛盾するバイアスを軽減する方法を提供する。
具体的には,メディエータが関連する情報を保持することを予測し,メディエータを自動回帰的に生成プロセスに組み込むことを提案する。
さらに、動的トピックグラフ誘導条件変分オートエンコーダ(TGG-CVAE)モデルを用いて、セマンティック空間を補完し、応答の共起バイアスを低減する。
大規模な実験により、提案モデルが関連する応答と情報の両方を生成できることが示され、自動測定と人的評価の点において最先端の性能を向上する。 Although the Conditional Variational AutoEncoder (CVAE) model can generate more diversified responses than the traditional Seq2Seq model, the responses often have low relevance with the input words or are illogical with the question. A causal analysis is carried out to study the reasons behind, and a methodology of searching for the mediators and mitigating the confounding bias in dialogues is provided. Specifically, we propose to predict the mediators to preserve relevant information and auto-regressively incorporate the mediators into generating process. Besides, a dynamic topic graph guided conditional variational autoencoder (TGG-CVAE) model is utilized to complement the semantic space and reduce the confounding bias in responses. Extensive experiments demonstrate that the proposed model is able to generate both relevant and informative responses, and outperforms the state-of-the-art in terms of automatic metrics and human evaluations. | 翻訳日:2022-09-21 17:34:32 公開日:2022-09-20 |
# 電子商取引におけるマルチソース事前知識による顧客レビューに対する説得応答の生成 Generating Persuasive Responses to Customer Reviews with Multi-Source Prior Knowledge in E-commerce ( http://arxiv.org/abs/2209.09497v1 ) ライセンス: Link先を確認 | Bo Chen, Jiayi Liu, Mieradilijiang Maimaiti, Xing Gao and Ji Zhang | (参考訳) 顧客レビューは通常、オンラインショッピング体験に関する多くの情報を含んでいる。
肯定的なレビューは店舗にとって有益であるが、否定的なレビューは消費者の決定に大きく影響を与え、販売が減少する可能性がある。
したがって、各否定的なレビューに対して慎重に説得力強く回答し、その不利な効果を最小限に抑えることが極めて重要である。
最近の研究では、販売者を支援するために世代モデルを活用することを検討している。
しかし、レビューにはそれに応じて解決すべき問題が複数含まれている可能性があるため、この問題は十分に適応されていない。
そこで本研究では,マルチソースマルチaspect有意な応答生成モデルを提案する。
より情報的かつ説得的な応答を生成するために,提案モデルにより様々な情報ソースを適切に取得し,活用する。
レビューにおいて、様々な側面に自動的に参加し、ほとんどの問題に取り組むために、マルチアスペクト注意ネットワークを提案する。
2つの実世界のデータセットに対する大規模な実験により、我々のアプローチは最先端の手法よりも優れており、オンラインテストは、我々のデプロイされたシステムが、ネガティブなレビューを扱う店舗の効率を大幅に向上することを示す。 Customer reviews usually contain much information about one's online shopping experience. While positive reviews are beneficial to the stores, negative ones will largely influence consumers' decision and may lead to a decline in sales. Therefore, it is of vital importance to carefully and persuasively reply to each negative review and minimize its disadvantageous effect. Recent studies consider leveraging generation models to help the sellers respond. However, this problem is not well-addressed as the reviews may contain multiple aspects of issues which should be resolved accordingly and persuasively. In this work, we propose a Multi-Source Multi-Aspect Attentive Generation model for persuasive response generation. Various sources of information are appropriately obtained and leveraged by the proposed model for generating more informative and persuasive responses. A multi-aspect attentive network is proposed to automatically attend to different aspects in a review and ensure most of the issues are tackled. Extensive experiments on two real-world datasets, demonstrate that our approach outperforms the state-of-the-art methods and online tests prove that our deployed system significantly enhances the efficiency of the stores' dealing with negative reviews. | 翻訳日:2022-09-21 17:34:15 公開日:2022-09-20 |
# 時間知識グラフ間のエンティティアライメントのための簡易時間情報マッチング機構 A Simple Temporal Information Matching Mechanism for Entity Alignment Between Temporal Knowledge Graphs ( http://arxiv.org/abs/2209.09677v1 ) ライセンス: Link先を確認 | Li Cai, Xin Mao, Meirong Ma, Hao Yuan, Jianchao Zhu, Man Lan | (参考訳) エンティティアライメント(EA)は、現実世界で同じオブジェクトを参照する異なる知識グラフ(KG)内のエンティティを見つけることを目的としている。
最近の研究は、KGの表現を増強するために時間情報を含んでいる。
時間的KG(TKG)間のEAのための既存の手法は、時間的注意機構を利用して、関係性や時間的情報をエンティティの埋め込みに組み込む。
この手法は時間情報を用いて従来の手法よりも優れている。
しかし、ほとんどのTKGが一様時間表現を持つため、KGに時間情報の埋め込みを学習する必要はないと我々は信じている。
そこで本研究では,時間的情報マッチング機構を併用した単純なグラフニューラルネットワーク(gnn)モデルを提案する。
さらに,アライメント種子は実世界の用途ではラベル付けが難しいため,TKGの時間的情報を用いて,教師なしアライメント種子を生成する方法も提案する。
公開データセットに関する広範囲な実験は,教師あり手法が従来の手法を大幅に上回っており,教師なし手法が競合性能を持っていることを示している。 Entity alignment (EA) aims to find entities in different knowledge graphs (KGs) that refer to the same object in the real world. Recent studies incorporate temporal information to augment the representations of KGs. The existing methods for EA between temporal KGs (TKGs) utilize a time-aware attention mechanism to incorporate relational and temporal information into entity embeddings. The approaches outperform the previous methods by using temporal information. However, we believe that it is not necessary to learn the embeddings of temporal information in KGs since most TKGs have uniform temporal representations. Therefore, we propose a simple graph neural network (GNN) model combined with a temporal information matching mechanism, which achieves better performance with less time and fewer parameters. Furthermore, since alignment seeds are difficult to label in real-world applications, we also propose a method to generate unsupervised alignment seeds via the temporal information of TKG. Extensive experiments on public datasets indicate that our supervised method significantly outperforms the previous methods and the unsupervised one has competitive performance. | 翻訳日:2022-09-21 17:33:58 公開日:2022-09-20 |
# シーケンシャル・ツー・シーケンスモデルプロンプトのためのラベルシーケンスの自動生成 Automatic Label Sequence Generation for Prompting Sequence-to-sequence Models ( http://arxiv.org/abs/2209.09401v1 ) ライセンス: Link先を確認 | Zichun Yu, Tianyu Gao, Zhengyan Zhang, Yankai Lin, Zhiyuan Liu, Maosong Sun and Jie Zhou | (参考訳) 下流のアプリケーションを言語モデリングタスクとして活用するPromptingは、事前訓練されたモデルによる標準的な微調整に比べて、サンプル効率が良い。
しかしながら、プロンプトの落とし穴のひとつは、手動で設計したパターンの必要性である。
To tackle the challenge, we propose AutoSeq, a fully automatic prompting method: (1) We adopt natural language prompts on sequence-to-sequence models, enabling free-form generation and larger label search space; (2) We propose label sequences -- phrases with indefinite lengths to verbalize the labels -- which eliminate the need of manual templates and are more expressive than single label words; (3) We use beam search to automatically generate a large amount of label sequence candidates and propose contrastive re-ranking to get the best combinations.
AutoSeqは、ソフトプロンプトチューニング、アダプタチューニング、シングルラベル語の自動検索など、他の非マニュアル設計手法よりも優れている。
提案手法は,数点学習におけるシーケンス列モデルの可能性を明らかにし,汎用的かつ自動的なプロンプトへの経路に光を当てる。
本論文のソースコードはhttps://github.com/thunlp/Seq2Seq-Promptから取得できる。 Prompting, which casts downstream applications as language modeling tasks, has shown to be sample efficient compared to standard fine-tuning with pre-trained models. However, one pitfall of prompting is the need of manually-designed patterns, whose outcome can be unintuitive and requires large validation sets to tune. To tackle the challenge, we propose AutoSeq, a fully automatic prompting method: (1) We adopt natural language prompts on sequence-to-sequence models, enabling free-form generation and larger label search space; (2) We propose label sequences -- phrases with indefinite lengths to verbalize the labels -- which eliminate the need of manual templates and are more expressive than single label words; (3) We use beam search to automatically generate a large amount of label sequence candidates and propose contrastive re-ranking to get the best combinations. AutoSeq significantly outperforms other no-manual-design methods, such as soft prompt tuning, adapter tuning, and automatic search on single label words; the generated label sequences are even better than curated manual ones on a variety of tasks. Our method reveals the potential of sequence-to-sequence models in few-shot learning and sheds light on a path to generic and automatic prompting. The source code of this paper can be obtained from https://github.com/thunlp/Seq2Seq-Prompt. | 翻訳日:2022-09-21 17:33:39 公開日:2022-09-20 |
# 部分構造的出力学習のための弱解法 Weak Disambiguation for Partial Structured Output Learning ( http://arxiv.org/abs/2209.09410v1 ) ライセンス: Link先を確認 | Xiaolei Lu, Tommy W.S.Chow | (参考訳) 部分的構造化アウトプット学習のための既存の曖昧さ回避戦略は、単にうまく一般化できず、偽陽性あるいは接地ラベルに類似する候補が存在するという問題を解決することができる。
本稿では,部分的構造化出力学習(WD-PSL)のための新しい弱い曖昧さを提案する。
まず,分節大マージンの定式化を部分構造化アウトプット学習に一般化し,複雑な構造に対する多数の候補構造化アウトプットの扱いを効果的に回避する。
第二に、提案する弱曖昧化戦略において、各候補ラベルは、学習プロセスにおける誤った基底ラベル割り当ての悪影響を減らすことを目的として、真のラベルの確率を示す信頼度値が割り当てられる。
次に、2つの大きなマージンが定式化され、候補と非候補との曖昧さと、候補に対する弱い曖昧さの2つのタイプの制約が組み合わされる。
交互最適化の枠組みでは、最適化の各イテレーションを高速化するために、新しい2n-slack変数切断平面アルゴリズムを開発した。
自然言語処理における複数のシーケンスラベリングタスクの実験結果は,提案モデルの有効性を示す。 Existing disambiguation strategies for partial structured output learning just cannot generalize well to solve the problem that there are some candidates which can be false positive or similar to the ground-truth label. In this paper, we propose a novel weak disambiguation for partial structured output learning (WD-PSL). First, a piecewise large margin formulation is generalized to partial structured output learning, which effectively avoids handling large number of candidate structured outputs for complex structures. Second, in the proposed weak disambiguation strategy, each candidate label is assigned with a confidence value indicating how likely it is the true label, which aims to reduce the negative effects of wrong ground-truth label assignment in the learning process. Then two large margins are formulated to combine two types of constraints which are the disambiguation between candidates and non-candidates, and the weak disambiguation for candidates. In the framework of alternating optimization, a new 2n-slack variables cutting plane algorithm is developed to accelerate each iteration of optimization. The experimental results on several sequence labeling tasks of Natural Language Processing show the effectiveness of the proposed model. | 翻訳日:2022-09-21 17:33:18 公開日:2022-09-20 |
# 一対多意味コミュニケーションシステム:設計、実装、性能評価 One-to-Many Semantic Communication Systems: Design, Implementation, Performance Evaluation ( http://arxiv.org/abs/2209.09425v1 ) ライセンス: Link先を確認 | Han Hu, Xingwu Zhu, Fuhui Zhou, Wei Wu, Rose Qingyang Hu, and Hongbo Zhu | (参考訳) 6G時代の意味コミュニケーションは、従来のコミュニケーションのボトルネックを突破する有望なコミュニケーションパラダイムとみなされてきた。
しかし、マルチユーザシナリオ、特にブロードキャスティングケースに対するその応用は未検討のままである。
本稿では,セマンティックコミュニケーションによるメリットを効果的に活用するために,一対多のセマンティックコミュニケーションシステムを提案する。
具体的には、MR\_DeepSCと呼ばれるディープニューラルネットワーク(DNN)を利用したセマンティック通信システムを提案する。
異なるユーザに対するセマンティック機能を活用することで、事前訓練されたモデル、すなわちDistilBERTに基づくセマンティック認識が、異なるユーザを区別するために構築される。
さらに、新しい受信ネットワークのトレーニングを高速化するために、転送学習を採用する。
シミュレーションの結果,提案するmr\_deepscは,異なるチャネル条件,特に低信号対雑音比 (snr) 環境下でのbleuスコアにおいて,最良性能が得られることがわかった。 Semantic communication in the 6G era has been deemed a promising communication paradigm to break through the bottleneck of traditional communications. However, its applications for the multi-user scenario, especially the broadcasting case, remain under-explored. To effectively exploit the benefits enabled by semantic communication, in this paper, we propose a one-to-many semantic communication system. Specifically, we propose a deep neural network (DNN) enabled semantic communication system called MR\_DeepSC. By leveraging semantic features for different users, a semantic recognizer based on the pre-trained model, i.e., DistilBERT, is built to distinguish different users. Furthermore, the transfer learning is adopted to speed up the training of new receiver networks. Simulation results demonstrate that the proposed MR\_DeepSC can achieve the best performance in terms of BLEU score than the other benchmarks under different channel conditions, especially in the low signal-to-noise ratio (SNR) regime. | 翻訳日:2022-09-21 17:33:01 公開日:2022-09-20 |
# 群衆によるシーケンスラベリングのための逐次アノテーションのモデル化 Modeling sequential annotations for sequence labeling with crowds ( http://arxiv.org/abs/2209.09430v1 ) ライセンス: Link先を確認 | Xiaolei Lu, Tommy W.S.Chow | (参考訳) クラウドシーケンシャルアノテーションは、シーケンスラベリングのための大規模なデータセットを構築するための効率的でコスト効率のよい方法である。
独立インスタンスのタグ付けとは異なり、クラウドシーケンシャルアノテーションでは、ラベルシーケンスの品質は、シーケンス内の各トークンの内部依存関係をキャプチャするアノテータの専門レベルに依存する。
本稿では,群集を用いたシーケンスラベリングのための逐次アノテーションのモデル化を提案する。
まず、逐次的データとアノテータの専門知識を共同でモデル化する条件確率モデルを構築し、各アノテータの局所的および非局所的なラベル依存を逐次的アノテーションとして捉える際の信頼性を推定するために分類分布を導入する。
提案するモデルの限界化を加速するため,クラウドシーケンシャルアノテーションから有効な基底構造ラベルシーケンスを導出する有効なラベルシーケンス推論(VLSE)法を提案する。
VLSEはトークンワイドレベルからゼロトラスラベルを導出し、さらにラベルシーケンス復号のためのフォワード推論においてサブパスをプーンする。
VLSEは、候補ラベルシーケンスの数を減らし、可能な基底構造ラベルシーケンスの品質を向上させる。
自然言語処理における複数のシーケンスラベリングタスクの実験結果は,提案モデルの有効性を示す。 Crowd sequential annotations can be an efficient and cost-effective way to build large datasets for sequence labeling. Different from tagging independent instances, for crowd sequential annotations the quality of label sequence relies on the expertise level of annotators in capturing internal dependencies for each token in the sequence. In this paper, we propose Modeling sequential annotation for sequence labeling with crowds (SA-SLC). First, a conditional probabilistic model is developed to jointly model sequential data and annotators' expertise, in which categorical distribution is introduced to estimate the reliability of each annotator in capturing local and non-local label dependency for sequential annotation. To accelerate the marginalization of the proposed model, a valid label sequence inference (VLSE) method is proposed to derive the valid ground-truth label sequences from crowd sequential annotations. VLSE derives possible ground-truth labels from the token-wise level and further prunes sub-paths in the forward inference for label sequence decoding. VLSE reduces the number of candidate label sequences and improves the quality of possible ground-truth label sequences. The experimental results on several sequence labeling tasks of Natural Language Processing show the effectiveness of the proposed model. | 翻訳日:2022-09-21 17:32:44 公開日:2022-09-20 |
# 説明に学ぶ:科学質問応答のための思考連鎖によるマルチモーダル推論 Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering ( http://arxiv.org/abs/2209.09513v1 ) ライセンス: Link先を確認 | Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan | (参考訳) 質問に答える際、人間は様々なモダリティで利用可能な情報を利用して、一貫性のある完全な思考の連鎖(CoT)を合成する。
このプロセスは通常、大規模言語モデルのようなディープラーニングモデルの場合、ブラックボックスになります。
近年、AIシステムのマルチホップ推論能力と解釈可能性の診断に科学質問ベンチマークが使用されている。
しかし、既存のデータセットは回答に対するアノテーションを提供できないか、テキストのみのモダリティ、小さなスケール、ドメインの多様性に制限されている。
そこで本研究では,21kのマルチモーダル・マルチチョイス質問と,科学トピックの多種多様な集合と,それらの回答の注釈と対応する講義や説明からなる,新たなベンチマークであるscience question answering(sqa)を提案する。
我々はさらに言語モデルを設計し、SQA質問に答える際のマルチホップ推論過程を模倣する思考の連鎖(CoT)として講義や説明を生成することを学ぶ。
SQA は言語モデルにおける CoT の有用性を示し、CoT は数ショット GPT-3 では 1.20%、微調整 UnifiedQA では 3.99% の回答性能を改善している。
また,GPT-3の少数ショット性能を18.96%向上させるため,入力中のモデルに入力を供給して説明を活用できる上限についても検討した。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するために、説明の恩恵を受けることを示している。 When answering a question, humans utilize the information available across different modalities to synthesize a consistent and complete chain of thought (CoT). This process is normally a black box in the case of deep learning models like large-scale language models. Recently, science question benchmarks have been used to diagnose the multi-hop reasoning ability and interpretability of an AI system. However, existing datasets fail to provide annotations for the answers, or are restricted to the textual-only modality, small scales, and limited domain diversity. To this end, we present Science Question Answering (SQA), a new benchmark that consists of ~21k multimodal multiple choice questions with a diverse set of science topics and annotations of their answers with corresponding lectures and explanations. We further design language models to learn to generate lectures and explanations as the chain of thought (CoT) to mimic the multi-hop reasoning process when answering SQA questions. SQA demonstrates the utility of CoT in language models, as CoT improves the question answering performance by 1.20% in few-shot GPT-3 and 3.99% in fine-tuned UnifiedQA. We also explore the upper bound for models to leverage explanations by feeding those in the input; we observe that it improves the few-shot performance of GPT-3 by 18.96%. Our analysis further shows that language models, similar to humans, benefit from explanations to learn from fewer data and achieve the same performance with just 40% of the data. | 翻訳日:2022-09-21 17:27:17 公開日:2022-09-20 |
# 複数出口を持つDNNにおける教師なし早期退避 Unsupervised Early Exit in DNNs with Multiple Exits ( http://arxiv.org/abs/2209.09480v1 ) ライセンス: Link先を確認 | Hari Narayan N U and Manjesh K. Hanawal and Avinash Bhardwaj | (参考訳) Deep Neural Networks (DNN) は一般的に、最終層にのみ接続される予測モジュールを備えた、逐次カスケード可能なブロック/層として設計されている。
dnnはバックボーンに沿って複数のポイントに予測モジュールをアタッチでき、推論はすべてのモジュールを通さずに中間段階で停止することができる。
最後の出口はより良い予測エラーをもたらすかもしれないが、より多くの計算リソースとレイテンシも伴う。
予測誤差とコストの両方の観点から「最適」である出口が望ましい。
最適出口はタスクの潜在分布に依存し、あるタスクタイプから別のタスクタイプに変化する可能性がある。
ニューラル推論では、インスタンスの基底的真理は利用できず、各出口における誤差率は推定できない。
したがって、教師なしの設定で最適出口を選択する問題に直面している。
先行研究では、各出口の誤差率を推定し、より精度良くパラメータをチューニングするために十分なラベル付きデータが利用できると仮定したオフラインの教師付き設定でこの問題に対処した。
しかし、訓練済みのDNNは、多くの場合、大量の真実が得られない新しいドメインにデプロイされる。
出口選択の問題を教師なしオンライン学習問題としてモデル化し,バンディット理論を用いて最適出口を同定する。
具体的には、事前訓練されたマルチエクイットDNNであるElastic BERTに着目し、Strong Dominance(SD)プロパティを"ほぼ"満足していることを示す。
UEE-UCBと名づけられた上位信頼境界(UCB)に基づくアルゴリズムを開発し,SD特性下でのサブ線形後悔を確実に達成する。
そこで本手法は,DNNにおけるドメイン固有最適出口点を適応的に学習する手段を提供する。
IMDbとYelpのデータセットでアルゴリズムを実証的に検証する。 Deep Neural Networks (DNNs) are generally designed as sequentially cascaded differentiable blocks/layers with a prediction module connected only to its last layer. DNNs can be attached with prediction modules at multiple points along the backbone where inference can stop at an intermediary stage without passing through all the modules. The last exit point may offer a better prediction error but also involves more computational resources and latency. An exit point that is `optimal' in terms of both prediction error and cost is desirable. The optimal exit point may depend on the latent distribution of the tasks and may change from one task type to another. During neural inference, the ground truth of instances may not be available and error rates at each exit point cannot be estimated. Hence one is faced with the problem of selecting the optimal exit in an unsupervised setting. Prior works tackled this problem in an offline supervised setting assuming that enough labeled data is available to estimate the error rate at each exit point and tune the parameters for better accuracy. However, pre-trained DNNs are often deployed in new domains for which a large amount of ground truth may not be available. We model the problem of exit selection as an unsupervised online learning problem and use bandit theory to identify the optimal exit point. Specifically, we focus on Elastic BERT, a pre-trained multi-exit DNN to demonstrate that it `nearly' satisfies the Strong Dominance (SD) property making it possible to learn the optimal exit in an online setup without knowing the ground truth labels. We develop upper confidence bound (UCB) based algorithm named UEE-UCB that provably achieves sub-linear regret under the SD property. Thus our method provides a means to adaptively learn domain-specific optimal exit points in multi-exit DNNs. We empirically validate our algorithm on IMDb and Yelp datasets. | 翻訳日:2022-09-21 17:26:50 公開日:2022-09-20 |
# lingUIST: インテント分類とスロットタギングのためのアノテーション付き発話を生成するための言語モデルインストラクションチューニング LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging ( http://arxiv.org/abs/2209.09900v1 ) ライセンス: Link先を確認 | Andy Rosenbaum, Saleh Soltan, Wael Hamza, Yannick Versley, Markus Boese | (参考訳) フレキシブルな命令プロンプトに基づいて,5ビリオンパラメトリックなシーケンス・ツー・シーケンス(seq2seq)モデルであるAlexaTM 5Bを微調整することで,Intent Classification and Slot Tagging (IC+ST) の注釈付きデータを生成する lingUIST を提案する。
SNIPSデータセットの10ショットの新規意図設定では、lingUISTは最先端のアプローチ(Back-Translation and Example Extrapolation)を広範囲に越え、ICリコールの+1.9点、ST F1スコアの2.5点の目標意図を絶対的に改善した。
mATIS++データセットのゼロショットのクロスランガル設定では、lingUISTは、Slot Alignmentによるマシン翻訳の強力なベースラインを、ST F1 Scoreの6言語で+4.14ポイントで上回り、ICのパフォーマンスにマッチする。
最後に,会話エージェントIC+STの内部大規模多言語データセットの検証を行い,Back-Translation, Paraphrasing, Slot Catalog Resamplingを用いたベースライン上での大幅な改善を示す。
我々の知る限り、我々は、多言語インテントおよびスロットラベルデータ生成の出力を制御するために、大規模なSeq2seqモデルの命令微調整を初めて行った。 We present LINGUIST, a method for generating annotated data for Intent Classification and Slot Tagging (IC+ST), via fine-tuning AlexaTM 5B, a 5-billion-parameter multilingual sequence-to-sequence (seq2seq) model, on a flexible instruction prompt. In a 10-shot novel intent setting for the SNIPS dataset, LINGUIST surpasses state-of-the-art approaches (Back-Translation and Example Extrapolation) by a wide margin, showing absolute improvement for the target intents of +1.9 points on IC Recall and +2.5 points on ST F1 Score. In the zero-shot cross-lingual setting of the mATIS++ dataset, LINGUIST out-performs a strong baseline of Machine Translation with Slot Alignment by +4.14 points absolute on ST F1 Score across 6 languages, while matching performance on IC. Finally, we verify our results on an internal large-scale multilingual dataset for conversational agent IC+ST and show significant improvements over a baseline which uses Back-Translation, Paraphrasing and Slot Catalog Resampling. To our knowledge, we are the first to demonstrate instruction fine-tuning of a large-scale seq2seq model to control the outputs of multilingual intent- and slot-labeled data generation. | 翻訳日:2022-09-21 17:26:19 公開日:2022-09-20 |
# グラフを用いたマルチアームバンディット学習 Multi-armed Bandit Learning on a Graph ( http://arxiv.org/abs/2209.09419v1 ) ライセンス: Link先を確認 | Tianpeng Zhang (1), Kasper Johansson (2), Na Li (1)((1) Harvard University, (2) KTH Royal Institute of Technology) | (参考訳) マルチアーム・バンディット(MAB)問題は単純だが強力なフレームワークであり、不確実性の下での意思決定の文脈で広く研究されている。
ロボットアプリケーションのような現実世界の多くのアプリケーションでは、アームの選択は、次の利用可能なアーム(アクション)の選択を制限する物理的なアクションに対応する。
そこで我々は,エージェントがグラフの上を移動して,異なるノードから収集した報酬を最大化しようとするグラフバンディットと呼ばれるMABの拡張について検討する。
グラフは各ステップで次の利用可能なノードを選択する際のエージェントの自由を定義する。
グラフ構造が完全に利用可能であると仮定するが、報酬分布は不明である。
オフライングラフベースの計画アルゴリズムと楽観主義の原理に基づいて構築され、楽観主義の原理を用いて長期探索・探索のバランスをとるオンライン学習アルゴリズムを設計する。
提案手法は, ノード数を$|s|$, グラフの直径を$d$とし, 類似条件下では最もよく知られた強化学習アルゴリズムよりも優れる$o(|s|\sqrt{t}\log(t)+d|s|\log t)$学習後悔を実現する。
数値実験により,本アルゴリズムはいくつかのベンチマークより優れていることを確認した。
最後に,都市部や郊外のネットワーク上でロボットが移動して,提案アルゴリズムを用いて高速なインターネットアクセスを実現するための,グラフバンディットフレームワークをモデルとした合成ロボットアプリケーションを提案する。 The multi-armed bandit(MAB) problem is a simple yet powerful framework that has been extensively studied in the context of decision-making under uncertainty. In many real-world applications, such as robotic applications, selecting an arm corresponds to a physical action that constrains the choices of the next available arms (actions). Motivated by this, we study an extension of MAB called the graph bandit, where an agent travels over a graph trying to maximize the reward collected from different nodes. The graph defines the freedom of the agent in selecting the next available nodes at each step. We assume the graph structure is fully available, but the reward distributions are unknown. Built upon an offline graph-based planning algorithm and the principle of optimism, we design an online learning algorithm that balances long-term exploration-exploitation using the principle of optimism. We show that our proposed algorithm achieves $O(|S|\sqrt{T}\log(T)+D|S|\log T)$ learning regret, where $|S|$ is the number of nodes and $D$ is the diameter of the graph, which is superior compared to the best-known reinforcement learning algorithms under similar settings. Numerical experiments confirm that our algorithm outperforms several benchmarks. Finally, we present a synthetic robotic application modeled by the graph bandit framework, where a robot moves on a network of rural/suburban locations to provide high-speed internet access using our proposed algorithm. | 翻訳日:2022-09-21 17:25:49 公開日:2022-09-20 |
# SparCL: エッジでのスパース継続的学習 SparCL: Sparse Continual Learning on the Edge ( http://arxiv.org/abs/2209.09476v1 ) ライセンス: Link先を確認 | Zifeng Wang, Zheng Zhan, Yifan Gong, Geng Yuan, Wei Niu, Tong Jian, Bin Ren, Stratis Ioannidis, Yanzhi Wang, Jennifer Dy | (参考訳) 継続学習(CL)における既存の作業は、破滅的な忘れ、すなわち新しいタスクを学ぶ際の過去のタスクのパフォーマンス劣化を緩和することに焦点を当てている。
しかし、CLシステムのトレーニング効率は未定であり、リソース制限シナリオ下でのCLシステムの現実的な適用を制限する。
本稿では,エッジデバイス上でのコスト効率の高い連続学習を実現するために,スパース性を活用した最初の研究であるsparcl(sparse continual learning)という新しいフレームワークを提案する。
SparCLは、重み空間、データ効率、勾配空間という3つの側面の相乗効果によって、トレーニングの加速と精度の維持を実現する。
具体的には,clプロセス全体を通してスパースネットワークを学習するタスクアウェア動的マスキング(tdm),情報の少ないトレーニングデータを削除する動的データ除去(ddr),勾配更新をスパース化する動的勾配マスキング(dgm)を提案する。
それぞれが効率を向上させるだけでなく、壊滅的な忘れを更に緩和する。
sparcl は既存の state-of-the-art (sota) cl 法のトレーニング効率を少なくとも 23 倍に向上させ、驚くべきことに sota の精度を最大 1.7%向上させた。
また、SparCLは、SOTAスパース訓練法をCL設定に適応させることで得られる競合ベースラインを効率と精度の両方で上回る。
また,実際の携帯電話におけるsparclの有効性を評価し,本手法の実用性を示す。 Existing work in continual learning (CL) focuses on mitigating catastrophic forgetting, i.e., model performance deterioration on past tasks when learning a new task. However, the training efficiency of a CL system is under-investigated, which limits the real-world application of CL systems under resource-limited scenarios. In this work, we propose a novel framework called Sparse Continual Learning(SparCL), which is the first study that leverages sparsity to enable cost-effective continual learning on edge devices. SparCL achieves both training acceleration and accuracy preservation through the synergy of three aspects: weight sparsity, data efficiency, and gradient sparsity. Specifically, we propose task-aware dynamic masking (TDM) to learn a sparse network throughout the entire CL process, dynamic data removal (DDR) to remove less informative training data, and dynamic gradient masking (DGM) to sparsify the gradient updates. Each of them not only improves efficiency, but also further mitigates catastrophic forgetting. SparCL consistently improves the training efficiency of existing state-of-the-art (SOTA) CL methods by at most 23X less training FLOPs, and, surprisingly, further improves the SOTA accuracy by at most 1.7%. SparCL also outperforms competitive baselines obtained from adapting SOTA sparse training methods to the CL setting in both efficiency and accuracy. We also evaluate the effectiveness of SparCL on a real mobile phone, further indicating the practical potential of our method. | 翻訳日:2022-09-21 17:25:06 公開日:2022-09-20 |
# Ki-Pode: キーポイントに基づく剛体物体の暗黙分布推定 Ki-Pode: Keypoint-based Implicit Pose Distribution Estimation of Rigid Objects ( http://arxiv.org/abs/2209.09659v1 ) ライセンス: Link先を確認 | Thorbj{\o}rn Mosekj{\ae}r Iversen, Rasmus Laurvig Haugaard, Anders Glent Buch | (参考訳) 剛体物体の6次元ポーズの推定はコンピュータビジョンの基本的な問題である。
伝統的に、ポーズ推定は単一の最良の見積もりの決定に関係している。
しかし、単一の推定では視覚的なあいまいさを表現できないため、多くの場合、物体の対称性や識別特徴の閉塞のために避けられない。
ポーズのあいまいさを考慮できないと、その後の手法では失敗につながる可能性がある。
完全なポーズ分布の推定は、単一の推定とは対照的に、ポーズの不確実性を表現するのに適している。
そこで本研究では,新しいポーズ分布推定法を提案する。
オブジェクトのポーズ上の確率分布の暗黙的な定式化は、キーポイントの集合としてのオブジェクトの中間表現から導かれる。
これにより、ポーズ分布の推定値が高い解釈可能性を持つことが保証される。
さらに,本手法は,信頼性評価につながる保守的近似に基づく。
本手法は,YCB-VおよびT-LESSデータセット上での回転分布推定のタスクに基づいて評価され,すべてのオブジェクトに対して確実に動作する。 The estimation of 6D poses of rigid objects is a fundamental problem in computer vision. Traditionally pose estimation is concerned with the determination of a single best estimate. However, a single estimate is unable to express visual ambiguity, which in many cases is unavoidable due to object symmetries or occlusion of identifying features. Inability to account for ambiguities in pose can lead to failure in subsequent methods, which is unacceptable when the cost of failure is high. Estimates of full pose distributions are, contrary to single estimates, well suited for expressing uncertainty on pose. Motivated by this, we propose a novel pose distribution estimation method. An implicit formulation of the probability distribution over object pose is derived from an intermediary representation of an object as a set of keypoints. This ensures that the pose distribution estimates have a high level of interpretability. Furthermore, our method is based on conservative approximations, which leads to reliable estimates. The method has been evaluated on the task of rotation distribution estimation on the YCB-V and T-LESS datasets and performs reliably on all objects. | 翻訳日:2022-09-21 17:24:40 公開日:2022-09-20 |
# ベイズ推論をファシリテートするためのエピデミックモデルのSeq2Seqサロゲート Seq2Seq Surrogates of Epidemic Models to Facilitate Bayesian Inference ( http://arxiv.org/abs/2209.09617v1 ) ライセンス: Link先を確認 | Giovanni Charles, Timothy M. Wolock, Peter Winskill, Azra Ghani, Samir Bhatt, Seth Flaxman | (参考訳) 疫学モデルは伝染病を理解する強力なツールである。
しかし、サイズや複雑さが大きくなると、すぐに計算が難しくなる。
近年のモデリング手法の進歩により、サロゲートモデルは高次元パラメータ空間で複雑な流行モデルをエミュレートすることができることが示されている。
seq2seq(deep sequence-to-sequence)モデルが,時系列モデルパラメータを持つ複雑な流行モデルに対する正確なサロゲートとして機能し,季節と長期の伝達ダイナミクスを効果的に再現できることを示す。
訓練を済ませば、サロゲートはオリジナルのモデルよりも数千倍早くシナリオを予測できるので、政策調査に最適です。
従来の疫病モデルを学習シミュレータに置き換えることで、ベイズ推論が堅牢になることを示す。 Epidemic models are powerful tools in understanding infectious disease. However, as they increase in size and complexity, they can quickly become computationally intractable. Recent progress in modelling methodology has shown that surrogate models can be used to emulate complex epidemic models with a high-dimensional parameter space. We show that deep sequence-to-sequence (seq2seq) models can serve as accurate surrogates for complex epidemic models with sequence based model parameters, effectively replicating seasonal and long-term transmission dynamics. Once trained, our surrogate can predict scenarios a several thousand times faster than the original model, making them ideal for policy exploration. We demonstrate that replacing a traditional epidemic model with a learned simulator facilitates robust Bayesian inference. | 翻訳日:2022-09-21 17:24:06 公開日:2022-09-20 |
# 能動学習による予測的規模架橋シミュレーション Predictive Scale-Bridging Simulations through Active Learning ( http://arxiv.org/abs/2209.09811v1 ) ライセンス: Link先を確認 | Satish Karra, Mohamed Mehana, Nicholas Lubbers, Yu Chen, Abdourahmane Diaw, Javier E. Santos, Aleksandra Pachalieva, Robert S. Pavel, Jeffrey R. Haack, Michael McKerns, Christoph Junghans, Qinjun Kang, Daniel Livescu, Timothy C. Germann, and Hari S. Viswanathan | (参考訳) 計算科学を通じて、生の馬力の継続的な改善を利用して、メッシュ要素数の増加によるスケールブリッジによる物理的忠実度の向上を実現する必要性が高まっている。
例えば、固いシェール層からの炭化水素抽出に重要なナノ多孔体中の輸送の定量的予測は、分子レベルの相互作用を考慮せずには不可能である。
同様に、慣性閉じ込め融合シミュレーションは、非局所輸送や混合のような分子効果を分子間相互作用を真に考慮せずにシミュレーションするために数値拡散に依存する。
これら2つの異なる応用を念頭に、我々は、局所的な微粒なシミュレーションを用いて粗大な流体力学をインフォームする、アクティブな学習手法を用いた新しい能力を開発した。
提案手法は,新しい分子動力学計算を投機的に実行する連続体粗大軌道の予測,大規模計算からの粗大軌道の動的更新,ニューラルネットワークモデルにおける不確かさの定量化という3つの課題に対処する。 Throughout computational science, there is a growing need to utilize the continual improvements in raw computational horsepower to achieve greater physical fidelity through scale-bridging over brute-force increases in the number of mesh elements. For instance, quantitative predictions of transport in nanoporous media, critical to hydrocarbon extraction from tight shale formations, are impossible without accounting for molecular-level interactions. Similarly, inertial confinement fusion simulations rely on numerical diffusion to simulate molecular effects such as non-local transport and mixing without truly accounting for molecular interactions. With these two disparate applications in mind, we develop a novel capability which uses an active learning approach to optimize the use of local fine-scale simulations for informing coarse-scale hydrodynamics. Our approach addresses three challenges: forecasting continuum coarse-scale trajectory to speculatively execute new fine-scale molecular dynamics calculations, dynamically updating coarse-scale from fine-scale calculations, and quantifying uncertainty in neural network models. | 翻訳日:2022-09-21 17:23:51 公開日:2022-09-20 |
# 野生でのアクティブビジュアルサーチ Active Visual Search in the Wild ( http://arxiv.org/abs/2209.08803v2 ) ライセンス: Link先を確認 | Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and Sungjoon Choi | (参考訳) 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。
従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。
アクティブな視覚検索の柔軟性を高めるため,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,このシステムをAVSW(Active Visual Search in the Wild)と呼ぶ。
AVSWは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。
オブジェクト探索パターンを効率的に計画するために、AVSWは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考察する。
シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。
提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。
さらに,実際の研究において,Pioneer-3ATロボットを用いたAVSWの実証を行った。 In this paper, we focus on the problem of efficiently locating a target object described with free-form language using a mobile robot equipped with vision sensors (e.g., an RGBD camera). Conventional active visual search predefines a set of objects to search for, rendering these techniques restrictive in practice. To provide added flexibility in active visual searching, we propose a system where a user can enter target commands using free-form language; we call this system Active Visual Search in the Wild (AVSW). AVSW detects and plans to search for a target object inputted by a user through a semantic grid map represented by static landmarks (e.g., desk or bed). For efficient planning of object search patterns, AVSW considers commonsense knowledge-based co-occurrence and predictive uncertainty while deciding which landmarks to visit first. We validate the proposed method with respect to SR (success rate) and SPL (success weighted by path length) in both simulated and real-world environments. The proposed method outperforms previous methods in terms of SPL in simulated scenarios with an average gap of 0.283. We further demonstrate AVSW with a Pioneer-3AT robot in real-world studies. | 翻訳日:2022-09-21 14:43:25 公開日:2022-09-20 |
# VoxCeleb Speaker Recognition Challenge 2022におけるRoyalflushシステム The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 ( http://arxiv.org/abs/2209.09010v2 ) ライセンス: Link先を確認 | Jingguang Tian, Xinhui Hu, Xinkang Xu | (参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
提案には,教師付き話者照合用トラック1と,半教師付き話者検証用トラック3が含まれている。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
提案方式はEERが2.06%,MinDCFが0.1293である。
最先端のECAPA-TDNNと比較して、EERの20.7%、MinDCFの22.70%の相対的な改善が得られる。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
その後のクラスタリングプロセスは、ターゲットドメインの擬似話者ラベルを取得できる。
話者埋め込み抽出器を全ソースおよび対象ドメインデータを用いて教師付き方式で適用し,両ドメイン情報を完全に活用する。
さらに、クラスタリングと教師付きドメイン適応は、性能が検証セットに収束するまで繰り返すことができる。
最終的な提出は10モデルの融合であり、検証セット上で7.75% EERと0.3517 MinDCFを達成する。 In this technical report, we describe the Royalflush submissions for the VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22). Our submissions contain track 1, which is for supervised speaker verification and track 3, which is for semi-supervised speaker verification. For track 1, we develop a powerful U-Net-based speaker embedding extractor with a symmetric architecture. The proposed system achieves 2.06% in EER and 0.1293 in MinDCF on the validation set. Compared with the state-of-the-art ECAPA-TDNN, it obtains a relative improvement of 20.7% in EER and 22.70% in MinDCF. For track 3, we employ the joint training of source domain supervision and target domain self-supervision to get a speaker embedding extractor. The subsequent clustering process can obtain target domain pseudo-speaker labels. We adapt the speaker embedding extractor using all source and target domain data in a supervised manner, where it can fully leverage both domain information. Moreover, clustering and supervised domain adaptation can be repeated until the performance converges on the validation set. Our final submission is a fusion of 10 models and achieves 7.75% EER and 0.3517 MinDCF on the validation set. | 翻訳日:2022-09-21 14:43:10 公開日:2022-09-20 |
# 超音波ドップラー画像からの機械学習による大動脈特定結節領域の境界条件抽出:計算流体力学による検討 Machine Learning based Extraction of Boundary Conditions from Doppler Echo Images for Patient Specific Coarctation of the Aorta: Computational Fluid Dynamics Study ( http://arxiv.org/abs/2209.09139v2 ) ライセンス: Link先を確認 | Vincent Milimo Masilokwa Punabantu, Malebogo Ngoepe, Amit Kumar Mishra, Thomas Aldersley, John Lawrenson, Liesl Zuhlke | (参考訳) 資源制約条件におけるAorta (CoA) 患者固有の計算流体力学(CFD) 研究の目的-幾何および速度データ取得のための画像モダリティによって制限される。
ドップラー心エコー法はその高可用性と安全性のために、適切な速度獲得モードと見なされている。
本研究では,従来の機械学習(ML)手法を用いてドップラー心エコー画像から境界条件(BC)を抽出し,CFDを用いた血行動態モデリングを行う手法を提案する。
提案手法は, ml と cfd を組み合わせることで, 関心領域内の流れをモデル化する。
アプローチの重要な特徴は、MLモデルを使用してCFDモデルの入口および出口境界条件(BC)を校正することである。
mlモデルの主要な入力変数は患者の心拍数であり、これは研究内の測定された血管をまたいで時間的に変化するパラメータであった。
ANSYS FluentはCFD成分として,Scikit-Lern pythonライブラリはML成分として用いられた。
結果- 介入前の重篤なCoA症例に対するアプローチを検証した。
シミュレーションで得られた最大凝固速度を, 幾何学的手法を用いた患者から得られた最大凝固速度と比較した。
BCの取得に使用された5つのMLモデルのうち、最上位モデルは最大弧速度の5倍以内であった。
結語-この枠組みは、測定値間での患者の心拍数の変化を考慮に入れることができることを示した。
したがって、心臓の速度が各血管にまたがってスケールされたときに生理的に現実的なBCの計算を可能にし、合理的に正確な解が得られる。 Purpose- Coarctation of the Aorta (CoA) patient-specific computational fluid dynamics (CFD) studies in resource constrained settings are limited by the available imaging modalities for geometry and velocity data acquisition. Doppler echocardiography has been seen as a suitable velocity acquisition modality due to its higher availability and safety. This study aimed to investigate the application of classical machine learning (ML) methods to create an adequate and robust approach for obtaining boundary conditions (BCs) from Doppler Echocardiography images, for haemodynamic modeling using CFD. Methods- Our proposed approach combines ML and CFD to model haemodynamic flow within the region of interest. With the key feature of the approach being the use of ML models to calibrate the inlet and outlet boundary conditions (BCs) of the CFD model. The key input variable for the ML model was the patients heart rate as this was the parameter that varied in time across the measured vessels within the study. ANSYS Fluent was used for the CFD component of the study whilst the scikit-learn python library was used for the ML component. Results- We validated our approach against a real clinical case of severe CoA before intervention. The maximum coarctation velocity of our simulations were compared to the measured maximum coarctation velocity obtained from the patient whose geometry is used within the study. Of the 5 ML models used to obtain BCs the top model was within 5\% of the measured maximum coarctation velocity. Conclusion- The framework demonstrated that it was capable of taking variations of the patients heart rate between measurements into account. Thus, enabling the calculation of BCs that were physiologically realistic when the heart rate was scaled across each vessel whilst providing a reasonably accurate solution. | 翻訳日:2022-09-21 14:42:52 公開日:2022-09-20 |
# 弱教師付きセマンティクスセグメンテーションにおける局所化の拡大と縮小 Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2209.07761v2 ) ライセンス: Link先を確認 | Jinlong Li, Zequn Jie, Xu Wang, Xiaolin Wei, Lin Ma | (参考訳) クラスアクティベーションマップ(クラスアクティベーションマップ、CAM)を正確に生成することは、弱い教師付きセマンティックセマンティックセグメンテーションに不可欠である。
元のCAM法は、通常不完全かつ不正確なローカライゼーションマップを生成する。
そこで本稿では,変形可能な畳み込みにおけるオフセット学習に基づく拡張・収縮方式を提案する。
拡大段階において、変形可能な畳み込み層のオフセット学習ブランチである「膨張サンプリング」は、画像レベルの分類損失を最大化する逆の監視信号によって駆動される、より少ない識別対象領域をサンプリングする。
膨張段階におけるより完全な位置は、収縮段階において最終対象領域に徐々に狭められる。
収縮段階において、「収縮サンプリング」と呼ばれる別の変形可能な畳み込み層のオフセット学習枝を導入し、拡大段階に含まれる偽陽性背景領域を排除し、局所化マップの精度を向上させる。
我々は,pascal voc 2012 と ms coco 2014 について様々な実験を行い,弱教師付き意味セグメンテーションのための他の最先端手法よりも優れていることを示す。
コードはhttps://github.com/tyroneli/esol_wsssで公開されている。 Generating precise class-aware pseudo ground-truths, a.k.a, class activation maps (CAMs), is essential for weakly-supervised semantic segmentation. The original CAM method usually produces incomplete and inaccurate localization maps. To tackle with this issue, this paper proposes an Expansion and Shrinkage scheme based on the offset learning in the deformable convolution, to sequentially improve the recall and precision of the located object in the two respective stages. In the Expansion stage, an offset learning branch in a deformable convolution layer, referred as "expansion sampler" seeks for sampling increasingly less discriminative object regions, driven by an inverse supervision signal that maximizes image-level classification loss. The located more complete object in the Expansion stage is then gradually narrowed down to the final object region during the Shrinkage stage. In the Shrinkage stage, the offset learning branch of another deformable convolution layer, referred as "shrinkage sampler", is introduced to exclude the false positive background regions attended in the Expansion stage to improve the precision of the localization maps. We conduct various experiments on PASCAL VOC 2012 and MS COCO 2014 to well demonstrate the superiority of our method over other state-of-the-art methods for weakly-supervised semantic segmentation. Code will be made publicly available here https://github.com/TyroneLi/ESOL_WSSS. | 翻訳日:2022-09-21 14:40:09 公開日:2022-09-20 |
# Wav2Vec2に基づくベンガル語の自動音声認識システムと伝達学習 An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning ( http://arxiv.org/abs/2209.08119v2 ) ライセンス: Link先を確認 | Tushar Talukder Showrav | (参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は, 音声を自動生成し, 自動生成する手法である。
典型的なASRシステムはオーディオ録音やストリームから特徴を抽出し、その特徴を対応するテキストにマッピングするために1つ以上のアルゴリズムを実行する。
近年,音声信号処理の分野では数多くの研究が行われている。
適切なリソースが与えられると、従来のASRと新興エンドツーエンド(E2E)音声認識の両方が有望な結果をもたらす。
しかし、Bengaliのような低リソース言語では、現在のASRの状況は遅れているものの、低リソースの状態は、この言語が世界中の5億人以上の人々が話すという事実を反映していない。
その人気にもかかわらず、さまざまなオープンソースデータセットが利用可能ではないため、ベンガル音声認識システムの研究は困難である。
本論文は,「BET CSE Fest DL Sprint」という競技会の一部である。
本研究の目的は,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることである。
提案手法はベンガル語を効果的にモデル化し,7747例の試験データセットにおいて,1000例の列車データセットのみを訓練した場合に,'levenshtein平均距離'で3.819点を達成した。 An independent, automated method of decoding and transcribing oral speech is known as automatic speech recognition (ASR). A typical ASR system extracts feature from audio recordings or streams and run one or more algorithms to map the features to corresponding texts. Numerous of research has been done in the field of speech signal processing in recent years. When given adequate resources, both conventional ASR and emerging end-to-end (E2E) speech recognition have produced promising results. However, for low-resource languages like Bengali, the current state of ASR lags behind, although the low resource state does not reflect upon the fact that this language is spoken by over 500 million people all over the world. Despite its popularity, there aren't many diverse open-source datasets available, which makes it difficult to conduct research on Bengali speech recognition systems. This paper is a part of the competition named `BUET CSE Fest DL Sprint'. The purpose of this paper is to improve the speech recognition performance of the Bengali language by adopting speech recognition technology on the E2E structure based on the transfer learning framework. The proposed method effectively models the Bengali language and achieves 3.819 score in `Levenshtein Mean Distance' on the test dataset of 7747 samples, when only 1000 samples of train dataset were used to train. | 翻訳日:2022-09-21 14:39:47 公開日:2022-09-20 |
# fr:統一エンコーダによる折り畳み合理化 FR: Folded Rationalization with a Unified Encoder ( http://arxiv.org/abs/2209.08285v2 ) ライセンス: Link先を確認 | Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Chao Yue, Yuankai Zhang | (参考訳) 従来の作業では、ジェネレータが最も重要な部品を選択し、次に選択した部品に基づいて予測を行う予測器という2相モデルが一般的である。
しかし、そのような二相モデルでは、予測器が未訓練の発電機によって発生するノイズに過度に適合する退化問題を生じさせ、その結果、発電機は無意味な部品を選択する傾向にある準最適モデルに収束する。
そこで本研究では,論理モデルの2つの位相をテキスト意味抽出の観点から1つに折り畳む折り畳み合理化(fr)を提案する。
FRの鍵となる考え方は、ジェネレータと予測器の間に統一エンコーダを使用することであり、FRはジェネレータが従来の2相モデルでブロックした貴重な情報にアクセスし、より良いジェネレータを提供する。
実験的に、FRは最先端の手法と比較してF1スコアを最大10.3%改善することを示した。 Conventional works generally employ a two-phase model in which a generator selects the most important pieces, followed by a predictor that makes predictions based on the selected pieces. However, such a two-phase model may incur the degeneration problem where the predictor overfits to the noise generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. To tackle this challenge, we propose Folded Rationalization (FR) that folds the two phases of the rationale model into one from the perspective of text semantic extraction. The key idea of FR is to employ a unified encoder between the generator and predictor, based on which FR can facilitate a better predictor by access to valuable information blocked by the generator in the traditional two-phase model and thus bring a better generator. Empirically, we show that FR improves the F1 score by up to 10.3% as compared to state-of-the-art methods. | 翻訳日:2022-09-21 14:39:26 公開日:2022-09-20 |
# 近距離ニューラルマシン翻訳のための学習分離検索表現 Learning Decoupled Retrieval Representation for Nearest Neighbour Neural Machine Translation ( http://arxiv.org/abs/2209.08738v2 ) ライセンス: Link先を確認 | Qiang Wang, Rongxiang Weng, Ming Chen | (参考訳) K-Nearest Neighbor Neural Machine Translation (kNN-MT)は、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。
一般的に、kNN-MTは、最後のデコーダ層の出力を検索タスクのクエリベクトルとして、翻訳タスクのオフ・ザ・シェルフコンテキスト表現を借用する。
本稿では,これら2つのタスクの表現の結合が,きめ細かい検索に最適であることを示す。
これを軽減するために,教師付きコントラスト学習を活用し,元の文脈表現から派生した特徴的検索表現を学習する。
また, 強陰性試料の迅速かつ効率的な構築法を提案する。
5領域の実験結果から,vailla knn-mtと比較して検索精度とbleuスコアが向上した。 K-Nearest Neighbor Neural Machine Translation (kNN-MT) successfully incorporates external corpus by retrieving word-level representations at test time. Generally, kNN-MT borrows the off-the-shelf context representation in the translation task, e.g., the output of the last decoder layer, as the query vector of the retrieval task. In this work, we highlight that coupling the representations of these two tasks is sub-optimal for fine-grained retrieval. To alleviate it, we leverage supervised contrastive learning to learn the distinctive retrieval representation derived from the original context representation. We also propose a fast and effective approach to constructing hard negative samples. Experimental results on five domains show that our approach improves the retrieval accuracy and BLEU score compared to vanilla kNN-MT. | 翻訳日:2022-09-21 14:39:07 公開日:2022-09-20 |
# 深層畳み込みニューラルネットワークによる単一画像のレーダ化 Single Image Deraining via Rain-Steaks Aware Deep Convolutional Neural Network ( http://arxiv.org/abs/2209.07808v2 ) ライセンス: Link先を確認 | Chaobing Zheng, Yuwen Li, Shiqian Wu | (参考訳) 雨天ステーキは雨天像に空間的に変化するため、雨天像から雨天像を除去することは困難である。
本稿では,従来の画像処理技術と深層学習技術を組み合わせることで,この問題を考察する。
雨画像から高周波情報を抽出するため,改良した重み付き誘導画像フィルタ(iwgif)を提案する。
高周波情報は主にレインステーキとノイズを含み、レインステーキが深い畳み込みニューラルネットワーク(RSADCNN)を認識してレインステーキに注意を払うように誘導することができる。
RSADNNの効率性と説明性が改善された。
実験により,提案手法は,合成画像と実世界画像の両方において,質的および定量的尺度の両方において,最先端の手法を大幅に上回ることがわかった。
降雨時の自律航行に有用である。 It is challenging to remove rain-steaks from a single rainy image because the rain steaks are spatially varying in the rainy image. This problem is studied in this paper by combining conventional image processing techniques and deep learning based techniques. An improved weighted guided image filter (iWGIF) is proposed to extract high frequency information from a rainy image. The high frequency information mainly includes rain steaks and noise, and it can guide the rain steaks aware deep convolutional neural network (RSADCNN) to pay more attention to rain steaks. The efficiency and explain-ability of RSADNN are improved. Experiments show that the proposed algorithm significantly outperforms state-of-the-art methods on both synthetic and real-world images in terms of both qualitative and quantitative measures. It is useful for autonomous navigation in raining conditions. | 翻訳日:2022-09-21 14:38:52 公開日:2022-09-20 |
# 密度対応変換器による統合的特徴とコスト集約 Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence ( http://arxiv.org/abs/2209.08742v2 ) ライセンス: Link先を確認 | Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin | (参考訳) 我々は高密度通信のための新しいアーキテクチャを提案する。
現在の最先端は、機能記述子とコストボリューム集約の両方に焦点を当てたトランスフォーマティブベースのアプローチである。
しかし、一般的には両者を集約するわけではないが、ジョイントアグリゲーションは、画像の構造的または意味的な情報、あるいはピクセル単位での類似性を欠いた情報を提供することによって相互を増強する。
本研究では,両形態のアグリゲーションを相補的な情報を活用する方法でインターリーブするトランスフォーマーベースのネットワークを提案する。
具体的には,記述子を利用した自己注意層を設計し,ノイズの多いコストボリュームを曖昧にし,またコストボリュームを利用して特徴量を正確なマッチングを促進する。
その後のクロスアテンション層は、両方の画像のディスクリプタに条件付きでさらに集約を行い、前の層の集約出力によって支援される。
階層的な処理によってさらに性能が向上し、より微細なレベルでのサーサーレベルの集約が導かれる。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
設計選択を検証するために、広範囲にわたるアブレーション研究も行われている。 We present a novel architecture for dense correspondence. The current state-of-the-art are Transformer-based approaches that focus on either feature descriptors or cost volume aggregation. However, they generally aggregate one or the other but not both, though joint aggregation would boost each other by providing information that one has but other lacks, i.e., structural or semantic information of an image, or pixel-wise matching similarity. In this work, we propose a novel Transformer-based network that interleaves both forms of aggregations in a way that exploits their complementary information. Specifically, we design a self-attention layer that leverages the descriptor to disambiguate the noisy cost volume and that also utilizes the cost volume to aggregate features in a manner that promotes accurate matching. A subsequent cross-attention layer performs further aggregation conditioned on the descriptors of both images and aided by the aggregated outputs of earlier layers. We further boost the performance with hierarchical processing, in which coarser level aggregations guide those at finer levels. We evaluate the effectiveness of the proposed method on dense matching tasks and achieve state-of-the-art performance on all the major benchmarks. Extensive ablation studies are also provided to validate our design choices. | 翻訳日:2022-09-21 14:38:38 公開日:2022-09-20 |
# 患者表現型発見のためのコストベース多層ネットワークアプローチ A cost-based multi-layer network approach for the discovery of patient phenotypes ( http://arxiv.org/abs/2209.09032v2 ) ライセンス: Link先を確認 | Clara Puga, Uli Niemann, Winfried Schlee, Myra Spiliopoulou | (参考訳) 臨床記録には、様々なアンケートの完成を含む患者の特性の評価が含まれることが多い。
これらのアンケートは、患者の健康状態に関する様々な視点を提供する。
これらの観点から得られる異種性を捉えることが重要であるだけでなく、臨床表現型化のための費用対効果技術開発への需要も増えている。
多くの質問に答えることが、患者にとって負担になる可能性がある。
本研究では,コミュニティ検出手法を用いて表現型を検出するコストベース層セレクタモデルであるCOBALTを提案する。
私たちの目標は、これらの表現型の構築に使用される機能の数を最小化し、その品質を維持することです。
本モデルは,慢性耳鳴症患者からのアンケートデータを用いてテストし,多層ネットワーク構造で表現した。
次に,基本特徴(年齢,性別,前処理データ)と同定された表現型を特徴として,後処理データを予測することにより,モデルを評価する。
いくつかの後処理変数では、COBALTの表現型を特徴とする予測子は、従来のクラスタリング法で検出された表現型よりも優れていた。
さらに, 表現型データを用いて処理後データを予測することは, ベースライン特徴のみを訓練した予測器と比較して有益であることが判明した。 Clinical records frequently include assessments of the characteristics of patients, which may include the completion of various questionnaires. These questionnaires provide a variety of perspectives on a patient's current state of well-being. Not only is it critical to capture the heterogeneity given by these perspectives, but there is also a growing demand for developing cost-effective technologies for clinical phenotyping. Filling out many questionnaires may be a strain for the patients and therefore costly. In this work, we propose COBALT -- a cost-based layer selector model for detecting phenotypes using a community detection approach. Our goal is to minimize the number of features used to build these phenotypes while preserving its quality. We test our model using questionnaire data from chronic tinnitus patients and represent the data in a multi-layer network structure. The model is then evaluated by predicting post-treatment data using baseline features (age, gender, and pre-treatment data) as well as the identified phenotypes as a feature. For some post-treatment variables, predictors using phenotypes from COBALT as features outperformed those using phenotypes detected by traditional clustering methods. Moreover, using phenotype data to predict post-treatment data proved beneficial in comparison with predictors that were solely trained with baseline features. | 翻訳日:2022-09-21 14:38:15 公開日:2022-09-20 |
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形回帰 Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2209.08139v2 ) ライセンス: Link先を確認 | Alexander C. McLain, Anja Zgodic, and Howard Bondell | (参考訳) ベイズ変数選択法はスパース高次元線形回帰モデルに適合し、推論するための強力な手法である。
しかし、多くは計算量が多いか、モデルパラメーター上の制限付き事前分布を必要とする。
確率に基づくペナリゼーション手法の方が計算にやさしいが、推論にはリソース集約的な再フィッティング技術が必要である。
本稿では,高次元線形回帰に対する効率的かつ強力なベイズ法を提案する。
パラメータの最小事前仮定は、ハイパーパラメータのプラグイン経験ベイズ推定を使用することで要求される。
分割および拡張予測条件の最大化(ECM)アルゴリズムを用いることで、効率的な最大後続確率推定(MAP)が完了する。
その結果、PaRtitiOned empirical Bayes Ecm (PROBE)アルゴリズムが、疎高次元線形回帰に応用された。
将来予測のための信頼度と予測間隔を推定する手法を提案する。
予測の実証的性質と予測的推論を、多数のシミュレーション研究と、がん細胞株の薬物応答分析と同等のアプローチと比較した。
提案手法はRパッケージプローブに実装されている。 Bayesian variable selection methods are powerful techniques for fitting and inferring on sparse high-dimensional linear regression models. However, many are computationally intensive or require restrictive prior distributions on model parameters. Likelihood based penalization methods are more computationally friendly, but resource intensive refitting techniques are needed for inference. In this paper, we proposed an efficient and powerful Bayesian approach for sparse high-dimensional linear regression. Minimal prior assumptions on the parameters are required through the use of plug-in empirical Bayes estimates of hyperparameters. Efficient maximum a posteriori probability (MAP) estimation is completed through the use of a partitioned and extended expectation conditional maximization (ECM) algorithm. The result is a PaRtitiOned empirical Bayes Ecm (PROBE) algorithm applied to sparse high-dimensional linear regression. We propose methods to estimate credible and prediction intervals for predictions of future values. We compare the empirical properties of predictions and our predictive inference to comparable approaches with numerous simulation studies and an analysis of cancer cell lines drug response study. The proposed approach is implemented in the R package probe. | 翻訳日:2022-09-21 14:37:59 公開日:2022-09-20 |