このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220826となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 高調波量子Szil\'ardエンジン The Harmonic Quantum Szil\'ard Engine ( http://arxiv.org/abs/2011.01180v2 ) ライセンス: Link先を確認 | Paul Davies, Logan Thomas, George Zahariade | (参考訳) Szil\'ardエンジンは、情報をエネルギーに変換するメカニズム(マクスウェルのデーモンと同様)であり、熱力学の第二法則に反するように見える。
元々は古典的な思考実験であったが、チューレックによる量子化処理に拡張された。
本稿では,従来の剛体箱を高調波ポテンシャルに置き換え,モデルの範囲を広げることで,量子szil\'ardエンジンの新しいエレガントなモデルについて検討する。
驚くべきことに、ほとんど全ての計算は正確である。
本論文は,情報,エントロピー,量子計測の概念的関連に関心を持つ学生,研究者,教育者に適している。 The Szil\'ard engine is a mechanism (akin to Maxwell's demon) for converting information into energy, which seemingly violates the second law of thermodynamics. Originally a classical thought experiment, it was extended to a quantized treatment by Zurek. Here, we examine a new, elegant model of a quantum Szil\'ard engine by replacing the traditional rigid box with a harmonic potential, extending the scope of the model. Remarkably, almost all calculations are exact. This article is suitable to students, researchers and educators interested in the conceptual links between information, entropy, and quantum measurement. | 翻訳日:2023-04-26 01:40:42 公開日:2022-08-26 |
# 化学における短期的量子優位性への道のりとしての計測:資源分析 Measurements as a roadblock to near-term practical quantum advantage in chemistry: resource analysis ( http://arxiv.org/abs/2012.04001v2 ) ライセンス: Link先を確認 | J\'er\^ome F. Gonthier, Maxwell D. Radin, Corneliu Buda, Eric J. Doskocil, Clena M. Abuan, Jhonathan Romero | (参考訳) 量子コンピューティング装置の最近の進歩は、化学における実用的な量子優位性への潜在的経路として、変分量子固有解法(VQE)のようなハイブリッド量子古典アルゴリズムに注意を向けている。
しかし、そのようなアルゴリズムが、デバイスエラーがなくても、実際に実用的関心を持つシステムに対して量子的優位性が得られるかどうかはまだ明らかになっていない。
我々は,VQEを用いた実験値の化学的精度において,小型有機分子および関連系の燃焼エネルギーを計算するために必要な量子ビット数と測定値の総括分析を行った。
我々は、ハミルトニアンの低階数分解を含むvqeのいくつかの重要な現代的改善を考える。
以上の結果から,これらの手法は有用ではあるが,分子集合や類似分子に対して実用的な量子計算の利点を得るには不十分であることが示唆された。
これは、量子コヒーレンスを利用した演算子推定への新しいアプローチが必要であることを示唆している(arxiv:2006.09350, arxiv:2006.09349])。 Recent advances in quantum computing devices have brought attention to hybrid quantum-classical algorithms like the Variational Quantum Eigensolver (VQE) as a potential route to practical quantum advantage in chemistry. However, it is not yet clear whether such algorithms, even in the absence of device error, could actually achieve quantum advantage for systems of practical interest. We have performed an exhaustive analysis to estimate the number of qubits and number of measurements required to compute the combustion energies of small organic molecules and related systems to within chemical accuracy of experimental values using VQE. We consider several key modern improvements to VQE, including low-rank factorizations of the Hamiltonian. Our results indicate that although these techniques are useful, they will not be sufficient to achieve practical quantum computational advantage for our molecular set, or for similar molecules. This suggests that novel approaches to operator estimation leveraging quantum coherence, such as Enhanced Likelihood Functions [arxiv:2006.09350, arxiv:2006.09349], may be required. | 翻訳日:2023-04-21 20:46:52 公開日:2022-08-26 |
# 小型加速器におけるウンルー効果のキャビティ最適化 Cavity optimization for Unruh effect at small accelerations ( http://arxiv.org/abs/2107.00049v2 ) ライセンス: Link先を確認 | D. Jaffino Stargen, and Kinjalk Lochan | (参考訳) unruh効果を観測するのが難しい主な理由の1つは、到達可能な加速度スケールでは有限温度効果が磁場の低周波モードに対してのみ重要であることである。
自由空間におけるフィールドモードの密度は小さい周波数に対して低下するので、熱効果に関連するフィールドモードは観測可能な大きな効果を与えるために少なくなる。
本研究では, 長い円筒空洞に閉じ込められた無質量スカラー場に結合したUnruh-DeWitt検出器の応答について検討する。
このような空洞内の場モードの密度は、共振構造、すなわち特定の空洞構成のために突然上昇することを示す。
キャビティ内の加速検出器は、そのような共鳴点の周りの加速に対して非自明な励起と非励起率を示す。
キャビティパラメータがそのような共鳴点の近傍にあるように調整された場合、(小さな)加速誘起放出速度は、既に観測可能な慣性放出速度よりも大きくすることができる。
我々は,unruh効果の実験的実現におけるこの検出器・フィールドキャビティシステムの利用の可能性について考察し,実験室で非慣性場理論効果を実現するためのキャビティ製造における精度を優先して,超高加速の必要性をトレードオフできると主張する。 One of the primary reasons behind the difficulty in observing the Unruh effect is that for achievable acceleration scales the finite temperature effects are significant only for the low frequency modes of the field. Since the density of field modes falls for small frequencies in free space, the field modes which are relevant for the thermal effects would be less in number to make an observably significant effect. In this work, we investigate the response of a Unruh-DeWitt detector coupled to a massless scalar field which is confined in a long cylindrical cavity. The density of field modes inside such a cavity shows a {\it resonance structure} i.e. it rises abruptly for some specific cavity configurations. We show that an accelerating detector inside the cavity exhibits a non-trivial excitation and de-excitation rates for {\it small} accelerations around such resonance points. If the cavity parameters are adjusted to lie in a neighborhood of such resonance points, the (small) acceleration-induced emission rate can be made much larger than the already observable inertial emission rate. We comment on the possibilities of employing this detector-field-cavity system in the experimental realization of Unruh effect, and argue that the necessity of extremely high acceleration can be traded off in favor of precision in cavity manufacturing for realizing non-inertial field theoretic effects in laboratory settings. | 翻訳日:2023-03-24 07:55:30 公開日:2022-08-26 |
# 信頼量子入力を用いた半デバイス非依存因果非分離性証明 Semi-Device-Independent Certification of Causal Nonseparability with Trusted Quantum Inputs ( http://arxiv.org/abs/2107.10877v2 ) ライセンス: Link先を確認 | Hippolyte Dourdent, Alastair A. Abbott, Nicolas Brunner, Ivan \v{S}upi\'c, Cyril Branciard | (参考訳) 量子論の標準的な定式化は固定された背景因果構造を仮定するが、この仮定はいわゆるプロセス行列フレームワーク内で緩和することができる。
驚くべきことに、いくつかのプロセスは因果的に分離不能と呼ばれ、明確な因果順序とは相容れない。
我々は、関係当事者が信頼できる量子入力を受ける半デバイス非依存のシナリオにおいて、因果非分離性の証明の形式を探求する。
因果非分離分散測定の概念を定義することで、量子スイッチの正準例を含む因果不等式に違反できない特定の因果非分離プロセスが、そのようなシナリオで非因果相関を生成できることを示す。
さらに, 信頼できない演算に対してさらに自然な構造を課すことで, 因果的因果的非分離過程行列を信頼量子入力で証明できることを示す。 While the standard formulation of quantum theory assumes a fixed background causal structure, one can relax this assumption within the so-called process matrix framework. Remarkably, some processes, termed causally nonseparable, are incompatible with a definite causal order. We explore a form of certification of causal nonseparability in a semi-device-independent scenario where the involved parties receive trusted quantum inputs, but whose operations are otherwise uncharacterised. Defining the notion of causally nonseparable distributed measurements, we show that certain causally nonseparable processes which cannot violate any causal inequality, including the canonical example of the quantum switch, can generate noncausal correlations in such a scenario. Moreover, by imposing some further natural structure to the untrusted operations, we show that all bipartite causally nonseparable process matrices can be certified with trusted quantum inputs. | 翻訳日:2023-03-21 05:11:23 公開日:2022-08-26 |
# 量子鍵分布における推測確率の簡単な関係 A simple relation of guessing probability in quantum key distribution ( http://arxiv.org/abs/2112.11783v6 ) ライセンス: Link先を確認 | Hong-Yi Su | (参考訳) 量子鍵分布を用いた通信システムを考えると、受信機は送信者の情報を盗聴者の可能性と同じように推測しようとするものと見なすことができる。
したがって、受信機と盗聴器の類似性は、距離に基づく情報理論のセキュリティに関連して、シフ鍵の確率と正しさを推測する点で単純な関係を意味する。
このような推測確率に基づく関係によって決定される誤り率の許容範囲は、セキュリティ基準によって決定されるものと近いことが示されている。
したがって、量子鍵分布問題の解析における推定確率の適用に関する別の視点が提供される。
2つの特定のプロトコルの例を示す。
本研究は,通信研究における重要な要素の評価に寄与し,量子鍵分散プロトコルのセキュリティ解析に有用な参照を提供する。 Given a communication system using quantum key distribution, the receiver can be seen as one who tries to guess the sender's information just as potential eavesdroppers do. The receiver-eavesdropper similarity thus implies a simple relation in terms of guessing probability and correctness of sifted keys, related with the distance-based, information-theoretic security. The tolerable regions of error rates determined by such a guessing-probability-based relation are shown to be close to those determined by security criteria. Thus, an alternative perspective on applying guessing probability in analyzing quantum key distribution issues is here provided. Examples of two specific protocols are illustrated. Our results contribute to evaluating an important element in communication study, and may provide useful reference for the security analysis of quantum key distribution protocols. | 翻訳日:2023-03-03 20:22:52 公開日:2022-08-26 |
# ハイブリッド光機械力センサにおけるホモダインコヒーレント量子ノイズキャンセラ Homodyne coherent quantum noise cancellation in a hybrid optomechanical force sensor ( http://arxiv.org/abs/2201.02592v4 ) ライセンス: Link先を確認 | H. Allahverdi, Ali Motazedifard, A. Dalafi, D. Vitali and M. H. Naderi | (参考訳) 本稿では,標準的な量子限界(SQL)を超えた真空注入を補助するハイブリッドオプティメカルセットアップにおいて,力検出の感度を高めるための実験可能なスキームを提案する。
この方式は、コヒーレント量子ノイズキャンセリング(CQNC)戦略と、局所発振器の位相を最適化した共振器出力スペクトルの変動ホモダイン検出の組み合わせに基づいている。
cqncでは、システム内の負質量発振器の実現は、破壊的量子干渉による力学からのバックアクションノイズの正確なキャンセルにつながる。
スクイーズド真空注入は、このキャンセルを強化し、サブSQL感度を広い周波数帯とはるかに低い入力レーザーパワーで到達できるようにする。
ここでは、変分ホモダインの読み出しの導入により、このノイズキャンセリングを、光学出力位相の2次検出の標準ケースと比較して最大40 〜\mathrm{dB}$まで向上させることができることを示し、標準ケースに比べて約2次強化の10–19} \mathrm{N}/\sqrt{\mathrm{Hz}}$のオーダーに対する顕著な力感度をもたらすことを示した。
さらに,ノンゼロキャビティデチューニングでは,可変ホモダイン読み出しを伴わない標準ケースでは,信号応答を3〜5倍大きく増幅でき,信号対雑音比(snr)が向上することを示した。
最後に,本論文で開発された変分読み出しcqncは,浮揚系や多モード光メカニカルアレイや結晶,ジョセフソン系光メカニカル系など,他の光メカニカルライクなプラットフォームに適用することができる。 In this paper, we propose an experimentally viable scheme to enhance the sensitivity of force detection in a hybrid optomechanical setup assisted by squeezed vacuum injection, beyond the standard quantum limit (SQL). The scheme is based on a combination of the coherent quantum noise cancellation (CQNC) strategy with a variational homodyne detection of the cavity output spectrum in which the phase of the local oscillator is optimized. In CQNC, realizing a negative-mass oscillator in the system leads to exact cancellation of the backaction noise from the mechanics due to destructive quantum interference. Squeezed vacuum injection enhances this cancellation and allows sub-SQL sensitivity to be reached in a wide frequency band and at much lower input laser powers. We show here that the adoption of variational homodyne readout enables us to enhance this noise cancellation up to $40 ~\mathrm{dB}$ compared to the standard case of detection of the optical output phase quadrature, leading to a remarkable force sensitivity of the order of $10^{-19} \mathrm{N}/\sqrt{\mathrm{Hz}}$, around 2-order enhancement compared to the standard case. Moreover, we show that at nonzero cavity detuning, the signal response can be amplified at a level three to five times larger than that in the standard case without variational homodyne readout, improving the signal-to-noise-ratio (SNR). Finally, the variational readout CQNC developed in this paper may be applied to other optomechanical-like platforms such as levitated systems and multimode optomechanical arrays or crystals as well as Josephson-based optomechanical systems. | 翻訳日:2023-03-02 03:20:09 公開日:2022-08-26 |
# 一般化不確実性原理によるチャンドラセカール極限の発散除去 Removing the divergence of Chandrasekhar limit caused by generalized uncertainty principle ( http://arxiv.org/abs/2201.04338v2 ) ライセンス: Link先を確認 | Xin-Dong Du and Chao-Yun Long | (参考訳) 通常の一般化不確実性原理は、ホワイトドワーフの発散質量限界につながり、この発散は一般化不確実性原理の正のパラメータと負のパラメータの両方のシナリオで防止されるべきである。
負のパラメータが直接質量限界を復元できることが示されているが、なぜ負の記号が白色小星の条件下で現れるのかを説明する理由は与えられていない。
この問題を解決するために、スピン場の種によって符号が変化するフィールド依存パラメータ式を導出する。
さらに、負符号の実際の物理的効果は運動量の不確実性を制限することを目的としている。 The usual generalized uncertainty principle will lead to a divergent mass limit of white dwarf, and this divergence should be prevented for both scenarios including positive and negative parameters of generalized uncertainty principle. Although it has been shown that negative parameter can directly restore the mass limit, the underlying reason is not given to explain why the negative sign appears under the condition of white dwarf. In order to solve this problem, we derive a field-dependent parameter expression whose sign can change depending on the species of spin fields. Besides, we find that the actual physical effect of the negative sign is aimed at limiting the exorbitant uncertainty of momentum. | 翻訳日:2023-03-01 08:57:40 公開日:2022-08-26 |
# 自由フェルミイオン位相量子センサ Free-Fermionic Topological Quantum Sensors ( http://arxiv.org/abs/2201.07102v3 ) ライセンス: Link先を確認 | Saubhik Sarkar, Chiranjib Mukhopadhyay, Abhijeet Alase, Abolfazl Bayat | (参考訳) 長距離の絡み合い、対称性の破れ、ギャップ・クローズといったよく知られた2次量子相転移は、臨界時のセンシングのための量子強化を示す。
しかし、これらの機能のどれがこの拡張の原因なのかは定かではない。
この問題に対処するため,自由フェルミオン位相系の相転移について検討し,対称性の破れや長距離の絡み合いを示さない。
位相境界近傍の位相的エッジ状態を用いて量子強化センシングが可能であることを解析的に証明する。
注目すべきは、そのような強化は固体実験で利用できるようなモデルの基底状態にも耐えられることである。
1D Su-Schrieffer-Heeger 鎖と2D Chern 絶縁体を用いて実験を行った。
対称性の破れも長距離の絡み合いも必須ではないが、ギャップ・クローズは量子強化センシングの究極の源である。
また,パラメータ値によらず,汎用エッジ状態を用いた検出の精度をほぼ最適に行う固定的かつ簡易な測定戦略も提供する。
これにより、局所摂動に対する堅牢性も期待できるトポロジカル量子センサの開発方法が舗装される。 Second order quantum phase transitions, with well-known features such as long-range entanglement, symmetry breaking, and gap closing, exhibit quantum enhancement for sensing at criticality. However, it is unclear which of these features are responsible for this enhancement. To address this issue, we investigate phase transitions in free-fermionic topological systems that exhibit neither symmetry-breaking nor long-range entanglement. We analytically demonstrate that quantum enhanced sensing is possible using topological edge states near the phase boundary. Remarkably, such enhancement also endures for ground states of such models that are accessible in solid state experiments. We illustrate the results with 1D Su-Schrieffer-Heeger chain and a 2D Chern insulator which are both experimentally accessible. While neither symmetry-breaking nor long-range entanglement are essential, gap closing remains as the major candidate for the ultimate source of quantum enhanced sensing. In addition, we also provide a fixed and simple measurement strategy that achieves near-optimal precision for sensing using generic edge states irrespective of the parameter value. This paves the way for development of topological quantum sensors which are expected to also be robust against local perturbations. | 翻訳日:2023-02-28 20:38:17 公開日:2022-08-26 |
# 雑音バイアス対応カラーコードのためのセルラーオートマトンデコーダ A cellular automaton decoder for a noise-bias tailored color code ( http://arxiv.org/abs/2203.16534v2 ) ライセンス: Link先を確認 | Jonathan F. San Miguel, Dominic J. Williamson, Benjamin J. Brown | (参考訳) 自己補正量子メモリは、アクティブな量子誤り訂正プロトコルを改善するために利用される堅牢な特性を示す。
本稿では,物理量子ビットの基底が局所的に回転するカラーコードの変種をXYZカラーコードと呼ぶセルオートマトンデコーダを提案する。
局所変換は、システムに作用するノイズが絶対的に偏り、すなわち弦のような論理演算子がない場合に、2次元フラクタル符号の鍵特性を示すことを意味する。
このように、ハイバイアス限界において、ローカルデコーダは部分的な自己補正メモリの挙動を再現する。
低エラーレートでは、メモリ時間はグローバルデコーダからの介入なしにシステムサイズと多項式的に分岐し、エラー率を下げるにつれて増加する重要なシステムサイズまで変化する。
さらに,有限バイアスでは部分的自己修正動作は再現できないが,実雑音バイアスでは記憶時間の改善が確認できた。
そこで本研究では,現実的なノイズモデルに対するグローバルデコーディングの帯域幅を削減できるセルラ・オートマトンデコーダの設計を動機付ける。 Self-correcting quantum memories demonstrate robust properties that can be exploited to improve active quantum error-correction protocols. Here we propose a cellular automaton decoder for a variation of the color code where the bases of the physical qubits are locally rotated, which we call the XYZ color code. The local transformation means our decoder demonstrates key properties of a two-dimensional fractal code if the noise acting on the system is infinitely biased towards dephasing, namely, no string-like logical operators. As such, in the high-bias limit, our local decoder reproduces the behavior of a partially self-correcting memory. At low error rates, our simulations show that the memory time diverges polynomially with system size without intervention from a global decoder, up to some critical system size that grows as the error rate is lowered. Furthermore, although we find that we cannot reproduce partially self-correcting behavior at finite bias, our numerics demonstrate improved memory times at realistic noise biases. Our results therefore motivate the design of tailored cellular automaton decoders that help to reduce the bandwidth demands of global decoding for realistic noise models. | 翻訳日:2023-02-20 06:56:31 公開日:2022-08-26 |
# 量子ラビハミルトニアンの半古典的極限を定義する Defining the semiclassical limit of the quantum Rabi Hamiltonian ( http://arxiv.org/abs/2203.17147v2 ) ライセンス: Link先を確認 | E. K. Irish and A. D. Armour | (参考訳) 半古典的ラビモデルにおける量子から半古典的挙動への交差は、驚くほど、完全に厳密な理解が欠けている。
ここで、量子ハミルトニアンから直接半古典的モデルを導出するための形式論を展開する。
置換されたフォック状態基底 $\lvert \alpha, n \rangle$ で作用すると、半古典的極限は $\lvert \alpha \to \infty$ と 0 との結合をとることによって得られる。
これにより、コヒーレント状態のダイナミクスと標準および超強結合/駆動系における半古典的なラビ振動の差が解消される。
さらに、量子-古典遷移の研究のためのフレームワークと、量子技術への潜在的な応用を提供する。 The crossover from quantum to semiclassical behavior in the seminal Rabi model of light-matter interaction still, surprisingly, lacks a complete and rigorous understanding. A formalism for deriving the semiclassical model directly from the quantum Hamiltonian is developed here. Working in a displaced Fock-state basis $\lvert \alpha, n \rangle$, the semiclassical limit is obtained by taking $\lvert \alpha \rvert \to \infty$ and the coupling to zero. This resolves the discrepancy between coherent-state dynamics and semiclassical Rabi oscillations in both standard and ultrastrong coupling/driving regimes. Furthermore, it provides a framework for studying the quantum-to-classical transition, with potential applications in quantum technologies. | 翻訳日:2023-02-20 05:03:31 公開日:2022-08-26 |
# ロボット形態に及ぼす環境とリニアアクチュエータの影響 The Effects of the Environment and Linear Actuators on Robot Morphologies ( http://arxiv.org/abs/2204.00934v3 ) ライセンス: Link先を確認 | Steven Oud and Koen van der Pool | (参考訳) 進化ロボティクスの分野は、自然進化の原理を使ってロボットを設計する。
本稿では,既存のRoboGenフレームワークに骨格筋にインスパイアされた新しいモジュール(リニアアクチュエータ)を追加する効果について検討する。
さらに, 荒れた環境下で進化したロボットとは異なる環境下で進化したロボットについて検討する。
進化したロボット形態を比較するための方向移動の課題を考察する。
その結果, 線形アクチュエータの追加は, 通常の環境下で進化したロボットの性能や形態に大きな影響を及ぼさないことがわかった。
しかし, 粗い環境下で進化したロボットと, 粗い環境下で進化したロボットの形態に有意な差異が認められた。
環境の地形を変えると、より複雑な行動や形態が生まれます。 The field of evolutionary robotics uses principles of natural evolution to design robots. In this paper, we study the effect of adding a new module inspired by the skeletal muscle to the existing RoboGen framework: the linear actuator. Additionally, we investigate how robots evolved in a plain environment differ from robots evolved in a rough environment. We consider the task of directed locomotion for comparing evolved robot morphologies. The results show that the addition of the linear actuator does not have a significant impact on the performance and morphologies of robots evolved in a plain environment. However, we find significant differences in the morphologies of robots evolved in a plain environment and robots evolved in a rough environment. We find that more complex behavior and morphologies emerge when we change the terrain of the environment. | 翻訳日:2023-02-20 00:43:54 公開日:2022-08-26 |
# 科学的発見と深層学習 Deep Learning Opacity in Scientific Discovery ( http://arxiv.org/abs/2206.00520v2 ) ライセンス: Link先を確認 | Eamon Duede | (参考訳) 哲学者は最近、ディープニューラルネットワークの不透明さから生じる批判的、認識論的課題に焦点を当てている。
この文献から、不透明なモデルで良い科学を行うのは、不可能ではないにせよ、非常に難しい、と結論付けることができる。
しかし、これは、AIメソッドによって駆動される最近の科学的ブレークスルーの洪水と共に、科学におけるAIの楽観主義の最近のブームに匹敵するのは難しい。
本稿では、哲学的悲観主義と科学的楽観主義の切り離しは、AIが科学で実際にどのように使われているかを調べるのに失敗していると論じる。
AIを利用したブレークスルーの認識的正当化を理解するために、哲学者はより広範な発見プロセスの一環として、ディープラーニングが果たす役割を検証しなければならない。
この点では「発見の言葉」と「正当化の言葉」の哲学的区別が有用である。
私は、科学文献から引用された2つの事例でこの区別に従うことの重要性を実証し、認識論的不透明性が科学者を重要かつ正当なブレークスルーへと導くためにaiの能力を減らす必要はないことを示した。 Philosophers have recently focused on critical, epistemological challenges that arise from the opacity of deep neural networks. One might conclude from this literature that doing good science with opaque models is exceptionally challenging, if not impossible. Yet, this is hard to square with the recent boom in optimism for AI in science alongside a flood of recent scientific breakthroughs driven by AI methods. In this paper, I argue that the disconnect between philosophical pessimism and scientific optimism is driven by a failure to examine how AI is actually used in science. I show that, in order to understand the epistemic justification for AI-powered breakthroughs, philosophers must examine the role played by deep learning as part of a wider process of discovery. The philosophical distinction between the 'context of discovery' and the 'context of justification' is helpful in this regard. I demonstrate the importance of attending to this distinction with two cases drawn from the scientific literature, and show that epistemic opacity need not diminish AI's capacity to lead scientists to significant and justifiable breakthroughs. | 翻訳日:2023-02-19 17:25:16 公開日:2022-08-26 |
# ITセキュリティをアウトソースする組織決定に影響を及ぼす要因:レビューと調査アジェンダ Factors Influencing the Organizational Decision to Outsource IT Security: A Review and Research Agenda ( http://arxiv.org/abs/2208.12875v1 ) ライセンス: Link先を確認 | Antra Arshad, Atif Ahmad, Sean Maynard | (参考訳) ITセキュリティアウトソーシング(IT Security Outsourcing)は、サードパーティのセキュリティサービスプロバイダに対して、組織の完全なあるいは部分的なITセキュリティ機能を実行するように契約するプロセスである。
このような重要な機能のアウトソーシングにおいて、組織的な決定に影響を与える要因についてはほとんど分かっていない。
本研究と実践文献のレビューにより,管理上の要因と法的要因を明らかにした。
私たちは、ITセキュリティのアウトソーシングに関する研究は未熟であることを発見し、業界慣行に直面する重要な問題に対処しない領域に焦点を当てた。
そこで我々は,itセキュリティアウトソーシングに関する知識,特に成果の有効性,実践経験,時間的次元,マルチステイクホルダ視点,itセキュリティプラクティス,特にインシデント対応におけるアジリティに関する5つの重要なギャップに対処するための15の質問からなる研究課題を提案する。 IT security outsourcing is the process of contracting a third-party security service provider to perform, the full or partial IT security functions of an organization. Little is known about the factors influencing organizational decisions in outsourcing such a critical function. Our review of the research and practice literature identified several managerial factors and legal factors. We found research in IT security outsourcing to be immature and the focus areas not addressing the critical issues facing industry practice. We therefore present a research agenda consisting of fifteen questions to address five key gaps relating to knowledge of IT security outsourcing, specifically effectiveness of the outcome, lived experience of the practice, the temporal dimension, multi-stakeholder perspectives, and the impact on IT security practices, particularly agility in incident response. | 翻訳日:2023-02-19 10:49:48 公開日:2022-08-26 |
# Waymoの疲労リスク管理フレームワーク:自動運転システムのテスト中における疲労リスクの防止・監視・軽減 Waymo's Fatigue Risk Management Framework: Prevention, Monitoring, and Mitigation of Fatigue-Induced Risks while Testing Automated Driving Systems ( http://arxiv.org/abs/2208.12833v1 ) ライセンス: Link先を確認 | Francesca Favaro, Keith Hutchings, Philip Nemec, Leticia Cavalcante, Trent Victor | (参考訳) 本報告では,ADS技術のオンロードテストにおける疲労誘発リスクの防止,監視,緩和に対処する,系統的疲労リスク管理フレームワークを提案する。
提案されたフレームワークは、継続的改善を取り入れるにはフレキシブルであり、技術プラクティス、研究、学習、経験(Waymoの内部および外部の両方)の状況によって通知された。
疲労は、人間のドライバーによる路上衝突のかなりの部分で認識されている要因であり、疲労によって引き起こされるリスクの軽減は、世界中で研究されているオープンな関心事である。
提案するフレームワークは,SAE Level 4 ADS技術のオンロードテストに特化して設計されているが,低レベルの自動化にも適用可能である。 This report presents Waymo's proposal for a systematic fatigue risk management framework that addresses prevention, monitoring, and mitigation of fatigue-induced risks during on-road testing of ADS technology. The proposed framework remains flexible to incorporate continuous improvements, and was informed by state of the art practices, research, learnings, and experience (both internal and external to Waymo). Fatigue is a recognized contributory factor in a substantial fraction of on-road crashes involving human drivers, and mitigation of fatigue-induced risks is still an open concern researched world-wide. While the proposed framework was specifically designed in relation to on-road testing of SAE Level 4 ADS technology, it has implications and applicability to lower levels of automation as well. | 翻訳日:2023-02-19 10:49:31 公開日:2022-08-26 |
# リモートデータ監査とクラウド環境におけるカストディの連鎖への影響 Remote Data Auditing and How it May Affect the Chain of Custody in a Cloud Environment ( http://arxiv.org/abs/2208.12759v1 ) ライセンス: Link先を確認 | Rodolfo Machuca and Fatoumata Sankare | (参考訳) ビッグデータの収集が成長を続けるにつれ、クラウドベースの環境にデータをアウトソーシングする企業が増えています。
これには、我々の市民の安全なデータを維持することに依存する連邦政府といくつかの機関が含まれる。
国家レベルから大都市の警察署まで、法執行機関もクラウド環境を利用してデータを保存している。
これらの機関は、この情報を格納するために必要な巨大なデータセンターを維持せず、貯金しながらデータを保護する方法だと考えている。
このデータソリューションは、データ所有者の制御の欠如により、アウトソースされたデータが信頼できないものになるという、独自の問題を提示します。
クラウドコンピューティングは多くの困難に直面しており、セキュリティが主な問題となっている。
これはクラウドコンピューティングサービスプロバイダが独立したエンティティであるからであり、クラウドに格納されたデータはすべて、プライマリデータオーナによるデータのコントロールを諦めていると解釈できるからだ。
[1] リモートデータ監査(RDA)は、特に組織がデータをマルチクラウド環境に保存しなければならない場合において、クラウド環境におけるデータ管理においてますます重要になっている。
適切な監査のためにデータの完全性を維持することによるセキュリティ上の脅威は、過去に一度も解決されなかった裁判である。 As big data collection continues to grow, more and more organizations are relying on outsourcing their data to cloud-based environments. This includes the federal government and several agencies that depend on maintaining our citizens' secure data. Law enforcement agencies from the national level down to large city police departments are also using the cloud environment to store data. These agencies see this as a method of securing data while saving money by not maintaining the large data centers required to house this information. This data solution presents in own set of problems in that the outsourced data can become untrustworthy due to the lack of control of the data owners. Cloud computing is facing many difficulties, with security being the primary issue. This is because the cloud computing service provider is a separate entity; any data stored in the cloud can be interpreted as giving up control of the data by the primary data owner. [1] Remote data auditing (RDA) is increasingly important when managing data in a cloud environment, especially when organizations have to store their data in a multi-cloud environment. The challenging security threats posed by attempting to maintain the integrity of the data for proper auditing is a trial that was never addressed in the past. | 翻訳日:2023-02-19 10:48:48 公開日:2022-08-26 |
# epistemic parity:差分プライバシー評価指標としての再現性 Epistemic Parity: Reproducibility as an Evaluation Metric for Differential Privacy ( http://arxiv.org/abs/2208.12700v1 ) ライセンス: Link先を確認 | Lucas Rosenblatt, Anastasia Holovenko, Taras Rumezhak, Andrii Stadnik, Bernease Herman, Julia Stoyanovich, Bill Howe | (参考訳) 異なるプライバシメカニズムは、経験的なユーティリティの証拠と合わせて、プライバシーに関する強力な理論的保証に依存する、センシティブなデータセットの公開を可能にするために、ますます使用されている。
ユーティリティは通常、記述統計、多変量相関、分類精度などの代表的プロキシタスクのエラーとして測定される。
本稿では,科学的研究における差分プライベートな合成データの有用性を評価するための代替評価手法を提案する。
提案手法は、公開データセットを用いたピアレビュー論文の実証的結論を再現し、これらの結論をデータセットの微分プライベートバージョンに基づく結果と比較する。
我々はICPSR社会科学レポジトリの公開データセットを解析する最近のピアレビュー論文のベンチマークで方法論をインスタンス化する。
各紙から可視化(定性的結果)と統計的尺度(定性的結果)を再現する。
次に,最先端の機構を用いて差動的にプライベートな合成データセットを生成し,論文に記載された結論が保持されているかどうかを評価する。
妥当なエプシロン値において、エピステミックパリティは、評価した各シンセサイザーに対して部分的にしか持たないことがわかった。
そこで我々は,既存のシンセサイザーの改良と,プライバシ攻撃によるリスク対応,最善の努力の保護を実現すると同時に,認識的同一性に対する強力な保証を提供する新たなデータリリースメカニズムの作成を提唱する。 Differential privacy mechanisms are increasingly used to enable public release of sensitive datasets, relying on strong theoretical guarantees for privacy coupled with empirical evidence of utility. Utility is typically measured as the error on representative proxy tasks, such as descriptive statistics, multivariate correlations, or classification accuracy. In this paper, we propose an alternative evaluation methodology for measuring the utility of differentially private synthetic data in scientific research, a measure we term "epistemic parity." Our methodology consists of reproducing empirical conclusions of peer-reviewed papers that use publicly available datasets, and comparing these conclusions to those based on differentially private versions of the datasets. We instantiate our methodology over a benchmark of recent peer-reviewed papers that analyze public datasets in the ICPSR social science repository. We reproduce visualizations (qualitative results) and statistical measures (quantitative results) from each paper. We then generate differentially private synthetic datasets using state-of-the-art mechanisms and assess whether the conclusions stated in the paper hold. We find that, across reasonable epsilon values, epistemic parity only partially holds for each synthesizer we evaluated. Therefore, we advocate for both improving existing synthesizers and creating new data release mechanisms that offer strong guarantees for epistemic parity while achieving risk-aware, best effort protection from privacy attacks. | 翻訳日:2023-02-19 10:48:31 公開日:2022-08-26 |
# 悪意あるURLキャンペーンのレンズを通した脅威知能の発見 Unraveling Threat Intelligence Through the Lens of Malicious URL Campaigns ( http://arxiv.org/abs/2208.12449v1 ) ライセンス: Link先を確認 | Mahathir Almashor, Ejaz Ahmed, Benjamin Pick, Sharif Abuadbba, Jason Xue, Raj Gaire, Shuo Wang, Seyit Camtepe, Surya Nepal | (参考訳) the daily deluge of alertsは、世界中のセキュリティ・オペレーション・センター(soc)職員の日常的な現実である。
彼らは組織のサイバーセキュリティインフラストラクチャの最前線にいて、彼らのセキュリティ情報およびイベント管理(SIEM)システムによって引き起こされる嫌悪な警告の洪水の中で、脅威を優先順位付けする不可避のタスクに直面しています。
悪意のあるコミュニケーションで見つかったurlは、そのようなアラートの大部分を形成し、その中の関連するパターンを特定すれば、潜在的な脅威や既存の脅威を迅速にエスカレートすることができます。
この警戒の必要性は、伝統的に機械学習ベースのログ分析ツールと異常検出の概念で満たされてきた。
機械学習のアプローチを横取りするために、悪意のあるURLキャンペーンの観点からSIEMアラートから不審なURLを分析することを提案する。
VirusTotalから集めた311万レコードにURLを2.6万の疑わしいクラスタにグループ化することで、77.8万の悪意あるキャンペーンを発見した。
疑念を裏付けて、私たちは18.3KのマルチURLキャンペーンに起因する9.9万のユニークなURLを発見しました。
また、より長いURLやより多様なドメイン名などの回避策に関する洞察を提示し、選択された事例研究により、他の敵のテクニックを露呈する。
これらのURLアラートを駆動するキャンペーンを特徴付けることで、SOCチームに現在の脅威トレンドを知らせ、より優れた脅威知性でそれらを武装させたいと思っています。 The daily deluge of alerts is a sombre reality for Security Operations Centre (SOC) personnel worldwide. They are at the forefront of an organisation's cybersecurity infrastructure, and face the unenviable task of prioritising threats amongst a flood of abstruse alerts triggered by their Security Information and Event Management (SIEM) systems. URLs found within malicious communications form the bulk of such alerts, and pinpointing pertinent patterns within them allows teams to rapidly deescalate potential or extant threats. This need for vigilance has been traditionally filled with machine-learning based log analysis tools and anomaly detection concepts. To sidestep machine learning approaches, we instead propose to analyse suspicious URLs from SIEM alerts via the perspective of malicious URL campaigns. By first grouping URLs within 311M records gathered from VirusTotal into 2.6M suspicious clusters, we thereafter discovered 77.8K malicious campaigns. Corroborating our suspicions, we found 9.9M unique URLs attributable to 18.3K multi-URL campaigns, and that worryingly, only 2.97% of campaigns were found by security vendors. We also confer insights on evasive tactics such as ever lengthier URLs and more diverse domain names, with selected case studies exposing other adversarial techniques. By characterising the concerted campaigns driving these URL alerts, we hope to inform SOC teams of current threat trends, and thus arm them with better threat intelligence. | 翻訳日:2023-02-19 10:43:29 公開日:2022-08-26 |
# 異なる情報源からのデータ統合に基づく健康遠隔監視プラットフォーム A health telemonitoring platform based on data integration from different sources ( http://arxiv.org/abs/2207.13913v2 ) ライセンス: Link先を確認 | Gianluigi Ciocca, Paolo Napoletano, Matteo Romanato, Raimondo Schettini | (参考訳) 長期または慢性疾患の人々の管理は、国家の健康システムにとって最大の課題の1つである。
実際、これらの病気は、特に高齢者が入院する主な原因の1つであり、それを監視するのに必要な膨大なリソースが医療システムの持続性に問題を引き起こす。
携帯機器の普及と新たな接続技術により、医療提供者に支援を提供し、病院や診療所の負担を軽減できる遠隔監視システムの実装が可能になる。
本稿では,医療用遠隔監視プラットフォームの実装について紹介する。このプラットフォームは,モバイル機器やカスタム機器のさまざまな種類の生理的健康パラメータをキャプチャするように設計されている。
消費者向け医療機器は、何百ものデバイスをサポートするGoogle Fitエコシステムを介してプラットフォームに統合でき、カスタムデバイスは標準の通信プロトコルでプラットフォームと直接対話することができる。
このプラットフォームは、機械学習アルゴリズムを使って取得したデータを処理し、患者や医師に生理的健康パラメーターをユーザーフレンドリで総合的で理解しやすいダッシュボードで提供するように設計されている。
予備的なユーザビリティテストは、機能性と有用性の観点から、優れたユーザ満足度を示す。 The management of people with long-term or chronic illness is one of the biggest challenges for national health systems. In fact, these diseases are among the leading causes of hospitalization, especially for the elderly, and huge amount of resources required to monitor them leads to problems with sustainability of the healthcare systems. The increasing diffusion of portable devices and new connectivity technologies allows the implementation of telemonitoring system capable of providing support to health care providers and lighten the burden on hospitals and clinics. In this paper, we present the implementation of a telemonitoring platform for healthcare, designed to capture several types of physiological health parameters from different consumer mobile and custom devices. Consumer medical devices can be integrated into the platform via the Google Fit ecosystem that supports hundreds of devices, while custom devices can directly interact with the platform with standard communication protocols. The platform is designed to process the acquired data using machine learning algorithms, and to provide patients and physicians the physiological health parameters with a user-friendly, comprehensive, and easy to understand dashboard which monitors the parameters through time. Preliminary usability tests show a good user satisfaction in terms of functionality and usefulness. | 翻訳日:2023-02-19 10:11:44 公開日:2022-08-26 |
# マルチ時間量子プロセスにおける通信性と古典性 Connecting Commutativity and Classicality for Multi-Time Quantum Processes ( http://arxiv.org/abs/2204.11698v2 ) ライセンス: Link先を確認 | Fattah Sakuldee, Philip Taranto, and Simon Milz | (参考訳) 古典と量子の境界線を理解することは、現代物理学において重要な問題である。
このような理解の発達は、現在使われている量子論における「古典性」の様々な同時概念の明確な図面を必要とする。
ここでは、標準確率論における古典的確率過程の基礎的基盤である測定統計のコルモゴロフ整合性と、量子論の核にある測定作用素の可換性(あるいはその欠如)との関係に焦点を当てる。
コルモゴロフの一貫性は、(おそらく量子)系におけるシーケンシャルな測定の統計が、古典的確率過程によって完全に説明され、従って古典性の操作的概念を与えることを意味する。
一方、測定作用素の可換性は古典物理学における構造的性質であり、その分解は基本的に量子現象である不確実性原理の起源である。
ここでは、これら2つの先行独立な古典性の概念間の関係を定式化し、それらが一般に異なることを示し、メモリレスなマルチ時間量子プロセスに対するそれらの含意を詳細に示す。 Understanding the demarcation line between classical and quantum is an important issue in modern physics. The development of such an understanding requires a clear picture of the various concurrent notions of `classicality' in quantum theory presently in use. Here, we focus on the relationship between Kolmogorov consistency of measurement statistics -- the foundational footing of classical stochastic processes in standard probability theory -- and the commutativity (or absence thereof) of measurement operators -- a concept at the core of quantum theory. Kolmogorov consistency implies that the statistics of sequential measurements on a (possibly quantum) system could be explained entirely by means of a classical stochastic process, thereby providing an operational notion of classicality. On the other hand, commutativity of measurement operators is a structural property that holds in classical physics and its breakdown is the origin of the uncertainty principle, a fundamentally quantum phenomenon. Here, we formalise the connection between these two a priori independent notions of classicality, demonstrate that they are distinct in general and detail their implications for memoryless multi-time quantum processes. | 翻訳日:2023-02-15 17:50:06 公開日:2022-08-26 |
# 絶対ネガティビティの資源理論 Resource theory of Absolute Negativity ( http://arxiv.org/abs/2205.13480v3 ) ライセンス: Link先を確認 | Roberto Salazar, Jakub Czartowski, A. de Oliveira Junior | (参考訳) 量子情報の重要な目標は、量子デバイスの特性を資源として利用する新しい方法を見つけることである。
特に興味深い量子デバイスの特徴の1つは、その準確率表現における負性であり、基礎的および実践的な研究で集中的に研究されている。
本稿では,量子デバイスの集合の負性性を基底非依存的に特徴付けるために絶対負性の概念を導入する。
さらに、量子状態測定ペアの集合に適用される絶対負性(Absolute Negativity)という関係概念に対する資源理論を提供する。
さらに、資源測定のための上界の完全な階層を決定することで、デバイスセットのリソースを推定することができる。
古典的確率表現を持つ状態測定ペアに対する通信と出力推定のアドバンテージに対する資源理論の操作的解釈を示す。
さらに,新たに導入された概念を,4つの量子ビット状態測定ペアの単純な場合の徹底的な解析により示す。
最後に, 一般化, 応用, オープン質問について概説する。 A crucial goal of quantum information is to find new ways to exploit the properties of quantum devices as resources. One of the prominent properties of quantum devices of particular interest is their negativity in quasi-probability representations, intensively studied in foundational and practical investigations. In this article, we introduce the concept of Absolute Negativity to characterise the negativity of sets of quantum devices in a basis-independent way. Moreover, we provide a resource theory for our relational notion of Absolute Negativity, which applies to sets of quantum state-measurement pairs. Additionally, we determine a complete hierarchy of upper bounds for resource measures, which allows for estimating the resources of a set of devices. We demonstrate operational interpretations of our resource theory for communication and output-estimation advantages over state-measurement pairs with a classical probability representation. Furthermore, we illustrate the newly introduced concepts with an exhaustive analysis of a simple case of four qubit state-measurement pairs. Finally, we outline possible generalisations, applications and open questions. | 翻訳日:2023-02-11 16:39:32 公開日:2022-08-26 |
# 原子の極端イオン化過程における光物質の絡み合い Light-matter entanglement after above-threshold ionization processes in atoms ( http://arxiv.org/abs/2208.05245v2 ) ライセンス: Link先を確認 | Javier Rivera-Dean, Philipp Stammer, Andrew S. Maxwell, Theocharis Lamprou, Paraskevas Tzallas, Maciej Lewenstein and Marcelo F. Ciappina | (参考訳) 量子情報科学の多くの応用において、光物質の絡み合いは基本的な役割を果たす。
したがって、観察できるプロセスを見つけることは重要なタスクである。
本稿では,上層イオン化(ati)過程において発生した光と電子の絡み合いを理論的に検討することにより,この問題に対処する。
この研究は、系の量子光学状態に対するATIプロセスのバックアクションと、放出された光電子の運動エネルギーと方向に依存することに基づいている。
この過程のダイナミクスを考慮し,ハイブリッドな絡み合い状態の生成を実証する。
絡み合いの量は絡み合いのエントロピーの観点から研究されている。
さらに、駆動場モードのウィグナー関数を用いて、反対方向に伝播する電子を考える際の絡み合い特性の動機付けを行う。 Light-matter entanglement plays a fundamental role in many applications of quantum information science. Thus, finding processes where it can be observed is an important task. Here, we address this matter by theoretically investigating the entanglement between light and electrons generated in above-threshold ionization (ATI) process. The study is based on the back-action of the ATI process on the quantum optical state of the system, and its dependence on the kinetic energy and direction of the emitted photoelectrons. Taking into account the dynamics of the process, we demonstrate the creation of hybrid entangled states. The amount of entanglement has been studied in terms of the entropy of entanglement. Additionally, we use the Wigner function of the driving field mode to motivate the entanglement characterization when considering electrons propagating in opposite directions. | 翻訳日:2023-02-01 12:58:00 公開日:2022-08-26 |
# 最適測定による非エルミタン系の量子パラメータ推定 Quantum Parameter Estimation of Non-Hermitian Systems with Optimal Measurements ( http://arxiv.org/abs/2208.05159v2 ) ライセンス: Link先を確認 | Xinglei Yu, Chengjie Zhang | (参考訳) エルミート系による量子パラメータ推定は様々な分野に応用されている。
本稿では,一般パラメータ非独立な非エルミト型ハミルトニアンに対する量子パラメータ推定と,純状態に対する量子フィッシャー情報(qfi)の直感的表現について考察する。
さらに,非エルミート的およびエルミート的ハミルトニアンの両方に適用可能な最適測定条件を提案する。
これらの結果を説明するために、特定の $\mathcal{pt}$-symmetric non-hermitian hamiltonian の qfi を計算・研究し、最適な測定を行う。
驚くべきことに、この$\mathcal{PT}$-symmetric Hamiltonian(例えば例外点として知られる臨界値におけるQFIの突然変異など)によって、QFIの興味深い性質が見つかる。
さらに,推定値と理論精度境界との差異を比較し,最適測定のための条件を検証する。 Quantum parameter estimation with Hermitian systems has been applied in various fields. Here, we study the quantum parameter estimation for general parameter-independent non-Hermitian Hamiltonians and derive an intuitive expression of quantum Fisher information (QFI) for pure states. Furthermore, we propose the condition for optimal measurements, which applies to both non-Hermitian and Hermitian Hamiltonians. To illustrate these results, we calculate and study the QFI of a specific $\mathcal{PT}$-symmetric non-Hermitian Hamiltonian, and give the optimal measurement. Surprisingly, we find some interesting properties of QFI with this $\mathcal{PT}$-symmetric Hamiltonian, such as the mutations of QFI at critical values known as exceptional points. Moreover, we also compare the variance of estimation with the theoretical precision bound, to verify our condition for optimal measurements. | 翻訳日:2023-02-01 12:55:52 公開日:2022-08-26 |
# 非正規化可能な高調波振動子の物理的解釈とパイロット波平衡緩和 Physical interpretation of non-normalizable harmonic oscillator states and relaxation to pilot-wave equilibrium ( http://arxiv.org/abs/2208.08945v2 ) ライセンス: Link先を確認 | Indrajit Sen | (参考訳) 正規化不可能な状態は正則量子力学では解釈が困難であり、通常は数学的アーティファクトとして捨てられる。
我々は、パイロット波理論は、統計的予測を生成するために構成の正規化密度のみを必要とするため、非正規化可能な量子状態の直接的な物理的解釈を与えると主張する。
このような状態をよりよく理解するために、パイロット波の観点から高調波発振器の非正規化解を初めて研究する。
直交量子力学の直観とは対照的に、非正規化可能な固有状態とその重畳は、速度場 $v_y \to 0$ at large $\pm y$ という意味で境界状態であることを示す。
このような状態に対して物理的に有意な平衡密度を定義するには、量子平衡の概念の一般化であるパイロット波平衡と呼ばれる新しい平衡の概念が必要であると論じる。
我々は、新しい$H$-function $H_{pw}$を定義し、パイロット波平衡の密度が$H_{pw}$を最小にし、時間とともに平衡であることを示す。
我々は、$H$-theorem for $H_{pw}$を通じて、任意の初期密度が粗い粒度のパイロット波平衡密度に緩和されることを、量子平衡への緩和に類似した仮定の下で証明する。
この緩和は、不均一に発展する適切な正規化状態に対する量子平衡への部分緩和の観点からも再キャストすることができる。
最後に,連続エネルギー固有状態の検出に関する実験提案を概説し,量子場理論と量子重力理論の応用について論じ,パイロット波理論と一般の量子基礎への示唆について論じる。 Non-normalizable states are difficult to interpret in orthodox quantum mechanics and usually discarded as mathematical artifacts. We argue that pilot-wave theory gives a straightforward physical interpretation of non-normalizable quantum states, as the theory requires only a normalized density of configurations to generate statistical predictions. In order to better understand such states, we conduct the first study of non-normalizable solutions of the harmonic oscillator from a pilot-wave perspective. We show that, contrary to intuitions from orthodox quantum mechanics, the non-normalizable eigenstates and their superpositions are bound states in the sense that the velocity field $v_y \to 0$ at large $\pm y$. We argue that defining a physically meaningful equilibrium density for such states requires a new notion of equilibrium, named pilot-wave equilibrium, which is a generalisation of the notion of quantum equilibrium. We define a new $H$-function $H_{pw}$, and prove that a density in pilot-wave equilibrium minimises $H_{pw}$, is equivariant, and remains in equilibrium with time. We prove, via an $H$-theorem for $H_{pw}$, that an arbitrary initial density relaxes to pilot-wave equilibrium density at a coarse-grained level, under assumptions similar to those for relaxation to quantum equilibrium. This relaxation can also be recast in terms of a partial relaxation to quantum equilibrium for an appropriate normalizable state evolving non-unitarily. Lastly, we outline an experimental proposal to detect continuous-energy eigenstates, discuss applications in quantum field theory and quantum gravity, and discuss implications for pilot-wave theory and quantum foundations in general. | 翻訳日:2023-01-30 17:53:42 公開日:2022-08-26 |
# 化学結合における原子の移動 : 量子相転移の立場から Walking with the atoms in a chemical bond : A perspective using quantum phase transition ( http://arxiv.org/abs/2208.12172v2 ) ライセンス: Link先を確認 | Sabre Kais | (参考訳) 固体液体ガスや秩序分散スピン磁気相のような古典的な相転移は、温度を変化させることで熱エネルギー変動によって駆動される。
一方、量子相転移は絶対零温度で起こり、量子揺らぎによって基底状態のエネルギーは電子密度、圧力、乱れ、外部磁場などの系のパラメータが変化すると急変する。
相転移は、古典的な相転移における臨界温度や量子の場合におけるシステム臨界パラメータなどの制御パラメータの臨界値で起こる。
しかし、真の臨界性は熱力学的極限でのみ起こり、粒子の数が一定密度の無限大になる。
臨界パラメータの計算を行うために,有限系から熱力学限界への情報を外挿する有限サイズスケーリング手法を開発した。
超低温系の分野、特に単一原子および分子系のトラップと制御における実験的および理論的研究の進展により、有限系は量子相転移を示すのか?
この問題に対処するため、有限系の有限サイズスケーリングを開発し、量子臨界パラメータを計算した。
ポールトラップに閉じ込められた171 ybイオン中の量子相転移の最近の観測は、有限系における量子相転移の可能性を示している。
この視点は、超低温の化学過程を量子相転移、特に化学全体の理解のための基本的な過程である化学結合の形成と解離として検討することに焦点を当てている。 Classical phase transitions, like solid-liquid-gas or order-disorder spin magnetic phases, are all driven by thermal energy fluctuations by varying the temperature. On the other hand, quantum phase transitions happen at absolute zero temperature with quantum fluctuations causing the ground state energy to show abrupt changes as one varies the system parameters like electron density, pressure, disorder, or external magnetic field. Phase transitions happen at critical values of the controlling parameters, such as the critical temperature in classical phase transitions, and system critical parameters in the quantum case. However, true criticality happens only at the thermodynamic limit, when the number of particles goes to infinity with constant density. To perform the calculations for the critical parameters, finite size scaling approach was developed to extrapolate information from a finite system to the thermodynamic limit. With the advancement in the experimental and theoretical work in the field of ultra-cold systems, particularly trapping and controlling single atomic and molecular systems, one can ask: do finite systems exhibit quantum phase transition? To address this question, finite size scaling for finite system was developed to calculate the quantum critical parameters. Recent observation of a quantum phase transition in a single trapped 171 Yb ion in the Paul trap indicates the possibility of quantum phase transition in finite systems. This perspective focuses on examining chemical processes at ultracold temperature as quantum phase transitions, particularly the formation and dissociation of chemical bonds, which is the basic process for understanding the whole of chemistry | 翻訳日:2023-01-29 21:16:19 公開日:2022-08-26 |
# 未知のユニタリチャネルと複数の用途の比較 Comparison of unknown unitary channels with multiple uses ( http://arxiv.org/abs/2208.12519v1 ) ライセンス: Link先を確認 | Yutaka Hashimoto, Akihito Soeda, Mio Murao | (参考訳) 量子オブジェクトの比較は、2つの未知の量子オブジェクトが同じか異なるかを決定するタスクである。
量子オブジェクトの特性を学習するための最も基本的な情報処理タスクの1つであり、量子状態、量子チャネル、量子測定の比較が研究されている。
一般に、量子オブジェクトの繰り返し使用により、比較の成功確率が向上する。
純状態比較の最適戦略は、未知の純状態の複数のコピーの場合における量子状態の比較が知られているが、一意比較の最適戦略である、未知のユニタリチャネルの複数の使用の場合における量子チャネルの比較は、各ユニタリチャネルの使用における因果次構造の種類が複雑であるため、知られていない。
本稿では,量子テスタ形式に基づくユニタリチャネルの複数の利用とのユニタリ比較について検討する。
我々は,2つの未知の$d$次元ユニタリチャネルである$U_1$と$U_2$を,$U_1$を$N_1$ times,$U_2$を$N_2$ timesで$N_2 \ge (d-1)N_1$とすると,最適な最小誤差と最適なユニタリ比較戦略を得る。
これらの最適戦略は、量子回路モデルによって実装可能な全ての逐次的および適応的戦略が考慮されているにもかかわらず、ユニタリチャネルの並列利用によって実装される。
ユニタリチャネルのより小さい使用量である$n_1$が固定されると、$n_2 = (d-1) n_1$以上の使用量を追加することにより、最適な平均成功確率は改善できない。
この特徴は純粋な状態比較の場合とは対照的で、未知の純粋な状態のコピーを増やすことで、常に最適な平均成功確率が向上する。
これは、以前量子識別タスクで示された状態とチャネルの対応するタスクの違いを強調している。 Comparison of quantum objects is a task to determine whether two unknown quantum objects are the same or different. It is one of the most basic information processing tasks for learning property of quantum objects, and comparison of quantum states, quantum channels, and quantum measurements have been investigated. In general, repeated uses of quantum objects improve the success probability of comparison. The optimal strategy of pure-state comparison, the comparison of quantum states for the case of multiple copies of each unknown pure state, is known, but the optimal strategy of unitary comparison, the comparison of quantum channels for the case of multiple uses of each unknown unitary channel, was not known due to the complication of the varieties of causal order structures among the uses of each unitary channel. In this paper, we investigate unitary comparison with multiple uses of unitary channels based on the quantum tester formalism. We obtain the optimal minimum-error and the optimal unambiguous strategies of unitary comparison of two unknown $d$-dimensional unitary channels $U_1$ and $U_2$ when $U_1$ can be used $N_1$ times and $U_2$ can be used $N_2$ times for $N_2 \ge (d-1)N_1$. These optimal strategies are implemented by parallel uses of the unitary channels, even though all sequential and adaptive strategies implementable by the quantum circuit model are considered. When the number of the smaller uses of the unitary channels $N_1$ is fixed, the optimal averaged success probability cannot be improved by adding more uses of $U_2$ than $N_2 = (d-1) N_1$. This feature is in contrast to the case of pure-state comparison, where adding more copies of the unknown pure states always improves the optimal averaged success probability. It highlights the difference between corresponding tasks for states and channels, which has been previously shown for quantum discrimination tasks. | 翻訳日:2023-01-29 14:45:38 公開日:2022-08-26 |
# デコイ状態量子鍵分布のための完全受動送信器 A fully passive transmitter for decoy-state quantum key distribution ( http://arxiv.org/abs/2208.12516v1 ) ライセンス: Link先を確認 | V\'ictor Zapatero, Wenyuan Wang, Marcos Curty | (参考訳) 受動量子鍵分布(QKD)送信機は、QKDプロトコルで規定された量子状態をランダムに生成し、固定量子機構と選択後のステップを組み合わせる。
乱数発生器によって外部に駆動される能動光変調器の使用を避けることで、受動QKD送信機は変調器側チャネルに免疫を提供し、高い周波数動作を可能にする可能性がある。
近年,受動デコイ状態QKDに適した最初の線形光学装置が提案されている。
本研究では,プロトタイプを単純化し,bb84偏波符号化とデコイ状態生成に対して鋭く異なるアプローチを採用する。
その上で、不要な前提を超越した厳密なカスタムメイドのセキュリティ分析と、前の提案の中心となるポストセレクション手順を精査する。 A passive quantum key distribution (QKD) transmitter generates the quantum states prescribed by a QKD protocol at random, combining a fixed quantum mechanism and a post-selection step. By avoiding the use of active optical modulators externally driven by random number generators, passive QKD transmitters offer immunity to modulator side channels and potentially enable higher frequencies of operation. Recently, the first linear optics setup suitable for passive decoy-state QKD has been proposed. In this work, we simplify the prototype and adopt sharply different approaches for BB84 polarization encoding and decoy-state generation. On top of it, we elaborate a tight custom-made security analysis surpassing an unnecessary assumption and a post-selection step that are central to the former proposal. | 翻訳日:2023-01-29 14:45:04 公開日:2022-08-26 |
# 量子コンピュータを用いた量子化学計算における溶媒分布効果 Solvent distribution effects on quantum chemical calculations with quantum computers ( http://arxiv.org/abs/2208.12487v1 ) ライセンス: Link先を確認 | Yuichiro Yoshida, Wataru Mizukami and Norio Yoshida | (参考訳) 本稿では,3次元参照相互作用サイトモデル(3D-RISM-SCF)理論と変分量子固有解器(VQE)理論を組み合わせて,量子古典ハイブリッドコンピューティングの枠組みにおける溶媒分布効果を検討する。
本発明の方法である3D-RISM-VQEは, 統計溶媒分布の解析処理による溶媒組成サンプリングの統計的誤差を含まない。
本研究では3D-RISM-VQEを用いて水分子周辺の溶媒水の空間分布関数,NaClのポテンシャルおよびヘルムホルツエネルギー曲線を計算し,H$_2$OおよびNH$_4^+$のヘルムホルツエネルギー成分分析を行う。
さらに,3d-rism-vqeを用いて分子電子ハミルトニアンの$l^1$-ノルムを用いて,気体相の計算と比較して溶媒効果が量子計算の効率を変化させる程度を解析した。
その結果, 溶液中の量子コンピュータ上での量子化学計算の効率は, 気体相とほぼ同じであることが判明した。 We present a combination of three-dimensional reference interaction site model self-consistent field (3D-RISM-SCF) theory and the variational quantum eigensolver (VQE) to consider the solvent distribution effects within the framework of quantum-classical hybrid computing. The present method, 3D-RISM-VQE, does not include any statistical errors from the solvent configuration sampling owing to the analytical treatment of the statistical solvent distribution. We apply 3D-RISM-VQE to compute the spatial distribution functions of solvent water around a water molecule, the potential and Helmholtz energy curves of NaCl, and to conduct Helmholtz energy component analysis of H$_2$O and NH$_4^+$. Moreover, we utilize 3D-RISM-VQE to analyze the extent to which solvent effects alter the efficiency of quantum calculations compared with calculations in the gas phase using the $L^1$-norms of molecular electronic Hamiltonians. Our results demonstrate that the efficiency of quantum chemical calculations on a quantum computer in solution is virtually the same as in the gas phase. | 翻訳日:2023-01-29 14:44:51 公開日:2022-08-26 |
# フラックス格子上の周期クリフォード対称性代数 Periodic Clifford symmetry algebras on flux lattices ( http://arxiv.org/abs/2208.12467v1 ) ライセンス: Link先を確認 | Yue-Xin Huang, Z. Y. Chen, Xiaolong Feng, Shengyuan A. Yang, and Y. X. Zhao | (参考訳) 実クリフォード代数は、8つの実アルトランド・ジルンバウアー対称性クラスと位相位相の分類表において基本的な役割を果たす。
ここで、実クリフォード代数のもう1つのエレガントな実現を、プラーペット当たり$\pi$ flux の次元スピンレス矩形格子において提示する。
t$不変フラックス構成のため、実クリフォード代数は格子対称性の射影対称性代数として実現される。
注目すべきことに、$d$ mod 8$は実クリフォード代数の8つの森田同値類と正確に対応しており、8つの実アルトランド・ジルンバウアー類に似ている。
クリフォード代数の表現論は、一般の$k$点とブリルアンゾーンの高対称性点の両方において、バンド構造の退化度を決定する。
特に,高対称性点における大きな縮退は,2次バルクヌーダルループとヒンジモードを持つ3ドル高次半金属状態,3ドル高次元固体球ゼロモードを持つ4ドル高次元ノダル表面セミメタル,および8倍表面ヌーダル点または4倍表面ノダルリングを有する4ドルM\"{o}biusトポロジカル絶縁体など,様々な二量化パターンによって新しいトポロジ的状態を形成するための豊富な資源を提供することを示す。
我々の理論は、工学的な$\mathbb{Z}_2$ゲージ場と高次元系をシミュレートする能力によって、人工結晶で実験的に実現することができる。 Real Clifford algebras play a fundamental role in the eight real Altland-Zirnbauer symmetry classes and the classification tables of topological phases. Here, we present another elegant realization of real Clifford algebras in the $d$-dimensional spinless rectangular lattices with $\pi$ flux per plaquette. Due to the $T$-invariant flux configuration, real Clifford algebras are realized as projective symmetry algebras of lattice symmetries. Remarkably, $d$ mod $8$ exactly corresponds to the eight Morita equivalence classes of real Clifford algebras with eightfold Bott periodicity, resembling the eight real Altland-Zirnbauer classes. The representation theory of Clifford algebras determines the degree of degeneracy of band structures, both at generic $k$ points and at high-symmetry points of the Brillouin zone. Particularly, we demonstrate that the large degeneracy at high-symmetry points offers a rich resource for forming novel topological states by various dimerization patterns, including a $3$D higher-order semimetal state with double-charged bulk nodal loops and hinge modes, a $4$D nodal surface semimetal with $3$D surface solid-ball zero modes, and $4$D M\"{o}bius topological insulators with a eightfold surface nodal point or a fourfold surface nodal ring. Our theory can be experimentally realized in artificial crystals by their engineerable $\mathbb{Z}_2$ gauge fields and capability to simulate higher dimensional systems. | 翻訳日:2023-01-29 14:44:32 公開日:2022-08-26 |
# k\"ahler多様体のベレージン・シモン量子化とその経路積分表現 The Berezin-Simon quantization for K\"ahler manifolds and their path integral representations ( http://arxiv.org/abs/2208.12446v1 ) ライセンス: Link先を確認 | Hideyasu Yamashita | (参考訳) bs (berezin-simon) 量子化は、量子化手順の ``operator formalism'' の厳密なバージョンである。
論文の目的は、量子化のBS作用素の形式化に対応する厳密な実時間(虚時ではない)パス積分形式を提示することである; ここでは、位相空間が$M$がいくつかの条件を満たす(おそらくは非コンパクトな)K\'ahler多様体である古典的系を、ハミルトン的$H:M\rightarrow\mathbb{R}$で考える。
技術的な理由から、$h$ が滑らかで有界である場合のみを考える。
g\"uneysu's extended version of the feynman--kac theorem を用いて経路積分公式を定式化する。 The Berezin--Simon (BS) quantization is a rigorous version of the ``operator formalism'' of quantization procedure. The goal of the paper is to present a rigorous real-time (not imaginary-time) path-integral formalism corresponding to the BS operator formalism of quantization; Here we consider the classical systems whose phase space $M$ is a (possibly non-compact) K\"ahler manifold which satisfies some conditions, with a Hamiltonian $H:M\rightarrow\mathbb{R}$. For technical reasons, we consider only the cases where $H$ is smooth and bounded. We use G\"uneysu's extended version of the Feynman--Kac theorem to formulate the path-integral formula. | 翻訳日:2023-01-29 14:44:01 公開日:2022-08-26 |
# 連続変数に対する一致した絡み付き目撃基準 Matched entanglement witness criteria for continuous variables ( http://arxiv.org/abs/2208.12425v1 ) ライセンス: Link先を確認 | Xiao-yu Chen, Maoke Miao, Rui Yin, Jiantao Yuan | (参考訳) 我々は、連続変数状態の分離可能な基準を研究するために、ガウス作用素に由来する量子絡み合い証人を用いる。
我々はガウスの証人の妥当性をボソニックガウスのチャネル問題に変換する。
積純状態上の2モードおよびいくつかの4モードガウス作用素の最大平均は、ボソニックガウスチャネルの性質に従って真空状態(またはコヒーレント状態と圧縮状態)によって達成される。
そして、ガウス量子状態だけでなく、ガウス状態から光子を加減して得られる非ガウス状態に対しても十分かつ十分な分離性基準が存在する。
この基準は、ガウス状態の共分散行列や非ガウス状態のガウス核の共分散行列でさらに明示的に表現することができる。
これは非ガウス的絡みの正確な検出方法を開く。 We use quantum entanglement witnesses derived from Gaussian operators to study the separable criteria of continuous variable states. We transform the validity of a Gaussian witness to a Bosonic Gaussian channel problem. It follows that the maximal means of two-mode and some four-mode Gaussian operators over product pure states are achieved by vacuum (or coherent states and squeezed states) according to the properties of Bosonic Gaussian channels. Then we have necessary and sufficient criteria of separability not only for Gaussian quantum states, but also for non-Gaussian states prepared by photon adding to or/and subtracting from Gaussian states. The criterion can be further explicitly expressed with covariance matrix of the Gaussian state or covariance matrix of Gaussian kernel of the non-Gaussian state. This opens a way for precise detection of non-Gaussian entanglement. | 翻訳日:2023-01-29 14:43:47 公開日:2022-08-26 |
# リー代数的アプローチによる位置依存質量に対するdunkl-schr\"odinger方程式の検討 Investigation of the Dunkl-Schr\"odinger equation for Position Dependent Mass in the presence of a Lie algebraic approach ( http://arxiv.org/abs/2208.12416v1 ) ライセンス: Link先を確認 | P. Sedaghatnia, H. Hassanabadi, W.S. Chung, B. C. L\"utf\"uo\u{g}lu, S. Hassanabadi and J. K\v{r}\'i\v{z} | (参考訳) 近年の研究では、通常の誘導体の代わりにダンクル誘導体を用いるとパリティに依存した動的解が導出されることが示されている。
この原稿の動機に従って、位置依存質量形式論の中でダンケル=シュル=オディンガー方程式を定式化し、代数的解を導出する。
我々の体系的なアプローチは、以前のものに加えていくつかの新しい発見を観察できる。
例えば、位置依存質量を持つdunkl-schr\"oodinger方程式の解はパラメータの選択とは無関係であると考えられる。
同様に、sl(2)代数を通して、エネルギースペクトルと対応する波動関数は、可能なダンクル($\mu$)と質量($\alpha$)のパラメータで導かれる。 Recent studies have shown that the use of Dunkl derivatives instead of ordinary derivatives leads to deriving parity-dependent dynamic solutions. According to this motivation in this manuscript, we formulate the Dunkl-Schr\"odinger equation within the position-dependent mass formalism and derive an algebraic solution out of it. Our systematic approach lets us observe some new findings in addition to the earlier ones. For example, we find that the solution of the Dunkl-Schr\"oodinger equation with position-dependent mass cannot be considered independent of the choice of parameters. Similarly, through the sl(2) algebra, the energy spectrum and the corresponding wave functions are derived in terms of possible Dunkl, ($\mu$), and mass, ($\alpha$), parameters. | 翻訳日:2023-01-29 14:43:34 公開日:2022-08-26 |
# ドープグラフェンジグザグナノリボンの新しい不規則アノン相 New disordered anyon phase of doped graphene zigzag nanoribbon ( http://arxiv.org/abs/2208.12409v1 ) ライセンス: Link先を確認 | Young Heon Kim, Hye Jeong Lee, Hyng-Yong Lee, S.-R. Eric Yang | (参考訳) 密度行列再正規化群とhartree-fock法における電子相互作用をハバードモデルを用いて処理し,低ドーピングでの相互作用型ジグザグナノリボンの研究を行った。
相互作用する不規則なジグザグナノリボンに挿入される余剰電子は、エノンに分裂する。
さらに、この分数電荷は、ジグザグエッジ上に存在する多数の局所化磁気モーメントを含む高い歪んだエッジスピン密度波を有する新しい歪みエノン相を形成し、スピン電荷分離と反対ジグザグエッジ間の強い非局所相関を示す。
実験により,(1)低ドーピングの場合と弱障害状態の場合,状態のトンネル密度のソフトギャップを,2つのピークを伴うミッドギャップエネルギーの鋭いピークに置き換える。
ジグザグ辺の境界にある$e^-/2$の分数電荷がこれらのピークの原因である。
2) ドーピング濃度の上昇に伴い中ギャップピークは消失することがわかった。
e-/2$分数電荷の存在は、これらのピークの検出によって強く支持される。
ドープジグザグリボンはまた、異常な輸送性、磁気、およびエッジ間トンネル特性を示す。 We investigate interacting disordered zigzag nanoribbons at low doping, using the Hubbard model to treat electron interactions within the density matrix renormalization group and Hartree-Fock method. Extra electrons that are inserted into an interacting disordered zigzag nanoribbon divide into anyons. Furthermore, the fractional charges form a new disordered anyon phase with a highly distorted edge spin density wave, containing numerous localized magnetic moments residing on the zigzag edges, thereby displaying spin-charge separation and a strong non-local correlation between the opposite zigzag edges. We make the following new predictions, which can be experimentally tested: (1) In the low doping case and weak disorder regime, the soft gap in the tunneling density of states is replaced by a sharp peak at the midgap energy with two accompanying peaks. The $e^-/2$ fractional charges that reside on the boundary of the zigzag edges are responsible for these peaks. (2) We find that the midgap peak disappears as the doping concentration increases. The presence of $e-/2$ fractional charges will be strongly supported by the detection of these peaks. Doped zigzag ribbons may also exhibit unusual transport, magnetic, and inter-edge tunneling properties. | 翻訳日:2023-01-29 14:43:17 公開日:2022-08-26 |
# トラップドア置換による量子性証明 Proofs of Quantumness from Trapdoor Permutations ( http://arxiv.org/abs/2208.12390v1 ) ライセンス: Link先を確認 | Tomoyuki Morimae, Takashi Yamakawa | (参考訳) アリスは古典的確率多項式時間計算しかできないが、ボブは量子多項式時間演算しかできないと仮定する。
Alice と Bob は古典的なチャネルのみを通信し、Bob は状態 $|x_0\rangle+|x_1\rangle$ を得る。
Alice が $\{x_0,x_1\}$ を知っていても Bob はできないだろうか?
このようなタスクは「it remote state prepareds」と呼ばれ、いくつかの複雑性仮定の下で可能であり、量子性証明、(古典的クライアント)盲目量子コンピューティング、量子コンピューティングの(古典的)検証、量子マネーといった多くの量子暗号プリミティブの基盤である。
遠隔状態準備を実現する典型的な手法は、2対1のトラップドア衝突耐性ハッシュ関数を使用することである: aliceは2対1のトラップドア衝突耐性ハッシュ関数$f$をbobに送信し、bobは重ね合わせでそれを評価し、画像を測定する。
Bobのポスト測定状態は$|x_0\rangle+|x_1\rangle$であり、$f(x_0)=f(x_1)=y$である。
トラップドアで、アリスは$\{x_0,x_1\}$を学ぶことができるが、衝突抵抗のためボブは学べない。
このアリスの利点は、上述の量子暗号プリミティブを実現するのに利用できる。
ここでの耐衝突性は欠かせないようだ。
本稿では、制限された場合において衝突抵抗は必要ないことを示し、(検証不可能な)$|x_0\rangle+|x_1\rangle$ secure against {\it classical} 確率多項式時間Bobが古典的(フルドメイン)トラップドア置換から構築可能であることを示す。
トラップドア置換は、衝突耐性ハッシュ関数からトラップドア置換へのブラックボックス還元が不可能であることが知られているため、衝突抵抗を示唆しない。
この結果の応用として,古典的セキュア(フルドメイン)トラップドア置換法から量子性証明を構築する。 Assume that Alice can do only classical probabilistic polynomial-time computing while Bob can do quantum polynomial-time computing. Alice and Bob communicate over only classical channels, and finally Bob gets a state $|x_0\rangle+|x_1\rangle$ with some bit strings $x_0$ and $x_1$. Is it possible that Alice can know $\{x_0,x_1\}$ but Bob cannot? Such a task, called {\it remote state preparations}, is indeed possible under some complexity assumptions, and is bases of many quantum cryptographic primitives such as proofs of quantumness, (classical-client) blind quantum computing, (classical) verifications of quantum computing, and quantum money. A typical technique to realize remote state preparations is to use 2-to-1 trapdoor collision resistant hash functions: Alice sends a 2-to-1 trapdoor collision resistant hash function $f$ to Bob, and Bob evaluates it on superposition and measures the image. Bob's post-measurement state is $|x_0\rangle+|x_1\rangle$, where $f(x_0)=f(x_1)=y$. With the trapdoor, Alice can learn $\{x_0,x_1\}$, but due to the collision resistance, Bob cannot. This Alice's advantage can be leveraged to realize the quantum cryptographic primitives listed above. It seems that the collision resistance is essential here. In this paper, surprisingly, we show that the collision resistance is not necessary for a restricted case: we show that (non-verifiable) remote state preparations of $|x_0\rangle+|x_1\rangle$ secure against {\it classical} probabilistic polynomial-time Bob can be constructed from classically-secure (full-domain) trapdoor permutations. Trapdoor permutations are not likely to imply the collision resistance, because black-box reductions from collision-resistant hash functions to trapdoor permutations are known to be impossible. As an application of our result, we construct proofs of quantumness from classically-secure (full-domain) trapdoor permutations. | 翻訳日:2023-01-29 14:42:57 公開日:2022-08-26 |
# floquet multi-gap位相:非可換ブレイディングと異常ディラック弦位相 Floquet multi-gap topology: Non-Abelian braiding and anomalous Dirac string phase ( http://arxiv.org/abs/2208.12824v1 ) ライセンス: Link先を確認 | Robert-Jan Slager, Adrien Bouhon, F. Nur \"Unal | (参考訳) 物質のトポロジカルフェーズは、基本的な追求と将来の応用への約束を形作る幅広い研究領域にまたがる。
波動関数の対称性の要求により、位相材料のかなりの一部が特徴づけられているが、過去2年間、新しいマルチギャップ依存位相状態が出現し、それらの性質はこれらのアプローチを超越し、未だ十分に研究されていない。
これらの知見を生かして,不定の異常相と不平衡フロッケ設定でのみ発生する性質について報告する。
特に,Floquetにより誘導される非アベリアブレイディング機構を同定し,多ギャップ位相不変量の主例である異常オイラー類を特徴とする位相を導いた。
最も印象的なことに、我々は 'anomalous Dirac string phase' の最初の例も取り出す。
このギャップ付き平衡状態は、境界上の異常なエッジ状態を介して物理的に現れる非伝統的なディラック弦の構成を特徴とする。
したがって、本研究結果は、本質的に動的かつ実験的に実行可能なマルチギャップ位相の探索のためのステップストーンを提供するだけでなく、特に量子シミュレータにおいてこれらの非アベリア過程を観測する強力な方法を示す。 Topological phases of matter span a wide area of research shaping fundamental pursuits and offering promise for future applications. While a significant fraction of topological materials has been characterized using symmetry requirements of wave functions, the past two years have witnessed the rise of novel multi-gap dependent topological states, the properties of which go beyond these approaches and are yet to be fully explored. Thriving upon these insights, we report on uncharted anomalous phases and properties that can only arise in out-of-equilibrium Floquet settings. In particular, we identify Floquet-induced non-Abelian braiding mechanisms, which in turn lead to a phase characterized by an anomalous Euler class, the prime example of a multi-gap topological invariant. Most strikingly, we also retrieve the first example of an `anomalous Dirac string phase'. This gapped out-of-equilibrium phase features an unconventional Dirac string configuration that physically manifests itself via anomalous edge states on the boundary. Our results therefore not only provide a stepping stone for the exploration of intrinsically dynamical and experimentally viable multi-gap topological phases, but also demonstrate a powerful way to observe these non-Abelian processes notably in quantum simulators. | 翻訳日:2023-01-29 14:37:11 公開日:2022-08-26 |
# zx計算による量子回路の等価性検証 Equivalence Checking of Quantum Circuits with the ZX-Calculus ( http://arxiv.org/abs/2208.12820v1 ) ライセンス: Link先を確認 | Tom Peham, Lukas Burgholzer and Robert Wille | (参考訳) 最先端の量子コンピュータはますます複雑なアルゴリズムを実行することができるため、潜在的なアプリケーションを設計およびテストするための自動化メソッドの必要性が高まっている。
量子回路の等価性チェックは、量子ソフトウェアスタックの開発において重要であるが、自動化されていないタスクである。
近年,様々な視点からこの問題に取り組む新しい手法が提案されている。
その1つは、量子コンピューティングのためのグラフィカルな書き換えシステムであるZX-calculusに基づいている。
しかし,この等価性チェック手法のパワーと能力はほとんど検討されていない。
本研究の目的は、量子回路の等価性チェックツールとしてZX計算を評価することである。
この目的のために,zx計算に基づく等価性検証手法を拡張して,コンパイルフローの結果と量子回路上の最適化を検証できることを実証した。
また,zx計算に基づく手法は,次数量子ビットを持つ量子回路では特に完全な$\unicode{x2014} ではないことも示されている。
提案手法を適切に評価するために,等価性チェックのための他の2つの最先端手法と比較し,詳細なケーススタディを行った。
提案手法はミュンヘン量子ツールキット(MQT)の一部として公開されているQCECツール(https://github.com/cda-tum/qcec)に統合されている。 As state-of-the-art quantum computers are capable of running increasingly complex algorithms, the need for automated methods to design and test potential applications rises. Equivalence checking of quantum circuits is an important, yet hardly automated, task in the development of the quantum software stack. Recently, new methods have been proposed that tackle this problem from widely different perspectives. One of them is based on the ZX-calculus, a graphical rewriting system for quantum computing. However, the power and capability of this equivalence checking method has barely been explored. The aim of this work is to evaluate the ZX-calculus as a tool for equivalence checking of quantum circuits. To this end, it is demonstrated how the ZX-calculus based approach for equivalence checking can be expanded in order to verify the results of compilation flows and optimizations on quantum circuits. It is also shown that the ZX-calculus based method is not complete$\unicode{x2014}$especially for quantum circuits with ancillary qubits. In order to properly evaluate the proposed method, we conduct a detailed case study by comparing it to two other state-of-the-art methods for equivalence checking: one based on path-sums and another based on decision diagrams. The proposed methods have been integrated into the publicly available QCEC tool (https://github.com/cda-tum/qcec) which is part of the Munich Quantum Toolkit (MQT). | 翻訳日:2023-01-29 14:36:47 公開日:2022-08-26 |
# 量子ホール効果以降における絡み合いの負性対相互情報 Entanglement negativity versus mutual information in the quantum Hall effect and beyond ( http://arxiv.org/abs/2208.12819v1 ) ライセンス: Link先を確認 | Chia-Chuan Liu, Juliette Geoffrion, William Witczak-Krempa | (参考訳) 対数否定性(LN)と相互情報(MI)という,非圧縮性量子ホール状態を含むシステム群における2つの絡み合い対策について検討した。
純粋な状態に対しては、例えば零温度での分割から得られるが、これらは2つの空間部分領域の間の絡み合いを、混合状態(有限温度の場合など)ではLNのみが良好な絡み合い尺度である。
私たちの焦点は、角のある領域、隣り合うもの、あるいは先端を触る部分です。
まず、分数量子ホール状態を含む大きな等方状態の族におけるLNとMIの幾何学的依存に関する非摂動特性を得る。
超普遍角度依存性が成立する相互電荷ゆらぎでは、近い類似性が観察される。
MIについては, 強い部分付加性のため, より強い主張を行う。
また、2つの空間次元における共形場理論(cfts)に対する一般解析の分岐も与える。
次に、これらの性質を整数量子ホール状態で明示的に検証する。
そこで我々はフェルミ統計を考慮に入れたフェルミオンLNを得るための2つの独立したアプローチ、重なり行列法と実空間格子の離散化を開発する。
有限温度では、整数充填時のサイクロトロンギャップ内のLN井戸が急速に減少する。
さらに, 高温下では, lnはmiよりも早く崩壊することを示した。 We study two entanglement measures in a large family of systems including incompressible quantum Hall states: the logarithmic negativity (LN), and mutual information (MI). For pure states, obtained for example from a bipartition at zero temperature, these provide distinct characterizations of the entanglement present between two spatial subregions, while for mixed states (such as at finite temperature) only the LN remains a good entanglement measure. Our focus is on regions that have corners, either adjacent or tip-touching. We first obtain non-perturbative properties regarding the geometrical dependence of the LN and MI in a large family of isotropic states, including fractional quantum Hall states. A close similarity is observed with mutual charge fluctuations, where super-universal angle dependence holds. For the MI, we make stronger statements due to strong subadditivity. We also give ramifications of our general analysis to conformal field theories (CFTs) in two spatial dimensions. We then explicitly verify these properties with integer quantum Hall states. To do so we develop two independent approaches to obtain the fermionic LN, which takes into account Fermi statistics: an overlap-matrix method, and a real-space lattice discretization. At finite temperature, we find a rapid decrease of the LN well inside the cyclotron gap at integer fillings. We further show that the LN decays faster compared to the MI at high temperatures. | 翻訳日:2023-01-29 14:36:25 公開日:2022-08-26 |
# マイクロファブリケーションを用いたレーザー冷却 Stimulated Laser Cooling Using Microfabrication ( http://arxiv.org/abs/2208.12784v1 ) ライセンス: Link先を確認 | Chao Li, Xiao Chai, Linzhao Zhuo, Bochao Wei, Ardalan Lotfi, Farrokh Ayazi, Chandra Raman | (参考訳) 我々はシリコンチップ上での熱ルビジウム原子ビームのレーザー冷却に成功した。
シリコンマイクロチャネルアレイを経由したプリコリメーションの後、ブルー変調光モラセによるビームライニングを行う。
チップ素子のサイズが小さいため、セシウムの以前のフリースペース実験(aspect et al., phys. rev. lett. 57, 1688 (1986))の8mwまたは9倍の電力しか必要としない。
シリコンマイクロミラーは、強い楕円形定常波とシート状の原子密度分布とを正確に重なり合うように製造され、手集合される。
シリコン基板上での総走行距離4.5mmにおいて, 横流速を1m/s以下に低減する。
ドップラー感度2光子ラマン分光法を用いて冷却を特徴付ける。
従来使用されていた飛行時間法とは対照的に、同様の解像度を達成するためには、より短い装置が必要である。
このパッシブコリメーションとアクティブコリメーションのハイブリッドは、原子線時計やジャイロスコープなどの本格的な原子楽器を、バッチプロセスを通じて完全にオンチップで構築する道を開く。 We have achieved stimulated laser cooling of thermal rubidium atomic beams on a silicon chip. Following pre-collimation via a silicon microchannel array, we perform beam brightening via a blue-detuned optical molasses. Owing to the small size of the chip elements, we require only 8 mW, or nine times lower power than earlier free-space experiments on cesium [Aspect et al., Phys. Rev. Lett. 57, 1688 (1986)]. Silicon micromirrors are fabricated and hand-assembled to precisely overlap a strong elliptical standing wave with a sheet-shaped atomic density distribution, with dimensions chosen precisely to match these. We reduce the transverse velocity spread to below 1 m/s within a total travel distance of 4.5 mm on a silicon substrate. We use Doppler-sensitive two-photon Raman spectroscopy to characterize the cooling. In contrast to time-of-flight methods utilized previously, this approach requires a much shorter apparatus to achieve similar resolution. This hybrid of passive and active collimation paves the way toward the construction of full-fledged atomic instruments, such as atomic beam clocks and gyroscopes, entirely on-chip through batch-fabricated processes. | 翻訳日:2023-01-29 14:36:02 公開日:2022-08-26 |
# 非マルコフ確率シミュレーションのための量子次元削減の実装 Implementing quantum dimensionality reduction for non-Markovian stochastic simulation ( http://arxiv.org/abs/2208.12744v1 ) ライセンス: Link先を確認 | Kang-Da Wu, Chengran Yang, Ren-Dong He, Mile Gu, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, and Thomas J. Elliott | (参考訳) 複雑なシステムは日々の経験に埋め込まれています。
確率的モデリングは,このようなシステムの振る舞いを理解し,予測することを可能にし,定量的科学においてその有用性を確固たるものにする。
非マルコフ過程の正確なモデル -- 過去の出来事に依存する将来の振る舞いは、過去の観測に関する膨大な量の情報を追跡し、高次元記憶を必要とする。
量子技術はこのコストを改善することができ、対応する古典的モデルよりも低いメモリ次元の同じプロセスのモデルを可能にする。
ここでは、フォトニックセットアップを用いて、非マルコフ過程の族に対してそのようなメモリ効率の量子モデルを実装する。
1量子ビットのメモリで実装された量子モデルは、同じメモリ次元の任意の古典的モデルで可能以上の精度が得られることを示す。
これは複雑なシステムモデリングに量子技術を適用するための重要な一歩となる。 Complex systems are embedded in our everyday experience. Stochastic modelling enables us to understand and predict the behaviour of such systems, cementing its utility across the quantitative sciences. Accurate models of highly non-Markovian processes -- where the future behaviour depends on events that happened far in the past -- must track copious amounts of information about past observations, requiring high-dimensional memories. Quantum technologies can ameliorate this cost, allowing models of the same processes with lower memory dimension than corresponding classical models. Here we implement such memory-efficient quantum models for a family of non-Markovian processes using a photonic setup. We show that with a single qubit of memory our implemented quantum models can attain higher precision than possible with any classical model of the same memory dimension. This heralds a key step towards applying quantum technologies in complex systems modelling. | 翻訳日:2023-01-29 14:35:06 公開日:2022-08-26 |
# 工学的散逸を伴う量子熱増幅器 Quantum Thermal Amplifiers with Engineered Dissipation ( http://arxiv.org/abs/2208.12620v1 ) ライセンス: Link先を確認 | Antonio Mandarino | (参考訳) 内部を流れる熱電流を制御できる3端子装置は、第3端子に作用する外部ソースに対する応答として2つの出力電流を増幅するたびに量子熱トランジスタとして知られる。
システム構成の異なるエンジニアリングオプションに対処するために、いくつかの取り組みが提案されている。
ここでは, 3つの熱浴と相互作用する3量子ビットシステムとして, デバイスが実装される方式に固執する。
しかし、別の興味深い方向は、現在の増幅を拡大するために熱貯水池を設計する方法である。
ここでは, 異なる消散性熱雑音の役割を研究するために, 系の進化のための量子力学方程式を導出する。
異なる構成での増幅ゲインを比較し、量子情報理論から借用した測度を用いて、熱トランジスタ効果を示す系における相関の役割を分析する。 A three-terminal device, able to control the heat currents flowing through it, is known as a quantum thermal transistor whenever it amplifies two output currents as a response to the external source acting on its third terminal. Several efforts have been proposed in the direction of addressing different engineering options of the configuration of the system. Here, we adhere to the scheme in which such a device is implemented as a three-qubit system that interacts with three separate thermal baths. However, another interesting direction is how to engineer the thermal reservoirs to magnify the current amplification. Here, we derive a quantum dynamical equation for the evolution of the system to study the role of distinct dissipative thermal noises. We compare the amplification gain in different configurations and analyze the role of the correlations in a system exhibiting the thermal transistor effect, via measures borrowed from the quantum information theory. | 翻訳日:2023-01-29 14:34:45 公開日:2022-08-26 |
# 強結合状態における超ラジアント相転移 Superradiant Phase Transition in the Strong Coupling Regime ( http://arxiv.org/abs/2208.12524v1 ) ライセンス: Link先を確認 | Jin-Feng Huang and Lin Tian | (参考訳) ディッケモデルは、光マッターカップリングの強さが超強結合状態を超えると、通常相と超ラジアント相の間の量子相転移を示すことができる。
しかし、カップリング強度の制限や有限2光子$A^{2}$項のため、実用システムにおいてこの相転移を観察することは困難である。
強結合系における標準ディッケモデルにおける2レベル系の周波数に周期的変調を適用することで、超強結合系における波長可変回転と逆回転項を持つ異方性ディッケモデルを実現することができることを示す。
このモデルの基底状態と励起スペクトルを変調パラメータを用いて計算する。
その結果,超ラジアント相は強いカップリングを持つキャビティあるいは回路量子電磁力学系で観察できることがわかった。 The Dicke model can exhibit quantum phase transition between the normal and the superradiant phases when the strength of the light-matter coupling exceeds the ultrastrong coupling regime. However, it is challenging to observe this phase transition in practical systems due to limited coupling strength or finite two-photon $A^{2}$ terms. Here we show that by applying a periodic modulation to the frequency of the two-level systems in a standard Dicke model in the strong coupling regime, an anisotropic Dicke model with tunable rotating and counter-rotating terms in the ultrastrong coupling regime can be achieved. We calculate the ground state and the excitation spectrum of this model in terms of the modulation parameters. Our result shows that the superradiant phases can be observed in cavity- or circuit-quantum electrodynamics systems with strong coupling. | 翻訳日:2023-01-29 14:34:19 公開日:2022-08-26 |
# 光子数分解検出器の量子非ガウス性証明 Quantum non-Gaussianity certification of photon-number-resolving detectors ( http://arxiv.org/abs/2208.12521v1 ) ライセンス: Link先を確認 | Jan Grygar, Josef Hlou\v{s}ek, Jarom\'ir Fiur\'a\v{s}ek and Miroslav Je\v{z}ek | (参考訳) 本稿では,光子数分解検出器の量子非ガウス特性の直接的検証について報告する。
認証プロトコルは、量子状態の既存の量子非ガウス性基準の量子測定への適応に基づいている。
このアプローチでは、真空状態と2つの異なる熱状態で検出器をプローブして量子非ガウス性をテストするのに十分である。
この認証は、10個の単一光子アバランシェフォトダイオードの空間多重配列によって形成された検出器に対して実験的に実証される。
我々は、POVM 要素の量子非ガウス性 $\hat{\Pi}_m$ を $m$-fold の偶然数に関連付けて、$m=7$ まで確認する。
量子非ガウス的な$\hat{\Pi}_m$の第一原理から証明する実験能力は、測定結果の低い確率、特に真空入力状態によって制限される大きな$m$に対してである。
独立なガウス背景雑音を検出器に注入することは有用であり、量子非ガウス性の信頼性確認に必要な測定時間を短縮する可能性がある。
さらに,真空の代わりに第3の熱状態を用いた量子非ゲージ性認証プロトコルを修正・実験的に検証し,測定を高速化した。
本研究は,非古典的性質の実用的キャラクタリゼーションと複雑な光学量子検出器のベンチマークを行うための効率的なツールの存在を実証する。 We report on direct experimental certification of the quantum non-Gaussian character of a photon-number resolving detector. The certification protocol is based on an adaptation of the existing quantum non-Gaussianity criteria for quantum states to quantum measurements. In our approach, it suffices to probe the detector with a vacuum state and two different thermal states to test its quantum non-Gaussianity. The certification is experimentally demonstrated for the detector formed by a spatially multiplexed array of ten single-photon avalanche photodiodes. We confirm the quantum non-Gaussianity of POVM elements $\hat{\Pi}_m$ associated with the $m$-fold coincidence counts, up to $m=7$. The experimental ability to certify from the first principles the quantum non-Gaussian character of $\hat{\Pi}_m$ is for large $m$ limited by low probability of the measurement outcomes, especially for vacuum input state. We find that the injection of independent Gaussian background noise into the detector can be helpful and may reduce the measurement time required for reliable confirmation of quantum non-Gaussianity. In addition, we modified and experimentally verified the quantum non-Gaussianity certification protocol employing a third thermal state instead of a vacuum to speed up the whole measurement. Our findings demonstrate the existence of efficient tools for the practical characterization of fundamental non-classical properties and benchmarking of complex optical quantum detectors. | 翻訳日:2023-01-29 14:34:04 公開日:2022-08-26 |
# 確率力学における多重時間相関について On Multi-Time Correlations in Stochastic Mechanics ( http://arxiv.org/abs/2208.14189v1 ) ライセンス: Link先を確認 | Maaneli Derakhshani and Guido Bacciagaluppi | (参考訳) 我々は、その先駆者の1人であるエドワード・ネルソンによる量子論に対する確率力学アプローチに対する長年の批判に対処する: 確率力学におけるマルチタイム相関は、教科書の量子論と異なる。
我々はブランチャードら (1986) によるこの批判に対する答えを詳述し、確率力学における(原)波動関数が位置測定においてデルタ関数に崩壊すると仮定すると、崩壊は粒子の確率過程(確率過程は波動関数の微分に依存するため)を変え、その結果の多重時間相関は教科書量子論のそれと一致することを示した。
パイロット波理論に精通した「効果的崩壊」のツールを用いて,この仮定を厳密化できることを示すとともに,二重スリット実験を例に示す。
また,複数粒子間の多重時間相関の場合,有効崩壊は粒子間の非局所的影響を示すことを示す。
したがって、確率力学に対する大きな反対の1つは解消される。 We address a long-standing criticism of the stochastic mechanics approach to quantum theory by one of its pioneers, Edward Nelson: multi-time correlations in stochastic mechanics differ from those in textbook quantum theory. We elaborate upon an answer to this criticism by Blanchard et al. (1986), who showed that if the (derived) wave function in stochastic mechanics is assumed to collapse to a delta function in a position measurement, the collapse will change the stochastic process for the particles (because the stochastic process depends on derivatives of the wave function), and the resulting multi-time correlations will agree with those in textbook quantum theory. We show that this assumption can be made rigorous through the tool of `effective collapse' familiar from pilot-wave theories, and we illustrate this with an example involving the double-slit experiment. We also show that in the case of multi-time correlations between multiple particles, effective collapse implies nonlocal influences between particles. Hence one of the major lingering objections to stochastic mechanics is dissolved. | 翻訳日:2023-01-29 14:26:23 公開日:2022-08-26 |
# ランダム化組成と小バイアスミニマックス Randomised Composition and Small-Bias Minimax ( http://arxiv.org/abs/2208.12896v1 ) ライセンス: Link先を確認 | Shalev Ben-David, Eric Blais, Mika G\"o\"os, Gilbert Maystre | (参考訳) 乱数化クエリ複雑性 $\mathrm{R} に関する2つの結果を証明する。
(f)$。
まず、「線形化」複雑性測度$\mathrm{LR}$を導入し、内最適合成定理を満たすことを示す:$\mathrm{R}(f\circ)。
g) \geq \omega(\mathrm{r})
(f) \mathrm{lr}
(g))$ for all partial $f$ and $g$, さらに、$\mathrm{LR}$は、この性質で可能な最大の測度である。
特に、$\mathrm{LR}$ はガヴィンスキー、リー、サンサ、サニヤールの最大複雑性のような内部構成定理を満たす以前の測度よりも多項式的に大きい(ICALP 2019)。
第2の結果は,Yao (FOCS 1977) の問題に対処した。
彼は $\epsilon$-error expected query complexity $\bar{\mathrm{R}}_{\epsilon} について尋ねた。
(f)$は、あるハードな入力分布に対する分布的特徴付けを認める。
Vereshchagin (TCS 1998) はこの質問に答えた。
類似の定理は小バイアスの場合$\epsilon=1/2-o(1)$で失敗することを示す。 We prove two results about randomised query complexity $\mathrm{R}(f)$. First, we introduce a "linearised" complexity measure $\mathrm{LR}$ and show that it satisfies an inner-optimal composition theorem: $\mathrm{R}(f\circ g) \geq \Omega(\mathrm{R}(f) \mathrm{LR}(g))$ for all partial $f$ and $g$, and moreover, $\mathrm{LR}$ is the largest possible measure with this property. In particular, $\mathrm{LR}$ can be polynomially larger than previous measures that satisfy an inner composition theorem, such as the max-conflict complexity of Gavinsky, Lee, Santha, and Sanyal (ICALP 2019). Our second result addresses a question of Yao (FOCS 1977). He asked if $\epsilon$-error expected query complexity $\bar{\mathrm{R}}_{\epsilon}(f)$ admits a distributional characterisation relative to some hard input distribution. Vereshchagin (TCS 1998) answered this question affirmatively in the bounded-error case. We show that an analogous theorem fails in the small-bias case $\epsilon=1/2-o(1)$. | 翻訳日:2023-01-29 14:26:04 公開日:2022-08-26 |
# ランダムオラクルからのコピー保護に関する一考察 A Note on Copy-Protection from Random Oracles ( http://arxiv.org/abs/2208.12884v1 ) ライセンス: Link先を確認 | Prabhanjan Ananth and Fatih Kaleoglu | (参考訳) Aaronson (CCC'09) によって導入された量子コピー保護は、ソフトウェアが違法に配布されるのを防ぐために、量子力学の非閉鎖原理を使用する。
コピー保護の構築は量子暗号において重要な問題である。
コピー保護はプレーンモデルでは実現不可能であることが示されているので,ランダムオラクルモデルにおける既知関数の任意のクラスに対してコピー保護を構築するという問題について検討する。
本稿では、量子完全同型暗号の存在と誤りを伴う学習の量子硬度を前提として、ランダムオラクルモデルにおける複写保護スキームのクラスを規定する不可能な結果を示す。
そこで本研究では, ほぼ正確なコピー保護が不可能であることを示す。 Quantum copy-protection, introduced by Aaronson (CCC'09), uses the no-cloning principle of quantum mechanics to protect software from being illegally distributed. Constructing copy-protection has been an important problem in quantum cryptography. Since copy-protection is shown to be impossible to achieve in the plain model, we investigate the question of constructing copy-protection for arbitrary classes of unlearnable functions in the random oracle model. We present an impossibility result that rules out a class of copy-protection schemes in the random oracle model assuming the existence of quantum fully homomorphic encryption and quantum hardness of learning with errors. En route, we prove the impossibility of approximately correct copy-protection in the plain model. | 翻訳日:2023-01-29 14:25:43 公開日:2022-08-26 |
# 単一光子付加減算コヒーレント状態を用いた量子鍵分布 Quantum key distribution using single photon added-subtracted squeezed coherent state ( http://arxiv.org/abs/2208.12877v1 ) ライセンス: Link先を確認 | Youssef Oulouda, Mohamed El Falaki, Mohamed Daoud | (参考訳) 本稿では,単一光子を付加して減算した圧縮コヒーレント状態SPASSCSを用いた連続可変BB84量子鍵分布プロトコルの安全性について検討する。
SPASSCSは非ガウス的で非古典的な状態である。
その非ガウス性と非古典性はウィグナー関数を通じて示される。
提案状態は一般に傍受再送攻撃や上位チャネル攻撃といった盗聴戦略に対して頑健であることが示されている。
さらに, コヒーレント状態, 圧縮コヒーレント状態, 光子を付加し, 抽出したコヒーレント状態に対して, 提案状態の強い効率性を示した。
本分析では,ビット誤り率,相互情報,セキュアキーゲインを用いる。 In this paper we investigate the security of continuous variable BB84 quantum key distribution protocol using single photon added then subtracted squeezed coherent state SPASSCS. It's found that the SPASSCS is a non-Gaussian and nonclassical state. Its non-Gaussianity and non-classicality are exhibited via the Wigner function. It's shown that the proposed state is generally robust against the eavesdropping strategies, such as intercept-resend attack and superior channel attack. Further, a comparative study has proved the strong efficiency of the proposed state over coherent state, squeezed coherent state and photon added then subtracted coherent state. Our analysis employs bit error rate, mutual information, and secure key gain. | 翻訳日:2023-01-29 14:25:30 公開日:2022-08-26 |
# デバイス非依存量子鍵分布の進展 Advances in device-independent quantum key distribution ( http://arxiv.org/abs/2208.12842v1 ) ライセンス: Link先を確認 | V\'ictor Zapatero, Tim van Leent, Rotem Arnon-Friedman, Wen-Zhao Liu, Qiang Zhang, Harald Weinfurter, and Marcos Curty | (参考訳) デバイス独立量子鍵分布(DI-QKD)は、安全な鍵交換のための金の標準を提供する。
量子力学に基づく情報理論セキュリティを可能にするだけでなく、デバイスを物理的にモデル化する必要性を緩和し、非DI QKDシステムが脆弱である多くの量子ハッキング脅威を根本から排除する。
しかし実際には、DI-QKDは非常に難しい。
ベルの不等式(ベルの不等式)の抜け穴のない違反に依存しており、これは遠隔の当事者間で高品質な絡み合いを分散させる必要があり、現在の技術では達成できない完全な量子測定値に近いタスクである。
しかし、最近の理論的および実験的な試みにより、DI-QKDの実装が最初に実証された。
本稿では,DI-QKDの現状を概観し,その主な理論的,実験的成果を強調し,最近の実証実験について論じ,この分野における既存の課題を強調する。 Device-independent quantum key distribution (DI-QKD) provides the gold standard for secure key exchange. Not only it allows for information-theoretic security based on quantum mechanics, but it relaxes the need to physically model the devices, hence fundamentally ruling out many quantum hacking threats to which non-DI QKD systems are vulnerable. In practice though, DI-QKD is very challenging. It relies on the loophole-free violation of a Bell inequality, a task that requires high quality entanglement to be distributed between distant parties and close to perfect quantum measurements, which is hardly achievable with current technology. Notwithstanding, recent theoretical and experimental efforts have led to the first proof-of-principle DI-QKD implementations. In this article, we review the state-of-the-art of DI-QKD by highlighting its main theoretical and experimental achievements, discussing the recent proof-of-principle demonstrations, and emphasizing the existing challenges in the field. | 翻訳日:2023-01-29 14:25:17 公開日:2022-08-26 |
# GCNs-Net:時間分解型EEGモータ画像信号復号のためのグラフ畳み込みニューラルネットワークアプローチ GCNs-Net: A Graph Convolutional Neural Network Approach for Decoding Time-resolved EEG Motor Imagery Signals ( http://arxiv.org/abs/2006.08924v4 ) ライセンス: Link先を確認 | Yimin Hou, Shuyue Jia, Xiangmin Lun, Ziqian Hao, Yan Shi, Yang Li, Rui Zeng, Jinglei Lv | (参考訳) 効果的で効率的な脳-コンピューターインタフェース(bci)システムの開発に向けて、脳波による脳活動の正確なデコード(eeg)が求められている。
従来、電極間のトポロジカルな関係を考慮せずに脳波信号を分類していた。
しかし、神経科学の研究は脳のダイナミクスのネットワークパターンを強調している。
したがって、電極のユークリッド構造は信号間の相互作用を十分に反映していない。
このギャップを埋めるために、グラフ畳み込みニューラルネットワーク(GCN)に基づく新しいディープラーニングフレームワークが提示され、電極の機能的トポロジ的関係と協調しながら、様々な種類の運動画像(MI)タスク中に生の脳波信号の復号性能を向上させる。
信号全体の絶対的なピアソン行列に基づいて、EEG電極のグラフラプラシアンが構築される。
グラフ畳み込み層によって構築されたGCNs-Netは、一般化された特徴を学習する。
その後のプーリング層は次元を減少させ、完全連結のソフトマックス層は最終予測を導出する。
導入されたアプローチは、パーソナライズされた予測とグループ的な予測の両方に収束することが示されている。
平均精度は93.06%と88.57%(物理データセット)、96.24%と80.89%(高ガンマデータセット)であり、既存の研究と比較すると、個々の変動性への適応性と堅牢性が示唆されている。
また, 繰り返し評価実験において, 性能は安定的に再現可能である。
提案手法の優れた性能は,より優れたBCIアプローチに向けた重要なステップであることを示している。
結論として、gcns-netは脳波信号を機能的位相関係に基づいてフィルタリングし、脳運動画像に関連する特徴を解読する。 Towards developing effective and efficient brain-computer interface (BCI) systems, precise decoding of brain activity measured by electroencephalogram (EEG), is highly demanded. Traditional works classify EEG signals without considering the topological relationship among electrodes. However, neuroscience research has increasingly emphasized network patterns of brain dynamics. Thus, the Euclidean structure of electrodes might not adequately reflect the interaction between signals. To fill the gap, a novel deep learning framework based on the graph convolutional neural networks (GCNs) is presented to enhance the decoding performance of raw EEG signals during different types of motor imagery (MI) tasks while cooperating with the functional topological relationship of electrodes. Based on the absolute Pearson's matrix of overall signals, the graph Laplacian of EEG electrodes is built up. The GCNs-Net constructed by graph convolutional layers learns the generalized features. The followed pooling layers reduce dimensionality, and the fully-connected softmax layer derives the final prediction. The introduced approach has been shown to converge for both personalized and group-wise predictions. It has achieved the highest averaged accuracy, 93.06% and 88.57% (PhysioNet Dataset), 96.24% and 80.89% (High Gamma Dataset), at the subject and group level, respectively, compared with existing studies, which suggests adaptability and robustness to individual variability. Moreover, the performance is stably reproducible among repetitive experiments for cross-validation. The excellent performance of our method has shown that it is an important step towards better BCI approaches. To conclude, the GCNs-Net filters EEG signals based on the functional topological relationship, which manages to decode relevant features for brain motor imagery. | 翻訳日:2022-11-20 19:02:57 公開日:2022-08-26 |
# サブモジュール協調ゲームにおける複製ロバストペイオフアロケーション Replication Robust Payoff Allocation in Submodular Cooperative Games ( http://arxiv.org/abs/2006.14583v5 ) ライセンス: Link先を確認 | Dongge Han, Michael Wooldridge, Alex Rogers, Olga Ohrimenko, Sebastian Tschiatschek | (参考訳) 部分モジュラ函数は、幅広い実世界の応用のための強力な数学的モデルである。
近年,データや特徴といったエンティティ間の情報や冗長性といった概念をモデル化するための機械学習(ML)において,サブモジュール関数の重要性が高まっている。
これらのアプリケーションの中で、重要な疑問はペイオフアロケーション、すなわち、全体目標に対する各エンティティの重要性を評価する方法である。
この目的のために、協調ゲーム理論からの古典的な解法の概念は、ペイオフ割り当ての原理的なアプローチを提供する。
しかし、ゲーム理論文学の広範な体系にもかかわらず、サブモジュールゲームにおけるペイオフアロケーションは比較的研究が進んでいない。
特に、新興のサブモジュラーアプリケーションで生じる重要な概念は冗長性であり、プレイヤーがリソースを複製して複数のアイデンティティの下で行動する、豊富なデータや悪意のある操作といった様々なソースから発生する可能性がある。
多くのゲーム理論のソリューション概念は、サブモジュラーゲームで直接使用することができるが、これらの設定におけるペイオフアロケーションにそれらを適用することは、複製に対する堅牢性の問題を引き起こす可能性がある。
本稿では,サブモジュラーゲームにおけるレプリケーション操作を体系的に研究し,複製に対する解概念のロバスト性を定量的に測定する指標であるレプリケーションロバスト性について検討する。
この計量を用いて、半値のロバスト性を理論的に特徴付ける条件を提示する。
さらに,新たなサブモジュール型MLアプリケーション,すなわちMLデータ市場における理論的結果を実証的に検証する。 Submodular functions have been a powerful mathematical model for a wide range of real-world applications. Recently, submodular functions are becoming increasingly important in machine learning (ML) for modelling notions such as information and redundancy among entities such as data and features. Among these applications, a key question is payoff allocation, i.e., how to evaluate the importance of each entity towards the collective objective? To this end, classic solution concepts from cooperative game theory offer principled approaches to payoff allocation. However, despite the extensive body of game-theoretic literature, payoff allocation in submodular games are relatively under-researched. In particular, an important notion that arises in the emerging submodular applications is redundancy, which may occur from various sources such as abundant data or malicious manipulations where a player replicates its resource and act under multiple identities. Though many game-theoretic solution concepts can be directly used in submodular games, naively applying them for payoff allocation in these settings may incur robustness issues against replication. In this paper, we systematically study the replication manipulation in submodular games and investigate replication robustness, a metric that quantitatively measures the robustness of solution concepts against replication. Using this metric, we present conditions which theoretically characterise the robustness of semivalues, a wide family of solution concepts including the Shapley and Banzhaf value. Moreover, we empirically validate our theoretical results on an emerging submodular ML application, i.e., the ML data market. | 翻訳日:2022-11-17 03:23:17 公開日:2022-08-26 |
# 混合ロジットモデルとネットワーク形成 Mixed Logit Models and Network Formation ( http://arxiv.org/abs/2006.16516v5 ) ライセンス: Link先を確認 | Harsh Gupta and Mason A. Porter | (参考訳) ネットワーク形成の研究は、経済学、社会学、その他多くの分野で広く行われている。
本稿では,ネットワーク内のノードが他のノードに接続するための「選択」としてネットワーク形成をモデル化する。
エージェントが2つ以上の離散的な選択肢を選択する離散的選択モデルを用いて、これらの「選択」について検討する。
ネットワーク形成の研究には「繰り返し選択(RC)」モデルを用いる。
我々は、rcモデルがネットワーク形成を研究する一つの枠組みを与える多項ロジット(mnl)モデルの重要な制限を克服し、ネットワーク形成を研究するのに適していると主張する。
また,rcモデルを用いて合成ネットワークと実世界ネットワークの両方を用いて,ネットワーク形成を正確に研究する方法を示す。
また、エッジ非依存合成ネットワークを用いて、MNLモデルとRCモデルの性能を比較する。
rcモデルは,mnlモデルよりも合成ネットワークのデータ生成過程を精度良く推定できることがわかった。
連続的に形成される特許引用ネットワークでは、新しい特許がより古い、より引用され、類似した特許を引用する可能性が高いという、定性的に興味深いシナリオのケーススタディを提示します。 The study of network formation is pervasive in economics, sociology, and many other fields. In this paper, we model network formation as a `choice' that is made by nodes in a network to connect to other nodes. We study these `choices' using discrete-choice models, in which an agent chooses between two or more discrete alternatives. We employ the `repeated-choice' (RC) model to study network formation. We argue that the RC model overcomes important limitations of the multinomial logit (MNL) model, which gives one framework for studying network formation, and that it is well-suited to study network formation. We also illustrate how to use the RC model to accurately study network formation using both synthetic and real-world networks. Using edge-independent synthetic networks, we also compare the performance of the MNL model and the RC model. We find that the RC model estimates the data-generation process of our synthetic networks more accurately than the MNL model. In a patent citation network, which forms sequentially, we present a case study of a qualitatively interesting scenario -- the fact that new patents are more likely to cite older, more cited, and similar patents -- for which employing the RC model yields interesting insights. | 翻訳日:2022-11-15 06:13:47 公開日:2022-08-26 |
# 深層学習によるTwitterデータからのCOVID-19ワクチン接種反応の分析 Deep Learning-Based Sentiment Analysis of COVID-19 Vaccination Responses from Twitter Data ( http://arxiv.org/abs/2209.12604v1 ) ライセンス: Link先を確認 | Kazi Nabiul Alam, Md Shakib Khan, Abdur Rab Dhruba, Mohammad Monirujjaman Khan, Jehad F. Al-Amri, Mehedi Masud and Majdi Rawashdeh | (参考訳) この新型コロナウイルスのパンデミックは非常に恐ろしいので、深刻な不安、恐怖症、複雑な感情や感情につながる。
コロナウイルスに対するワクチン接種を開始しても、人々の感情はより多様で複雑になり、私たちのゴールは、Deep Learning技術を使って、彼らの感情を理解し、解き明かすことです。
ソーシャルメディアは、現在感情や感情を表現する最良の方法であり、その助けを借りて、特にTwitterは、トレンドと人々の心の中で何が起きているのかをよりよく理解することができる。
本研究の動機は、予防接種プロセスに関する人々の感情と、それに関する様々な考えを理解することである。
この調査では、収集されたツイートのタイムラインは12月21日から7月21日までで、世界中で最近入手可能な最も一般的なワクチンに関するツイートが含まれている。
あらゆる種類のワクチンに関する人々の感情は、自然言語処理(NLP)ツールであるValence Aware Dictionary for sEntiment Reasoner (VADER)を用いて評価された。
感情極性を3つのグループ(正、負、中立)に初期化することで、全体シナリオを視覚化し、33.96%が陽性、17.55%が陰性、48.49%が中性反応を示した。
リカレントニューラルネットワーク(RNN)指向アーキテクチャであるLSTM(Long Short-Term Memory)やBi-LSTM(Bi-LSTM)は予測モデルの性能を評価するために用いられ、LSTMは90.59%、Bi-LSTMは90.83%の精度を達成する。
また、精度、リコール、F-1スコア、コンフュージョンマトリックスなどの他のパフォーマンス指標も、我々のモデルと結果をより効果的に検証するために示された。
この研究は、新型コロナウイルスワクチンに関する世論の理解を助け、われわれの美しい世界からコロナウイルスを根絶する目的に影響を与える。 This COVID-19 pandemic is so dreadful that it leads to severe anxiety, phobias, and complicated feelings or emotions. Even after vaccination against Coronavirus has been initiated, people feelings have become more diverse and complex, and our goal is to understand and unravel their sentiments in this research using some Deep Learning techniques. Social media is currently the best way to express feelings and emotions, and with the help of it, specifically Twitter, one can have a better idea of what is trending and what is going on in people minds. Our motivation for this research is to understand the sentiment of people regarding the vaccination process, and their diverse thoughts regarding this. In this research, the timeline of the collected tweets was from December 21 to July 21, and contained tweets about the most common vaccines available recently from all across the world. The sentiments of people regarding vaccines of all sorts were assessed by using a Natural Language Processing (NLP) tool named Valence Aware Dictionary for sEntiment Reasoner (VADER). By initializing the sentiment polarities into 3 groups (positive, negative and neutral), the overall scenario was visualized here and our findings came out as 33.96% positive, 17.55% negative and 48.49% neutral responses. Recurrent Neural Network (RNN) oriented architecture such as Long Short-Term Memory (LSTM and Bi-LSTM) is used to assess the performance of the predictive models, with LSTM achieving an accuracy of 90.59% and Bi-LSTM achieving an accuracy of 90.83%. Other performance metrics such as Precision, Recall, F-1 score, and Confusion matrix were also shown to validate our models and findings more effectively. This study will help everyone understand public opinion on the COVID-19 vaccines and impact the aim of eradicating the Coronavirus from our beautiful world. | 翻訳日:2022-10-02 23:57:14 公開日:2022-08-26 |
# 5G NR PUCCH フォーマット0の機械学習デコーダ Machine Learning Decoder for 5G NR PUCCH Format 0 ( http://arxiv.org/abs/2209.07861v1 ) ライセンス: Link先を確認 | Anil Kumar Yerrapragada, Jeeva Keshav S, Ankit Gautam, Radha Krishna Ganti | (参考訳) 5Gセルシステムは,ユーザ機器と基地局間のフィードバック制御情報のタイムリーな交換に依存している。
この制御情報の適切な復号化は、高スループット無線リンクの設定と維持に必要である。
本稿では,物理アップリンク制御チャネルフォーマット0の復号性能向上のために,機械学習技術を用いた最初の試みを行う。
完全に接続されたニューラルネットワークを用いて,受信したサンプルを,その内部に埋め込まれたアップリンク制御情報に基づいて分類する。
トレーニングされたニューラルネットワークは、リアルタイムなワイヤレスキャプチャでテストされ、従来のDFTベースのデコーダよりも、低SNRでも精度が大幅に向上した。
得られた精度は, 3GPP要求値と一致した。 5G cellular systems depend on the timely exchange of feedback control information between the user equipment and the base station. Proper decoding of this control information is necessary to set up and sustain high throughput radio links. This paper makes the first attempt at using Machine Learning techniques to improve the decoding performance of the Physical Uplink Control Channel Format 0. We use fully connected neural networks to classify the received samples based on the uplink control information content embedded within them. The trained neural network, tested on real-time wireless captures, shows significant improvement in accuracy over conventional DFT-based decoders, even at low SNR. The obtained accuracy results also demonstrate conformance with 3GPP requirements. | 翻訳日:2022-09-25 18:01:52 公開日:2022-08-26 |
# ニューラルネットワーク制御器を用いた確率システムのリスク検証 Risk Verification of Stochastic Systems with Neural Network Controllers ( http://arxiv.org/abs/2209.09881v1 ) ライセンス: Link先を確認 | Matthew Cleaveland, Lars Lindemann, Radoslav Ivanov, George Pappas | (参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワーク(NN)コントローラの脆弱性に触発され、NNコントローラを用いた確率力学系のリスクを検証するためのデータ駆動フレームワークを提案する。
確率制御システム、nnコントローラ、およびトレースロバスト性の概念(例えば制約関数や信号時相論理)を備えた仕様が与えられたとき、我々はその仕様を満たさないかもしれない、あるいは満たさないかもしれないシステムから軌道を収集する。
特に、各軌跡は、仕様がどの程度(頻繁に)満足しているか(違反)を示す頑健な値を生成する。
そして、これらの堅牢性値に対するリスクメトリクスを計算し、nnコントローラが仕様を満たさないリスクを推定します。
我々は,2つのシステム間のリスクの差を定量化することに興味を持ち,また,名目システムから見積もられたリスクが,システムの摂動バージョンのリスクを上限とすることを示す。
特に、この境界の厳密性は、系の軌道の近さの観点から、系の近さに依存する。
リプシッツ連続およびインクリメンタルな入出力安定系では、実験中のデータからより一般的なシステムに対するシステム近接度を推定しながら、様々な保守性でシステムの近接度を正確に定量化する方法を示す。
我々は,水中車両とf1/10自律走行車という2つのケーススタディにおいて,リスク検証アプローチを実証する。 Motivated by the fragility of neural network (NN) controllers in safety-critical applications, we present a data-driven framework for verifying the risk of stochastic dynamical systems with NN controllers. Given a stochastic control system, an NN controller, and a specification equipped with a notion of trace robustness (e.g., constraint functions or signal temporal logic), we collect trajectories from the system that may or may not satisfy the specification. In particular, each of the trajectories produces a robustness value that indicates how well (severely) the specification is satisfied (violated). We then compute risk metrics over these robustness values to estimate the risk that the NN controller will not satisfy the specification. We are further interested in quantifying the difference in risk between two systems, and we show how the risk estimated from a nominal system can provide an upper bound the risk of a perturbed version of the system. In particular, the tightness of this bound depends on the closeness of the systems in terms of the closeness of their system trajectories. For Lipschitz continuous and incrementally input-to-state stable systems, we show how to exactly quantify system closeness with varying degrees of conservatism, while we estimate system closeness for more general systems from data in our experiments. We demonstrate our risk verification approach on two case studies, an underwater vehicle and an F1/10 autonomous car. | 翻訳日:2022-09-25 18:01:41 公開日:2022-08-26 |
# 事前学習言語モデルと電子健康記録コンテキストを用いたバイオメディカル・ファクチュアル知識の抽出 Extracting Biomedical Factual Knowledge Using Pretrained Language Model and Electronic Health Record Context ( http://arxiv.org/abs/2209.07859v1 ) ライセンス: Link先を確認 | Zonghai Yao, Yi Cao, Zhichao Yang, Vijeta Deshpande, Hong Yu | (参考訳) 言語モデル(lms)は生物医学的自然言語処理アプリケーションでよく機能している。
本研究では,新しい知識ベース (LM) として LM から知識を抽出するために,プロンプト手法を用いた実験を行った。
しかし、プロンプトは知識抽出の低バウンダリとしてのみ使用することができ、特にバイオメディカルドメインKBでは不十分である。
バイオメディカルドメインの実際の適用シナリオに合わせて、LMをKBとした上で、バイオメディカルドメインの低バウンドを改善するプロンプトに、EHRノートをコンテキストとして追加する。
我々はDynamic-Context-BioLAMAタスクのための一連の実験を設計し、検証する。
実験の結果、これらの言語モデルが持つ知識は、EHRノートのノイズ知識と正しい知識を区別することができ、そのような区別能力は、モデルが持つ知識の量を評価するための新しい指標としても利用できることがわかった。 Language Models (LMs) have performed well on biomedical natural language processing applications. In this study, we conducted some experiments to use prompt methods to extract knowledge from LMs as new knowledge Bases (LMs as KBs). However, prompting can only be used as a low bound for knowledge extraction, and perform particularly poorly on biomedical domain KBs. In order to make LMs as KBs more in line with the actual application scenarios of the biomedical domain, we specifically add EHR notes as context to the prompt to improve the low bound in the biomedical domain. We design and validate a series of experiments for our Dynamic-Context-BioLAMA task. Our experiments show that the knowledge possessed by those language models can distinguish the correct knowledge from the noise knowledge in the EHR notes, and such distinguishing ability can also be used as a new metric to evaluate the amount of knowledge possessed by the model. | 翻訳日:2022-09-25 17:57:45 公開日:2022-08-26 |
# 自律検査ロボットの自己校正異常と変化検出 Self-Calibrating Anomaly and Change Detection for Autonomous Inspection Robots ( http://arxiv.org/abs/2209.02379v1 ) ライセンス: Link先を確認 | Sahar Salimpour, Jorge Pe\~na Queralta, Tomi Westerlund | (参考訳) 視覚異常の自動検出と環境の変化は、過去数十年にわたり機械学習とコンピュータビジョンの分野で繰り返し注目されてきたトピックである。
視覚異常または変化検出アルゴリズムは、参照画像またはデータセットとは異なる画像の領域を識別する。
既存のアプローチの大半は、特定の画像や環境における異常検出や異常検出に重点を置いているが、汎用的な視覚的異常検出アルゴリズムは、文献ではより少ない。
本稿では,参照データセットが収集された後,事前の未知環境における異常や変化を検出するための包括的ディープラーニングフレームワークを提案する。
我々は,スーパーポイントとスーパーグルー特徴抽出とマッチング手法を用いて,類似した場所から抽出した参照画像と視野の重複部分に基づいて異常を検出する。
また,特徴マッチングしきい値と環境条件に対する感度の問題に対処するため,提案モデルに対する自己校正手法を提案する。
提案フレームワークの評価には,参照と問合せデータ収集を目的とした地上ロボットシステムを用いた。
提案手法により高精度な精度が得られることを示す。
また,キャリブレーションプロセスが変化と異物検出性能を向上させることも示す。 Automatic detection of visual anomalies and changes in the environment has been a topic of recurrent attention in the fields of machine learning and computer vision over the past decades. A visual anomaly or change detection algorithm identifies regions of an image that differ from a reference image or dataset. The majority of existing approaches focus on anomaly or fault detection in a specific class of images or environments, while general purpose visual anomaly detection algorithms are more scarce in the literature. In this paper, we propose a comprehensive deep learning framework for detecting anomalies and changes in a priori unknown environments after a reference dataset is gathered, and without need for retraining the model. We use the SuperPoint and SuperGlue feature extraction and matching methods to detect anomalies based on reference images taken from a similar location and with partial overlapping of the field of view. We also introduce a self-calibrating method for the proposed model in order to address the problem of sensitivity to feature matching thresholds and environmental conditions. To evaluate the proposed framework, we have used a ground robot system for the purpose of reference and query data collection. We show that high accuracy can be obtained using the proposed method. We also show that the calibration process enhances changes and foreign object detection performance | 翻訳日:2022-09-11 13:16:10 公開日:2022-08-26 |
# ロバストなマルチチャネルグラフニューラルネットワークによる遠隔作業最適化 Remote Work Optimization with Robust Multi-channel Graph Neural Networks ( http://arxiv.org/abs/2209.03150v1 ) ライセンス: Link先を確認 | Qinyi Zhu, Liang Wu, Qi Guo, Liangjie Hong | (参考訳) 新型コロナウイルス(covid-19)の感染拡大により、多くの企業オフィスがグローバルに閉鎖され、企業は従業員が遠隔地から働ける機会を増やすことを奨励している。
職場のタイプが現場のオフィスから遠隔地へと拡大するにつれ、オンライン雇用市場における新たな課題は、リモートワークの機会とユーザの意図を、事前情報なしでモデル化し、一致させることができることだ。
新型コロナウイルス(COVID-19)の影響で在宅勤務が急増しているにもかかわらず、直接適用可能なアプローチは存在しない。
全く新しい職場タイプを導入すると、当然コールドスタート問題が発生する。
既存の情報ソースが履歴書や求人情報など、新しい職種に関する情報をほとんど提供できなければ、あらゆる予測モデルに新しい職場タイプを組み込むことは不可能でも困難である。
そこで本研究では,web スケールアプリケーションのニーズを十分満たすような限られた情報を用いて,求職者のリモートネスと就職機会を共同でモデル化する原則的アプローチを提案する。
新たなタイプのリモートワークスの研究は主に質的研究に焦点をあてており、コールドスタート問題や情報不足を考えると、古典的な予測モデルアプローチは適用不可能である。
我々はこのギャップを、新しいグラフニューラルアーキテクチャで正確に埋めようとしている。
競争ベースラインに対する提案手法の優位性を検証するために,実世界のアプリケーションからの大規模データに対する広範囲な実験が実施された。
改善は、リモートワークに興味のある求職者に利益をもたらす新しい職場タイプをより迅速に導入することにつながるかもしれない。 The spread of COVID-19 leads to the global shutdown of many corporate offices, and encourages companies to open more opportunities that allow employees to work from a remote location. As the workplace type expands from onsite offices to remote areas, an emerging challenge for an online hiring marketplace is how these remote opportunities and user intentions to work remotely can be modeled and matched without prior information. Despite the unprecedented amount of remote jobs posted amid COVID-19, there is no existing approach that can be directly applied. Introducing a brand new workplace type naturally leads to the cold-start problem, which is particularly more common for less active job seekers. It is challenging, if not impossible, to onboard a new workplace type for any predictive model if existing information sources can provide little information related to a new category of jobs, including data from resumes and job descriptions. Hence, in this work, we aim to propose a principled approach that jointly models the remoteness of job seekers and job opportunities with limited information, which also suffices the needs of web-scale applications. Existing research on the emerging type of remote workplace mainly focuses on qualitative studies, and classic predictive modeling approaches are inapplicable considering the problem of cold-start and information scarcity. We precisely try to close this gap with a novel graph neural architecture. Extensive experiments on large-scale data from real-world applications have been conducted to validate the superiority of the proposed approach over competitive baselines. The improvement may translate to more rapid onboarding of the new workplace type that can benefit job seekers who are interested in working remotely. | 翻訳日:2022-09-11 13:15:52 公開日:2022-08-26 |
# アプライアンス認識のための表現学習:古典的機械学習との比較 Representation Learning for Appliance Recognition: A Comparison to Classical Machine Learning ( http://arxiv.org/abs/2209.03759v1 ) ライセンス: Link先を確認 | Matthias Kahl and Daniel Jorde and Hans-Arno Jacobsen | (参考訳) 非侵入負荷監視(NILM)は、信号処理と機械学習アルゴリズムの助けを借りて、集約消費測定からエネルギー消費とアプライアンス状態情報を取得することを目的としている。
ディープニューラルネットワークを用いた表現学習は、いくつかの関連する分野にうまく適用できる。
表現学習の主な利点は、専門家主導で手作りの機能抽出を、生のデータフォーマットで多くの表現から階層的な学習に置き換えることである。
本稿では,NILM処理チェーンを改良し,複雑性を低減し,最近のディープラーニングアルゴリズムで設計する方法について述べる。
イベントベースのアプライアンス認識アプローチに基づいて,手作り特徴抽出に基づく古典的機械学習アプローチ,波形データの自動特徴抽出のための3つの異なるディープニューラルネットワークアーキテクチャ,および生データ処理のための3つのベースラインアプローチの7つの分類モデルを評価する。
44個のアプライアンスの5万件以上のイベントを含む2つの大規模エネルギー消費データセットに対する全てのアプローチを評価した。
ディープラーニングを用いることで、Fスコア0.75と0.86のアプライアンス認識のための最先端の古典的機械学習アプローチの性能を、従来の0.69と0.87と比較して達成し、超えることを示す。 Non-intrusive load monitoring (NILM) aims at energy consumption and appliance state information retrieval from aggregated consumption measurements, with the help of signal processing and machine learning algorithms. Representation learning with deep neural networks is successfully applied to several related disciplines. The main advantage of representation learning lies in replacing an expert-driven, hand-crafted feature extraction with hierarchical learning from many representations in raw data format. In this paper, we show how the NILM processing-chain can be improved, reduced in complexity and alternatively designed with recent deep learning algorithms. On the basis of an event-based appliance recognition approach, we evaluate seven different classification models: a classical machine learning approach that is based on a hand-crafted feature extraction, three different deep neural network architectures for automated feature extraction on raw waveform data, as well as three baseline approaches for raw data processing. We evaluate all approaches on two large-scale energy consumption datasets with more than 50,000 events of 44 appliances. We show that with the use of deep learning, we are able to reach and surpass the performance of the state-of-the-art classical machine learning approach for appliance recognition with an F-Score of 0.75 and 0.86 compared to 0.69 and 0.87 of the classical approach. | 翻訳日:2022-09-11 13:15:25 公開日:2022-08-26 |
# 時間周波数コントラスト表現学習を用いた自己監督型人間行動認識 Self-Supervised Human Activity Recognition with Localized Time-Frequency Contrastive Representation Learning ( http://arxiv.org/abs/2209.00990v1 ) ライセンス: Link先を確認 | Setareh Rahimi Taghanaki, Michael Rainbow and Ali Etemad | (参考訳) 本稿では,スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。
加速度計信号から強い表現を学習するモデルを開発し、ロバストな人間の行動分類を行い、モデルのクラスラベルへの依存度を減らすことを目的とする。
具体的には、特定のデータセット上で事前訓練されたネットワークが、他のデータセット上で効果的なアクティビティ分類を行うことができるように、データセット間転送学習を可能にする。
この問題に対処するため,我々は加速度計信号からできるだけ多くの情報を学習する目的でソリューションを設計した。
その結果、時間周波数領域でデータを学習するパイプラインと、時間領域のみでデータを学習するパイプラインを2つ設計した。
データセット間転送学習における上記の問題に対処するため,各ストリームを自己教師付きコントラスト学習を用いて学習する。
次に、各ストリームは最終分類のために微調整され、最終的に2つが融合して最終結果を提供する。
提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価し, 本手法が従来よりも優れていることを示す。
さらに,本手法の性能を,事前学習のためのmobiactデータセットと下流分類タスクのための残りの3つのデータセットを用いて評価し,クロスデータセット転送学習における他の自己教師付き手法と比較して優れた性能が得られることを示す。 In this paper, we propose a self-supervised learning solution for human activity recognition with smartphone accelerometer data. We aim to develop a model that learns strong representations from accelerometer signals, in order to perform robust human activity classification, while reducing the model's reliance on class labels. Specifically, we intend to enable cross-dataset transfer learning such that our network pre-trained on a particular dataset can perform effective activity classification on other datasets (successive to a small amount of fine-tuning). To tackle this problem, we design our solution with the intention of learning as much information from the accelerometer signals as possible. As a result, we design two separate pipelines, one that learns the data in time-frequency domain, and the other in time-domain alone. In order to address the issues mentioned above in regards to cross-dataset transfer learning, we use self-supervised contrastive learning to train each of these streams. Next, each stream is fine-tuned for final classification, and eventually the two are fused to provide the final results. We evaluate the performance of the proposed solution on three datasets, namely MotionSense, HAPT, and HHAR, and demonstrate that our solution outperforms prior works in this field. We further evaluate the performance of the method in learning generalized features, by using MobiAct dataset for pre-training and the remaining three datasets for the downstream classification task, and show that the proposed solution achieves better performance in comparison with other self-supervised methods in cross-dataset transfer learning. | 翻訳日:2022-09-11 13:15:01 公開日:2022-08-26 |
# JPEG圧縮における構成損失を低減する畳み込みニューラルネットワーク(CNN) Convolutional Neural Network (CNN) to reduce construction loss in JPEG compression ( http://arxiv.org/abs/2209.03475v1 ) ライセンス: Link先を確認 | Suman Kunwar | (参考訳) 近年,デジタル画像処理が盛んに行われている。
その結果,画像表現に必要な情報量を最小化する目的で,データ圧縮戦略がいくつも実施されている。
その中でもJPEG圧縮は、マルチメディアやデジタルアプリケーションに広く応用されている最も一般的な方法の1つである。
DFTの周期的な性質は、画像の対向するエッジの周期的な条件を満たすことが、深刻なアーチファクトを生成することなく不可能となり、画像の視覚的品質を低下させる。
一方,ディープラーニングは音声認識,画像の縮小,自然言語処理などの応用において,近年顕著な成果を上げている。
畳み込みニューラルネットワーク(CNN)は他の多くのディープニューラルネットワークよりも注目されている。
特徴抽出における畳み込みの使用により、冗長な特徴マップは少なくなり、データセットも小さくなり、どちらも画像圧縮に不可欠である。
本研究では,オートエンコーダを用いた効果的な画像圧縮手法を提案する。
研究の結果, 自己エンコーダを用いて, 良好な再建と良好な圧縮を達成できることを示唆するいくつかの重要な傾向が明らかになった。 In recent decades, digital image processing has gained enormous popularity. Consequently, a number of data compression strategies have been put forth, with the goal of minimizing the amount of information required to represent images. Among them, JPEG compression is one of the most popular methods that has been widely applied in multimedia and digital applications. The periodic nature of DFT makes it impossible to meet the periodic condition of an image's opposing edges without producing severe artifacts, which lowers the image's perceptual visual quality. On the other hand, deep learning has recently achieved outstanding results for applications like speech recognition, image reduction, and natural language processing. Convolutional Neural Networks (CNN) have received more attention than most other types of deep neural networks. The use of convolution in feature extraction results in a less redundant feature map and a smaller dataset, both of which are crucial for image compression. In this work, an effective image compression method is purposed using autoencoders. The study's findings revealed a number of important trends that suggested better reconstruction along with good compression can be achieved using autoencoders. | 翻訳日:2022-09-11 13:14:37 公開日:2022-08-26 |
# 人間らしく経験する創造的な人格 Generative Personas That Behave and Experience Like Humans ( http://arxiv.org/abs/2209.00459v1 ) ライセンス: Link先を確認 | Matthew Barthet, Ahmed Khalifa, Antonios Liapis and Georgios N. Yannakakis | (参考訳) 人工知能(AI)を使ってゲームを自動的にテストすることは、よりリッチで複雑なゲーム世界の開発と、AI全体の進歩にとって重要な課題である。
長年の目標を達成するための最も有望な方法の1つは、ルール、報酬、または人間のデモンストレーションとして表される特定の遊び行動を模倣しようとする、生成的なaiエージェント、すなわち手続き型パーソナラの使用である。
しかし、これらの生成エージェントを構築するための研究のすべては、プレイヤーがゲームで実際に行うことの狭義の視点であるゲーム行動のみに焦点を当ててきた。
本論文は,既存の技術状況におけるこのギャップに触発され,行動手続き的ペルソナの概念をプレイヤー体験に役立てるために拡張し,人間の行動と経験の両方が可能な生成エージェントについて検討する。
そこで我々は,Go-Explore強化学習パラダイムを用いて,人間のようなプロシージャペルソナを訓練し,100人以上の競技者の行動と経験を実演する手法を検証した。
その結果, 生成したエージェントは, 模倣を意図した人物のプレイスタイルと経験的反応を示すことがわかった。
重要なのは、演奏行動に結びついている経験が、行動探索を改善する上で非常に有意義なドライバーになり得ることだ。 Using artificial intelligence (AI) to automatically test a game remains a critical challenge for the development of richer and more complex game worlds and for the advancement of AI at large. One of the most promising methods for achieving that long-standing goal is the use of generative AI agents, namely procedural personas, that attempt to imitate particular playing behaviors which are represented as rules, rewards, or human demonstrations. All research efforts for building those generative agents, however, have focused solely on playing behavior which is arguably a narrow perspective of what a player actually does in a game. Motivated by this gap in the existing state of the art, in this paper we extend the notion of behavioral procedural personas to cater for player experience, thus examining generative agents that can both behave and experience their game as humans would. For that purpose, we employ the Go-Explore reinforcement learning paradigm for training human-like procedural personas, and we test our method on behavior and experience demonstrations of more than 100 players of a racing game. Our findings suggest that the generated agents exhibit distinctive play styles and experience responses of the human personas they were designed to imitate. Importantly, it also appears that experience, which is tied to playing behavior, can be a highly informative driver for better behavioral exploration. | 翻訳日:2022-09-04 02:04:07 公開日:2022-08-26 |
# 実用的なセキュア推論のための効率的なMLモデル Efficient ML Models for Practical Secure Inference ( http://arxiv.org/abs/2209.00411v1 ) ライセンス: Link先を確認 | Vinod Ganesan, Anwesh Bhattacharya, Pratyush Kumar, Divya Gupta, Rahul Sharma, Nishanth Chandran | (参考訳) ML-as-a-serviceは成長を続けており、非常に強力なプライバシ保証の必要性もある。
セキュアな推論は潜在的な解決策として現れており、暗号化プリミティブによって、モデルのプロバイダやモデルの重み付けにユーザの入力を明らかにすることなく、推論が可能である。
例えば、モデル提供者は、胸部X線を解釈するための最先端のDenseNet-121モデルを訓練した診断会社であり、ユーザーは病院の患者かもしれない。
セキュアな推論は原則としてこの設定で実現可能であるが、大規模に実践的な手法は存在しない。
CrypTFlow2フレームワークは、任意のモデルのセキュアな推論にクリアテキスト推論を自動的に正しく翻訳する機能を備えた潜在的なソリューションを提供する。
しかし、CrypTFlow2から得られたセキュアな推論は非常に高価である: DenseNet-121上で1つのX線を解釈するためには、ほぼ3TBの通信が必要である。
本稿では,3つの貢献を伴うセキュアな推論の非効率性に関する課題について述べる。
まず,セキュアな推論における主なボトルネックは,ネットワークバックボーンの選択と効率的なクリアテキスト推論のために開発された演算子の使用によって最適化可能な,大規模線形層であることを示す。
この発見と強調は、より小さなネットワークの安全な推論を行う際に非線形アクティベーション層を最適化することに焦点を当てた最近の多くの研究から逸脱している。
第2に,ボトルネック畳み込み層の解析に基づいて,より効率的なドロップイン置換であるxオペレータを設計した。
第三に、高速なWinograd畳み込みアルゴリズムは安全な推論の効率をさらに向上させることを示す。
これら3つの最適化は、CheXpertデータセットでトレーニングされたX線解釈の問題に対して非常に効果的であることが証明された。 ML-as-a-service continues to grow, and so does the need for very strong privacy guarantees. Secure inference has emerged as a potential solution, wherein cryptographic primitives allow inference without revealing users' inputs to a model provider or model's weights to a user. For instance, the model provider could be a diagnostics company that has trained a state-of-the-art DenseNet-121 model for interpreting a chest X-ray and the user could be a patient at a hospital. While secure inference is in principle feasible for this setting, there are no existing techniques that make it practical at scale. The CrypTFlow2 framework provides a potential solution with its ability to automatically and correctly translate clear-text inference to secure inference for arbitrary models. However, the resultant secure inference from CrypTFlow2 is impractically expensive: Almost 3TB of communication is required to interpret a single X-ray on DenseNet-121. In this paper, we address this outstanding challenge of inefficiency of secure inference with three contributions. First, we show that the primary bottlenecks in secure inference are large linear layers which can be optimized with the choice of network backbone and the use of operators developed for efficient clear-text inference. This finding and emphasis deviates from many recent works which focus on optimizing non-linear activation layers when performing secure inference of smaller networks. Second, based on analysis of a bottle-necked convolution layer, we design a X-operator which is a more efficient drop-in replacement. Third, we show that the fast Winograd convolution algorithm further improves efficiency of secure inference. In combination, these three optimizations prove to be highly effective for the problem of X-ray interpretation trained on the CheXpert dataset. | 翻訳日:2022-09-04 02:03:20 公開日:2022-08-26 |
# ズームメモリ初期化を用いたニードル・イン・ア・ヘイスタック問題の高速ベイズ最適化 Fast Bayesian Optimization of Needle-in-a-Haystack Problems using Zooming Memory-Based Initialization ( http://arxiv.org/abs/2208.13771v1 ) ライセンス: Link先を確認 | Alexander E. Siemenn, Zekun Ren, Qianxiao Li, Tonio Buonassisi | (参考訳) ニードル・イン・ア・ヘイスタックの問題は、希少な疾患予測、生態資源管理、不正検出、材料資産最適化など、幅広い用途に存在している。
データセットのサイズに対して最適な条件が極端に不均衡である場合、ニードル・イン・ア・ヘイスタック問題が発生する。
例えば、オープンアクセス・マテリアル・プロジェクト(英語版)データベースの146kの総材料のうち0.82%しかポアソン比が負である。
しかし、現在の最先端最適化アルゴリズムは、これらの困難な多次元ニードル・イン・ア・ヘイスタック問題の解を見つける能力を持って設計されておらず、その結果、グローバル最適化や局所最小化への収束が遅くなる。
本稿では,従来のベイズ最適化原理を基礎として,共通収束問題とハトホリング問題に対処して,少ない時間と少ない実験でニードル・イン・ア・ヘイスタック問題を迅速かつ効率的に最適化するズームングメモリベース初期化アルゴリズムzombiを提案する。
zombiは、これまで最もパフォーマンスの高い評価実験から知識を積極的に抽出し、サンプリング探索境界をグローバル最適"ニードル"に向けて反復的に拡大し、低パフォーマンスの歴史的実験の記憶をかき集めて計算時間を高速化する。
本研究では,2つの実世界の5次元ニードル・イン・ア・ヘイスタック材料特性最適化データセット上でのアルゴリズムの性能を検証する。
ZoMBIアルゴリズムは、従来のベイズ最適化と比較して400倍の計算時間を高速化し、現在の最先端アルゴリズムよりも最大3倍高度に最適化された100以上の実験で材料を効率よく発見する。 Needle-in-a-Haystack problems exist across a wide range of applications including rare disease prediction, ecological resource management, fraud detection, and material property optimization. A Needle-in-a-Haystack problem arises when there is an extreme imbalance of optimum conditions relative to the size of the dataset. For example, only 0.82% out of 146k total materials in the open-access Materials Project database have a negative Poisson's ratio. However, current state-of-the-art optimization algorithms are not designed with the capabilities to find solutions to these challenging multidimensional Needle-in-a-Haystack problems, resulting in slow convergence to a global optimum or pigeonholing into a local minimum. In this paper, we present a Zooming Memory-Based Initialization algorithm, entitled ZoMBI, that builds on conventional Bayesian optimization principles to quickly and efficiently optimize Needle-in-a-Haystack problems in both less time and fewer experiments by addressing the common convergence and pigeonholing issues. ZoMBI actively extracts knowledge from the previously best-performing evaluated experiments to iteratively zoom in the sampling search bounds towards the global optimum "needle" and then prunes the memory of low-performing historical experiments to accelerate compute times. We validate the algorithm's performance on two real-world 5-dimensional Needle-in-a-Haystack material property optimization datasets: discovery of auxetic Poisson's ratio materials and discovery of high thermoelectric figure of merit materials. The ZoMBI algorithm demonstrates compute time speed-ups of 400x compared to traditional Bayesian optimization as well as efficiently discovering materials in under 100 experiments that are up to 3x more highly optimized than those discovered by current state-of-the-art algorithms. | 翻訳日:2022-08-31 13:44:02 公開日:2022-08-26 |
# FuncFooler: 学習ベースのバイナリコード類似性検出手法に対する実用的なブラックボックス攻撃 FuncFooler: A Practical Black-box Attack Against Learning-based Binary Code Similarity Detection Methods ( http://arxiv.org/abs/2208.14191v1 ) ライセンス: Link先を確認 | Lichen Jia, Bowen Tang, Chenggang Wu, Zhe Wang, Zihan Jiang, Yuanming Lai, Yan Kang, Ning Liu, Jingfeng Zhang | (参考訳) バイナリコード類似度検出(bcsd)法は、2つのバイナリ実行コードの類似度を測定する。
近年、BCSD法は従来のBCSDよりも精度と効率が優れ、大きな成功を収めている。
しかし、既存の研究は、セキュリティ関連のアプリケーションに危険をもたらす学習ベースのBCSDメソッドの敵意的な脆弱性に乏しい。
本論文は, 対向ロバスト性を評価するために, 効率的かつブラックボックスの対向コード生成アルゴリズムであるFuncFoolerを設計する。
FuncFoolerは敵のコードを制限する
1)プログラムの制御フローグラフ(CFG)の変更を継続し、
2)同じ意味の意味を保つ。
特にFuncFoolerは連続して
1) 悪意のあるコード中の脆弱な候補を決定する。
2) 反対指示を良性コードから選択し,挿入する。
3) 制約を満たすために、相手コードの意味的副作用を補正する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルに対してうまく攻撃することができます。 The binary code similarity detection (BCSD) method measures the similarity of two binary executable codes. Recently, the learning-based BCSD methods have achieved great success, outperforming traditional BCSD in detection accuracy and efficiency. However, the existing studies are rather sparse on the adversarial vulnerability of the learning-based BCSD methods, which cause hazards in security-related applications. To evaluate the adversarial robustness, this paper designs an efficient and black-box adversarial code generation algorithm, namely, FuncFooler. FuncFooler constrains the adversarial codes 1) to keep unchanged the program's control flow graph (CFG), and 2) to preserve the same semantic meaning. Specifically, FuncFooler consecutively 1) determines vulnerable candidates in the malicious code, 2) chooses and inserts the adversarial instructions from the benign code, and 3) corrects the semantic side effect of the adversarial code to meet the constraints. Empirically, our FuncFooler can successfully attack the three learning-based BCSD models, including SAFE, Asm2Vec, and jTrans, which calls into question whether the learning-based BCSD is desirable. | 翻訳日:2022-08-31 12:44:19 公開日:2022-08-26 |
# デジタルツインの包括的レビュー -その1:モデリングとツイン化の実現技術 A Comprehensive Review of Digital Twin -- Part 1: Modeling and Twinning Enabling Technologies ( http://arxiv.org/abs/2208.14197v1 ) ライセンス: Link先を確認 | Adam Thelen, Xiaoge Zhang, Olga Fink, Yan Lu, Sayan Ghosh, Byeng D. Youn, Michael D. Todd, Sankaran Mahadevan, Chao Hu, Zhen Hu | (参考訳) 産業4.0時代の新興技術として、物理的世界を相互接続型デジタルモデル群として包括的にモデル化することで、プロセス設計、品質管理、健康管理、意思決定、政策作成などをさらに最適化する約束により、デジタルツインが前例のない注目を集めている。
2部構成の論文において, 異なるモデリング手法, ツイン化実現技術, 不確実性定量化および最適化手法の基礎的役割について検討した。
本稿では,この研究分野を追求する多くの分野において,デジタル双生児の傾向を概説した文献レビューを行う。
次に、デジタルツインモデリングとツイン化可能技術は、データフローの方向に基づいて、物理から仮想、仮想から物理への2つの主要なカテゴリに分類することでさらに分析される。
最後に,今後10年間のデジタルツイン技術の軌跡を展望し,今後のデジタルツイン研究で活用されるであろう新たな研究分野をいくつか紹介する。
このレビューのパート2では、不確実性定量化と最適化の役割について論じ、電池用デジタルツインを実演し、デジタルツインの将来についてさらなる視点を共有した。 As an emerging technology in the era of Industry 4.0, digital twin is gaining unprecedented attention because of its promise to further optimize process design, quality control, health monitoring, decision and policy making, and more, by comprehensively modeling the physical world as a group of interconnected digital models. In a two-part series of papers, we examine the fundamental role of different modeling techniques, twinning enabling technologies, and uncertainty quantification and optimization methods commonly used in digital twins. This first paper presents a thorough literature review of digital twin trends across many disciplines currently pursuing this area of research. Then, digital twin modeling and twinning enabling technologies are further analyzed by classifying them into two main categories: physical-to-virtual, and virtual-to-physical, based on the direction in which data flows. Finally, this paper provides perspectives on the trajectory of digital twin technology over the next decade, and introduces a few emerging areas of research which will likely be of great use in future digital twin research. In part two of this review, the role of uncertainty quantification and optimization are discussed, a battery digital twin is demonstrated, and more perspectives on the future of digital twin are shared. | 翻訳日:2022-08-31 12:44:00 公開日:2022-08-26 |
# メンタルヘルスモニタリングのための教師付きディープリカレントシステムによる音声感情認識 Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring ( http://arxiv.org/abs/2208.12812v1 ) ライセンス: Link先を確認 | Nelly Elsayed, Zag ElSayed, Navid Asadizanjani, Murat Ozer, Ahmed Abdelgawad, Magdy Bayoumi | (参考訳) 人間行動の理解とメンタルヘルスのモニタリングは、コミュニティと社会の安全を維持するために不可欠である。
新型コロナウイルス(covid-19)のパンデミックでは、コントロール不能なメンタルヘルスによるメンタルヘルスの問題が増加しているため、早期に精神的な問題を検出することが不可欠である。
近年,知能仮想パーソナルアシスタント(IVA)の利用が世界中で増加している。
個人は声を使ってこれらのデバイスを制御し、要求を満たし、異なるサービスを取得する。
本稿では、音声からの人間の感情を理解し、IVAサービスを改善し、メンタルヘルスを監視するために、ゲートリカレントニューラルネットワークと畳み込みニューラルネットワークに基づく新しいディープラーニングモデルを提案する。 Understanding human behavior and monitoring mental health are essential to maintaining the community and society's safety. As there has been an increase in mental health problems during the COVID-19 pandemic due to uncontrolled mental health, early detection of mental issues is crucial. Nowadays, the usage of Intelligent Virtual Personal Assistants (IVA) has increased worldwide. Individuals use their voices to control these devices to fulfill requests and acquire different services. This paper proposes a novel deep learning model based on the gated recurrent neural network and convolution neural network to understand human emotion from speech to improve their IVA services and monitor their mental health. | 翻訳日:2022-08-30 14:55:46 公開日:2022-08-26 |
# グラフニューラルネットワークを用いた小銀河のダークマター密度プロファイルの解明 Uncovering dark matter density profiles in dwarf galaxies with graph neural networks ( http://arxiv.org/abs/2208.12825v1 ) ライセンス: Link先を確認 | Tri Nguyen, Siddharth Mishra-Sharma, Reuel Williams, Lina Necib | (参考訳) ドワーフ銀河は、暗黒物質が支配する小さな銀河であり、一部は銀河系に埋め込まれている。
それらのバリオン物質(恒星やガスなど)の欠如により、ダークマターの性質を解明するためのテストベッドが完成し、これらの系における空間的なダークマター分布は、宇宙の構造の形成と進化に影響を及ぼすミクロ物理学的なダークマター相互作用を制限できる。
これらの系に重力的に結合した恒星の観測可能なキネマティクスから、小銀河の暗黒物質密度プロファイルを推定するために、シミュレーションベースの推論とグラフベースの機械学習を利用する新しい手法を提案する。
提案手法は,動的Jeansモデリングに基づく確立された手法の限界に対処することを目的としている。
本手法は, 暗黒物質プロファイルに強い制約を課すことができ, その結果, コアカスプの差など, 暗黒物質ハロの小規模構造に係わるパズルのいくつかを考察できる可能性が示唆された。 Dwarf galaxies are small, dark matter-dominated galaxies, some of which are embedded within the Milky Way. Their lack of baryonic matter (e.g., stars and gas) makes them perfect test beds for probing the properties of dark matter -- understanding the spatial dark matter distribution in these systems can be used to constrain microphysical dark matter interactions that influence the formation and evolution of structures in our Universe. We introduce a new method that leverages simulation-based inference and graph-based machine learning in order to infer the dark matter density profiles of dwarf galaxies from observable kinematics of stars gravitationally bound to these systems. Our approach aims to address some of the limitations of established methods based on dynamical Jeans modeling. We show that this novel method can place stronger constraints on dark matter profiles and, consequently, has the potential to weigh in on some of the ongoing puzzles associated with the small-scale structure of dark matter halos, such as the core-cusp discrepancy. | 翻訳日:2022-08-30 14:55:33 公開日:2022-08-26 |
# 光チャネル等化におけるニューラルネットワークの計算複雑性の低減:概念から実装まで Reducing Computational Complexity of Neural Networks in Optical Channel Equalization: From Concepts to Implementation ( http://arxiv.org/abs/2208.12866v1 ) ライセンス: Link先を確認 | Pedro J. Freire, Antonio Napoli, Diego Arguello Ron, Bernhard Spinnler, Michael Anderson, Wolfgang Schairer, Thomas Bex, Nelson Costa, Sergei K. Turitsyn, Jaroslaw E. Prilepsky | (参考訳) 本稿では、高速コヒーレント光伝送システムにおける障害軽減のためのニューラルネットワーク(NN)ベースの等化器の低複雑さ開発を可能にする新しい手法を提案する。
本研究では、フィードフォワードおよび繰り返しNN設計に適用された様々なディープモデル圧縮手法の包括的記述と比較について述べる。
さらに,これらの戦略が各NN等化器の性能に与える影響を評価する。
モデル圧縮のための量子化,重みクラスタリング,プルーニング,その他の最先端戦略について考察する。
本研究では, 圧縮のハイパーパラメータが選択され, 複雑さを同時に低減し, 性能を向上させるベイズ最適化支援圧縮を提案する。
その結果、各圧縮手法の複雑さとその性能とのトレードオフをシミュレーションデータと実験データの両方を利用して評価し、解析を完了させる。
最適な圧縮手法を利用することで、実装が簡単で、従来のデジタルバックプロパゲーション(dbp)イコライザよりも優れた性能を有するnnベースのイコライザを、1スパンあたり1ステップで設計できることを示した。
これは、重み付けクラスタリングとプルーニングアルゴリズムを適用した後、NN等化器で使用される乗算数を減らすことで達成される。
さらに、NNに基づく等化器は、完全電子色分散補償ブロックと同程度の複雑さを維持しつつ、優れた性能が得られることを示した。
オープンな質問と既存の課題、そして将来的な研究の方向性を強調して分析を締めくくります。 In this paper, a new methodology is proposed that allows for the low-complexity development of neural network (NN) based equalizers for the mitigation of impairments in high-speed coherent optical transmission systems. In this work, we provide a comprehensive description and comparison of various deep model compression approaches that have been applied to feed-forward and recurrent NN designs. Additionally, we evaluate the influence these strategies have on the performance of each NN equalizer. Quantization, weight clustering, pruning, and other cutting-edge strategies for model compression are taken into consideration. In this work, we propose and evaluate a Bayesian optimization-assisted compression, in which the hyperparameters of the compression are chosen to simultaneously reduce complexity and improve performance. In conclusion, the trade-off between the complexity of each compression approach and its performance is evaluated by utilizing both simulated and experimental data in order to complete the analysis. By utilizing optimal compression approaches, we show that it is possible to design an NN-based equalizer that is simpler to implement and has better performance than the conventional digital back-propagation (DBP) equalizer with only one step per span. This is accomplished by reducing the number of multipliers used in the NN equalizer after applying the weighted clustering and pruning algorithms. Furthermore, we demonstrate that an equalizer based on NN can also achieve superior performance while still maintaining the same degree of complexity as the full electronic chromatic dispersion compensation block. We conclude our analysis by highlighting open questions and existing challenges, as well as possible future research directions. | 翻訳日:2022-08-30 14:55:15 公開日:2022-08-26 |
# 自然言語処理による株式市場の予測 -調査- Stock Market Prediction using Natural Language Processing -- A Survey ( http://arxiv.org/abs/2208.13564v1 ) ライセンス: Link先を確認 | Om Mane and Saravanakumar kandasamy | (参考訳) 株式市場は、ほぼすべての主要な経済取引のプラットフォームを提供するネットワークである。
株式市場への投資は良い考えだが、個人株への投資は、特にカジュアル投資家にとっては、そうではないかもしれない。
スマートストックピッキングには詳細な調査と多くの献身が必要だ。
この株価の予測は、膨大な仲裁利益の機会をもたらす。
このソリューションの発見の魅力は、ボラティリティ、季節性、時間依存といった問題を乗り越える方法を見つけるきっかけとなった。
本稿では,近年の自然言語処理分野の文献と,株式市場の動きを予測する機械学習技術について調査する。
この論文の主な貢献は、最近の多くの論文の洗練された分類と、株式市場予測とその関連分野における最近の研究動向の図示である。 The stock market is a network which provides a platform for almost all major economic transactions. While investing in the stock market is a good idea, investing in individual stocks may not be, especially for the casual investor. Smart stock-picking requires in-depth research and plenty of dedication. Predicting this stock value offers enormous arbitrage profit opportunities. This attractiveness of finding a solution has prompted researchers to find a way past problems like volatility, seasonality, and dependence on time. This paper surveys recent literature in the domain of natural language processing and machine learning techniques used to predict stock market movements. The main contributions of this paper include the sophisticated categorizations of many recent articles and the illustration of the recent trends of research in stock market prediction and its related areas. | 翻訳日:2022-08-30 14:48:02 公開日:2022-08-26 |
# 動的制約付き最適化問題に適用した勾配降下アルゴリズムの効率向上 Improving the Efficiency of Gradient Descent Algorithms Applied to Optimization Problems with Dynamical Constraints ( http://arxiv.org/abs/2208.12834v1 ) ライセンス: Link先を確認 | Ion Matei, Maksym Zhenirovskyy, Johan de Kleer and John Maxwell | (参考訳) 通常の微分方程式(ODE)を用いた最適化問題を動的制約として解くための2つのブロック座標降下アルゴリズムを導入する。
このアルゴリズムは損失関数勾配を評価するために直接または随伴感度解析法を実装する必要はない。
それらは、等式制約を伴う等価最適化問題として元の問題の再構成から生じる。
アルゴリズムは、ODEソリューションの感度を明示的に考慮したODEソルバに基づく勾配重み付けアルゴリズムの回復を目的としたステップから自然に従う。
最初に提案したアルゴリズムでは, ODEソルバを暗黙の制約列として統合することで, ODEを明示的に解くことを避ける。
第2のアルゴリズムでは、ODEソルバを用いてODE解をリセットするが、直接随伴感度解析法は使用しない。
どちらのアルゴリズムもミニバッチの実装を受け入れ、GPUベースの並列化による大きな効率性を示している。
本稿では,Cucker-Smaleモデルのパラメータ学習に適用したアルゴリズムの性能を示す。
これらのアルゴリズムは、 Pytorch と Jax の実装を用いて、様々な状態サイズに対して感度解析能力を持つODE ソルバに基づく勾配降下アルゴリズムと比較される。
実験の結果,提案アルゴリズムはPytorchの実装よりも少なくとも4倍高速であり,Jaxの実装より少なくとも16倍高速であることがわかった。
Cucker-Smaleモデルの大規模なバージョンでは、Jaxの実装は感度分析ベースの実装よりも数千倍高速である。
さらに、我々のアルゴリズムは、トレーニングデータとテストデータの両方でより正確な結果を生成する。
このような計算効率の向上は、診断アルゴリズムのようなリアルタイムパラメータ推定を実装するアルゴリズムにとって最重要である。 We introduce two block coordinate descent algorithms for solving optimization problems with ordinary differential equations (ODEs) as dynamical constraints. The algorithms do not need to implement direct or adjoint sensitivity analysis methods to evaluate loss function gradients. They results from reformulation of the original problem as an equivalent optimization problem with equality constraints. The algorithms naturally follow from steps aimed at recovering the gradient-decent algorithm based on ODE solvers that explicitly account for sensitivity of the ODE solution. In our first proposed algorithm we avoid explicitly solving the ODE by integrating the ODE solver as a sequence of implicit constraints. In our second algorithm, we use an ODE solver to reset the ODE solution, but no direct are adjoint sensitivity analysis methods are used. Both algorithm accepts mini-batch implementations and show significant efficiency benefits from GPU-based parallelization. We demonstrate the performance of the algorithms when applied to learning the parameters of the Cucker-Smale model. The algorithms are compared with gradient descent algorithms based on ODE solvers endowed with sensitivity analysis capabilities, for various number of state size, using Pytorch and Jax implementations. The experimental results demonstrate that the proposed algorithms are at least 4x faster than the Pytorch implementations, and at least 16x faster than Jax implementations. For large versions of the Cucker-Smale model, the Jax implementation is thousands of times faster than the sensitivity analysis-based implementation. In addition, our algorithms generate more accurate results both on training and test data. Such gains in computational efficiency is paramount for algorithms that implement real time parameter estimations, such as diagnosis algorithms. | 翻訳日:2022-08-30 14:40:57 公開日:2022-08-26 |
# 全スライド画像におけるステン転送のための領域誘導サイクルGAN Region-guided CycleGANs for Stain Transfer in Whole Slide Images ( http://arxiv.org/abs/2208.12847v1 ) ライセンス: Link先を確認 | Joseph Boyd, Ir\`ene Villa, Marie-Christine Mathieu, Eric Deutsch, Nikos Paragios, Maria Vakalopoulou, Stergios Christodoulidis | (参考訳) 全スライド画像では、ヘマトキシリンとエオシン(H&E)をベースとした染色技術と免疫組織化学(IHC)染色が組織景観の異なる側面をアクセントする。
転移を検出する場合、IHCは病理学者によって容易に解釈できる独自の読み出しを提供する。
しかし、IHCはより高価なアプローチであり、すべての医療センターで利用できない。
ディープニューラルネットワークを使用してH&EからIHCイメージを仮想的に生成することで、魅力的な代替手段となる。
サイクルガンのような深い生成モデルは、各ドメインのテクスチャ特性をエミュレートしながら、2つのイメージドメイン間の意味的に一貫性のあるマッピングを学ぶ。
したがって、これらは染色転移応用に適した選択である。
しかし、完全に管理されていないままであり、染色における生物学的一貫性を強制するメカニズムを持たない。
本稿では,CycleGANを関心差別の領域として拡張する手法を提案する。
これによりcycleganは、一貫性を強制したいオブジェクトの部分的なアノテーションがある非ペアデータセットから学習することができる。
我々は,IHC染色が転移細胞に対して実験的に発生する信号を提供するスライド画像全体に対するユースケースを提案する。
2つのデータセット上の病理組織学タイルの染色転移における先行技術に対するアプローチの優位性を実証する。
私たちのコードとモデルはhttps://github.com/jcboyd/miccai2022-roiganで利用可能です。 In whole slide imaging, commonly used staining techniques based on hematoxylin and eosin (H&E) and immunohistochemistry (IHC) stains accentuate different aspects of the tissue landscape. In the case of detecting metastases, IHC provides a distinct readout that is readily interpretable by pathologists. IHC, however, is a more expensive approach and not available at all medical centers. Virtually generating IHC images from H&E using deep neural networks thus becomes an attractive alternative. Deep generative models such as CycleGANs learn a semantically-consistent mapping between two image domains, while emulating the textural properties of each domain. They are therefore a suitable choice for stain transfer applications. However, they remain fully unsupervised, and possess no mechanism for enforcing biological consistency in stain transfer. In this paper, we propose an extension to CycleGANs in the form of a region of interest discriminator. This allows the CycleGAN to learn from unpaired datasets where, in addition, there is a partial annotation of objects for which one wishes to enforce consistency. We present a use case on whole slide images, where an IHC stain provides an experimentally generated signal for metastatic cells. We demonstrate the superiority of our approach over prior art in stain transfer on histopathology tiles over two datasets. Our code and model are available at https://github.com/jcboyd/miccai2022-roigan. | 翻訳日:2022-08-30 14:36:01 公開日:2022-08-26 |
# マルチモダリティ心臓画像コンピューティング:調査 Multi-Modality Cardiac Image Computing: A Survey ( http://arxiv.org/abs/2208.12881v1 ) ライセンス: Link先を確認 | Lei Li and Wangbin Ding and Liqun Huang and Xiahai Zhuang and Vicente Grau | (参考訳) 多モード心電図は心血管疾患患者の管理において重要な役割を担っている。
相補的な解剖学的、形態学的、機能的な情報の組み合わせを可能にし、診断精度を高め、心血管的介入の有効性と臨床結果を改善する。
マルチモダリティ心筋画像の完全自動処理と定量的解析は、臨床研究やエビデンスに基づく患者の管理に直接影響を与える可能性がある。
しかし、モダリティ間の不一致や、異なるモダリティからの情報を統合するための最適な方法を見つけるなど、重要な課題を克服する必要がある。
本稿では,心臓科におけるマルチモダリティ画像の総合的レビュー,計算方法,バリデーション戦略,関連する臨床ワークフロー,今後の展望について述べる。
コンピュータの方法論では,多モード画像データ,\textit{eier という3つのタスク,すなわち登録,融合,セグメンテーションに重点を置いている。
総説では,多変量心画像データは経大動脈弁移植指導,心筋活力評価,カテーテルアブレーション療法,患者の選択など,クリニックに広く応用できる可能性が示唆されている。
それでも、モダリティの欠如、画像と非画像データの組み合わせ、異なるモダリティの均一な分析と表現など、多くの課題は未解決のままである。
十分に開発されたテクニックが臨床ワークフローにどのように適合するか、どの程度追加され関連する情報を導入するかを定義する作業もある。
これらの問題は今後も研究の活発な分野であり続け、今後の課題にも答えられるだろう。 Multi-modality cardiac imaging plays a key role in the management of patients with cardiovascular diseases. It allows a combination of complementary anatomical, morphological and functional information, increases diagnosis accuracy, and improves the efficacy of cardiovascular interventions and clinical outcomes. Fully-automated processing and quantitative analysis of multi-modality cardiac images could have a direct impact on clinical research and evidence-based patient management. However, these require overcoming significant challenges including inter-modality misalignment and finding optimal methods to integrate information from different modalities. This paper aims to provide a comprehensive review of multi-modality imaging in cardiology, the computing methods, the validation strategies, the related clinical workflows and future perspectives. For the computing methodologies, we have a favored focus on the three tasks, i.e., registration, fusion and segmentation, which generally involve multi-modality imaging data, \textit{either combining information from different modalities or transferring information across modalities}. The review highlights that multi-modality cardiac imaging data has the potential of wide applicability in the clinic, such as trans-aortic valve implantation guidance, myocardial viability assessment, and catheter ablation therapy and its patient selection. Nevertheless, many challenges remain unsolved, such as missing modality, combination of imaging and non-imaging data, and uniform analysis and representation of different modalities. There is also work to do in defining how the well-developed techniques fit in clinical workflows and how much additional and relevant information they introduce. These problems are likely to continue to be an active field of research and the questions to be answered in the future. | 翻訳日:2022-08-30 14:35:39 公開日:2022-08-26 |
# クロス言語的低リソースASR評価のためのデータ分割戦略の検討 Investigating data partitioning strategies for crosslinguistic low-resource ASR evaluation ( http://arxiv.org/abs/2208.12888v1 ) ライセンス: Link先を確認 | Zoey Liu, Justin Spence, Emily Prud'hommeaux | (参考訳) 多くの自動音声認識(asr)データセットは、トレーニングセットに音声が現れない1つ以上の話者からなる、事前定義された単一のテストセットを含んでいる。
しかし、この"hold-speaker(s)-out"データ分割戦略は、話者数が非常に少ないデータセットには理想的ではないかもしれない。
本研究では,ASR学習リソースを最小化した5言語に対して,10種類のデータ分割手法を提案する。
We find that (1) model performance varies greatly depending on which speaker is selected for testing; (2) the average word error rate (WER) across all held-out speakers is comparable not only to the average WER over multiple random splits but also to any given individual random split; (3) WER is also generally comparable when the data is split heuristically or adversarially; (4) utterance duration and intensity are comparatively more predictive factors of variability regardless of the data split.
これらの結果は、ASRデータパーティショニングに広く用いられているホルダーアウトアプローチが、目に見えないデータや話者のモデル性能を反映しない結果をもたらすことを示唆している。
ランダム分割は、データ空間に直面するとき、より信頼性が高く、一般化可能な見積もりをもたらす。 Many automatic speech recognition (ASR) data sets include a single pre-defined test set consisting of one or more speakers whose speech never appears in the training set. This "hold-speaker(s)-out" data partitioning strategy, however, may not be ideal for data sets in which the number of speakers is very small. This study investigates ten different data split methods for five languages with minimal ASR training resources. We find that (1) model performance varies greatly depending on which speaker is selected for testing; (2) the average word error rate (WER) across all held-out speakers is comparable not only to the average WER over multiple random splits but also to any given individual random split; (3) WER is also generally comparable when the data is split heuristically or adversarially; (4) utterance duration and intensity are comparatively more predictive factors of variability regardless of the data split. These results suggest that the widely used hold-speakers-out approach to ASR data partitioning can yield results that do not reflect model performance on unseen data or speakers. Random splits can yield more reliable and generalizable estimates when facing data sparsity. | 翻訳日:2022-08-30 14:27:50 公開日:2022-08-26 |
# 深層学習を用いた弾薬成分分類 Ammunition Component Classification Using Deep Learning ( http://arxiv.org/abs/2208.12863v1 ) ライセンス: Link先を確認 | Hadi Ghahremannezhad, Chengjun Liu, Hang Shi | (参考訳) 弾薬スクラップ検査は、弾薬金属スクラップのリサイクルプロセスにおいて不可欠なステップである。
ほとんどの弾薬は、ケース、プライマー、パウダー、発射体を含む多くの部品で構成されている。
エネルギーを含むアンモスクラップは潜在的に危険であると考えられ、リサイクル前に分離すべきである。
各スクラップを手動で検査するのは面倒で時間がかかります。
安全で安全でないスクラップピースを自動的に分類するための人工知能の適用を目的として,弾薬部品のデータセットを収集した。
まず、ammoの視覚画像とx線画像から2つのトレーニングデータセットを手動で作成する。
第2に、このX線データセットは、十分なトレーニングデータの不足を補うために、ヒストグラム等化、平均化、シャープ化、電力法則、ガウスアンボケリングの空間変換を用いて拡張される。
最後に, 代表的なYOLOv4オブジェクト検出手法を適用し, アンモコンポーネントを検出し, スクラップ部品を安全クラスと安全クラスに分類する。
トレーニングされたモデルは、適用された手法の性能を評価するために、見えないデータに対してテストされる。
実験は,深層学習を用いたammo成分検出と分類の実現可能性を示す。
データセットと事前トレーニングされたモデルは、https://github.com/hadi-ghnd/scrap-classificationで入手できる。 Ammunition scrap inspection is an essential step in the process of recycling ammunition metal scrap. Most ammunition is composed of a number of components, including case, primer, powder, and projectile. Ammo scrap containing energetics is considered to be potentially dangerous and should be separated before the recycling process. Manually inspecting each piece of scrap is tedious and time-consuming. We have gathered a dataset of ammunition components with the goal of applying artificial intelligence for classifying safe and unsafe scrap pieces automatically. First, two training datasets are manually created from visual and x-ray images of ammo. Second, the x-ray dataset is augmented using the spatial transforms of histogram equalization, averaging, sharpening, power law, and Gaussian blurring in order to compensate for the lack of sufficient training data. Lastly, the representative YOLOv4 object detection method is applied to detect the ammo components and classify the scrap pieces into safe and unsafe classes, respectively. The trained models are tested against unseen data in order to evaluate the performance of the applied method. The experiments demonstrate the feasibility of ammo component detection and classification using deep learning. The datasets and the pre-trained models are available at https://github.com/hadi-ghnd/Scrap-Classification. | 翻訳日:2022-08-30 13:45:48 公開日:2022-08-26 |
# 手続き的テキスト理解のためのグローバル・ローカル情報の連携 Coalescing Global and Local Information for Procedural Text Understanding ( http://arxiv.org/abs/2208.12848v1 ) ライセンス: Link先を確認 | Kaixin Ma, Filip Ilievski, Jonathan Francis, Eric Nyberg, Alessandro Oltramari | (参考訳) 手続き的テキスト理解(Procedural text understanding)は、物語の開発全体にわたってエンティティ状態を追跡するモデルを必要とする、困難な言語推論タスクである。
完全な手続き的理解ソリューションは、入力のローカルビューとグローバルビュー、出力のグローバルビューの3つの中核的な側面を組み合わせるべきである。
以前の手法はこれらの側面のサブセットを考慮し、結果として低い精度または低いリコールをもたらす。
本稿では,文脈全体(グローバルインプット)を考慮したエンティティとタイムステップを意識した入力表現(ローカルインプット)を構築する新しいモデルであるCalescing Global and Local Information(CGLI)を提案し,構造化予測目標(グローバルアウトプット)を用いてエンティティ状態を共同でモデル化する。
したがって、CGLIは精度とリコールの両方を同時に最適化する。
CGLIを出力層を追加して拡張し、ストーリー推論フレームワークに統合します。
一般的な手続き的テキスト理解データセットに関する広範な実験は、我々のモデルが最先端の結果を達成していることを示している;ストーリー推論ベンチマークにおける実験は、我々のモデルが下流の推論に与える影響を示している。 Procedural text understanding is a challenging language reasoning task that requires models to track entity states across the development of a narrative. A complete procedural understanding solution should combine three core aspects: local and global views of the inputs, and global view of outputs. Prior methods considered a subset of these aspects, resulting in either low precision or low recall. In this paper, we propose Coalescing Global and Local Information (CGLI), a new model that builds entity- and timestep-aware input representations (local input) considering the whole context (global input), and we jointly model the entity states with a structured prediction objective (global output). Thus, CGLI simultaneously optimizes for both precision and recall. We extend CGLI with additional output layers and integrate it into a story reasoning framework. Extensive experiments on a popular procedural text understanding dataset show that our model achieves state-of-the-art results; experiments on a story reasoning benchmark show the positive impact of our model on downstream reasoning. | 翻訳日:2022-08-30 13:41:09 公開日:2022-08-26 |
# 加速mriの臨床適応への道 A Path Towards Clinical Adaptation of Accelerated MRI ( http://arxiv.org/abs/2208.12835v1 ) ライセンス: Link先を確認 | Michael S. Yao and Michael S. Hansen | (参考訳) 加速MRIは、わずかなサンプル信号データから臨床解剖像を再構成し、患者のスキャン時間を短縮する。
近年の研究では、このタスクを達成するためにディープラーニングを活用しているが、そのようなアプローチは、信号の破損やリソースの制限がないシミュレーション環境でのみ検討されることが多い。
本研究では, ニューラルネットワークMRI画像再構成器への拡張について検討し, 臨床関連性を高める。
具体的には,79.1\%$のクラスifer$f_2$スコアを達成する画像アーティファクトのソースを検出するためのconvnetモデルを提案する。
また, MR信号データに対する各種アクセラレーション因子を用いたトレーニングコンストラクタは, 臨床患者検診における平均性能を最大2.5%向上できることを示した。
モデルが複数の解剖学や方向のmr画像を再構成することを学ぶと、壊滅的な忘れを克服するロス関数を提供する。
最後に,臨床に取得したデータセットと計算能力に制限のある状況下で,ファントムデータを事前訓練する手法を提案する。
以上の結果から, 加速mriの臨床適応への道筋が示唆された。 Accelerated MRI reconstructs images of clinical anatomies from sparsely sampled signal data to reduce patient scan times. While recent works have leveraged deep learning to accomplish this task, such approaches have often only been explored in simulated environments where there is no signal corruption or resource limitations. In this work, we explore augmentations to neural network MRI image reconstructors to enhance their clinical relevancy. Namely, we propose a ConvNet model for detecting sources of image artifacts that achieves a classifer $F_2$ score of $79.1\%$. We also demonstrate that training reconstructors on MR signal data with variable acceleration factors can improve their average performance during a clinical patient scan by up to $2\%$. We offer a loss function to overcome catastrophic forgetting when models learn to reconstruct MR images of multiple anatomies and orientations. Finally, we propose a method for using simulated phantom data to pre-train reconstructors in situations with limited clinically acquired datasets and compute capabilities. Our results provide a potential path forward for clinical adaptation of accelerated MRI. | 翻訳日:2022-08-30 13:35:21 公開日:2022-08-26 |
# ガウス過程の専門家とsmc$^2$との混合物 Mixtures of Gaussian Process Experts with SMC$^2$ ( http://arxiv.org/abs/2208.12830v1 ) ライセンス: Link先を確認 | Teemu H\"ark\"onen, Sara Wade, Kody Law, Lassi Roininen | (参考訳) ガウス過程は多くの柔軟な統計モデルと機械学習モデルの鍵となるコンポーネントである。
しかし、完全な共分散行列を反転して保存する必要があるため、量子計算の複雑さと高いメモリ制約を示す。
これを回避するために、ガウスのプロセスエキスパートの混合は、データポイントが独立した専門家に割り当てられる場所として検討され、より小さな局所的共分散行列に基づく推論を行うことで複雑さを減らした。
さらに、ガウス過程の専門家の混合物はモデルの柔軟性を実質的に強化し、非定常性、異質性、不連続性などの振る舞いを可能にした。
本研究では,ネストした連続モンテカルロサンプルを用いた新しい推論手法を構築し,ゲーティングネットワークとガウスプロセスの専門家パラメータの両方を同時に推定する。
これは、特に静止ガウス過程が不適切でありながら、完全に並列化可能である設定において、重要なサンプリングよりも推論を大幅に改善する。 Gaussian processes are a key component of many flexible statistical and machine learning models. However, they exhibit cubic computational complexity and high memory constraints due to the need of inverting and storing a full covariance matrix. To circumvent this, mixtures of Gaussian process experts have been considered where data points are assigned to independent experts, reducing the complexity by allowing inference based on smaller, local covariance matrices. Moreover, mixtures of Gaussian process experts substantially enrich the model's flexibility, allowing for behaviors such as non-stationarity, heteroscedasticity, and discontinuities. In this work, we construct a novel inference approach based on nested sequential Monte Carlo samplers to simultaneously infer both the gating network and Gaussian process expert parameters. This greatly improves inference compared to importance sampling, particularly in settings when a stationary Gaussian process is inappropriate, while still being thoroughly parallelizable. | 翻訳日:2022-08-30 13:25:12 公開日:2022-08-26 |
# 資源制約エッジAIのための複雑度駆動型CNN圧縮 Complexity-Driven CNN Compression for Resource-constrained Edge AI ( http://arxiv.org/abs/2208.12816v1 ) ライセンス: Link先を確認 | Muhammad Zawish, Steven Davy and Lizy Abraham | (参考訳) モノのインターネット(IoT)対応ネットワークエッジにおける人工知能(AI)の最近の進歩は、低レイテンシと計算効率を実現することで、スマート農業、スマート病院、スマートファクトリといったいくつかのアプリケーションでエッジインテリジェンスを実現している。
しかしながら、リソース制約されたエッジデバイスにVGG-16やResNetsのような最先端の畳み込みニューラルネットワーク(CNN)をデプロイすることは、大量のパラメータと浮動小数点演算(FLOP)のために事実上不可能である。
これにより、低消費電力デバイス上でcnnを加速するモデル圧縮の一種としてのネットワークプルーニングの概念が注目されている。
構造的あるいは非構造的な最先端のプルーニングアプローチは、畳み込み層によって示される複雑さの根底にある異なる性質を考慮せず、トレーニング・プルーニング・リトレーニングパイプラインに従い、さらなる計算オーバーヘッドをもたらす。
本研究では,cnnの層レベルの複雑度を生かして,新しい計算効率のよいプルーニングパイプラインを提案する。
従来の手法とは違って,提案手法では,ネットワークの複雑性に対するコントリビューションに基づいて,フィルタの特定の層を選択する。
我々は,prunedモデルを直接学習し,計算量的に複雑なランク付けや微調整ステップを回避する手順に従う。
さらに,パラメータアウェア(pa),フラップアウェア(fa),メモリアウェア(ma)の3つのモードを定義し,cnnの汎用圧縮を導入する。
以上の結果から,精度と加速度の面でのアプローチの競合性能が示された。
最後に、異なるリソースと正確性の間のトレードオフを示し、リソースに制約のあるiot環境において、開発者が正しい判断を下すのに役立ちます。 Recent advances in Artificial Intelligence (AI) on the Internet of Things (IoT)-enabled network edge has realized edge intelligence in several applications such as smart agriculture, smart hospitals, and smart factories by enabling low-latency and computational efficiency. However, deploying state-of-the-art Convolutional Neural Networks (CNNs) such as VGG-16 and ResNets on resource-constrained edge devices is practically infeasible due to their large number of parameters and floating-point operations (FLOPs). Thus, the concept of network pruning as a type of model compression is gaining attention for accelerating CNNs on low-power devices. State-of-the-art pruning approaches, either structured or unstructured do not consider the different underlying nature of complexities being exhibited by convolutional layers and follow a training-pruning-retraining pipeline, which results in additional computational overhead. In this work, we propose a novel and computationally efficient pruning pipeline by exploiting the inherent layer-level complexities of CNNs. Unlike typical methods, our proposed complexity-driven algorithm selects a particular layer for filter-pruning based on its contribution to overall network complexity. We follow a procedure that directly trains the pruned model and avoids the computationally complex ranking and fine-tuning steps. Moreover, we define three modes of pruning, namely parameter-aware (PA), FLOPs-aware (FA), and memory-aware (MA), to introduce versatile compression of CNNs. Our results show the competitive performance of our approach in terms of accuracy and acceleration. Lastly, we present a trade-off between different resources and accuracy which can be helpful for developers in making the right decisions in resource-constrained IoT environments. | 翻訳日:2022-08-30 13:19:22 公開日:2022-08-26 |
# DETERRENT:強化学習を用いたトロイの木馬の検出 DETERRENT: Detecting Trojans using Reinforcement Learning ( http://arxiv.org/abs/2208.12878v1 ) ライセンス: Link先を確認 | Vasudev Gohil, Satwik Patnaik, Hao Guo, Dileep Kalathil, Jeyavijayan (JV) Rajendran | (参考訳) 集積回路におけるハードウェアトロイの木馬 (HTs) の導入は悪質な脅威である。
HTは希少なトリガー条件下で活性化されるため、ランダム論理シミュレーションによる検出は不可能である。
本研究では,指数探索空間を回避し,HTを検出する可能性が最も高い最小限のパターンを返却する強化学習(RL)エージェントを設計する。
様々なベンチマークで実験結果が示され、rlエージェントの有効性とスケーラビリティが実証され、最新の技術と比較して、カバレッジ維持や改善に必要なテストパターン数(95.75\%$)が大幅に削減された(199\times$)。 Insertion of hardware Trojans (HTs) in integrated circuits is a pernicious threat. Since HTs are activated under rare trigger conditions, detecting them using random logic simulations is infeasible. In this work, we design a reinforcement learning (RL) agent that circumvents the exponential search space and returns a minimal set of patterns that is most likely to detect HTs. Experimental results on a variety of benchmarks demonstrate the efficacy and scalability of our RL agent, which obtains a significant reduction ($169\times$) in the number of test patterns required while maintaining or improving coverage ($95.75\%$) compared to the state-of-the-art techniques. | 翻訳日:2022-08-30 13:18:51 公開日:2022-08-26 |
# attrition:強化学習を用いた静的ハードウェアトロイの木馬検出手法 ATTRITION: Attacking Static Hardware Trojan Detection Techniques Using Reinforcement Learning ( http://arxiv.org/abs/2208.12897v1 ) ライセンス: Link先を確認 | Vasudev Gohil, Hao Guo, Satwik Patnaik, Jeyavijayan (JV) Rajendran | (参考訳) 集積回路の製造中に挿入されたステルスハードウェアTrojans (HTs) は、重要なインフラのセキュリティを回避できる。
研究者はhtsを検出する手法を数多く提案しているが、いくつかの制限がある。
(i)成功率が低い。
(ii)高いアルゴリズムの複雑さ、
(iii)多数のテストパターン。
さらに、先行検出手法の最も顕著な欠点は、不正な評価手法、すなわち、相手がランダムにHTを挿入すると仮定することに由来する。
このような不適切な敵対的な仮定により、検出技術は高いht検出精度を主張でき、「偽りのセキュリティ感覚」をもたらす。
残念ながら、我々の知る限りでは、製造中に挿入されたHTの検出に関する10年以上の研究にもかかわらず、HT検出技術を体系的に評価する取り組みは行われていない。
本稿では,現実的な敵対者の役割を担い,強化学習(RL)を用いた自動かつスケーラブルで実用的な攻撃フレームワークATTRITIONを開発することで,HT検出技術の有効性を疑問視する。
ATTRITIONは2つのHT検出カテゴリにわたる8つの検出テクニックを回避し、その非依存的な振る舞いを示す。
ATTRITIONは、最先端のHT検出技術に対してランダムに挿入されたHTと比較して、平均攻撃成功率は47\times$と211\times$である。
広く使用されている学術スイートから,オープンソースのmipsやmor1kxプロセッサ,aes,gpsモジュールなど,より大きな設計まで,設計を評価することで,attritionの検出手法を回避する能力を示す。
さらに,ATTRITION生成HTがMor1kxプロセッサに与える影響を2つのケーススタディ(プライベートエスカレーションとキルスイッチ)で示す。
我々の研究は、リリースしたHTベンチマークとモデルと共に、より良いHT検出技術の開発を促進することを期待しています。 Stealthy hardware Trojans (HTs) inserted during the fabrication of integrated circuits can bypass the security of critical infrastructures. Although researchers have proposed many techniques to detect HTs, several limitations exist, including: (i) a low success rate, (ii) high algorithmic complexity, and (iii) a large number of test patterns. Furthermore, the most pertinent drawback of prior detection techniques stems from an incorrect evaluation methodology, i.e., they assume that an adversary inserts HTs randomly. Such inappropriate adversarial assumptions enable detection techniques to claim high HT detection accuracy, leading to a "false sense of security." Unfortunately, to the best of our knowledge, despite more than a decade of research on detecting HTs inserted during fabrication, there have been no concerted efforts to perform a systematic evaluation of HT detection techniques. In this paper, we play the role of a realistic adversary and question the efficacy of HT detection techniques by developing an automated, scalable, and practical attack framework, ATTRITION, using reinforcement learning (RL). ATTRITION evades eight detection techniques across two HT detection categories, showcasing its agnostic behavior. ATTRITION achieves average attack success rates of $47\times$ and $211\times$ compared to randomly inserted HTs against state-of-the-art HT detection techniques. We demonstrate ATTRITION's ability to evade detection techniques by evaluating designs ranging from the widely-used academic suites to larger designs such as the open-source MIPS and mor1kx processors to AES and a GPS module. Additionally, we showcase the impact of ATTRITION-generated HTs through two case studies (privilege escalation and kill switch) on the mor1kx processor. We envision that our work, along with our released HT benchmarks and models, fosters the development of better HT detection techniques. | 翻訳日:2022-08-30 13:18:38 公開日:2022-08-26 |
# ペナルティ・アクティベーションに基づく対人訓練によるドメイン適応 Domain Adaptation with Adversarial Training on Penultimate Activations ( http://arxiv.org/abs/2208.12853v1 ) ライセンス: Link先を確認 | Tao Sun, Cheng Lu, Haibin Ling | (参考訳) ラベルのない対象データに対するモデル予測の信頼性を高めることは、Unsupervised Domain Adaptation (UDA)において重要な目標である。
本稿では,最終線形分類層におけるペナルティミネートアクティベーション,ie,入力特性に関する敵意的学習について検討する。
この戦略は, 入力画像や中間特徴に対する敵対的訓練よりも, 予測信頼を高める目的と, より効率的で良好な相関関係があることが示唆された。
さらに,ドメイン間のギャップを減らすために,ドメイン適応によく用いられる活性化正規化により,2つの変種を導出し,正規化が敵の訓練に与える影響を体系的に解析する。
これは理論上および実際の適応タスクに関する経験的分析を通じて示される。
一般的なUDAベンチマークでは、標準設定とソースデータフリー設定の両方で大規模な実験が行われる。
その結果,本手法が先行技術に対して最高のスコアを達成できることが確認できた。 Enhancing model prediction confidence on unlabeled target data is an important objective in Unsupervised Domain Adaptation (UDA). In this paper, we explore adversarial training on penultimate activations, ie, input features of the final linear classification layer. We show that this strategy is more efficient and better correlated with the objective of boosting prediction confidence than adversarial training on input images or intermediate features, as used in previous works. Furthermore, with activation normalization commonly used in domain adaptation to reduce domain gap, we derive two variants and systematically analyze the effects of normalization on our adversarial training. This is illustrated both in theory and through empirical analysis on real adaptation tasks. Extensive experiments are conducted on popular UDA benchmarks under both standard setting and source-data free setting. The results validate that our method achieves the best scores against previous arts. | 翻訳日:2022-08-30 13:14:29 公開日:2022-08-26 |
# ローカルコンテキスト対応アクティブドメイン適応 Local Context-Aware Active Domain Adaptation ( http://arxiv.org/abs/2208.12856v1 ) ライセンス: Link先を確認 | Tao Sun, Cheng Lu, Haibin Ling | (参考訳) Active Domain Adaptation (ADA)は、選択されたターゲットサンプルのラベルをクエリして、関連するソースドメインからターゲットドメインへのモデル適応を支援する。
ラベル付けコストの最小化による有望なパフォーマンスのため、最近注目を集めている。
それでも、既存のADAメソッドはクエリされたデータのローカルコンテキストを完全に活用していない。
本稿では,2つの主要なモジュールから構成されるローカルコンテキスト対応アクティブドメイン適応(LADA)の新しいフレームワークを提案する。
Local context-aware Active Selection (LAS)モジュールは、クラス確率予測が隣人と矛盾するターゲットサンプルを選択する。
Local context-aware Model Adaptation (LMA)モジュールは、クエリされたサンプルと拡張された隣人の両方でモデルを洗練する。
広範囲な実験により、LASは既存のアクティブな選択戦略よりも情報的なサンプルを選択することが示されている。
さらに、LMAを用いて、LADA法は様々なベンチマークで最先端のADAソリューションより優れている。
コードはhttps://github.com/tsun/LADA.comで入手できる。 Active Domain Adaptation (ADA) queries the label of selected target samples to help adapting a model from a related source domain to a target domain. It has attracted increasing attention recently due to its promising performance with minimal labeling cost. Nevertheless, existing ADA methods have not fully exploited the local context of queried data, which is important to ADA, especially when the domain gap is large. In this paper, we propose a novel framework of Local context-aware Active Domain Adaptation (LADA), which is composed of two key modules. The Local context-aware Active Selection (LAS) module selects target samples whose class probability predictions are inconsistent with their neighbors. The Local context-aware Model Adaptation (LMA) module refines a model with both queried samples and their expanded neighbors, regularized by a context-preserving loss. Extensive experiments show that LAS selects more informative samples than existing active selection strategies. Furthermore, equipped with LMA, the full LADA method outperforms state-of-the-art ADA solutions on various benchmarks. Code is available at https://github.com/tsun/LADA. | 翻訳日:2022-08-30 13:14:13 公開日:2022-08-26 |
# 連合学習における異常局所クラスタリング Abnormal Local Clustering in Federated Learning ( http://arxiv.org/abs/2208.12813v1 ) ライセンス: Link先を確認 | Jihwan Won | (参考訳) フェデレートラーニング(Federated Learning)は、ローカルクライアントデバイスからの個人データやプライベートデータではなく、転送モデルによってプライベートデータを公開することなく、プライバシのモデルである。
グローバルモデルでは、各ローカルデータが正常であることを認識することが重要です。
本稿では,局所モデルにダミーデータを入力して抽出したベクトルのユークリッド類似度クラスタリングにより,正規局所と異常局所を分離する手法を提案する。
フェデレーション分類モデルでは,局所を正規値と異常値に分けた。 Federated learning is a model for privacy without revealing private data by transfer models instead of personal and private data from local client devices. While, in the global model, it's crucial to recognize each local data is normal. This paper suggests one method to separate normal locals and abnormal locals by Euclidean similarity clustering of vectors extracted by inputting dummy data in local models. In a federated classification model, this method divided locals into normal and abnormal. | 翻訳日:2022-08-30 13:00:30 公開日:2022-08-26 |
# 勾配はグラフ構造を攻撃するときに何がわかるか What Does the Gradient Tell When Attacking the Graph Structure ( http://arxiv.org/abs/2208.12815v1 ) ライセンス: Link先を確認 | Zihan Liu, Ge Wang, Yun Luo, Stan Z. Li | (参考訳) 最近の研究では、グラフニューラルネットワークは敵の攻撃に弱いことが証明されている。
攻撃者は、エッジの摂動によって無知な被害者モデルのパフォーマンスを乱すために、トレーニングラベルのみに頼ることができる。
研究者は、サリエンシベースの攻撃者はそれらを削除するよりもエッジを追加する傾向があり、これは以前、エッジを追加すると、エッジを削除しながら集約によってノードの機能を汚染するという事実によって説明されていた。
本稿ではさらに,クラス間エッジを付加することで,攻撃者がグラフを摂動させることを証明し,摂動グラフのホモフィリの低減も示す。
この観点から見れば、サラジェンシーベースの攻撃者には、能力と不可避性を改善する余地がある。
gnnベースのサロゲートモデルのメッセージパッシングは、クラス間エッジで接続されたノードのオーバームーシングにつながり、攻撃者がノードの特徴の識別性を得るのを防ぐ。
そこで本研究では,ノード間の属性差を保存するマルチホップ集約メッセージパッシングを提案する。
さらに,同相分散を制限して攻撃不可能性を高める正規化項を提案する。
実験により,提案するサロゲートモデルが攻撃者の汎用性を改善し,正規化項が摂動グラフの相同性を制限するのに役立つことを検証した。 Recent studies have proven that graph neural networks are vulnerable to adversarial attacks. Attackers can rely solely on the training labels to disrupt the performance of the agnostic victim model by edge perturbations. Researchers observe that the saliency-based attackers tend to add edges rather than delete them, which is previously explained by the fact that adding edges pollutes the nodes' features by aggregation while removing edges only leads to some loss of information. In this paper, we further prove that the attackers perturb graphs by adding inter-class edges, which also manifests as a reduction in the homophily of the perturbed graph. From this point of view, saliency-based attackers still have room for improvement in capability and imperceptibility. The message passing of the GNN-based surrogate model leads to the oversmoothing of nodes connected by inter-class edges, preventing attackers from obtaining the distinctiveness of node features. To solve this issue, we introduce a multi-hop aggregated message passing to preserve attribute differences between nodes. In addition, we propose a regularization term to restrict the homophily variance to enhance the attack imperceptibility. Experiments verify that our proposed surrogate model improves the attacker's versatility and the regularization term helps to limit the homophily of the perturbed graph. | 翻訳日:2022-08-30 13:00:24 公開日:2022-08-26 |
# 協調型マルチエージェント強化学習のためのマルチモーダルベンチマークch-marl CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2208.13626v1 ) ライセンス: Link先を確認 | Vasu Sharma, Prasoon Goyal, Kaixiang Lin, Govind Thattai, Qiaozi Gao, Gaurav S. Sukhatme | (参考訳) 本稿では,協調型・不均一型マルチエージェント学習のためのマルチモーダル(視覚言語)ベンチマークを提案する。
本稿では,マルチルーム環境における複数ロボットの協調作業を伴うタスクを含むマルチモーダルデータセットのベンチマークについて紹介する。
我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。
本研究は,マルチエージェント学習性能に及ぼす異なるモダリティの影響について検討する。
また,エージェント間の単純なメッセージパッシング手法も導入する。
その結果,マルチモーダリティは,協調型マルチエージェント学習に特有の課題をもたらし,そのような環境でのマルチエージェント強化学習手法の進展の余地があることが示唆された。 We propose a multimodal (vision-and-language) benchmark for cooperative and heterogeneous multi-agent learning. We introduce a benchmark multimodal dataset with tasks involving collaboration between multiple simulated heterogeneous robots in a rich multi-room home environment. We provide an integrated learning framework, multimodal implementations of state-of-the-art multi-agent reinforcement learning techniques, and a consistent evaluation protocol. Our experiments investigate the impact of different modalities on multi-agent learning performance. We also introduce a simple message passing method between agents. The results suggest that multimodality introduces unique challenges for cooperative multi-agent learning and there is significant room for advancing multi-agent reinforcement learning methods in such settings. | 翻訳日:2022-08-30 12:56:19 公開日:2022-08-26 |
# エネルギーモデルを用いた自己学習型教師なしドメイン適応における擬似ラベルの制約 Constraining Pseudo-label in Self-training Unsupervised Domain Adaptation with Energy-based Model ( http://arxiv.org/abs/2208.12885v1 ) ライセンス: Link先を確認 | Lingsheng Kong, Bo Hu, Xiongchang Liu, Jun Lu, Jane You, Xiaofeng Liu | (参考訳) ディープラーニングは通常、データ飢えであり、ラベル付きソースドメインの知識をラベルなしターゲットドメインに導入するために、教師なしドメイン適応(uda)が開発されている。
近年, 深層自己学習は, 対象ドメインの予測を反復的に行い, 自信ある予測をハードな擬似ラベルとして再学習するUDAにとって重要な手段となっている。
しかし、擬似ラベルは通常信頼できないため、伝播エラーを伴う解が容易に導かれる。
本稿では, エネルギーに基づくモデルを用いて, エネルギー関数最小化を目的とし, ラベルなし対象試料の訓練を制約する。
単純な追加の正則化やエネルギーベースの損失によって達成できる。
このフレームワークは,プラグアンドプレイ方式に則って強力な識別性能を維持しつつ,エネルギーベースモデルの利点を得ることができる。
収束特性と分類期待最小化との関係について検討した。
画像分類の最もポピュラーで大規模なUDAベンチマークとセマンティックセグメンテーションに関する広範な実験を行い、その一般化と有効性を示す。 Deep learning is usually data starved, and the unsupervised domain adaptation (UDA) is developed to introduce the knowledge in the labeled source domain to the unlabeled target domain. Recently, deep self-training presents a powerful means for UDA, involving an iterative process of predicting the target domain and then taking the confident predictions as hard pseudo-labels for retraining. However, the pseudo-labels are usually unreliable, thus easily leading to deviated solutions with propagated errors. In this paper, we resort to the energy-based model and constrain the training of the unlabeled target sample with an energy function minimization objective. It can be achieved via a simple additional regularization or an energy-based loss. This framework allows us to gain the benefits of the energy-based model, while retaining strong discriminative performance following a plug-and-play fashion. The convergence property and its connection with classification expectation minimization are investigated. We deliver extensive experiments on the most popular and large-scale UDA benchmarks of image classification as well as semantic segmentation to demonstrate its generality and effectiveness. | 翻訳日:2022-08-30 12:56:06 公開日:2022-08-26 |
# NLP研究者は何を信じているのか?
NLPコミュニティメタサーベイの結果 What Do NLP Researchers Believe? Results of the NLP Community Metasurvey ( http://arxiv.org/abs/2208.12852v1 ) ライセンス: Link先を確認 | Julian Michael, Ari Holtzman, Alicia Parrish, Aaron Mueller, Alex Wang, Angelica Chen, Divyam Madaan, Nikita Nangia, Richard Yuanzhe Pang, Jason Phang, Samuel R. Bowman | (参考訳) NLP Community Metasurveyの結果を報告する。
2022年5月から6月にかけて行われた調査では、業界への影響、AGIへの懸念、倫理など、議論の的になっている問題について意見が分かれた。
例えば、回答者は、人工知能の重要性、言語モデルが言語を理解するかどうか、言語構造の必要性、NLP問題を解決するための帰納的バイアスについて、ほぼ半分に分けている。
さらに、調査はメタクエストを行い、回答者に調査回答の分布を予測するよう求めた。
これにより、NLP研究者が持つ信念のスペクトルについての洞察を得るだけでなく、コミュニティの予測が現実と一致しない誤った社会学的信念を明らかにすることができる。
幅広い問題について、このようなミスマッチが見つかります。
コミュニティは、言語構造、帰納的バイアス、学際科学の重要性に対する自身の信念を過小評価しながら、ベンチマークの有用性と現実世界の問題を解決するためのスケーリングの可能性に対する自身の信念を過大評価している。 We present the results of the NLP Community Metasurvey. Run from May to June 2022, the survey elicited opinions on controversial issues, including industry influence in the field, concerns about AGI, and ethics. Our results put concrete numbers to several controversies: For example, respondents are split almost exactly in half on questions about the importance of artificial general intelligence, whether language models understand language, and the necessity of linguistic structure and inductive bias for solving NLP problems. In addition, the survey posed meta-questions, asking respondents to predict the distribution of survey responses. This allows us not only to gain insight on the spectrum of beliefs held by NLP researchers, but also to uncover false sociological beliefs where the community's predictions don't match reality. We find such mismatches on a wide range of issues. Among other results, the community greatly overestimates its own belief in the usefulness of benchmarks and the potential for scaling to solve real-world problems, while underestimating its own belief in the importance of linguistic structure, inductive bias, and interdisciplinary science. | 翻訳日:2022-08-30 12:55:47 公開日:2022-08-26 |
# 共振器ネットワークを用いたニューロモルフィック視覚シーン理解 Neuromorphic Visual Scene Understanding with Resonator Networks ( http://arxiv.org/abs/2208.12880v1 ) ライセンス: Link先を確認 | Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, Bruno A. Olshausen, Yulia Sandamirskaya, Friedrich T. Sommer and E. Paxon Frady | (参考訳) オブジェクトの位置とその強固な変換を推測することは、視覚シーンの理解において依然としてオープンな問題である。
Here we propose a neuromorphic solution that utilizes an efficient factorization network which is based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued vector binding on neuromorphic hardware.
VSAフレームワークはベクトルバインディング操作を使用して、幾何学変換の同変演算としてバインドが作用する生成画像モデルを生成する。
したがって、シーンはベクトル積の和として記述でき、それによって共振器ネットワークによって効率的に分解されて物体とそのポーズを推測することができる。
HRNは、ベクトル結合が1つのパーティション内の水平および垂直の変換と、他のパーティション内の回転とスケーリングに等しくなる分割アーキテクチャの定義を可能にする。
スパイキングニューロンモデルは、共振器ネットワークを効率的で低電力のニューロモルフィックハードウェアにマッピングすることができる。
本研究では,立体幾何学的変換と色変化を行う単純な2次元形状からなる合成シーンを用いたアプローチを実証する。
機械ビジョンとロボット工学の現実的な応用シナリオにおいて、このアプローチを実証する。 Inferring the position of objects and their rigid transformations is still an open problem in visual scene understanding. Here we propose a neuromorphic solution that utilizes an efficient factorization network which is based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued vector binding on neuromorphic hardware. The VSA framework uses vector binding operations to produce generative image models in which binding acts as the equivariant operation for geometric transformations. A scene can therefore be described as a sum of vector products, which in turn can be efficiently factorized by a resonator network to infer objects and their poses. The HRN enables the definition of a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition, and for rotation and scaling within the other partition. The spiking neuron model allows to map the resonator network onto efficient and low-power neuromorphic hardware. In this work, we demonstrate our approach using synthetic scenes composed of simple 2D shapes undergoing rigid geometric transformations and color changes. A companion paper demonstrates this approach in real-world application scenarios for machine vision and robotics. | 翻訳日:2022-08-30 12:52:00 公開日:2022-08-26 |
# 抽出質問応答変換器を用いた実世界会話コーパスのインテント景観構築 Building the Intent Landscape of Real-World Conversational Corpora with Extractive Question-Answering Transformers ( http://arxiv.org/abs/2208.12886v1 ) ライセンス: Link先を確認 | Jean-Philippe Corbeil, Mia Taige Li, Hadi Abdi Ghavidel | (参考訳) カスタマーサービスを持つ企業にとって、会話データ内のマッピング意図は、自然言語理解(NLU)に基づいたアプリケーション構築に不可欠である。
それでも、騒々しいオンラインチャットや音声書き起こしから意図を収集する確立した自動化技術は存在しない。
単純なクラスタリングアプローチはインテントスパース対話には適していない。
そこで本研究では,現実世界の対話から意図や意図の分類を抽出する教師なしパイプラインを提案する。
パイプラインでは,抽出した質問応答エレクトラモデルを用いてインテントスパン候補をマイニングし,文埋め込みを利用して低レベル密度クラスタリングを行い,上位階層クラスタリングを行う。
本研究は,SQuAD2データセット上に微調整されたELECTRA大モデルによる対話理解の一般化能力を示すものである。
適切なプロンプト質問により、このモデルは意図に関する言語的検証率を85%以上達成する。
さらに、マルチドゴデータセットから平均94.3%のリコールで5つのドメインのインテントスキームを再構築した。 For companies with customer service, mapping intents inside their conversational data is crucial in building applications based on natural language understanding (NLU). Nevertheless, there is no established automated technique to gather the intents from noisy online chats or voice transcripts. Simple clustering approaches are not suited to intent-sparse dialogues. To solve this intent-landscape task, we propose an unsupervised pipeline that extracts the intents and the taxonomy of intents from real-world dialogues. Our pipeline mines intent-span candidates with an extractive Question-Answering Electra model and leverages sentence embeddings to apply a low-level density clustering followed by a top-level hierarchical clustering. Our results demonstrate the generalization ability of an ELECTRA large model fine-tuned on the SQuAD2 dataset to understand dialogues. With the right prompting question, this model achieves a rate of linguistic validation on intent spans beyond 85%. We furthermore reconstructed the intent schemes of five domains from the MultiDoGo dataset with an average recall of 94.3%. | 翻訳日:2022-08-30 12:49:45 公開日:2022-08-26 |
# 歌声スタイル変換のための対称畳み込み変圧器ネットワークの活用 Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style Transfer ( http://arxiv.org/abs/2208.12410v1 ) ライセンス: Link先を確認 | Shrutina Agarwal and Sriram Ganapathy and Naoya Takahashi | (参考訳) 本稿では,歌唱音声に対する音声のスタイル伝達を行うモデルを提案する。
高品質な歌唱テンプレートや音素同期を必要とする従来の信号処理に基づく手法とは対照的に,自然音声から歌声への変換問題に対するデータ駆動アプローチを検討する。
我々は、話者のアイデンティティと自然性を保ちながら、入力音声とターゲットメロディのアライメントをモデル化するSymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
提案するSymNetモデルは,畳み込み層,トランスフォーマー層,自己保持層という3種類の層からなる対称スタックで構成されている。
また, モデルトレーニングを容易にするため, 新規なデータ拡張法と生成損失アニール法についても検討した。
音声と歌声の並列データからなるnusとnhssデータセットについて実験を行った。
本研究では,提案したSymNetモデルにより,これまでに公表した手法やベースラインアーキテクチャに比べて,目的の再構築品質が大幅に向上することを示す。
さらに,提案手法を用いて得られた音声の質向上を主観的聴取テストにより確認する(ベースラインシステムに対する平均評価スコア測定における0.37の絶対改善)。 In this paper, we propose a model to perform style transfer of speech to singing voice. Contrary to the previous signal processing-based methods, which require high-quality singing templates or phoneme synchronization, we explore a data-driven approach for the problem of converting natural speech to singing voice. We develop a novel neural network architecture, called SymNet, which models the alignment of the input speech with the target melody while preserving the speaker identity and naturalness. The proposed SymNet model is comprised of symmetrical stack of three types of layers - convolutional, transformer, and self-attention layers. The paper also explores novel data augmentation and generative loss annealing methods to facilitate the model training. Experiments are performed on the NUS and NHSS datasets which consist of parallel data of speech and singing voice. In these experiments, we show that the proposed SymNet model improves the objective reconstruction quality significantly over the previously published methods and baseline architectures. Further, a subjective listening test confirms the improved quality of the audio obtained using the proposed approach (absolute improvement of 0.37 in mean opinion score measure over the baseline system). | 翻訳日:2022-08-29 13:41:04 公開日:2022-08-26 |
# まだあなただとわかってる!
ソースコードの匿名化の課題 I still know it's you! On Challenges in Anonymizing Source Code ( http://arxiv.org/abs/2208.12553v1 ) ライセンス: Link先を確認 | Micha Horlboge, Erwin Quiring, Roland Meyer, Konrad Rieck | (参考訳) プログラムのソースコードはその意味論を定義するだけでなく、著者を識別できる微妙な手がかりも含んでいる。
いくつかの研究によると、これらのヒントは機械学習を使って自動的に抽出され、数百人のプログラマの間でプログラムの作者を決定することができる。
この帰属は、検閲やプライバシー強化技術が特定可能になり、起訴される可能性があるため、開発者にとって大きな脅威となる。
この脅威から理想的な保護は、ソースコードの匿名化である。
しかし、このような匿名化の理論的・実践的な原則はこれまでにも検討されていない。
本稿では,この問題に取り組み,コードの匿名化を推論するためのフレームワークを開発する。
私たちは、$k$の匿名のプログラムを生成するというタスクは、$k$の著者の1つに起因しないプログラムであり、計算不可能であり、したがって研究の行き詰まりであると証明する。
対策として、開発者の保護を測定するために、$k$-uncertaintyという緩和された概念を紹介します。
この概念に基づいて,コード正規化やコーディングスタイルの模倣,コードの難読化など,匿名化の候補手法を実証的に研究する。
攻撃者が匿名化に気付くと、いずれの手法も十分な保護を提供しないことがわかった。
コードから残りの手がかりを取り除くためのアプローチを導入する一方で、私たちの仕事の主な結果は否定的です。 The source code of a program not only defines its semantics but also contains subtle clues that can identify its author. Several studies have shown that these clues can be automatically extracted using machine learning and allow for determining a program's author among hundreds of programmers. This attribution poses a significant threat to developers of anti-censorship and privacy-enhancing technologies, as they become identifiable and may be prosecuted. An ideal protection from this threat would be the anonymization of source code. However, neither theoretical nor practical principles of such an anonymization have been explored so far. In this paper, we tackle this problem and develop a framework for reasoning about code anonymization. We prove that the task of generating a $k$-anonymous program -- a program that cannot be attributed to one of $k$ authors -- is not computable and thus a dead end for research. As a remedy, we introduce a relaxed concept called $k$-uncertainty, which enables us to measure the protection of developers. Based on this concept, we empirically study candidate techniques for anonymization, such as code normalization, coding style imitation, and code obfuscation. We find that none of the techniques provides sufficient protection when the attacker is aware of the anonymization. While we introduce an approach for removing remaining clues from the code, the main result of our work is negative: Anonymization of source code is a hard and open problem. | 翻訳日:2022-08-29 13:40:44 公開日:2022-08-26 |
# 社会的に公正な強化学習 Socially Fair Reinforcement Learning ( http://arxiv.org/abs/2208.12584v1 ) ライセンス: Link先を確認 | Debmalya Mandal, and Jiarui Gan | (参考訳) 我々は,報奨機能が異なる複数の利害関係者が存在するエピソディクス強化学習の問題を考える。
私たちのゴールは、異なる報酬関数に関して社会的に公平なポリシーを出力することです。
先行研究は、公平な政策は最小の福祉、一般化されたジニ福祉を含め、最適化しなければならないという異なる目的を提案してきた。
まず、この問題の公理的見解を取り、そのような公正な目的が満たさなければならない4つの公理を提案する。
ナッシュ社会福祉は4つの目的すべてに一意に満足するユニークな目的であるが、先行する目的は4つの公理をすべて満たさない。
次に、基礎となるモデル、すなわちマルコフ決定プロセスが不明な問題の学習バージョンを検討する。
最低限の福祉、一般的なジニ福祉、ナッシュ社会福祉という3つの公平な目的を最大化する公正な政策に関して、後悔を最小化する問題を考える。
楽観的計画に基づいて, 汎用学習アルゴリズムを提案し, その後悔を3つの異なる方針に限定して導出する。
ナッシュ社会福祉の目的のために、我々はまた、エージェント数である$n$で指数関数的に増加する後悔の少ない限界を導き出す。
最後に、最小限の福祉の目的のために、後悔の弱い概念のために、$O(H)$で後悔を改善することができることを示す。 We consider the problem of episodic reinforcement learning where there are multiple stakeholders with different reward functions. Our goal is to output a policy that is socially fair with respect to different reward functions. Prior works have proposed different objectives that a fair policy must optimize including minimum welfare, and generalized Gini welfare. We first take an axiomatic view of the problem, and propose four axioms that any such fair objective must satisfy. We show that the Nash social welfare is the unique objective that uniquely satisfies all four objectives, whereas prior objectives fail to satisfy all four axioms. We then consider the learning version of the problem where the underlying model i.e. Markov decision process is unknown. We consider the problem of minimizing regret with respect to the fair policies maximizing three different fair objectives -- minimum welfare, generalized Gini welfare, and Nash social welfare. Based on optimistic planning, we propose a generic learning algorithm and derive its regret bound with respect to the three different policies. For the objective of Nash social welfare, we also derive a lower bound in regret that grows exponentially with $n$, the number of agents. Finally, we show that for the objective of minimum welfare, one can improve regret by a factor of $O(H)$ for a weaker notion of regret. | 翻訳日:2022-08-29 13:40:25 公開日:2022-08-26 |
# CodeBERTにおけるコードクローン検出の一般化可能性 Generalizability of Code Clone Detection on CodeBERT ( http://arxiv.org/abs/2208.12588v1 ) ライセンス: Link先を確認 | Tim Sonnekalb, Bernd Gruner, Clemens-Alexander Brust, Patrick M\"ader | (参考訳) CodeBERTのようなトランスフォーマーネットワークは、ベンチマークデータセットでコードクローン検出の優れた結果をすでに達成しているため、このタスクはすでに解決済みであると仮定できる。
しかし、コードクローン検出は簡単な作業ではない。
特にセマンティックコードクローンは検出が難しい。
我々は、BigCloneBenchからJavaコードクローンの2つの異なるサブセットを評価することで、CodeBERTの一般化性が低下することを示す。
モデル構築に使用するものと異なるコードスニペットと機能IDを評価すると、F1スコアが大幅に低下するのがわかります。 Transformer networks such as CodeBERT already achieve outstanding results for code clone detection in benchmark datasets, so one could assume that this task has already been solved. However, code clone detection is not a trivial task. Semantic code clones, in particular, are challenging to detect. We show that the generalizability of CodeBERT decreases by evaluating two different subsets of Java code clones from BigCloneBench. We observe a significant drop in F1 score when we evaluate different code snippets and functionality IDs than those used for model building. | 翻訳日:2022-08-29 13:40:04 公開日:2022-08-26 |
# 財務会計監査における会計データのフェデレーションとプライバシ保護 Federated and Privacy-Preserving Learning of Accounting Data in Financial Statement Audits ( http://arxiv.org/abs/2208.12708v1 ) ライセンス: Link先を確認 | Marco Schreyer, Timur Sattarov, Damian Borth | (参考訳) 進行中の「デジタルトランスフォーメーション」は、監査証拠の性質、記録、ボリュームを根本的に変える。
今日では、国際監査基準(ISA)は、監査人が財務諸表の基盤となるデジタル会計記録の膨大な量を調べることを要求している。
その結果、監査会社は分析能力を「デジタル化」し、機械学習のサブ分野であるディープラーニング(DL)に投資した。
dlの応用は、例えば同じ業界や管轄区域で活動している組織など、複数のクライアントのデータから専門的な監査モデルを学習する機能を提供する。
一般に、規制は監査人に厳格なデータ機密性措置を遵守するよう要求する。
同時に、近年の興味深い発見は、大規模DLモデルが機密データ情報の漏洩に弱いことを示している。
今日では、監査会社がデータ保護規則に準拠しながらdlモデルをどのように適用できるかは不明のままである。
本研究では,複数のクライアントの関連会計データを監査するdlモデルをトレーニングするためのフェデレーション学習フレームワークを提案する。
このフレームワークは差分プライバシーと分割学習機能を包含し、モデル推論におけるデータの機密性リスクを軽減する。
都市支払いの3つの実世界のデータセットにおける会計異常の検出手法を評価した。
この結果から,複数のクライアントデータソースからの知識を蓄積するDLモデルの恩恵を受けることができるという実証的証拠が得られた。 The ongoing 'digital transformation' fundamentally changes audit evidence's nature, recording, and volume. Nowadays, the International Standards on Auditing (ISA) requires auditors to examine vast volumes of a financial statement's underlying digital accounting records. As a result, audit firms also 'digitize' their analytical capabilities and invest in Deep Learning (DL), a successful sub-discipline of Machine Learning. The application of DL offers the ability to learn specialized audit models from data of multiple clients, e.g., organizations operating in the same industry or jurisdiction. In general, regulations require auditors to adhere to strict data confidentiality measures. At the same time, recent intriguing discoveries showed that large-scale DL models are vulnerable to leaking sensitive training data information. Today, it often remains unclear how audit firms can apply DL models while complying with data protection regulations. In this work, we propose a Federated Learning framework to train DL models on auditing relevant accounting data of multiple clients. The framework encompasses Differential Privacy and Split Learning capabilities to mitigate data confidentiality risks at model inference. We evaluate our approach to detect accounting anomalies in three real-world datasets of city payments. Our results provide empirical evidence that auditors can benefit from DL models that accumulate knowledge from multiple sources of proprietary client data. | 翻訳日:2022-08-29 13:39:55 公開日:2022-08-26 |
# 安定ピッチによるメル分光インバージョン Mel Spectrogram Inversion with Stable Pitch ( http://arxiv.org/abs/2208.12782v1 ) ライセンス: Link先を確認 | Bruno Di Giorgi, Mark Levy, Richard Sharp | (参考訳) ボコーダ(vocoder)は、オーディオ信号(通常はメル分光図)の低次元のスペクトル表現を波形に変換することのできるモデルである。
現代の音声生成パイプラインは、最終コンポーネントとしてvocoderを使用する。
近年,音声のために開発されたボコーダモデルは,音楽信号に対してどのように振る舞うのか疑問に思うほど,高いリアリズムを実現している。
音声と比較して、音質の不均一性と構造は新たな課題をもたらす。
本研究は,持続音符を合成する際のピッチの不安定性を知覚する,音声用に設計されたボコーダモデルが音楽に適用される傾向にある,特定のアーチファクトに焦点をあてる。
このアーチファクトの特徴音は水平位相コヒーレンスの欠如によるもので、畳み込みニューラルネットワークのような時間シフトに不変なモデルで時間領域のターゲット空間を使用することによって生じることが多い。
我々は音楽専用に設計された新しいvocoderモデルを提案する。
ピッチ安定性を改善する鍵となるのは、大きさスペクトルと位相勾配からなるシフト不変なターゲット空間を選択することである。
本稿では,Vocoderタスクを再フォーマットし,動作例を概説し,音楽信号で評価するきっかけとなった理由について論じる。
提案手法は,既存のモデルに対する持続音符と和音の再構成を,新しい高調波誤差計量を用いて60%および10%改善する。 Vocoders are models capable of transforming a low-dimensional spectral representation of an audio signal, typically the mel spectrogram, to a waveform. Modern speech generation pipelines use a vocoder as their final component. Recent vocoder models developed for speech achieve a high degree of realism, such that it is natural to wonder how they would perform on music signals. Compared to speech, the heterogeneity and structure of the musical sound texture offers new challenges. In this work we focus on one specific artifact that some vocoder models designed for speech tend to exhibit when applied to music: the perceived instability of pitch when synthesizing sustained notes. We argue that the characteristic sound of this artifact is due to the lack of horizontal phase coherence, which is often the result of using a time-domain target space with a model that is invariant to time-shifts, such as a convolutional neural network. We propose a new vocoder model that is specifically designed for music. Key to improving the pitch stability is the choice of a shift-invariant target space that consists of the magnitude spectrum and the phase gradient. We discuss the reasons that inspired us to re-formulate the vocoder task, outline a working example, and evaluate it on musical signals. Our method results in 60% and 10% improved reconstruction of sustained notes and chords with respect to existing models, using a novel harmonic error metric. | 翻訳日:2022-08-29 13:39:34 公開日:2022-08-26 |
# BITS:交通シミュレーションのための双方向シミュレーション BITS: Bi-level Imitation for Traffic Simulation ( http://arxiv.org/abs/2208.12403v1 ) ライセンス: Link先を確認 | Danfei Xu, Yuxiao Chen, Boris Ivanovic, Marco Pavone | (参考訳) シミュレーションは、自動運転車のようなロボットシステムの検証と検証をスケールアップする鍵となる。
高忠実度物理とセンサシミュレーションの進歩にもかかわらず、道路利用者の現実的な振る舞いをシミュレートする上で重要なギャップが残っている。
これは、物理やグラフィックスをシミュレートするのとは異なり、人間のような行動の第一原理モデルを考案することは一般的に不可能であるからである。
本研究では,実世界の運転ログからトラヒック挙動を学習する手法を提案する。
トラヒックシミュレーション問題をハイレベルインテント推論と低レベル運転行動模倣に分離することにより、運転行動のバイレベル階層を活用し、高いサンプル効率と行動多様性を実現する。
この方法は、安定したロングホリゾン挙動を得るために計画モジュールも組み込んでいる。
BITS(Bi-level Imitation for Traffic Simulation, Bi-level Imitation for Traffic Simulation, BITS)と呼ばれる手法を実証的に検証し, BITSが現実性, 多様性, 長期安定性においてバランスの取れた交通シミュレーション性能を達成することを示す。
また,行動リアリズムの評価方法を検討し,トラヒックシミュレーションのための評価指標のスイートを紹介する。
最後に、コアコントリビューションの一環として、さまざまな駆動データセットにまたがるデータフォーマットを統合し、既存のデータセットのシーンをインタラクティブなシミュレーション環境に変換するソフトウェアツールを開発し、オープンソース化しています。
詳細はhttps://sites.google.com/view/nvr-bits2022/homeを参照。 Simulation is the key to scaling up validation and verification for robotic systems such as autonomous vehicles. Despite advances in high-fidelity physics and sensor simulation, a critical gap remains in simulating realistic behaviors of road users. This is because, unlike simulating physics and graphics, devising first principle models for human-like behaviors is generally infeasible. In this work, we take a data-driven approach and propose a method that can learn to generate traffic behaviors from real-world driving logs. The method achieves high sample efficiency and behavior diversity by exploiting the bi-level hierarchy of driving behaviors by decoupling the traffic simulation problem into high-level intent inference and low-level driving behavior imitation. The method also incorporates a planning module to obtain stable long-horizon behaviors. We empirically validate our method, named Bi-level Imitation for Traffic Simulation (BITS), with scenarios from two large-scale driving datasets and show that BITS achieves balanced traffic simulation performance in realism, diversity, and long-horizon stability. We also explore ways to evaluate behavior realism and introduce a suite of evaluation metrics for traffic simulation. Finally, as part of our core contributions, we develop and open source a software tool that unifies data formats across different driving datasets and converts scenes from existing datasets into interactive simulation environments. For additional information and videos, see https://sites.google.com/view/nvr-bits2022/home | 翻訳日:2022-08-29 13:38:05 公開日:2022-08-26 |
# ファースト、ミドル、ラストネームの人種と民族のデータ Race and ethnicity data for first, middle, and last names ( http://arxiv.org/abs/2208.12443v1 ) ライセンス: Link先を確認 | Evan T. R. Rosenman, Santiago Olivella, and Kosuke Imai | (参考訳) 例えば、ベイジアン改良サーネームジオコーディング(BISG)を用いて、人種や民族を宣伝する目的で、第1、第2、第2、第2、第2の辞書をまとめてまとめる。
辞書は、有権者登録時に自己申告した人種データを収集する南部6州の投票者ファイルに基づいている。
私たちのデータは、ほぼ100万のファーストネーム、11万のミドルネーム、140万の姓を含む、同等のデータセットよりもはるかに広い範囲をカバーしています。
個人は、白人、黒人、ヒスパニック系、アジア系、その他の5つの排他的な人種的・民族的グループに分類され、それぞれの辞書のすべての名前に人種的・民族的カウントが与えられる。
カウントは、与えられた名前や名前の条件付き確率を得るために、行または列ごとに正規化することができる。
これらの条件付き確率は、基礎的真理の人種的および民族的データが利用できないデータ分析タスクにインプテーションとしてデプロイすることができる。 We provide the largest compiled publicly available dictionaries of first, middle, and last names for the purpose of imputing race and ethnicity using, for example, Bayesian Improved Surname Geocoding (BISG). The dictionaries are based on the voter files of six Southern states that collect self-reported racial data upon voter registration. Our data cover a much larger scope of names than any comparable dataset, containing roughly one million first names, 1.1 million middle names, and 1.4 million surnames. Individuals are categorized into five mutually exclusive racial and ethnic groups -- White, Black, Hispanic, Asian, and Other -- and racial/ethnic counts by name are provided for every name in each dictionary. Counts can then be normalized row-wise or column-wise to obtain conditional probabilities of race given name or name given race. These conditional probabilities can then be deployed for imputation in a data analytic task for which ground truth racial and ethnic data is not available. | 翻訳日:2022-08-29 13:37:40 公開日:2022-08-26 |
# 教師なしネットワークアライメントのための高次位相整合性を目指して Towards Higher-order Topological Consistency for Unsupervised Network Alignment ( http://arxiv.org/abs/2208.12463v1 ) ライセンス: Link先を確認 | Qingqiang Sun, Xuemin Lin, Ying Zhang, Wenjie Zhang, Chaoqi Chen | (参考訳) ネットワークアライメントタスクは、異なるネットワーク内の対応するノードを識別することを目的としており、その後の多くのアプリケーションにとって非常に重要である。
ラベル付きアンカーリンクを必要としないため、教師なしアライメント手法はますます注目を集めている。
しかし、既存の方法によって定義される位相的一貫性の仮定は一般に低次であり、エッジ非差別的位相的パターンのみが考慮されるため正確ではない。
本稿では,低次から高次のトポロジカル整合性へのアライメントプロセスの焦点を再配置するために,HTC というネットワークアライメントフレームワークを提案する。
提案する高階位相整合性は、エッジ軌道に基づいて定式化され、グラフ畳み込みネットワークの情報集約プロセスにマージされ、アライメント構成がノード埋め込みの類似性に変換される。
さらに、エンコーダはマルチビット対応に訓練され、さらに信頼性の高いアンカーリンクを特定するように洗練される。
ノード対応は、すべての異なる一貫性の順序を統合することで包括的に評価される。
2) 音理論解析に加えて, 実験により提案手法の優位性を実証的に評価した。
3組の現実世界のデータセットと2組の合成データセットで、HTCは最小または同等の時間消費で、さまざまな教師なしおよび教師なしの手法を一貫して上回っている。
また,マルチ軌道アウェアトレーニング機構の結果として,構造雑音に対するロバスト性を示す。 Network alignment task, which aims to identify corresponding nodes in different networks, is of great significance for many subsequent applications. Without the need for labeled anchor links, unsupervised alignment methods have been attracting more and more attention. However, the topological consistency assumptions defined by existing methods are generally low-order and less accurate because only the edge-indiscriminative topological pattern is considered, which is especially risky in an unsupervised setting. To reposition the focus of the alignment process from low-order to higher-order topological consistency, in this paper, we propose a fully unsupervised network alignment framework named HTC. The proposed higher-order topological consistency is formulated based on edge orbits, which is merged into the information aggregation process of a graph convolutional network so that the alignment consistencies are transformed into the similarity of node embeddings. Furthermore, the encoder is trained to be multi-orbit-aware and then be refined to identify more trusted anchor links. Node correspondence is comprehensively evaluated by integrating all different orders of consistency. {In addition to sound theoretical analysis, the superiority of the proposed method is also empirically demonstrated through extensive experimental evaluation. On three pairs of real-world datasets and two pairs of synthetic datasets, our HTC consistently outperforms a wide variety of unsupervised and supervised methods with the least or comparable time consumption. It also exhibits robustness to structural noise as a result of our multi-orbit-aware training mechanism. | 翻訳日:2022-08-29 13:37:17 公開日:2022-08-26 |
# 本質的に解釈可能な最適化モデルのためのフレームワーク A Framework for Inherently Interpretable Optimization Models ( http://arxiv.org/abs/2208.12570v1 ) ライセンス: Link先を確認 | Marc Goerigk and Michael Hartisch | (参考訳) 最適化ソフトウェアの劇的な改善により、何十年も前に難解だった大規模な問題の解決は、今や日常的な課題となっている。
これにより、より現実世界のアプリケーションがオプティマイザのリーチに入ります。
同時に、最適化問題の解決は、しばしば、ソリューションを実践する際のより小さな困難の1つだと判明する。
ひとつの大きな障壁は、最適化ソフトウェアがブラックボックスとして認識され、高品質のソリューションを生み出すが、状況が変化して最適化されたソリューションが受け入れられなくなると、まったく異なるソリューションを作ることができることである。
このような解釈可能性と説明可能性の問題は、機械学習など他の分野でも注目されているが、最適化ではそれほど注目されていない。
本稿では,解を選択すべき状況において,解を本質的に理解し易い説明規則で導出する最適化手法を提案する。
説明規則を表す決定木に着目し,整数型プログラミングの定式化と,大規模問題に対しても適用性を確保するヒューリスティックな手法を提案する。
ランダムおよび実世界のデータを用いた計算実験は、固有の解釈可能性のコストが非常に小さいことを示している。 With dramatic improvements in optimization software, the solution of large-scale problems that seemed intractable decades ago are now a routine task. This puts even more real-world applications into the reach of optimizers. At the same time, solving optimization problems often turns out to be one of the smaller difficulties when putting solutions into practice. One major barrier is that the optimization software can be perceived as a black box, which may produce solutions of high quality, but can create completely different solutions when circumstances change leading to low acceptance of optimized solutions. Such issues of interpretability and explainability have seen significant attention in other areas, such as machine learning, but less so in optimization. In this paper we propose an optimization framework to derive solutions that inherently come with an easily comprehensible explanatory rule, under which circumstances which solution should be chosen. Focussing on decision trees to represent explanatory rules, we propose integer programming formulations as well as a heuristic method that ensure applicability of our approach even for large-scale problems. Computational experiments using random and real-world data indicate that the costs of inherent interpretability can be very small. | 翻訳日:2022-08-29 13:36:54 公開日:2022-08-26 |
# LUCID:逆設計によるアルゴリズムバイアスの抽出 LUCID: Exposing Algorithmic Bias through Inverse Design ( http://arxiv.org/abs/2208.12786v1 ) ライセンス: Link先を確認 | Carmen Mazijn, Carina Prunkl, Andres Algaba, Jan Danckaert, Vincent Ginis | (参考訳) AIシステムは意思決定プロセスのバイアスを作成し、伝播し、サポートし、自動化することができる。
バイアスのある決定を緩和するためには、偏見の起源を理解し、公正な決定を行うアルゴリズムの意味を定義する必要があります。
ほとんどの群フェアネスの概念は、出力の統計メトリクスを計算することによって、モデルの結果の平等を評価する。
これらのアウトプット指標は本質的な障害に遭遇し,治療の平等に焦点を合わせた補完的アプローチを提案する。
標準逆設計(LUCID)による不公平な位置決めにより、好ましい出力を与えられたモデルに対して所望の入力を示す正準集合を生成する。
標準セットはモデルの内部論理を明らかにし、意思決定プロセスを繰り返し尋問することで潜在的な非倫理バイアスを露呈する。
UCIアダルトデータセットとCompASデータセット上でLUCIDを評価し,標準セットで検出されたバイアスが出力指標と異なることを発見した。
その結果, 治療の平等に焦点を移し, アルゴリズムの内部動作を考察することで, 正準集合はアルゴリズム的公平性評価のツールボックスに価値ある付加物であることがわかった。 AI systems can create, propagate, support, and automate bias in decision-making processes. To mitigate biased decisions, we both need to understand the origin of the bias and define what it means for an algorithm to make fair decisions. Most group fairness notions assess a model's equality of outcome by computing statistical metrics on the outputs. We argue that these output metrics encounter intrinsic obstacles and present a complementary approach that aligns with the increasing focus on equality of treatment. By Locating Unfairness through Canonical Inverse Design (LUCID), we generate a canonical set that shows the desired inputs for a model given a preferred output. The canonical set reveals the model's internal logic and exposes potential unethical biases by repeatedly interrogating the decision-making process. We evaluate LUCID on the UCI Adult and COMPAS data sets and find that some biases detected by a canonical set differ from those of output metrics. The results show that by shifting the focus towards equality of treatment and looking into the algorithm's internal workings, the canonical sets are a valuable addition to the toolbox of algorithmic fairness evaluation. | 翻訳日:2022-08-29 13:35:58 公開日:2022-08-26 |
# マルチスケールアーキテクチャが重要:フローベースロスレス圧縮の逆ロバスト性について Multi-Scale Architectures Matter: On the Adversarial Robustness of Flow-based Lossless Compression ( http://arxiv.org/abs/2208.12716v1 ) ライセンス: Link先を確認 | Yi-chong Xia, Bin Chen, Yan Feng, Tian-shuo Ge | (参考訳) 確率論的モデリング手法として、フローベースモデルは損失のない圧縮 \cite{idf,idf++,lbb,ivpf,iflow} の分野で顕著なポテンシャルを示した。
他の深層生成モデル (Autoregressive, VAEs) \cite{bitswap,hilloc,pixelcnn++,pixelsnail} と比較して、フローベースモデルは、優れた確率密度推定と良好な推論速度のために、データ分散確率を明示的にモデル化する。
フローベースモデルにおいて、マルチスケールアーキテクチャは、浅い層から出力層へのショートカットを提供する。
これは、高度なフローベースの学習可能なビジェクティブマッピングを構築するために不可欠である。
さらに, 実用圧縮タスクにおけるモデル設計の軽量要件は, 符号化複雑性と圧縮効率の最良のトレードオフを実現することを示唆している。 As a probabilistic modeling technique, the flow-based model has demonstrated remarkable potential in the field of lossless compression \cite{idf,idf++,lbb,ivpf,iflow},. Compared with other deep generative models (eg. Autoregressive, VAEs) \cite{bitswap,hilloc,pixelcnn++,pixelsnail} that explicitly model the data distribution probabilities, flow-based models perform better due to their excellent probability density estimation and satisfactory inference speed. In flow-based models, multi-scale architecture provides a shortcut from the shallow layer to the output layer, which significantly reduces the computational complexity and avoid performance degradation when adding more layers. This is essential for constructing an advanced flow-based learnable bijective mapping. Furthermore, the lightweight requirement of the model design in practical compression tasks suggests that flows with multi-scale architecture achieve the best trade-off between coding complexity and compression efficiency. | 翻訳日:2022-08-29 13:35:25 公開日:2022-08-26 |
# 生成モデルによる音楽分離の強化 Music Separation Enhancement with Generative Modeling ( http://arxiv.org/abs/2208.12387v1 ) ライセンス: Link先を確認 | Noah Schaffer, Boaz Cogan, Ethan Manilow, Max Morrison, Prem Seetharaman, and Bryan Pardo | (参考訳) 近年の驚異的な進歩にもかかわらず、最先端の音楽分離システムは、余分なノイズの追加や高調波の除去など、かなりの知覚上の欠点を伴う音源推定を生成する。
本稿では,音源分離システムの出力向上を目的とした後処理モデル (Make It Sound Good (MSG) ポストプロセッサ) を提案する。
この後処理モデルを,MSGのトレーニング中に見つからないセパレータを含む,最先端の波形ベースおよびスペクトログラムベース音楽ソースセパレータに適用する。
音源分離器による誤差の解析により、波形モデルではより高周波ノイズが生じる傾向がみられ、スペクトログラムモデルでは過渡性と高周波成分が失われる傾向が見られた。
両エラーの定量化のための客観的尺度を導入し,MSGが両エラーのソース再構成を改善することを示す。
クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。 Despite phenomenal progress in recent years, state-of-the-art music separation systems produce source estimates with significant perceptual shortcomings, such as adding extraneous noise or removing harmonics. We propose a post-processing model (the Make it Sound Good (MSG) post-processor) to enhance the output of music source separation systems. We apply our post-processing model to state-of-the-art waveform-based and spectrogram-based music source separators, including a separator unseen by MSG during training. Our analysis of the errors produced by source separators shows that waveform models tend to introduce more high-frequency noise, while spectrogram models tend to lose transients and high frequency content. We introduce objective measures to quantify both kinds of errors and show MSG improves the source reconstruction of both kinds of errors. Crowdsourced subjective evaluations demonstrate that human listeners prefer source estimates of bass and drums that have been post-processed by MSG. | 翻訳日:2022-08-29 13:34:44 公開日:2022-08-26 |
# 隣接点注意による効率的なLiDAR点雲形状圧縮 Efficient LiDAR Point Cloud Geometry Compression Through Neighborhood Point Attention ( http://arxiv.org/abs/2208.12573v1 ) ライセンス: Link先を確認 | Ruixiang Xue, Jianqiang Wang, Zhan Ma | (参考訳) マルチスケールスパーステンソルの畳み込み表現は、高密度物体点雲の幾何成分の圧縮の占有確率を正確にモデル化する上で優れた効率を示したが、スパースLiDAR点雲幾何(PCG)の表現能力は大きく制限された。
これは
1) 畳み込みの固定受容場は、極端に均一に分散したスパースLiDAR点を非常に特徴付けることができない。
2) 固定重み付き事前訓練した畳み込みは, 入力に条件付けられた情報を動的に捉えるには不十分である。
そこで本研究は,k-nearly neighbors (knn) を用いて適応型局所的近傍を構築し,その近傍の情報を動的に集約するセルフ・アテンション機構を活用した,近傍点注意 (npa) に取り組むことを示唆する。
このようなNPAは、幾何学的占有確率推定のためのクロススケールおよび等スケール相関を最大限に活用するために、NPAFormerとして考案されている。
標準G-PCCを用いたアンカーと比較して,損失圧縮では17%のBDレートゲイン,セマンティックKITTIとFordデータセットでは人気のあるLiDAR点雲を用いて14%のビットレート削減を実現している。
注意を最適化したoctreeコーディング手法を用いたsota(state-of-the-art)ソリューションと比較すると,本手法では,平均640倍の高速化を実現するとともに,圧縮効率も向上する。 Although convolutional representation of multiscale sparse tensor demonstrated its superior efficiency to accurately model the occupancy probability for the compression of geometry component of dense object point clouds, its capacity for representing sparse LiDAR point cloud geometry (PCG) was largely limited. This is because 1) fixed receptive field of the convolution cannot characterize extremely and unevenly distributed sparse LiDAR points very well; and 2) pretrained convolutions with fixed weights are insufficient to dynamically capture information conditioned on the input. This work therefore suggests the neighborhood point attention (NPA) to tackle them, where we first use k nearest neighbors (kNN) to construct adaptive local neighborhood; and then leverage the self-attention mechanism to dynamically aggregate information within this neighborhood. Such NPA is devised as a NPAFormer to best exploit cross-scale and same-scale correlations for geometric occupancy probability estimation. Compared with the anchor using standardized G-PCC, our method provides >17% BD-rate gains for lossy compression, and >14% bitrate reduction for lossless scenario using popular LiDAR point clouds in SemanticKITTI and Ford datasets. Compared with the state-of-the-art (SOTA) solution using attention optimized octree coding method, our approach requires much less decoding runtime with about 640 times speedup on average, while still presenting better compression efficiency. | 翻訳日:2022-08-29 13:31:58 公開日:2022-08-26 |
# 高速自己微分可能デジタル再構成ラジオグラフィーによる術中画像診断における逆問題の解決 Fast Auto-Differentiable Digitally Reconstructed Radiographs for Solving Inverse Problems in Intraoperative Imaging ( http://arxiv.org/abs/2208.12737v1 ) ライセンス: Link先を確認 | Vivek Gopalakrishnan and Polina Golland | (参考訳) スライス・ツー・ボリュームの登録や3D再構成といった逆問題に対するデジタル再構成ラジオグラフィ(DRR)の使用は、術前設定でよく研究されている。
術中画像におけるDRRの有用性は、DRR合成の繰り返しに依存する最適化手順をリアルタイムで生成する際の課題によって制限される。
アルゴリズムの改良とGPU実装によってDRRの生成を加速する大きな進歩があったが、ほとんどのDRRジェネレータは画像パラメータに関して勾配を得る簡単な方法を提供していないため、DRRベースの最適化は遅いままである。
勾配に基づく最適化とディープラーニングフレームワークとの相互運用を実現するため,DRR生成に最もよく用いられるレイトレーシングアルゴリズムであるSiddonの手法をベクトル化テンソル演算のシリーズとして改訂した。
我々はこのベクトル化バージョンのsiddon法をpytorchに実装し,ライブラリの強力な自動微分エンジンを利用して,dr生成器をパラメータに対して完全に微分可能とした。
さらに,GPU高速化テンソル計算を用いることで,CUDAやC++で実装された最先端DRRジェネレータと同等のレンダリング速度を実現することができる。
提案手法は,スライス・ツー・ボリューム登録の文脈で述べる。
さらに,スライスからボリュームへの登録問題に対するロスランドスケープは,最適解近傍で凸であり,勾配に基づく登録は,従来の勾配なし最適化手法よりもはるかに高速に解決できることを示す。
提案したDRRジェネレータは、高速コンピュータビジョンアルゴリズムにより、最小侵襲の手順で画像誘導をサポートすることができる。
実装はhttps://github.com/v715/diffdrrで公開しています。 The use of digitally reconstructed radiographs (DRRs) to solve inverse problems such as slice-to-volume registration and 3D reconstruction is well-studied in preoperative settings. In intraoperative imaging, the utility of DRRs is limited by the challenges in generating them in real-time and supporting optimization procedures that rely on repeated DRR synthesis. While immense progress has been made in accelerating the generation of DRRs through algorithmic refinements and GPU implementations, DRR-based optimization remains slow because most DRR generators do not offer a straightforward way to obtain gradients with respect to the imaging parameters. To make DRRs interoperable with gradient-based optimization and deep learning frameworks, we have reformulated Siddon's method, the most popular ray-tracing algorithm used in DRR generation, as a series of vectorized tensor operations. We implemented this vectorized version of Siddon's method in PyTorch, taking advantage of the library's strong automatic differentiation engine to make this DRR generator fully differentiable with respect to its parameters. Additionally, using GPU-accelerated tensor computation enables our vectorized implementation to achieve rendering speeds equivalent to state-of-the-art DRR generators implemented in CUDA and C++. We illustrate the resulting method in the context of slice-to-volume registration. Moreover, our simulations suggest that the loss landscapes for the slice-to-volume registration problem are convex in the neighborhood of the optimal solution, and gradient-based registration promises a much faster solution than prevailing gradient-free optimization strategies. The proposed DRR generator enables fast computer vision algorithms to support image guidance in minimally invasive procedures. Our implementation is publically available at https://github.com/v715/DiffDRR. | 翻訳日:2022-08-29 13:31:20 公開日:2022-08-26 |
# 合成データを活用した映像安定化 Leveraging Synthetic Data to Learn Video Stabilization Under Adverse Conditions ( http://arxiv.org/abs/2208.12763v1 ) ライセンス: Link先を確認 | Abdulrahman Kerim, Washington L. S. Ramos, Leandro Soriano Marcolino, Erickson R. Nascimento, Richard Jiang | (参考訳) ビデオの安定化は、ビデオの品質向上に重要な役割を果たす。
しかし、これらの方法によるかなりの進歩にもかかわらず、主に標準の気象条件と照明条件下で試験され、悪条件下では性能が悪くなる可能性がある。
本稿では,実データを必要とせず,合成データのみに基づいて学習できる映像安定化のための合成・認識型悪天候ロバストアルゴリズムを提案する。
また,新しいレンダリングエンジンであるsilverについて紹介する。
提案手法では,アフィン変換行列推定器の学習に,既存の手法が直面する特徴抽出の問題を回避するために,特殊な合成データを用いている。
また,悪条件下でのビデオ安定化データセットは使用できないため,評価のための新しいvsac105実データセットを提案する。
提案手法を2つのベンチマークを用いて5つの最先端ビデオ安定化アルゴリズムと比較した。
その結果,少なくとも1つの気象条件下では現在の手法は性能が悪く,合成データのみを用いた小さなデータセットでのトレーニングであっても,すべての気象条件を考慮すれば,安定性平均スコア,歪みスコア,成功率,平均クロッピング率の点で最高の性能が得られることがわかった。
したがって,ビデオ安定化モデルは実世界の映像を一般化し,大規模合成学習データを必要としない。 Video stabilization plays a central role to improve videos quality. However, despite the substantial progress made by these methods, they were, mainly, tested under standard weather and lighting conditions, and may perform poorly under adverse conditions. In this paper, we propose a synthetic-aware adverse weather robust algorithm for video stabilization that does not require real data and can be trained only on synthetic data. We also present Silver, a novel rendering engine to generate the required training data with an automatic ground-truth extraction procedure. Our approach uses our specially generated synthetic data for training an affine transformation matrix estimator avoiding the feature extraction issues faced by current methods. Additionally, since no video stabilization datasets under adverse conditions are available, we propose the novel VSAC105Real dataset for evaluation. We compare our method to five state-of-the-art video stabilization algorithms using two benchmarks. Our results show that current approaches perform poorly in at least one weather condition, and that, even training in a small dataset with synthetic data only, we achieve the best performance in terms of stability average score, distortion score, success rate, and average cropping ratio when considering all weather conditions. Hence, our video stabilization model generalizes well on real-world videos and does not require large-scale synthetic training data to converge. | 翻訳日:2022-08-29 13:30:52 公開日:2022-08-26 |
# セルレス大量MIMOシステムにおけるエッジキャッシングの深部強化学習 Exploiting Deep Reinforcement Learning for Edge Caching in Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2208.12453v1 ) ライセンス: Link先を確認 | Yu Zhang, Shuaifei Chen, and Jiayi Zhang | (参考訳) セルフリーな大規模マルチインプット・マルチプル出力は、多くの連続アクセスポイント(AP)を協調してオンボードユーザーに提供することで、鉄道無線通信の厳しい品質要件(QoE)を満たすことを約束している。
重要な課題は,列車速度の増大に伴う過激な伝搬環境の変化により,所望のコンテンツをタイムリーに配信する方法である。
本稿では,このコヒーレント伝送を行ない,エンドツーエンドの遅延を低減するために,潜在的に要求されるコンテンツを今後のAPにキャッシュすることを提案する。
長期QoE最大化問題を定式化し、2つのキャッシュ配置アルゴリズムを提案する。
ひとつはヒューリスティック凸最適化(hco)、もうひとつはsoft actor-critic(sac)を用いた深層強化学習(drl)の活用である。
従来のベンチマークと比較すると,提案したQoEアルゴリズムとヒット確率の利点が示される。
アドバンストDRLモデルでは、SACはユーザの要求を正確に予測することで、QoE上のHCOよりも優れている。 Cell-free massive multiple-input-multiple-output is promising to meet the stringent quality-of-experience (QoE) requirements of railway wireless communications by coordinating many successional access points (APs) to serve the onboard users coherently. A key challenge is how to deliver the desired contents timely due to the radical changing propagation environment caused by the growing train speed. In this paper, we propose to proactively cache the likely-requesting contents at the upcoming APs which perform the coherent transmission to reduce end-to-end delay. A long-term QoE-maximization problem is formulated and two cache placement algorithms are proposed. One is based on heuristic convex optimization (HCO) and the other exploits deep reinforcement learning (DRL) with soft actor-critic (SAC). Compared to the conventional benchmark, numerical results show the advantage of our proposed algorithms on QoE and hit probability. With the advanced DRL model, SAC outperforms HCO on QoE by predicting the user requests accurately. | 翻訳日:2022-08-29 13:30:30 公開日:2022-08-26 |
# 深層音楽分類器における「音楽学者にやさしい」説明のための概念ベース手法 Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier ( http://arxiv.org/abs/2208.12485v1 ) ライセンス: Link先を確認 | Francesco Foscarin, Katharina Hoedt, Verena Praher, Arthur Flexer, Gerhard Widmer | (参考訳) 音楽データに適用されるディープラーニングシステムを説明する現在のアプローチは、例えば、スペクトログラムやピアノロールのタイムピッチビンで、潜在的に関連する時間周波数ビンを強調することで、低レベルの特徴空間を提供する。
これは、特に技術的な知識のない音楽学者にとって理解が難しい。
この問題に対処するために,ハイレベルな音楽概念に基づくより人間フレンドリな説明に焦点を当てる。
本研究は,訓練されたシステム (ポストホックな説明) を対象とし,ユーザが音楽概念を定義し,そのシステムに関連するかどうかを検証できる教師付きシステムと,関連する概念を含む楽曲の抜粋を自動的に選択し,ユーザに解釈するための教師なしシステムという2つのアプローチを探求する。
既存のシンボリック作曲家分類システムにおいて,両手法を実証し,その可能性を示し,本質的な限界を強調する。 Current approaches for explaining deep learning systems applied to musical data provide results in a low-level feature space, e.g., by highlighting potentially relevant time-frequency bins in a spectrogram or time-pitch bins in a piano roll. This can be difficult to understand, particularly for musicologists without technical knowledge. To address this issue, we focus on more human-friendly explanations based on high-level musical concepts. Our research targets trained systems (post-hoc explanations) and explores two approaches: a supervised one, where the user can define a musical concept and test if it is relevant to the system; and an unsupervised one, where musical excerpts containing relevant concepts are automatically selected and given to the user for interpretation. We demonstrate both techniques on an existing symbolic composer classification system, showcase their potential, and highlight their intrinsic limitations. | 翻訳日:2022-08-29 13:30:10 公開日:2022-08-26 |
# 継続測定による時間的ファジィユーティリティの最大化 Temporal Fuzzy Utility Maximization with Remaining Measure ( http://arxiv.org/abs/2208.12439v1 ) ライセンス: Link先を確認 | Shicheng Wan, Zhenqiang Ye, Wensheng Gan, and Jiahui Chen | (参考訳) 高ユーティリティなアイテムセットマイニングアプローチは、大量の時間データから隠れたパターンを発見する。
しかし、高ユーティリティなアイテムセットマイニングの難解な問題は、その発見結果がパターンの量を隠すことであり、解釈可能性に乏しい。
結果は、顧客のショッピングトレンドのみを反映しており、意思決定者が収集した情報を定量化するのに役立ちません。
言語用語では、コンピュータは正確に形式化された数学やプログラミング言語を使うが、人間が使用する言語は常に曖昧である。
本稿では,TFUMと呼ばれる新しい一相時間ファジィ実用物マイニング手法を提案する。
時間的ファジィリストを修正して、潜在的な高時間的ファジィユーティリティアイテムセットに関する重要な情報をメモリに保持し、短期間で実際の興味深いパターンの完全なセットを見つける。
特に,本論文の時間的ファジィ・ユーティリティー・アイテムセット・マイニング領域では,残余測度が初めて採用されている。
残された最大時間的ファジィ効用は、以前の研究で採用されたものよりもより強く強い上限である。
したがって、tfumの探索空間を刈り取る上で重要な役割を果たす。
最後に,様々なデータセットにおけるtfumの効率と有効性を評価する。
大規模な実験結果から、TFUMは実行時コスト、メモリ使用量、スケーラビリティにおいて最先端のアルゴリズムより優れていることが示唆された。
さらに、実験により、残りの測定値が採掘中に不要な候補を著しく引き起こすことが証明された。 High utility itemset mining approaches discover hidden patterns from large amounts of temporal data. However, an inescapable problem of high utility itemset mining is that its discovered results hide the quantities of patterns, which causes poor interpretability. The results only reflect the shopping trends of customers, which cannot help decision makers quantify collected information. In linguistic terms, computers use mathematical or programming languages that are precisely formalized, but the language used by humans is always ambiguous. In this paper, we propose a novel one-phase temporal fuzzy utility itemset mining approach called TFUM. It revises temporal fuzzy-lists to maintain less but major information about potential high temporal fuzzy utility itemsets in memory, and then discovers a complete set of real interesting patterns in a short time. In particular, the remaining measure is the first adopted in the temporal fuzzy utility itemset mining domain in this paper. The remaining maximal temporal fuzzy utility is a tighter and stronger upper bound than that of previous studies adopted. Hence, it plays an important role in pruning the search space in TFUM. Finally, we also evaluate the efficiency and effectiveness of TFUM on various datasets. Extensive experimental results indicate that TFUM outperforms the state-of-the-art algorithms in terms of runtime cost, memory usage, and scalability. In addition, experiments prove that the remaining measure can significantly prune unnecessary candidates during mining. | 翻訳日:2022-08-29 13:27:00 公開日:2022-08-26 |
# 触覚接触の半監督的絡み合い-すべり誘起せん断の幾何 Semi-Supervised Disentanglement of Tactile Contact~Geometry from Sliding-Induced Shear ( http://arxiv.org/abs/2208.12500v1 ) ライセンス: Link先を確認 | Anupam K. Gupta, Alex Church, Nathan F. Lepora | (参考訳) 触覚は人間の器用さの基本である。
ロボットのタッチ、特にソフトな光学触覚センサーを使って模倣すると、動きに依存したせん断による歪みに苦しむ。
これは、接触幾何学に関する情報を必要とする形状復元や探索のような触覚タスクを複雑にする。
本研究では,接触情報のみを保存しながらせん断を除去する半教師付き手法を提案する。
対象物に対して垂直にタップすることで,モデルが生成した未認識画像と対応する画像とのマッチングを示すことにより,我々のアプローチを検証する。
モデルが生成した未観測画像は、接触地形の忠実な再構築を可能にし、それ以外はせん断によって遮蔽され、また物体のポーズのロバストな推定は、スライディング探索や平面形状の完全な再構築に使用される。
我々の半教師付きアプローチは、全バリデーションタスクにまたがる完全教師付きアプローチと同等のパフォーマンスを、桁違いに低い監督で達成していることを示す。
したがって、半教師付き手法はより計算的かつラベル付けされたサンプル効率である。
多様な複雑な触覚探索や操作タスクに、せん断感応性のあるタッチ感で幅広い応用性が期待できる。 The sense of touch is fundamental to human dexterity. When mimicked in robotic touch, particularly by use of soft optical tactile sensors, it suffers from distortion due to motion-dependent shear. This complicates tactile tasks like shape reconstruction and exploration that require information about contact geometry. In this work, we pursue a semi-supervised approach to remove shear while preserving contact-only information. We validate our approach by showing a match between the model-generated unsheared images with their counterparts from vertically tapping onto the object. The model-generated unsheared images give faithful reconstruction of contact-geometry otherwise masked by shear, along with robust estimation of object pose then used for sliding exploration and full reconstruction of several planar shapes. We show that our semi-supervised approach achieves comparable performance to its fully supervised counterpart across all validation tasks with an order of magnitude less supervision. The semi-supervised method is thus more computational and labeled sample-efficient. We expect it will have broad applicability to wide range of complex tactile exploration and manipulation tasks performed via a shear-sensitive sense of touch. | 翻訳日:2022-08-29 13:26:42 公開日:2022-08-26 |
# 低リソース言語のためのASRシステム改善のための公開データからの音声・テキストペアのマイニングの有効性 Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource Languages ( http://arxiv.org/abs/2208.12666v1 ) ライセンス: Link先を確認 | Kaushal Santosh Bhogale, Abhigyan Raman, Tahir Javed, Sumanth Doddapaneni, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra | (参考訳) エンドツーエンド(e2e)モデルが最先端音声認識システムのデフォルト選択となっている。
このようなモデルは大量のラベル付きデータに基づいてトレーニングされるが、低リソース言語では利用できないことが多い。
自己教師付き学習や伝達学習のような技術は、約束を守るが、正確なモデルの訓練には効果がない。
一方で、さまざまなドメインと話者のセットでラベル付きデータセットの収集は非常に高価である。
本研究は,インド・ラジオの公文書から,インド語のテキストと音声ペアを公開資料から抽出し,安価かつ効果的な代替案を示すものである。
主成分として,onesureman-wunschアルゴリズムを適用し,長い音声と書き起こしのpdfが与えられた音声セグメントに文をアライメントするとともに,ocr,外来テキスト,非書き起こし音声による誤りに頑健な文をアライメントする。
Shrutilipiは12の言語で6,400時間以上のラベル付き音声を含むデータセットで、総文数は4.95万である。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
我々はShrutilipiの質を12言語で21人の評価者で確立した。
また,表現された地域,話者,名前付きエンティティの観点で,シュルチピの多様性を確立する。
特に,wav2vecモデルのトレーニングセットにshrutilipiを加えると,indicsuperbベンチマークで7言語で平均5.8\%のwerが低下することが示された。
最も高いベンチマーク(7)を持つヒンディー語では、平均werは18.8%から13.5%に低下する。
この改善は効率的なモデルにまで拡張され、コンフォーマーモデル(Wv2Vecの10倍小さい)のWERの2.3%の低下を示す。
最後に、Shrutilipiの多様性を、トレーニングしたモデルがノイズの多い入力よりも堅牢であることを示す。 End-to-end (E2E) models have become the default choice for state-of-the-art speech recognition systems. Such models are trained on large amounts of labelled data, which are often not available for low-resource languages. Techniques such as self-supervised learning and transfer learning hold promise, but have not yet been effective in training accurate models. On the other hand, collecting labelled datasets on a diverse set of domains and speakers is very expensive. In this work, we demonstrate an inexpensive and effective alternative to these approaches by ``mining'' text and audio pairs for Indian languages from public sources, specifically from the public archives of All India Radio. As a key component, we adapt the Needleman-Wunsch algorithm to align sentences with corresponding audio segments given a long audio and a PDF of its transcript, while being robust to errors due to OCR, extraneous text, and non-transcribed speech. We thus create Shrutilipi, a dataset which contains over 6,400 hours of labelled audio across 12 Indian languages totalling to 4.95M sentences. On average, Shrutilipi results in a 2.3x increase over publicly available labelled data. We establish the quality of Shrutilipi with 21 human evaluators across the 12 languages. We also establish the diversity of Shrutilipi in terms of represented regions, speakers, and mentioned named entities. Significantly, we show that adding Shrutilipi to the training set of Wav2Vec models leads to an average decrease in WER of 5.8\% for 7 languages on the IndicSUPERB benchmark. For Hindi, which has the most benchmarks (7), the average WER falls from 18.8% to 13.5%. This improvement extends to efficient models: We show a 2.3% drop in WER for a Conformer model (10x smaller than Wav2Vec). Finally, we demonstrate the diversity of Shrutilipi by showing that the model trained with it is more robust to noisy input. | 翻訳日:2022-08-29 13:26:25 公開日:2022-08-26 |
# StyleGAN画像レイアウト編集のためのユーザ制御可能な潜時変換器 User-Controllable Latent Transformer for StyleGAN Image Layout Editing ( http://arxiv.org/abs/2208.12408v1 ) ライセンス: Link先を確認 | Yuki Endo | (参考訳) 潜時空間探索は、解釈可能な潜時方向を発見し、潜時符号を操作して、生成的敵ネットワーク(GAN)によって生成された画像の様々な属性を編集する技術である。
しかし、従来の研究では、空間制御は単純な変換(例えば、翻訳と回転)に限られており、適切な潜伏方向を特定し、パラメータを調整することは困難である。
本稿では,画像を直接アノテートすることで,StyleGAN画像レイアウトを編集する問題に取り組む。
そこで本研究では,ユーザ入力に応じて潜在コードを操作するための対話型フレームワークを提案する。
本フレームワークでは,ユーザが移動を希望する位置でStyleGAN画像に注釈を付け,マウスドラッグによる移動方向の指定を行う。
これらのユーザ入力と初期潜在コードから、トランスフォーマエンコーダ-デコーダアーキテクチャに基づく潜在トランスフォーマは、出力された潜在コードを推定し、スタイルガン生成器に供給して結果画像を得る。
潜伏変圧器の訓練には,市販のStyleGANと光学フローモデルから生成された合成データと擬似ユーザ入力を手動による監督なしに利用する。
定量的および定性的な評価は,既存手法に対する本手法の有効性を示す。 Latent space exploration is a technique that discovers interpretable latent directions and manipulates latent codes to edit various attributes in images generated by generative adversarial networks (GANs). However, in previous work, spatial control is limited to simple transformations (e.g., translation and rotation), and it is laborious to identify appropriate latent directions and adjust their parameters. In this paper, we tackle the problem of editing the StyleGAN image layout by annotating the image directly. To do so, we propose an interactive framework for manipulating latent codes in accordance with the user inputs. In our framework, the user annotates a StyleGAN image with locations they want to move or not and specifies a movement direction by mouse dragging. From these user inputs and initial latent codes, our latent transformer based on a transformer encoder-decoder architecture estimates the output latent codes, which are fed to the StyleGAN generator to obtain a result image. To train our latent transformer, we utilize synthetic data and pseudo-user inputs generated by off-the-shelf StyleGAN and optical flow models, without manual supervision. Quantitative and qualitative evaluations demonstrate the effectiveness of our method over existing methods. | 翻訳日:2022-08-29 13:24:53 公開日:2022-08-26 |
# 組織像における核と腺のインスタンス分割--物語的考察 Nuclei & Glands Instance Segmentation in Histology Images: A Narrative Review ( http://arxiv.org/abs/2208.12460v1 ) ライセンス: Link先を確認 | Esha Sadia Nasir, Arshi Perviaz, Muhammad Moazam Fraz | (参考訳) 病理組織像における核と腺の分節化は、癌診断、治療計画、生存分析のための計算病理ワークフローの重要なステップである。
現代のハードウェアが登場し、最近の大規模な高品質な公開データセットが利用可能になり、コミュニティが大きな課題を組織したことにより、ドメイン固有の課題に焦点を当てた自動化メソッドが急増した。
本稿では,過去5年間(2017~2022年)に公表された,aiに基づく核と腺のインスタンス分割法を解説した126の論文を深く分析し,現在のアプローチの限界と課題について考察した。
さらに,今後の研究の方向性を示唆し,最先端手法の貢献をまとめる。
さらに、公開されているデータセットの一般化された要約と、各チャレンジに特有のトップパフォーマンスメソッドを示す大きな課題に関する詳細な洞察を提供する。
また, がんの診断, グレーディング, 予後, および治療計画を改善するために, 臨床実践で使用できる手法の開発に向けて, 既存の研究の現状と今後の方向性を, 読者に示すことを意図した。
私たちの知る限りでは、この方向に焦点を当てたヒストロジー画像のインスタンスセグメンテーションをレビューしたことはない。 Instance segmentation of nuclei and glands in the histology images is an important step in computational pathology workflow for cancer diagnosis, treatment planning and survival analysis. With the advent of modern hardware, the recent availability of large-scale quality public datasets and the community organized grand challenges have seen a surge in automated methods focusing on domain specific challenges, which is pivotal for technology advancements and clinical translation. In this survey, 126 papers illustrating the AI based methods for nuclei and glands instance segmentation published in the last five years (2017-2022) are deeply analyzed, the limitations of current approaches and the open challenges are discussed. Moreover, the potential future research direction is presented and the contribution of state-of-the-art methods is summarized. Further, a generalized summary of publicly available datasets and a detailed insights on the grand challenges illustrating the top performing methods specific to each challenge is also provided. Besides, we intended to give the reader current state of existing research and pointers to the future directions in developing methods that can be used in clinical practice enabling improved diagnosis, grading, prognosis, and treatment planning of cancer. To the best of our knowledge, no previous work has reviewed the instance segmentation in histology images focusing towards this direction. | 翻訳日:2022-08-29 13:24:29 公開日:2022-08-26 |
# 部分的関連映像検索 Partially Relevant Video Retrieval ( http://arxiv.org/abs/2208.12510v1 ) ライセンス: Link先を確認 | Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen, Xirong Li, Xun Wang | (参考訳) 現在,MSVD,MSR-VTT,VATEXなどのビデオキャプション指向データセット上で,テキスト・ツー・ビデオ検索(T2VR)の訓練とテストが行われている。
これらのデータセットの重要な特性は、ビデオは短い期間で時間的に事前にトリミングされていると仮定され、字幕はビデオコンテンツの要点をうまく記述する。
したがって、与えられたペアのビデオとキャプションに対して、ビデオはキャプションに完全に関連しているはずである。
しかし、実際には、クエリがプリオリでないため、プリトリミングされたビデオクリップは、クエリを完全に満たすのに十分なコンテンツを含んでいない可能性がある。
これは、文学と現実世界の間のギャップを示唆する。
本稿では,このギャップを埋めるために,PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
未トリミングビデオは、クエリに関連するモーメントを含む場合、あるテキストクエリに部分的に関係していると考えられる。
prvrは、そのような部分的な関連のあるビデオを大量の未検索ビデオから回収することを目指している。
prvrは単一のビデオモーメントの検索とビデオコーパスのモーメントの検索とは異なっている。
我々は,prvrをマルチインスタンス学習(mil)問題として定式化し,ビデオクリップの袋とビデオフレームの袋を同時に見る。
クリップとフレームは、異なる時間スケールでビデオコンテンツを表す。
PRVRのクリップスケールとフレームスケールの類似性を共同で学習するマルチスケール類似学習(MS-SL)ネットワークを提案する。
3つのデータセット(TVR、ActivityNet Captions、Charades-STA)に対する大規模な実験は、提案手法の生存可能性を示している。
また,本手法はビデオコーパスモーメント検索の改善にも有効であることを示す。 Current methods for text-to-video retrieval (T2VR) are trained and tested on video-captioning oriented datasets such as MSVD, MSR-VTT and VATEX. A key property of these datasets is that videos are assumed to be temporally pre-trimmed with short duration, whilst the provided captions well describe the gist of the video content. Consequently, for a given paired video and caption, the video is supposed to be fully relevant to the caption. In reality, however, as queries are not known a priori, pre-trimmed video clips may not contain sufficient content to fully meet the query. This suggests a gap between the literature and the real world. To fill the gap, we propose in this paper a novel T2VR subtask termed Partially Relevant Video Retrieval (PRVR). An untrimmed video is considered to be partially relevant w.r.t. a given textual query if it contains a moment relevant to the query. PRVR aims to retrieve such partially relevant videos from a large collection of untrimmed videos. PRVR differs from single video moment retrieval and video corpus moment retrieval, as the latter two are to retrieve moments rather than untrimmed videos. We formulate PRVR as a multiple instance learning (MIL) problem, where a video is simultaneously viewed as a bag of video clips and a bag of video frames. Clips and frames represent video content at different time scales. We propose a Multi-Scale Similarity Learning (MS-SL) network that jointly learns clip-scale and frame-scale similarities for PRVR. Extensive experiments on three datasets (TVR, ActivityNet Captions, and Charades-STA) demonstrate the viability of the proposed method. We also show that our method can be used for improving video corpus moment retrieval. | 翻訳日:2022-08-29 13:24:07 公開日:2022-08-26 |
# ノイズロバスト学習による言語間クロスモーダル検索 Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning ( http://arxiv.org/abs/2208.12526v1 ) ライセンス: Link先を確認 | Yabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai, Xun Wang | (参考訳) クロスモーダル検索の分野における最近の進歩にもかかわらず、手動でアノテートされたデータセットがないため、低リソース言語にフォーカスする研究は少ない。
本稿では,低リソース言語を対象とした雑音ロバスト言語間クロスモーダル検索手法を提案する。
この目的のために、低リソース言語のための擬似並列文ペアを構築するために、機械翻訳(MT)を用いる。
しかし、MTは完全ではないため、翻訳中にノイズを導入し、テキスト埋め込みを劣化させ、検索性能を損なう傾向にある。
これを軽減するために,マルチビュー自己蒸留法を導入し,類似性に基づく視点と特徴に基づく視点から直接の監視を行うために,クロスアテンションモジュールを用いたノイズロスターゲット言語表現を学習する。
さらに、教師なしMTのバックトランスレーションにインスパイアされ、原文と裏書き文のセマンティックな相違を最小化し、テキストエンコーダのノイズロバスト性をさらに向上させる。
ビデオテキストと画像テキストのクロスモーダル検索ベンチマークを3つの異なる言語で実施し, 提案手法は, 追加の人間ラベルデータを用いることなく全体の性能を著しく向上することを示した。
さらに,最新のビジョン・アンド・ランゲージ事前学習フレームワークであるCLIPから,事前学習したビジュアルエンコーダを組み込むことにより,本手法が一般的な事前学習モデルと互換性を持つことを示す。
コードとデータはhttps://github.com/huiguanlab/nrccrで入手できる。 Despite the recent developments in the field of cross-modal retrieval, there has been less research focusing on low-resource languages due to the lack of manually annotated datasets. In this paper, we propose a noise-robust cross-lingual cross-modal retrieval method for low-resource languages. To this end, we use Machine Translation (MT) to construct pseudo-parallel sentence pairs for low-resource languages. However, as MT is not perfect, it tends to introduce noise during translation, rendering textual embeddings corrupted and thereby compromising the retrieval performance. To alleviate this, we introduce a multi-view self-distillation method to learn noise-robust target-language representations, which employs a cross-attention module to generate soft pseudo-targets to provide direct supervision from the similarity-based view and feature-based view. Besides, inspired by the back-translation in unsupervised MT, we minimize the semantic discrepancies between origin sentences and back-translated sentences to further improve the noise robustness of the textual encoder. Extensive experiments are conducted on three video-text and image-text cross-modal retrieval benchmarks across different languages, and the results demonstrate that our method significantly improves the overall performance without using extra human-labeled data. In addition, equipped with a pre-trained visual encoder from a recent vision-and-language pre-training framework, i.e., CLIP, our model achieves a significant performance gain, showing that our method is compatible with popular pre-training models. Code and data are available at https://github.com/HuiGuanLab/nrccr. | 翻訳日:2022-08-29 13:23:37 公開日:2022-08-26 |
# 属性依存型3次元顔生成のための学習・調整型ニューラルラジアンスフィールド Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation ( http://arxiv.org/abs/2208.12550v1 ) ライセンス: Link先を確認 | Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang | (参考訳) 生成神経放射場(GNeRF)に基づく3次元認識型GANは,強い3次元一貫性を維持しつつ,優れた高画質画像生成を実現している。
最も重要な成果は、face generationドメインにある。
しかしながら、これらのモデルのほとんどはビューの一貫性を改善することに重点を置いているが、絡み合う側面を無視しているため、これらのモデルは生成に対する高品質なセマンティック/属性制御を提供することはできない。
そこで,本稿では,特定の属性ラベルを入力として使用する条件付きgnerfモデルを導入することで,3d認識生成モデルの制御能力と分離能力を向上させる。
事前学習した3D認識モデルをベースとして,属性ラベルを利用して生成制御を行うデュアルブランチ属性編集モジュール(DAEM)を統合する。
さらに,潜在ベクトルを最適化し,属性編集の精度を向上させるためのtriot(training as init, and optimization for tuning)法を提案する。
ffhqを用いた広範囲な実験により,非目標領域を維持しつつ,高品質な編集が可能となった。
コードはhttps://github.com/zhangqianhui/TT-GNeRFで公開されている。 3D-aware GANs based on generative neural radiance fields (GNeRF) have achieved impressive high-quality image generation, while preserving strong 3D consistency. The most notable achievements are made in the face generation domain. However, most of these models focus on improving view consistency but neglect a disentanglement aspect, thus these models cannot provide high-quality semantic/attribute control over generation. To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models. We utilize the pre-trained 3D-aware model as the basis and integrate a dual-branches attribute-editing module (DAEM), that utilize attribute labels to provide control over generation. Moreover, we propose a TRIOT (TRaining as Init, and Optimizing for Tuning) method to optimize the latent vector to improve the precision of the attribute-editing further. Extensive experiments on the widely used FFHQ show that our model yields high-quality editing with better view consistency while preserving the non-target regions. The code is available at https://github.com/zhangqianhui/TT-GNeRF. | 翻訳日:2022-08-29 13:23:11 公開日:2022-08-26 |
# 部分的ラベル学習のためのメタ客観指導型曖昧さ解消 Meta Objective Guided Disambiguation for Partial Label Learning ( http://arxiv.org/abs/2208.12459v1 ) ライセンス: Link先を確認 | Bo-Shi Zou, Ming-Kun Xie, Sheng-Jun Huang | (参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習フレームワークであり、各トレーニングインスタンスは候補ラベルセットに関連付けられ、1つのラベルのみが有効である。
PLL問題を解決するには、訓練データの構造情報や自己学習方式でモデル出力を精査するといった事前知識を用いて、候補集合の曖昧さを解こうとする手法が一般的である。
残念なことに、これらの手法は、モデルトレーニングの初期段階において、事前情報や信頼できない予測が欠如しているため、望ましい性能を得ることができないことが多い。
本稿では,小さな検証セット上でのメタ目的を解いて,候補ラベルから基底ラベルを回収することを目的とした,メタ目的導出不曖昧化(mogd)を用いた部分ラベル学習のための新しい枠組みを提案する。
具体的には、偽陽性ラベルの悪影響を軽減するため、バリデーションセットのメタ損失に基づいて各候補ラベルを再強調する。
そして、重み付きクロスエントロピー損失を最小化して分類器を訓練する。
提案手法は,通常のsgdオプティマイザを用いた各種深層ネットワークを用いて容易に実装できる。
理論的には,メタ目的の収束特性を証明し,提案手法の推定誤差境界を導出する。
様々なベンチマークデータセットと実世界のPLLデータセットに対する大規模な実験により、提案手法は最先端の手法と比較して有能な性能が得られることを示した。 Partial label learning (PLL) is a typical weakly supervised learning framework, where each training instance is associated with a candidate label set, among which only one label is valid. To solve PLL problems, typically methods try to perform disambiguation for candidate sets by either using prior knowledge, such as structure information of training data, or refining model outputs in a self-training manner. Unfortunately, these methods often fail to obtain a favorable performance due to the lack of prior information or unreliable predictions in the early stage of model training. In this paper, we propose a novel framework for partial label learning with meta objective guided disambiguation (MoGD), which aims to recover the ground-truth label from candidate labels set by solving a meta objective on a small validation set. Specifically, to alleviate the negative impact of false positive labels, we re-weight each candidate label based on the meta loss on the validation set. Then, the classifier is trained by minimizing the weighted cross entropy loss. The proposed method can be easily implemented by using various deep networks with the ordinary SGD optimizer. Theoretically, we prove the convergence property of meta objective and derive the estimation error bounds of the proposed method. Extensive experiments on various benchmark datasets and real-world PLL datasets demonstrate that the proposed method can achieve competent performance when compared with the state-of-the-art methods. | 翻訳日:2022-08-29 13:20:01 公開日:2022-08-26 |
# 不均質な車両ネットワークのための強化学習の一手法 An approach to implement Reinforcement Learning for Heterogeneous Vehicular Networks ( http://arxiv.org/abs/2208.12466v1 ) ライセンス: Link先を確認 | Bhavya Peshavaria, Sagar Kavaiya, Dhaval K. Patel | (参考訳) 本稿では,マルチエージェント強化学習に基づくHetVNET(Heterogeneous Vehicular Network)に向けた車両ネットワークにおけるスペクトル共有の考え方の拡張について述べる。
ここでは、複数車両間(V2V)リンクは、他の車両間(V2I)および他のネットワークのスペクトルを再利用する。
車両網の高速交換環境はcsiの集中化とチャネルの割り当てを制限している。
したがって、mlベースのメソッドを実装するというアイデアは、すべての車両で分散的に実装できるように使用される。
ここでは、各オンボードユニット(OBU)がチャネル内の信号を検知し、その情報に基づいてRLを実行し、どのチャネルを自律的に取り上げるかを決定する。
ここで、各V2VリンクはMARLのエージェントとなる。
その考え方は、RLモデルを、これらのエージェントが競争するよりも協力するように訓練することにある。 This paper presents the extension of the idea of spectrum sharing in the vehicular networks towards the Heterogeneous Vehicular Network(HetVNET) based on multi-agent reinforcement learning. Here, the multiple vehicle-to-vehicle(V2V) links reuse the spectrum of other vehicle-to-interface(V2I) and also those of other networks. The fast-changing environment in vehicular networks limits the idea of centralizing the CSI and allocate the channels. So, the idea of implementing ML-based methods is used here so that it can be implemented in a distributed manner in all vehicles. Here each On-Board Unit(OBU) can sense the signals in the channel and based on that information runs the RL to decide which channel to autonomously take up. Here, each V2V link will be an agent in MARL. The idea is to train the RL model in such a way that these agents will collaborate rather than compete. | 翻訳日:2022-08-29 13:19:39 公開日:2022-08-26 |
# 難易度とロバスト性の改善 : 逆行訓練におけるブレグマンの多様性 Lower Difficulty and Better Robustness: A Bregman Divergence Perspective for Adversarial Training ( http://arxiv.org/abs/2208.12511v1 ) ライセンス: Link先を確認 | Zihui Wu, Haichang Gao, Bingqian Zhou, Xiaoyan Guo, Shudong Zhang | (参考訳) 本稿では,最適化の難易度を低減し,adversarial training (at) で得られる対向ロバスト性の向上について検討する。
この問題をよりよく研究するために,我々は,AT を負のエントロピー曲線上のトレーニングデータのスライディング過程と見なすことのできる,新しい Bregman divergence perspective を構築した。
この観点から, PGD-AT と TRADES という2つの典型的なAT手法の学習目標を解析した結果, TRADES の最適化プロセスは PGD-AT よりも容易であることが判明した。
さらに,TRADESにおけるエントロピーの関数について考察し,高いエントロピーを持つモデルの方が頑健さを学習できることを示した。
上記の知見に触発されて,10段階のpgd攻撃下での最適化の困難さを低減できるだけでなく,堅牢性も向上できるfaitとmerの2つの手法を提案する。
提案手法は,10ステップのPGD敵の下での最適化の困難さを低減させることが,ATにおける敵の堅牢性を高めるための有望なアプローチであることを示す。 In this paper, we investigate on improving the adversarial robustness obtained in adversarial training (AT) via reducing the difficulty of optimization. To better study this problem, we build a novel Bregman divergence perspective for AT, in which AT can be viewed as the sliding process of the training data points on the negative entropy curve. Based on this perspective, we analyze the learning objectives of two typical AT methods, i.e., PGD-AT and TRADES, and we find that the optimization process of TRADES is easier than PGD-AT for that TRADES separates PGD-AT. In addition, we discuss the function of entropy in TRADES, and we find that models with high entropy can be better robustness learners. Inspired by the above findings, we propose two methods, i.e., FAIT and MER, which can both not only reduce the difficulty of optimization under the 10-step PGD adversaries, but also provide better robustness. Our work suggests that reducing the difficulty of optimization under the 10-step PGD adversaries is a promising approach for enhancing the adversarial robustness in AT. | 翻訳日:2022-08-29 13:19:25 公開日:2022-08-26 |
# 強化学習における視覚処理 Visual processing in context of reinforcement learning ( http://arxiv.org/abs/2208.12525v1 ) ライセンス: Link先を確認 | Hlynur Dav\'i{\dh} Hlynsson | (参考訳) 深層強化学習(RL)は近年多くの成功をおさめたが、その手法はまだデータ非効率であり、データの観点からは高額な多くの問題を解くことができる。
我々は,無ラベルデータにリッチ・スーパーバイザリー・シグナルを活用し,状態表現を学習することでこの問題を解決しようとする。
この論文は、従来のrlアルゴリズムが使用するデータソースの異なるサブセットにアクセスする3つの異なる表現学習アルゴリズムを導入している。
(i)GRICAは、独立成分分析(ICA)にインスパイアされ、深層ニューラルネットワークを訓練して、入力の統計的に独立した特徴を出力する。
GrICAは、各特徴と他の特徴との間の相互情報を最小化する。
さらに、gricaは環境状態の無分類コレクションのみを必要とする。
(ii)潜在表現予測(larp)は、入力として状態を要求することに加えて、前の状態とそれらを接続するアクションも必要とします。
この方法は、現在の状態とアクションが与えられた環境の次の状態の表現を予測して状態表現を学習する。
予測子はグラフ探索アルゴリズムで使用される。
3)RewPredは、深いニューラルネットワークを訓練して状態表現を学び、報酬関数のスムーズなバージョンを学ぶ。
この表現は入力を深いRLに前処理するために使用され、報酬予測器は報酬形成に使用される。
この方法は、表現を学ぶための環境からの状態逆対のみを必要とする。
我々は,どの手法にも強みと弱みがあることを発見し,rl問題解決パイプラインにおける教師なし表現学習を含め,学習を高速化できる実験から結論づける。 Although deep reinforcement learning (RL) has recently enjoyed many successes, its methods are still data inefficient, which makes solving numerous problems prohibitively expensive in terms of data. We aim to remedy this by taking advantage of the rich supervisory signal in unlabeled data for learning state representations. This thesis introduces three different representation learning algorithms that have access to different subsets of the data sources that traditional RL algorithms use: (i) GRICA is inspired by independent component analysis (ICA) and trains a deep neural network to output statistically independent features of the input. GrICA does so by minimizing the mutual information between each feature and the other features. Additionally, GrICA only requires an unsorted collection of environment states. (ii) Latent Representation Prediction (LARP) requires more context: in addition to requiring a state as an input, it also needs the previous state and an action that connects them. This method learns state representations by predicting the representation of the environment's next state given a current state and action. The predictor is used with a graph search algorithm. (iii) RewPred learns a state representation by training a deep neural network to learn a smoothed version of the reward function. The representation is used for preprocessing inputs to deep RL, while the reward predictor is used for reward shaping. This method needs only state-reward pairs from the environment for learning the representation. We discover that every method has their strengths and weaknesses, and conclude from our experiments that including unsupervised representation learning in RL problem-solving pipelines can speed up learning. | 翻訳日:2022-08-29 13:19:02 公開日:2022-08-26 |
# PDD-SHAP:関数分解を用いた共有値の高速近似 PDD-SHAP: Fast Approximations for Shapley Values using Functional Decomposition ( http://arxiv.org/abs/2208.12595v1 ) ライセンス: Link先を確認 | Arne Gevaert, Yvan Saeys | (参考訳) その強い理論的性質から、ブラックボックスモデルによる予測を説明する手段としてシェープリー値が非常に人気がある。
残念なことに、Shapley値を計算するための既存の技術のほとんどは計算に非常に高価である。
我々は,ANOVAに基づく関数分解モデルを用いて説明するブラックボックスモデルを近似するアルゴリズムであるPDD-SHAPを提案する。
これにより、大規模なデータセットの既存手法よりも桁違いに高速なShapley値の計算が可能になり、多くの予測が必要な場合のShapley値の補正コストを大幅に削減できる。 Because of their strong theoretical properties, Shapley values have become very popular as a way to explain predictions made by black box models. Unfortuately, most existing techniques to compute Shapley values are computationally very expensive. We propose PDD-SHAP, an algorithm that uses an ANOVA-based functional decomposition model to approximate the black-box model being explained. This allows us to calculate Shapley values orders of magnitude faster than existing methods for large datasets, significantly reducing the amortized cost of computing Shapley values when many predictions need to be explained. | 翻訳日:2022-08-29 13:18:36 公開日:2022-08-26 |
# 深層学習手法との比較による収量推定のための極勾配ブースティング Extreme Gradient Boosting for Yield Estimation compared with Deep Learning Approaches ( http://arxiv.org/abs/2208.12633v1 ) ライセンス: Link先を確認 | Florian Huber, Artem Yushchenko, Benedikt Stratmann, Volker Steinhage | (参考訳) 収穫前の収穫量の正確な予測は、世界中の作物の物流、市場計画、食料流通において非常に重要である。
収量予測は、作物開発に関わる複雑な関係をモデル化するために、長期にわたる現象学的および気候学的特性のモニタリングを必要とする。
世界中の様々な衛星から提供されるリモートセンシング衛星画像は、収量予測のためのデータを得るための安価で信頼性の高い方法である。
現在、収量予測の分野はディープラーニングのアプローチで占められている。
これらのアプローチで到達した精度は有望であるが、必要な量のデータと 'black-box'' の性質はディープラーニングメソッドの適用を制限することができる。
この制限は、リモートセンシング画像を特徴ベースの表現に処理するためのパイプラインを提案して、収率予測にExtreme Gradient Boosting(XGBoost)を使用できることで克服できる。
米国におけるダイズ収量予測の比較評価は,Deep Learningに基づく最先端の収量予測システムと比較して有望な予測精度を示している。
特徴的重要性は、我々のモデルにおける重要な特徴として、近赤外光スペクトルを露呈する。
報告された結果は、XGBoostの収量予測能力と、世界中の他の作物の収量予測のためのXGBoostによる将来の実験の促進を示唆している。 Accurate prediction of crop yield before harvest is of great importance for crop logistics, market planning, and food distribution around the world. Yield prediction requires monitoring of phenological and climatic characteristics over extended time periods to model the complex relations involved in crop development. Remote sensing satellite images provided by various satellites circumnavigating the world are a cheap and reliable way to obtain data for yield prediction. The field of yield prediction is currently dominated by Deep Learning approaches. While the accuracies reached with those approaches are promising, the needed amounts of data and the ``black-box'' nature can restrict the application of Deep Learning methods. The limitations can be overcome by proposing a pipeline to process remote sensing images into feature-based representations that allow the employment of Extreme Gradient Boosting (XGBoost) for yield prediction. A comparative evaluation of soybean yield prediction within the United States shows promising prediction accuracies compared to state-of-the-art yield prediction systems based on Deep Learning. Feature importances expose the near-infrared spectrum of light as an important feature within our models. The reported results hint at the capabilities of XGBoost for yield prediction and encourage future experiments with XGBoost for yield prediction on other crops in regions all around the world. | 翻訳日:2022-08-29 13:18:27 公開日:2022-08-26 |
# automlシステム評価のためのタスク選択 Task Selection for AutoML System Evaluation ( http://arxiv.org/abs/2208.12754v1 ) ライセンス: Link先を確認 | Jonathan Lorraine and Nihesh Anderson and Chansoo Lee and Quentin De Laroussilhe and Mehadi Hassen | (参考訳) 私たちの目標は、AutoMLシステムの変更、すなわち検索スペースやハイパーパラメータ最適化が、運用タスクにおける最終モデルのパフォーマンスを改善するかどうかを評価することです。
しかし、本番のタスクで変更をテストすることはできません。
代わりに、AutoMLシステムが以前実行したタスクに関する限定的な記述子、例えばデータポイントの数や機能へのアクセスしかできません。
また、変更をテストするための開発タスクも用意しています。
使用制限のないOpenMLからサンプルしたものだ。
しかし、開発と生産のタスクの分布は異なり、開発だけを改善し、生産しない変更を追求します。
本稿では,最も関連する開発タスクのフィルタ付きサブセットを選択するために,automl生産タスクのディスクリプタ情報を活用する手法を提案する。
実験の結果,提案手法は,開発時とは異なる分布を持つホールドアウトタスクにおけるautomlシステム変化を評価する能力を向上させることがわかった。 Our goal is to assess if AutoML system changes - i.e., to the search space or hyperparameter optimization - will improve the final model's performance on production tasks. However, we cannot test the changes on production tasks. Instead, we only have access to limited descriptors about tasks that our AutoML system previously executed, like the number of data points or features. We also have a set of development tasks to test changes, ex., sampled from OpenML with no usage constraints. However, the development and production task distributions are different leading us to pursue changes that only improve development and not production. This paper proposes a method to leverage descriptor information about AutoML production tasks to select a filtered subset of the most relevant development tasks. Empirical studies show that our filtering strategy improves the ability to assess AutoML system changes on holdout tasks with different distributions than development. | 翻訳日:2022-08-29 13:18:07 公開日:2022-08-26 |
# ジエンタングルとリマージ : 条件付き因果的視点による数発物体検出のための介入的知識蒸留 Disentangle and Remerge: Interventional Knowledge Distillation for Few-Shot Object Detection from A Conditional Causal Perspective ( http://arxiv.org/abs/2208.12681v1 ) ライセンス: Link先を確認 | Jiangmeng Li, Yanan Zhang, Wenwen Qiang, Lingyu Si, Chengbo Jiao, Xiaohui Hu, Changwen Zheng, Fuchun Sun | (参考訳) このような学習パラダイムは,画像分類やオブジェクト検出など,さまざまなタスクにおける実用性を示すものだ。
しかし、少数ショットオブジェクト検出法は、限られた訓練データによって意味情報を十分に探索できないという本質的な欠陥に悩まされている。
そこで本研究では, 少量の物体検出学習パラダイムに知識蒸留を導入する。
さらに, 知識蒸留の過程では, 教師モデルの経験的誤差が, 生徒として, 極小物体検出モデルの予測性能を低下させることを示すモチベーション実験を行った。
この現象の背景にある理由を理解するために, 因果論的観点から, 少数点物体検出タスクにおける知識蒸留の学習パラダイムを再考し, 構造的因果モデルを構築する。
理論的ガイダンスに従って,本論文では,D&R(Disentangle and Remerge)と呼ばれる少数ショットオブジェクト検出タスクに対するバックドア調整に基づく知識蒸留手法を提案し,対応する構造因果モデルに対する条件付き因果介入を行う。
理論的には、バックドア基準に対する一般的なバックドアパスという定義を拡張し、特定のケースにおいてバックドア基準の理論的適用境界を拡張することができる。
実験的に、複数のベンチマークデータセットの実験は、D&Rが数発のオブジェクト検出において大きなパフォーマンス向上をもたらすことを示した。 Few-shot learning models learn representations with limited human annotations, and such a learning paradigm demonstrates practicability in various tasks, e.g., image classification, object detection, etc. However, few-shot object detection methods suffer from an intrinsic defect that the limited training data makes the model cannot sufficiently explore semantic information. To tackle this, we introduce knowledge distillation to the few-shot object detection learning paradigm. We further run a motivating experiment, which demonstrates that in the process of knowledge distillation the empirical error of the teacher model degenerates the prediction performance of the few-shot object detection model, as the student. To understand the reasons behind this phenomenon, we revisit the learning paradigm of knowledge distillation on the few-shot object detection task from the causal theoretic standpoint, and accordingly, develop a Structural Causal Model. Following the theoretical guidance, we propose a backdoor adjustment-based knowledge distillation method for the few-shot object detection task, namely Disentangle and Remerge (D&R), to perform conditional causal intervention toward the corresponding Structural Causal Model. Theoretically, we provide an extended definition, i.e., general backdoor path, for the backdoor criterion, which can expand the theoretical application boundary of the backdoor criterion in specific cases. Empirically, the experiments on multiple benchmark datasets demonstrate that D&R can yield significant performance boosts in few-shot object detection. | 翻訳日:2022-08-29 13:14:33 公開日:2022-08-26 |
# コンピュータビジョンのためのハードウェア・アウェア・モバイルビルディングブロック評価 Hardware-aware mobile building block evaluation for computer vision ( http://arxiv.org/abs/2208.12694v1 ) ライセンス: Link先を確認 | Maxim Bonnaerens, Matthias Freiberger, Marian Verhelst, Joni Dambre | (参考訳) 本研究では,ハードウェアを意識したコンピュータビジョンのための効率的なニューラルネットワーク構築ブロックの性能を正確に評価し,比較する手法を提案する。
本比較では,設計空間からランダムにサンプリングされたネットワークに基づくパレートフロントを用いて,精度・複雑さのトレードオフを捉える。
提案手法は,従来の比較パラダイムで得られた情報と一致するが,ハードウェアコストと精度の関係についてより深い知見を提供する。
我々はこの手法を用いて様々なビルディングブロックを分析し,その性能を各種組込みハードウェアプラットフォームで評価する。
これは、ニューラルネットワークの設計プロセスにおける事前選択ステップとしてビルディングブロックをベンチマークすることの重要性を強調している。
適切なビルディングブロックを選択すると、特定のハードウェアMLアクセラレーターで最大2倍の速度で推論を高速化できることを示す。 In this work we propose a methodology to accurately evaluate and compare the performance of efficient neural network building blocks for computer vision in a hardware-aware manner. Our comparison uses pareto fronts based on randomly sampled networks from a design space to capture the underlying accuracy/complexity trade-offs. We show that our approach allows to match the information obtained by previous comparison paradigms, but provides more insights in the relationship between hardware cost and accuracy. We use our methodology to analyze different building blocks and evaluate their performance on a range of embedded hardware platforms. This highlights the importance of benchmarking building blocks as a preselection step in the design process of a neural network. We show that choosing the right building block can speed up inference by up to a factor of 2x on specific hardware ML accelerators. | 翻訳日:2022-08-29 13:14:09 公開日:2022-08-26 |
# voxurf:voxelベースの効率的かつ正確な神経表面再構成 Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2208.12697v1 ) ライセンス: Link先を確認 | Tong Wu, Jiaqi Wang, Xingang Pan, Xudong Xu, Ziwei Liu, Dahua Lin | (参考訳) 神経表面再構成は、多視点画像に基づく正確な3次元表面の再構築を目的としている。
ニューラルボリュームレンダリングに基づく従来の方法は、主に完全に暗黙のモデルをトレーニングし、1つのシーンで何時間もトレーニングする必要がある。
最近の研究は、学習可能なボクセルグリッドにおける重要な情報を記憶することで最適化プロセスを大幅に加速する明示的な体積表現を探求している。
しかしながら、これらのボクセルに基づく手法は、しばしば細かい幾何学の再構築に苦労する。
実験の結果,高品質な表面再構成は,コヒーレント形状の構築能力と色・幾何学依存性の正確なモデリングの2つの重要な要因にかかっていることがわかった。
特に後者は細部の正確な復元の鍵である。
これらの知見にインスパイアされたVoxurfは,2段階からなる,効率的かつ正確な神経表面再構成のためのボクセルベースアプローチである。
1)学習可能な特徴格子を利用して色場を構築し、コヒーレントな粗い形状を得る。
2) 精密な色-幾何依存性を捉えるデュアルカラーネットワークで詳細な幾何を精査する。
さらに,voxel間の情報共有を可能にする階層幾何機能についても紹介する。
実験の結果,Voxurfは高い効率と高い品質を同時に達成できることがわかった。
dtuベンチマークでは、voxurfは最新技術よりも高いコンストラクション品質を実現し、トレーニングの20倍のスピードアップを実現している。 Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model, and they require hours of training for a single scene. Recent efforts explore the explicit volumetric representation, which substantially accelerates the optimization process by memorizing significant information in learnable voxel grids. However, these voxel-based methods often struggle in reconstructing fine-grained geometry. Through empirical studies, we found that high-quality surface reconstruction hinges on two key factors: the capability of constructing a coherent shape and the precise modeling of color-geometry dependency. In particular, the latter is the key to the accurate reconstruction of fine details. Inspired by these findings, we develop Voxurf, a voxel-based approach for efficient and accurate neural surface reconstruction, which consists of two stages: 1) leverage a learnable feature grid to construct the color field and obtain a coherent coarse shape, and 2) refine detailed geometry with a dual color network that captures precise color-geometry dependency. We further introduce a hierarchical geometry feature to enable information sharing across voxels. Our experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality compared to state-of-the-art methods, with 20x speedup in training. | 翻訳日:2022-08-29 13:13:57 公開日:2022-08-26 |
# 原位置MRI画像からの多モード脳腫瘍切片の学習 : カリキュラム・ディアングルメント・ラーニングによる検討 Learning Multi-Modal Brain Tumor Segmentation from Privileged Semi-Paired MRI Images with Curriculum Disentanglement Learning ( http://arxiv.org/abs/2208.12781v1 ) ライセンス: Link先を確認 | Zecheng Liu and Jia Wei and Rui Li | (参考訳) 臨床におけるマルチモーダルペア画像の獲得が困難であるため,近年の研究では,非ペア画像を用いた脳腫瘍分割モデルの訓練と,モダリティ翻訳による補完的情報収集が提案されている。
しかし、これらのモデルは異なるモダリティから補完情報を完全に活用することはできない。
そこで本研究では,脳腫瘍の分節化のために,トレーニング時にのみ利用できる限定的な半ペア画像(半ペア画像)を効果的に活用するための,新たな2段階のカリキュラム・アンタングルメント学習フレームワークを提案する。
具体的には,まず,モダリティ内スタイル整合画像の拡張による再構成とセグメンテーションを行う。
第2のステップでは、モデルは、未ペア画像とペア画像の両方の再構成、教師なし/教師なし翻訳、セグメンテーションを共同で行う。
本ステップでは,異なるモダリティからの補完的情報を活用するために,コンテンツ一貫性の損失と教師付き翻訳損失を提案する。
この2つのステップを通じて、組織の特徴と画像コントラストの減衰を記述するモダリティ固有のスタイルコードと、入力画像から解剖学的および機能的情報を含むモダリティ不変コンテンツコードとを効果的に抽出する。
3つの脳腫瘍セグメンテーションタスクの実験により、このモデルが非ペア画像に基づく競合セグメンテーションモデルよりも優れていることが示された。 Due to the difficulties of obtaining multimodal paired images in clinical practice, recent studies propose to train brain tumor segmentation models with unpaired images and capture complementary information through modality translation. However, these models cannot fully exploit the complementary information from different modalities. In this work, we thus present a novel two-step (intra-modality and inter-modality) curriculum disentanglement learning framework to effectively utilize privileged semi-paired images, i.e. limited paired images that are only available in training, for brain tumor segmentation. Specifically, in the first step, we propose to conduct reconstruction and segmentation with augmented intra-modality style-consistent images. In the second step, the model jointly performs reconstruction, unsupervised/supervised translation, and segmentation for both unpaired and paired inter-modality images. A content consistency loss and a supervised translation loss are proposed to leverage complementary information from different modalities in this step. Through these two steps, our method effectively extracts modality-specific style codes describing the attenuation of tissue features and image contrast, and modality-invariant content codes containing anatomical and functional information from the input images. Experiments on three brain tumor segmentation tasks show that our model outperforms competing segmentation models based on unpaired images. | 翻訳日:2022-08-29 13:13:34 公開日:2022-08-26 |
# VMFormer: Transformerを使ったエンドツーエンドのビデオマッチング VMFormer: End-to-End Video Matting with Transformer ( http://arxiv.org/abs/2208.12801v1 ) ライセンス: Link先を確認 | Jiachen Li, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Yunchao Wei and Humphrey Shi | (参考訳) ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、過去数年間、深層畳み込みニューラルネットワーク(CNN)によって支配されており、学術と産業の両方においてデファクトスタンダードになっている。
しかし、局所性の帰納バイアスが組み込まれており、CNNアーキテクチャによる画像のグローバルな特徴を捉えていない。
また、複数のフレームの特徴マップを扱う場合の計算コストを考慮した長期時間モデルも欠如している。
本稿では,ビデオマッチングのためのトランスフォーマーに基づくエンドツーエンド手法であるVMFormerを提案する。
ビデオ入力シーケンスから学習可能なクエリから各フレームのアルファマット上での予測を行う。
具体的には、セルフアテンション層を利用して、連続するフレーム上で短距離の時間的モデリングを伴う機能シーケンスのグローバル統合を構築する。
さらに,全ての問合せに対する長距離時間モデルを用いたトランスデコーダにおけるクロスアテンションによるグローバル表現の学習にクエリを適用する。
予測段階では、クエリと対応する機能マップの両方を使用して、アルファマットの最終予測を行う。
実験の結果、VMFormerはCNNベースのビデオ・マッティング法よりも優れていることがわかった。
私たちの知る限りでは、これは学習可能なクエリの予測を備えたフルビジョントランスフォーマー上に構築された、最初のエンドツーエンドビデオマットリングソリューションです。
プロジェクトはhttps://chrisjuniorli.github.io/project/VMFormer/でオープンソース化されている。 Video matting aims to predict the alpha mattes for each frame from a given input video sequence. Recent solutions to video matting have been dominated by deep convolutional neural networks (CNN) for the past few years, which have become the de-facto standard for both academia and industry. However, they have inbuilt inductive bias of locality and do not capture global characteristics of an image due to the CNN-based architectures. They also lack long-range temporal modeling considering computational costs when dealing with feature maps of multiple frames. In this paper, we propose VMFormer: a transformer-based end-to-end method for video matting. It makes predictions on alpha mattes of each frame from learnable queries given a video input sequence. Specifically, it leverages self-attention layers to build global integration of feature sequences with short-range temporal modeling on successive frames. We further apply queries to learn global representations through cross-attention in the transformer decoder with long-range temporal modeling upon all queries. In the prediction stage, both queries and corresponding feature maps are used to make the final prediction of alpha matte. Experiments show that VMFormer outperforms previous CNN-based video matting methods on the composited benchmarks. To our best knowledge, it is the first end-to-end video matting solution built upon a full vision transformer with predictions on the learnable queries. The project is open-sourced at https://chrisjuniorli.github.io/project/VMFormer/ | 翻訳日:2022-08-29 13:13:10 公開日:2022-08-26 |
# Augmented Graph Self-Trainingによるラベル付きノードの学習 Learning with Few Labeled Nodes via Augmented Graph Self-Training ( http://arxiv.org/abs/2208.12422v1 ) ライセンス: Link先を確認 | Kaize Ding, Elnaz Nouri, Guoqing Zheng, Huan Liu and Ryen White | (参考訳) グラフニューラルネットワーク(GNN)の成功は、人間が注釈付けした豊富なデータに大きく依存していることはよく知られている。
ラベル付きノードが少ない場合、高効率なGNNの開発方法はまだ検討されていない。
Though self-training has been shown to be powerful for semi-supervised learning, its application on graph-structured data may fail because (1) larger receptive fields are not leveraged to capture long-range node interactions, which exacerbates the difficulty of propagating feature-label patterns from labeled nodes to unlabeled nodes; and (2) limited labeled data makes it challenging to learn well-separated decision boundaries for different node classes without explicitly capturing the underlying semantic structure.
本稿では,GSTバックボーン上に2つの新しい(構造的および意味的)拡張モジュールを組み込んだ新しいグラフデータ拡張フレームワークAGST(Augmented Graph Self-Training)を提案する。
本研究では,このフレームワークが極めて限定されたラベル付きノードを用いて,効果的なグラフ予測モデルを学ぶことができるか検討する。
制限されたラベル付きノードデータの異なるシナリオで,半教師付きノード分類の包括的評価を行う。
実験結果は,ラベル付きデータが少ないノード分類のための新しいデータ拡張フレームワークのユニークな貢献を示す。 It is well known that the success of graph neural networks (GNNs) highly relies on abundant human-annotated data, which is laborious to obtain and not always available in practice. When only few labeled nodes are available, how to develop highly effective GNNs remains understudied. Though self-training has been shown to be powerful for semi-supervised learning, its application on graph-structured data may fail because (1) larger receptive fields are not leveraged to capture long-range node interactions, which exacerbates the difficulty of propagating feature-label patterns from labeled nodes to unlabeled nodes; and (2) limited labeled data makes it challenging to learn well-separated decision boundaries for different node classes without explicitly capturing the underlying semantic structure. To address the challenges of capturing informative structural and semantic knowledge, we propose a new graph data augmentation framework, AGST (Augmented Graph Self-Training), which is built with two new (i.e., structural and semantic) augmentation modules on top of a decoupled GST backbone. In this work, we investigate whether this novel framework can learn an effective graph predictive model with extremely limited labeled nodes. We conduct comprehensive evaluations on semi-supervised node classification under different scenarios of limited labeled-node data. The experimental results demonstrate the unique contributions of the novel data augmentation framework for node classification with few labeled data. | 翻訳日:2022-08-29 13:12:29 公開日:2022-08-26 |
# 階層型強化学習による自動不均衡学習 Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2208.12433v1 ) ライセンス: Link先を確認 | Daochen Zha, Kwei-Herng Lai, Qiaoyu Tan, Sirui Ding, Na Zou, Xia Hu | (参考訳) 不均衡な学習はデータマイニングにおいて基本的な課題であり、各クラスでトレーニングサンプルの比率が不釣り合いである。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
多くのオーバーサンプリングアルゴリズムが提案されているが、それらはヒューリスティックに大きく依存しており、異なるデータセットとベース分類器の異なるサンプリング戦略を必要とする可能性があるため、性能指標を直接最適化することはできない。
そこで本研究では,大規模かつ階層的な決定空間のため,分類性能を最適化する学習に基づくオーバーサンプリングアルゴリズムの開発について検討する。
高いレベルでは、生成する合成サンプルの数を決定する必要があります。
低レベルでは、合成試料の位置を決定する必要があるが、サンプルの最適な位置はサンプルの数によって異なる可能性があるため、高レベルな決定に依存する。
これらの課題に対処するために、さまざまなレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
SMOTE~\cite{chawla2002smote}とその拡張の成功により、我々は、SMOTE検索空間内で合成サンプルを生成するための3段階のポリシーからなるマルコフ決定プロセス(MDP)として生成プロセスを定式化する。
次に、階層的強化学習を活用し、検証データの性能指標を最適化する。
6つの実世界のデータセットに対する大規模な実験は、AutoSMOTEが最先端のリサンプリングアルゴリズムを大幅に上回っていることを示している。
コードはhttps://github.com/daochenzha/autosmoteにある。 Imbalanced learning is a fundamental challenge in data mining, where there is a disproportionate ratio of training samples in each class. Over-sampling is an effective technique to tackle imbalanced learning through generating synthetic samples for the minority class. While numerous over-sampling algorithms have been proposed, they heavily rely on heuristics, which could be sub-optimal since we may need different sampling strategies for different datasets and base classifiers, and they cannot directly optimize the performance metric. Motivated by this, we investigate developing a learning-based over-sampling algorithm to optimize the classification performance, which is a challenging task because of the huge and hierarchical decision space. At the high level, we need to decide how many synthetic samples to generate. At the low level, we need to determine where the synthetic samples should be located, which depends on the high-level decision since the optimal locations of the samples may differ for different numbers of samples. To address the challenges, we propose AutoSMOTE, an automated over-sampling algorithm that can jointly optimize different levels of decisions. Motivated by the success of SMOTE~\cite{chawla2002smote} and its extensions, we formulate the generation process as a Markov decision process (MDP) consisting of three levels of policies to generate synthetic samples within the SMOTE search space. Then we leverage deep hierarchical reinforcement learning to optimize the performance metric on the validation data. Extensive experiments on six real-world datasets demonstrate that AutoSMOTE significantly outperforms the state-of-the-art resampling algorithms. The code is at https://github.com/daochenzha/autosmote | 翻訳日:2022-08-29 13:11:53 公開日:2022-08-26 |
# 解釈可能データ協調解析におけるSMOTEのもう1つの活用 Another Use of SMOTE for Interpretable Data Collaboration Analysis ( http://arxiv.org/abs/2208.12458v1 ) ライセンス: Link先を確認 | Akira Imakura, Masateru Kihira, Yukihiko Okada, Tetsuya Sakurai | (参考訳) 近年,複数の機関にまたがるプライバシー保護統合分析のためのデータコラボレーション(DC)分析が開発されている。
DC解析は、個別に構築された次元再現型中間表現を集中化し、元のデータを共有せずに協調表現による統合解析を実現する。
協調表現を構築するために、各機関は共有可能なアンカーデータセットを生成し、その中間表現を集中化する。
ランダムアンカーデータセットは, 一般にDC解析においてよく機能するが, 生データセットに近い分布を持つアンカーデータセットを用いることで, 特に直流解析において, 認識性能の向上が期待できる。
本研究では,合成マイノリティオーバーサンプリング手法(smote)の拡張に基づき,データ漏洩のリスクを増大させることなく認識性能を向上させるアンカーデータ構築手法を提案する。
数値計算により,人工および実世界のデータセットに対する既存のアンカーデータ構築に対するSMOTE法の有効性を示す。
具体的には、既存の所得データセットの方法に対して、正確性および本質的特徴選択に関して、9パーセンテージポイントと38パーセンテージのパフォーマンス改善を達成する。
提案手法は、不均衡なデータ分類ではなく、プライバシー保護統合分析の重要な技術としてSMOTEの別の用途を提供する。 Recently, data collaboration (DC) analysis has been developed for privacy-preserving integrated analysis across multiple institutions. DC analysis centralizes individually constructed dimensionality-reduced intermediate representations and realizes integrated analysis via collaboration representations without sharing the original data. To construct the collaboration representations, each institution generates and shares a shareable anchor dataset and centralizes its intermediate representation. Although, random anchor dataset functions well for DC analysis in general, using an anchor dataset whose distribution is close to that of the raw dataset is expected to improve the recognition performance, particularly for the interpretable DC analysis. Based on an extension of the synthetic minority over-sampling technique (SMOTE), this study proposes an anchor data construction technique to improve the recognition performance without increasing the risk of data leakage. Numerical results demonstrate the efficiency of the proposed SMOTE-based method over the existing anchor data constructions for artificial and real-world datasets. Specifically, the proposed method achieves 9 percentage point and 38 percentage point performance improvements regarding accuracy and essential feature selection, respectively, over existing methods for an income dataset. The proposed method provides another use of SMOTE not for imbalanced data classifications but for a key technology of privacy-preserving integrated analysis. | 翻訳日:2022-08-29 13:11:20 公開日:2022-08-26 |
# perspective-1-楕円体:ユークリッド空間における楕円体ポーズ推定問題の定式化、解析および解法 Perspective-1-Ellipsoid: Formulation, Analysis and Solutions of the Ellipsoid Pose Estimation Problem in Euclidean Space ( http://arxiv.org/abs/2208.12513v1 ) ライセンス: Link先を確認 | Vincent Gaudilli\`ere, Gilles Simon, Marie-Odile Berger | (参考訳) コンピュータビジョンでは、3次元幾何学的実体と画像への投影との対応からカメラのポーズ推定が広く研究されている。
多くの最先端の手法は、ポイントやラインのような低レベルプリミティブを利用するが、近年の非常に効果的なCNNベースのオブジェクト検出器の出現は、意味論的に意味のある情報を持つ高レベルな特徴の使用への道を開いた。
この方向のパイオニアは、楕円体による3Dオブジェクトのモデリングと楕円体による2D検出が、2Dデータと3Dデータをリンクするのに便利な方法であることを示した。
しかし、関連するlitteratureでよく使われる数学的形式論は、楕円形や楕円形を他の二次や円錐形と容易に区別することはできず、いくつかの発展において潜在的に有害な特異性の喪失に繋がる。
さらに、投射方程式の線形化過程は、カメラパラメータの過剰表現を生成し、効率損失を引き起こす可能性がある。
そこで本稿では,楕円体固有の理論的枠組みを導入し,ポーズ推定の文脈においてその有益性を示す。
より正確には、提案形式は、残りの未知を閉形式で導出できる位置または向きのみの推定問題にエリプソイドポーズ推定問題を還元することができることを示す。
次に,1自由度 (1dof) 問題にさらに縮小できることを示し,その一意なスカラーの関数として,ポーズの分析表現を提供する。
我々は視覚的な例によって理論的考察を説明する。
最後に,エリプソイド関連ポーズ推定問題のより効率的な解決に寄与するために,この研究をリリースする。 In computer vision, camera pose estimation from correspondences between 3D geometric entities and their projections into the image has been a widely investigated problem. Although most state-of-the-art methods exploit low-level primitives such as points or lines, the emergence of very effective CNN-based object detectors in the recent years has paved the way to the use of higher-level features carrying semantically meaningful information. Pioneering works in that direction have shown that modelling 3D objects by ellipsoids and 2D detections by ellipses offers a convenient manner to link 2D and 3D data. However, the mathematical formalism most often used in the related litterature does not enable to easily distinguish ellipsoids and ellipses from other quadrics and conics, leading to a loss of specificity potentially detrimental in some developments. Moreover, the linearization process of the projection equation creates an over-representation of the camera parameters, also possibly causing an efficiency loss. In this paper, we therefore introduce an ellipsoid-specific theoretical framework and demonstrate its beneficial properties in the context of pose estimation. More precisely, we first show that the proposed formalism enables to reduce the ellipsoid pose estimation problem to a position or orientation-only estimation problem in which the remaining unknowns can be derived in closed-form. Then, we demonstrate that it can be further reduced to a 1 Degree-of-Freedom (1DoF) problem and provide the analytical expression of the pose as a function of that unique scalar unknown. We illustrate our theoretical considerations by visual examples. Finally, we release this work in order to contribute towards more efficient resolutions of ellipsoid-related pose estimation problems. | 翻訳日:2022-08-29 13:08:44 公開日:2022-08-26 |
# クロスモダリティクロスドメイン知識転送による教師なしスパイク深さ推定 Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer ( http://arxiv.org/abs/2208.12527v1 ) ライセンス: Link先を確認 | Jiaming Liu, Qizhe Zhang, Jianing Li, Ming Lu, Tiejun Huang, and Shanghang Zhang | (参考訳) このニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、時間分解能の高いデータストリームを生成する。
RGBストリームとは対照的に、スパイクストリームは動きのぼかしを克服する固有の利点があり、高速物体のより正確な深さ推定につながる。
しかし, スパイク深度推定ネットワークのトレーニングは, 時間的に集中的なスパイクストリームのためのペア深度ラベルの取得が極めて困難であるため, ほぼ不可能である。
本稿では,全深度ラベルを用いたスパイクストリームデータセットを構築する代わりに,オープンソースのRGBデータセット(KITTIなど)から知識を伝達し,教師なしの方法でスパイクストリームを推定する。
このような問題の鍵となる課題は、RGBとスパイクモダリティの間のモダリティギャップと、ラベル付きソースRGBとラベル付きターゲットスパイクドメインの間のドメインギャップである。
これらの課題を克服するために,教師なしスパイク深さ推定のためのクロスモダリティクロスドメイン(bicross)フレームワークを提案する。
提案手法は,ソーススパイク領域を媒介としたシミュレーションにより,ソースRGBとターゲットスパイクの巨大なギャップを狭める。
具体的には、クロスモダリティフェーズにおいて、画像と画素レベルの知識をソースrgbからソーススパイクに転送する新しい粗粒度から細度までの知識蒸留(cfkd)を提案する。
このような設計は、それぞれRGBとスパイクモーダルの豊富な意味情報と密集時間情報を活用する。
クロスドメインフェーズでは、不確実性誘導平均教師(ugmt)を導入し、不確実性推定を伴う信頼できる擬似ラベルを生成し、ソーススパイクとターゲットスパイクドメイン間のシフトを緩和する。
さらに、2つのドメイン間の機能を調整し、より信頼性の高い擬似ラベルを生成するグローバルレベル機能アライメント手法(glfa)を提案する。 The neuromorphic spike camera generates data streams with high temporal resolution in a bio-inspired way, which has vast potential in the real-world applications such as autonomous driving. In contrast to RGB streams, spike streams have an inherent advantage to overcome motion blur, leading to more accurate depth estimation for high-velocity objects. However, training the spike depth estimation network in a supervised manner is almost impossible since it is extremely laborious and challenging to obtain paired depth labels for temporally intensive spike streams. In this paper, instead of building a spike stream dataset with full depth labels, we transfer knowledge from the open-source RGB datasets (e.g., KITTI) and estimate spike depth in an unsupervised manner. The key challenges for such problem lie in the modality gap between RGB and spike modalities, and the domain gap between labeled source RGB and unlabeled target spike domains. To overcome these challenges, we introduce a cross-modality cross-domain (BiCross) framework for unsupervised spike depth estimation. Our method narrows the enormous gap between source RGB and target spike by introducing the mediate simulated source spike domain. To be specific, for the cross-modality phase, we propose a novel Coarse-to-Fine Knowledge Distillation (CFKD), which transfers the image and pixel level knowledge from source RGB to source spike. Such design leverages the abundant semantic and dense temporal information of RGB and spike modalities respectively. For the cross-domain phase, we introduce the Uncertainty Guided Mean-Teacher (UGMT) to generate reliable pseudo labels with uncertainty estimation, alleviating the shift between the source spike and target spike domains. Besides, we propose a Global-Level Feature Alignment method (GLFA) to align the feature between two domains and generate more reliable pseudo labels. | 翻訳日:2022-08-29 13:08:14 公開日:2022-08-26 |
# Mori-RAN:ハイブリッドコントラスト融合によるマルチビューロバスト表現学習 MORI-RAN: Multi-view Robust Representation Learning via Hybrid Contrastive Fusion ( http://arxiv.org/abs/2208.12545v1 ) ライセンス: Link先を確認 | Guanzhou Ke, Yongqi Zhu, Yang Yu | (参考訳) マルチビュー表現学習は、クラスタリングや分類など、多くのマルチビュータスクに不可欠である。
しかし、コミュニティを困惑させる2つの課題がある。
一 大量ラベルなしデータから堅牢な多視点表現の学習方法及び方法
二 ビューの一貫性とビューの特異性のバランスをとる方法
そこで本稿では,ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。
具体的には、追加の表現空間の導入とこの空間での表現の整合により、モデルが堅牢なビュー共通表現を学習できることがわかった。
同時に,モデルが自明な解を得られないことを保証するために,非対称なコントラスト戦略を考案した。
実験の結果,提案手法は4つの実世界のデータセットにおいて,クラスタリングと分類において12の競合的マルチビュー手法を上回った。
ソースコードは近く、 \url{https://github.com/guanzhou-ke/mori-ran}で入手できる。 Multi-view representation learning is essential for many multi-view tasks, such as clustering and classification. However, there are two challenging problems plaguing the community: i)how to learn robust multi-view representation from mass unlabeled data and ii) how to balance the view consistency and the view specificity. To this end, in this paper, we proposed a hybrid contrastive fusion algorithm to extract robust view-common representation from unlabeled data. Specifically, we found that introducing an additional representation space and aligning representations on this space enables the model to learn robust view-common representations. At the same time, we designed an asymmetric contrastive strategy to ensure that the model does not obtain trivial solutions. Experimental results demonstrated that the proposed method outperforms 12 competitive multi-view methods on four real-world datasets in terms of clustering and classification. Our source code will be available soon at \url{https://github.com/guanzhou-ke/mori-ran}. | 翻訳日:2022-08-29 13:07:40 公開日:2022-08-26 |
# MIDOG 2022チャレンジのためのステイン・ローバスト・ミトティック・フィギュア検出 Stain-Robust Mitotic Figure Detection for MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.12587v1 ) ライセンス: Link先を確認 | Mostafa Jahanifar, Adam Shephard, Neda Zamanitajeddin, Shan E Ahmed Raza, Nasir Rajpoot | (参考訳) 異なるスキャナー/サイトからの僧帽弁像の検出は,臨床医の腫瘍診断支援の可能性から,重要な研究課題である。
Mitosis DOmain Generalization (MIDOG) 2022の課題は、複数のスキャナーや組織タイプから見えないデータに対する検出モデルの堅牢性をテストすることである。
この課題に対処するために,TAAセンターチームが採用したアプローチの概要を紹介する。
我々のアプローチは、深層学習分類器によって洗練される前に、分裂候補をセグメント化するハイブリッド検出モデルに基づいている。
トレーニング画像のクロスバリデーションは予備テストセットで0.816, 0.784のf1-scoreを達成し,新しいスキャナからデータを取得するための汎用性を示した。 The detection of mitotic figures from different scanners/sites remains an important topic of research, owing to its potential in assisting clinicians with tumour grading. The MItosis DOmain Generalization (MIDOG) 2022 challenge aims to test the robustness of detection models on unseen data from multiple scanners and tissue types for this task. We present a short summary of the approach employed by the TIA Centre team to address this challenge. Our approach is based on a hybrid detection model, where mitotic candidates are segmented, before being refined by a deep learning classifier. Cross-validation on the training images achieved the F1-score of 0.816 and 0.784 on the preliminary test set, demonstrating the generalizability of our model to unseen data from new scanners. | 翻訳日:2022-08-29 13:07:27 公開日:2022-08-26 |
# WSIレベルからパッチレベル:構造前誘導二核細胞微細検出 From WSI-level to Patch-level: Structure Prior Guided Binuclear Cell Fine-grained Detection ( http://arxiv.org/abs/2208.12623v1 ) ライセンス: Link先を確認 | Baomin Wang, Geng Hu, Dan Chen, Lihua Hu, Cheng Li, Yu An, Guiping Hu, Guang Jia | (参考訳) 白血病やその他の悪性腫瘍のリスクを予測する上で、正確かつ迅速にbcの検出は重要な役割を果たす。
しかし、手動顕微鏡の計数には時間がかかり、客観性に欠ける。
さらに,BC顕微鏡全スライド画像(WSI)における染色品質の限界や形態特徴の多様性により,従来の画像処理手法は役に立たない。
この課題を克服するために,深層学習に基づくBC 以前の構造にインスパイアされた2段階検出手法を提案し,BC の粗い検出を WSI レベルで実装し,パッチレベルできめ細かい分類を行う。
粗い検出ネットワークは、細胞検出のための円形境界ボックスと核検出のための中心キーポイントに基づくマルチタスク検出フレームワークである。
円の表現は自由度を減少させ、通常の矩形箱に比べて周囲の不純物の影響を緩和し、wsiで回転不変となる。
核内のキーポイントの検出はネットワーク知覚を補助し、後の細粒度分類において教師なし色層分割に使用できる。
詳細な分類網は、色層マスク監視に基づく背景領域抑制モジュールと、そのグローバルなモデリング能力によりトランスフォーマに基づくキー領域選択モジュールとから構成される。
さらに、長い尾の分布データセットを拡張するために、教師なしおよびペアなしの細胞質発生ネットワークが最初に提案されている。
最後に、bcマルチセンターデータセットで実験を行う。
提案手法は,がん検診などのタスクの明確化とサポートを提供するため,評価基準のほぼすべてにおいて,他のベンチマークよりも優れている。 Accurately and quickly binuclear cell (BC) detection plays a significant role in predicting the risk of leukemia and other malignant tumors. However, manual microscopy counting is time-consuming and lacks objectivity. Moreover, with the limitation of staining quality and diversity of morphology features in BC microscopy whole slide images (WSIs), traditional image processing approaches are helpless. To overcome this challenge, we propose a two-stage detection method inspired by the structure prior of BC based on deep learning, which cascades to implement BCs coarse detection at the WSI-level and fine-grained classification in patch-level. The coarse detection network is a multi-task detection framework based on circular bounding boxes for cells detection, and central key points for nucleus detection. The circle representation reduces the degrees of freedom, mitigates the effect of surrounding impurities compared to usual rectangular boxes and can be rotation invariant in WSI. Detecting key points in the nucleus can assist network perception and be used for unsupervised color layer segmentation in later fine-grained classification. The fine classification network consists of a background region suppression module based on color layer mask supervision and a key region selection module based on a transformer due to its global modeling capability. Additionally, an unsupervised and unpaired cytoplasm generator network is firstly proposed to expand the long-tailed distribution dataset. Finally, experiments are performed on BC multicenter datasets. The proposed BC fine detection method outperforms other benchmarks in almost all the evaluation criteria, providing clarification and support for tasks such as cancer screenings. | 翻訳日:2022-08-29 13:07:11 公開日:2022-08-26 |
# プライバシ対応顔画像処理における不整合表現の選択的操作 Selective manipulation of disentangled representations for privacy-aware facial image processing ( http://arxiv.org/abs/2208.12632v1 ) ライセンス: Link先を確認 | Sander De Coninck, Wei-Cheng Wang, Sam Leroux, Pieter Simoens | (参考訳) カメラセンサーと機械学習が組み合わさって、インテリジェントな監視などさまざまなタスクをこなしている。
計算の複雑さのため、これらの機械学習アルゴリズムのほとんどは、処理のためにクラウドにオフロードされる。
しかし、サードパーティのクラウドプロバイダによる機能障害や悪意のある使用など、プライバシの問題に対する懸念が高まっている。
これを軽減するために,センサデータがクラウドに送信される前に,プライバシーに敏感な属性を除去するエッジベースのフィルタリングステージを提案する。
プライバシフィルタリングを実現するために,異種表現を利用した最先端画像操作技術を使用する。
我々はオプトインとオプトアウトのフィルタ操作を定義し、顔画像からのプライベート属性のフィルタリングの有効性を評価する。
さらに,自然発生する相関と残差情報がフィルタリングに与える影響について検討する。
この結果が期待でき、プライバシー保護のために画像操作をどのように利用できるか、さらなる研究につながると信じています。 Camera sensors are increasingly being combined with machine learning to perform various tasks such as intelligent surveillance. Due to its computational complexity, most of these machine learning algorithms are offloaded to the cloud for processing. However, users are increasingly concerned about privacy issues such as function creep and malicious usage by third-party cloud providers. To alleviate this, we propose an edge-based filtering stage that removes privacy-sensitive attributes before the sensor data are transmitted to the cloud. We use state-of-the-art image manipulation techniques that leverage disentangled representations to achieve privacy filtering. We define opt-in and opt-out filter operations and evaluate their effectiveness for filtering private attributes from face images. Additionally, we examine the effect of naturally occurring correlations and residual information on filtering. We find the results promising and believe this elicits further research on how image manipulation can be used for privacy preservation. | 翻訳日:2022-08-29 13:06:45 公開日:2022-08-26 |
# スパイクカメラ用不確かさ誘導深度融合 Uncertainty Guided Depth Fusion for Spike Camera ( http://arxiv.org/abs/2208.12653v1 ) ライセンス: Link先を確認 | Jianing Li, Jiaming Liu, Xiaobao Wei, Jiyuan Zhang, Ming Lu, Lei Ma, Li Du, Tiejun Huang, Shanghang Zhang | (参考訳) 奥行き推定は、自動運転のような様々な重要な実世界応用に不可欠である。
しかし、従来のカメラではぼやけた画像しか撮影できないため、高速シナリオでは性能が著しく低下する。
この問題に対処するため、spike cameraはピクセル毎の輝度強度を高いフレームレートで捉えるように設計されている。
しかし, スパイクカメラを用いた深度推定は, 光度整合性に基づく従来の単分子・ステレオ深度推定アルゴリズムを用いて非常に困難である。
本稿では,スパイクカメラの単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
ステレオスパイク深度推定は近距離でより良い結果が得られるのに対し,モノクラースパイク深度推定は長距離でより良い結果が得られるという事実が本フレームワークの動機となっている。
そこで本研究では,共同学習戦略を用いた2タスク奥行き推定アーキテクチャを導入し,分散不確かさを推定し,単眼とステレオを融合させる。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すために,20K対のサンプルを含むCitySpike20Kというスパイク深度データセットを用いてスパイク深度推定を行う。
UGDFはCitySpike20Kで最先端の結果を達成し、モノクラーまたはステレオスパイク深さ推定ベースラインを全て上回っている。
我々は,CitySpike20Kにおける手法の有効性と一般化を評価するため,広範囲な実験を行った。
我々の知る限り、我々のフレームワークはスパイクカメラ深度推定のための最初のデュアルタスク融合フレームワークである。
コードとデータセットがリリースされる。 Depth estimation is essential for various important real-world applications such as autonomous driving. However, it suffers from severe performance degradation in high-velocity scenario since traditional cameras can only capture blurred images. To deal with this problem, the spike camera is designed to capture the pixel-wise luminance intensity at high frame rate. However, depth estimation with spike camera remains very challenging using traditional monocular or stereo depth estimation algorithms, which are based on the photometric consistency. In this paper, we propose a novel Uncertainty-Guided Depth Fusion (UGDF) framework to fuse the predictions of monocular and stereo depth estimation networks for spike camera. Our framework is motivated by the fact that stereo spike depth estimation achieves better results at close range while monocular spike depth estimation obtains better results at long range. Therefore, we introduce a dual-task depth estimation architecture with a joint training strategy and estimate the distributed uncertainty to fuse the monocular and stereo results. In order to demonstrate the advantage of spike depth estimation over traditional camera depth estimation, we contribute a spike-depth dataset named CitySpike20K, which contains 20K paired samples, for spike depth estimation. UGDF achieves state-of-the-art results on CitySpike20K, surpassing all monocular or stereo spike depth estimation baselines. We conduct extensive experiments to evaluate the effectiveness and generalization of our method on CitySpike20K. To the best of our knowledge, our framework is the first dual-task fusion framework for spike camera depth estimation. Code and dataset will be released. | 翻訳日:2022-08-29 13:06:02 公開日:2022-08-26 |
# ミトコンドリア検出のためのマルチタスクRetinaNet Multi tasks RetinaNet for mitosis detection ( http://arxiv.org/abs/2208.12657v1 ) ライセンス: Link先を確認 | Chen Yang, Wang Ziyue, Fang Zijie, Bian Hao, Zhang Yongbing | (参考訳) 分裂細胞の説明は腫瘍診断における重要な特徴である。
しかし、分裂細胞の形態の変化により、腫瘍組織中の分裂細胞を検出することは非常に難しい課題である。
同時に、高度な深層学習法は細胞検出において大きな成功をおさめたが、他のドメインからのデータ(腫瘍の種類やスキャナの違いなど)をテストすると、その性能は満足できないことが多い。
したがって、ドメインシフトシナリオにおいて、ロバスト性を持つ分裂細胞を検出するアルゴリズムを開発する必要がある。
さらに,本研究は,ベースライン(retinanet)に基づく前景検出および腫瘍分類タスクを提案し,データ拡張により,このモデルのドメイン汎化性能を向上させる。
難解な事前テストデータセット上での最先端のパフォーマンス(f1スコア: 0.5809)を達成する。 The account of mitotic cells is a key feature in tumor diagnosis. However, due to the variability of mitotic cell morphology, it is a highly challenging task to detect mitotic cells in tumor tissues. At the same time, although advanced deep learning method have achieved great success in cell detection, the performance is often unsatisfactory when tested data from another domain (i.e. the different tumor types and different scanners). Therefore, it is necessary to develop algorithms for detecting mitotic cells with robustness in domain shifts scenarios. Our work further proposes a foreground detection and tumor classification task based on the baseline(Retinanet), and utilizes data augmentation to improve the domain generalization performance of our model. We achieve the state-of-the-art performance (F1 score: 0.5809) on the challenging premilary test dataset. | 翻訳日:2022-08-29 13:05:36 公開日:2022-08-26 |
# 拡散モデルによるストロークおよびスケッチからの適応リアリスティック画像生成 Adaptively-Realistic Image Generation from Stroke and Sketch with Diffusion Model ( http://arxiv.org/abs/2208.12675v1 ) ライセンス: Link先を確認 | Shin-I Cheng, Yu-Jie Chen, Wei-Chen Chiu, Hsin-Ying Lee, Hung-Yu Tseng | (参考訳) 手描きから画像を生成することは、コンテンツ作成において重要かつ基本的なタスクである。
翻訳は無限の可能性があり、異なるユーザーが通常異なる結果を期待するので難しい。
そこで本研究では,拡散モデルに基づくスケッチやストロークからの3次元画像合成制御を支援する統一フレームワークを提案する。
ユーザは、入力されたストロークやスケッチに対する忠実さのレベルを決定するだけでなく、実際の画像とユーザの入力が一致しないため、リアリズムのレベルも決めることができる。
質的かつ定量的な実験により,我々のフレームワークが最先端のパフォーマンスを実現し,形状,色,リアリズムを制御してカスタマイズした画像を生成する際の柔軟性が得られている。
さらに,本手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。 Generating images from hand-drawings is a crucial and fundamental task in content creation. The translation is difficult as there exist infinite possibilities and the different users usually expect different outcomes. Therefore, we propose a unified framework supporting a three-dimensional control over the image synthesis from sketches and strokes based on diffusion models. Users can not only decide the level of faithfulness to the input strokes and sketches, but also the degree of realism, as the user inputs are usually not consistent with the real images. Qualitative and quantitative experiments demonstrate that our framework achieves state-of-the-art performance while providing flexibility in generating customized images with control over shape, color, and realism. Moreover, our method unleashes applications such as editing on real images, generation with partial sketches and strokes, and multi-domain multi-modal synthesis. | 翻訳日:2022-08-29 13:05:24 公開日:2022-08-26 |
# 学習と構成性:コネクショナリスト確率型プログラミングによる統一の試み Learning and Compositionality: a Unification Attempt via Connectionist Probabilistic Programming ( http://arxiv.org/abs/2208.12789v1 ) ライセンス: Link先を確認 | Ximing Qiao, Hai Li | (参考訳) 人間の知性をシミュレートするための重要なメカニズムとして,学習と構成性を考える。
それぞれのメカニズムはそれぞれニューラルネットワークとシンボリックAIによって達成されているが、人間のような知性を可能にする2つのメカニズムの組み合わせである。
ハイブリッドなニューラルシンボリックシステムの構築には多くの試みがあったが、真のゴールは学習と構成性を統一することであり、コアメカニズムはニューラル・シンボリックな手法ではなく、表面がそれらを達成するためのアプローチである、と我々は論じている。
本研究では,その形態と意味(構造と意味)を分離し,ニューラルネットワークと記号的手法の強みと弱さを検証し,コネクショナリスト構造(学習用)と確率的プログラムセマンティクス(構成性用)を接続するフレームワークであるコネクショナリスト確率プログラム(CPP)を提案する。
本フレームワークでは,小規模シーケンスモデリングのためのCPP拡張を設計し,ベイズ推定に基づく学習アルゴリズムを提供する。
教師なしの複雑なパターンの学習には課題があるが、初期の結果は、CPPが生のシーケンシャルデータから概念と関係の抽出に成功したことを示している。 We consider learning and compositionality as the key mechanisms towards simulating human-like intelligence. While each mechanism is successfully achieved by neural networks and symbolic AIs, respectively, it is the combination of the two mechanisms that makes human-like intelligence possible. Despite the numerous attempts on building hybrid neuralsymbolic systems, we argue that our true goal should be unifying learning and compositionality, the core mechanisms, instead of neural and symbolic methods, the surface approaches to achieve them. In this work, we review and analyze the strengths and weaknesses of neural and symbolic methods by separating their forms and meanings (structures and semantics), and propose Connectionist Probabilistic Program (CPPs), a framework that connects connectionist structures (for learning) and probabilistic program semantics (for compositionality). Under the framework, we design a CPP extension for small scale sequence modeling and provide a learning algorithm based on Bayesian inference. Although challenges exist in learning complex patterns without supervision, our early results demonstrate CPP's successful extraction of concepts and relations from raw sequential data, an initial step towards compositional learning. | 翻訳日:2022-08-29 13:02:59 公開日:2022-08-26 |
# Few-Shot Learning Meets Transformer: Unified Query-Support Transformer for Few-Shot Classification Few-Shot Learning Meets Transformer: Unified Query-Support Transformers for Few-Shot Classification ( http://arxiv.org/abs/2208.12398v1 ) ライセンス: Link先を確認 | Xixi Wang, Xiao Wang, Bo Jiang, Bin Luo | (参考訳) 非常に限られたサンプルを用いて未確認のクラスを識別することを目的とした画像分類が注目されている。
通常、メートル法学習問題として定式化される。
本研究の主な課題は,(1)サポートセットとクエリセット間の画像の一貫性のある表現,(2)サポートセットとクエリセット間の画像の効果的なメトリック学習の学習方法である。
本稿では,統一クエリ支援トランスフォーマ(qsformer)モデルを用いて,この2つの課題を同時にモデル化できることを示す。
具体的には、QSFormerはグローバルクエリをサポートするサンプルTransformer(sampleFormer)ブランチとローカルパッチTransformer(patchFormer)学習ブランチを含む。
sampleformerは、サポート中のサンプルと画像表現のためのクエリセットの依存性をキャプチャすることを目的としている。
これはEncoder、Decoder、Cross-Attentionを採用し、数ショットの分類タスクでそれぞれサポート、クエリ(イメージ)表現、メトリック学習をモデル化する。
また,グローバル・ラーニング・ブランチの補完として,ローカル・パッチ・トランスフォーマーを採用し,ローカル・イメージ・パッチの長距離依存性を捉え,各画像サンプルの構造的表現を抽出する。
また,提案手法の有効なバックボーンモジュールとして,マルチスケールcnn機能を抽出・融合するために,新しいクロススケールインタラクティブ特徴抽出器(cife)を提案する。
すべてのモジュールは統一されたフレームワークに統合され、エンドツーエンドでトレーニングされる。
4つの一般的なデータセットに対する大規模な実験は、提案したQSFormerの有効性と優位性を示している。 Few-shot classification which aims to recognize unseen classes using very limited samples has attracted more and more attention. Usually, it is formulated as a metric learning problem. The core issue of few-shot classification is how to learn (1) consistent representations for images in both support and query sets and (2) effective metric learning for images between support and query sets. In this paper, we show that the two challenges can be well modeled simultaneously via a unified Query-Support TransFormer (QSFormer) model. To be specific,the proposed QSFormer involves global query-support sample Transformer (sampleFormer) branch and local patch Transformer (patchFormer) learning branch. sampleFormer aims to capture the dependence of samples in support and query sets for image representation. It adopts the Encoder, Decoder and Cross-Attention to respectively model the Support, Query (image) representation and Metric learning for few-shot classification task. Also, as a complementary to global learning branch, we adopt a local patch Transformer to extract structural representation for each image sample by capturing the long-range dependence of local image patches. In addition, a novel Cross-scale Interactive Feature Extractor (CIFE) is proposed to extract and fuse multi-scale CNN features as an effective backbone module for the proposed few-shot learning method. All modules are integrated into a unified framework and trained in an end-to-end manner. Extensive experiments on four popular datasets demonstrate the effectiveness and superiority of the proposed QSFormer. | 翻訳日:2022-08-29 13:01:54 公開日:2022-08-26 |
# 確率マップを用いたセグメンテーションによる任意形状テキストの検出 Arbitrary Shape Text Detection via Segmentation with Probability Maps ( http://arxiv.org/abs/2208.12419v1 ) ライセンス: Link先を確認 | Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin | (参考訳) 任意形状テキスト検出は、サイズやアスペクト比、任意の向きや形、不正確なアノテーションなど、大きく変化するため、困難なタスクである。
画素レベルの予測のスケーラビリティのため、セグメンテーションベースの手法は様々な形状のテキストに適応できるため、近年注目されている。
しかし、テキストの正確なピクセルレベルのアノテーションは恐ろしく、既存のシーンテキスト検出用データセットは粗い境界アノテーションのみを提供する。
その結果、アノテーション内の多数の誤分類されたテキストピクセルや背景ピクセルが常に存在し、セグメンテーションに基づくテキスト検出手法の性能が低下する。
一般に、ピクセルがテキストに属するか否かは、隣接するアノテーション境界との距離と非常に関係がある。
本稿では,テキストインスタンスを正確に検出する確率マップを用いた,革新的で堅牢なセグメンテーションに基づく検出手法を提案する。
具体的には、SAF(Sigmoid Alpha Function)を用いて、境界と内部画素間の距離を確率マップに転送する。
しかし、粗いテキスト境界アノテーションの不確かさのため、ある確率写像は複雑な確率分布をうまくカバーできない。
そこで本研究では,一連のシグモイドアルファ関数によって計算された確率写像群を用いて確率分布を記述する。
さらに,テキストインスタンスの再構築に十分な情報を提供するために,確率マップの予測と同化を学習するための反復モデルを提案する。
最後に、単純な領域成長アルゴリズムを使用して、確率マップを完全なテキストインスタンスに集約する。
実験の結果,複数のベンチマークで検出精度の点で最先端の性能が得られることがわかった。 Arbitrary shape text detection is a challenging task due to the significantly varied sizes and aspect ratios, arbitrary orientations or shapes, inaccurate annotations, etc. Due to the scalability of pixel-level prediction, segmentation-based methods can adapt to various shape texts and hence attracted considerable attention recently. However, accurate pixel-level annotations of texts are formidable, and the existing datasets for scene text detection only provide coarse-grained boundary annotations. Consequently, numerous misclassified text pixels or background pixels inside annotations always exist, degrading the performance of segmentation-based text detection methods. Generally speaking, whether a pixel belongs to text or not is highly related to the distance with the adjacent annotation boundary. With this observation, in this paper, we propose an innovative and robust segmentation-based detection method via probability maps for accurately detecting text instances. To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map. However, one probability map can not cover complex probability distributions well because of the uncertainty of coarse-grained text boundary annotations. Therefore, we adopt a group of probability maps computed by a series of Sigmoid Alpha Functions to describe the possible probability distributions. In addition, we propose an iterative model to learn to predict and assimilate probability maps for providing enough information to reconstruct text instances. Finally, simple region growth algorithms are adopted to aggregate probability maps to complete text instances. Experimental results demonstrate that our method achieves state-of-the-art performance in terms of detection accuracy on several benchmarks. | 翻訳日:2022-08-29 13:01:26 公開日:2022-08-26 |
# MIDOG 2022チャレンジのための畳み込みニューラルネットワークによるミトコンドリアの検出 Detecting Mitoses with a Convolutional Neural Network for MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.12437v1 ) ライセンス: Link先を確認 | Hongyan Gu, Mohammad Haeri, Shuo Ni, Christopher Kazu Williams, Neda Zarrin-Khameh, Shino Magaki, and Xiang 'Anthony' Chen | (参考訳) 本研究では,1つのバニラ畳み込みニューラルネットワーク(CNN)のみを用いたミオシス検出手法を提案する。
提案手法は,画像が与えられた場合,まず,ミトースを有するパッチを抽出するスライディングウインドウ手法を用いてCNNを適用し,抽出したパッチのクラス活性化マップを算出し,ミトーシスの正確な位置を求める。
モデルの一般化性を高めるため、一連のデータ拡張手法、ノイズラベル付き画像に対処する損失、アクティブな学習戦略を用いてCNNを訓練する。
提案手法はMIDOG 2022チャレンジの予備試験段階において,有効Net-b3モデルを用いたF1スコア0.7323を達成した。 This work presents a mitosis detection method with only one vanilla Convolutional Neural Network (CNN). Our approach consists of two steps: given an image, we first apply a CNN using a sliding window technique to extract patches that have mitoses; we then calculate each extracted patch's class activation map to obtain the mitosis's precise location. To increase the model generalizability, we train the CNN with a series of data augmentation techniques, a loss that copes with noise-labeled images, and an active learning strategy. Our approach achieved an F1 score of 0.7323 with an EfficientNet-b3 model in the preliminary test phase of the MIDOG 2022 challenge. | 翻訳日:2022-08-29 13:01:00 公開日:2022-08-26 |
# CMD:相互蒸留を用いた自己教師型3次元行動表現学習 CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation ( http://arxiv.org/abs/2208.12448v1 ) ライセンス: Link先を確認 | Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li | (参考訳) 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
それでも、この情報をモデル化し活用する方法は、自己教師付き3次元行動表現学習において難しい問題である。
本研究では,双方向知識蒸留問題としてクロスモーダル相互作用を定式化する。
教師の知識を学生に伝達する古典的な蒸留ソリューションとは異なり、この研究では、知識は継続的に更新され、モダリティ間で双方向に蒸留される。
そこで,本稿では,以下の設計のクロスモーダル相互蒸留(cmd)フレームワークを提案する。
一方, 類似度分布は, 各モードで学習した知識をモデル化するために導入され, リレーショナル情報は対照的なフレームワークに自然に適合する。
一方, 教師と学生は, 蒸留工程を安定させ, モダリティ間で高信頼情報を伝達するために非対称な構成を用いる。
導出により、過去の作品における相互正の鉱業は、我々のCMDの劣化版とみなすことができる。
我々は,NTU RGB+D 60,NTU RGB+D 120,PKU-MMD IIデータセットについて広範な実験を行った。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
コードはhttps://github.com/maoyunyao/cmdで入手できる。 In 3D action recognition, there exists rich complementary information between skeleton modalities. Nevertheless, how to model and utilize this information remains a challenging problem for self-supervised 3D action representation learning. In this work, we formulate the cross-modal interaction as a bidirectional knowledge distillation problem. Different from classic distillation solutions that transfer the knowledge of a fixed and pre-trained teacher to the student, in this work, the knowledge is continuously updated and bidirectionally distilled between modalities. To this end, we propose a new Cross-modal Mutual Distillation (CMD) framework with the following designs. On the one hand, the neighboring similarity distribution is introduced to model the knowledge learned in each modality, where the relational information is naturally suitable for the contrastive frameworks. On the other hand, asymmetrical configurations are used for teacher and student to stabilize the distillation process and to transfer high-confidence information between modalities. By derivation, we find that the cross-modal positive mining in previous works can be regarded as a degenerated version of our CMD. We perform extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets. Our approach outperforms existing self-supervised methods and sets a series of new records. The code is available at: https://github.com/maoyunyao/CMD | 翻訳日:2022-08-29 13:00:47 公開日:2022-08-26 |
# seg4reg+:脊椎分節と cobb 角度回帰の一貫性学習 Seg4Reg+: Consistency Learning between Spine Segmentation and Cobb Angle Regression ( http://arxiv.org/abs/2208.12462v1 ) ライセンス: Link先を確認 | Yi Lin, Luyan Liu, Kai Ma, Yefeng Zheng | (参考訳) cobb角度推定のための自動化手法は、スコリシス評価に対する高い需要がある。
既存の方法は典型的には、目印推定からコブ角を計算するか、あるいはコブ角回帰タスクと低レベルタスク(例えば、ランドマーク検出とスピンセグメンテーション)を、お互いの利点を十分に探求することなく簡単に組み合わせる。
本研究では,セグメンテーションと回帰ネットワークを協調的に最適化する,Seg4Reg+という新しいマルチタスクフレームワークを提案する。
地域とグローバルの一貫性と知識の伝達を徹底的に調査する。
具体的には、画像分割ペアからクラスアクティベーションマップ(CAM)を活用してレグレッションネットワークのさらなる監視を行うアテンション正規化モジュールを提案する。
一方,グローバル最適化のために2つのネットワークを協調的に学習するための新しい三角形整合性学習を設計する。
AASCE Challengeデータセット上で行った評価は、各モジュールの有効性と、最先端手法に対するモデルの性能を実証するものである。 Automated methods for Cobb angle estimation are of high demand for scoliosis assessment. Existing methods typically calculate the Cobb angle from landmark estimation, or simply combine the low-level task (e.g., landmark detection and spine segmentation) with the Cobb angle regression task, without fully exploring the benefits from each other. In this study, we propose a novel multi-task framework, named Seg4Reg+, which jointly optimizes the segmentation and regression networks. We thoroughly investigate both local and global consistency and knowledge transfer between each other. Specifically, we propose an attention regularization module leveraging class activation maps (CAMs) from image-segmentation pairs to discover additional supervision in the regression network, and the CAMs can serve as a region-of-interest enhancement gate to facilitate the segmentation task in turn. Meanwhile, we design a novel triangle consistency learning to train the two networks jointly for global optimization. The evaluations performed on the public AASCE Challenge dataset demonstrate the effectiveness of each module and superior performance of our model to the state-of-the-art methods. | 翻訳日:2022-08-29 13:00:26 公開日:2022-08-26 |
# データフリーデンス深度蒸留 Data-free Dense Depth Distillation ( http://arxiv.org/abs/2208.12464v1 ) ライセンス: Link先を確認 | Junjie Hu and Chenyou Fan and Mete Ozay and Hualie Jiang and Tin Lun Lam | (参考訳) 本研究では,教師・学生の枠組みの下で訓練されたエキスパートモデルから,学習対象領域における学習データを欠くことなく,実世界の深度知覚のための軽量ネットワークを学習する,単眼深度推定のためのデータフリー知識蒸留(KD)について検討する。
密度回帰と画像認識の本質的な違いのため、従来のデータフリーKD法はMDEには適用できない。
本稿では,実世界の適用性を高めるため,kdを分散シミュレーション画像に適用することを目指す。
主な課題は
一 元の訓練データの対象物分布に関する事前情報がないこと。
二 現実世界とシミュレーションの間の領域シフト
まず,対象領域内のオブジェクトの分散パターンを最大にカバーする新たなトレーニングサンプルを生成するために,オブジェクト間画像混合を適用した。
第2の難易度に対処するために,教師モデルの特徴分布にシミュレーションデータに適合するように効率的に学習するトランスフォーメーションネットワークを提案する。
様々な深度推定モデルと2つの異なるデータセットに対する提案手法の評価を行った。
その結果,本手法はベースラインkdを高いマージンで上回り,1/6ドルの画像でも若干性能が向上し,明らかな優位性が得られた。 We study data-free knowledge distillation (KD) for monocular depth estimation (MDE), which learns a lightweight network for real-world depth perception by compressing from a trained expert model under the teacher-student framework while lacking training data in the target domain. Owing to the essential difference between dense regression and image recognition, previous methods of data-free KD are not applicable to MDE. To strengthen the applicability in the real world, in this paper, we seek to apply KD with out-of-distribution simulated images. The major challenges are i) lacking prior information about object distribution of the original training data; ii) the domain shift between the real world and the simulation. To cope with the first difficulty, we apply object-wise image mixing to generate new training samples for maximally covering distributed patterns of objects in the target domain. To tackle the second difficulty, we propose to utilize a transformation network that efficiently learns to fit the simulated data to the feature distribution of the teacher model. We evaluate the proposed approach for various depth estimation models and two different datasets. As a result, our method outperforms the baseline KD by a good margin and even achieves slightly better performance with as few as $1/6$ images, demonstrating a clear superiority. | 翻訳日:2022-08-29 13:00:05 公開日:2022-08-26 |
# Observer-GAN を用いた正・未ラベルデータからの学習 Learning From Positive and Unlabeled Data Using Observer-GAN ( http://arxiv.org/abs/2208.12477v1 ) ライセンス: Link先を確認 | Omar Zamzam, Haleh Akrami, Richard Leahy | (参考訳) 正および無ラベルデータ(すなわちpu学習)からの学習の問題は、(1)正のクラスとその対応するラベルからの観察、(2)正のクラスと負のクラスからの無ラベルの観察からなる二項(すなわち正のクラスと負のクラス)の分類設定において研究されている。
GAN(Generative Adversarial Networks)は、教師あり学習が分類タスクにおいて最先端の精度を持つという利点により、教師あり設定に問題を還元するために使用されている。
textit{pseudo}-負の観測を生成するために、GANは修正された損失を伴う正および未ラベルの観測に基づいて訓練される。
正の観測と正の観測の両方を用いると、教師付き学習環境に繋がる。
負のクラスサンプルの欠如を置き換えるのに十分な現実的な擬陰性観測の生成は、現在のGANベースのアルゴリズムのボトルネックである。
GANアーキテクチャに新たな分類器を加えることで、新しいGANベースのアプローチを提供する。
提案手法では、GAN識別器は、未ラベルデータ分布に該当するサンプルのみを生成するようにジェネレータに指示する一方、第2の分類器(オブザーバ)ネットワークは、GANのトレーニングをモニターする。
(i)生成した試料が正の分布に落ちないようにする。
(二)正の観測と負の観測とを区別した特徴を学習すること。
4つの画像データセットの実験により、我々のトレーニングされたオブザーバネットワークは、実際の見つからない正と負のサンプルを識別する既存の技術よりも優れた性能を示した。 The problem of learning from positive and unlabeled data (A.K.A. PU learning) has been studied in a binary (i.e., positive versus negative) classification setting, where the input data consist of (1) observations from the positive class and their corresponding labels, (2) unlabeled observations from both positive and negative classes. Generative Adversarial Networks (GANs) have been used to reduce the problem to the supervised setting with the advantage that supervised learning has state-of-the-art accuracy in classification tasks. In order to generate \textit{pseudo}-negative observations, GANs are trained on positive and unlabeled observations with a modified loss. Using both positive and \textit{pseudo}-negative observations leads to a supervised learning setting. The generation of pseudo-negative observations that are realistic enough to replace missing negative class samples is a bottleneck for current GAN-based algorithms. By including an additional classifier into the GAN architecture, we provide a novel GAN-based approach. In our suggested method, the GAN discriminator instructs the generator only to produce samples that fall into the unlabeled data distribution, while a second classifier (observer) network monitors the GAN training to: (i) prevent the generated samples from falling into the positive distribution; and (ii) learn the features that are the key distinction between the positive and negative observations. Experiments on four image datasets demonstrate that our trained observer network performs better than existing techniques in discriminating between real unseen positive and negative samples. | 翻訳日:2022-08-29 12:59:44 公開日:2022-08-26 |
# AutoQGS: SPARQLから低リソースの知識ベースの質問生成のための自動プロンプト AutoQGS: Auto-Prompt for Low-Resource Knowledge-based Question Generation from SPARQL ( http://arxiv.org/abs/2208.12461v1 ) ライセンス: Link先を確認 | Guanming Xiong, Junwei Bao, Wen Zhao, Youzheng Wu, Xiaodong He | (参考訳) 本研究では,知識に基づく質問生成(KBQG)の課題について検討する。
従来のKBQGは知識グラフのファクトトリプルから質問を生成するが、SPARQLでは集約や比較のような複雑な操作を表現できなかった。
さらに、大規模SPARQLクエストペアのコストのかかるアノテーションのため、低リソースシナリオ下でSPARQLからKBQGを調べる必要がある。
近年、NL-to-NLパラダイムで訓練された生成事前学習言語モデル(PLM)は、T5やBARTのような低リソース生成に有効であることが証明されているため、非NL SPARQLからNL-クエストを生成するために効果的に活用する方法は難しい。
これらの課題に対処するため、SPARQLから低リソースKBQGの自動プロンプトアプローチであるAutoQGSが提案されている。
まず、複雑な操作を処理するKBQGタスクに対して、SPARQLから直接質問を生成します。
次に,SPARQLを非NL SPARQLからPLMによるNL質問への低リソース変換を円滑にする,大規模教師なしデータに基づく自動プロンプタを提案する。
WebQuestionsSP、ComlexWebQuestions 1.1、PathQuestionsの実験結果は、我々のモデルは、特に低リソース環境で、最先端のパフォーマンスを達成することを示す。
さらに、KBQG研究のために、330kのファクトイド複素問題-SPARQLペアのコーパスを生成する。 This study investigates the task of knowledge-based question generation (KBQG). Conventional KBQG works generated questions from fact triples in the knowledge graph, which could not express complex operations like aggregation and comparison in SPARQL. Moreover, due to the costly annotation of large-scale SPARQL-question pairs, KBQG from SPARQL under low-resource scenarios urgently needs to be explored. Recently, since the generative pre-trained language models (PLMs) typically trained in natural language (NL)-to-NL paradigm have been proven effective for low-resource generation, e.g., T5 and BART, how to effectively utilize them to generate NL-question from non-NL SPARQL is challenging. To address these challenges, AutoQGS, an auto-prompt approach for low-resource KBQG from SPARQL, is proposed. Firstly, we put forward to generate questions directly from SPARQL for the KBQG task to handle complex operations. Secondly, we propose an auto-prompter trained on large-scale unsupervised data to rephrase SPARQL into NL description, smoothing the low-resource transformation from non-NL SPARQL to NL question with PLMs. Experimental results on the WebQuestionsSP, ComlexWebQuestions 1.1, and PathQuestions show that our model achieves state-of-the-art performance, especially in low-resource settings. Furthermore, a corpus of 330k factoid complex question-SPARQL pairs is generated for further KBQG research. | 翻訳日:2022-08-29 12:56:48 公開日:2022-08-26 |
# 隣接非自己回帰テキスト生成 Nearest Neighbor Non-autoregressive Text Generation ( http://arxiv.org/abs/2208.12496v1 ) ライセンス: Link先を確認 | Ayana Niwa, Sho Takase, and Naoaki Okazaki | (参考訳) 非自己回帰モデル(NAR)は、自己回帰モデルよりも少ない計算で文を生成するが、生成品質を犠牲にする。
これまでの研究では、反復的な復号化によってこの問題に対処している。
本研究は,NARデコーダの初期状態として近隣住民を用いて反復的に編集することを提案する。
我々は,NARテキスト生成を改善するために,近隣住民の編集操作を学習するための新しいトレーニング戦略を提案する。
提案手法(NeighborEdit)は,近辺の機械翻訳の一般的なベンチマークデータセットであるJRC-Acquis En-Deデータセット上で,復号イテレーションを減らし,高い翻訳品質(バニラ変換器よりも1.69ポイント高い)を達成することを示す。
また,提案手法の有効性をWikiBio(Data-to-text Task)で検証した。
さらに,提案手法は,WMT'14 En-Deデータセット上でのNARベースラインよりも優れていた。
また,提案手法における隣接例の分析を行った。 Non-autoregressive (NAR) models can generate sentences with less computation than autoregressive models but sacrifice generation quality. Previous studies addressed this issue through iterative decoding. This study proposes using nearest neighbors as the initial state of an NAR decoder and editing them iteratively. We present a novel training strategy to learn the edit operations on neighbors to improve NAR text generation. Experimental results show that the proposed method (NeighborEdit) achieves higher translation quality (1.69 points higher than the vanilla Transformer) with fewer decoding iterations (one-eighteenth fewer iterations) on the JRC-Acquis En-De dataset, the common benchmark dataset for machine translation using nearest neighbors. We also confirm the effectiveness of the proposed method on a data-to-text task (WikiBio). In addition, the proposed method outperforms an NAR baseline on the WMT'14 En-De dataset. We also report analysis on neighbor examples used in the proposed method. | 翻訳日:2022-08-29 12:56:19 公開日:2022-08-26 |
# 言語モデルを用いた知識グラフのタスク特化事前学習とプロンプト分解 Task-specific Pre-training and Prompt Decomposition for Knowledge Graph Population with Language Models ( http://arxiv.org/abs/2208.12539v1 ) ライセンス: Link先を確認 | Tianyi Li, Wenyu Huang, Nikos Papasarantopoulos, Pavlos Vougiouklis, Jeff Z. Pan | (参考訳) ISWC 2022において,事前学習型言語モデル(LM-KBC)による知識ベース構築を課題とし,言語モデルを用いた知識グラフの集団化システムを提案する。
本システムでは,マスキングされたオブジェクトトークンのlm表現の改善,候補オブジェクトのプログレッシブ生成のための迅速な分解,その他高品質な検索のための手法をタスク固有の事前学習を行う。
我々のシステムはBERT LMに基づくLM-KBCチャレンジのトラック1の勝者であり、隠れテストセットで55.0%のF-1スコアを達成している。 We present a system for knowledge graph population with Language Models, evaluated on the Knowledge Base Construction from Pre-trained Language Models (LM-KBC) challenge at ISWC 2022. Our system involves task-specific pre-training to improve LM representation of the masked object tokens, prompt decomposition for progressive generation of candidate objects, among other methods for higher-quality retrieval. Our system is the winner of track 1 of the LM-KBC challenge, based on BERT LM; it achieves 55.0% F-1 score on the hidden test set of the challenge. | 翻訳日:2022-08-29 12:56:01 公開日:2022-08-26 |
# SeSQL:さらに大規模なセッションレベルの中国のテキスト-SQLデータセット SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset ( http://arxiv.org/abs/2208.12711v1 ) ライセンス: Link先を確認 | Saihao Huang, Lijie Wang, Zhenghua Li, Zeyang Liu, Chenhui Dou, Fukang Yan, Xinyan Xiao, Hua Wu, Min Zhang | (参考訳) 最初のセッションレベルの中国語データセットとして、CHASEは、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語のSParC(CHASE-T)から翻訳された3,456セッションの2つの別々の部分を含んでいる。
この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。
本研究では,5,028セッションをすべてスクラッチから手作業で構築した,さらに大規模なセッションレベルのSQLデータセットであるSeSQLを紹介する。
データ品質を保証するため、我々は反復的なアノテーションワークフローを採用し、これまでの自然言語(NL)質問やSQLクエリの厳密でリアルタイムなレビューを容易にする。
さらに、コンテキスト依存のNL質問を全て完了することで、コンテキスト依存の27,012の質問/SQLペアを取得し、SeSQLをシングルラウンドのマルチDBテキスト-SQL解析のための最大のデータセットとして使用できる。
本稿では,3つの競合するセッションレベルのパーサを用いて,SeSQL上でセッションレベルのテキスト-SQL解析実験をベンチマークし,詳細な分析を行う。 As the first session-level Chinese dataset, CHASE contains two separate parts, i.e., 2,003 sessions manually constructed from scratch (CHASE-C), and 3,456 sessions translated from English SParC (CHASE-T). We find the two parts are highly discrepant and incompatible as training and evaluation data. In this work, we present SeSQL, yet another large-scale session-level text-to-SQL dataset in Chinese, consisting of 5,028 sessions all manually constructed from scratch. In order to guarantee data quality, we adopt an iterative annotation workflow to facilitate intense and in-time review of previous-round natural language (NL) questions and SQL queries. Moreover, by completing all context-dependent NL questions, we obtain 27,012 context-independent question/SQL pairs, allowing SeSQL to be used as the largest dataset for single-round multi-DB text-to-SQL parsing. We conduct benchmark session-level text-to-SQL parsing experiments on SeSQL by employing three competitive session-level parsers, and present detailed analysis. | 翻訳日:2022-08-29 12:55:50 公開日:2022-08-26 |
# 電気自動車の経路問題に対する多目的アプローチ A Multi-Objective approach to the Electric Vehicle Routing Problem ( http://arxiv.org/abs/2208.12440v1 ) ライセンス: Link先を確認 | Kousik Rajesh, Eklavya Jain, Prakash Kotecha | (参考訳) 電気自動車の経路問題(evrp)は、燃料ベースの車両からより健康で効率的な電気自動車(evs)へと移行しようとする研究者や産業家から大きな関心を集めている。
EVRPは従来の車両ルーティング問題(VRP)とそれほど変わらないように思われるが、クルージング時間や充電時間、電気自動車の充電設備の容量の制限といった課題は、すべてに違いがある。
以前の作業では、ロジスティクスや配送関連のソリューションをターゲットにしており、複数の停止を行った後、同質の商用EVが初期に戻る必要がある。
対向する面では、個人用電気自動車の経路問題を解決し、長いオリジン・デスティネーション(od)旅行において1台の車両に最適な経路を提供する。
我々は、旅行時間と充電の累積コストを最小化する多目的最適化を行う。
さらに,充電ステーションの交通量,充電ステーションへの到達距離,異なる充電ステーションにおける電力の変動コストなど,外部および実生活の要素を問題定式化に取り入れる。
特に、多目的混合整数非線形プログラミング(MINLP)問題を定義し、$\epsilon$-constraintアルゴリズムを用いて実現可能な解を求める。
さらに,遺伝的アルゴリズム(GA)や粒子群最適化(PSO)のようなメタヒューリスティックな手法を実装し,最適な経路と目的値を得る。
複数の自己生成データインスタンスに対して実験を行い、その結果を比較した。 The electric vehicle routing problem (EVRP) has garnered great interest from researchers and industrialists in an attempt to move from fuel-based vehicles to healthier and more efficient electric vehicles (EVs). While it seems that the EVRP should not be much different from traditional vehicle routing problems (VRPs), challenges like limited cruising time, long charging times, and limited availability of charging facilities for electric vehicles makes all the difference. Previous works target logistics and delivery-related solutions wherein a homogeneous fleet of commercial EVs have to return to the initial point after making multiple stops. On the opposing front, we solve a personal electric vehicle routing problem and provide an optimal route for a single vehicle in a long origin-destination (OD) trip. We perform multi-objective optimization - minimizing the total trip time and the cumulative cost of charging. In addition, we incorporate external and real-life elements like traffic at charging stations, detour distances for reaching a charging station, and variable costs of electricity at different charging stations into the problem formulation. In particular, we define a multi-objective mixed integer non-linear programming (MINLP) problem and obtain a feasible solution using the $\epsilon$-constraint algorithm. We further implement meta-heuristic techniques such as Genetic Algorithm (GA) and Particle Swarm Optimization (PSO) to obtain the most optimal route and hence, the objective values. The experiment is carried out for multiple self-generated data instances and the results are thereby compared. | 翻訳日:2022-08-29 12:55:28 公開日:2022-08-26 |
# swarm analytics: シェパードコンテキストにおけるswarmシステムを特徴付けるための情報マーカーの設計 Swarm Analytics: Designing Information Markers to Characterise Swarm Systems in Shepherding Contexts ( http://arxiv.org/abs/2208.12386v1 ) ライセンス: Link先を確認 | Adam Hepworth, Aya Hussein, Darryn Reid and Hussein Abbass | (参考訳) 現代のスウォーム指標は、個別または集団レベルでの情報抽出に焦点をあてて、孤立的にしばしば用いられる。
これらは、Swarmの上位レベルの操作図、その個々のメンバー、および全体的ダイナミクスを推測するために統合されることはめったにない。
この論文の主な貢献は、群に関する一連の指標を、外部の観察者の観点から群を特徴づける存在論的に配列された情報マーカーの集合に編成することである。
我々の貢献は、我々が「emph{swarm analytics}」と題する新しい研究分野の基礎を示すものであり、その主な関心事は、Swarmシステムに関する特定の洞察を理解し、検出し、認識し、追跡し、学習するための、Swarmマーカーのコレクションの設計と組織である。
我々は,情報マーカーの枠組みを考案し,エージェントの影響と応答を分類するために,より高度な能力を必要とする異種群および認知群に対して,スワーミング研究の新たな道筋を提示する。 Contemporary swarm indicators are often used in isolation, focused on extracting information at the individual or collective levels. These are seldom integrated to infer a top-level operating picture of the swarm, its individual members, and its overall collective dynamics. The primary contribution of this paper is to organise a suite of indicators about swarms into an ontologically-arranged collection of information markers to characterise the swarm from the perspective of an external observer-, a recognition agent. Our contribution shows the foundations for a new area of research that we title \emph{swarm analytics}, which its primary concern is with the design and organisation of collections of swarm markers to understand, detect, recognise, track, and learn a particular insight about a swarm system. We present our designed framework of information markers presents a new avenue for swarm research, especially for heterogeneous and cognitive swarms that may require more advanced capabilities to detect agencies and categorise agent influences and responses. | 翻訳日:2022-08-29 12:55:02 公開日:2022-08-26 |
# デザインパターンの必要性: 相互運用の問題と観測データのモデリング課題 Need for Design Patterns: Interoperability Issues and Modelling Challenges for Observational Data ( http://arxiv.org/abs/2208.12480v1 ) ライセンス: Link先を確認 | Trupti Padiya, Frank L\"offler, and Friederike Klan | (参考訳) 近年,観測データに関する相互運用性の問題が注目されている。
異なるソースからの観測データの科学的分析に関しては、自動データ統合が重要である。
しかし、様々なデータ相互運用性の問題によって妨げられている。
観察特性に関するセマンティック・インターオペラビリティの問題にのみ焦点をあてる。
本稿では,相互運用問題の一般的なクラスを特定するためのユースケース駆動型アプローチを提案する。
本稿では,市民科学における火球観測の事例として,これを例に挙げる。
我々は、他の科学の分野における観測データに一般化可能な相互運用問題の鍵となる概念を導出する。
これらの重要な概念は、いくつかのモデリング課題を含み、その相互運用性問題に関連する各モデリング課題を広く記述する。
我々は、これらの課題をオントロジーデザインパターンのセットで解決することは、統一的な意味モデリングの効果的な手段であり、観測データにおける相互運用性の問題を解決するための統一的なアプローチの道を開くと信じている。
これを一つのデザインパターンで示し、観察データのためのオントロジデザインパターンの重要性と必要性を強調し、残りのパターンを今後の作業に残します。
そこで本稿では,拡張可能で再利用可能な設計パターンを開発するための出発点として,モデリング課題とともに相互運用性の問題について述べる。 Interoperability issues concerning observational data have gained attention in recent times. Automated data integration is important when it comes to the scientific analysis of observational data from different sources. However, it is hampered by various data interoperability issues. We focus exclusively on semantic interoperability issues for observational characteristics. We propose a use-case-driven approach to identify general classes of interoperability issues. In this paper, this is exemplarily done for the use-case of citizen science fireball observations. We derive key concepts for the identified interoperability issues that are generalizable to observational data in other fields of science. These key concepts contain several modeling challenges, and we broadly describe each modeling challenges associated with its interoperability issue. We believe, that addressing these challenges with a set of ontology design patterns will be an effective means for unified semantic modeling, paving the way for a unified approach for resolving interoperability issues in observational data. We demonstrate this with one design pattern, highlighting the importance and need for ontology design patterns for observational data, and leave the remaining patterns to future work. Our paper thus describes interoperability issues along with modeling challenges as a starting point for developing a set of extensible and reusable design patterns. | 翻訳日:2022-08-29 12:54:42 公開日:2022-08-26 |
# ESC-Rules: 説明可能な,意味的に制約されたルールセット ESC-Rules: Explainable, Semantically Constrained Rule Sets ( http://arxiv.org/abs/2208.12523v1 ) ライセンス: Link先を確認 | Martin Glauer, Robert West, Susan Michie, Janna Hastings | (参考訳) 本稿では,ファジィ重み付き学習規則に基づく連続変数の予測法について述べる。
本モデルでは, 予測精度を最大化し, 学習すべきルールに対するユーザ指定制約を含むオントロジーベースの「意味的損失」関数を最小化するために, 重み付きルールの組を訓練する。
このシステムは、記号学習とドメイン知識に基づく制約を伴う定量的サブシンボリック学習を融合する。
本研究は,禁煙に対する行動介入の結果を予測するケーススタディで,他の解釈可能なアプローチを上回り,ディープラーニングモデルに近いパフォーマンスを実現するとともに,健康領域の意思決定者にとって必須条件である透過的な説明可能性を提供する。 We describe a novel approach to explainable prediction of a continuous variable based on learning fuzzy weighted rules. Our model trains a set of weighted rules to maximise prediction accuracy and minimise an ontology-based 'semantic loss' function including user-specified constraints on the rules that should be learned in order to maximise the explainability of the resulting rule set from a user perspective. This system fuses quantitative sub-symbolic learning with symbolic learning and constraints based on domain knowledge. We illustrate our system on a case study in predicting the outcomes of behavioural interventions for smoking cessation, and show that it outperforms other interpretable approaches, achieving performance close to that of a deep learning model, while offering transparent explainability that is an essential requirement for decision-makers in the health domain. | 翻訳日:2022-08-29 12:54:24 公開日:2022-08-26 |
# 相関測定によるアイテムセットユーティリティの最大化 Itemset Utility Maximization with Correlation Measure ( http://arxiv.org/abs/2208.12551v1 ) ライセンス: Link先を確認 | Jiahui Chen, Yixin Xu, Shicheng Wan, Wensheng Gan, and Jerry Chun-Wei Lin | (参考訳) 重要なデータマイニング技術として、興味深いが隠された情報(例えば、利益とリスク)を見つけるために、高ユーティリティアイテムセットマイニング(HUIM)が用いられる。
HUIMは、市場分析、医療検出、Webクリックストリーム分析など、多くのアプリケーションシナリオで広く利用されている。
しかし、以前のHUIMアプローチはアイテムセット内のアイテム間の関係を無視することが多い。
したがって、HUIM では多くの無関係な組合せ (例: \{gold, apple\} と \{notebook, book\}) が発見される。
この制限に対処するため、相関の高い高ユーティリティアイテムセット(CoHUI)をマイニングするアルゴリズムが多数提案されている。
本稿では,相関尺度(coium)を用いたアイテムセット効用最大化法(itemet utility maximization with correlation measure)という新しいアルゴリズムを提案する。
さらに,新たなアルゴリズムでは,データベーススキャニングコストを削減するために,データベースプロジェクション機構を採用する。
また、2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルーニングする。
また,適用上界を線形時間と空間で計算・保存するために,ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
最後に、高密度でスパースなデータセットに関する広範な実験結果は、coiumが実行時とメモリ消費の点で最先端のアルゴリズムを大きく上回っていることを示している。 As an important data mining technology, high utility itemset mining (HUIM) is used to find out interesting but hidden information (e.g., profit and risk). HUIM has been widely applied in many application scenarios, such as market analysis, medical detection, and web click stream analysis. However, most previous HUIM approaches often ignore the relationship between items in an itemset. Therefore, many irrelevant combinations (e.g., \{gold, apple\} and \{notebook, book\}) are discovered in HUIM. To address this limitation, many algorithms have been proposed to mine correlated high utility itemsets (CoHUIs). In this paper, we propose a novel algorithm called the Itemset Utility Maximization with Correlation Measure (CoIUM), which considers both a strong correlation and the profitable values of the items. Besides, the novel algorithm adopts a database projection mechanism to reduce the cost of database scanning. Moreover, two upper bounds and four pruning strategies are utilized to effectively prune the search space. And a concise array-based structure named utility-bin is used to calculate and store the adopted upper bounds in linear time and space. Finally, extensive experimental results on dense and sparse datasets demonstrate that CoIUM significantly outperforms the state-of-the-art algorithms in terms of runtime and memory consumption. | 翻訳日:2022-08-29 12:54:09 公開日:2022-08-26 |
# ストリーム推論のためのデータログ言語間の形式的比較(拡張版) A Formal Comparison between Datalog-based Languages for Stream Reasoning (extended version) ( http://arxiv.org/abs/2208.12726v1 ) ライセンス: Link先を確認 | Nicola Leone, Marco Manna, Maria Concetta Morelli, and Simona Perri | (参考訳) 本稿では、ストリーム上の推論のための2つの論理型言語の相対表現性、すなわち、LARSと呼ばれるストリーム上の分析推論のための論理型フレームワークの言語であるLARSプログラムと、I-DLV-srと呼ばれるストリーム推論のためのI-DLVシステムの最近の拡張言語LDSRについて検討する。
これら2つの言語はDatalog上に構築されているが、構文と意味の両方が異なる。
ストリーム推論のための表現能力の整合を図るため,制約なしでは2つの言語が相容れないことを示すための比較フレームワークを定義し,他の言語を介して表現できる各言語の断片を識別する。 The paper investigates the relative expressiveness of two logic-based languages for reasoning over streams, namely LARS Programs -- the language of the Logic-based framework for Analytic Reasoning over Streams called LARS -- and LDSR -- the language of the recent extension of the I-DLV system for stream reasoning called I-DLV-sr. Although these two languages build over Datalog, they do differ both in syntax and semantics. To reconcile their expressive capabilities for stream reasoning, we define a comparison framework that allows us to show that, without any restrictions, the two languages are incomparable and to identify fragments of each language that can be expressed via the other one. | 翻訳日:2022-08-29 12:53:47 公開日:2022-08-26 |
# 代数的説明可能なコントローラ:決定木とサポートベクターマシンの結合 Algebraically Explainable Controllers: Decision Trees and Support Vector Machines Join Forces ( http://arxiv.org/abs/2208.12804v1 ) ライセンス: Link先を確認 | Florian J\"ungermann and Jan K\v{r}et\'insk\'y and Maximilian Weininger | (参考訳) 近年、意思決定木(DT)は、コントローラ(戦略、ポリシー、スケジューラなど)の説明可能な表現として使われている。
それらはしばしば非常に効率的であり、離散システムのための小さく理解可能なコントローラを生成するが、複雑な連続力学は依然として課題である。
特に、変数間の関係が多項式のようなより複雑な形式を取るとき、それらは利用可能なDT学習手順では得られない。
対照的に、サポートベクトルマシンはより強力な表現を提供し、そのような関係の多くを発見することができるが、説明可能な形式ではない。
したがって、よりリッチでドメイン関連のある代数述語に対する理解可能な表現を得るために、この2つのフレームワークを組み合わせることを提案する。
提案手法を確立されたベンチマーク上で実験的に実証し評価する。 Recently, decision trees (DT) have been used as an explainable representation of controllers (a.k.a. strategies, policies, schedulers). Although they are often very efficient and produce small and understandable controllers for discrete systems, complex continuous dynamics still pose a challenge. In particular, when the relationships between variables take more complex forms, such as polynomials, they cannot be obtained using the available DT learning procedures. In contrast, support vector machines provide a more powerful representation, capable of discovering many such relationships, but not in an explainable form. Therefore, we suggest to combine the two frameworks in order to obtain an understandable representation over richer, domain-relevant algebraic predicates. We demonstrate and evaluate the proposed method experimentally on established benchmarks. | 翻訳日:2022-08-29 12:50:29 公開日:2022-08-26 |
# ガウス過程を線型常微分方程式系に制約する Constraining Gaussian Processes to Systems of Linear Ordinary Differential Equations ( http://arxiv.org/abs/2208.12515v1 ) ライセンス: Link先を確認 | Andreas Besginow, Markus Lange-Hegermann | (参考訳) 多くのアプリケーションにおけるデータは、通常微分方程式(ODE)のシステムに従う。
本稿では,定数係数を持つ線形同次ODEの系を厳密に追従して実現したガウス過程(GP)の共分散関数のアルゴリズム的および記号的構築について述べる。
この強い誘導バイアスをGPに導入すると、そのようなデータのモデリングが改善される。
スミス正規形式アルゴリズム (smith normal form algorithm) と記号的手法 ( symbolic technique) を用いて、(1) 古典的ODEソルバと確率論的解の集合における特定の一意性条件の必要性、(2) 共分散関数の微分方程式を符号化する際に想定される可制御系に対する制約の2つを克服する。
本稿では, LODE-GP の有効性を示す。例えば, 確率を最大化し, 物理的に解釈可能なパラメータを学習する。 Data in many applications follows systems of Ordinary Differential Equations (ODEs). This paper presents a novel algorithmic and symbolic construction for covariance functions of Gaussian Processes (GPs) with realizations strictly following a system of linear homogeneous ODEs with constant coefficients, which we call LODE-GPs. Introducing this strong inductive bias into a GP improves modelling of such data. Using smith normal form algorithms, a symbolic technique, we overcome two current restrictions in the state of the art: (1) the need for certain uniqueness conditions in the set of solutions, typically assumed in classical ODE solvers and their probabilistic counterparts, and (2) the restriction to controllable systems, typically assumed when encoding differential equations in covariance functions. We show the effectiveness of LODE-GPs in a number of experiments, for example learning physically interpretable parameters by maximizing the likelihood. | 翻訳日:2022-08-29 12:50:16 公開日:2022-08-26 |
# ランダム初期条件を持つスパイクテンソルモデルの大規模nダイナミクス Large-N dynamics of the spiked tensor model with random initial conditions ( http://arxiv.org/abs/2208.12586v1 ) ライセンス: Link先を確認 | Vasily Sazonov | (参考訳) そこで本稿では, ランダムな初期条件を持つ偏微分方程式に対する経路積分法を開発した。
次に、スパイクテンソルモデルの力学に適用し、大きな n$ 鞍点方程式がメロン型ダイアグラムによって支配されていることを示す。 In these notes, we develop a path integral approach for the partial differential equations with random initial conditions. Then, we apply it to the dynamics of the spiked tensor model and show that the large-$N$ saddle point equations are dominated by the melonic type diagrams. | 翻訳日:2022-08-29 12:49:58 公開日:2022-08-26 |
# ニューラルネットワーク波動関数を用いたab-initio量子化学 Ab-initio quantum chemistry with neural-network wavefunctions ( http://arxiv.org/abs/2208.12590v1 ) ライセンス: Link先を確認 | Jan Hermann, James Spencer, Kenny Choo, Antonio Mezzacapo, W. M. C. Foulkes, David Pfau, Giuseppe Carleo, Frank No\'e | (参考訳) 機械学習、特にディープラーニングの手法は、多くのパターン認識やデータ処理の問題、ゲームプレイにおいて人間の能力よりも優れており、科学的な発見においてますます重要な役割を担っている。
分子科学における機械学習の重要な応用は、密度汎関数理論、結合クラスタ、その他の量子化学手法を用いて得られたデータセットを用いて、電子シュリンガー方程式のアブ-イニシアト解からポテンシャルエネルギー表面または力場を学ぶことである。
本稿では、機械学習を用いて量子化学問題の直接的な解法を第一原理から支援する、最近の補完的なアプローチについてレビューする。
具体的には、第1量子化と第2量子化、基底状態と励起状態の両面において、電子的シュリンガー方程式を解くためにニューラルネットワークアンサッツ関数を使用する量子モンテカルロ法(QMC)に着目し、複数の核構成を一般化する。
既存の量子化学法と比較すると、これらの新しい深部QMC法は比較的控えめな計算コストでシュリンガー方程式の高精度な解を生成する可能性がある。 Machine learning and specifically deep-learning methods have outperformed human capabilities in many pattern recognition and data processing problems, in game playing, and now also play an increasingly important role in scientific discovery. A key application of machine learning in the molecular sciences is to learn potential energy surfaces or force fields from ab-initio solutions of the electronic Schr\"odinger equation using datasets obtained with density functional theory, coupled cluster, or other quantum chemistry methods. Here we review a recent and complementary approach: using machine learning to aid the direct solution of quantum chemistry problems from first principles. Specifically, we focus on quantum Monte Carlo (QMC) methods that use neural network ansatz functions in order to solve the electronic Schr\"odinger equation, both in first and second quantization, computing ground and excited states, and generalizing over multiple nuclear configurations. Compared to existing quantum chemistry methods, these new deep QMC methods have the potential to generate highly accurate solutions of the Schr\"odinger equation at relatively modest computational cost. | 翻訳日:2022-08-29 12:49:52 公開日:2022-08-26 |
# ラベルなしデータを用いたバイナリ分類器の融合行列と精度統計:診断試験アプローチ Confusion Matrices and Accuracy Statistics for Binary Classifiers Using Unlabeled Data: The Diagnostic Test Approach ( http://arxiv.org/abs/2208.12664v1 ) ライセンス: Link先を確認 | Richard Evans | (参考訳) 医学研究者は、比較のためのゴールドスタンダードテストなしでバイナリ医療診断検査の感度と特異性を推定する問題を解決した。
この問題は、ラベルなしデータに対する分類器の混乱行列の推定と同じである。
本稿では,教師付きまたは教師なしバイナリ分類器の混乱行列および精度統計をラベルなしデータ上で推定するために,診断テストソリューションを変更する方法について述べる。 Medical researchers have solved the problem of estimating the sensitivity and specificity of binary medical diagnostic tests without gold standard tests for comparison. That problem is the same as estimating confusion matrices for classifiers on unlabeled data. This article describes how to modify the diagnostic test solutions to estimate confusion matrices and accuracy statistics for supervised or unsupervised binary classifiers on unlabeled data. | 翻訳日:2022-08-29 12:49:31 公開日:2022-08-26 |
# ラプラシアピラミッド型オートエンコーダ Laplacian Pyramid-like Autoencoder ( http://arxiv.org/abs/2208.12484v1 ) ライセンス: Link先を確認 | Sangjun Han, Taeil Hur, Youngmi Hur | (参考訳) 本稿では,信号処理における画像解析に広く用いられるラプラシアンピラミッド (lp) の概念を付加することにより,ラプラシアンピラミッドライクオートエンコーダ (lpae) を開発した。
LPAEは、エンコーダ部における近似画像と詳細画像とに画像を分解し、2つの成分を用いてデコーダ部における原画像の再構成を試みる。
LPAEを用いて分類と超解像領域の実験を行った。
細部画像と小サイズ近似画像を分類ネットワークの入力として用いることで,lpaeはモデルをより軽量にする。
さらに,接続された分類ネットワークの性能は依然として著しく高い。
超分解能領域では、デコーダ部がLPの構造に類似するように設定することで高品質な再構成画像が得られることを示す。
これにより、LPAEは、オートエンコーダのデコーダ部と超解像ネットワークを組み合わせることにより、元の結果を改善する。 In this paper, we develop the Laplacian pyramid-like autoencoder (LPAE) by adding the Laplacian pyramid (LP) concept widely used to analyze images in Signal Processing. LPAE decomposes an image into the approximation image and the detail image in the encoder part and then tries to reconstruct the original image in the decoder part using the two components. We use LPAE for experiments on classifications and super-resolution areas. Using the detail image and the smaller-sized approximation image as inputs of a classification network, our LPAE makes the model lighter. Moreover, we show that the performance of the connected classification networks has remained substantially high. In a super-resolution area, we show that the decoder part gets a high-quality reconstruction image by setting to resemble the structure of LP. Consequently, LPAE improves the original results by combining the decoder part of the autoencoder and the super-resolution network. | 翻訳日:2022-08-29 12:49:10 公開日:2022-08-26 |
# 対非アライントレーニングデータを用いた変形同変クロスモダリティ画像合成 Deformation equivariant cross-modality image synthesis with paired non-aligned training data ( http://arxiv.org/abs/2208.12491v1 ) ライセンス: Link先を確認 | Joel Honkamaa, Umair Khan, Sonja Koivukoski, Leena Latonen, Pekka Ruusuvuori, Pekka Marttinen | (参考訳) クロスモダリティ画像合成は、複数の臨床応用の活発な研究課題である。
近年,ペアデータによるトレーニングを可能にする手法が登場し始めている。
しかし、広い範囲の現実世界のデータセットに適用できる堅牢で優れた方法は存在しない。
本研究では,新たな変形等分散化損失関数を導入することにより,ペアデータと非整合データとの相似画像合成問題に対する汎用解を提案する。
この方法は、画像合成ネットワークと別個の登録ネットワークとの合同訓練からなり、不整合データであっても入力に条件付けされた敵の訓練を可能にする。
この研究は、より難しいデータセットのためのクロスモダリティ画像合成ネットワークの無力なトレーニングを可能にし、新しいジェネリックラーニングベースのクロスモダリティ登録アルゴリズムの開発機会を開放することで、新しい臨床応用のバーを低くする。 Cross-modality image synthesis is an active research topic with multiple medical clinically relevant applications. Recently, methods allowing training with paired but misaligned data have started to emerge. However, no robust and well-performing methods applicable to a wide range of real world data sets exist. In this work, we propose a generic solution to the problem of cross-modality image synthesis with paired but non-aligned data by introducing new deformation equivariance encouraging loss functions. The method consists of joint training of an image synthesis network together with separate registration networks and allows adversarial training conditioned on the input even with misaligned data. The work lowers the bar for new clinical applications by allowing effortless training of cross-modality image synthesis networks for more difficult data sets and opens up opportunities for the development of new generic learning based cross-modality registration algorithms. | 翻訳日:2022-08-29 12:48:54 公開日:2022-08-26 |
# 深層強化学習を用いたフレキシブルエネルギー需要を有するスマートエネルギーネットワークにおけるバッテリと水素エネルギー貯蔵制御 Battery and Hydrogen Energy Storage Control in a Smart Energy Network with Flexible Energy Demand using Deep Reinforcement Learning ( http://arxiv.org/abs/2208.12779v1 ) ライセンス: Link先を確認 | Cephas Samende, Zhong Fan and Jun Cao | (参考訳) スマートエネルギーネットワークは、太陽や風のような様々な再生可能エネルギー源の高い浸透を許容する効果的な手段を提供する。
しかし, 再生可能エネルギーの変動性とエネルギー需要を考えると, 変動エネルギーの発生を管理し, 望ましいシステム経済と環境目標を達成するために, 効率的な制御・エネルギー貯蔵方式を開発することが不可欠である。
本稿では,電力価格,再生可能エネルギー生産,消費に関する不確実性に対処するため,電池と水素エネルギー貯蔵を組み合わせたハイブリッドエネルギー貯蔵システムを提案する。
我々は,ネットワーク内のエネルギー信頼性と安定性を確保しつつ,再生可能エネルギー利用の改善とエネルギーコストと炭素排出量の最小化を目指す。
これを実現するために,ハイブリッドエネルギー貯蔵システムのスケジューリングとエネルギー需要をリアルタイムに最適化する,深層強化学習に基づく制御戦略である多エージェント深層決定性政策勾配手法を提案する。
提案手法はモデルフリーであり、スマートエネルギーネットワーク環境の明確な知識や厳密な数学的モデルを必要としない。
実世界データに基づくシミュレーションの結果は次のとおりである。
一 ハイブリッドエネルギー貯蔵システムの統合及び最適化運転及びエネルギー需要は、炭素排出量を78.69%削減し、コスト削減を23.5%改善し、再生可能エネルギーの利用を他のベースラインモデルに比べて13.2%以上改善する。
(II)提案アルゴリズムは、ディープQネットワークのような最先端の自己学習アルゴリズムよりも優れている。 Smart energy networks provide for an effective means to accommodate high penetrations of variable renewable energy sources like solar and wind, which are key for deep decarbonisation of energy production. However, given the variability of the renewables as well as the energy demand, it is imperative to develop effective control and energy storage schemes to manage the variable energy generation and achieve desired system economics and environmental goals. In this paper, we introduce a hybrid energy storage system composed of battery and hydrogen energy storage to handle the uncertainties related to electricity prices, renewable energy production and consumption. We aim to improve renewable energy utilisation and minimise energy costs and carbon emissions while ensuring energy reliability and stability within the network. To achieve this, we propose a multi-agent deep deterministic policy gradient approach, which is a deep reinforcement learning-based control strategy to optimise the scheduling of the hybrid energy storage system and energy demand in real-time. The proposed approach is model-free and does not require explicit knowledge and rigorous mathematical models of the smart energy network environment. Simulation results based on real-world data show that: (i) integration and optimised operation of the hybrid energy storage system and energy demand reduces carbon emissions by 78.69%, improves cost savings by 23.5% and renewable energy utilisation by over 13.2% compared to other baseline models and (ii) the proposed algorithm outperforms the state-of-the-art self-learning algorithms like deep-Q network. | 翻訳日:2022-08-29 12:48:19 公開日:2022-08-26 |
# NeuralSI:非線形力学系における構造パラメータ同定 NeuralSI: Structural Parameter Identification in Nonlinear Dynamical Systems ( http://arxiv.org/abs/2208.12771v1 ) ライセンス: Link先を確認 | Xuyang Li, Hamed Bolandi, Talal Salem, Nizar Lajnef and Vishnu Naresh Boddeti | (参考訳) 複雑な構築環境における構造監視は、しばしば設計、実験室試験、実際の構築パラメータのミスマッチに苦しむ。
さらに、現実世界の構造識別問題には多くの課題がある。
例えば、正確なベースラインモデル、高次元性、複素多変量偏微分方程式(PDE)の欠如は、従来のデータ駆動アルゴリズムの訓練と学習において重大な困難をもたらす。
本稿では,ニューラルネットワークを用いた構造ダイナミクスを制御するpdesの強化により,構造識別のための新しいフレームワークneuralsiについて検討する。
提案手法は, 制御方程式から非線形パラメータを推定する。
2つの未知のパラメータを持つ非線形ビームの振動について考察する。1つは幾何学的および物質的変動を表すもので、もう1つは主に減衰によって系のエネルギー損失を捉えるものである。
パラメータ推定のためのデータは、既存の構造の正確な状態が通常不明であり、フィールドで限られた量のデータサンプルしか収集できない構造的健康モニタリングの応用に導かれる、限られた一連の測定値から得られる。
トレーニングされたモデルは、特定された構造パラメータを使用して、標準条件と極端条件の両方で外挿することもできる。
我々は、純粋データ駆動ニューラルネットワークや他の古典物理学インフォームドニューラルネットワーク(PINN)と比較する。
提案手法は, 変位分布における補間誤差と補間誤差を, ベースライン上で2~5桁程度削減する。
コードはhttps://github.com/human- analysis/neural-structural-identificationで入手できる。 Structural monitoring for complex built environments often suffers from mismatch between design, laboratory testing, and actual built parameters. Additionally, real-world structural identification problems encounter many challenges. For example, the lack of accurate baseline models, high dimensionality, and complex multivariate partial differential equations (PDEs) pose significant difficulties in training and learning conventional data-driven algorithms. This paper explores a new framework, dubbed NeuralSI, for structural identification by augmenting PDEs that govern structural dynamics with neural networks. Our approach seeks to estimate nonlinear parameters from governing equations. We consider the vibration of nonlinear beams with two unknown parameters, one that represents geometric and material variations, and another that captures energy losses in the system mainly through damping. The data for parameter estimation is obtained from a limited set of measurements, which is conducive to applications in structural health monitoring where the exact state of an existing structure is typically unknown and only a limited amount of data samples can be collected in the field. The trained model can also be extrapolated under both standard and extreme conditions using the identified structural parameters. We compare with pure data-driven Neural Networks and other classical Physics-Informed Neural Networks (PINNs). Our approach reduces both interpolation and extrapolation errors in displacement distribution by two to five orders of magnitude over the baselines. Code is available at https://github.com/human-analysis/neural-structural-identification | 翻訳日:2022-08-29 12:45:29 公開日:2022-08-26 |
# DiVa: 差分プライベート機械学習のためのアクセラレータ DiVa: An Accelerator for Differentially Private Machine Learning ( http://arxiv.org/abs/2208.12392v1 ) ライセンス: Link先を確認 | Beomsik Park, Ranggi Hwang, Dongho Yoon, Yoonhyuk Choi, Minsoo Rhu | (参考訳) 機械学習(ML)の広範な展開は、トレーニングデータの収集に貢献したユーザのプライバシ保護に対する深刻な懸念を高めている。
差別化プライバシ(DP)は、プライバシー保護の実用的な標準として、業界で急速に勢いを増している。
しかし、DPの重要性にもかかわらず、この新たなMLアルゴリズムがシステム設計に与える影響について、コンピュータシステムコミュニティ内ではほとんど調査されていない。
本研究では,DP-SGD という,最先端の差分型プライベートML トレーニングアルゴリズムの詳細なワークロード評価を行う。
DP-SGD(例えば、その高いメモリ容量と計算要求と非プライベートML)のいくつかのユニークな特性を発見し、その重要なボトルネックを根本原因とした。
そこで本研究では,計算効率を大幅に向上させ,従来のsystolicアレイに比べて2.6倍の高エネルギー効率を実現する,微分プライベートml用アクセラレータdivaを提案する。 The widespread deployment of machine learning (ML) is raising serious concerns on protecting the privacy of users who contributed to the collection of training data. Differential privacy (DP) is rapidly gaining momentum in the industry as a practical standard for privacy protection. Despite DP's importance, however, little has been explored within the computer systems community regarding the implication of this emerging ML algorithm on system designs. In this work, we conduct a detailed workload characterization on a state-of-the-art differentially private ML training algorithm named DP-SGD. We uncover several unique properties of DP-SGD (e.g., its high memory capacity and computation requirements vs. non-private ML), root-causing its key bottlenecks. Based on our analysis, we propose an accelerator for differentially private ML named DiVa, which provides a significant improvement in compute utilization, leading to 2.6x higher energy-efficiency vs. conventional systolic arrays. | 翻訳日:2022-08-29 12:43:21 公開日:2022-08-26 |
# 感情と遊ぶ - 感情駆動強化学習 Play with Emotion: Affect-Driven Reinforcement Learning ( http://arxiv.org/abs/2208.12622v1 ) ライセンス: Link先を確認 | Matthew Barthet, Ahmed Khalifa, Antonios Liapis and Georgios N. Yannakakis | (参考訳) 本稿では、強化学習(RL)プロセスとして、影響モデリングの課題を観察することでパラダイムシフトを導入する。
提案されたパラダイムによれば、RLエージェントは、環境(文脈)の経験を通じて、報酬(行動的および情緒的パターン)の集合を最大化することによって、ポリシー(感情的相互作用)を学ぶ。
我々の仮説は、RLが織り込みの効果的なパラダイムであり、行動的・情緒的なデモンストレーションによる誘発と顕在化に影響を及ぼすというものである。
重要なことは、ダマシオのソマティックマーカー仮説に関する第2の仮説は、感情が意思決定のファシリテーターになり得るということである。
Go-Blendは、Go-Exploreアルゴリズムの修正版であり、最近、ハードな探索作業において最高のパフォーマンスを示した。
まず,感情と行動パターンのパレットを,指定された報酬に応じて効果的に表示できるエージェントを観察する。
次に、刺激に基づく状態選択機構を使用して、Go-Blendが探求する戦略をバイアスします。
以上の結果から,Go-Blendは効果的な影響モデルパラダイムであるだけでなく,より重要なこととして,ゲーム領域におけるDamasioの仮説を検証し,探索を改善し,より高いパフォーマンスのエージェントが得られることが示唆された。 This paper introduces a paradigm shift by viewing the task of affect modeling as a reinforcement learning (RL) process. According to the proposed paradigm, RL agents learn a policy (i.e. affective interaction) by attempting to maximize a set of rewards (i.e. behavioral and affective patterns) via their experience with their environment (i.e. context). Our hypothesis is that RL is an effective paradigm for interweaving affect elicitation and manifestation with behavioral and affective demonstrations. Importantly, our second hypothesis-building on Damasio's somatic marker hypothesis-is that emotion can be the facilitator of decision-making. We test our hypotheses in a racing game by training Go-Blend agents to model human demonstrations of arousal and behavior; Go-Blend is a modified version of the Go-Explore algorithm which has recently showcased supreme performance in hard exploration tasks. We first vary the arousal-based reward function and observe agents that can effectively display a palette of affect and behavioral patterns according to the specified reward. Then we use arousal-based state selection mechanisms in order to bias the strategies that Go-Blend explores. Our findings suggest that Go-Blend not only is an efficient affect modeling paradigm but, more importantly, affect-driven RL improves exploration and yields higher performing agents, validating Damasio's hypothesis in the domain of games. | 翻訳日:2022-08-29 12:42:49 公開日:2022-08-26 |
# Appleとオレンジの比較:異なる分布から生成されたデータの類似性関数を学習する Comparing Apples to Oranges: Learning Similarity Functions for Data Produced by Different Distributions ( http://arxiv.org/abs/2208.12731v1 ) ライセンス: Link先を確認 | Leonidas Tsepenekas and Ivan Brugere | (参考訳) 類似度関数は、要素の対が同等であるかを測り、例えばクラスタリング問題や個人フェアネスの考慮など、幅広いアプリケーションにおいて重要な役割を果たす。
しかし、正確な類似性関数へのアクセスは必ずしも保証されるべきではない。
具体的には、比較対象の要素が異なる分布によって生成される場合、あるいは別の「デムグラフィック」グループに属する場合、それらの真の類似性に関する知識を得るのは非常に困難である。
本稿では,これらグループ間の類似度関数を,少数の専門家のフィードバックのみを用いて学習するサンプリングフレームワークを提案する。
厳密な境界で解析結果を示し,大規模な実験によりアルゴリズムを実証的に検証した。 Similarity functions measure how comparable pairs of elements are, and play a key role in a wide variety of applications, e.g., Clustering problems and considerations of Individual Fairness. However, access to an accurate similarity function should not always be considered guaranteed. Specifically, when the elements to be compared are produced by different distributions, or in other words belong to different ``demographic'' groups, knowledge of their true similarity might be very difficult to obtain. In this work, we present a sampling framework that learns these across-groups similarity functions, using only a limited amount of experts' feedback. We show analytical results with rigorous bounds, and empirically validate our algorithms via a large suite of experiments. | 翻訳日:2022-08-29 12:38:19 公開日:2022-08-26 |
# 集合符号化関数に対するUniversal Mini-Batch Consistency Universal Mini-Batch Consistency for Set Encoding Functions ( http://arxiv.org/abs/2208.12401v1 ) ライセンス: Link先を確認 | Jeffrey Willette, Andreis Bruno, Juho Lee, Sung Ju Hwang | (参考訳) 従来の研究は、集合上の操作に必要な性質を保ち、集合要素の置換に不変であるような効果的なアーキテクチャと同様に、神経集合関数の基盤を確立してきた。
その後、最小バッチ整合性(MBC)は、任意のランダムなセット分割スキームの順列処理と、出力の整合性の保証を維持しながら、ネットワークアーキテクチャの限られたオプションで確立された。
さらに、神経集合符号化関数におけるMBC特性について検討し、任意の非MBCモデルをMBCを満たすように変換する方法を確立する。
そこで我々は,集合関数の普遍MBC(Universally-MBC)クラスのためのフレームワークを提供する。
さらに,本フレームワークで実現した興味深いドロップアウト戦略について検討し,テスト時間分布シフトによる確率的キャリブレーションへの影響について検討する。
単体テストによる検証,玩具データに関する定性的・定量的実験,クリーンで破損した点群分類,ImageNetによるクラスタリングなどの検証を行った。
その結果,UMBCの有用性が示され,脱落戦略が不確実性校正を改善することが判明した。 Previous works have established solid foundations for neural set functions, as well as effective architectures which preserve the necessary properties for operating on sets, such as being invariant to permutations of the set elements. Subsequently, Mini-Batch Consistency (MBC), the ability to sequentially process any permutation of any random set partition scheme while maintaining consistency guarantees on the output, has been established but with limited options for network architectures. We further study the MBC property in neural set encoding functions, establishing a method for converting arbitrary non-MBC models to satisfy MBC. In doing so, we provide a framework for a universally-MBC (UMBC) class of set functions. Additionally, we explore an interesting dropout strategy made possible by our framework, and investigate its effects on probabilistic calibration under test-time distributional shifts. We validate UMBC with proofs backed by unit tests, also providing qualitative/quantitative experiments on toy data, clean and corrupted point cloud classification, and amortized clustering on ImageNet. The results demonstrate the utility of UMBC, and we further discover that our dropout strategy improves uncertainty calibration. | 翻訳日:2022-08-29 12:37:55 公開日:2022-08-26 |
# 係数に基づく正規分布回帰 Coefficient-based Regularized Distribution Regression ( http://arxiv.org/abs/2208.12427v1 ) ライセンス: Link先を確認 | Yuan Mao, Lei Shi and Zheng-Chu Guo | (参考訳) 本稿では,再生成核ヒルベルト空間(rkhs)上の確率測度から実数値応答への回帰を目的とした係数に基づく正規化分布回帰を考える。
このアルゴリズムは2段階のサンプリングを含み、第1段階のサンプルは分布からなり、第2段階のサンプルはこれらの分布から得られる。
回帰関数の正則範囲が異なるアルゴリズムの漸近的挙動を包括的に研究し、学習率を積分演算子法による導出を行う。
1段階のミニマックス最適速度に合致する、いくつかの穏やかな条件下で最適な速度を得る。
文献における分散回帰のカーネル法と比較して、検討中のアルゴリズムは、カーネルが対称で正の半定値であることを必要としないため、分布回帰のテーマを豊かにする不確定なカーネル法を設計するための単純なパラダイムを提供する。
我々の知る限りでは、これは不定値カーネルによる分布回帰の最初の結果であり、アルゴリズムは飽和効果を改善することができる。 In this paper, we consider the coefficient-based regularized distribution regression which aims to regress from probability measures to real-valued responses over a reproducing kernel Hilbert space (RKHS), where the regularization is put on the coefficients and kernels are assumed to be indefinite. The algorithm involves two stages of sampling, the first stage sample consists of distributions and the second stage sample is obtained from these distributions. Asymptotic behaviors of the algorithm in different regularity ranges of the regression function are comprehensively studied and learning rates are derived via integral operator techniques. We get the optimal rates under some mild conditions, which matches the one-stage sampled minimax optimal rate. Compared with the kernel methods for distribution regression in the literature, the algorithm under consideration does not require the kernel to be symmetric and positive semi-definite and hence provides a simple paradigm for designing indefinite kernel methods, which enriches the theme of the distribution regression. To the best of our knowledge, this is the first result for distribution regression with indefinite kernels, and our algorithm can improve the saturation effect. | 翻訳日:2022-08-29 12:37:35 公開日:2022-08-26 |
# オンラインマルコフ決定過程の動的後悔 Dynamic Regret of Online Markov Decision Processes ( http://arxiv.org/abs/2208.12483v1 ) ライセンス: Link先を確認 | Peng Zhao and Long-Fei Li and Zhi-Hua Zhou | (参考訳) オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実現可能な変更方針の列間のパフォーマンスの差として定義される,パフォーマンス尺度として動的後悔を選択する。
この尺度は、学習者のパフォーマンスを固定比較ポリシーでベンチマークする標準的な静的後悔よりも厳格に強い。
オンラインMDPの基本モデルとして, エピソードループのないSSP(Stochastic Shortest Path), エピソードSSP, 無限水平MPPの3つを考える。
これら3つのモデルについて,新たなオンラインアンサンブルアルゴリズムを提案し,その動的後悔の保証をそれぞれ確立する。
さらに,学習者が遭遇するオンライン環境が予測可能である場合,改良されたアルゴリズムを設計し,エピソード(ループフリー)SSPの動的後悔境界を改良し,無限水平MDPの不可能な結果を示す。 We investigate online Markov Decision Processes (MDPs) with adversarially changing loss functions and known transitions. We choose dynamic regret as the performance measure, defined as the performance difference between the learner and any sequence of feasible changing policies. The measure is strictly stronger than the standard static regret that benchmarks the learner's performance with a fixed compared policy. We consider three foundational models of online MDPs, including episodic loop-free Stochastic Shortest Path (SSP), episodic SSP, and infinite-horizon MDPs. For these three models, we propose novel online ensemble algorithms and establish their dynamic regret guarantees respectively, in which the results for episodic (loop-free) SSP are provably minimax optimal in terms of time horizon and certain non-stationarity measure. Furthermore, when the online environments encountered by the learner are predictable, we design improved algorithms and achieve better dynamic regret bounds for the episodic (loop-free) SSP; and moreover, we demonstrate impossibility results for the infinite-horizon MDPs. | 翻訳日:2022-08-29 12:37:16 公開日:2022-08-26 |
# ディープラーニングアルゴリズムにおける暗示バイアスについて On the Implicit Bias in Deep-Learning Algorithms ( http://arxiv.org/abs/2208.12591v1 ) ライセンス: Link先を確認 | Gal Vardi | (参考訳) 勾配に基づくディープラーニングアルゴリズムは、実際に顕著なパフォーマンスを示すが、なぜトレーニング例よりも多くのパラメータを持つにもかかわらず、一般化できるのかはよく理解されていない。
暗黙の偏見は一般化する能力の重要な要素であり、近年広く研究されていると考えられている。
この短い調査で、暗黙のバイアスの概念を説明し、主な結果をレビューし、その意味について論じる。 Gradient-based deep-learning algorithms exhibit remarkable performance in practice, but it is not well-understood why they are able to generalize despite having more parameters than training examples. It is believed that implicit bias is a key factor in their ability to generalize, and hence it has been widely studied in recent years. In this short survey, we explain the notion of implicit bias, review main results and discuss their implications. | 翻訳日:2022-08-29 12:36:55 公開日:2022-08-26 |
# 線形構造方程式モデルのための因果帯域 Causal Bandits for Linear Structural Equation Models ( http://arxiv.org/abs/2208.12764v1 ) ライセンス: Link先を確認 | Burak Varici, Karthikeyan Shanmugam, Prasanna Sattigeri, and Ali Tajer | (参考訳) 本稿では,過去最良介入に対する累積後悔を最小限に抑えるために,因果グラフモデルにおける最適な介入系列を設計する問題を考察する。
これは当然、因果的盗賊問題として提起される。
焦点は線形構造方程式モデル(SEM)とソフト介入のための因果包帯である。
グラフの構造は知られており、ノードは$N$である。
2つの線形機構、1つのソフト介入と1つの観察機構が各ノードに対して仮定され、2^n$の介入が可能となる。
既存の因果バンディットアルゴリズムは、少なくとも報酬ノードの両親の介入分布が完全に特定されていると仮定する。
しかし、そのような分布(各介入に対応するもの)は2^N$であり、中程度のグラフでも禁止となる。
本稿では,これらの分布を知るという仮定を省略する。
頻繁性(UCBベース)とベイズ性(トンプソンサンプリングベース)の2つのアルゴリズムを提案する。
これらのアルゴリズムの鍵となる考え方は、$2^N$の報酬分布を直接見積もることを避け、代わりにSEMを完全に指定したパラメータ($N$の線形)を推定し、報酬を計算することである。
どちらのアルゴリズムにおいても、雑音とパラメータ空間の有界性仮定の下では、累積的後悔は$\tilde{\cal o} ((2d)^l l \sqrt{t})$であり、ここで$d$はグラフの最大次数、$l$は最長因果経路の長さである。 This paper studies the problem of designing an optimal sequence of interventions in a causal graphical model to minimize the cumulative regret with respect to the best intervention in hindsight. This is, naturally, posed as a causal bandit problem. The focus is on causal bandits for linear structural equation models (SEMs) and soft interventions. It is assumed that the graph's structure is known, and it has $N$ nodes. Two linear mechanisms, one soft intervention and one observational, are assumed for each node, giving rise to $2^N$ possible interventions. The existing causal bandit algorithms assume that at least the interventional distributions of the reward node's parents are fully specified. However, there are $2^N$ such distributions (one corresponding to each intervention), acquiring which becomes prohibitive even in moderate-sized graphs. This paper dispenses with the assumption of knowing these distributions. Two algorithms are proposed for the frequentist (UCB-based) and Bayesian (Thompson Sampling-based) settings. The key idea of these algorithms is to avoid directly estimating the $2^N$ reward distributions and instead estimate the parameters that fully specify the SEMs (linear in $N$) and use them to compute the rewards. In both algorithms, under boundedness assumptions on noise and the parameter space, the cumulative regrets scale as $\tilde{\cal O} ((2d)^L L \sqrt{T})$, where $d$ is the graph's maximum degree, and $L$ is the length of its longest causal path. | 翻訳日:2022-08-29 12:36:47 公開日:2022-08-26 |
# グループロバスト性を強化したニューラルな機能の1つのグラム Take One Gram of Neural Features, Get Enhanced Group Robustness ( http://arxiv.org/abs/2208.12625v1 ) ライセンス: Link先を確認 | Simon Roburin, Charles Corbi\`ere, Gilles Puy, Nicolas Thome, Matthieu Aubry, Renaud Marlet, Patrick P\'erez | (参考訳) 経験的リスク最小化(ERM)で訓練された機械学習モデルの予測性能は、分散シフト下で大幅に低下する可能性がある。
トレーニングデータセットにスプリアス相関が存在するため、erm訓練されたモデルは、そのような相関を示さない少数グループで評価した場合、高い損失を示す。
最悪のグループロバスト性を改善する手法を開発するために大規模な試みがなされている。
しかしながら、各トレーニング入力または少なくとも、ハイパーパラメータをチューニングするためのグループラベルを備えた検証セットに対するグループ情報が必要である。
本稿では,トレーニングや検証においてグループアノテーションを使わずにグループロバスト性を改善するという課題に対処する。
この目的のために, ``identification'''モデルによって抽出された特徴のグラム行列に基づいて, トレーニングデータセットをグループに分割することを提案する。
グループラベルが存在しない現実的な文脈では,我々のアプローチがermに対するグループロバスト性を向上させるだけでなく,最近のすべてのベースラインを上回っていることを示す。 Predictive performance of machine learning models trained with empirical risk minimization (ERM) can degrade considerably under distribution shifts. The presence of spurious correlations in training datasets leads ERM-trained models to display high loss when evaluated on minority groups not presenting such correlations. Extensive attempts have been made to develop methods improving worst-group robustness. However, they require group information for each training input or at least, a validation set with group labels to tune their hyperparameters, which may be expensive to get or unknown a priori. In this paper, we address the challenge of improving group robustness without group annotation during training or validation. To this end, we propose to partition the training dataset into groups based on Gram matrices of features extracted by an ``identification'' model and to apply robust optimization based on these pseudo-groups. In the realistic context where no group labels are available, our experiments show that our approach not only improves group robustness over ERM but also outperforms all recent baselines | 翻訳日:2022-08-29 12:36:04 公開日:2022-08-26 |
# AiM: 教育応用における中国のクローゼテストの正しさを意識して AiM: Taking Answers in Mind to Correct Chinese Cloze Tests in Educational Applications ( http://arxiv.org/abs/2208.12505v1 ) ライセンス: Link先を確認 | Yusen Zhang, Zhongli Li, Qingyu Zhou, Ziyi Liu, Chao Li, Mina Ma, Yunbo Cao, Hongzhi Liu | (参考訳) 手書きの代入を自動的に修正するには、OCRモデルを使って文字を認識し、答えと比較する。
ocrモデルは手書きの漢字を認識することで容易に混乱し、モデル推論中に答えのテキスト情報が失われる。
しかし、教師は常に課題の見直しと修正を念頭に置いている。
本稿では,中国のクローゼテストの修正に焦点をあて,マルチモーダルアプローチ(AiM)を提案する。
解答の符号化表現は、学生の手書きの視覚情報と相互作用する。
右」や「ラウンド」を予測する代わりに、回答テキストのシーケンスラベリングを行い、手書きの内容とどの回答キャラクタが違うのかを微妙な方法で推測する。
このタスクの正のサンプルとしてOCRデータセットのサンプルを取り、トレーニングデータをスケールアップするための負のサンプル増分法を開発した。
実験の結果,AiMはOCR法よりも高い性能を示した。
広範な研究により,マルチモーダルアプローチの有効性が実証された。 To automatically correct handwritten assignments, the traditional approach is to use an OCR model to recognize characters and compare them to answers. The OCR model easily gets confused on recognizing handwritten Chinese characters, and the textual information of the answers is missing during the model inference. However, teachers always have these answers in mind to review and correct assignments. In this paper, we focus on the Chinese cloze tests correction and propose a multimodal approach (named AiM). The encoded representations of answers interact with the visual information of students' handwriting. Instead of predicting 'right' or 'wrong', we perform the sequence labeling on the answer text to infer which answer character differs from the handwritten content in a fine-grained way. We take samples of OCR datasets as the positive samples for this task, and develop a negative sample augmentation method to scale up the training data. Experimental results show that AiM outperforms OCR-based methods by a large margin. Extensive studies demonstrate the effectiveness of our multimodal approach. | 翻訳日:2022-08-29 12:33:17 公開日:2022-08-26 |
# コントラスト学習に基づく耳下腺MR画像分割 Parotid Gland MR Image Segmentation Based on Contrastive Learning ( http://arxiv.org/abs/2208.12413v1 ) ライセンス: Link先を確認 | Zi'an Xu, Yin Dai, Fayu Liu, Boyuan Wu, Weibing Chen, Lifu Shi | (参考訳) 自然画像と比較して、医用画像は取得が難しく、ラベル付けに費用がかかる。
教師なし学習方法としての対比学習は、ラベルなしの医療画像をより効果的に活用することができる。
本稿では,トランスフォーマティブベースのコントラスト学習手法を用いて,コントラスト学習ネットワークとトランスファー学習を革新的に訓練した。
そして、出力モデルを下流の耳下腺分節タスクに転送し、テストセットにおける耳下腺分節モデルの性能を改善した。
改良されたDSCは89.60%、MPAは99.36%、MIoUは85.11%、HDは2.98だった。
4つの指標はいずれも,耳下腺セグメンテーションネットワークの事前学習モデルとして教師あり学習モデルを用いた結果と比較して有意に改善した。
さらに, コントラスト学習モデルによるセグメンテーションネットワークの改善は, 主にエンコーダ部であり, 本論文ではデコーダ部のためのコントラスト学習ネットワークの構築も試み, 構築過程における問題について議論した。 Compared with natural images, medical images are difficult to acquire and costly to label. Contrastive learning, as an unsupervised learning method, can more effectively utilize unlabeled medical images. In this paper, we used a Transformer-based contrastive learning method and innovatively trained the contrastive learning network with transfer learning. Then, the output model was transferred to the downstream parotid segmentation task, which improved the performance of the parotid segmentation model on the test set. The improved DSC was 89.60%, MPA was 99.36%, MIoU was 85.11%, and HD was 2.98. All four metrics showed significant improvement compared to the results of using a supervised learning model as a pre-trained model for the parotid segmentation network. In addition, we found that the improvement of the segmentation network by the contrastive learning model was mainly in the encoder part, so this paper also tried to build a contrastive learning network for the decoder part and discussed the problems encountered in the process of building. | 翻訳日:2022-08-29 12:33:02 公開日:2022-08-26 |
# 正則化ニューラルオードを用いたロバストな原型的少数ショット臓器分節 Robust Prototypical Few-Shot Organ Segmentation with Regularized Neural-ODEs ( http://arxiv.org/abs/2208.12428v1 ) ライセンス: Link先を確認 | Prashant Pandey, Mustafa Chasmai, Tanuj Sur, Brejesh Lall | (参考訳) イメージセマンティックセグメンテーションにおけるディープラーニングモデルによる大きな進歩にもかかわらず、それらは通常、大きな注釈付き例を必要とし、新しいクラスに一般化するために少量のアノテーションしか必要としないFew-Shot Learning (FSL)のような問題設定に注目が移りつつある。
これは特に、ピクセルレベルの密接なアノテーションが入手に費用がかかる医療領域で顕著である。
本稿では,臓器のFew-Shot Segmentation(FSS)を実行するために,R-PNODE(Regularized Prototypeal Neural Ordinary Differential Equation)を提案する。
R-PNODEは、同じクラスからサポートとクエリを制限し、表現空間に近づくことで、既存の畳み込みニューラルネットワーク(CNN)ベースのFSSメソッドのパフォーマンスを改善する。
さらに,既存の深層cnnベースの手法の多くは,攻撃に対して極めて脆弱な傾向があるが,r-pnodeは,これらの攻撃の広い範囲において,攻撃的ロバスト性が高まることを実証する。
提案手法の有効性を実証するために,3つのマルチオーガンセグメンテーションデータセットをインドメインとクロスドメインのfss設定で実験した。
さらに,R-PNODEのロバスト性を示すため,様々な設定で7種類の敵攻撃実験を行った。
R-PNODEは、FSSのベースラインをかなりのマージンで上回り、強度と設計の異なる幅広い攻撃に対して優れた性能を示す。 Despite the tremendous progress made by deep learning models in image semantic segmentation, they typically require large annotated examples, and increasing attention is being diverted to problem settings like Few-Shot Learning (FSL) where only a small amount of annotation is needed for generalisation to novel classes. This is especially seen in medical domains where dense pixel-level annotations are expensive to obtain. In this paper, we propose Regularized Prototypical Neural Ordinary Differential Equation (R-PNODE), a method that leverages intrinsic properties of Neural-ODEs, assisted and enhanced by additional cluster and consistency losses to perform Few-Shot Segmentation (FSS) of organs. R-PNODE constrains support and query features from the same classes to lie closer in the representation space thereby improving the performance over the existing Convolutional Neural Network (CNN) based FSS methods. We further demonstrate that while many existing Deep CNN based methods tend to be extremely vulnerable to adversarial attacks, R-PNODE exhibits increased adversarial robustness for a wide array of these attacks. We experiment with three publicly available multi-organ segmentation datasets in both in-domain and cross-domain FSS settings to demonstrate the efficacy of our method. In addition, we perform experiments with seven commonly used adversarial attacks in various settings to demonstrate R-PNODE's robustness. R-PNODE outperforms the baselines for FSS by significant margins and also shows superior performance for a wide array of attacks varying in intensity and design. | 翻訳日:2022-08-29 12:32:44 公開日:2022-08-26 |
# TFusion: Transformer ベースの N-to-One Multimodal Fusion Block TFusion: Transformer based N-to-One Multimodal Fusion Block ( http://arxiv.org/abs/2208.12776v1 ) ライセンス: Link先を確認 | Zecheng Liu and Jia Wei and Rui Li | (参考訳) 人々は、視覚、聴覚、嗅覚、触覚など、異なる感覚で世界を知覚する。
複数のモダリティから情報を処理し、融合することで、人工知能は私たちの周りの世界をより簡単に理解できるようになる。
しかし、モダリティが欠けている場合、利用可能なモダリティの数は様々な状況で異なるため、n対1の融合問題に繋がる。
そこで本稿では,tfusion という変圧器を用いた核融合ブロックを提案する。
プリセットの定式化や畳み込みに基づく方法とは異なり、提案するブロックは自動的に、合成やゼロパディングの欠如なく利用可能なモダリティを融合することを学習する。
具体的には、上流処理モデルから抽出された特徴表現をトークンとして投影してトランスフォーマー層に供給し、潜在マルチモーダル相関を生成する。
そして、特定のモダリティへの依存を減らすために、下流決定モデルで適用可能な共有表現を構築するためのモーダルアテンション機構を導入する。
提案するtfusionブロックは,既存のマルチモーダル解析ネットワークに容易に統合できる。
本研究では,マルチモーダルなヒト活動認識と脳腫瘍分節タスクのために,異なるバックボーンネットワークにtfusionを適用する。
実験の結果,TFusionブロックは競合する融合戦略よりも優れた性能を示すことがわかった。 People perceive the world with different senses, such as sight, hearing, smell, and touch. Processing and fusing information from multiple modalities enables Artificial Intelligence to understand the world around us more easily. However, when there are missing modalities, the number of available modalities is different in diverse situations, which leads to an N-to-One fusion problem. To solve this problem, we propose a transformer based fusion block called TFusion. Different from preset formulations or convolution based methods, the proposed block automatically learns to fuse available modalities without synthesizing or zero-padding missing ones. Specifically, the feature representations extracted from upstream processing model are projected as tokens and fed into transformer layers to generate latent multimodal correlations. Then, to reduce the dependence on particular modalities, a modal attention mechanism is introduced to build a shared representation, which can be applied by the downstream decision model. The proposed TFusion block can be easily integrated into existing multimodal analysis networks. In this work, we apply TFusion to different backbone networks for multimodal human activity recognition and brain tumor segmentation tasks. Extensive experimental results show that the TFusion block achieves better performance than the competing fusion strategies. | 翻訳日:2022-08-29 12:32:15 公開日:2022-08-26 |
# MuLan:音楽オーディオと自然言語の共同埋め込み MuLan: A Joint Embedding of Music Audio and Natural Language ( http://arxiv.org/abs/2208.12415v1 ) ライセンス: Link先を確認 | Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis | (参考訳) 音楽タグ付けとコンテンツに基づく検索システムは、伝統的に音楽属性やテキストクエリの厳密なセットをカバーする事前定義されたオントロジーを用いて構築されてきた。
本稿では,音楽音声と制約なしの自然言語音楽記述を直接リンクする,新しい世代の音響モデルであるMuLanについて述べる。
MuLanは、4400万曲の録音(370万時間)と弱い関連のあるフリーフォームのテキストアノテーションを使って訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をとっている。
様々な音楽ジャンルやテキストスタイル(従来の音楽タグを含む)との互換性により、オーディオテキスト表現は既存のオントロジーを仮定し、真のゼロショット機能に到達した。
本研究では,移動学習,ゼロショット音楽タグ付け,音楽領域における言語理解,モーダル間検索など,様々な実験により,MuLan埋め込みの汎用性を実証する。 Music tagging and content-based retrieval systems have traditionally been constructed using pre-defined ontologies covering a rigid set of music attributes or text queries. This paper presents MuLan: a first attempt at a new generation of acoustic models that link music audio directly to unconstrained natural language music descriptions. MuLan takes the form of a two-tower, joint audio-text embedding model trained using 44 million music recordings (370K hours) and weakly-associated, free-form text annotations. Through its compatibility with a wide range of music genres and text styles (including conventional music tags), the resulting audio-text representation subsumes existing ontologies while graduating to true zero-shot functionalities. We demonstrate the versatility of the MuLan embeddings with a range of experiments including transfer learning, zero-shot music tagging, language understanding in the music domain, and cross-modal retrieval applications. | 翻訳日:2022-08-29 12:31:37 公開日:2022-08-26 |
# 時間分解イベントから学ぶLSTM埋め込みの静的検索とクラスタリング Static Seeding and Clustering of LSTM Embeddings to Learn from Loosely Time-Decoupled Events ( http://arxiv.org/abs/2208.12389v1 ) ライセンス: Link先を確認 | Christian Manasseh, Razvan Veliche, Jared Bennett, Hamilton Clouse | (参考訳) 人間は異なる場所や時間における出来事の発生から学び、同様の出来事の軌跡を予測する。
我々は、ゆるく分離された時系列(ldt)現象を、異なる場所や異なるタイムラインで起こりうる2つ以上の事象として定義し、イベントの性質と場所の性質の類似性を共有している。
本研究では、Long Short-Term Memory(LSTM)ネットワークにおけるRecurring Neural Networks(RNN)の使用を改善し、LDTのタイミング予測を改善するAIソリューションを実現する。
傾向に基づく時系列間の類似度尺度を用い,その傾向を表す組込みを導入する。
埋め込みは、LSTM構造と結合したイベントの特性を表し、同様に時間的に不整合なイベントを特定するためにクラスタ化することができる。
本稿では,多変量LSTMのシード法について,LSTMでモデル化されている物理現象と人口動態に関する時間不変データから検討する。
これらの手法を,新型コロナウイルス感染および死亡例から得られた時系列データに適用する。
社会経済的データを公開してLSTMモデルをシードし、埋め込みを作成し、そのようなシードがケース予測を改善するかどうかを判断する。
これらのLSTMによって生成された埋め込みはクラスタ化され、進化する時系列を予測する最良のマッチング候補を特定する。
本手法の適用により,US郡レベルでの10日間移動平均疾患伝播予測の改善が示された。 Humans learn from the occurrence of events in a different place and time to predict similar trajectories of events. We define Loosely Decoupled Timeseries (LDT) phenomena as two or more events that could happen in different places and across different timelines but share similarities in the nature of the event and the properties of the location. In this work we improve on the use of Recurring Neural Networks (RNN), in particular Long Short-Term Memory (LSTM) networks, to enable AI solutions that generate better timeseries predictions for LDT. We use similarity measures between timeseries based on the trends and introduce embeddings representing those trends. The embeddings represent properties of the event which, coupled with the LSTM structure, can be clustered to identify similar temporally unaligned events. In this paper, we explore methods of seeding a multivariate LSTM from time-invariant data related to the geophysical and demographic phenomena being modeled by the LSTM. We apply these methods on the timeseries data derived from the COVID-19 detected infection and death cases. We use publicly available socio-economic data to seed the LSTM models, creating embeddings, to determine whether such seeding improves case predictions. The embeddings produced by these LSTMs are clustered to identify best-matching candidates for forecasting an evolving timeseries. Applying this method, we show an improvement in 10-day moving average predictions of disease propagation at the US County level. | 翻訳日:2022-08-29 12:31:01 公開日:2022-08-26 |
# 深層ハイパーグラフ構造学習 Deep Hypergraph Structure Learning ( http://arxiv.org/abs/2208.12547v1 ) ライセンス: Link先を確認 | Zizhao Zhang, Yifan Feng, Shihui Ying, Yue Gao | (参考訳) 高次相関の学習は、近年ハイパーグラフが広く使われているデータ表現学習において優位性を示している。
ハイパーグラフニューラルネットワークのようなハイパーグラフに基づく表現学習手法の性能は、ハイパーグラフ構造の品質に大きく依存する。
データのハイパーグラフ構造をどのように生成するかはまだ難しい課題です。
データの欠如とノイズはハイパーグラフ構造における"悪い接続"を引き起こし、ハイパーグラフベースの表現学習プロセスを破壊する可能性がある。
したがって、高次構造、すなわち観測データの背後にあるハイパーグラフを明らかにすることは緊急だが重要なタスクとなる。
本稿では,ハイパーグラフを用いた表現学習のためのハイパーグラフ構造を最適化するために,ディープハイパーグラフ構造学習の一般的なパラダイム,すなわちdeephgslを設計する。
具体的には、ロバスト性問題のための情報ボトルネック原理に着想を得て、まずhypergraph情報ボトルネック(hib)原則によって名付けられたhypergraphケースに拡張します。
次に、この原理をハイパーグラフ構造学習の指導に応用し、hibはハイパーグラフ構造におけるノイズ情報を最小限に抑えるために損失関数を構築する。
ハイパーグラフ構造を最適化することができ、このプロセスは正しい接続を強化し、トレーニングフェーズで間違った接続を弱めると見なすことができる。
そこで提案手法は, 強雑音構造であっても, より頑健な表現を抽出する利点がある。
最後に、表現学習のための4つのベンチマークデータセットでモデルを評価する。
グラフおよびハイパーグラフ構造データの実験結果は,他の最先端手法と比較して,本手法の有効性とロバスト性を示した。 Learning on high-order correlation has shown superiority in data representation learning, where hypergraph has been widely used in recent decades. The performance of hypergraph-based representation learning methods, such as hypergraph neural networks, highly depends on the quality of the hypergraph structure. How to generate the hypergraph structure among data is still a challenging task. Missing and noisy data may lead to "bad connections" in the hypergraph structure and destroy the hypergraph-based representation learning process. Therefore, revealing the high-order structure, i.e., the hypergraph behind the observed data, becomes an urgent but important task. To address this issue, we design a general paradigm of deep hypergraph structure learning, namely DeepHGSL, to optimize the hypergraph structure for hypergraph-based representation learning. Concretely, inspired by the information bottleneck principle for the robustness issue, we first extend it to the hypergraph case, named by the hypergraph information bottleneck (HIB) principle. Then, we apply this principle to guide the hypergraph structure learning, where the HIB is introduced to construct the loss function to minimize the noisy information in the hypergraph structure. The hypergraph structure can be optimized and this process can be regarded as enhancing the correct connections and weakening the wrong connections in the training phase. Therefore, the proposed method benefits to extract more robust representations even on a heavily noisy structure. Finally, we evaluate the model on four benchmark datasets for representation learning. The experimental results on both graph- and hypergraph-structured data demonstrate the effectiveness and robustness of our method compared with other state-of-the-art methods. | 翻訳日:2022-08-29 12:30:38 公開日:2022-08-26 |
# マルコフモデルを用いた親和性に基づく強化学習エージェントの記号的説明 Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models ( http://arxiv.org/abs/2208.12627v1 ) ライセンス: Link先を確認 | Charl Maree and Christian W. Omlin | (参考訳) 人工知能の増殖は、ますますモデル理解に依存している。
モデルの振る舞いに関する人間の推論である解釈と、モデルの機能の象徴的な表現である説明の両方を要求する。
安全、信頼、受容のための透明性の必須性にもかかわらず、最先端の強化学習アルゴリズムの不透明さは、彼らの学習戦略の素性を隠す。
我々は,学習戦略のグローバルな本質的親和性を主張する政策規則化手法を開発した。
これらの親和性は、政策の振る舞いを推論する手段を提供し、本質的に解釈可能である。
我々は、個人が投資戦略を定めているパーソナライズされた繁栄管理において、個別の支出個人が異なる投資クラスと異なる関係を持つ可能性があることを実証した。
我々は, 離散マルコフモデルを用いて, 基礎となる原型的ポリシーを再現することで, モデルを説明する。
これらのグローバルサロゲートは原型的な政策の象徴的表現である。 The proliferation of artificial intelligence is increasingly dependent on model understanding. Understanding demands both an interpretation - a human reasoning about a model's behavior - and an explanation - a symbolic representation of the functioning of the model. Notwithstanding the imperative of transparency for safety, trust, and acceptance, the opacity of state-of-the-art reinforcement learning algorithms conceals the rudiments of their learned strategies. We have developed a policy regularization method that asserts the global intrinsic affinities of learned strategies. These affinities provide a means of reasoning about a policy's behavior, thus making it inherently interpretable. We have demonstrated our method in personalized prosperity management where individuals' spending behavior in time dictate their investment strategies, i.e. distinct spending personalities may have dissimilar associations with different investment classes. We now explain our model by reproducing the underlying prototypical policies with discretized Markov models. These global surrogates are symbolic representations of the prototypical policies. | 翻訳日:2022-08-29 12:30:13 公開日:2022-08-26 |
# Qラーニングに基づく動的価格設定によるP2Pエネルギー自動取引の展望 Prospect Theory-inspired Automated P2P Energy Trading with Q-learning-based Dynamic Pricing ( http://arxiv.org/abs/2208.12777v1 ) ライセンス: Link先を確認 | Ashutosh Timilsina, Simone Silvestri | (参考訳) 分散エネルギー資源の普及とスマートグリッド技術の出現により、従来の受動的電力システム利用者はエネルギー取引に積極的に関与するようになった。
従来の中央集権的グリッド駆動型エネルギー市場は、これらのユーザにとって利益が最小限であるという事実を認識し、最近の研究は、分散ピアツーピア(P2P)エネルギー市場へと焦点を移している。
これらの市場では、ユーザーは互いにエネルギーを交換し、グリッドへの売買よりも高い利益を享受する。
しかし、p2pエネルギー取引のほとんどの研究は、常に可用性、参加、完全なコンプライアンスを前提として、取引プロセスにおけるユーザの認識をほとんど見落としている。
その結果、これらのアプローチはネガティブな態度をもたらし、時間の経過とともにエンゲージメントを減少させる可能性がある。
本稿では,ユーザの認識を考慮に入れたP2P自動エネルギー市場を設計する。
ユーザ認識をモデル化し,需要と生産を充足しながら購入者の知覚を最大化するために最適化枠組みを定式化する。
最適化問題の非線形および非凸の性質を考慮し,DEbATEと呼ばれる取引エネルギーの微分進化に基づくアルゴリズムを提案する。
さらに,q-learning and risk-sensitivity (pqr) を組み込んだ価格設定機構であるリスクに敏感なq-learningアルゴリズムを導入する。
実際のエネルギー消費と生産の痕跡と現実的な予測理論関数に基づく結果から,近年のアートアプローチと比較して,購入者に対する認識価値は26%高く,販売者に対する報酬は7%増加した。 The widespread adoption of distributed energy resources, and the advent of smart grid technologies, have allowed traditionally passive power system users to become actively involved in energy trading. Recognizing the fact that the traditional centralized grid-driven energy markets offer minimal profitability to these users, recent research has shifted focus towards decentralized peer-to-peer (P2P) energy markets. In these markets, users trade energy with each other, with higher benefits than buying or selling to the grid. However, most researches in P2P energy trading largely overlook the user perception in the trading process, assuming constant availability, participation, and full compliance. As a result, these approaches may result in negative attitudes and reduced engagement over time. In this paper, we design an automated P2P energy market that takes user perception into account. We employ prospect theory to model the user perception and formulate an optimization framework to maximize the buyer's perception while matching demand and production. Given the non-linear and non-convex nature of the optimization problem, we propose Differential Evolution-based Algorithm for Trading Energy called DEbATE. Additionally, we introduce a risk-sensitive Q-learning algorithm, named Pricing mechanism with Q-learning and Risk-sensitivity (PQR), which learns the optimal price for sellers considering their perceived utility. Results based on real traces of energy consumption and production, as well as realistic prospect theory functions, show that our approach achieves a 26% higher perceived value for buyers and generates 7% more reward for sellers, compared to a recent state of the art approach. | 翻訳日:2022-08-29 12:27:12 公開日:2022-08-26 |
# GHN-Q:グラフハイパーネットによる未確認量子化畳み込みアーキテクチャのパラメータ予測 GHN-Q: Parameter Prediction for Unseen Quantized Convolutional Architectures via Graph Hypernetworks ( http://arxiv.org/abs/2208.12489v1 ) ライセンス: Link先を確認 | Stone Yun, Alexander Wong | (参考訳) 反復最適化による深層畳み込みニューラルネットワーク(CNN)トレーニングは、最適なパラメータを見つけるのに驚くほど成功した。
しかし、現代のCNNアーキテクチャは数百万のパラメータを含むことが多い。
したがって、単一のアーキテクチャに対する任意のモデルは、巨大なパラメータ空間に存在する。
類似した損失を持つモデルは、逆ロバスト性、一般化性、量子化ロバスト性など、著しく異なる特性を持つ可能性がある。
エッジのディープラーニングでは、量子化の堅牢性が重要になることが多い。
量子化ロバストモデルを見つけるには、多大な労力を要することがある。
グラフハイパーネット(GHN)を用いた最近の研究は、様々なCNNアーキテクチャの高性能パラメータを予測する顕著な性能を示している。
これらの成功に触発されて、GHN-2のグラフ表現は、GHN-Qと呼ばれる量子化-ロバストパラメータの予測にも活用できるのだろうか。
量子化cnnアーキテクチャのパラメータ予測におけるグラフハイパーネットワークの利用を初めて検討した。
我々は、cnn探索空間の縮小に着目し、ghn-qが様々な8ビット量子化cnnの量子化-ロバストパラメータを実際に予測できることを見いだす。
ghn-qがトレーニングされていないにもかかわらず、4ビットの量子化でもまともな量子化アキュラシーが観察される。
低ビット幅でのGHN-Qの量子微調整はさらなる改善をもたらし、現在検討中である。 Deep convolutional neural network (CNN) training via iterative optimization has had incredible success in finding optimal parameters. However, modern CNN architectures often contain millions of parameters. Thus, any given model for a single architecture resides in a massive parameter space. Models with similar loss could have drastically different characteristics such as adversarial robustness, generalizability, and quantization robustness. For deep learning on the edge, quantization robustness is often crucial. Finding a model that is quantization-robust can sometimes require significant efforts. Recent works using Graph Hypernetworks (GHN) have shown remarkable performance predicting high-performant parameters of varying CNN architectures. Inspired by these successes, we wonder if the graph representations of GHN-2 can be leveraged to predict quantization-robust parameters as well, which we call GHN-Q. We conduct the first-ever study exploring the use of graph hypernetworks for predicting parameters of unseen quantized CNN architectures. We focus on a reduced CNN search space and find that GHN-Q can in fact predict quantization-robust parameters for various 8-bit quantized CNNs. Decent quantized accuracies are observed even with 4-bit quantization despite GHN-Q not being trained on it. Quantized finetuning of GHN-Q at lower bitwidths may bring further improvements and is currently being explored. | 翻訳日:2022-08-29 12:26:24 公開日:2022-08-26 |
# 深層学習を用いた肺生検画像のEGFR変異予測 EGFR Mutation Prediction of Lung Biopsy Images using Deep Learning ( http://arxiv.org/abs/2208.12506v1 ) ライセンス: Link先を確認 | Ravi Kant Gupta, Shivani Nandgaonkar, Nikhil Cherian Kurian, Swapnil Rane, Amit Sethi | (参考訳) 肺がん治療における標的治療の標準的な診断手順は、組織学的サブタイプとEGFRなどの主要なドライバ変異の検出を含む。
分子プロファイリングはドライバーの突然変異を解明するが、プロセスはしばしば高価で時間がかかる。
ディープラーニングに基づく画像解析は、全スライド画像(wsis)から直接ドライバ変異を検出するための、より経済的な代替手段を提供する。
本研究では,ヘマトキシリンおよびエオシンステインwsisのegfr変異の形態的相関を,腫瘍の検出と組織学的にサブタイプすることに加えて,微調整された深層学習パイプラインを用いて同定した。
本研究は,2つの肺癌データセット(tcgaとインドからのプライベートデータセット)について厳密な実験とアブレーションを行い,本パイプラインの有効性を実証する。
TCGAデータセットの腺癌と扁平上皮癌との組織型別では平均 0.964 の腫瘍検出率,0.942 の値を得た。
EGFR検出では,TGAデータセットでは平均0.864AUC,インドからのデータセットでは0.783AUCを達成した。
私たちの学習ポイントは以下のとおりです。
第一に、対象データセット上の特徴抽出器を微調整しようとする場合、ヒストロジーに基づいて訓練された特徴抽出層を使用するという特別な利点はない。
第2に、腫瘍領域を捕捉する可能性のある高い細胞性を有するパッチを選択することは必ずしも有用ではない。 The standard diagnostic procedures for targeted therapies in lung cancer treatment involve histological subtyping and subsequent detection of key driver mutations, such as EGFR. Even though molecular profiling can uncover the driver mutation, the process is often expensive and time-consuming. Deep learning-oriented image analysis offers a more economical alternative for discovering driver mutations directly from whole slide images (WSIs). In this work, we used customized deep learning pipelines with weak supervision to identify the morphological correlates of EGFR mutation from hematoxylin and eosin-stained WSIs, in addition to detecting tumor and histologically subtyping it. We demonstrate the effectiveness of our pipeline by conducting rigorous experiments and ablation studies on two lung cancer datasets - TCGA and a private dataset from India. With our pipeline, we achieved an average area under the curve (AUC) of 0.964 for tumor detection, and 0.942 for histological subtyping between adenocarcinoma and squamous cell carcinoma on the TCGA dataset. For EGFR detection, we achieved an average AUC of 0.864 on the TCGA dataset and 0.783 on the dataset from India. Our key learning points include the following. Firstly, there is no particular advantage of using a feature extractor layers trained on histology, if one is going to fine-tune the feature extractor on the target dataset. Secondly, selecting patches with high cellularity, presumably capturing tumor regions, is not always helpful, as the sign of a disease class may be present in the tumor-adjacent stroma. | 翻訳日:2022-08-29 12:26:06 公開日:2022-08-26 |
# 低リソース言語における偽ニュース検出のための言語間伝達学習 Cross-lingual Transfer Learning for Fake News Detector in a Low-Resource Language ( http://arxiv.org/abs/2208.12482v1 ) ライセンス: Link先を確認 | Sangdo Han | (参考訳) 低リソース言語における偽ニュース(FN)を検出する手法の開発は、トレーニングデータの欠如によって妨げられている。
本研究では,高資源言語からのトレーニングデータのみを用いてこの問題を解決する。
fn検出システムは,検出知識を言語に伝達する逆学習を適用することで,この戦略を許容した。
知識伝達を支援するため,本システムは,話者の信頼度を表す言語横断的特徴である情報源情報を利用して,記事の信頼性を判断する。
実験では、機械翻訳トレーニングデータセットを使用するシステムよりも3.71%精度が高かった。
さらに,偽ニュース検出のための言語横断的特徴利用により,精度が3.03%向上した。 Development of methods to detect fake news (FN) in low-resource languages has been impeded by a lack of training data. In this study, we solve the problem by using only training data from a high-resource language. Our FN-detection system permitted this strategy by applying adversarial learning that transfers the detection knowledge through languages. To assist the knowledge transfer, our system judges the reliability of articles by exploiting source information, which is a cross-lingual feature that represents the credibility of the speaker. In experiments, our system got 3.71% higher accuracy than a system that uses a machine-translated training dataset. In addition, our suggested cross-lingual feature exploitation for fake news detection improved accuracy by 3.03%. | 翻訳日:2022-08-29 12:24:35 公開日:2022-08-26 |
# GRASP: Promptを用いたRelAtional Semanticsを用いたガイダンスモデル GRASP: Guiding model with RelAtional Semantics using Prompt ( http://arxiv.org/abs/2208.12494v1 ) ライセンス: Link先を確認 | Junyoung Son, Jinsung Kim, Jungwoo Lim, Heuiseok Lim | (参考訳) 対話に基づく関係抽出(ダイアログ)タスクは、対話に現れる議論ペア間の関係を予測することを目的としている。
これまでのほとんどの研究では、複数の話者による対話の低情報密度を補うために、微調整事前学習言語モデル(PLM)を広範囲にしか用いていない。
余分な層を持たずにplmの固有知識を効果的に活用し、引数間の関係に関する散在した意味的手がかりを検討するため、promp(grasp)を用いた関係意味論を用いた指導モデルを提案する。
我々は,プロンプトに基づく微調整手法を採用し,与えられた対話の意味的手がかりをキャプチャする。
1)引数認識型プロンプトマーカー戦略と
2) 関係手がかり検出タスク。
実験では, GRASPは, 余分なレイヤを追加せずにPLMのみを利用するにもかかわらず, ダイアログREデータセット上でのF1とF1cのスコアで最先端のパフォーマンスを達成する。 The dialogue-based relation extraction (DialogRE) task aims to predict the relations between argument pairs that appear in dialogue. Most previous studies utilize fine-tuning pre-trained language models (PLMs) only with extensive features to supplement the low information density of the dialogue by multiple speakers. To effectively exploit inherent knowledge of PLMs without extra layers and consider scattered semantic cues on the relation between the arguments, we propose a Guiding model with RelAtional Semantics using Prompt (GRASP). We adopt a prompt-based fine-tuning approach and capture relational semantic clues of a given dialogue with 1) an argument-aware prompt marker strategy and 2) the relational clue detection task. In the experiments, GRASP achieves state-of-the-art performance in terms of both F1 and F1c scores on a DialogRE dataset even though our method only leverages PLMs without adding any extra layers. | 翻訳日:2022-08-29 12:24:25 公開日:2022-08-26 |
# 畳み込みオートエンコーダによる次元の削減と分類 Supervised Dimensionality Reduction and Classification with Convolutional Autoencoders ( http://arxiv.org/abs/2208.12152v2 ) ライセンス: Link先を確認 | Ioannis A. Nellas, Sotiris K. Tasoulis, Vassilis P. Plagianakos and Spiros V. Georgakopoulos | (参考訳) 再構成と分類誤差の合同最適化は、特に非線型写像を利用する場合、困難な非凸問題である。
この障害を克服するために、次元低減のための畳み込みオートエンコーダと、完全連結ネットワークからなる分類器とを組み合わせることで、教師付き次元低減と予測を同時に行う新しい最適化戦略を提案する。
この方法論は、ディープラーニングアーキテクチャの説明可能性を高める上で、非常に有益であることが判明した。
さらに、結果として生じる潜在空間は分類タスクに最適化され、従来の解釈可能な分類アルゴリズムを改善するのに利用できる。
実験の結果,提案手法は,パラメータ数の観点からははるかに効率的でありながら,最先端の深層学習手法と競合する結果を得た。
最後に,提案手法が,生成した潜在空間を通したデータ構造だけでなく,分類行動についても,高度な説明可能性を導入することを実証的に証明した。 The joint optimization of the reconstruction and classification error is a hard non convex problem, especially when a non linear mapping is utilized. In order to overcome this obstacle, a novel optimization strategy is proposed, in which a Convolutional Autoencoder for dimensionality reduction and a classifier composed by a Fully Connected Network, are combined to simultaneously produce supervised dimensionality reduction and predictions. It turned out that this methodology can also be greatly beneficial in enforcing explainability of deep learning architectures. Additionally, the resulting Latent Space, optimized for the classification task, can be utilized to improve traditional, interpretable classification algorithms. The experimental results, showed that the proposed methodology achieved competitive results against the state of the art deep learning methods, while being much more efficient in terms of parameter count. Finally, it was empirically justified that the proposed methodology introduces advanced explainability regarding, not only the data structure through the produced latent space, but also about the classification behaviour. | 翻訳日:2022-08-29 10:47:56 公開日:2022-08-26 |
# リレーショナル・サイクリゼーションによるサイクル付き関係因果モデル学習 Learning Relational Causal Models with Cycles through Relational Acyclification ( http://arxiv.org/abs/2208.12210v2 ) ライセンス: Link先を確認 | Ragib Ahsan, David Arbour, Elena Zheleva | (参考訳) 相互影響や相互結合単位間の因果効果を含む実世界の現象では、平衡状態は典型的にはグラフィカルモデルのサイクルで表される。
グラフィカルモデルの表現型クラス \textit{relational causal model} は、そのようなサイクルやフィードバックループを示す複雑な力学系を表現し、推論することができる。
観測データから因果モデルを学習するための既存の巡回因果発見アルゴリズムは、データインスタンスが独立で同一に分散していると仮定し、関係因果モデルには適さない。
同時に、関係因果モデルに対する因果発見アルゴリズムが非巡回性を仮定する。
本研究では,制約に基づく関係因果探索アルゴリズムが正当かつ完全である必要十分条件について検討する。
循環関係因果モデルの識別可能性に関する推論を可能にする関係モデル専用に設計された演算である \textit{relational acyclification} を導入する。
関係の循環化と$\sigma$-faithfulnessという仮定の下では、関係因果発見アルゴリズムrcd(maier et al. 2013)は巡回モデルに対して健全かつ完全であることが示されている。
我々の主張を支持する実験結果を示す。 In real-world phenomena which involve mutual influence or causal effects between interconnected units, equilibrium states are typically represented with cycles in graphical models. An expressive class of graphical models, \textit{relational causal models}, can represent and reason about complex dynamic systems exhibiting such cycles or feedback loops. Existing cyclic causal discovery algorithms for learning causal models from observational data assume that the data instances are independent and identically distributed which makes them unsuitable for relational causal models. At the same time, causal discovery algorithms for relational causal models assume acyclicity. In this work, we examine the necessary and sufficient conditions under which a constraint-based relational causal discovery algorithm is sound and complete for \textit{cyclic relational causal models}. We introduce \textit{relational acyclification}, an operation specifically designed for relational models that enables reasoning about the identifiability of cyclic relational causal models. We show that under the assumptions of relational acyclification and $\sigma$-faithfulness, the relational causal discovery algorithm RCD (Maier et al. 2013) is sound and complete for cyclic models. We present experimental results to support our claim. | 翻訳日:2022-08-29 10:47:40 公開日:2022-08-26 |
# ニューラルネットワークを用いた混合整数計画のための生涯学習 Lifelong Learning for Neural powered Mixed Integer Programming ( http://arxiv.org/abs/2208.12226v2 ) ライセンス: Link先を確認 | Sahil Manchanda, Sayan Ranu | (参考訳) 混合整数プログラム(mips)は一般に分岐・境界アルゴリズムによって解かれる。
近年,MIPの解決に要する実行時間を短縮することに成功したため,専門家の強い分岐ヒューリスティックの高速近似を模倣する学習が注目されている。
しかし、既存の学習とブランチの手法では、トレーニングデータ全体が単一のトレーニングセッションで利用できると仮定している。
この仮定はしばしば真実ではなく、トレーニングデータが連続的に供給された場合、既存のテクニックは破滅的な忘れがちである。
本研究では,混合整数プログラムの分岐に対する生涯学習の未探索パラダイムについて検討する。
破滅的な忘れを緩和するために,二部グラフの形でMIPインスタンスをモデル化し,二部グラフアテンションネットワークを用いて埋め込み空間にマップするLIMIPを提案する。
このリッチな埋め込み空間は、知識蒸留と弾性重み付けの応用による破滅的な忘れ込みを回避し、有効性を維持するためのパラメーターを学習し、したがって大きなドリフトから保護される。
我々は,NP-hard問題に対するLIMIPの評価を行い,既存のベースラインと比較すると,生涯学習に直面すると,LIMIPが最大50%向上することが確認された。 Mixed Integer programs (MIPs) are typically solved by the Branch-and-Bound algorithm. Recently, Learning to imitate fast approximations of the expert strong branching heuristic has gained attention due to its success in reducing the running time for solving MIPs. However, existing learning-to-branch methods assume that the entire training data is available in a single session of training. This assumption is often not true, and if the training data is supplied in continual fashion over time, existing techniques suffer from catastrophic forgetting. In this work, we study the hitherto unexplored paradigm of Lifelong Learning to Branch on Mixed Integer Programs. To mitigate catastrophic forgetting, we propose LIMIP, which is powered by the idea of modeling an MIP instance in the form of a bipartite graph, which we map to an embedding space using a bipartite Graph Attention Network. This rich embedding space avoids catastrophic forgetting through the application of knowledge distillation and elastic weight consolidation, wherein we learn the parameters key towards retaining efficacy and are therefore protected from significant drift. We evaluate LIMIP on a series of NP-hard problems and establish that in comparison to existing baselines, LIMIP is up to 50% better when confronted with lifelong learning. | 翻訳日:2022-08-29 10:47:16 公開日:2022-08-26 |
# 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習 Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path ( http://arxiv.org/abs/2208.11639v2 ) ライセンス: Link先を確認 | Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar | (参考訳) 平均フィールドゲームにおけるオンライン強化学習について考察する。
既存の研究とは対照的に,汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発することにより,平均フィールドオラクルの必要性を緩和する。
これをサンドボックス学習と呼び、マルチエージェント非協調環境で動作しているエージェントのウォームスタートとして使用できる。
我々は、平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し、汎用エージェントのより高速な時間スケールに対する制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。
十分な探索条件下では、平均場と平均場平衡への制御ポリシーの収束の観点から有限サンプル収束保証を提供する。
サンドボックス学習アルゴリズムのサンプル複雑性は$\mathcal{o}(\epsilon^{-4})$である。
最後に,混雑ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証する。 We consider online reinforcement learning in Mean-Field Games. In contrast to the existing works, we alleviate the need for a mean-field oracle by developing an algorithm that estimates the mean-field and the optimal policy using a single sample path of the generic agent. We call this Sandbox Learning, as it can be used as a warm-start for any agent operating in a multi-agent non-cooperative setting. We adopt a two timescale approach in which an online fixed-point recursion for the mean-field operates on a slower timescale and in tandem with a control policy update on a faster timescale for the generic agent. Under a sufficient exploration condition, we provide finite sample convergence guarantees in terms of convergence of the mean-field and control policy to the mean-field equilibrium. The sample complexity of the Sandbox learning algorithm is $\mathcal{O}(\epsilon^{-4})$. Finally, we empirically demonstrate effectiveness of the sandbox learning algorithm in a congestion game. | 翻訳日:2022-08-29 09:14:14 公開日:2022-08-26 |