このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230308となっている論文です。

PDF登録状況(公開日: 20230308)

TitleAuthorsAbstract論文公表日・翻訳日
# 決定論、因果性、情報:物理学は決定論的なものか?

Indeterminism, causality and information: Has physics ever been deterministic? ( http://arxiv.org/abs/2003.07411v3 )

ライセンス: Link先を確認
Flavio Del Santo(参考訳) 物理学者の間で伝えられる伝統は、古典物理学はあらゆる解釈によらず、絶対確実性で未来を予測することができる完全な決定論理論であると主張する。 また、物理学に基本的な不決定性を導入したのは量子力学であるとも述べている。 古典力学も根本的非決定論的理論として解釈できる別の物語が存在することを示す。 他方では、これはオープンな未来に多くの可能性をもたらす余地を残しているが、他方では、量子力学の典型的な概念的な問題(測定問題など)を古典物理学にもたらしている。 ここでは、代替的な非決定論的古典物理学の問題と、情報理論と因果性の概念との関係について論じる。

A tradition handed down among physicists maintains that classical physics is a perfectly deterministic theory capable of predicting the future with absolute certainty, independently of any interpretations. It also tells that it was quantum mechanics that introduced fundamental indeterminacy into physics. We show that there exist alternative stories to be told in which classical mechanics, too, can be interpreted as a fundamentally indeterministic theory. On the one hand, this leaves room for the many possibilities of an open future, yet, on the other, it brings into classical physics some of the conceptual issues typical of quantum mechanics, such as the measurement problem. We discuss here some of the issues of an alternative, indeterministic classical physics and their relation to the theory of information and the notion of causality.
翻訳日:2023-03-26 04:33:16 公開日:2023-03-08
# 非アベリアe/4とアベリアe/2準粒子の干渉測定

Interference measurements of non-Abelian e/4 & Abelian e/2 quasiparticle braiding ( http://arxiv.org/abs/1905.10248v5 )

ライセンス: Link先を確認
R.L. Willett (1), K. Shtengel (2), C. Nayak (3 and 4), L.N. Pfeiffer (5), Y.J. Chung (5), M. L. Peabody (1), K.W. Baldwin (5), K. W. West (5). ((1) Nokia Bell Labs, Murray Hill, New Jersey, USA, (2) Department of Physics, University of California, Riverside, California, USA, (3) Microsoft Quantum, Elings Hall, University of California, Santa Barbara, California, USA,(4) Department of Physics, University of California, Santa Barbara, California, USA, (5) Department of Electrical Engineering, Princeton University, Princeton, New Jersey, USA.)(参考訳) 量子ホールは充填係数$\nu=5/2$と7/2$で、アベリア電荷$e/2$準粒子と非アベリア電荷$e/4$準粒子が与えられる。 後者の非可換統計は、驚くべき干渉記号である偶数オッド効果を示すと予測されている。 新しい高純度ヘテロ構造を用いたFabry-P'erot干渉計の磁場関数としての抵抗振動の測定により, 励起の非アベリア性を示す実験的な証拠を初めて報告した。 5/2$と7/2$の両方で、フェルミオンパリティ(英語版)(フェルミオンパリティ)は、非アベリア準粒子の偶数の位相量子数である。 観測された$e/4$振動の位相は、両方の充填因子の近くで長時間(数時間)にわたって再現可能で安定であり、フェルミオンパリティの安定性を示す。 どちらの分数においても、位相ゆらぎが観測されるとき、それらは主に$\pi$位相フリップであり、フェルミオンパリティ変化または囲まれた$e/4$準粒子の数の変化と一致する。 また,両状態のアーベル干渉過程に起因する低周波振動についても検討した。 これらの結果はともに、$e/4$準粒子の非アベリア的な性質の新たな証拠となり、その観測されたフェルミオンパリティの寿命は、位相量子計算の実用性をさらに強化する。

The quantum Hall states at filling factors $\nu=5/2$ and $7/2$ are expected to have Abelian charge $e/2$ quasiparticles and non-Abelian charge $e/4$ quasiparticles. The non-Abelian statistics of the latter has been predicted to display a striking interferometric signature, the even-odd effect. By measuring resistance oscillations as a function of magnetic field in Fabry-P\'erot interferometers using new high purity heterostructures, we for the first time report experimental evidence for the non-Abelian nature of excitations at $\nu=7/2$. At both $\nu=5/2$ and $7/2$ we also examine, for the first time, the fermion parity, a topological quantum number of an even number of non-Abelian quasiparticles. The phase of observed $e/4$ oscillations is reproducible and stable over long times (hours) near both filling factors, indicating stability of the fermion parity. At both fractions, when phase fluctuations are observed, they are predominantly $\pi$ phase flips, consistent with either fermion parity change or change in the number of the enclosed $e/4$ quasiparticles. We also examine lower-frequency oscillations attributable to Abelian interference processes in both states. Taken together, these results constitute new evidence for the non-Abelian nature of $e/4$ quasiparticles; the observed life-time of their combined fermion parity further strengthens the case for their utility for topological quantum computation.
翻訳日:2023-03-26 04:32:46 公開日:2023-03-08
# EHRに基づく疾患予測分析のための共分散規則化判別分析の改善

Improving Covariance-Regularized Discriminant Analysis for EHR-based Predictive Analytics of Diseases ( http://arxiv.org/abs/1610.05446v4 )

ライセンス: Link先を確認
Sijia Yang, Haoyi Xiong, Kaibo Xu, Licheng Wang, Jiang Bian, Zeyi Sun(参考訳) 線形判別分析(LDA)は特徴抽出と次元減少のためのよく知られた手法である。 しかし,従来のLDAの性能は,逆問題に対するHDLSS(High Dimension Low Sample Size)データで著しく低下する。 既存のHDLSSデータ分類のアプローチでは、問題となっているデータはガウス分布と仮定し、正規化を伴うHDLSS分類問題を扱うのが一般的である。 しかし、これらの仮定は極めて限られた数の患者から収集された電子健康記録(ehrs)データを用いてパーソナライズされた予測分析を可能にし、予測のためにターゲット疾患と診断されたかどうかを判断するなど、多くの新興現実のアプリケーションで保持するには厳しすぎる。 本稿では,個人EHRデータとLDA分類器を用いて,疾患の予測分析の問題を修正した。 このギャップを埋めるため,本稿では,データ分類におけるldaの精度を任意の分布で理解する解析モデルについて検討した。 このモデルでは,(1)(逆)共分散行列推定器の統計的収束率,(2)トレーニング/テストデータセットの適合分布へのばらつきの2つの因子によって制御されるLDA誤差率の理論的上限を与える。 この結果から,2つの要因のバランスを保ち,分類性能を向上させることで誤差率を下げることができた。 そこで本研究では,HDLSSデータのために開発された最先端のLDA手法よりも優れたLDA推定精度を向上させるために,デスパーシファイドグラフラッソを利用した新しいLDA分類器De-Sparseを提案する。 このような進歩と有効性は、理論解析とEHRデータセットに関する広範な実験によってさらに実証される。

Linear Discriminant Analysis (LDA) is a well-known technique for feature extraction and dimension reduction. The performance of classical LDA, however, significantly degrades on the High Dimension Low Sample Size (HDLSS) data for the ill-posed inverse problem. Existing approaches for HDLSS data classification typically assume the data in question are with Gaussian distribution and deal the HDLSS classification problem with regularization. However, these assumptions are too strict to hold in many emerging real-life applications, such as enabling personalized predictive analysis using Electronic Health Records (EHRs) data collected from an extremely limited number of patients who have been diagnosed with or without the target disease for prediction. In this paper, we revised the problem of predictive analysis of disease using personal EHR data and LDA classifier. To fill the gap, in this paper, we first studied an analytical model that understands the accuracy of LDA for classifying data with arbitrary distribution. The model gives a theoretical upper bound of LDA error rate that is controlled by two factors: (1) the statistical convergence rate of (inverse) covariance matrix estimators and (2) the divergence of the training/testing datasets to fitted distributions. To this end, we could lower the error rate by balancing the two factors for better classification performance. Hereby, we further proposed a novel LDA classifier De-Sparse that leverages De-sparsified Graphical Lasso to improve the estimation of LDA, which outperforms state-of-the-art LDA approaches developed for HDLSS data. Such advances and effectiveness are further demonstrated by both theoretical analysis and extensive experiments on EHR datasets.
翻訳日:2023-03-26 04:31:57 公開日:2023-03-08
# パリティ量子最適化:制約の符号化

Parity Quantum Optimization: Encoding Constraints ( http://arxiv.org/abs/2105.06235v2 )

ライセンス: Link先を確認
Maike Drieb-Sch\"on, Kilian Ender, Younes Javanmard, Wolfgang Lechner(参考訳) 制約は、大きなエネルギーペナルティと追加の量子ビットオーバーヘッドで実装されるため、量子デバイス上でのハード最適化問題をさらに難しくする。 スピン符号化の代替として導入されたパリティ写像は、スピン変数の積を符号化するパリティ変数のみを用いて問題を表現に変換する。 パリティ表現における交換相互作用と単一スピンフリップ項を組み合わせた場合、任意のk体項の和と積の制約は、2次元量子系において追加のオーバーヘッドなしに実装できる。

Constraints make hard optimization problems even harder to solve on quantum devices because they are implemented with large energy penalties and additional qubit overhead. The parity mapping, which has been introduced as an alternative to the spin encoding, translates the problem to a representation using only parity variables that encodes products of spin variables. In combining exchange interaction and single spin flip terms in the parity representation, constraints on sums and products of arbitrary k-body terms can be implemented without additional overhead in two-dimensional quantum systems.
翻訳日:2023-03-26 04:28:54 公開日:2023-03-08
# parity量子最適化:コンパイラ

Parity Quantum Optimization: Compiler ( http://arxiv.org/abs/2105.06233v2 )

ライセンス: Link先を確認
Kilian Ender, Roeland ter Hoeven, Benjamin E. Niehoff, Maike Drieb-Sch\"on, Wolfgang Lechner(参考訳) 任意の$k$-body相互作用と平面量子チップアーキテクチャを用いたサイド条件からなる最適化問題を解くことを目的としたパリティ量子最適化を導入する。 この方法は、ハイパーグラフの一般化閉サイクルを用いた任意の$k$-body項による問題グラフの分解を導入する。 ハード制約の形での最適化問題の側条件は、側条件に関連する項を含むオープンサイクルとして含めることができる。 一般化パリティ写像は、最適化問題を2次非制約バイナリ最適化問題 (QUBO) に変換する必要性を回避し、二乗格子上の高階制約バイナリ最適化問題 (HCBO) の直接符号化とゲートの完全並列化を可能にする。

We introduce parity quantum optimization with the aim of solving optimization problems consisting of arbitrary $k$-body interactions and side conditions using planar quantum chip architectures. The method introduces a decomposition of the problem graph with arbitrary $k$-body terms using generalized closed cycles of a hypergraph. Side conditions of the optimization problem in form of hard constraints can be included as open cycles containing the terms involved in the side conditions. The generalized parity mapping thus circumvents the need to translate optimization problems to a quadratic unconstrained binary optimization problem (QUBO) and allows for the direct encoding of higher-order constrained binary optimization problems (HCBO) on a square lattice and full parallelizability of gates.
翻訳日:2023-03-26 04:28:36 公開日:2023-03-08
# テンソルネットワーク再正規化による集合モンテカルロ更新

Collective Monte Carlo updates through tensor network renormalization ( http://arxiv.org/abs/2104.13264v4 )

ライセンス: Link先を確認
Miguel Fr\'ias-P\'erez, Michael Mari\"en, David P\'erez Garc\'ia, Mari Carmen Ba\~nuls, and Sofyan Iblisdir(参考訳) 古典スピン系のボルツマン分布に対するメトロポリス・ハスティングス・マルコフ連鎖を導入する。 近似テンソルネットワーク収縮に依存して、進化の各段階における相関した集団更新を提案する。 強磁性,反強磁性,(完全に)フラストレーションおよびエドワーズ・アンダーソンスピンガラスケースを含む2次元イジングモデルの多種多様な事例のベンチマークを行い,その指標として,マルコフ連鎖が臨界点近傍でも大きな受容率を達成することを示す。 我々が検討したそれぞれの状況において、マルコフ連鎖はメトロポリスやウルフアルゴリズムのような他のモンテカルロスキームとよく比較される。 また,三次元空間次元への拡張を示し,有限強磁性および反強磁性の場合の高速平衡を示す。 さらに、元々は、開境界条件を持つ有限次自由度を持つ正方格子のために設計されたが、提案されたスキームは、三角形格子、連続自由度を持つ系、行列モデル、強球の閉じ込められた気体、あるいは任意の境界条件を扱うために用いられる。

We introduce a Metropolis-Hastings Markov chain for Boltzmann distributions of classical spin systems. It relies on approximate tensor network contractions to propose correlated collective updates at each step of the evolution. We present benchmarks for a wide variety of instances of the two-dimensional Ising model, including ferromagnetic, antiferromagnetic, (fully) frustrated and Edwards-Anderson spin glass cases, and we show that, with modest computational effort, our Markov chain achieves sizeable acceptance rates, even in the vicinity of critical points. In each of the situations we have considered, the Markov chain compares well with other Monte Carlo schemes such as the Metropolis or Wolff algorithm: equilibration times appear to be reduced by a factor that varies between 40 and 2000, depending on the model and the observable being monitored. We also present an extension to three spatial dimensions, and demonstrate that it exhibits fast equilibration for finite ferro and antiferromagnetic instances. Additionally, and although it is originally designed for a square lattice of finite degrees of freedom with open boundary conditions, the proposed scheme can be used as such, or with slight modifications, to study triangular lattices, systems with continuous degrees of freedom, matrix models, a confined gas of hard spheres, or to deal with arbitrary boundary conditions.
翻訳日:2023-03-26 04:28:12 公開日:2023-03-08
# 密度-ポテンシャルマッピングの構造 第1部:標準密度汎関数理論

The structure of the density-potential mapping. Part I: Standard density-functional theory ( http://arxiv.org/abs/2211.16627v2 )

ライセンス: Link先を確認
Markus Penz, Erik I. Tellgren, Mih\'aly A. Csirik, Michael Ruggenthaler, Andre Laestadius(参考訳) 密度汎関数理論(DFT)のホヘンベルク・コーンの定理は、一体粒子密度だけで電子系の基底状態における完全な特徴づけの基礎として広く考えられている。 このレビューのパートIは、磁場を含む理論の異なる拡張において、DFTとパートIIにおけるホヘンベルク・コーンの定理の状況を明らかにすることを目的としている。 我々はホヘンベルク・コーンの定理が DFT の基礎をあまり形成していないという証拠を集め、むしろより包括的な数学的枠組みの結果である。 このような結果は、一般化DFTの構築に関して特に有用である。

The Hohenberg-Kohn theorem of density-functional theory (DFT) is broadly considered the conceptual basis for a full characterization of an electronic system in its ground state by just the one-body particle density. Part I of this review aims at clarifying the status of the Hohenberg-Kohn theorem within DFT and Part II at different extensions of the theory that include magnetic fields. We collect evidence that the Hohenberg-Kohn theorem does not so much form the basis of DFT, but is rather the consequence of a more comprehensive mathematical framework. Such results are especially useful when it comes to the construction of generalized DFTs.
翻訳日:2023-03-26 04:17:04 公開日:2023-03-08
# su(2)$不変量子力学系の'最も古典的'状態の奇妙な特徴

An odd feature of the `most classical' states of $SU(2)$ invariant quantum mechanical systems ( http://arxiv.org/abs/2106.08695v4 )

ライセンス: Link先を確認
L\'aszl\'o B. Szabados(参考訳) 一般相対性理論の複素およびスピン的手法は、2つの与えられた方向における角運動量ベクトル作用素の成分の不確かさ関係において等式が成り立つ、$su(2)$ invariant quantum mechanical systemsの全ての状態を決定するために用いられる。 期待値は離散量子数と2つのパラメータに依存し、そのうちの1つは2つの角運動量成分間の角度であり、もう1つは2つの標準偏差の商である。 2つの角運動量成分間の角度を任意にすることを許し、このパラメータ空間上では、標準偏差が連続的に変化するが、期待値のうちの1つは \emph{discontinuously} 変化することが示されている。 この不連続性は、真のパラメータ空間は、この古典的空間の \emph{double cover} でなければならないことを示唆している: 複素函数 $\sqrt{z}$ と関連して知られている \emph{Riemann surface} に微分同相でなければならない。 さらに、角運動量成分間の角度は、直交運動量成分の特別な場合に見られる期待値の連続範囲と1つの角運動量成分の離散点スペクトルとの間の補間パラメータの役割を担っている。 これらの角運動量成分の \emph{simultaneous} 測定の結果についても簡単に議論する。

Complex and spinorial techniques of general relativity are used to determine all the states of the $SU(2)$ invariant quantum mechanical systems in which the equality holds in the uncertainty relations for the components of the angular momentum vector operator in two given directions. The expectation values depend on a discrete quantum number and two parameters, one of them is the angle between the two angular momentum components and the other is the quotient of the two standard deviations. Allowing the angle between the two angular momentum components to be arbitrary, \emph{a new genuine quantum mechanical phenomenon emerges}: It is shown that although the standard deviations change continuously, one of the expectation values changes \emph{discontinuously} on this parameter space. Since physically neither of the angular momentum components is distinguished over the other, this discontinuity suggests that the genuine parameter space must be a \emph{double cover} of this classical one: It must be diffeomorphic to a \emph{Riemann surface} known in connection with the complex function $\sqrt{z}$. Moreover, the angle between the angular momentum components plays the role of the parameter of an interpolation between the continuous range of the expectation values found in the special case of the orthogonal angular momentum components and the discrete point spectrum of one angular momentum component. The consequences in the \emph{simultaneous} measurements of these angular momentum components are also discussed briefly.
翻訳日:2023-03-26 04:16:31 公開日:2023-03-08
# Parity Quantum Optimization:ベンチマーク

Parity Quantum Optimization: Benchmarks ( http://arxiv.org/abs/2105.06240v2 )

ライセンス: Link先を確認
Michael Fellner, Kilian Ender, Roeland ter Hoeven, Wolfgang Lechner(参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)のパリティ変換のベンチマークを示す。 実世界のシナリオに対して単一のQAOAサイクルを実装するために必要なゲートリソースを分析します。 特に、より高い次数項を持つランダムスピンモデルと、金融クラッシュの予測や電子構造ハミルトンの基底状態の探索の問題を考える。 スピンモデルについて研究した結果,標準ゲートモデルと比較してパリティマッピングの利点は大きいことがわかった。 ゲートの完全な並列化性と組み合わせることで、量子的優位性を示すレースを加速する可能性がある。

We present benchmarks of the parity transformation for the Quantum Approximate Optimization Algorithm (QAOA). We analyse the gate resources required to implement a single QAOA cycle for real-world scenarios. In particular, we consider random spin models with higher order terms, as well as the problems of predicting financial crashes and finding the ground states of electronic structure Hamiltonians. For the spin models studied our findings imply a significant advantage of the parity mapping compared to the standard gate model. In combination with full parallelizability of gates this has the potential to boost the race for demonstrating quantum advantage.
翻訳日:2023-03-26 04:16:07 公開日:2023-03-08
# 共同SDRとPSSQ最適化のためのエンドツーエンドマルチタスクDenoising

End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization ( http://arxiv.org/abs/1901.09146v4 )

ライセンス: Link先を確認
Jaeyoung Kim, Mostafa El-Khamy and Jungwon Lee(参考訳) 近年,ディープニューラルネットワークに基づく教師付き学習は,音声強調の大幅な改善を実現している。 ノイズキャンセリングネットワークは、ノイズの多い音声から直接、あるいはノイズの多いスペクトルの比率であるスペクトルマスクへのマッピングを学習する。 いずれの場合も、地上トラスラベルと時間領域またはスペクトル出力間の平均二乗誤差(MSE)を最小化することにより、ネットワークを最適化する。 しかし、既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。 スペクトルミスマッチは、短周期フーリエ変換(STFT)後のスペクトル変化が逆短周期フーリエ変換(ISTFT)の後に完全に回復できないというよく知られた問題である。 基準ミスマッチは,従来のMSE測度が,我々の目標測度,信号対歪み比(SDR),知覚的音声品質評価(PESQ)を最大化するための準最適である。 本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。 まず、帯域ミスマッチを回避するため、ISTFT後の時間領域信号でネットワーク最適化を行う。 次に,sdr と pesq の指標との相関性を改善した2つの損失関数を提案する。 実験の結果,提案手法は既存手法よりもSDRおよびPSSQの性能を有意に向上した。

Supervised learning based on a deep neural network recently has achieved substantial improvement on speech enhancement. Denoising networks learn mapping from noisy speech to clean one directly, or to a spectrum mask which is the ratio between clean and noisy spectra. In either case, the network is optimized by minimizing mean square error (MSE) between ground-truth labels and time-domain or spectrum output. However, existing schemes have either of two critical issues: spectrum and metric mismatches. The spectrum mismatch is a well known issue that any spectrum modification after short-time Fourier transform (STFT), in general, cannot be fully recovered after inverse short-time Fourier transform (ISTFT). The metric mismatch is that a conventional MSE metric is sub-optimal to maximize our target metrics, signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ). This paper presents a new end-to-end denoising framework with the goal of joint SDR and PESQ optimization. First, the network optimization is performed on the time-domain signals after ISTFT to avoid spectrum mismatch. Second, two loss functions which have improved correlations with SDR and PESQ metrics are proposed to minimize metric mismatch. The experimental result showed that the proposed denoising scheme significantly improved both SDR and PESQ performance over the existing methods.
翻訳日:2023-03-25 04:40:32 公開日:2023-03-08
# テンソル積表現を用いた不変特徴符号化

Invariant Feature Coding using Tensor Product Representation ( http://arxiv.org/abs/1906.01857v3 )

ライセンス: Link先を確認
Yusuke Mukuta and Tatsuya Harada(参考訳) 本研究では,直交行列の有限群で表される変換の不変性を利用した特徴符号化手法を提案する。 凸損失最小化を用いた線形分類器の学習において,群不変特徴ベクトルが十分な識別情報を含むことを示す。 この結果に基づき、ほとんどの特徴符号化法や大域的特徴関数でよく用いられる主成分分析やk平均クラスタリングにおいて、グループアクションを明示的に考慮する新しい特徴モデルを提案する。 大域的特徴関数は一般に複素非線形関数であるが、この空間上の群作用は、基本表現のテンソル積表現としてこれらの関数を構成することで容易に計算でき、結果として明らかに不変な特徴関数となる。 本手法の有効性を複数の画像データセットで示す。

In this study, a novel feature coding method that exploits invariance for transformations represented by a finite group of orthogonal matrices is proposed. We prove that the group-invariant feature vector contains sufficient discriminative information when learning a linear classifier using convex loss minimization. Based on this result, a novel feature model that explicitly consider group action is proposed for principal component analysis and k-means clustering, which are commonly used in most feature coding methods, and global feature functions. Although the global feature functions are in general complex nonlinear functions, the group action on this space can be easily calculated by constructing these functions as tensor-product representations of basic representations, resulting in an explicit form of invariant feature functions. The effectiveness of our method is demonstrated on several image datasets.
翻訳日:2023-03-25 04:32:11 公開日:2023-03-08
# 色に基づくセグメンテーションとセンチネル2画像の自動ラベリングによる高能率深層学習モデルの学習

Toward Polar Sea-Ice Classification using Color-based Segmentation and Auto-labeling of Sentinel-2 Imagery to Train an Efficient Deep Learning Model ( http://arxiv.org/abs/2303.12719v1 )

ライセンス: Link先を確認
Jurdana Masuma Iqrah, Younghyun Koo, Wei Wang, Hongjie Xie and Sushil Prasad(参考訳) 地球温暖化は、特に極地地域での海氷や氷河の融解など、壊滅的な環境変化を引き起こしている緊急問題である。 極海氷の融解パターンと後退は地球温暖化の重要な指標である。 センチネル2衛星(S2)は極域の高解像度の光学画像を撮影する。 本研究の目的は, 極海氷をS2画像を用いて, 厚み, 積雪, 若さ, 薄さ, 開放水に分類する, 堅牢で効果的なシステムを開発することである。 重要な課題は、基礎となる真実として機能するラベル付きS2トレーニングデータがないことである。 そこで本研究では,適切な色閾値に基づいてs2画像を自動的に分割ラベル付けする高精度な手法を示し,これら自動ラベルデータを用いてu-netマシンモデル(完全畳み込みニューラルネットワーク)を訓練し,分類精度の向上を図る。 南極のロス海地域の極地夏期のS2データに対する評価結果は、自動ラベル付きデータで訓練されたU-Netモデルが元のS2画像で90.18%の精度を示したのに対し、手動ラベル付きデータで訓練されたU-Netモデルは91.39%の精度を示した。 S2画像から薄い雲と影をフィルタリングすると、それぞれU-Netの精度が98.97%、手動でラベル付けされたトレーニングデータセットが98.40%向上する。

Global warming is an urgent issue that is generating catastrophic environmental changes, such as the melting of sea ice and glaciers, particularly in the polar regions. The melting pattern and retreat of polar sea ice cover is an essential indicator of global warming. The Sentinel-2 satellite (S2) captures high-resolution optical imagery over the polar regions. This research aims at developing a robust and effective system for classifying polar sea ice as thick or snow-covered, young or thin, or open water using S2 images. A key challenge is the lack of labeled S2 training data to serve as the ground truth. We demonstrate a method with high precision to segment and automatically label the S2 images based on suitably determined color thresholds and employ these auto-labeled data to train a U-Net machine model (a fully convolutional neural network), yielding good classification accuracy. Evaluation results over S2 data from the polar summer season in the Ross Sea region of the Antarctic show that the U-Net model trained on auto-labeled data has an accuracy of 90.18% over the original S2 images, whereas the U-Net model trained on manually labeled data has an accuracy of 91.39%. Filtering out the thin clouds and shadows from the S2 images further improves U-Net's accuracy, respectively, to 98.97% for auto-labeled and 98.40% for manually labeled training datasets.
翻訳日:2023-03-25 03:08:40 公開日:2023-03-08
# 動詞表現における軌跡と視覚モーダリティの比較

Comparing Trajectory and Vision Modalities for Verb Representation ( http://arxiv.org/abs/2303.12737v1 )

ライセンス: Link先を確認
Dylan Ebert, Chen Sun, Ellie Pavlick(参考訳) 3次元の軌跡(または時間の経過とともに物体の位置と回転)は動詞の意味論の重要な側面(例えばロール対スライドの意味)を符号化することが示されている。 しかし、NLPのほとんどのマルチモーダルモデルは、世界の表現として2D画像を使用している。 動詞意味論の形式モデルにおける3次元空間の重要性を考えると、これらの2次元画像は、意味の微妙な相違を捉えるのに失敗した表現をもたらすと期待する。 本稿では,この仮説を直接制御実験で検証する。 自己教師付き画像と軌道エンコーダを訓練し,それぞれが動詞概念の区別を学ぶ程度で評価する。 最初の期待とは対照的に、2dの視覚モダリティは3dの軌跡とよく似ています。 この問題についてさらなる研究を行う必要があるが、我々の最初の発見は、より豊かな環境表現が言語のためのより良い表現学習に必ず変換されるという従来の知恵に挑戦する。

Three-dimensional trajectories, or the 3D position and rotation of objects over time, have been shown to encode key aspects of verb semantics (e.g., the meanings of roll vs. slide). However, most multimodal models in NLP use 2D images as representations of the world. Given the importance of 3D space in formal models of verb semantics, we expect that these 2D images would result in impoverished representations that fail to capture nuanced differences in meaning. This paper tests this hypothesis directly in controlled experiments. We train self-supervised image and trajectory encoders, and then evaluate them on the extent to which each learns to differentiate verb concepts. Contrary to our initial expectations, we find that 2D visual modalities perform similarly well to 3D trajectories. While further work should be conducted on this question, our initial findings challenge the conventional wisdom that richer environment representations necessarily translate into better representation learning for language.
翻訳日:2023-03-25 03:00:51 公開日:2023-03-08
# 文字やイラストの二酸化炭素排出量は人間よりaiの方が少ない

The Carbon Emissions of Writing and Illustrating Are Lower for AI than for Humans ( http://arxiv.org/abs/2303.06219v1 )

ライセンス: Link先を確認
Bill Tomlinson, Rebecca W. Black, Donald J. Patterson, Andrew W. Torrance(参考訳) AIシステムが普及するにつれて、温室効果ガスの排出は人間の社会にとってますます重要な関心事となっている。 我々は,複数のAIシステム(ChatGPT,BLOOM,DALL-E2,Midjourney)のエミッションを分析する。 テキストのページを書くAIは、人間の130~1500倍のCO2eを放出する。 同様に、画像を生成するAIは310倍から2900倍減少する。 排出分析は、専門職の転職、合法性、リバウンド効果などの社会的影響を考慮しない。 加えて、AIはすべての人間のタスクの代用ではない。 それでも、現在、AIの使用は、人間よりもはるかに低いエミッションレベルでいくつかの主要な活動を実行する可能性を秘めている。

As AI systems proliferate, their greenhouse gas emissions are an increasingly important concern for human societies. We analyze the emissions of several AI systems (ChatGPT, BLOOM, DALL-E2, Midjourney) relative to those of humans completing the same tasks. We find that an AI writing a page of text emits 130 to 1500 times less CO2e than a human doing so. Similarly, an AI creating an image emits 310 to 2900 times less. Emissions analysis do not account for social impacts such as professional displacement, legality, and rebound effects. In addition, AI is not a substitute for all human tasks. Nevertheless, at present, the use of AI holds the potential to carry out several major activities at much lower emission levels than can humans.
翻訳日:2023-03-19 11:58:41 公開日:2023-03-08
# FaceChat: 感情認識型対面対話フレームワーク

FaceChat: An Emotion-Aware Face-to-face Dialogue Framework ( http://arxiv.org/abs/2303.07316v1 )

ライセンス: Link先を確認
Deema Alnuhait, Qingyang Wu, Zhou Yu(参考訳) chatgptのような現在の対話システムは、テキストベースのインタラクションにおいて大きな進歩を遂げているが、ユーザーエクスペリエンス全体の拡張における他のモダリティの可能性を見落としていることが多い。 感情に敏感な対面会話を可能にするwebベースの対話フレームワークであるfacechatを提案する。 最先端技術を自然言語処理、コンピュータビジョン、音声処理にシームレスに統合することで、facechatは没入的で魅力的なユーザー体験を提供する。 facechatフレームワークにはカウンセリング、感情サポート、パーソナライズされたカスタマーサービスなど、幅広い潜在的なアプリケーションがある。 このシステムは、将来の研究者がマルチモーダル対話システム分野を進めるためのプラットフォームとして、シンプルで柔軟に設計されている。 コードはhttps://github.com/qywu/FaceChat.comで公開されている。

While current dialogue systems like ChatGPT have made significant advancements in text-based interactions, they often overlook the potential of other modalities in enhancing the overall user experience. We present FaceChat, a web-based dialogue framework that enables emotionally-sensitive and face-to-face conversations. By seamlessly integrating cutting-edge technologies in natural language processing, computer vision, and speech processing, FaceChat delivers a highly immersive and engaging user experience. FaceChat framework has a wide range of potential applications, including counseling, emotional support, and personalized customer service. The system is designed to be simple and flexible as a platform for future researchers to advance the field of multimodal dialogue systems. The code is publicly available at https://github.com/qywu/FaceChat.
翻訳日:2023-03-19 11:48:31 公開日:2023-03-08
# ChatGPTがコンピュータサイエンス実験に参加

ChatGPT Participates in a Computer Science Exam ( http://arxiv.org/abs/2303.09461v1 )

ライセンス: Link先を確認
Sebastian Bordt, Ulrike von Luxburg(参考訳) われわれはChatGPTに、'algorithms and Data Structures'の学部コンピュータサイエンス試験への参加を依頼した。 私たちは試験全体のプログラムを学生に当てはまるように評価した。 その答案を試験用紙に手作業で写し、その後、200名の学生と一緒に盲目設定にされた。 結果,ChatGPTは40点中20.5点を獲得した。 この素晴らしいパフォーマンスは、ChatGPTが大学試験のような挑戦的なタスクに成功できることを示している。 同時に、試験のタスクは、他の試験のタスクと構造的に類似しており、宿題の問題が解決され、オンラインで見られる教材が提供されている。 したがって、この実験からChatGPTがコンピュータ科学の知識を持っていると結論付けるのは時期尚早である。 ChatGPT との会話の書き起こしは \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam} で入手できる。

We asked ChatGPT to participate in an undergraduate computer science exam on ''Algorithms and Data Structures''. We evaluated the program on the entire exam as posed to the students. We hand-copied its answers onto an exam sheet, which was subsequently graded in a blind setup alongside those of 200 participating students. We find that ChatGPT narrowly passed the exam, obtaining 20.5 out of 40 points. This impressive performance indicates that ChatGPT can indeed succeed in challenging tasks like university exams. At the same time, the tasks in our exam are structurally similar to those on other exams, solved homework problems, and teaching materials that can be found online. Therefore, it would be premature to conclude from this experiment that ChatGPT has any understanding of computer science. The transcript of our conversation with ChatGPT is available at \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam}, and the entire graded exam is in the appendix of this paper.
翻訳日:2023-03-19 11:31:36 公開日:2023-03-08
# Terry vs. AI, Round 1: Heralding single-rail (approximate?) 4-GHZ state from tightd source

Terry vs an AI, Round 1: Heralding single-rail (approximate?) 4-GHZ state from squeezed sources ( http://arxiv.org/abs/2303.05514v1 )

ライセンス: Link先を確認
Terry Rudolph(参考訳) 人工知能(AI)が物理学者の仕事を引き継ぐ可能性については、冷静に扱うべきである。 ここで、この分野の指導的aiによって行われた量子フォトニクスの科学的発見の一つを評価し、暖かいビーチでメズカル・マルガリータを飲みに行くことを許される時期について見極めようと試みる。 私の分析から、まだかなり時間がかかるかもしれないという悲惨な結論につながります。

The potential for artificial intelligence (AI) to take over the work of physicists should be treated with glee. Here I evaluate one of the scientific discoveries in quantum photonics made by a leading AI in the field, in order to try and gain insight into when I will be allowed to go spend my days sipping mezcal margaritas on a warm beach. My analysis leads me to the distressing conclusion that it may, in fact, be quite a while yet.
翻訳日:2023-03-13 17:02:36 公開日:2023-03-08
# 単一波動関数から高次中心電荷を抽出する

Extracting higher central charge from a single wave function ( http://arxiv.org/abs/2303.04822v1 )

ライセンス: Link先を確認
Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu(参考訳) 2+1)Dトポロジカル秩序相は、キラル中心電荷$c_-$が消滅しても、ギャップ可能なエッジを持つかもしれない。 近年,キラル中心電荷の'higher'バージョンと見なされる量によって,先端を突き出すのに$c_-$を超えるさらなる障害が生じることが判明した。 この手紙では、高次中心電荷は位相的に順序付けられた状態の波動関数に作用する \textit{partial rotation} 作用素の期待値によって特徴づけられることを示した。 これにより、1つの波動関数から高い中心電荷を抽出し、量子コンピュータで評価することができる。 高次中心電荷のキャラクタリゼーションは、エッジ共形場理論のモジュラー特性と、それぞれ$\mathrm{U}(1)_2$およびIsingトポロジカルオーダーに対応する、$\nu=1/2$bosonic Laughlin状態とKITEの非アベリアギャップ位相による数値結果から解析的に導かれる。 この文字は、(2+1) 次元ボソニック位相次数が $c_-$ を超えるガッパブルエッジへの一連の障害を得るための数値的方法を確立している。 また、単一波動関数上の部分回転の期待値は、リーブ・シュルツ・マティス型定理を思わせる (2+1)D ボソニックトポロジー次数のバルク境界系の低エネルギースペクトルに制約を与えることを指摘した。

A (2+1)D topologically ordered phase may or may not have a gappable edge, even if its chiral central charge $c_-$ is vanishing. Recently, it is discovered that a quantity regarded as a ``higher'' version of chiral central charge gives a further obstruction beyond $c_-$ to gapping out the edge. In this Letter, we show that the higher central charges can be characterized by the expectation value of the \textit{partial rotation} operator acting on the wavefunction of the topologically ordered state. This allows us to extract the higher central charge from a single wavefunction, which can be evaluated on a quantum computer. Our characterization of the higher central charge is analytically derived from the modular properties of edge conformal field theory, as well as the numerical results with the $\nu=1/2$ bosonic Laughlin state and the non-Abelian gapped phase of the Kitaev honeycomb model, which corresponds to $\mathrm{U}(1)_2$ and Ising topological order respectively. The letter establishes a numerical method to obtain a set of obstructions to the gappable edge of (2+1)D bosonic topological order beyond $c_-$. We also point out that the expectation values of the partial rotation on a single wavefunction put a constraint on the low-energy spectrum of the bulk-boundary system of (2+1)D bosonic topological order, reminiscent of the Lieb-Schultz-Mattis type theorems.
翻訳日:2023-03-13 17:02:04 公開日:2023-03-08
# ニューラルネットワークにおける敵攻撃の探索 - 説明可能なアプローチ

Exploring Adversarial Attacks on Neural Networks: An Explainable Approach ( http://arxiv.org/abs/2303.06032v1 )

ライセンス: Link先を確認
Justus Renkhoff, Wenkai Tan, Alvaro Velasquez, illiam Yichen Wang, Yongxin Liu, Jian Wang, Shuteng Niu, Lejla Begic Fazlic, Guido Dartmann, Houbing Song(参考訳) 深層学習(DL)は様々な分野、特に自律運転のような安全クリティカルな応用に応用されている。 その結果,これらの手法の堅牢性を確保することが重要であり,敵の攻撃による不確実な行動に対処することが重要である。 本稿では,VGG-16モデルの逆ノイズと統計的に類似したガウスランダムノイズとを混合した場合の応答特性を勾配熱マップを用いて解析する。 特に,ネットワーク応答層を層単位で比較し,エラーの発生箇所を決定する。 いくつかの興味深い発見が導かれる。 まず、gaussian random noiseと比較して、故意に発生する敵対的ノイズは、ネットワーク内の濃度の領域をそらすことによって、厳しい行動の偏りを引き起こす。 第二に、多くの場合、敵の例は最終決定を誤解させるためにいくつかの中間ブロックを妥協するしかありません。 第三に、我々の実験により、特定のブロックはより脆弱で、敵の例によって利用しやすいことが判明した。 最後に、VGG-16モデルの層である$Block4\_conv1$と$Block5\_cov1$は、敵攻撃に対してより感受性が高いことを示す。 私たちの研究は、より信頼性の高いディープニューラルネットワーク(DNN)モデルの開発に関する貴重な洞察を提供することができます。

Deep Learning (DL) is being applied in various domains, especially in safety-critical applications such as autonomous driving. Consequently, it is of great significance to ensure the robustness of these methods and thus counteract uncertain behaviors caused by adversarial attacks. In this paper, we use gradient heatmaps to analyze the response characteristics of the VGG-16 model when the input images are mixed with adversarial noise and statistically similar Gaussian random noise. In particular, we compare the network response layer by layer to determine where errors occurred. Several interesting findings are derived. First, compared to Gaussian random noise, intentionally generated adversarial noise causes severe behavior deviation by distracting the area of concentration in the networks. Second, in many cases, adversarial examples only need to compromise a few intermediate blocks to mislead the final decision. Third, our experiments revealed that specific blocks are more vulnerable and easier to exploit by adversarial examples. Finally, we demonstrate that the layers $Block4\_conv1$ and $Block5\_cov1$ of the VGG-16 model are more susceptible to adversarial attacks. Our work could provide valuable insights into developing more reliable Deep Neural Network (DNN) models.
翻訳日:2023-03-13 14:25:19 公開日:2023-03-08
# 畳み込みニューラルネットワークとアンサンブル学習を用いたウェアラブルの睡眠品質予測

Sleep Quality Prediction from Wearables using Convolution Neural Networks and Ensemble Learning ( http://arxiv.org/abs/2303.06028v1 )

ライセンス: Link先を確認
Ozan K{\i}l{\i}\c{c}, Berrenur Saylam, \"Ozlem Durmaz \.Incel(参考訳) 睡眠は日常生活、幸福、生活の質に影響を与える最も重要な要因である。 それにもかかわらず、ウェアラブルデバイスを使って日常的に測定することが可能になった。 カメラの記録や画像からの状態を抽出する代わりに、手首に装着したデバイスは加速度計、心拍数、心拍変動センサーを介して直接測定することができる。 測定された特徴は、就寝時間、就寝時間、就寝時間、就寝時間、就寝時間、起床後数分である。 睡眠の質とステージ予測に関する文献にはいくつかの研究がある。 しかし、睡眠ステージを予測または集中するために、ウェアラブルデータのみを使用する。 本研究では,ウェアラブルを用いた698人の大学生を対象に,nethealthデータセットを用いて調査を行った。 近年,ディープラーニングアルゴリズムが進歩し,従来の機械学習技術よりも性能が向上している。 その中でも畳み込みニューラルネットワーク(cnn)は高性能である。 そこで本研究では,人間の活動認識領域ですでによく機能している異なるCNNアーキテクチャを適用し,その結果を比較した。 また,従来手法の中では最良であるランダムフォレスト(RF)を適用した。 今後の研究では、これらを他のディープラーニングアルゴリズムと比較する。

Sleep is among the most important factors affecting one's daily performance, well-being, and life quality. Nevertheless, it became possible to measure it in daily life in an unobtrusive manner with wearable devices. Rather than camera recordings and extraction of the state from the images, wrist-worn devices can measure directly via accelerometer, heart rate, and heart rate variability sensors. Some measured features can be as follows: time to bed, time out of bed, bedtime duration, minutes to fall asleep, and minutes after wake-up. There are several studies in the literature regarding sleep quality and stage prediction. However, they use only wearable data to predict or focus on the sleep stage. In this study, we use the NetHealth dataset, which is collected from 698 college students' via wearables, as well as surveys. Recently, there has been an advancement in deep learning algorithms, and they generally perform better than conventional machine learning techniques. Among them, Convolutional Neural Networks (CNN) have high performances. Thus, in this study, we apply different CNN architectures that have already performed well in the human activity recognition domain and compare their results. We also apply Random Forest (RF) since it performs best among the conventional methods. In future studies, we will compare them with other deep learning algorithms.
翻訳日:2023-03-13 14:24:55 公開日:2023-03-08
# 当院における急性腎臓損傷の臨床経過 : 多状態解析による検討

Clinical Courses of Acute Kidney Injury in Hospitalized Patients: A Multistate Analysis ( http://arxiv.org/abs/2303.06071v1 )

ライセンス: Link先を確認
Esra Adiyeke, Yuanfang Ren, Ziyuan Guan, Matthew M. Ruppert, Parisa Rashidi, Azra Bihorac, Tezcan Ozrazgat-Baslanti(参考訳) 目的: 入院患者の経時的急性腎障害(aki)軌跡の定量化と, 進行状態, 回復状態, 予後の経時的変化を多状態モデルを用いて記述すること。 方法】2012年から2019年の間に入院した成人138,449人を対象に,Kidney Disease: Improving Global Outcomes serum creatinine criteria for the first 14 days。 我々は, アキステージの各段階に入った後, ある期間に特定の臨床状態にある確率を推定するために, 多状態モデルに適合する。 選択変数がcox比例ハザード回帰モデルによる遷移速度に及ぼす影響について検討した。 結果: 入院患者の20パーセント(49,325/246,964)がaki,66%がahi,18%がahi,17%がahi,17%がrrtであった。 アキステージ1の7日後に69% (95%信頼区間 [ci]: 68.8%-70.5%) が解決され、アキステージ2の後に回復率 (26.8%, 95% ci: 26.1%-27.5%) と排出率 (17.4%, 95% ci: 16.8%-18.0%) が回復した。 ステージ1AKIの14日後, 脱毛症状(Charlson comorbidity index, 3以上, ICU滞在期間が長かった)の患者は, No AKIへの移行率や退院状態が低かった。 考察: マルチステート分析の結果, ステージ2, 高重症のアキ患者は7日以内では解決できないことが明らかとなり, アキの持続性, 進行性を阻害する戦略が患者のライフクオリティに寄与した。 結論:AKIの臨床経過をよりよく理解するためのメカニズムとして多状態モデリングフレームワークの有用性を実証し,治療や資源計画の容易化の可能性を示した。

Objectives: We aim to quantify longitudinal acute kidney injury (AKI) trajectories and to describe transitions through progressing and recovery states and outcomes among hospitalized patients using multistate models. Methods: In this large, longitudinal cohort study, 138,449 adult patients admitted to a quaternary care hospital between 2012 and 2019 were staged based on Kidney Disease: Improving Global Outcomes serum creatinine criteria for the first 14 days of their hospital stay. We fit multistate models to estimate probability of being in a certain clinical state at a given time after entering each one of the AKI stages. We investigated the effects of selected variables on transition rates via Cox proportional hazards regression models. Results: Twenty percent of hospitalized encounters (49,325/246,964) had AKI; among patients with AKI, 66% had Stage 1 AKI, 18% had Stage 2 AKI, and 17% had AKI Stage 3 with or without RRT. At seven days following Stage 1 AKI, 69% (95% confidence interval [CI]: 68.8%-70.5%) were either resolved to No AKI or discharged, while smaller proportions of recovery (26.8%, 95% CI: 26.1%-27.5%) and discharge (17.4%, 95% CI: 16.8%-18.0%) were observed following AKI Stage 2. At 14 days following Stage 1 AKI, patients with more frail conditions (Charlson comorbidity index greater than or equal to 3 and had prolonged ICU stay) had lower proportion of transitioning to No AKI or discharge states. Discussion: Multistate analyses showed that the majority of Stage 2 and higher severity AKI patients could not resolve within seven days; therefore, strategies preventing the persistence or progression of AKI would contribute to the patients' life quality. Conclusions: We demonstrate multistate modeling framework's utility as a mechanism for a better understanding of the clinical course of AKI with the potential to facilitate treatment and resource planning.
翻訳日:2023-03-13 14:17:05 公開日:2023-03-08
# 信頼のダイナミックな性質:人間-ロボットインタラクションにおける信頼の再考

The dynamic nature of trust: Trust in Human-Robot Interaction revisited ( http://arxiv.org/abs/2303.04841v1 )

ライセンス: Link先を確認
Jimin Rhim, Sonya S. Kwak, Angelica Lim, Jason Millar(参考訳) ロボットの役割はツールからコラボレーションへと拡大している。 社会支援ロボット(SAR)は、現実世界で人間を支援する協調ロボットの例である。 ロボットが私たちの社会圏に入ると、人間とロボットの相互作用(HRI)の間に予期せぬリスクが発生する。 リスクは信頼の要素をもたらすので、ロボットに対する人間の信頼を理解することは、ロボットとの対話を時間とともに開始し維持する上で不可欠である。 多くの学者が人間とロボットの信頼の問題を調査してきたが、その議論の大部分は人間とロボットの相互作用文学に根ざしている。 ロボットはもはや単なる楽器ではなく、人間と共存するソーシャルエージェントであるため、HRIに対する信頼の経時的動的性質を調べるために、新たなレンズが必要である。 本稿では,信頼のダイナミックな性質を新たな調査として重視することで,信頼性の高いロボットを設計する上で有効である,と論じる。

The role of robots is expanding from tool to collaborator. Socially assistive robots (SARs) are an example of collaborative robots that assist humans in the real world. As robots enter our social sphere, unforeseen risks occur during human-robot interaction (HRI), as everyday human space is full of uncertainties. Risk introduces an element of trust, so understanding human trust in the robot is imperative to initiate and maintain interactions with robots over time. While many scholars have investigated the issue of human-robot trust, a significant portion of that discussion is rooted in the human-automation interaction literature. As robots are no longer mere instruments, but social agents that co-exist with humans, we need a new lens to investigate the longitudinal dynamic nature of trust in HRI. In this position paper, we contend that focusing on the dynamic nature of trust as a new inquiry will help us better design trustworthy robots.
翻訳日:2023-03-10 17:18:22 公開日:2023-03-08
# 限られたデータによるロサセア皮膚条件の高忠実合成顔生成

High Fidelity Synthetic Face Generation for Rosacea Skin Condition from Limited Data ( http://arxiv.org/abs/2303.04839v1 )

ライセンス: Link先を確認
Anwesha Mohanty, Alistair Sutherland, Marija Bezbradica, Hossein Javidnia(参考訳) 多くのディープラーニングアプリケーションと同様に、コンピュータビジョンとディープラーニングを用いた皮膚疾患の診断には大量のデータが必要である。 しかし、プライバシー上の懸念から、特定の種類の顔の皮膚の状態について十分なデータを得ることは困難である。 結果として、ロサチアのような症状はコンピュータ支援診断においてしばしば研究される。 顔の皮膚の状態に関するデータは限られており、コンピュータ支援診断の代替方法が検討されている。 近年、主にスタイルGANの変種であるGAN(Generative Adversarial Networks)は、合成顔画像の生成において有望な結果を示している。 本研究では,300枚のフルフェイス画像を持つRosaceaの小さなデータセットを初めて利用し,合成データの生成可能性について検討した。 予備実験では、モデルの微調整と様々な実験条件がロサチアの特徴の忠実さにどのように影響するかが示されている。 R_1$正規化強度は高忠実度の詳細を達成するのに役立つことが示されている。 また, 皮膚科医と非専門医による合成/生成顔の質的評価を行った。 定量的評価は,いくつかの検証指標を用いて行った。 さらに、いくつかの制限と今後の方向性について論じる。 コードと生成されたデータセットは、 \url{https://github.com/thinkercache/stylegan2-ada-pytorch} で利用可能である。

Similar to the majority of deep learning applications, diagnosing skin diseases using computer vision and deep learning often requires a large volume of data. However, obtaining sufficient data for particular types of facial skin conditions can be difficult due to privacy concerns. As a result, conditions like Rosacea are often understudied in computer-aided diagnosis. The limited availability of data for facial skin conditions has led to the investigation of alternative methods for computer-aided diagnosis. In recent years, Generative Adversarial Networks (GANs), mainly variants of StyleGANs, have demonstrated promising results in generating synthetic facial images. In this study, for the first time, a small dataset of Rosacea with 300 full-face images is utilized to further investigate the possibility of generating synthetic data. The preliminary experiments show how fine-tuning the model and varying experimental settings significantly affect the fidelity of the Rosacea features. It is demonstrated that $R_1$ Regularization strength helps achieve high-fidelity details. Additionally, this study presents qualitative evaluations of synthetic/generated faces by expert dermatologists and non-specialist participants. The quantitative evaluation is presented using a few validation metric(s). Furthermore a number of limitations and future directions are discussed. Code and generated dataset are available at: \url{https://github.com/thinkercache/stylegan2-ada-pytorch}
翻訳日:2023-03-10 17:17:54 公開日:2023-03-08
# Casual Conversations v2 データセット

The Casual Conversations v2 Dataset ( http://arxiv.org/abs/2303.04838v1 )

ライセンス: Link先を確認
Bilal Porgali, V\'itor Albiero, Jordan Ryda, Cristian Canton Ferrer, Caner Hazirbas(参考訳) 本稿では,コンピュータビジョンと音声モデルのアルゴリズム的バイアスとロバスト性の評価を支援することを目的とした,新たな大規模同意駆動データセットを提案する。 データセットには、5,567人のユニークな有料参加者による26,467本のビデオが含まれており、ブラジル、インド、インドネシア、メキシコ、ベトナム、フィリピン、アメリカ合衆国で平均5本のビデオが記録されている。 参加者は、AIモデルの公正さを評価するために自分のデータを使用することに同意し、自己申告された年齢、性別、言語/方言、障害状態、身体的装飾、物理的属性、位置情報を提供した。 アノテーションには、異なる記録設定と秒単位のアクティビティアノテーションがラベル付けされている。

This paper introduces a new large consent-driven dataset aimed at assisting in the evaluation of algorithmic bias and robustness of computer vision and audio speech models in regards to 11 attributes that are self-provided or labeled by trained annotators. The dataset includes 26,467 videos of 5,567 unique paid participants, with an average of almost 5 videos per person, recorded in Brazil, India, Indonesia, Mexico, Vietnam, Philippines, and the USA, representing diverse demographic characteristics. The participants agreed for their data to be used in assessing fairness of AI models and provided self-reported age, gender, language/dialect, disability status, physical adornments, physical attributes and geo-location information, while trained annotators labeled apparent skin tone using the Fitzpatrick Skin Type and Monk Skin Tone scales, and voice timbre. Annotators also labeled for different recording setups and per-second activity annotations.
翻訳日:2023-03-10 17:17:23 公開日:2023-03-08
# 量子減衰高調波発振器の初期値定式化

Initial value formulation of a quantum damped harmonic oscillator ( http://arxiv.org/abs/2303.04829v1 )

ライセンス: Link先を確認
Nishant Agarwal, Yi-Zen Chu(参考訳) インイン形式論とその影響関数汎化は、ユニタリ量子系とオープン量子系の平衡外ダイナミクスを記述するために広く使われている。 本稿では,これらの手法を用いて量子減衰型高調波発振器の有効理論を開発し,それを用いて初期状態依存性,脱コヒーレンス,熱化の研究を行う。 まず、ガウスの初期状態と二次的影響関数を考え、発振器のグリーン関数の一般方程式を得る。 時間局所散逸の特定の場合の方程式を解き、得られたグリーン関数を用いて発振器の純度と不等時二点相関を求める。 特に、物理結果を得るためには、非線形ノイズ項を含む必要がある。 発振器は、遅延時間密度演算子が熱的であるように時間的にデコヒーレントし、変動散逸関係が満たされるパラメータ状態を求める。 次に、ガウスの初期状態を超える二重入射経路積分法を開発し、我々の等時結果が実際に初期状態において非摂動的であることを示す。

The in-in formalism and its influence functional generalization are widely used to describe the out-of-equilibrium dynamics of unitary and open quantum systems, respectively. In this paper, we build on these techniques to develop an effective theory of a quantum damped harmonic oscillator and use it to study initial state-dependence, decoherence, and thermalization. We first consider a Gaussian initial state and quadratic influence functional and obtain general equations for the Green's functions of the oscillator. We solve the equations in the specific case of time-local dissipation and use the resulting Green's functions to obtain the purity and unequal-time two-point correlations of the oscillator. In particular, we find that the dynamics must include a non-vanishing noise term to yield physical results. We show that the oscillator decoheres in time such that the late-time density operator is thermal, and find the parameter regime for which the fluctuation-dissipation relation is satisfied. We next develop a double in-out path integral approach to go beyond Gaussian initial states and show that our equal-time results are in fact non-perturbative in the initial state.
翻訳日:2023-03-10 17:16:58 公開日:2023-03-08
# 二元凝縮体における混合力学の熱的抑制

Thermal suppression of demixing dynamics in a binary condensate ( http://arxiv.org/abs/2303.04824v1 )

ライセンス: Link先を確認
Vijay Pal Singh, Luigi Amico, Ludwig Mathey(参考訳) 古典場力学を用いた2次元ボース超流動系のデミキシングダイナミクスについて検討した。 種間相互作用パラメータをクエンチすることにより、システム温度とクエンチパラメータに応じて、強い分離状態と弱い分離状態を特定する。 強い分離状態下では, この結果は二元流体の慣性流体力学領域成長則と一致し, ゼロ温度における構造因子のポロッドスケーリング則が得られた。 弱い分離レジームでは、熱揺らぎは、ドメイン成長の法則と構造因子のポロドテールの両方を変化させる。 超流動遷移温度付近では、スケーリングダイナミクスが2次元保存された場の拡散成長則に近づく。 次に、ボックスクラウド内のデミックスダイナミクスを分析します。 低クエンチでは境界条件によって決定される特異な領域ダイナミクスが見つかる。 さもなくば、力学は周期境界条件を持つ系の力学と定性的に似ている。

We investigate the demixing dynamics in a binary two-dimensional (2D) Bose superfluid using classical-field dynamics. By quenching the interspecies interaction parameter, we identify a strong and weak separation regime depending on the system temperature and the quench parameter. In the strong separation regime our results are in agreement with the inertial hydrodynamic domain growth law of binary fluids and a Porod scaling law for the structure factor at zero temperature is found. In the weak separation regime thermal fluctuations modify both the domain growth law and the Porod tail of the structure factor. Near the superfluid transition temperature the scaling dynamics approaches the diffusive growth law of a 2D conserved field. We then analyze the demixing dynamics in a box cloud. For low quench we find distinctive domain dynamics dictated by the boundary condition. Otherwise, the dynamics are qualitatively similar to those of systems with periodic boundary conditions.
翻訳日:2023-03-10 17:16:39 公開日:2023-03-08
# 半導体二重量子ドットにおけるパルス制御量子ビット

Pulse-controlled qubit in semiconductor double quantum dots ( http://arxiv.org/abs/2303.04823v1 )

ライセンス: Link先を確認
Aleksander Lasek, Hugo V. Lepage, Kexin Zhang, Thierry Ferrus, and Crispin H. W. Barnes(参考訳) 単一電子電荷量子ビットの量子制御のための数値最適化多パルスフレームワークを提案する。 我々のフレームワークは、理想的な量子ビット基底の操作に必要な一連のパルス列を定義し、計算部分空間外の励起に付随する誤差を回避する。 新規な制御方式は、クビットを断続的に操作すると同時に、高い速度と一般的なシングルクビット回転を行う能力を保持する。 この基底は空間的局所化された論理量子状態を生成し、読み出しを容易にする。 有限パルス昇降時間を持つ実験的に現実的な半導体量子ビットを考察し、最も忠実度の高いパルスシーケンスを決定する。 我々のプロトコルは qubit の制御を改善している。 半導体デバイスにおける2つの量子ドットのシミュレーションを行い、そのプロトコルを視覚化し検証する。 これらの結果はパルス昇降時間と2つの最低固有状態間のエネルギーギャップにのみ依存するため、他の物理系に一般化することができる。

We present a numerically-optimized multipulse framework for the quantum control of a single-electron charge qubit. Our framework defines a set of pulse sequences, necessary for the manipulation of the ideal qubit basis, that avoids errors associated with excitations outside the computational subspace. A novel control scheme manipulates the qubit adiabatically, while also retaining high speed and ability to perform a general single-qubit rotation. This basis generates spatially localized logical qubit states, making readout straightforward. We consider experimentally realistic semiconductor qubits with finite pulse rise and fall times and determine the fastest pulse sequence yielding the highest fidelity. We show that our protocol leads to improved control of a qubit. We present simulations of a double quantum dot in a semiconductor device to visualize and verify our protocol. These results can be generalized to other physical systems since they depend only on pulse rise and fall times and the energy gap between the two lowest eigenstates.
翻訳日:2023-03-10 17:16:27 公開日:2023-03-08
# 摂動量子色力学における色彩の量子シミュレーション

Quantum simulation of colour in perturbative quantum chromodynamics ( http://arxiv.org/abs/2303.04818v1 )

ライセンス: Link先を確認
Herschel A. Chawdhry and Mathieu Pellen(参考訳) 量子コンピュータは量子システムのシミュレーションのために大きなスピードアップを期待されている。 本研究では、摂動量子色力学(QCD)におけるクォークとグルーオンの相互作用の色の部分をシミュレートする量子ゲートを提案する。 最初の用途として、これらの回路を無ノイズ量子コンピュータでシミュレートし、ファインマン図の様々な例の色係数を計算する。 この研究は摂動qcdにおける一般散乱過程の量子シミュレーションに向けた最初の重要な一歩である。

Quantum computers are expected to give major speed-ups for the simulation of quantum systems. In this work, we present quantum gates that simulate the colour part of the interactions of quarks and gluons in perturbative quantum chromodynamics (QCD). As a first application, we implement these circuits on a simulated noiseless quantum computer and use them to calculate colour factors for various examples of Feynman diagrams. This work constitutes a first key step towards a quantum simulation of generic scattering processes in perturbative QCD.
翻訳日:2023-03-10 17:16:14 公開日:2023-03-08
# エルゴードのアルキメデスのダイマー

Ergodic Archimedean dimers ( http://arxiv.org/abs/2303.04817v1 )

ライセンス: Link先を確認
Henrik Schou R{\o}ising and Zhao Zhang(参考訳) 我々はアルキメデス格子の有限切断の完全マッチング、あるいは近接パック付きディマー被覆を研究し、任意の2つの完全マッチングが局所環交換運動の小さな集合を用いて互いに変換できることを示す構成的証明を与える。 この結果は、共鳴価結合基底状態、すなわち境界条件に適合する全ての二量体被覆の重ね合わせで量子二量体モデルを定式化する直接的な結果をもたらす。 合成アルキメデス格子の5つについて、エルゴード性に関して十分な項の厳密な必要を証明する翻訳的不変な参照構成で十分証明を補う。 2つの三部格子上の量子ダイマーモデルのフラストレーションフリー変形の例と考察を行った。

We study perfect matchings, or close-packed dimer coverings, of finite sections of Archimedean lattices and give a constructive proof showing that any two perfect matchings can be transformed into each other using small sets of local ring-exchange moves. This result has direct consequences for formulating quantum dimer models with a resonating valence bond ground state, i.e., a superposition of all dimer coverings compatible with the boundary conditions. On five of the composite Archimedean lattices we supplement the sufficiency proof with translationally invariant reference configurations that prove the strict necessity of the sufficient terms with respect to ergodicity. We provide examples of and discuss frustration-free deformations of the quantum dimer models on two tripartite lattices.
翻訳日:2023-03-10 17:16:06 公開日:2023-03-08
# ナイーブベイズ分類器の認証ロバスト性

Certifiable Robustness for Naive Bayes Classifiers ( http://arxiv.org/abs/2303.04811v1 )

ライセンス: Link先を確認
Song Bian, Xiating Ouyang, Zhiwei Fan, Paraschos Koutris(参考訳) データクリーニングは不可欠だが、ほとんどの機械学習(ML)アプリケーションでは苦労することが多い。 しかし、汚いデータのある種の不整合がテストポイントに対するMLモデルの予測に影響しない場合、タスク非依存のデータクリーニングは不要であることがある。 予測がどの(指数関数的に多くの)クリーンデータセットがトレーニングされているかに関わらず、ML分類器に対してテストポイントは確実に堅牢である。 本稿では,Naive Bayes 分類器 (NBC) の信頼性を,欠落した値を持つ汚いデータセット上で検証する。 ご紹介します (i)nbcにとってテストポイントが確実に堅牢であるか否かを決定するデータセットのエントリ数における線形時間アルゴリズム。 (ii)各ラベルをカウントするアルゴリズム、NBCがそのラベルを予測するためにトレーニングできるクリーン化されたデータセットの数、および (iii)nbcにとってテストポイントが確実に頑健でないような、欠落値の最小数を挿入することにより、クリーンなデータセットを汚染する効率的な最適アルゴリズム。 私たちはそれを証明します (4)複数の試験点が確実に損なわれないようにクリーンなデータセットを汚染することは、少なくとも3つの特徴を持つデータセットに対してNPハードである。 我々の実験は、決定とデータ中毒の問題に対する我々のアルゴリズムが、さまざまな現実世界のデータセットにわたるベースラインアルゴリズムよりも19.5\times$と3.06\times$のスピードアップを達成することを示した。

Data cleaning is crucial but often laborious in most machine learning (ML) applications. However, task-agnostic data cleaning is sometimes unnecessary if certain inconsistencies in the dirty data will not affect the prediction of ML models to the test points. A test point is certifiably robust for an ML classifier if the prediction remains the same regardless of which (among exponentially many) cleaned dataset it is trained on. In this paper, we study certifiable robustness for the Naive Bayes classifier (NBC) on dirty datasets with missing values. We present (i) a linear time algorithm in the number of entries in the dataset that decides whether a test point is certifiably robust for NBC, (ii) an algorithm that counts for each label, the number of cleaned datasets on which the NBC can be trained to predict that label, and (iii) an efficient optimal algorithm that poisons a clean dataset by inserting the minimum number of missing values such that a test point is not certifiably robust for NBC. We prove that (iv) poisoning a clean dataset such that multiple test points become certifiably non-robust is NP-hard for any dataset with at least three features. Our experiments demonstrate that our algorithms for the decision and data poisoning problems achieve up to $19.5\times$ and $3.06\times$ speed-up over the baseline algorithms across different real-world datasets.
翻訳日:2023-03-10 17:15:53 公開日:2023-03-08
# ネットワークマルコフポテンシャルゲームにおける局所的アクター臨界の収束速度

Convergence Rates for Localized Actor-Critic in Networked Markov Potential Games ( http://arxiv.org/abs/2303.04865v1 )

ライセンス: Link先を確認
Zhaoyi Zhou, Zaiwei Chen, Yiheng Lin, and Adam Wierman(参考訳) 本稿では,ネットワーク内のノードにエージェントが関連付けられるネットワーク型マルコフポテンシャルゲームについて紹介する。 各エージェントはそれぞれのローカルポテンシャル関数を持ち、各エージェントの報酬は$\kappa$-hop近傍におけるエージェントの状態とアクションにのみ依存する。 この文脈では,局所化アクタ-クリティックアルゴリズムを提案する。 各エージェントはローカル情報のみを使用しており、グローバル状態へのアクセスは必要ないため、アルゴリズムはスケーラブルである。 さらに、このアルゴリズムは関数近似を用いて次元の呪いを克服する。 主な結果は,局所化誤差と関数近似誤差までの有限サンプル保証を提供する。 具体的には、平均nashの後悔によって測定されたサンプル複雑性を$\tilde{\mathcal{o}}(\epsilon^{-4})とする。 これはエージェントの数に依存しないマルチエージェント競争ゲームに対する最初の有限サンプル境界である。

We introduce a class of networked Markov potential games where agents are associated with nodes in a network. Each agent has its own local potential function, and the reward of each agent depends only on the states and actions of agents within a $\kappa$-hop neighborhood. In this context, we propose a localized actor-critic algorithm. The algorithm is scalable since each agent uses only local information and does not need access to the global state. Further, the algorithm overcomes the curse of dimensionality through the use of function approximation. Our main results provide finite-sample guarantees up to a localization error and a function approximation error. Specifically, we achieve an $\tilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity measured by the averaged Nash regret. This is the first finite-sample bound for multi-agent competitive games that does not depend on the number of agents.
翻訳日:2023-03-10 17:08:34 公開日:2023-03-08
# nl2spec: 大規模言語モデルを用いた非構造化自然言語から時間論理への対話的翻訳

nl2spec: Interactively Translating Unstructured Natural Language to Temporal Logics with Large Language Models ( http://arxiv.org/abs/2303.04864v1 )

ライセンス: Link先を確認
Matthias Cosler, Christopher Hahn, Daniel Mendoza, Frederik Schmitt, Caroline Trippel(参考訳) 必要なシステム要件の厳密な形式化は、検証タスクを実行する際に不可欠である。 形式的な仕様を書くことは、エラーが発生し、時間を要する手作業であるからである。 これを容易にするために,非構造化自然言語から形式仕様(時間論理)を導出するための大規模言語モデル(LLM)を適用するフレームワークであるnl2specを提案する。 特に,自然言語におけるシステム要件の固有のあいまいさを検知し,解決するための新しい手法を提案する。 ユーザは、これらのサブ翻訳を反復的に追加、削除、編集して、不正な形式化を修正する。 このフレームワークは特定のアプリケーションドメインに依存せず、同様の仕様言語と新しいニューラルモデルに拡張することができる。 そこで,本研究では,翻訳の質に関する実験を行うため,難解なデータセットを得るためのユーザスタディを行う。 Webベースのフロントエンドを含むオープンソース実装を提供しています。

A rigorous formalization of desired system requirements is indispensable when performing any verification task. This often limits the application of verification techniques, as writing formal specifications is an error-prone and time-consuming manual task. To facilitate this, we present nl2spec, a framework for applying Large Language Models (LLMs) to derive formal specifications (in temporal logics) from unstructured natural language. In particular, we introduce a new methodology to detect and resolve the inherent ambiguity of system requirements in natural language: we utilize LLMs to map subformulas of the formalization back to the corresponding natural language fragments of the input. Users iteratively add, delete, and edit these sub-translations to amend erroneous formalizations, which is easier than manually redrafting the entire formalization. The framework is agnostic to specific application domains and can be extended to similar specification languages and new neural models. We perform a user study to obtain a challenging dataset, which we use to run experiments on the quality of translations. We provide an open-source implementation, including a web-based frontend.
翻訳日:2023-03-10 17:08:22 公開日:2023-03-08
# 医学画像における臨床関連サブグループシフトの検出

Deep Hypothesis Tests Detect Clinically Relevant Subgroup Shifts in Medical Images ( http://arxiv.org/abs/2303.04862v1 )

ライセンス: Link先を確認
Lisa M. Koch, Christian M. Sch\"urch, Christian F. Baumgartner, Arthur Gretton, Philipp Berens(参考訳) 分散シフトは、機械学習システムの安全な適用の基本的な問題である。 検出されていない場合、そのようなシステムの実際のパフォーマンスに影響を与える可能性がある。 本稿では,サブグループの配置状況に対する検証において,サブグループの頻度が異なる場合に発生する分散シフトの一種であるサブグループシフトの検出に焦点を当てる。 例えば、様々な取得設定のデータに基づいて開発されたアルゴリズムは、品質の低いデータ取得の病院で主に適用され、不注意なパフォーマンス低下につながる可能性がある。 統計的仮説テストの枠組みでサブグループシフト検出を定式化し,最新の統計検査が医用画像データにおけるサブグループシフト検出に有効であることを示す。 組織病理および網膜底像における臨床的に有意義なサブグループシフトについて,合成実験と広範な評価を行った。 分類器に基づくサブグループシフト検出テストは,デプロイされたmlシステムの市場監視に特に有用であると考えられる。

Distribution shifts remain a fundamental problem for the safe application of machine learning systems. If undetected, they may impact the real-world performance of such systems or will at least render original performance claims invalid. In this paper, we focus on the detection of subgroup shifts, a type of distribution shift that can occur when subgroups have a different prevalence during validation compared to the deployment setting. For example, algorithms developed on data from various acquisition settings may be predominantly applied in hospitals with lower quality data acquisition, leading to an inadvertent performance drop. We formulate subgroup shift detection in the framework of statistical hypothesis testing and show that recent state-of-the-art statistical tests can be effectively applied to subgroup shift detection on medical imaging data. We provide synthetic experiments as well as extensive evaluation on clinically meaningful subgroup shifts on histopathology as well as retinal fundus images. We conclude that classifier-based subgroup shift detection tests could be a particularly useful tool for post-market surveillance of deployed ML systems.
翻訳日:2023-03-10 17:08:05 公開日:2023-03-08
# L2-ポリリノミアル回帰を用いたk-juntasのAgnostic PAC学習

Agnostic PAC Learning of k-juntas Using L2-Polynomial Regression ( http://arxiv.org/abs/2303.04859v1 )

ライセンス: Link先を確認
Mohsen Heidari, and Wojciech Szpankowski(参考訳) 多くの従来の学習アルゴリズムは、計算効率と理論の扱いやすさのために自然0-1損失以外の損失関数に依存する。 その中でも絶対損失(L1回帰)と正方損失(L2回帰)に基づくアプローチがある。 1つ目は、 \textit{juntas} や \textit{half-spaces} のような重要な概念クラスに対する \textit{agnostic} PAC 学習者であることが証明されている。 一方,第2の計算効率は試料サイズが線形であることから好適である。 しかし、PACの学習性はまだ不明であり、保証は分布制限下でのみ証明されている。 L2レグレッションが0-1の損失に対して無知のPAC学習者であるかどうかという問題は1993年から始まっている。 本稿では, ブール立方体上のユンタクラスに対するこの問題を解決し, L2多項式回帰を用いたk-ユンタの非依存なPAC学習を実現する。 さらに,計算複雑性の低いブールフーリエ拡張に基づく新しいPAC学習アルゴリズムを提案する。 Linial et al. (1993)のようなフーリエベースのアルゴリズムは、一様分布のような分布制限の下で使われてきた。 適切な変更によって、分散的な仮定なしに、これらのアルゴリズムを無依存な設定で適用できることを示す。 PAC学習と0-1の損失を最小平均二乗推定(MMSE)問題に結びつけて結果を証明した。 MMSE誤差から0-1損失の優雅な上限を導出し、MMSEの符号がMMSEを含む任意の概念クラスに対するPAC学習者であることを示す。

Many conventional learning algorithms rely on loss functions other than the natural 0-1 loss for computational efficiency and theoretical tractability. Among them are approaches based on absolute loss (L1 regression) and square loss (L2 regression). The first is proved to be an \textit{agnostic} PAC learner for various important concept classes such as \textit{juntas}, and \textit{half-spaces}. On the other hand, the second is preferable because of its computational efficiency, which is linear in the sample size. However, PAC learnability is still unknown as guarantees have been proved only under distributional restrictions. The question of whether L2 regression is an agnostic PAC learner for 0-1 loss has been open since 1993 and yet has to be answered. This paper resolves this problem for the junta class on the Boolean cube -- proving agnostic PAC learning of k-juntas using L2 polynomial regression. Moreover, we present a new PAC learning algorithm based on the Boolean Fourier expansion with lower computational complexity. Fourier-based algorithms, such as Linial et al. (1993), have been used under distributional restrictions, such as uniform distribution. We show that with an appropriate change, one can apply those algorithms in agnostic settings without any distributional assumption. We prove our results by connecting the PAC learning with 0-1 loss to the minimum mean square estimation (MMSE) problem. We derive an elegant upper bound on the 0-1 loss in terms of the MMSE error and show that the sign of the MMSE is a PAC learner for any concept class containing it.
翻訳日:2023-03-10 17:07:47 公開日:2023-03-08
# 語彙複雑性予測:概観

Lexical Complexity Prediction: An Overview ( http://arxiv.org/abs/2303.04851v1 )

ライセンス: Link先を確認
Kai North, Marcos Zampieri, Matthew Shardlow(参考訳) テキストに未知の単語が現れると、理解が著しく妨げられる。 特定の対象集団のアクセシビリティを向上させるため、計算モデルを用いてテキスト中の複雑な単語を識別し、より単純な代替語に置き換える。 本稿では,英語データを用いた作業に着目した語彙複雑性予測手法について概説する。 本研究は,従来の機械学習分類器(svm,ロジスティック回帰など)やディープニューラルネットワーク,さらには精神言語学の文献や単語頻度,単語長など,さまざまな特徴を含む,この問題に対する関連するアプローチを調査した。 さらに,このトピックに基づいて作成された過去のコンペティションや利用可能なデータセットについても紹介する。 最後に、英語以外の言語に関する関連する研究とともに、可読性やテキスト単純化など、語彙複雑性予測の応用に関する簡単なセクションを含む。

The occurrence of unknown words in texts significantly hinders reading comprehension. To improve accessibility for specific target populations, computational modelling has been applied to identify complex words in texts and substitute them for simpler alternatives. In this paper, we present an overview of computational approaches to lexical complexity prediction focusing on the work carried out on English data. We survey relevant approaches to this problem which include traditional machine learning classifiers (e.g. SVMs, logistic regression) and deep neural networks as well as a variety of features, such as those inspired by literature in psycholinguistics as well as word frequency, word length, and many others. Furthermore, we introduce readers to past competitions and available datasets created on this topic. Finally, we include brief sections on applications of lexical complexity prediction, such as readability and text simplification, together with related studies on languages other than English.
翻訳日:2023-03-10 17:07:18 公開日:2023-03-08
# 多体物理学のための量子コンピューティング

Quantum computing with and for many-body physics ( http://arxiv.org/abs/2303.04850v1 )

ライセンス: Link先を確認
Thomas Ayral, Pauline Besserve, Denis Lacroix, Edgar Andres Ruiz Guzman(参考訳) 量子コンピューティング技術は着実に進歩している。 これにより、複雑さが古典的コンピュータの記述を妨げている問題に取り組む新たな機会が開けた。 これらの複雑な問題の原型的な例は、量子多体系の相互作用である。一方、これらのシステムは、そのサイズが大きくなると古典的コンピュータの使用が急速に禁止されることが知られている。 一方、これらのシステムはまさに研究所で量子コンピューティングプラットフォームを構築するために使われているシステムである。 これは、量子コンピューティングの最も有望な初期のユースケースであることは間違いない。 本稿では、量子多体系が量子プロセッサの構築にどのように使われているのか、そして、電子や核子のような大きな多体系を記述するために、現在および将来の量子プロセッサがどのように用いられるのかを説明する。 このレビューにはアナログおよびデジタル量子デバイスの導入、フェルミ系とそのハミルトニアンの量子ビットレジスタへのマッピング、およびそれらの静的および動的特性にアクセスする方法の概要が含まれている。 また、エンタングルメントに関するいくつかの側面を強調し、量子デバイスにおけるデコヒーレンスの記述、影響、処理について触れる。

Quantum computing technologies are making steady progress. This has opened new opportunities for tackling problems whose complexity prevents their description on classical computers. A prototypical example of these complex problems are interacting quantum many-body systems: on the one hand, these systems are known to become rapidly prohibitive to describe using classical computers when their size increases. On the other hand, these systems are precisely those which are used in the laboratory to build quantum computing platforms. This arguably makes them one of the most promising early use cases of quantum computing. In this review, we explain how quantum many-body systems are used to build quantum processors, and how, in turn, current and future quantum processors can be used to describe large many-body systems of fermions such as electrons and nucleons. The review includes an introduction to analog and digital quantum devices, the mapping of Fermi systems and their Hamiltonians onto qubit registers, as well as an overview of methods to access their static and dynamical properties. We also highlight some aspects related to entanglement, and touch on the description, influence and processing of decoherence in quantum devices.
翻訳日:2023-03-10 17:07:04 公開日:2023-03-08
# MetaMorph: 外観変化を伴うメタモルフィック画像変換の学習

MetaMorph: Learning Metamorphic Image Transformation With Appearance Changes ( http://arxiv.org/abs/2303.04849v1 )

ライセンス: Link先を確認
Jian Wang, Jiarui Xing, Jason Druzgal, William M. Wells III, and Miaomiao Zhang(参考訳) 本稿では,外観変化を伴う画像(すなわち脳腫瘍による画像)のメタモルフィック・レジストレーションのための新しい予測モデルであるmetamorphを提案する。 外観変化に対する制御がほとんどあるいは全くない従来の学習ベース登録法とは対照的に,我々のモデルは外観変化領域の負の効果を効果的に抑制できる新しい正規化を導入する。 特に、異常領域の学習セグメンテーション写像を用いて、微分同相変換(初期速度場とも呼ばれる)の接空間上の部分正規化を開発する。 幾何学的変換と外観変化は相互に有益である共同作業として扱われる。 セグメンテーションの指導の下で最適な登録ソリューションを探索する場合、モデルのメタモルフィックはより堅牢で正確であり、適切な強化されたトレーニングラベルを提供することでセグメンテーション性能を向上させる。 実際の3次元脳腫瘍磁気共鳴画像(mri)による形態変化の検証を行った。 実験の結果,本モデルは最先端の学習ベース登録モデルよりも優れていた。 提案する形態変化は, 腫瘍摘出手術におけるリアルタイム画像誘導ナビゲーションシステムなど, 様々な画像誘導臨床介入において大きな可能性を秘めている。

This paper presents a novel predictive model, MetaMorph, for metamorphic registration of images with appearance changes (i.e., caused by brain tumors). In contrast to previous learning-based registration methods that have little or no control over appearance-changes, our model introduces a new regularization that can effectively suppress the negative effects of appearance changing areas. In particular, we develop a piecewise regularization on the tangent space of diffeomorphic transformations (also known as initial velocity fields) via learned segmentation maps of abnormal regions. The geometric transformation and appearance changes are treated as joint tasks that are mutually beneficial. Our model MetaMorph is more robust and accurate when searching for an optimal registration solution under the guidance of segmentation, which in turn improves the segmentation performance by providing appropriately augmented training labels. We validate MetaMorph on real 3D human brain tumor magnetic resonance imaging (MRI) scans. Experimental results show that our model outperforms the state-of-the-art learning-based registration models. The proposed MetaMorph has great potential in various image-guided clinical interventions, e.g., real-time image-guided navigation systems for tumor removal surgery.
翻訳日:2023-03-10 17:06:46 公開日:2023-03-08
# 量子力学の代数的構造の段階的導出(または不整合可観測値の連結による非摂動から量子相関まで)

Step-by-step derivation of the algebraic structure of quantum mechanics (or from nondisturbing to quantum correlations by connecting incompatible observables) ( http://arxiv.org/abs/2303.04847v1 )

ライセンス: Link先を確認
Alisson Tezzin(参考訳) 近年、単純な公理から量子形式論と量子相関の集合を引き出すことに多くの関心が寄せられている。 本稿では、これらの問題の両方に対処し、この形式主義がなぜあるのかを理解するのに役立つ量子形式論の段階的に導出する。 まず、実数値観測値、状態、(指定されていない)状態の更新のみを含む構造のないシステムから始め、量子力学の代数構造を同化させる理論に依存しない条件を徐々に特定する。 論文の第1部では、量子形式論の「可換部分」、すなわち射影、スペックカーの原理、スペクトル定理などの非可換可観測性の間の代数的操作を含まないすべての定義や定理を本質的に導出する。 論文の第2部では、純粋な状態間の遷移確率を考慮に入れ、不整合可観測体を接続する。 この接続は、この系をヒルベルト空間に埋め込み、非摂動から量子相関へ導くのに必要な最後のステップである。

Recently there has been much interest in deriving the quantum formalism and the set of quantum correlations from simple axioms. In this paper, we provide a step-by-step derivation of the quantum formalism that tackles both these problems and helps us to understand why this formalism is as it is. We begin with a structureless system that only includes real-valued observables, states and a (not specified) state update, and we gradually identify theory-independent conditions that make the algebraic structure of quantum mechanics be assimilated by it. In the first part of the paper, we derive essentially all the "commutative part" of the quantum formalism, i.e., all definitions and theorems that do not involve algebraic operations between incompatible observables, such as projections, Specker's principle, and the spectral theorem; at the statistical level, the system is nondisturbing and satisfies the exclusivity principle at this stage. In the second part of the paper, we connect incompatible observables by taking transition probabilities between pure states into account. This connection is the final step needed to embed our system in a Hilbert space and to go from nondisturbing to quantum correlations.
翻訳日:2023-03-10 17:06:26 公開日:2023-03-08
# modular decoding: 量子コンピュータのための並列化可能なリアルタイムデコーディング

Modular decoding: parallelizable real-time decoding for quantum computers ( http://arxiv.org/abs/2303.04846v1 )

ライセンス: Link先を確認
H\'ector Bomb\'in, Chris Dawson, Ye-Hua Liu, Naomi Nickerson, Fernando Pastawski, Sam Roberts(参考訳) 普遍的なフォールトトレラント量子計算では、ノイズの多い量子ハードウェアが生成するデータストリームから論理結果を抽出するリアルタイムデコードアルゴリズムが必要となる。 本稿では,デコーディングの精度を犠牲にすることなく,最小限の追加通信でこの問題に対処できるモジュールデコーディングを提案する。 エッジバーテックス分解 (edge-vertex decomposition) は, 格子サージスタイルのフォールトトレラントブロックに対するモジュラーデコーディングの具体例である。 このグローバルデコード問題のサブタスクへの分解は、フォールトトレラント量子回路の論理ブロックネットワーク構造を反映している。 バッファリング条件をデコーダの品質を制御するキー要件として識別し、デコードサブタスクによって行われる補正と、それで利用できないデータとの間に十分に大きな分離(バッファ)を必要とする。 バッファリング条件が満たされた場合には,プロトコルの障害距離が保持されることを示す。 最後に、エッジ頂点モジュラーデコーディングを実装し、15-to-1のマジックステート蒸留プロトコルのクリフォード成分を含む様々な量子回路に適用する。 様々なバッファサイズのモンテカルロシミュレーションは、バッファがデコーダの精度を保証するのに必要かつ十分であることを示す定量的証拠を提供する。 以上の結果から,実世界のフォールトトレラント量子コンピュータをサポートする上では,モジュラ復号化がすべての要件を満たすことがわかった。

Universal fault-tolerant quantum computation will require real-time decoding algorithms capable of quickly extracting logical outcomes from the stream of data generated by noisy quantum hardware. We propose modular decoding, an approach capable of addressing this challenge with minimal additional communication and without sacrificing decoding accuracy. We introduce the edge-vertex decomposition, a concrete instance of modular decoding for lattice-surgery style fault-tolerant blocks which is remarkably effective. This decomposition of the global decoding problem into sub-tasks mirrors the logical-block-network structure of a fault-tolerant quantum circuit. We identify the buffering condition as a key requirement controlling decoder quality; it demands a sufficiently large separation (buffer) between a correction committed by a decoding sub-task and the data unavailable to it. We prove that the fault distance of the protocol is preserved if the buffering condition is satisfied. Finally, we implement edge-vertex modular decoding and apply it on a variety of quantum circuits, including the Clifford component of the 15-to-1 magic-state distillation protocol. Monte Carlo simulations on a range of buffer sizes provide quantitative evidence that buffers are both necessary and sufficient to guarantee decoder accuracy. Our results show that modular decoding meets all the practical requirements necessary to support real-world fault-tolerant quantum computers.
翻訳日:2023-03-10 17:06:03 公開日:2023-03-08
# 逐次確率割り当ての平滑化解析

Smoothed Analysis of Sequential Probability Assignment ( http://arxiv.org/abs/2303.04845v1 )

ライセンス: Link先を確認
Alankrita Bhatt, Nika Haghtalab, Abhishek Shetty(参考訳) 文脈を考慮した逐次確率割当問題に対する平滑化解析の研究を開始する。 我々は情報理論上最適なminmaxレートと最大ラピエーション推定子オラクルを含むアルゴリズム削減の枠組みについて研究する。 提案手法は, 逐次確率割当のためのminimaxレートから, トランスダクティブ学習のためのminimaxレートへの汎用的還元を実現する。 これにより、パラメトリック類と有限VC次元のクラスに対して最適な(対数的な)速さが得られる。 アルゴリズムの面では、関数の一般的なクラスに対してmle oracleを効率的に利用するためのアルゴリズムを開発します。 一般的な条件下では、このアルゴリズム的アプローチはサブ線形後悔をもたらす。

We initiate the study of smoothed analysis for the sequential probability assignment problem with contexts. We study information-theoretically optimal minmax rates as well as a framework for algorithmic reduction involving the maximum likelihood estimator oracle. Our approach establishes a general-purpose reduction from minimax rates for sequential probability assignment for smoothed adversaries to minimax rates for transductive learning. This leads to optimal (logarithmic) fast rates for parametric classes and classes with finite VC dimension. On the algorithmic front, we develop an algorithm that efficiently taps into the MLE oracle, for general classes of functions. We show that under general conditions this algorithmic approach yields sublinear regret.
翻訳日:2023-03-10 17:05:42 公開日:2023-03-08
# 表情認識におけるバイアス軽減のための顔動作単位との正のマッチング比較

Using Positive Matching Contrastive Loss with Facial Action Units to mitigate bias in Facial Expression Recognition ( http://arxiv.org/abs/2303.04896v1 )

ライセンス: Link先を確認
Varsha Suresh, Desmond C. Ong(参考訳) 機械学習モデルは、データから識別的特徴を自動的に学習するので、性別や人種などの保護された属性を使用するなど、強い相関を持つバイアスを学べる。 既存のバイアス軽減アプローチのほとんどは、これらの保護された機能に対するモデルの焦点を明示的に削減することを目的としている。 本研究では,モデルの焦点をドメイン知識を用いてタスク関連機能に明示的に導くことによりバイアスを軽減することを提案し,データから学習したスプリアス相関に対するモデル依存を間接的に低減できると仮定する。 顔動作単位(aus)をタスク関連機能として用いた表情認識システムにおけるバイアス軽減について検討する。 そこで本研究では,au埋め込み間の類似性に基づいてサンプルの正間の距離を学習する特徴ベース正一致比較損失を提案する。 提案手法を代表的ベースラインと比較し,本手法によるタスク関連機能を組み込むことで,最小コストでモデルフェアネスを向上させることができることを示す。

Machine learning models automatically learn discriminative features from the data, and are therefore susceptible to learn strongly-correlated biases, such as using protected attributes like gender and race. Most existing bias mitigation approaches aim to explicitly reduce the model's focus on these protected features. In this work, we propose to mitigate bias by explicitly guiding the model's focus towards task-relevant features using domain knowledge, and we hypothesize that this can indirectly reduce the dependence of the model on spurious correlations it learns from the data. We explore bias mitigation in facial expression recognition systems using facial Action Units (AUs) as the task-relevant feature. To this end, we introduce Feature-based Positive Matching Contrastive Loss which learns the distances between the positives of a sample based on the similarity between their corresponding AU embeddings. We compare our approach with representative baselines and show that incorporating task-relevant features via our method can improve model fairness at minimal cost to classification performance.
翻訳日:2023-03-10 17:00:45 公開日:2023-03-08
# トポスの視点からみたモルフォロジー:シンボリックAIへの応用

Morpho-logic from a Topos Perspective: Application to symbolic AI ( http://arxiv.org/abs/2303.04895v1 )

ライセンス: Link先を確認
Marc Aiguier, Isabelle Bloch, Salim Nibouche and Ramon Pino Perez(参考訳) モーダル論理は、信念の修正や空間的推論など、象徴的人工知能(AI)における多くの推論タスクに有用であることが証明されている。 一方、数学的形態学 (MM) は、画像解析に広く開発され応用された構造の非線形解析の理論である。 その数学的基盤は代数、完全格子、位相に依存する。 MMと数学的論理、主にモーダル論理の間に強い結びつきが確立されている。 本稿では,空間を一般化する分類構造,論理,集合,トポロジーを連結するトポスの観点から,数学的形態学と様相論理の関連をさらに発展・一般化する。 さらに、私たちはトポの内部言語とロジックに依存しています。 構造要素、拡張、浸食を射として定義する。 次に,近傍の構造化の概念を紹介し,それらに基づく拡張と浸食が,音と完全証明システムを提案する構成的様相論理に繋がることを示す。 このように定義された様相論理(ここでモルフォロジーと呼ばれる)は、新しい知識の修正、マージ、推論、さらには空間的推論のための具体的かつ効率的な演算子を定義するのに適している。

Modal logics have proved useful for many reasoning tasks in symbolic artificial intelligence (AI), such as belief revision, spatial reasoning, among others. On the other hand, mathematical morphology (MM) is a theory for non-linear analysis of structures, that was widely developed and applied in image analysis. Its mathematical bases rely on algebra, complete lattices, topology. Strong links have been established between MM and mathematical logics, mostly modal logics. In this paper, we propose to further develop and generalize this link between mathematical morphology and modal logic from a topos perspective, i.e. categorial structures generalizing space, and connecting logics, sets and topology. Furthermore, we rely on the internal language and logic of topos. We define structuring elements, dilations and erosions as morphisms. Then we introduce the notion of structuring neighborhoods, and show that the dilations and erosions based on them lead to a constructive modal logic, for which a sound and complete proof system is proposed. We then show that the modal logic thus defined (called morpho-logic here), is well adapted to define concrete and efficient operators for revision, merging, and abduction of new knowledge, or even spatial reasoning.
翻訳日:2023-03-10 17:00:26 公開日:2023-03-08
# 一度だけクラッシュする: リアルタイムにオブジェクト検出を改良し、危険地層検出と自律惑星着陸のための分類を行う

You Only Crash Once: Improved Object Detection for Real-Time, Sim-to-Real Hazardous Terrain Detection and Classification for Autonomous Planetary Landings ( http://arxiv.org/abs/2303.04891v1 )

ライセンス: Link先を確認
Timothy Chase Jr, Chris Gnam, John Crassidis, Karthik Dantu(参考訳) 宇宙船の惑星着陸時の危険地形の検出は、車両の安全性とミッション成功の確保に重要な役割を果たしている。 安価で効果的な地形検出方法は、視覚カメラを使用して、タッチダウンによる大気圏侵入からの運用能力を確保することである。 資源制約と計算能力の制限により、従来の視覚的危険地形検出技術は、テンプレートマッチングと事前構築されたハザードマップへの登録に焦点を当てている。 以前のミッションでは成功したが、このアプローチはテンプレートの特異性に限定されており、基礎となるハザードマップの忠実性によって制限されている。 自律運転のようなアプリケーションで同様のタスクを行う地上システムは、最先端のディープラーニング技術を使用してナビゲーションハザードをローカライズし、分類する。 深層学習推論の高速化を目的とした宇宙船コプロセッサの進歩により、これらの手法を宇宙に初めて適用できるようになった。 本研究は, 探査機の自律着陸のための深層学習に基づく視覚的危険地形検出と分類技術であるYou Only Crash Once (YOCO)を紹介する。 教師なしドメイン適応を用いて、シミュレーションによるトレーニングのためにYOCOを調整し、現実世界の注釈付きデータや高価なミッションサーベイフェーズの必要性を取り除く。 さらに,視覚的類似性クラスタリングにより,シミュレーションと実世界間の地形知識の伝達をさらに改善する。 我々は,地球外および地球外シミュレーションから実地への一連の実験を通してYOCOの有用性を実証し,惑星の地形のインスタンスを検出・正確に分類する能力に対して,大幅な改善を示す。

The detection of hazardous terrain during the planetary landing of spacecraft plays a critical role in assuring vehicle safety and mission success. A cheap and effective way of detecting hazardous terrain is through the use of visual cameras, which ensure operational ability from atmospheric entry through touchdown. Plagued by resource constraints and limited computational power, traditional techniques for visual hazardous terrain detection focus on template matching and registration to pre-built hazard maps. Although successful on previous missions, this approach is restricted to the specificity of the templates and limited by the fidelity of the underlying hazard map, which both require extensive pre-flight cost and effort to obtain and develop. Terrestrial systems that perform a similar task in applications such as autonomous driving utilize state-of-the-art deep learning techniques to successfully localize and classify navigation hazards. Advancements in spacecraft co-processors aimed at accelerating deep learning inference enable the application of these methods in space for the first time. In this work, we introduce You Only Crash Once (YOCO), a deep learning-based visual hazardous terrain detection and classification technique for autonomous spacecraft planetary landings. Through the use of unsupervised domain adaptation we tailor YOCO for training by simulation, removing the need for real-world annotated data and expensive mission surveying phases. We further improve the transfer of representative terrain knowledge between simulation and the real world through visual similarity clustering. We demonstrate the utility of YOCO through a series of terrestrial and extraterrestrial simulation-to-real experiments and show substantial improvements toward the ability to both detect and accurately classify instances of planetary terrain.
翻訳日:2023-03-10 17:00:06 公開日:2023-03-08
# メモリ適応型奥行き方向異種連合学習

Memory-adaptive Depth-wise Heterogenous Federated Learning ( http://arxiv.org/abs/2303.04887v1 )

ライセンス: Link先を確認
Kai Zhang, Yutong Dai, Hongyi Wang, Eric Xing, Xun Chen, Lichao Sun(参考訳) フェデレートラーニングは有望なパラダイムであり、複数のクライアントがローカルデータを共有せずにモデルを協調的にトレーニングすることができる。 しかしながら、携帯電話やIoTデバイスなど、さまざまなメモリ能力を持つフェデレーション学習における異種デバイスの存在は、スケールを制限し、モデルの性能をトレーニングすることが可能になる。 メモリ制限に対処する主流のアプローチは幅制限技術に重点を置いており、異なるクライアントが幅を減らしたサブネットをローカルにトレーニングし、サーバがサブネットを集約する。 これらの方法によって生成されたグローバルモデルは、集約フェーズにおける異なるサブネットワーク幅を扱うために取られるアクションの負の影響により、パフォーマンス低下に苦しむ。 本稿では,各クライアントのメモリ予算に応じて全モデルをブロックに適応的に分解し,順次ブロックを訓練し,完全な推論モデルを得る,メモリ適応型奥行き学習ソリューションであるfedepthを提案する。 CIFAR-10 と CIFAR-100 では,CIFAR-10 と CIFAR-100 でそれぞれ 5% と 10% 以上の精度向上を実現した。 また,ViTにおける深度ワイド微調整の有効性を示す。 本研究は,ヘテロジニアスデバイスを用いた連合学習におけるメモリ認識技術の重要性と,グローバルモデルの性能向上における奥行き訓練戦略の成功を浮き彫りにした。

Federated learning is a promising paradigm that allows multiple clients to collaboratively train a model without sharing the local data. However, the presence of heterogeneous devices in federated learning, such as mobile phones and IoT devices with varying memory capabilities, would limit the scale and hence the performance of the model could be trained. The mainstream approaches to address memory limitations focus on width-slimming techniques, where different clients train subnetworks with reduced widths locally and then the server aggregates the subnetworks. The global model produced from these methods suffers from performance degradation due to the negative impact of the actions taken to handle the varying subnetwork widths in the aggregation phase. In this paper, we introduce a memory-adaptive depth-wise learning solution in FL called FeDepth, which adaptively decomposes the full model into blocks according to the memory budgets of each client and trains blocks sequentially to obtain a full inference model. Our method outperforms state-of-the-art approaches, achieving 5% and more than 10% improvements in top-1 accuracy on CIFAR-10 and CIFAR-100, respectively. We also demonstrate the effectiveness of depth-wise fine-tuning on ViT. Our findings highlight the importance of memory-aware techniques for federated learning with heterogeneous devices and the success of depth-wise training strategy in improving the global model's performance.
翻訳日:2023-03-10 16:59:38 公開日:2023-03-08
# o2rnet:occluder-occludeeリレーショナルネットワークによるオーチャード環境におけるロバストリンゴ検出

O2RNet: Occluder-Occludee Relational Network for Robust Apple Detection in Clustered Orchard Environments ( http://arxiv.org/abs/2303.04884v1 )

ライセンス: Link先を確認
Pengyu Chu, Zhaojian Li, Kaixiang Zhang, Dong Chen, Kyle Lammers and Renfu Lu(参考訳) 自動化されたリンゴ収穫は、近年、apple産業に革命をもたらす可能性があり、不足と労働コストの高騰に対処し、大きな研究の関心を集めている。 効率的な自動収穫を可能にする1つの重要な技術は、正確で堅牢なリンゴ検出であり、これは、様々な照明条件と葉・枝の閉塞を含む複雑な果樹園環境のために困難である。 さらに、塊状リンゴは果樹園で一般的であり、塊状リンゴは一つのリンゴと同一視されるため、さらなる課題が生じる。 これはその後のロボット操作のローカライズに問題を引き起こす。 本稿では,このようなクラスタ環境におけるリンゴのロバスト検出を目的とした,新しいディープラーニングベースのリンゴ検出フレームワークoccluder-occludee relational network(o2rnet)の開発について述べる。 このネットワークはocculuder-occludee関係モデリングヘッドを活用し、階層化された従来の検出器を分割したリンゴと葉の閉塞を可能にする機能拡張構造を導入する。 より具体的には、appleのオーチャード画像データセットを、度重なるappleオクルージョンを伴う異なる照明条件(オーバーキャスト、フロントライティング、バックライティング)で収集する。 次に, apple 検出のための新しいオクルージョン・アウェア・ネットワークを開発し,その機能拡張構造を畳み込みニューラルネットワークに組み込んで,オクルージョン・アウェア・リンゴの本来のネットワークが生成する追加機能を抽出する。 包括的評価を行い, 開発したo2rnetの精度は94\%, f1-scoreは0.88。

Automated apple harvesting has attracted significant research interest in recent years due to its potential to revolutionize the apple industry, addressing the issues of shortage and high costs in labor. One key technology to fully enable efficient automated harvesting is accurate and robust apple detection, which is challenging due to complex orchard environments that involve varying lighting conditions and foliage/branch occlusions. Furthermore, clustered apples are common in the orchard, which brings additional challenges as the clustered apples may be identified as one apple. This will cause issues in localization for subsequent robotic operations. In this paper, we present the development of a novel deep learning-based apple detection framework, Occluder-Occludee Relational Network (O2RNet), for robust detection of apples in such clustered environments. This network exploits the occuluder-occludee relationship modeling head by introducing a feature expansion structure to enable the combination of layered traditional detectors to split clustered apples and foliage occlusions. More specifically, we collect a comprehensive apple orchard image dataset under different lighting conditions (overcast, front lighting, and back lighting) with frequent apple occlusions. We then develop a novel occlusion-aware network for apple detection, in which a feature expansion structure is incorporated into the convolutional neural networks to extract additional features generated by the original network for occluded apples. Comprehensive evaluations are performed, which show that the developed O2RNet outperforms state-of-the-art models with a higher accuracy of 94\% and a higher F1-score of 0.88 on apple detection.
翻訳日:2023-03-10 16:59:10 公開日:2023-03-08
# 3つの振動モードを持つTavis-Cummingsモデルへの代数的アプローチ [J. Math. Phys. 59, 073506 (2018)]

A Comment on "Algebraic approach to the Tavis-Cummings model with three modes of oscillation" [J. Math. Phys. 59, 073506 (2018)] ( http://arxiv.org/abs/2303.04883v1 )

ライセンス: Link先を確認
Viani S. Morales-Guzman and Jorge G. Hirsch(参考訳) Chore 〜no et al。 J. Math. Phys. 59, 073506 (2018)] は、3つのボソンを持つハミルトニアンに写像してボゴリューボフ変換を適用したタヴィス・カミングス模型の共鳴の場合の解析解を報告した。 このコメントは、ボゴリューボフ変換はユニタリではなく、逆転することはできず、モデルの対称性を強制することはできないことを指摘している。

Chore\~no et al. [J. Math. Phys. 59, 073506 (2018)] reported analytic solutions to the resonant case of the Tavis-Cummings model, obtained by mapping it to a Hamiltonian with three bosons and applying a Bogoliubov transformation. This comment points out that the Bogoliubov transformation employed is not unitary, cannot be inverted, and cannot enforce the symmetries of the model.
翻訳日:2023-03-10 16:58:39 公開日:2023-03-08
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v1 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
翻訳日:2023-03-10 16:58:25 公開日:2023-03-08
# 多変量アウトカムのためのベイズ系因果樹林:国際大規模教育評価からのアイルランドデータへの適用

Bayesian Causal Forests for Multivariate Outcomes: Application to Irish Data From an International Large Scale Education Assessment ( http://arxiv.org/abs/2303.04874v1 )

ライセンス: Link先を確認
Nathan McJames, Andrew Parnell, Yong Chen Goh, Ann O'Shea(参考訳) Bayesian Causal Forests (BCF)は、Bayesian Additive Regression Trees (BART)と呼ばれる高度に柔軟な非パラメトリック回帰と分類ツールに基づく因果推論機械学習モデルである。 数学と科学の両方における学生の業績に関するデータを含む国際数学科学研究トレンド(TIMSS)のデータをもとに,BCFアルゴリズムの多変量拡張を提案する。 シミュレーション研究の助けを借りて,同一治療を受ける複数の結果に対する因果効果を正確に推定できることを示した。 また、私たちのモデルをTIMSS 2019のアイルランドのデータに適用します。 本研究は, 家庭における学習机へのアクセス効果(数学 ATE 95% CI: [0.20, 11.67])と, 学校での空腹感(数学 ATE 95% CI: [-11.15, -2.78] , 理科 ATE 95% CI: [-10.82,-1.72])や, 欠席感(数学 ATE ATE 95% CI: [-12.47, -1.55])を強調した。

Bayesian Causal Forests (BCF) is a causal inference machine learning model based on a highly flexible non-parametric regression and classification tool called Bayesian Additive Regression Trees (BART). Motivated by data from the Trends in International Mathematics and Science Study (TIMSS), which includes data on student achievement in both mathematics and science, we present a multivariate extension of the BCF algorithm. With the help of simulation studies we show that our approach can accurately estimate causal effects for multiple outcomes subject to the same treatment. We also apply our model to Irish data from TIMSS 2019. Our findings reveal the positive effects of having access to a study desk at home (Mathematics ATE 95% CI: [0.20, 11.67]) while also highlighting the negative consequences of students often feeling hungry at school (Mathematics ATE 95% CI: [-11.15, -2.78] , Science ATE 95% CI: [-10.82,-1.72]) or often being absent (Mathematics ATE 95% CI: [-12.47, -1.55]).
翻訳日:2023-03-10 16:57:57 公開日:2023-03-08
# MOREA:3次元医用画像の多目的変形登録のためのGPU加速進化アルゴリズム

MOREA: a GPU-accelerated Evolutionary Algorithm for Multi-Objective Deformable Registration of 3D Medical Images ( http://arxiv.org/abs/2303.04873v1 )

ライセンス: Link先を確認
Georgios Andreadis, Peter A.N. Bosman and Tanja Alderliesten(参考訳) 大きな変形が必要な場合、ある画像を別の画像に変換する現実的な変形を見つけることは、医用画像分析の重要な課題であると考えられている。 これを実現するための適切な画像登録アプローチを持つことで、画像間で情報を転送する必要のある多くのアプリケーションを解き放つことができる。 現在、臨床導入は、各使用前に広範囲な構成作業を必要とする既存の多くの方法によって妨げられている。 多目的実値遺伝子プール最適混合進化アルゴリズム(MO-RV-GOMEA)とデュアルダイナミックメッシュ変換モデルを用いた最近の多目的的アプローチは、画像登録問題固有のトレードオフを明らかにし、2Dでの大きな変形をモデル化する。 これは、大きな変形に取り組むことができる3dイメージの変形可能な登録を可能にする最初の進化的アルゴリズムベースの多目的アプローチです。 MOREAには物理可視性のための3Dバイオメカニカルメッシュモデルが含まれており、完全にGPUアクセラレーションされている。 頸部癌4例の腹部CT検査におけるMOREAの有用性について検討した。 患者ごとの設定を必要とせず、MOREAは最も難しい4例のうち3例においてこれらのアプローチを著しく上回っている。

Finding a realistic deformation that transforms one image into another, in case large deformations are required, is considered a key challenge in medical image analysis. Having a proper image registration approach to achieve this could unleash a number of applications requiring information to be transferred between images. Clinical adoption is currently hampered by many existing methods requiring extensive configuration effort before each use, or not being able to (realistically) capture large deformations. A recent multi-objective approach that uses the Multi-Objective Real-Valued Gene-pool Optimal Mixing Evolutionary Algorithm (MO-RV-GOMEA) and a dual-dynamic mesh transformation model has shown promise, exposing the trade-offs inherent to image registration problems and modeling large deformations in 2D. This work builds on this promise and introduces MOREA: the first evolutionary algorithm-based multi-objective approach to deformable registration of 3D images capable of tackling large deformations. MOREA includes a 3D biomechanical mesh model for physical plausibility and is fully GPU-accelerated. We compare MOREA to two state-of-the-art approaches on abdominal CT scans of 4 cervical cancer patients, with the latter two approaches configured for the best results per patient. Without requiring per-patient configuration, MOREA significantly outperforms these approaches on 3 of the 4 patients that represent the most difficult cases.
翻訳日:2023-03-10 16:57:28 公開日:2023-03-08
# CROSSFIRE: 意図しない表現による自己監督された特徴のカメラリローカライズ

CROSSFIRE: Camera Relocalization On Self-Supervised Features from an Implicit Representation ( http://arxiv.org/abs/2303.04869v1 )

ライセンス: Link先を確認
Arthur Moreau, Nathan Piasco, Moussab Bennehar, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle(参考訳) ニューラル・ラジアンス・フィールドは、新しいビュー合成以外にも、現実世界と相互作用するアプリケーションに有用である。 本稿では,与えられたシーンの暗黙の地図として使用し,この表現に合わせたカメラ再局在化アルゴリズムを提案する。 提案手法は,ナビゲーション中に1台のRGBカメラを用いて,デバイスの正確な位置をリアルタイムで計算することができる。 従来の研究とは対照的に、ポーズ回帰や測光アライメントに頼るのではなく、自己監督目的のシーンに特有なボリュームレンダリングによって得られる密集した局所的特徴を用いる。 その結果、我々のアルゴリズムは競合相手よりも正確であり、雷条件を変化させた動的屋外環境での動作が可能であり、任意のボリュームニューラルレンダラーに容易に統合できる。

Beyond novel view synthesis, Neural Radiance Fields are useful for applications that interact with the real world. In this paper, we use them as an implicit map of a given scene and propose a camera relocalization algorithm tailored for this representation. The proposed method enables to compute in real-time the precise position of a device using a single RGB camera, during its navigation. In contrast with previous work, we do not rely on pose regression or photometric alignment but rather use dense local features obtained through volumetric rendering which are specialized on the scene with a self-supervised objective. As a result, our algorithm is more accurate than competitors, able to operate in dynamic outdoor environments with changing lightning conditions and can be readily integrated in any volumetric neural renderer.
翻訳日:2023-03-10 16:57:00 公開日:2023-03-08
# 超伝導量子ビット実験のための宇宙ミューオンフラックス減衰法

Cosmic muon flux attenuation methods for superconducting qubit experiments ( http://arxiv.org/abs/2303.04938v1 )

ライセンス: Link先を確認
E. Bertoldo, M. Mart\'inez, B. Nedyalkov, P. Forn-D\'iaz(参考訳) 超伝導量子ビットを含む実験と相反する宇宙ムーンフラックスを減衰させる2つの緩和法を提案し,実証する。 特別に構築された宇宙ミューオン検出器を用いて、天空を観測するチップと比べて地平線に向いたチップは、表面のミューオン数の1.6を減少させる。 そして,100mの深度で最大35分の1の付加減衰を達成できる都市環境下において,シールドされた浅層地下地を同定した。 ここで述べられている2つの方法は、既存のオンチップ緩和戦略を補完してノイズ源を減衰させることにより、クォービットに対する宇宙線の影響を直接低減する最初の方法である。 我々は、オンチップとオフチップの組み合わせが、超伝導量子ビット回路に基づく量子技術においてユビキタスになることを期待する。

We propose and demonstrate two mitigation methods to attenuate the cosmic muon flux compatible with experiments involving superconducting qubits. Using a specifically-built cosmic muon detector, we find that chips oriented towards the horizon compared to chips looking at the sky overhead experience a decrease of a factor 1.6 of muon counts at the surface. Then, we identify shielded shallow underground sites, ubiquitous in urban environments, where significant additional attenuation, up to a factor 35 for 100-meter depths, can be attained. The two methods here described are the first proposed to directly reduce the effects from cosmic rays on qubits by attenuating the noise source, complementing existing on-chip mitigation strategies. We expect that both on-chip and off-chip methods combined will become ubiquitous in quantum technologies based on superconducting qubit circuits.
翻訳日:2023-03-10 16:50:38 公開日:2023-03-08
# x-pruner:視覚トランスフォーマーのための説明可能なpruning

X-Pruner: eXplainable Pruning for Vision Transformers ( http://arxiv.org/abs/2303.04935v1 )

ライセンス: Link先を確認
Lu Yu, Wei Xiang(参考訳) 近年、視覚トランスフォーマーモデルは様々なタスクの顕著なモデルとなっている。 しかし、これらのモデルは通常、集中的な計算コストに苦しめられ、エッジプラットフォームへのデプロイには実用的でない。 近年の研究では、マグニチュードベース、勾配ベース、マスクベースといった一連の基準で変圧器をプーンする研究が提案されている。 しかし、以前の作品では手作りのルールに重きを置き、時間を要するリトレーニングや検索を伴うこともある。 結果として、自動的かつ効率的な方法で重量の重要度を測定することは、未解決の問題である。 そこで本稿では, プルーニング基準の妥当性を考慮し, X-Pruner と呼ばれる新しい説明可能なプルーニングフレームワークを提案する。 モデル説明に着想を得て,各プーナブルユニットに説明可能性を考慮したマスクを割り当て,各クラスの予測に対するユニットの貢献度を計測し,完全に微分可能であることを提案する。 そして、最も有益な単位を保存するために、説明可能なマスクの絶対和に基づいて全ての単位をランク付けし、このランキングを用いて、対象資源制約を満たすのに十分な単位をプルーピングする。 本手法の検証と評価のために,DiT や Swin Transformer などの代表変圧器モデルに X-Pruner を適用した。 総合シミュレーションの結果,提案したX-Prunerは,計算コストを著しく低減し,性能劣化の少ない最先端のブラックボックス法よりも優れていた。

Recently vision transformer models have become prominent models for a range of tasks. These models, however, usually suffer from intensive computational costs, making them impractical for deployment on edge platforms. Recent studies have proposed to prune transformers in a series of criteria, such as magnitude-based, gradient-based, and mask-based. However, previous works rely heavily on hand-crafted rules and may involve time-consuming retraining or searching. As a result, measuring weight importance in an automatic and efficient way remains an open problem. To solve this problem, we propose a novel explainable pruning framework dubbed X-Pruner, by considering the explainability of the pruning criterion. Inspired by the model explanation, we propose to assign an explainability-aware mask for each prunable unit, which measures the unit's contribution to predicting every class and is fully differentiable. Then, to preserve the most informative units, we rank all units based on the absolute sum of their explainability-aware masks and using this ranking to prune enough units to meet the target resource constraint. To verify and evaluate our method, we apply the X-Pruner on representative transformer models including the DeiT and Swin Transformer. Comprehensive simulation results demonstrate that the proposed X-Pruner outperforms the state-of-the-art black-box methods with significantly reduced computational costs and slight performance degradation.
翻訳日:2023-03-10 16:50:22 公開日:2023-03-08
# カーネル2サンプルテストによるマルチモーダルマルチユーザ表面認識

Multimodal Multi-User Surface Recognition with the Kernel Two-Sample Test ( http://arxiv.org/abs/2303.04930v1 )

ライセンス: Link先を確認
Behnam Khojasteh, Friedrich Solowjow, Sebastian Trimpe, Katherine J. Kuchenbecker(参考訳) 機械学習とディープラーニングは、画像と時系列接触データを通じて物理的表面を分類するために広く使われている。 しかし、これらの手法は人間の専門知識に依存し、データとパラメータチューニングの時間を要する。 これらの課題を克服するため,我々は分類タスクにおいて異種データを直接処理できるフレームワークを提案する。 data-versus-dataアプローチは,マルチモーダルデータ(画像,音声,触覚信号など)から抽出した2セット間のカーネル2サンプルテストを通じて,高次元空間における分布の識別的な差異を自動的に定量化する。 本手法は,産業的妥当性,難易度,競合ベースラインによる視覚・触覚面認識のための高度に設計された分類器に対するベンチマークを行い,その効果を実証する。 オープンソースコードで示されているように、108のサーフェスクラスを持つ標準マルチユーザデータセットで97.2%の精度を実現し、タスクのより難しいバージョンでは最先端の機械学習アルゴリズムを6%上回った。 我々の分類器が最小限のデータ処理でこの性能を得るという事実は、複雑なパターンを認識するためのカーネルメソッドの強力な性質を補強する。

Machine learning and deep learning have been used extensively to classify physical surfaces through images and time-series contact data. However, these methods rely on human expertise and entail the time-consuming processes of data and parameter tuning. To overcome these challenges, we propose an easily implemented framework that can directly handle heterogeneous data sources for classification tasks. Our data-versus-data approach automatically quantifies distinctive differences in distributions in a high-dimensional space via kernel two-sample testing between two sets extracted from multimodal data (e.g., images, sounds, haptic signals). We demonstrate the effectiveness of our technique by benchmarking against expertly engineered classifiers for visual-audio-haptic surface recognition due to the industrial relevance, difficulty, and competitive baselines of this application; ablation studies confirm the utility of key components of our pipeline. As shown in our open-source code, we achieve 97.2% accuracy on a standard multi-user dataset with 108 surface classes, outperforming the state-of-the-art machine-learning algorithm by 6% on a more difficult version of the task. The fact that our classifier obtains this performance with minimal data processing in the standard algorithm setting reinforces the powerful nature of kernel methods for learning to recognize complex patterns.
翻訳日:2023-03-10 16:49:55 公開日:2023-03-08
# サイバー防衛の自動化: レビュー

Automated Cyber Defence: A Review ( http://arxiv.org/abs/2303.04926v1 )

ライセンス: Link先を確認
Sanyam Vyas, John Hannay, Andrew Bolton and Professor Pete Burnap(参考訳) 近年、サイバー犯罪者は様々なサイバーシステム内の組織的かつ厳格なサイバー攻撃をキュレートし、私的および政府的機関への一連の脅威に繋がった。 現在のセキュリティベースの自動化とオーケストレーションは、固定目的とハードコードによるソリューションの自動化に重点を置いている。 Automated Cyber Defense内の研究は、シーケンシャルな意思決定エージェントを通じて、ネットワークされたシステムを自律的に防御することで、インテリジェンス対応の開発と実現を可能にする。 本稿では,ACO(Autonomous Cyber Operation)とACO(Autonomous Cyber Operation)の2つのサブ領域に分割して,自動サイバー防衛の展開を包括的に詳述する。 要件分析は自動エージェントの比較を可能にし、acoジムの継続的な開発の重要性を強調している。 この要件分析は、ACO Gymsを、現実のネットワークシステムに自動エージェントをデプロイするための総合的な目標として批判するためにも用いられる。 自動サイバー防衛の領域内での開発を加速するために、全体的な分析から関連する今後の課題に対処した。

Within recent times, cybercriminals have curated a variety of organised and resolute cyber attacks within a range of cyber systems, leading to consequential ramifications to private and governmental institutions. Current security-based automation and orchestrations focus on automating fixed purpose and hard-coded solutions, which are easily surpassed by modern-day cyber attacks. Research within Automated Cyber Defence will allow the development and enabling intelligence response by autonomously defending networked systems through sequential decision-making agents. This article comprehensively elaborates the developments within Automated Cyber Defence through a requirement analysis divided into two sub-areas, namely, automated defence and attack agents and Autonomous Cyber Operation (ACO) Gyms. The requirement analysis allows the comparison of automated agents and highlights the importance of ACO Gyms for their continual development. The requirement analysis is also used to critique ACO Gyms with an overall aim to develop them for deploying automated agents within real-world networked systems. Relevant future challenges were addressed from the overall analysis to accelerate development within the area of Automated Cyber Defence.
翻訳日:2023-03-10 16:49:31 公開日:2023-03-08
# BOSS: 骨・臓器・皮膚形状モデル

BOSS: Bones, Organs and Skin Shape Model ( http://arxiv.org/abs/2303.04923v1 )

ライセンス: Link先を確認
Karthik Shetty, Annette Birkhold, Srikrishna Jaganathan, Norbert Strobel, Bernhard Egger, Markus Kowarschik, Andreas Maier(参考訳) 目的:患者のデジタル双生児は、ワークフロー自動化、患者固有のX線量最適化、マーカーレストラッキング、位置追跡、画像誘導的介入におけるナビゲーション補助などの臨床タスクを強化する貴重なツールである。 しかし,あらゆるポーズや形状推定において,患者の表面や内臓器が高品質であることは極めて重要である。 現在、統計形状モデル(SSM)の大部分は少数の臓器や骨に限られているか、あるいは一般人口を適切に表現していない。 方法: この問題を解決するために,CT画像から学習した皮膚,内臓,骨を組み合わせた変形可能な人間の形状とポーズモデルを提案する。 確率的PCAを用いてポーズ正規化空間の統計的変動をモデル化し, 関節キネマティクスを保存することにより, 様々な医療応用に役立つ身体の全体像を提供する。 結果: モデルの性能を登録データセット上で評価し, 統一形状空間を用いて, 骨の平均誤差は3.6mm, 臓器の平均誤差は8.8mmであった。 この結果をさらに検証するため,マルチパートセグメンテーションを用いた公開データセットのさらなるテストを行い,本モデルの有効性を確認した。 結論: この研究は、解剖学的にパラメータ化された統計的形状モデルを正確に計算効率良く作成できることを示した。 意義: 提案手法により, 生体力学や再建など, 様々な医療応用に直接適用可能な形状モデルの構築が可能となる。

Objective: A digital twin of a patient can be a valuable tool for enhancing clinical tasks such as workflow automation, patient-specific X-ray dose optimization, markerless tracking, positioning, and navigation assistance in image-guided interventions. However, it is crucial that the patient's surface and internal organs are of high quality for any pose and shape estimates. At present, the majority of statistical shape models (SSMs) are restricted to a small number of organs or bones or do not adequately represent the general population. Method: To address this, we propose a deformable human shape and pose model that combines skin, internal organs, and bones, learned from CT images. By modeling the statistical variations in a pose-normalized space using probabilistic PCA while also preserving joint kinematics, our approach offers a holistic representation of the body that can benefit various medical applications. Results: We assessed our model's performance on a registered dataset, utilizing the unified shape space, and noted an average error of 3.6 mm for bones and 8.8 mm for organs. To further verify our findings, we conducted additional tests on publicly available datasets with multi-part segmentations, which confirmed the effectiveness of our model. Conclusion: This works shows that anatomically parameterized statistical shape models can be created accurately and in a computationally efficient manner. Significance: The proposed approach enables the construction of shape models that can be directly applied to various medical applications, including biomechanics and reconstruction.
翻訳日:2023-03-10 16:49:12 公開日:2023-03-08
# 2レベル計画のための関係状態抽象化の具体化アクティブラーニング

Embodied Active Learning of Relational State Abstractions for Bilevel Planning ( http://arxiv.org/abs/2303.04912v1 )

ライセンス: Link先を確認
Amber Li, Tom Silver(参考訳) 状態抽象化は、継続的な状態と行動、長いタスクの地平線、スパースフィードバックを持つロボット環境での計画に有効なテクニックである。 オブジェクト指向環境では、述語はシンボリックプランナーとの互換性と関係一般化の能力のために特に有用な状態抽象化形式である。 しかし、述語を計画するには、エージェントはそれらを連続した環境状態(すなわち記号を接地する)で解釈しなくてはならない。 手動で述語解釈をプログラミングするのは難しいため、データから学習したいと考えています。 本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。 例えば、ブロックスタック環境でアクションをした後、エージェントは専門家に「Is On(block1, block2) true? この経験から、エージェントは計画を学ぶ:二段階計画に使用できる神経述語解釈、シンボリックプランニング演算子、神経サンプルを学習する。 調査中、エージェントは学習する: 現在のモデルを使用して、情報的な専門家クエリを生成するためのアクションを選択する。 我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。 私たちはこのアプローチを3つのロボット環境で評価し,6つのベースラインを一貫して上回りながら,2つの重要な指標(環境インタラクションの数,エキスパートへのクエリ数)でサンプル効率を示す。 コード: https://tinyurl.com/active-predicates

State abstraction is an effective technique for planning in robotics environments with continuous states and actions, long task horizons, and sparse feedback. In object-oriented environments, predicates are a particularly useful form of state abstraction because of their compatibility with symbolic planners and their capacity for relational generalization. However, to plan with predicates, the agent must be able to interpret them in continuous environment states (i.e., ground the symbols). Manually programming predicate interpretations can be difficult, so we would instead like to learn them from data. We propose an embodied active learning paradigm where the agent learns predicate interpretations through online interaction with an expert. For example, after taking actions in a block stacking environment, the agent may ask the expert: "Is On(block1, block2) true?" From this experience, the agent learns to plan: it learns neural predicate interpretations, symbolic planning operators, and neural samplers that can be used for bilevel planning. During exploration, the agent plans to learn: it uses its current models to select actions towards generating informative expert queries. We learn predicate interpretations as ensembles of neural networks and use their entropy to measure the informativeness of potential queries. We evaluate this approach in three robotic environments and find that it consistently outperforms six baselines while exhibiting sample efficiency in two key metrics: number of environment interactions, and number of queries to the expert. Code: https://tinyurl.com/active-predicates
翻訳日:2023-03-10 16:48:47 公開日:2023-03-08
# 逆エンジニアリング乳頭MRI:画像から直接取得パラメータを予測する

Reverse Engineering Breast MRIs: Predicting Acquisition Parameters Directly from Images ( http://arxiv.org/abs/2303.04911v1 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski(参考訳) MRIスキャンを作成するために使用される画像取得パラメータ(IAP)は、画像の外観を定義する中心である。 特定のパラメータを使って取得したデータに基づいてトレーニングされたディープラーニングモデルは、異なるパラメータで取得した画像にうまく一般化できない可能性がある。 画像から直接そのようなパラメータを復元することは、ディープラーニングモデルが適用可能かどうかを判断し、データ調和やドメイン適応を支援するのに役立つ。 本稿では,画像のみを用いて高精度でMR画像を生成するために使用される複雑なIAPを,単一の前方パスで予測するニューラルネットワークモデルを提案する。 これらの予測パラメータには、フィールド強度、エコーと繰り返し時間、取得行列、スキャナモデル、スキャンオプションなどが含まれる。 コントラストエージェントタイプのような挑戦的なパラメータでさえ、精度良く予測できる。 我々は、新しい患者のMRIスキャンでIAPを予測できるモデルの様々な実験と分析を行い、その使い方を現実的な応用で実証する。 画像からIAPを予測することは、画像の外観とIAPの関係をよりよく理解するための重要なステップである。 これにより、ドメインシフト、ドメイン適応、データ調和など、医療画像におけるニューラルネットワークモデルの一般化可能性に関する多くの概念の理解が促進される。

The image acquisition parameters (IAPs) used to create MRI scans are central to defining the appearance of the images. Deep learning models trained on data acquired using certain parameters might not generalize well to images acquired with different parameters. Being able to recover such parameters directly from an image could help determine whether a deep learning model is applicable, and could assist with data harmonization and/or domain adaptation. Here, we introduce a neural network model that can predict many complex IAPs used to generate an MR image with high accuracy solely using the image, with a single forward pass. These predicted parameters include field strength, echo and repetition times, acquisition matrix, scanner model, scan options, and others. Even challenging parameters such as contrast agent type can be predicted with good accuracy. We perform a variety of experiments and analyses of our model's ability to predict IAPs on many MRI scans of new patients, and demonstrate its usage in a realistic application. Predicting IAPs from the images is an important step toward better understanding the relationship between image appearance and IAPs. This in turn will advance the understanding of many concepts related to the generalizability of neural network models on medical images, including domain shift, domain adaptation, and data harmonization.
翻訳日:2023-03-10 16:48:20 公開日:2023-03-08
# Baldur: 大きな言語モデルによる全体生成と修復

Baldur: Whole-Proof Generation and Repair with Large Language Models ( http://arxiv.org/abs/2303.04910v1 )

ライセンス: Link先を確認
Emily First, Markus N. Rabe, Talia Ringer, Yuriy Brun(参考訳) ソフトウェア特性を正式に検証することは、非常に望ましいが労働集約的なタスクである。 最近の研究は、coqやisabelle/holのような証明アシスタントを使った形式的検証を自動化する手法を開発しており、例えば、モデルに一度に1つの証明ステップを予測させ、そのモデルを使って可能な証明の空間を探索する。 本稿では形式的検証を自動化する新しい手法について紹介する。我々は、自然言語テキストとコードに基づいて訓練され、証明に基づいて微調整された大規模言語モデルを用いて、一度に1ステップではなく、一度に定理の証明全体を生成する。 この証明生成モデルと微調整された修復モデルを組み合わせて、生成した証明を修復し、さらに証明能力を高める。 本稿は,(1)トランスフォーマによる完全耐性生成は可能であり,コストのかかる検索を必要とせず,検索に基づく手法と同じくらい効果的であることを示す。 2) 学習したモデルに事前の失敗証明試行やその後のエラーメッセージなどの追加のコンテキストを与えることで, 検証の修復が達成され, さらに自動証明生成が向上する。 (3) 完全自動証明合成のための新しい技術を確立した。 我々はプロトタイプであるBaldurで手法を改良し、6,336 Isabelle/HOL定理とその証明のベンチマークで評価する。 また,全耐久生成,補修,追加コンテキストの有効性を実証的に示すとともに,定理の8.7%の証明を自動的に生成することにより,最先端ツールであるThorの改善が示されている。 ボールドゥルとトールは共に65.7%の定理を完全自動で証明できる。 本稿では,形式的検証を自動化するため,大規模言語モデルを用いた新たな研究の道を開く。

Formally verifying software properties is a highly desirable but labor-intensive task. Recent work has developed methods to automate formal verification using proof assistants, such as Coq and Isabelle/HOL, e.g., by training a model to predict one proof step at a time, and using that model to search through the space of possible proofs. This paper introduces a new method to automate formal verification: We use large language models, trained on natural language text and code and fine-tuned on proofs, to generate whole proofs for theorems at once, rather than one step at a time. We combine this proof generation model with a fine-tuned repair model to repair generated proofs, further increasing proving power. As its main contributions, this paper demonstrates for the first time that: (1) Whole-proof generation using transformers is possible and is as effective as search-based techniques without requiring costly search. (2) Giving the learned model additional context, such as a prior failed proof attempt and the ensuing error message, results in proof repair and further improves automated proof generation. (3) We establish a new state of the art for fully automated proof synthesis. We reify our method in a prototype, Baldur, and evaluate it on a benchmark of 6,336 Isabelle/HOL theorems and their proofs. In addition to empirically showing the effectiveness of whole-proof generation, repair, and added context, we show that Baldur improves on the state-of-the-art tool, Thor, by automatically generating proofs for an additional 8.7% of the theorems. Together, Baldur and Thor can prove 65.7% of the theorems fully automatically. This paper paves the way for new research into using large language models for automating formal verification.
翻訳日:2023-03-10 16:48:02 公開日:2023-03-08
# しわ方向検出によるロボット布の平滑化

Robotic Fabric Flattening with Wrinkle Direction Detection ( http://arxiv.org/abs/2303.04909v1 )

ライセンス: Link先を確認
Yulei Qiu, Jihong Zhu, Cosimo Della Santina, Michael Gienger, Jen Kober(参考訳) Deformable Object Manipulation (DOM) は, 自動布地処理, ケーブルルーティング, 外科手術などの実用化に寄与する重要な研究分野である。 知覚は複雑なダイナミクスと変形可能な物体の自由度によってdomの主要な課題の1つと考えられている。 本稿では,Gaborフィルタを用いた新しい画像処理アルゴリズムを開発し,布から有用な特徴を抽出し,これに基づいて布地平滑化作業の戦略を考案する。 全体フレームワークを実験的に評価し、3人の人間オペレータと比較した。 その結果,本アルゴリズムは実際のロボット実験とシミュレーションにおいて,布上のしわの方向を正確に決定できることがわかった。 さらに,提案アルゴリズムが提案するdewrinking戦略を用いてフラット化タスクを実行するロボットは,他のベースライン手法と比較して性能を満足させる。 実験ビデオはhttps://sites.google.com/view/robotic-fabric-flattening/homeで閲覧できる。

Deformable Object Manipulation (DOM) is an important field of research as it contributes to practical tasks such as automatic cloth handling, cable routing, surgical operation, etc. Perception is considered one of the major challenges in DOM due to the complex dynamics and high degree of freedom of deformable objects. In this paper, we develop a novel image-processing algorithm based on Gabor filters to extract useful features from cloth, and based on this, devise a strategy for cloth flattening tasks. We evaluate the overall framework experimentally, and compare it with three human operators. The results show that our algorithm can determine the direction of wrinkles on the cloth accurately in the simulation as well as the real robot experiments. Besides, the robot executing the flattening tasks using the dewrinkling strategy given by our algorithm achieves satisfying performance compared to other baseline methods. The experiment video is available on https://sites.google.com/view/robotic-fabric-flattening/home
翻訳日:2023-03-10 16:47:35 公開日:2023-03-08
# モデル非依存連合学習

Model-Agnostic Federated Learning ( http://arxiv.org/abs/2303.04906v1 )

ライセンス: Link先を確認
Gianluca Mittone and Walter Riviera and Iacopo Colonnelli and Robert Birke and Marco Aldinucci(参考訳) 2016年のデビュー以来、連合学習(federated learning、fl)はディープニューラルネットワーク(dnn)の内部動作と結びついている。 一方、DNNの普及に伴い、開発と広く使われるようになった。 一方、DNNの使用が不可能または有利なシナリオをすべて無視した。 現在のFLフレームワークでDNNのトレーニングしかできないという事実は、この問題を強化します。 非DNNベースのユースケースに対するFLソリューションの欠如を解決するため,MAFL(Model-Agnostic Federated Learning)を提案する。 MAFLは、モデルに依存しないFLアルゴリズムであるAdaBoost.Fと、オープンな業界グレードのFLフレームワークであるIntel OpenFLを結合する。 MAFLは、特定の種類の機械学習モデルに縛られない最初のFLシステムであり、DNNや木を越えてFLシナリオを探索することができる。 複数の視点からmaflをテストし,その正確性,柔軟性,最大64ノードまでのスケーリング特性を評価した。 標準的なFLシナリオで5.5倍の高速化を実現した。 MAFLはx86-64、ARM-v8、Power、RISC-Vと互換性がある。

Since its debut in 2016, Federated Learning (FL) has been tied to the inner workings of Deep Neural Networks (DNNs). On the one hand, this allowed its development and widespread use as DNNs proliferated. On the other hand, it neglected all those scenarios in which using DNNs is not possible or advantageous. The fact that most current FL frameworks only allow training DNNs reinforces this problem. To address the lack of FL solutions for non-DNN-based use cases, we propose MAFL (Model-Agnostic Federated Learning). MAFL marries a model-agnostic FL algorithm, AdaBoost.F, with an open industry-grade FL framework: Intel OpenFL. MAFL is the first FL system not tied to any specific type of machine learning model, allowing exploration of FL scenarios beyond DNNs and trees. We test MAFL from multiple points of view, assessing its correctness, flexibility and scaling properties up to 64 nodes. We optimised the base software achieving a 5.5x speedup on a standard FL scenario. MAFL is compatible with x86-64, ARM-v8, Power and RISC-V.
翻訳日:2023-03-10 16:47:20 公開日:2023-03-08
# ボソニックガウスアンサンブルのかなり良い測定

Pretty good measurement for bosonic Gaussian ensembles ( http://arxiv.org/abs/2303.04949v1 )

ライセンス: Link先を確認
Hemant K. Mishra, Ludovico Lami, Prabha Mandayam, and Mark M. Wilde(参考訳) かなり良い測定は、量子情報理論の基本的な分析ツールであり、アンサンブルから確率的に選択された量子状態を特定する古典的なラベルを推論する方法を提供する。 ボソニック・ガウス状態のクラスに対するかなり良い測定値の同定と構築は、量子情報処理タスクにおける即時的な実践的関連性である。 holevoは最近、マルチモードボソニックシステムにおけるガウスアンサンブルのかなり良い測定は、アンサンブルのアクセス可能な情報を得るガウス的測定であることを示した(ieee trans)。 インフ。 理論、66(9):5634-564, 2020)。 本稿では,マルチモードボソニック状態のガウスアンサンブルに対して,ガウス性がかなり良い測定値であることの代替的な証明を行い,その測定の明示的かつ効率的に計算可能なガウス性記述を提供することに焦点をあてる。 これらの結果は、かなり良い測定はもはや分析ツールではなく、量子光学研究所でも実験的に実施可能であることを示唆している。 また、パラメータ推定に使用する場合に関係する、かなり良い測定値の平均平方誤差の明示的な形式も計算する。

The pretty good measurement is a fundamental analytical tool in quantum information theory, giving a method for inferring the classical label that identifies a quantum state chosen probabilistically from an ensemble. Identifying and constructing the pretty good measurement for the class of bosonic Gaussian states is of immediate practical relevance in quantum information processing tasks. Holevo recently showed that the pretty good measurement of a Gaussian ensemble in a multimode bosonic system is a Gaussian measurement that attains the accessible information of the ensemble (IEEE Trans. Inf. Theory, 66(9):5634-564, 2020). In this paper, we provide an alternate proof of Gaussianity of the pretty good measurement for a Gaussian ensemble of multimode bosonic states, with a focus on providing an explicit and efficiently computable Gaussian description of the measurement. These findings imply that the pretty good measurement is no longer merely an analytical tool for this case, but that it can also be implemented experimentally in quantum optics laboratories. We also compute an explicit form of the mean square error of the pretty good measurement, which is relevant when using it for parameter estimation.
翻訳日:2023-03-10 16:41:32 公開日:2023-03-08
# ハイゼンベルク限界における癌細胞の量子顕微鏡

Quantum Microscopy of Cancer Cells at the Heisenberg Limit ( http://arxiv.org/abs/2303.04948v1 )

ライセンス: Link先を確認
Zhe He, Yide Zhang, Xin Tong, Lei Li, Lihong V. Wang(参考訳) 絡み合った双光子源は非古典的特性を示し、ゴーストイメージング、量子ホログラフィー、量子光コヒーレンストモグラフィーなどの新しいイメージング技術に応用されている。 現在までの広視野量子イメージングの開発は、低空間分解能、速度、コントラスト-ノイズ比(CNR)によって妨げられている。 本稿では,既存の広視野量子イメージング法に比べて,ハイゼンベルク限界での超解像をかなり高速かつcnrで行えるように,バランスのとれた経路長の一致による量子顕微鏡(qmc)を提案する。 QMCは2本の交叉光子が2本の腕で対称な経路を横断し、半分の波長を持つ1本の光子のように振る舞うことで2倍の分解能が向上する。 同時に、QMCは古典的な信号の最大155倍の強度の光に抵抗する。 QMCにおける二光子の低強度および絡み合い特性は非破壊的生体イメージングを約束する。 QMCは、がん細胞のバイオイメージングに向けた速度とCNRを大幅に改善し、量子イメージングを顕微鏡レベルまで進める。 平衡長の配置がハイゼンベルク限界における量子エンハンス同時撮像の道筋を照らすことを実験的に理論的に証明した。

Entangled biphoton sources exhibit nonclassical characteristics and have been applied to novel imaging techniques such as ghost imaging, quantum holography, and quantum optical coherence tomography. The development of wide-field quantum imaging to date has been hindered by low spatial resolutions, speeds, and contrast-to-noise ratios (CNRs). Here, we present quantum microscopy by coincidence (QMC) with balanced pathlengths, which enables super-resolution imaging at the Heisenberg limit with substantially higher speeds and CNRs than existing wide-field quantum imaging methods. QMC benefits from a configuration with balanced pathlengths, where a pair of entangled photons traversing symmetric paths with balanced optical pathlengths in two arms behave like a single photon with half the wavelength, leading to 2-fold resolution improvement. Concurrently, QMC resists stray light up to 155 times stronger than classical signals. The low intensity and entanglement features of biphotons in QMC promise nondestructive bioimaging. QMC advances quantum imaging to the microscopic level with significant improvements in speed and CNR toward bioimaging of cancer cells. We experimentally and theoretically prove that the configuration with balanced pathlengths illuminates an avenue for quantum-enhanced coincidence imaging at the Heisenberg limit.
翻訳日:2023-03-10 16:41:12 公開日:2023-03-08
# InfoBatch: ダイナミックデータプルーニングによる損失のないトレーニングスピードアップ

InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning ( http://arxiv.org/abs/2303.04947v1 )

ライセンス: Link先を確認
Ziheng Qin, Kai Wang, Zangwei Zheng, Jianyang Gu, Xiangyu Peng, Daquan Zhou and Yang You(参考訳) データプルーニングは、原データのトレーニングとして、全体的なコストを削減して、損失のないパフォーマンスを得ることを目的としている。 一般的なアプローチは、トレーニングへの貢献が少ないサンプルを単にフィルタリングすることです。 これにより、プルーンドデータとオリジナルデータの間の勾配予測バイアスが生じる。 この問題を解決するために,非バイアスな動的データプルーニングにより損失のないトレーニング加速を実現する新しいフレームワークである「textbf{InfoBatch}」を提案する。 具体的には、InfoBatchは損失分布に基づいて、情報の少ないサンプルの一部をランダムにプーンし、残りのサンプルの勾配を再スケールする。 過去数年間に全データをトレーニングして,メソッドのパフォーマンスを向上させることで,全体の更新のバイアスをさらに軽減しています。 プラグインとアーキテクチャに依存しないフレームワークとしてInfoBatchは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet-1Kで、それぞれ40 %、33 %、30 %、26 %の全体的なコストを節約できる無害なトレーニング結果を得る。 InfoBatchをセマンティックセグメンテーションタスクに拡張するとともに,ADE20Kデータセット上で損失のないmIoUを実現し,全体のコストを20%削減する。 最後に、infobatchがデータ次元を加速すると、さらに大きなバッチトレーニングメソッド(\textit{eg.})が高速化される。 LARSとLAMB)は1.3倍のコストと性能低下を伴わない。 コードは公開されます。

Data pruning aims to obtain lossless performances as training on the original data with less overall cost. A common approach is to simply filter out samples that make less contribution to the training. This leads to gradient expectation bias between the pruned and original data. To solve this problem, we propose \textbf{InfoBatch}, a novel framework aiming to achieve lossless training acceleration by unbiased dynamic data pruning. Specifically, InfoBatch randomly prunes a portion of less informative samples based on the loss distribution and rescales the gradients of the remaining samples. We train the full data in the last few epochs to improve the performance of our method, which further reduces the bias of the total update. As a plug-and-play and architecture-agnostic framework, InfoBatch consistently obtains lossless training results on CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet-1K saving 40\%, 33\%, 30\%, and 26\% overall cost, respectively. We extend InfoBatch into semantic segmentation task and also achieve lossless mIoU on ADE20K dataset with 20\% overall cost saving. Last but not least, as InfoBatch accelerates in data dimension, it further speeds up large-batch training methods (\textit{eg.} LARS and LAMB) by 1.3 times without extra cost or performance drop. The code will be made public.
翻訳日:2023-03-10 16:40:47 公開日:2023-03-08
# ストリーミングデータ分析を用いたATMフラッド検出

ATM Fraud Detection using Streaming Data Analytics ( http://arxiv.org/abs/2303.04946v1 )

ライセンス: Link先を確認
Yelleti Vivek, Vadlamani Ravi, Abhay Anand Mane, Laveti Ramesh Naidu(参考訳) 顧客の信頼と信頼を得ることは、金融機関や組織の成長と成功の本質である。 最近、金融業界は数多くの詐欺行為の影響を受けている。 さらに,大規模データセットの生成により,基盤となるフレームワークがスケーラブルであり,リアルタイムのニーズを満たすことが極めて重要である。 この問題に対処するため,本研究では,静的およびストリーミングの文脈でATM不正検出を提案する。 静的コンテキストでは,spark上に構築され,naive bayes(nb),logistic regression(lr), support vector machine(svm), decision tree(dt), random forest(rf),gradient boosting tree(gbt),multi-layer perceptron(mlp)など,さまざまな機械学習モデルでトレーニングされたatm不正検出のための並列かつスケーラブルな機械学習アルゴリズムを調査した。 また,SMOTE(Synthetic Minority Oversampling Technique)やGAN(Generative Adversarial Networks)などのバランシング技術を用いて,データセットの希少性に対処した。 さらに、ストリーミングコンテキストにおけるストリーミングベースのATM不正検出を提案する。 本手法は,特定の時間間隔で実行されるATMトランザクションを収集し,NB,RF,DT,K-Nearest Neighbour(KNN)などのMLモデルをトレーニングする。 モデル複雑性の低減と応答時間の短縮に基づいて,これらのモデルを選択した。 どちらの文脈でも、RFは最高のモデルであることが判明した。 RFは静的文脈における平均AUC0.975、ストリーミング環境における平均AUC0.910を得た。 また、RFは次の最高の性能モデルよりも統計的に有意であることが実証的に証明されている。

Gaining the trust and confidence of customers is the essence of the growth and success of financial institutions and organizations. Of late, the financial industry is significantly impacted by numerous instances of fraudulent activities. Further, owing to the generation of large voluminous datasets, it is highly essential that underlying framework is scalable and meet real time needs. To address this issue, in the study, we proposed ATM fraud detection in static and streaming contexts respectively. In the static context, we investigated a parallel and scalable machine learning algorithms for ATM fraud detection that is built on Spark and trained with a variety of machine learning (ML) models including Naive Bayes (NB), Logistic Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Gradient Boosting Tree (GBT), and Multi-layer perceptron (MLP). We also employed several balancing techniques like Synthetic Minority Oversampling Technique (SMOTE) and its variants, Generative Adversarial Networks (GAN), to address the rarity in the dataset. In addition, we proposed a streaming based ATM fraud detection in the streaming context. Our sliding window based method collects ATM transactions that are performed within a specified time interval and then utilizes to train several ML models, including NB, RF, DT, and K-Nearest Neighbour (KNN). We selected these models based on their less model complexity and quicker response time. In both contexts, RF turned out to be the best model. RF obtained the best mean AUC of 0.975 in the static context and mean AUC of 0.910 in the streaming context. RF is also empirically proven to be statistically significant than the next-best performing models.
翻訳日:2023-03-10 16:40:22 公開日:2023-03-08
# ランダム化アルゴリズムに対する量子代替物の調査:Monte Carlo統合とそれ以上

A Survey of Quantum Alternatives to Randomized Algorithms: Monte Carlo Integration and Beyond ( http://arxiv.org/abs/2303.04945v1 )

ライセンス: Link先を確認
Philip Intallura and Georgios Korpas and Sudeepto Chakraborty and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) モンテカルロサンプリング(Monte Carlo sample)は、いくつかのノイズ量(あるいはその概要統計)を推定する多くのアプリケーションで広く使われているアルゴリズム技術の強力なツールボックスである。 本稿では,量子回路を用いたモンテカルロ手順の実装に関する文献を調査し,その計算速度における量子長所を得る可能性について考察する。 古典的モンテカルロに取って代わる量子アルゴリズムを再検討し、既存の量子アルゴリズムと、古典的手続きの代替として適応的な拡張を含む潜在的な量子実現の両方を考察する。

Monte Carlo sampling is a powerful toolbox of algorithmic techniques widely used for a number of applications wherein some noisy quantity, or summary statistic thereof, is sought to be estimated. In this paper, we survey the literature for implementing Monte Carlo procedures using quantum circuits, focusing on the potential to obtain a quantum advantage in the computational speed of these procedures. We revisit the quantum algorithms that could replace classical Monte Carlo and then consider both the existing quantum algorithms and the potential quantum realizations that include adaptive enhancements as alternatives to the classical procedure.
翻訳日:2023-03-10 16:39:49 公開日:2023-03-08
# 生物物理シナプスの利点について

On the Benefits of Biophysical Synapses ( http://arxiv.org/abs/2303.04944v1 )

ライセンス: Link先を確認
Julian Lemmel, Radu Grosu(参考訳) ANNの近似能力とそのRNNインスタンス化は、これらのネットワークに詰め込まれたパラメータの数と強く相関している。 しかしながら、人間の理解の複雑さの障壁は、ネットワーク内のニューロンとシナプスの数、および関連する非線形変換に間違いなく関係している。 本稿では, LTCにおける生物物理シナプスの利用には2つの利点があることを示す。 まず、特定の数のニューロンやシナプスにより多くのパラメータを詰め込むことができる。 第二に、状態依存係数を持つ線形系として非線形ネットワーク変換を定式化することができる。 どちらも解釈可能性を高め、与えられたタスクに対して、入力特徴において線形なシステムを学ぶことができる。 我々は、様々な時系列予測タスクで上記の主張を裏付けるが、結果は任意のフィードフォワードまたはリカレント ann に適用できると信じている。

The approximation capability of ANNs and their RNN instantiations, is strongly correlated with the number of parameters packed into these networks. However, the complexity barrier for human understanding, is arguably related to the number of neurons and synapses in the networks, and to the associated nonlinear transformations. In this paper we show that the use of biophysical synapses, as found in LTCs, have two main benefits. First, they allow to pack more parameters for a given number of neurons and synapses. Second, they allow to formulate the nonlinear-network transformation, as a linear system with state-dependent coefficients. Both increase interpretability, as for a given task, they allow to learn a system linear in its input features, that is smaller in size compared to the state of the art. We substantiate the above claims on various time-series prediction tasks, but we believe that our results are applicable to any feedforward or recurrent ANN.
翻訳日:2023-03-10 16:39:39 公開日:2023-03-08
# コードニューラルモデルにおける可変ロール型特徴エンリッチメントに関する研究

A Study of Variable-Role-based Feature Enrichment in Neural Models of Code ( http://arxiv.org/abs/2303.04942v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Bowen Xu, David Lo, Mohammad Amin Alipour(参考訳) ディープニューラルモデルは、機能エンジニアリングのオーバーヘッドを大幅に削減するが、入力ですぐに利用できる機能は、トレーニングコストとモデルのパフォーマンスに大きな影響を及ぼす可能性がある。 本稿では,コードのニューラルモデルの性能に及ぼす変数の役割に基づく,過剰な機能強化アプローチの影響について検討する。 可変役割の概念(sajaniemi et al. [refs. 1,2] で紹介されているように)は、プログラミングにおける学生の能力に役立つ。 本稿では、この概念がコードのニューラルモデルの性能を向上させるかどうかを検討する。 我々の知る限りでは、これはSajaniemi氏らの可変ロールの概念がコードのニューラルモデルにどのように影響するかを調べる最初の研究である。 特に、データセットプログラムに個々の変数の役割を追加することでソースコードデータセットを充実させ、Code2Seqモデルのトレーニングにおける変数の役割強化の影響について研究する。 さらに、ニューラルコードインテリジェンスモデルの機能強化におけるいくつかの課題と機会についても触れました。

Although deep neural models substantially reduce the overhead of feature engineering, the features readily available in the inputs might significantly impact training cost and the performance of the models. In this paper, we explore the impact of an unsuperivsed feature enrichment approach based on variable roles on the performance of neural models of code. The notion of variable roles (as introduced in the works of Sajaniemi et al. [Refs. 1,2]) has been found to help students' abilities in programming. In this paper, we investigate if this notion would improve the performance of neural models of code. To the best of our knowledge, this is the first work to investigate how Sajaniemi et al.'s concept of variable roles can affect neural models of code. In particular, we enrich a source code dataset by adding the role of individual variables in the dataset programs, and thereby conduct a study on the impact of variable role enrichment in training the Code2Seq model. In addition, we shed light on some challenges and opportunities in feature enrichment for neural code intelligence models.
翻訳日:2023-03-10 16:39:24 公開日:2023-03-08
# 実画像デハジングの非整合監督

Non-aligned supervision for Real Image Dehazing ( http://arxiv.org/abs/2303.04940v1 )

ライセンス: Link先を確認
Junkai Fan, Fei Guo, Jianjun Qian, Xiang Li, Jun Li and Jian Yang(参考訳) 実際の画像からヘイズを除去することは、予測不可能な気象条件のために困難であり、不整合と鮮明な画像ペアが生じる。 本稿では,3つのネットワーク(デハジング,エアライト,トランスミッション)からなる非アライメント監視フレームワークを提案する。 特に,両画像の特徴を比較するマルチスケールの参照損失を通じて,ハズ入力画像と一致しない明瞭な参照画像を用いて,デハズネットワークを監督することにより,非アライメント設定を探索する。 この設定により、不一致やシフトビューの条件下であっても、実環境におけるhazy/clear画像ペアの収集が容易になる。 これを実証するために,我々は,農村部と都市部の両方で携帯電話を用いて収集した「phone-hazy」と呼ばれる新しいhazyデータセットを作成した。 さらに,位置指示に先立って暗黒チャネルを用いて無限の空域をモデル化するための平均及び分散自己注意ネットワークを提案し,チャネルアテンションネットワークを用いて3チャンネル送信を推定する。 実験の結果,本フレームワークは実世界のデハジングにおける最先端の手法よりも優れていた。 Phone-Hazyとコードはhttps://github.com/hello2377/NSDNet.comから入手できる。

Removing haze from real-world images is challenging due to unpredictable weather conditions, resulting in misaligned hazy and clear image pairs. In this paper, we propose a non-aligned supervision framework that consists of three networks - dehazing, airlight, and transmission. In particular, we explore a non-alignment setting by utilizing a clear reference image that is not aligned with the hazy input image to supervise the dehazing network through a multi-scale reference loss that compares the features of the two images. Our setting makes it easier to collect hazy/clear image pairs in real-world environments, even under conditions of misalignment and shift views. To demonstrate this, we have created a new hazy dataset called "Phone-Hazy", which was captured using mobile phones in both rural and urban areas. Additionally, we present a mean and variance self-attention network to model the infinite airlight using dark channel prior as position guidance, and employ a channel attention network to estimate the three-channel transmission. Experimental results show that our framework outperforms current state-of-the-art methods in the real-world image dehazing. Phone-Hazy and code will be available at https://github.com/hello2377/NSDNet.
翻訳日:2023-03-10 16:39:07 公開日:2023-03-08
# UT-Net: U-Net と Transformer を併用した光学ディスクとカップセグメンテーションと緑内障検出

UT-Net: Combining U-Net and Transformer for Joint Optic Disc and Cup Segmentation and Glaucoma Detection ( http://arxiv.org/abs/2303.04939v1 )

ライセンス: Link先を確認
Rukhshanda Hussain, Hritam Basak(参考訳) 緑内障は慢性視覚疾患であり、永久的な可逆性盲目を引き起こす可能性がある。 cup-to-disc ratio(cdr)の測定は、早期の緑内障の検出において重要な役割を果たす。 したがって、網膜基底画像から光学ディスク(OD)と光学カップ(OC)を正確に自動分割することが基本的な要件である。 既存のCNNベースのセグメンテーションフレームワークでは,アグレッシブなダウンサンプリングレイヤを備えたディープエンコーダの構築が採用されている。 そこで本稿では,U-NetとTransformerの両方の利点をエンコーディング層で活用したUT-Netと呼ばれる新しいセグメンテーションパイプラインを提案する。 これに加えて、従来の視覚変換器で使用される通常の自己注意を高めるために、マルチヘッドコンテキストアテンションを組み込んだ。 したがって、グローバル依存を伴う低レベルの機能は、浅い方法でキャプチャされる。 さらに,複数の符号化層における文脈情報を抽出し,受容領域の探索と,モデルによる階層表現の深層学習を支援する。 最後に, 総合的な学習プロセスの監督のために, 混合損失の増大を提案する。 提案モデルは、DRISHTI-GS、RIM-ONE R3、REFUGEの3つの公開データセット上でのODとOCのセグメンテーションのために実装されている。 さらに,提案手法を検証するために,Cup to Disc Ratio(CDR)値を測定することで,3つのデータセットすべてから緑内障検出を徹底的に実施した。 実験の結果, UT-Net は最先端手法に比べて優れていた。

Glaucoma is a chronic visual disease that may cause permanent irreversible blindness. Measurement of the cup-to-disc ratio (CDR) plays a pivotal role in the detection of glaucoma in its early stage, preventing visual disparities. Therefore, accurate and automatic segmentation of optic disc (OD) and optic cup (OC) from retinal fundus images is a fundamental requirement. Existing CNN-based segmentation frameworks resort to building deep encoders with aggressive downsampling layers, which suffer from a general limitation on modeling explicit long-range dependency. To this end, in this paper, we propose a new segmentation pipeline, called UT-Net, availing the advantages of U-Net and transformer both in its encoding layer, followed by an attention-gated bilinear fusion scheme. In addition to this, we incorporate Multi-Head Contextual attention to enhance the regular self-attention used in traditional vision transformers. Thus low-level features along with global dependencies are captured in a shallow manner. Besides, we extract context information at multiple encoding layers for better exploration of receptive fields, and to aid the model to learn deep hierarchical representations. Finally, an enhanced mixing loss is proposed to tightly supervise the overall learning process. The proposed model has been implemented for joint OD and OC segmentation on three publicly available datasets: DRISHTI-GS, RIM-ONE R3, and REFUGE. Additionally, to validate our proposal, we have performed exhaustive experimentation on Glaucoma detection from all three datasets by measuring the Cup to Disc Ratio (CDR) value. Experimental results demonstrate the superiority of UT-Net as compared to the state-of-the-art methods.
翻訳日:2023-03-10 16:38:46 公開日:2023-03-08
# ユーラー特性変換に基づく2次元スライスからの3次元画像再構成

Euler Characteristic Transform Based Topological Loss for Reconstructing 3D Images from Single 2D Slices ( http://arxiv.org/abs/2303.05286v1 )

ライセンス: Link先を確認
Kalyan Varma Nadimpalli, Amit Chattopadhyay and Bastian Rieck(参考訳) 1枚の2D画像スライスから3D画像、すなわち形状を再構成するコンピュータビジョンタスクは、制限されたデータの状態において非常に難しい。 深層学習モデルは通常、幾何学的損失関数を最適化するが、形状の構造的性質を無視して再構成が不十分になる可能性がある。 そこで本研究では,オイラー特性変換に基づく新しい位相的損失関数を提案する。 この損失をインダクティブバイアスとして使用することで、制限されたデータのレコンストラクションにおいて、任意のニューラルネットワークのより良い再構築に向けた最適化を支援することができる。 最先端の形状復元モデルであるSHAPRに組み込んだ損失関数の有効性を検証し,2つのベンチマークデータセット(viz., Red Blood Cells, Nuclei)で検証した。 また,優占性,すなわち射影性を示し,オイラー特性変換に基づくトポロジカル損失関数の安定性について議論する。

The computer vision task of reconstructing 3D images, i.e., shapes, from their single 2D image slices is extremely challenging, more so in the regime of limited data. Deep learning models typically optimize geometric loss functions, which may lead to poor reconstructions as they ignore the structural properties of the shape. To tackle this, we propose a novel topological loss function based on the Euler Characteristic Transform. This loss can be used as an inductive bias to aid the optimization of any neural network toward better reconstructions in the regime of limited data. We show the effectiveness of the proposed loss function by incorporating it into SHAPR, a state-of-the-art shape reconstruction model, and test it on two benchmark datasets, viz., Red Blood Cells and Nuclei datasets. We also show a favourable property, namely injectivity and discuss the stability of the topological loss function based on the Euler Characteristic Transform.
翻訳日:2023-03-10 14:40:57 公開日:2023-03-08
# 機械学習を用いた法律記事における産業セクターの自動検出

Automatic Detection of Industry Sectors in Legal Articles Using Machine Learning Approaches ( http://arxiv.org/abs/2303.05387v1 )

ライセンス: Link先を確認
Hui Yang (1 and 2), Stella Hadjiantoni (1), Yunfei Long (3), Ruta Petraityte (2), Berthold Lausen (1 and 4) ((1) Department of Mathematical Sciences, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (2) Mondaq Ltd, Bristol, UK, (3) School of Computer Science and Electronic Engineering, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (4) Institute of Medical Informatics, Biometry and Epidemiology, School of Medicine, Friedrich-Alexander University Erlangen-Nuremberg, Waldstr. 6, Erlangen, 91054, Germany)(参考訳) 法律開発に関する記事や、それに関するどんな種類のニュース記事でも、業界セクターのカバレッジを自動的に識別できる能力は、読者とコンテンツクリエーター自身の双方に多くの利益をもたらす。 業界の報道に基づいて記事にタグを付けることで、世界中の読者は、自分たちの地域や専門業界特有の法的ニュースを得られるようになるだろう。 同時に、ライターは、どの業界がカバー範囲を欠いているか、あるいは現在どの業界読者が関心を持っているのかを理解し、より包括的で関連する法的ニュースの報道に彼らの執筆努力を集中させることで利益を得るだろう。 本稿では,自然言語処理(NLP)と統計的・機械学習(ML)技術を組み合わせた機械学習産業分析手法を提案する。 1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。 テキストと法律に基づく特徴がテキストから抽出された。 予測モデルの性能比較には、従来のML手法(勾配向上マシンアルゴリズムや決定木に基づくアルゴリズムなど)とディープニューラルネットワーク(トランスフォーマーモデルなど)がそれぞれ適用された。 このシステムは、6つの産業分野について0.90以上の特性曲線と0.81以上のFスコアを受信機で操作する領域で有望な結果を得た。 実験結果から,ML技術を用いた産業の自動分析により,大量のテキストデータを,簡単かつ効率的かつスケーラブルな方法で処理できることが示唆された。 従来のmlメソッドは、研究のために小さなドメイン固有のトレーニングデータしか利用できない場合、ディープニューラルネットワークよりもパフォーマンスが良い。

The ability to automatically identify industry sector coverage in articles on legal developments, or any kind of news articles for that matter, can bring plentiful of benefits both to the readers and the content creators themselves. By having articles tagged based on industry coverage, readers from all around the world would be able to get to legal news that are specific to their region and professional industry. Simultaneously, writers would benefit from understanding which industries potentially lack coverage or which industries readers are currently mostly interested in and thus, they would focus their writing efforts towards more inclusive and relevant legal news coverage. In this paper, a Machine Learning-powered industry analysis approach which combined Natural Language Processing (NLP) with Statistical and Machine Learning (ML) techniques was investigated. A dataset consisting of over 1,700 annotated legal articles was created for the identification of six industry sectors. Text and legal based features were extracted from the text. Both traditional ML methods (e.g. gradient boosting machine algorithms, and decision-tree based algorithms) and deep neural network (e.g. transformer models) were applied for performance comparison of predictive models. The system achieved promising results with area under the receiver operating characteristic curve scores above 0.90 and F-scores above 0.81 with respect to the six industry sectors. The experimental results show that the suggested automated industry analysis which employs ML techniques allows the processing of large collections of text data in an easy, efficient, and scalable way. Traditional ML methods perform better than deep neural networks when only a small and domain-specific training data is available for the study.
翻訳日:2023-03-10 14:04:21 公開日:2023-03-08
# faizuddin ahmed による「任意の固定ベクトル場によるローレンツ対称性の破れの影響による相対論的量子振動子モデル」へのコメント

Comment on "Relativistic quantum oscillator model under the effects of the violation of Lorentz symmetry by an arbitrary fixed vector field'' by Faizuddin Ahmed ( http://arxiv.org/abs/2303.05418v1 )

ライセンス: Link先を確認
Andr\'es G. Jir\'on Vicente, Luis B. Castro, Angel E. Obispo(参考訳) 任意の定数ベクトル場 $v^{\mu}$ で定義されるローレンツ対称性に反するスピンゼロ相対論的量子振動子モデルに対するエネルギーと正規化固有関数の正しい式を得る。

We obtain the correct expressions for the energy and normalized eigenfunctions for a spin-zero relativistic quantum oscillator model under the violation of Lorentz symmetry defined by an arbitrary constant vector field $v^{\mu}$.
翻訳日:2023-03-10 13:56:07 公開日:2023-03-08
# TOLD: 話者ダイアリゼーションのための2段階オーバーラップ認識フレームワーク

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization ( http://arxiv.org/abs/2303.05397v1 )

ライセンス: Link先を確認
Jiaming Wang, Zhihao Du, Shiliang Zhang(参考訳) 近年、エンドツーエンドのニューラルネットワークダイアリゼーション(eend)が導入され、話者オーバーラップシナリオで有望な結果が得られている。 eendでは、話者ダイアリゼーションはマルチラベル予測問題として定式化され、話者の活動は独立して見積もられ、その依存が十分に考慮されていない。 これらの欠点を克服するために,単一ラベル分類問題として話者ダイアリゼーションを再構成するパワーセット符号化を採用し,話者重複と依存を明示的にモデル化できるオーバーラップアウェアeend(eend-ola)モデルを提案する。 2段階ハイブリッドシステムの成功に触発されて、eend-olaのダイアリゼーション結果を反復的に洗練するために、スピーカーオーバーラップアウェアポストプロセッシング(soap)モデルを用いて、新しい2段階オーバーラップアウェアダイアリゼーションフレームワーク(told)を提案する。 実験の結果、eend-olaは元々のeendと比較してダイアリゼーションエラー率(der)の点で14.39%の相対的な改善を達成し、soapを利用することでさらに19.33%の相対的な改善が得られた。 その結果,TOLD は CALLHOME データセット上で 10.14% の DER を達成することができた。

Recently, end-to-end neural diarization (EEND) is introduced and achieves promising results in speaker-overlapped scenarios. In EEND, speaker diarization is formulated as a multi-label prediction problem, where speaker activities are estimated independently and their dependency are not well considered. To overcome these disadvantages, we employ the power set encoding to reformulate speaker diarization as a single-label classification problem and propose the overlap-aware EEND (EEND-OLA) model, in which speaker overlaps and dependency can be modeled explicitly. Inspired by the success of two-stage hybrid systems, we further propose a novel Two-stage OverLap-aware Diarization framework (TOLD) by involving a speaker overlap-aware post-processing (SOAP) model to iteratively refine the diarization results of EEND-OLA. Experimental results show that, compared with the original EEND, the proposed EEND-OLA achieves a 14.39% relative improvement in terms of diarization error rates (DER), and utilizing SOAP provides another 19.33% relative improvement. As a result, our method TOLD achieves a DER of 10.14% on the CALLHOME dataset, which is a new state-of-the-art result on this benchmark to the best of our knowledge.
翻訳日:2023-03-10 13:54:51 公開日:2023-03-08
# 感度パラメータとプロキシによるベネフィットとハームの確率のバウンディング

Bounding the Probabilities of Benefit and Harm Through Sensitivity Parameters and Proxies ( http://arxiv.org/abs/2303.05396v1 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) 本研究では,未測定条件下での利益と害の確率を限定する2つの方法を提案する。 第1の方法は、観測されたデータ分布の関数としての任意の確率の(上または下)境界と、2つの直感的な感度パラメータを計算し、それをアナリストに2次元プロットとして提示して意思決定を支援する。 第2の方法は、測定された非微分的代理人(すなわち直接効果)の存在を仮定する。 このプロキシを使うことで、既存のものよりも厳密な境界は、単に観測されたデータ分布から導き出すことができる。

We present two methods for bounding the probabilities of benefit and harm under unmeasured confounding. The first method computes the (upper or lower) bound of either probability as a function of the observed data distribution and two intuitive sensitivity parameters which, then, can be presented to the analyst as a 2-D plot to assist her in decision making. The second method assumes the existence of a measured nondifferential proxy (i.e., direct effect) of the unmeasured confounder. Using this proxy, tighter bounds than the existing ones can be derived from just the observed data distribution.
翻訳日:2023-03-10 13:54:25 公開日:2023-03-08
# disco:生成モデルの分布制御のためのツールキット

disco: a toolkit for Distributional Control of Generative Models ( http://arxiv.org/abs/2303.05431v1 )

ライセンス: Link先を確認
Germ\'an Kruszewski, Jos Rozen, Marc Dymetman(参考訳) 事前訓練された言語モデルやその他の生成モデルは、NLP以降に革命をもたらした。 しかしながら、これらのモデルは、トレーニングデータに存在する望ましくないバイアスを再現する傾向がある。 また、重要ながキャプチャーが難しいパターンを見落としてしまうこともある。 これらの制限に対処するため、研究者は分布制御技術を導入した。 これらのテクニックは言語に限らず、モデルの出力に対するあらゆる特徴の有病率(すなわち期待)を制御することができる。 潜在的な可能性にもかかわらず、これらのテクニックの広範な採用は、複雑で切り離されたコードへの適応が困難であることによって妨げられている。 ここでは、これらのテクニックを一般公開するオープンソースのPythonライブラリであるdiscoを紹介します。

Pre-trained language models and other generative models have revolutionized NLP and beyond. However, these models tend to reproduce undesirable biases present in their training data. Also, they may overlook patterns that are important but challenging to capture. To address these limitations, researchers have introduced distributional control techniques. These techniques, not limited to language, allow controlling the prevalence (i.e., expectations) of any features of interest in the model's outputs. Despite their potential, the widespread adoption of these techniques has been hindered by the difficulty in adapting complex, disconnected code. Here, we present disco, an open-source Python library that brings these techniques to the broader public.
翻訳日:2023-03-10 13:44:37 公開日:2023-03-08
# 微小血液細胞における急性白血病とWBCの自動検出と分類に関する研究

A survey on automated detection and classification of acute leukemia and WBCs in microscopic blood cells ( http://arxiv.org/abs/2303.03916v2 )

ライセンス: Link先を確認
Mohammad Zolfaghari and Hedieh Sajedi(参考訳) 白血球 (Leukemia) は、白血球や白血球が骨髄や血液中に拡散する異常な疾患である。 病理学者は、顕微鏡で人の血液サンプルを見て白血病を診断することができる。 様々な血液細胞や形態学的特徴を数えることで白血病を同定し分類する。 この技術は白血病の予測に時間がかかる。 病理学者の専門的スキルや経験も、この手順に影響を与えているかもしれない。 コンピュータビジョンにおいて、従来の機械学習とディープラーニング技術は、顕微鏡的な血液細胞などの医療画像の診断と分類の精度とスピードを高めるための実用的なロードマップである。 本稿では、顕微鏡的血球中の急性白血病およびwbcsの検出と分類の包括的解析を行う。 まず,先行研究をモデルの出力に基づいて6つのカテゴリに分けた。 次に, 急性白血病とWBCの診断・分類の様々なステップについて述べる。その中には, データ拡張, プリプロセッシング, セグメンテーション, 特徴抽出, 特徴抽出(再帰), 分類, 方法の分類ステップに焦点を当てる。 最後に,急性白血病とWBCの自動検出と分類を,分類段階における分類のタイプに基づいて,従来のディープニューラルネットワーク(DNN)と混合(従来のDNN)の3つのカテゴリに分け,解析する。 本研究は,急性白血病とWBCの診断と分類において,従来の機械学習モデルにおけるサポートベクトルマシン(SVM)分類器と,ディープラーニングモデルにおける畳み込みニューラルネットワーク(CNN)分類器が広く用いられていることを示す。 これらの分類器を使用するモデルの性能指標は他のモデルと比較すると高い。

Leukemia (blood cancer) is an unusual spread of White Blood Cells or Leukocytes (WBCs) in the bone marrow and blood. Pathologists can diagnose leukemia by looking at a person's blood sample under a microscope. They identify and categorize leukemia by counting various blood cells and morphological features. This technique is time-consuming for the prediction of leukemia. The pathologist's professional skills and experiences may be affecting this procedure, too. In computer vision, traditional machine learning and deep learning techniques are practical roadmaps that increase the accuracy and speed in diagnosing and classifying medical images such as microscopic blood cells. This paper provides a comprehensive analysis of the detection and classification of acute leukemia and WBCs in the microscopic blood cells. First, we have divided the previous works into six categories based on the output of the models. Then, we describe various steps of detection and classification of acute leukemia and WBCs, including Data Augmentation, Preprocessing, Segmentation, Feature Extraction, Feature Selection (Reduction), Classification, and focus on classification step in the methods. Finally, we divide automated detection and classification of acute leukemia and WBCs into three categories, including traditional, Deep Neural Network (DNN), and mixture (traditional and DNN) methods based on the type of classifier in the classification step and analyze them. The results of this study show that in the diagnosis and classification of acute leukemia and WBCs, the Support Vector Machine (SVM) classifier in traditional machine learning models and Convolutional Neural Network (CNN) classifier in deep learning models have widely employed. The performance metrics of the models that use these classifiers compared to the others model are higher.
翻訳日:2023-03-10 11:33:04 公開日:2023-03-08
# ランダム特徴伝播によるグラフ位置符号化

Graph Positional Encoding via Random Feature Propagation ( http://arxiv.org/abs/2303.02918v2 )

ライセンス: Link先を確認
Moshe Eliasof, Fabrizio Frasca, Beatrice Bevilacqua, Eran Treister, Gal Chechik, Haggai Maron(参考訳) gnnを強化するために、ノード機能拡張スキームの2つの主要なファミリーが検討されている:ランダム特徴とスペクトル位置符号化である。 しかし、この2つの拡張スキームの関係については、まだ明確には分かっていない。 本稿では,上述の2つのアプローチ間のリンクを描画し,両者を改良した位置符号化方式を提案する。 新たな手法はRandom Feature Propagation (RFP) と呼ばれ、パワーイテレーション法とその一般化にインスパイアされている。 ランダムノードの特徴から始まり、伝播行列の優性固有ベクトルを計算するための反復アルゴリズムのいくつかの中間ステップを結合する。 特に、これらの伝播ステップは、事前定義または学習が可能なグラフ依存の伝搬演算子に基づいている。 RFPの理論的および経験的メリットについて検討する。 まず,ランダムな特徴を用いたり,初期伝播ステップを組み込んだり,複数のランダム初期化を用いたりするための理論的正当性を示す。 そして、RFPが複数のノード分類およびグラフ分類ベンチマークにおいてスペクトルPEとランダムの特徴の両方を著しく上回ることを示す。

Two main families of node feature augmentation schemes have been explored for enhancing GNNs: random features and spectral positional encoding. Surprisingly, however, there is still no clear understanding of the relation between these two augmentation schemes. Here we propose a novel family of positional encoding schemes which draws a link between the above two approaches and improves over both. The new approach, named Random Feature Propagation (RFP), is inspired by the power iteration method and its generalizations. It concatenates several intermediate steps of an iterative algorithm for computing the dominant eigenvectors of a propagation matrix, starting from random node features. Notably, these propagation steps are based on graph-dependent propagation operators that can be either predefined or learned. We explore the theoretical and empirical benefits of RFP. First, we provide theoretical justifications for using random features, for incorporating early propagation steps, and for using multiple random initializations. Then, we empirically demonstrate that RFP significantly outperforms both spectral PE and random features in multiple node classification and graph classification benchmarks.
翻訳日:2023-03-09 16:42:22 公開日:2023-03-08
# Text2Face:マルチモーダルな3D顔モデル

Text2Face: A Multi-Modal 3D Face Model ( http://arxiv.org/abs/2303.02688v2 )

ライセンス: Link先を確認
Will Rowan, Patrik Huber, Nick Pears, Andrew Keeling(参考訳) 本稿では,テキストプロンプトを用いて3次元顔形状を直接かつ完全に定義できる最初の3次元モーファブルモデリング手法を提案する。 マルチモーダル学習による作業に基づいて,フレイムヘッドモデルを共通の画像とテキストの潜在空間に拡張する。 これにより、直接3D形態モデル(3DMM)パラメータ生成が可能となり、テキスト記述からの形状操作が可能となる。 当社の方法であるText2Faceには,すでに自然言語で入力されている警察用フォトフィットの生成など,多くの応用がある。 さらに、スケッチや彫刻、画像に適合するマルチモーダルな3DMM画像を可能にする。

We present the first 3D morphable modelling approach, whereby 3D face shape can be directly and completely defined using a textual prompt. Building on work in multi-modal learning, we extend the FLAME head model to a common image-and-text latent space. This allows for direct 3D Morphable Model (3DMM) parameter generation and therefore shape manipulation from textual descriptions. Our method, Text2Face, has many applications; for example: generating police photofits where the input is already in natural language. It further enables multi-modal 3DMM image fitting to sketches and sculptures, as well as images.
翻訳日:2023-03-09 16:42:05 公開日:2023-03-08
# 視覚的Just-Noticeable差分のための複数歪み型付き包括的データセット

The First Comprehensive Dataset with Multiple Distortion Types for Visual Just-Noticeable Differences ( http://arxiv.org/abs/2303.02562v2 )

ライセンス: Link先を確認
Yaxuan Liu, Jian Jin, Yuan Xue, Weisi Lin(参考訳) 近年、ディープラーニングの発展に伴い、JNDモデリングのためのJust Noticeable difference(JND)データセットが数多く構築されている。 しかし、既存のJNDデータセットは全て圧縮歪みのレベルに基づいてJNDポイントをラベル付けしている。 したがって、そのようなデータセットから学んだJNDモデルは、画像/ビデオ圧縮にのみ使用できる。 知られているように、JNDは人間の視覚システム(HVS)の主要な特徴であり、HVSが許容できる最大の視覚歪みを反映している。 したがって、一般化された jnd モデリングは、より多くの種類の歪み型を考慮すべきである。 JNDモデリングの利点として、25種類の歪みを含む106のソース画像と1,642のJNDマップを含む粗いJND選択による一般化されたJNDデータセットを確立する。 そこで本稿では,既存の画像品質評価(IQA)データセットから,JNDマップを自分自身で生成するのではなく,JND候補として歪んだ画像を選択するための粗いJND候補選択方式を提案する。 そして、クラウドソースされた主観評価を伴うJND候補に対して、詳細なJND選択を行う。

Recently, with the development of deep learning, a number of Just Noticeable Difference (JND) datasets have been built for JND modeling. However, all the existing JND datasets only label the JND points based on the level of compression distortion. Hence, JND models learned from such datasets can only be used for image/video compression. As known, JND is a major characteristic of the human visual system (HVS), which reflects the maximum visual distortion that the HVS can tolerate. Hence, a generalized JND modeling should take more kinds of distortion types into account. To benefit JND modeling, this work establishes a generalized JND dataset with a coarse-to-fine JND selection, which contains 106 source images and 1,642 JND maps, covering 25 distortion types. To this end, we proposed a coarse JND candidate selection scheme to select the distorted images from the existing Image Quality Assessment (IQA) datasets as JND candidates instead of generating JND maps ourselves. Then, a fine JND selection is carried out on the JND candidates with a crowdsourced subjective assessment.
翻訳日:2023-03-09 16:41:54 公開日:2023-03-08
# DistilPose:ヒートマップ蒸留によるトークン化ポス回帰

DistilPose: Tokenized Pose Regression with Heatmap Distillation ( http://arxiv.org/abs/2303.02455v2 )

ライセンス: Link先を確認
Suhang Ye, Yingyi Zhang, Jie Hu, Liujuan Cao, Shengchuan Zhang, Lei Shen, Jun Wang, Shouhong Ding, Rongrong Ji(参考訳) 人間のポーズ推定の分野では、回帰に基づく手法は速度の点で支配的であり、ヒートマップに基づく手法は性能の面ではるかに優れている。 両方のスキームを利用する方法はまだ難しい問題だ。 本稿では,熱マップに基づく手法と回帰に基づく手法のギャップを埋める,DistolPoseと呼ばれる新しいポーズ推定フレームワークを提案する。 具体的には,教師モデル(ヒートマップベース)から生徒モデル(レグレッションベース)への知識伝達を,Token-distilling Encoder (TDE) と Simulated Heatmaps を通じて最大化する。 TDEはトークン化を導入することで、ヒートマップと回帰モデルの特徴空間を整列させ、シミュレートされたヒートマップは教師のヒートマップから学生モデルへの明示的なガイダンス(分布と信頼)を伝達する。 広範な実験により, 提案手法は, 効率を維持しつつ, 回帰モデルの性能を著しく向上できることがわかった。 具体的には、MSCOCO検証データセットにおいて、DistilPose-Sは71.6%のmAPを5.36Mパラメータ、2.38 GFLOP、40.2 FPSで取得し、12.95x、7.16倍の計算コストを節約し、0.9ポイントのパフォーマンス低下しか持たない教師モデルよりも4.9倍高速である。 さらに、DistilPose-LはMSCOCO検証データセット上で74.4%のmAPを取得し、主要な回帰モデルの中で新しい最先端のモデルを実現する。

In the field of human pose estimation, regression-based methods have been dominated in terms of speed, while heatmap-based methods are far ahead in terms of performance. How to take advantage of both schemes remains a challenging problem. In this paper, we propose a novel human pose estimation framework termed DistilPose, which bridges the gaps between heatmap-based and regression-based methods. Specifically, DistilPose maximizes the transfer of knowledge from the teacher model (heatmap-based) to the student model (regression-based) through Token-distilling Encoder (TDE) and Simulated Heatmaps. TDE aligns the feature spaces of heatmap-based and regression-based models by introducing tokenization, while Simulated Heatmaps transfer explicit guidance (distribution and confidence) from teacher heatmaps into student models. Extensive experiments show that the proposed DistilPose can significantly improve the performance of the regression-based models while maintaining efficiency. Specifically, on the MSCOCO validation dataset, DistilPose-S obtains 71.6% mAP with 5.36M parameter, 2.38 GFLOPs and 40.2 FPS, which saves 12.95x, 7.16x computational cost and is 4.9x faster than its teacher model with only 0.9 points performance drop. Furthermore, DistilPose-L obtains 74.4% mAP on MSCOCO validation dataset, achieving a new state-of-the-art among predominant regression-based models.
翻訳日:2023-03-09 16:41:20 公開日:2023-03-08
# マーカレスポーズ推定のための軌道再構成の改良

Improved Trajectory Reconstruction for Markerless Pose Estimation ( http://arxiv.org/abs/2303.02413v2 )

ライセンス: Link先を確認
R. James Cotton, Anthony Cimorelli, Kunal Shah, Shawana Anarwala, Scott Uhlrich, Tasos Karakostas(参考訳) マーカーレスポーズ推定は、複数の同期および校正されたビューから人間の動きを再構築することができ、歩行分析を含む動き解析を容易かつ迅速にする可能性がある。 これにより、歩行障害のより頻繁で定量的な特徴付けが可能となり、その結果と介入に対する反応をより良く監視することができる。 しかし、異なるキーポイント検出器と再構成アルゴリズムがマーカーレスポーズ推定精度に与える影響は十分に評価されていない。 リハビリテーション病院で見かけた25人の異種サンプルから, マルチカメラシステムから取得したデータに基づいて, これらのアルゴリズムの選択を検証した。 その結果,8mmのGaitRiteウォークウェイに比べて,歩幅推定値にノイズがみられ,上向きのキーポイント検出器と暗黙の関数で軌跡を再構築することで,正確で滑らかで解剖学的に妥当な軌跡が得られた。

Markerless pose estimation allows reconstructing human movement from multiple synchronized and calibrated views, and has the potential to make movement analysis easy and quick, including gait analysis. This could enable much more frequent and quantitative characterization of gait impairments, allowing better monitoring of outcomes and responses to interventions. However, the impact of different keypoint detectors and reconstruction algorithms on markerless pose estimation accuracy has not been thoroughly evaluated. We tested these algorithmic choices on data acquired from a multicamera system from a heterogeneous sample of 25 individuals seen in a rehabilitation hospital. We found that using a top-down keypoint detector and reconstructing trajectories with an implicit function enabled accurate, smooth and anatomically plausible trajectories, with a noise in the step width estimates compared to a GaitRite walkway of only 8mm.
翻訳日:2023-03-09 16:40:50 公開日:2023-03-08
# 強い駆動場下におけるダイヤモンド中の窒素空洞中心の電子スピン二重共鳴

Electron-spin double resonance of nitrogen-vacancy centers in diamond under strong driving field ( http://arxiv.org/abs/2303.03860v2 )

ライセンス: Link先を確認
Takumi Mikawa, Ryusei Okaniwa, Yuichiro Matsuzaki, Junko Ishi-Hayase(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシングや量子シミュレーションなどの応用に適するため、研究の焦点となっている。 近年,NV中心の電子スピン二重共鳴(ESDR)は連続波光磁気共鳴による高周波磁場の検出に利用されてきた。 しかし, 強磁場下でのESDRの特性は, 完全に解明されていない。 本研究では,Floquet理論を用いて,強いRF場下でのESDRスペクトルの理論的および実験的解析を行った。 NV軸に垂直な直流バイアス磁場に対するマイクロ波とRF場を連続印加したスピン依存フォトルミネッセンスを測定することで得られたESDRスペクトルを解析および数値計算により再現することができた。 その結果,強いRF場の下に現れる反交差構造は,2光子共鳴によるRF修飾状態の発生によって引き起こされることがわかった。 さらに,NV軸に平行な非意図的直流バイアス磁場により,2n$-RF光子共鳴が許容された。 これらの結果は、オープン量子系におけるフロッケ工学と同様に、回転波近似系を超えた広いダイナミックレンジの正確なMHz帯交流磁力計の実現に役立つだろう。

The nitrogen-vacancy (NV) center in diamond has been the focus of research efforts because of its suitability for use in applications such as quantum sensing and quantum simulations. Recently, the electron-spin double resonance (ESDR) of NV centers has been exploited for detecting radio-frequency (RF) fields with continuous-wave optically detected magnetic resonance. However, the characteristic phenomenon of ESDR under a strong RF field remains to be fully elucidated. In this study, we theoretically and experimentally analyzed the ESDR spectra under strong RF fields by adopting the Floquet theory. Our analytical and numerical calculations could reproduce the ESDR spectra obtained by measuring the spin-dependent photoluminescence under the continuous application of microwaves and an RF field for a DC bias magnetic field perpendicular to the NV axis. We found that anticrossing structures that appear under a strong RF field are induced by the generation of RF-dressed states owing to the two-RF-photon resonances. Moreover, we found that $2n$-RF-photon resonances were allowed by an unintentional DC bias magnetic field parallel to the NV axis. These results should help in the realization of precise MHz-range AC magnetometry with a wide dynamic range beyond the rotating wave approximation regime as well as Floquet engineering in open quantum systems.
翻訳日:2023-03-09 16:33:30 公開日:2023-03-08
# 大規模言語モデルでは文脈内学習が異なる

Larger language models do in-context learning differently ( http://arxiv.org/abs/2303.03846v2 )

ライセンス: Link先を確認
Jerry Wei and Jason Wei and Yi Tay and Dustin Tran and Albert Webson and Yifeng Lu and Xinyun Chen and Hanxiao Liu and Da Huang and Denny Zhou and Tengyu Ma(参考訳) 本研究では,言語モデルにおけるインコンテキスト学習(ICL)が,意味的先行と入力ラベルマッピングの影響について検討する。 そこで本研究では,複数のモデルファミリー (GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM) にまたがる意味的無関係なラベルを持つICLとフリップラベルを持つICLについて検討する。 第一に、リフテッドラベルを用いたICLの実験は、オーバーライドセマンティック先行がモデルスケールの創発的な能力であることを示している。 小さな言語モデルは、コンテキスト内に表示されるフリップラベルを無視して、主に事前学習からのセマンティクス優先に依存するが、大きなモデルは、より大きなモデルが保持するであろうより強いセマンティクス優先性にもかかわらず、先行と矛盾するインコンテキストの例で示されるセマンティクス優先をオーバーライドすることができる。 次に,意味的無関係ラベルivl (sul-icl) について検討を行い,各ラベルが入力と意味的に無関係(例えば,否定的/肯定的ではなくfoo/bar)であることを示す。 SUL-ICLの処理能力は、主にスケールで実現され、大きな言語モデルでもSUL-ICL設定で線形分類を行うことができる。 最後に,インストラクションチューニングモデルの評価を行い,インストラクションチューニングにより,セマンティック事前の使用とインプットラベルマッピングの学習能力の両方が強化されることを確認した。

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.
翻訳日:2023-03-09 16:33:12 公開日:2023-03-08
# 量子コンピューティングのためのユニバーサルリソース

Universal resources for quantum computing ( http://arxiv.org/abs/2303.03715v2 )

ライセンス: Link先を確認
D.-S. Wang(参考訳) 量子コンピューティングの力の源を開くことは、量子情報科学の分野における大きな目標である。 近年、様々な量子資源を特徴付ける量子資源理論(qrt)が確立されているが、量子計算タスクにおけるそれらの役割は依然として調査が必要である。 いわゆるUQCM(Universal Quantum Computing Model)は、例えば回路モデルであり、量子アルゴリズムの設計や実際の量子コンピュータの作成を導く主要なフレームワークである。 本研究では,UQCMの研究とQRTの併用について述べる。 一方,qrt を用いて uqcm の資源理論的な特徴付け,モデル間の関係,新しいモデルへの刺激,そして uqcm の利用は資源の適用,資源間の関係の研究,分類の枠組みを提供する。 我々は、UQCMの設定において普遍資源の理論を開発し、UQCMと対応する普遍資源の豊富なスペクトルを求める。 資源理論の階層構造に依存すると、モデルがファミリーに分類される。 本研究では,UQCMの3つの自然族,振幅族,準確率族,ハミルトン族について詳細に検討する。 これらのモデルには、測定に基づくモデルや断熱モデルなど、よく知られたモデルが含まれています。 各族は少なくとも3重項のモデルを持ち、UQCMファミリーの簡潔な構造は、資源と設計モデルを調査するための統一的な図形を提供する。 また、絡み合いと干渉の役割、量子アルゴリズムのリソース理論的特徴など、パズルを解決するための厳密な枠組みも提供する。

Unravelling the source of quantum computing power has been a major goal in the field of quantum information science. In recent years, the quantum resource theory (QRT) has been established to characterize various quantum resources, yet their roles in quantum computing tasks still require investigation. The so-called universal quantum computing model (UQCM), e.g., the circuit model, has been the main framework to guide the design of quantum algorithms, creation of real quantum computers etc. In this work, we combine the study of UQCM together with QRT. We find on one hand, using QRT can provide a resource-theoretic characterization of a UQCM, the relation among models and inspire new ones, and on the other hand, using UQCM offers a framework to apply resources, study relation among resources and classify them. We develop the theory of universal resources in the setting of UQCM, and find a rich spectrum of UQCMs and the corresponding universal resources. Depending on a hierarchical structure of resource theories, we find models can be classified into families. In this work, we study three natural families of UQCMs in details: the amplitude family, the quasi-probability family, and the Hamiltonian family. They include some well known models, like the measurement-based model and adiabatic model, and also inspire new models such as the contextual model we introduce. Each family contains at least a triplet of models, and such a succinct structure of families of UQCMs offers a unifying picture to investigate resources and design models. It also provides a rigorous framework to resolve puzzles, such as the role of entanglement vs. interference, and unravel resource-theoretic features of quantum algorithms.
翻訳日:2023-03-09 16:32:42 公開日:2023-03-08
# 会員会議は否定できるのか?

Can Membership Inferencing be Refuted? ( http://arxiv.org/abs/2303.03648v2 )

ライセンス: Link先を確認
Zhifeng Kong, Amrita Roy Chowdhury, Kamalika Chaudhuri(参考訳) メンバーシップ推論(MI)攻撃は、マシンラーニングモデルにおけるプライバシリークを測定するための最も一般的なテストである。 機械学習モデルとデータポイントといくつかの補助情報を与えると、mi攻撃の目的は、データポイントがモデルのトレーニングに使われたかどうかを決定することである。 本研究では,実際に会員推論攻撃の信頼性について検討する。 具体的には、モデル所有者がデータポイント$x$でメンバシップ推論テストの結果を、モデルが$x$なしでトレーニングされたことを証明した否認の証明を構築することで、正当な反論が可能であることを示す。 トレーニングデータセットのすべてのデータポイントに対する評価の証明を構築するための効率的なアルゴリズムを設計する。 MNIST と CIFAR-10 で一般的な機械学習モデルに対する検証結果を構築し,本アルゴリズムの有効性を実証した。 その結果,本研究の結果は,実際にメンバーシップ推論攻撃の影響を再評価することを求めている。

Membership inference (MI) attack is currently the most popular test for measuring privacy leakage in machine learning models. Given a machine learning model, a data point and some auxiliary information, the goal of an MI attack is to determine whether the data point was used to train the model. In this work, we study the reliability of membership inference attacks in practice. Specifically, we show that a model owner can plausibly refute the result of a membership inference test on a data point $x$ by constructing a proof of repudiation that proves that the model was trained without $x$. We design efficient algorithms to construct proofs of repudiation for all data points of the training dataset. Our empirical evaluation demonstrates the practical feasibility of our algorithm by constructing proofs of repudiation for popular machine learning models on MNIST and CIFAR-10. Consequently, our results call for a re-evaluation of the implications of membership inference attacks in practice.
翻訳日:2023-03-09 16:32:13 公開日:2023-03-08
# 無差別なデータ中毒攻撃の限界を探る

Exploring the Limits of Indiscriminate Data Poisoning Attacks ( http://arxiv.org/abs/2303.03592v2 )

ライセンス: Link先を確認
Yiwei Lu, Gautam Kamath, Yaoliang Yu(参考訳) 無差別なデータ中毒攻撃は、少量の破損したトレーニングデータを注入することで、モデルのテスト精度を低下させることを目的としている。 大きな関心にもかかわらず、既存の攻撃は現代の機械学習(ML)アーキテクチャに対して比較的効果が低い。 本稿では,モデル中毒性の概念を,データ中毒攻撃の本質的限界を探るための技術ツールとして紹介する。 我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能な閾値を導出する。 既存のパラメータ破壊攻撃と勾配キャンセル攻撃の精錬に基づいて,理論的な知見の確認,トランジッション閾値の予測可能性の検証,既存のデータ中毒ベースラインの広範なデータセットとモデルに対する大幅な改善を行う。 我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。

Indiscriminate data poisoning attacks aim to decrease a model's test accuracy by injecting a small amount of corrupted training data. Despite significant interest, existing attacks remain relatively ineffective against modern machine learning (ML) architectures. In this work, we introduce the notion of model poisonability as a technical tool to explore the intrinsic limits of data poisoning attacks. We derive an easily computable threshold to establish and quantify a surprising phase transition phenomenon among popular ML models: data poisoning attacks become effective only when the poisoning ratio exceeds our threshold. Building on existing parameter corruption attacks and refining the Gradient Canceling attack, we perform extensive experiments to confirm our theoretical findings, test the predictability of our transition threshold, and significantly improve existing data poisoning baselines over a range of datasets and models. Our work highlights the critical role played by the poisoning ratio, and sheds new insights on existing empirical results, attacks and mitigation strategies in data poisoning.
翻訳日:2023-03-09 16:31:58 公開日:2023-03-08
# 局所ファジィ粒球を用いた効率的なファジィクラスタリング法に関する研究

Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy Granular balls ( http://arxiv.org/abs/2303.03590v2 )

ライセンス: Link先を確認
Jiang Xie, Qiao Deng, Shuyin Xia, Yangzhou Zhao, Guoyin Wang and Xinbo Gao(参考訳) 近年,ファジィクラスタリングの問題は広く懸念されている。 既存手法のメンバシップ反復は概ね世界的に検討されており,ノイズの多い環境ではかなりの問題があり,多数のサンプルサイズを持つクラスタに対する反復計算は正確で効率的ではない。 本稿では, 大規模優先戦略から, データのファジィ化を粒状球を用いて行い, データのメンバシップ度は, 位置する2つの粒状球のみを考慮し, 繰り返しの効率を向上する。 生成したファジィ粒球集合は、異なるデータシナリオに直面してより多くの処理方法を利用することができ、ファジィクラスタリング計算の実用性を高める。

In recent years, the problem of fuzzy clustering has been widely concerned. The membership iteration of existing methods is mostly considered globally, which has considerable problems in noisy environments, and iterative calculations for clusters with a large number of different sample sizes are not accurate and efficient. In this paper, starting from the strategy of large-scale priority, the data is fuzzy iterated using granular-balls, and the membership degree of data only considers the two granular-balls where it is located, thus improving the efficiency of iteration. The formed fuzzy granular-balls set can use more processing methods in the face of different data scenarios, which enhances the practicability of fuzzy clustering calculations.
翻訳日:2023-03-09 16:31:42 公開日:2023-03-08
# cleanclip: マルチモーダルコントラスト学習におけるデータ中毒攻撃の軽減

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning ( http://arxiv.org/abs/2303.03323v2 )

ライセンス: Link先を確認
Hritik Bansal, Nishad Singhi, Yu Yang, Fan Yin, Aditya Grover, Kai-Wei Chang(参考訳) マルチモーダルコントラストプリトレーニングは、クリップなどのマルチモーダル表現モデルを大量のペア画像テキストデータでトレーニングするために使われてきた。 しかし、これまでの研究ではそのようなモデルはバックドア攻撃に弱いことが判明している。 特に、バックドアの例でトレーニングすると、CLIPは埋め込みバックドアトリガーとターゲットラベルの間の急激な相関を学習し、それらの表現を共同埋め込み空間で整列させる。 300万の事前学習データに75の例など、少数の有毒な例を注入しても、モデルの振る舞いを著しく操作できるため、そのような相関を検出または解き放つことは困難である。 この問題に対処するために,個別のモダリティの表現を独立に調整することで,バックドア攻撃によって引き起こされる学習的刺激的関連を弱めるための微調整フレームワークであるCleanCLIPを提案する。 本研究では,マルチモーダルコントラストとユニモーダル自己教師付き目標の組み合わせを用いた教師なし微調整により,バックドア攻撃の影響を著しく低減できることを実証する。 さらに,タスク固有のラベル付き画像データに対する教師付き微調整により,CLIPビジョンエンコーダのバックドアトリガが除去されることを示す。 マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら,CleanCLIPが良質な例でモデル性能を維持していることを示す。

Multimodal contrastive pretraining has been used to train multimodal representation models, such as CLIP, on large amounts of paired image-text data. However, previous studies have revealed that such models are vulnerable to backdoor attacks. Specifically, when trained on backdoored examples, CLIP learns spurious correlations between the embedded backdoor trigger and the target label, aligning their representations in the joint embedding space. Injecting even a small number of poisoned examples, such as 75 examples in 3 million pretraining data, can significantly manipulate the model's behavior, making it difficult to detect or unlearn such correlations. To address this issue, we propose CleanCLIP, a finetuning framework that weakens the learned spurious associations introduced by backdoor attacks by independently re-aligning the representations for individual modalities. We demonstrate that unsupervised finetuning using a combination of multimodal contrastive and unimodal self-supervised objectives for individual modalities can significantly reduce the impact of the backdoor attack. Additionally, we show that supervised finetuning on task-specific labeled image data removes the backdoor trigger from the CLIP vision encoder. We show empirically that CleanCLIP maintains model performance on benign examples while erasing a range of backdoor attacks on multimodal contrastive learning.
翻訳日:2023-03-09 16:31:18 公開日:2023-03-08
# 相関ネットワークを用いた連続手話認識

Continuous Sign Language Recognition with Correlation Network ( http://arxiv.org/abs/2303.03202v2 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng(参考訳) 人間の身体の軌跡は、ビデオの中でアクションを識別するための貴重な手がかりです。 このような身体の軌跡は主に手と顔で手話の連続したフレームで伝えられる。 しかしながら、連続手話認識(CSLR)における現在の手法は通常、フレームを独立に処理するため、符号を効果的に識別するためにクロスフレームの軌跡を捕捉できなかった。 この制限に対処するために、フレーム間の身体軌道を明示的に捕捉し、利用して記号を識別する相関ネットワーク(CorrNet)を提案する。 具体的には、まず、現在のフレームと隣接するフレーム間の相関マップを動的に計算し、すべての空間パッチの軌跡を特定するための相関モジュールを提案する。 識別モジュールが提示され、これらの相関マップ内の身体軌跡を動的に強調する。 その結果、生成された特徴は、サインを特定するために局所的な時間運動の概観を得ることができる。 CorrNetは体軌道に特別な注意を払って、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現している。 CorrNetの有効性を検証するため,従来の時空間推論手法との比較を行った。 可視化は、隣接するフレームを横切る人体の軌跡を強調するcorrnetの効果を実証する。

Human body trajectories are a salient cue to identify actions in the video. Such body trajectories are mainly conveyed by hands and face across consecutive frames in sign language. However, current methods in continuous sign language recognition (CSLR) usually process frames independently, thus failing to capture cross-frame trajectories to effectively identify a sign. To handle this limitation, we propose correlation network (CorrNet) to explicitly capture and leverage body trajectories across frames to identify signs. In specific, a correlation module is first proposed to dynamically compute correlation maps between the current frame and adjacent frames to identify trajectories of all spatial patches. An identification module is then presented to dynamically emphasize the body trajectories within these correlation maps. As a result, the generated features are able to gain an overview of local temporal movements to identify a sign. Thanks to its special attention on body trajectories, CorrNet achieves new state-of-the-art accuracy on four large-scale datasets, i.e., PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the effectiveness of CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human body trajectories across adjacent frames.
翻訳日:2023-03-09 16:30:50 公開日:2023-03-08
# CLIP-Guided Visual-Text Attention を用いたビデオ質問応答

Video Question Answering Using CLIP-Guided Visual-Text Attention ( http://arxiv.org/abs/2303.03131v2 )

ライセンス: Link先を確認
Shuhong Ye, Weikai Kong, Chenglin Yao, Jianfeng Ren, Xudong Jiang(参考訳) ビデオ質問回答(Video Question Answering, VideoQA)では,ビデオとテキストの相互学習が重要な役割を果たす。 本稿では,ビデオQAのクロスモーダル学習を指導するために,多くのドメイン言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。 具体的には,まず,対象のアプリケーションドメインから BERT を用いて TimeSformer とテキスト機能を用いてビデオ特徴を抽出し,CLIP を用いて一般知識ドメインから一対の視覚テキスト特徴をドメイン固有の学習を通じて抽出する。 次に,対象領域と一般領域にまたがる視覚的特徴と言語的特徴の注意情報を抽出するクロスドメイン学習を提案する。 CLIPで誘導される視覚テキスト機能は、その答えを予測するために統合されている。 提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。

Cross-modal learning of video and text plays a key role in Video Question Answering (VideoQA). In this paper, we propose a visual-text attention mechanism to utilize the Contrastive Language-Image Pre-training (CLIP) trained on lots of general domain language-image pairs to guide the cross-modal learning for VideoQA. Specifically, we first extract video features using a TimeSformer and text features using a BERT from the target application domain, and utilize CLIP to extract a pair of visual-text features from the general-knowledge domain through the domain-specific learning. We then propose a Cross-domain Learning to extract the attention information between visual and linguistic features across the target domain and general domain. The set of CLIP-guided visual-text features are integrated to predict the answer. The proposed method is evaluated on MSVD-QA and MSRVTT-QA datasets, and outperforms state-of-the-art methods.
翻訳日:2023-03-09 16:30:27 公開日:2023-03-08
# Aucklet: 接地された知覚カテゴリー記述の生成

Describe me an Aucklet: Generating Grounded Perceptual Category Descriptions ( http://arxiv.org/abs/2303.04053v2 )

ライセンス: Link先を確認
Bill Noble, Nikolai Ilinykh(参考訳) 人間の言語ユーザは、インスタンスレベルの表現を超えた知覚概念の記述を生成したり、そのような記述を使って暫定的なクラスレベルの表現を学ぶことができる。 しかし、クラス表現で学習し、操作できる計算モデルの能力は、言語とビジョンの分野では未定である。 本稿では,クラスレベルの記述を生成し解釈するために,ニューラルネットワークを個別に訓練する。 次に,解釈モデルのゼロショット分類性能を,コミュニケーション成功とクラスレベルの概念的基礎化の尺度として利用する。 本稿では,プロトタイプと模範型ニューラル表現のカテゴリー記述に基づく性能について検討する。 最後に,従来のNLG評価指標によって捉えられていない世代モデルの性能問題を明らかにすることを示し,これらの問題は,クラスレベルで言語を適切に理解できないことに起因している,と論じる。 解釈モデルでは,クラスレベルでの多様性の低い記述がより良好であり,頻繁に発生する特徴に強く依存していることが示唆される。

Human language users can generate descriptions of perceptual concepts beyond instance-level representations and also use such descriptions to learn provisional class-level representations. However, the ability of computational models to learn and operate with class representations is under-investigated in the language-and-vision field. In this paper, we train separate neural networks to generate and interpret class-level descriptions. We then use the zero-shot classification performance of the interpretation model as a measure of communicative success and class-level conceptual grounding. We investigate the performance of prototype- and exemplar-based neural representations grounded category description. Finally, we show that communicative success reveals performance issues in the generation model that are not captured by traditional intrinsic NLG evaluation metrics, and argue that these issues can be traced to a failure to properly ground language in vision at the class level. We observe that the interpretation model performs better with descriptions that are low in diversity on the class level, possibly indicating a strong reliance on frequently occurring features.
翻訳日:2023-03-09 16:21:49 公開日:2023-03-08
# chatgpt: 手作業による言語データアノテーションの終了の始まり? 自動ジャンル識別のユースケース

ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification ( http://arxiv.org/abs/2303.03953v2 )

ライセンス: Link先を確認
Taja Kuzman, Igor Mozeti\v{c}, Nikola Ljube\v{s}i\'c(参考訳) ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTがゼロショットテキスト分類,具体的には自動ジャンル識別に利用できるかどうかを検討する。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 モデルは英語とスロベニア語という2つの言語のテストセットで比較される。 その結果、chatgptは、どちらのモデルでも見たことのないデータセットに適用すると、微調整されたモデルよりも優れていた。 スロベニア語をアンダーリソース言語として適用しても、ChatGPTのパフォーマンスは英語に適用される時ほど悪くはない。 しかし、Slovenianでモデルを完全にインプットした場合、パフォーマンスは大幅に低下し、より小さな言語でのChatGPT使用の現在の制限が示される。 提案した結果から,スロベニア語のような小規模な言語でも,これが手作業による注釈キャンペーンの終了の始まりであるのではないか,という疑問が浮かび上がった。

ChatGPT has shown strong capabilities in natural language generation tasks, which naturally leads researchers to explore where its abilities end. In this paper, we examine whether ChatGPT can be used for zero-shot text classification, more specifically, automatic genre identification. We compare ChatGPT with a multilingual XLM-RoBERTa language model that was fine-tuned on datasets, manually annotated with genres. The models are compared on test sets in two languages: English and Slovenian. Results show that ChatGPT outperforms the fine-tuned model when applied to the dataset which was not seen before by either of the models. Even when applied on Slovenian language as an under-resourced language, ChatGPT's performance is no worse than when applied to English. However, if the model is fully prompted in Slovenian, the performance drops significantly, showing the current limitations of ChatGPT usage on smaller languages. The presented results lead us to questioning whether this is the beginning of an end of laborious manual annotation campaigns even for smaller languages, such as Slovenian.
翻訳日:2023-03-09 16:21:33 公開日:2023-03-08
# 古典的なOracleの下での古典的対量子アドバイス

Classical vs Quantum Advice under Classically-Accessible Oracle ( http://arxiv.org/abs/2303.04298v1 )

ライセンス: Link先を確認
Xingjian Li, Qipeng Liu, Angelos Pelecanos, Takashi Yamakawa(参考訳) BQP/qpoly $\neq$ BQP/poly あるいは QMA $\neq$ QCMA が関係する古典的なオラクルを構築することは、長い間公然とされてきた問題である。 本稿では,BQP/qpoly $\neq$BQP/polyに対して古典的アクセス可能な古典的オラクルを構築する。 ここでは、古典的アクセス可能な古典的オラクルは、量子アルゴリズムでも古典的にのみアクセス可能なオラクルである。 また, 同様の手法を用いて, ナタラジャンとニルケによって最近示された分布量子アクセス可能な古典オラクルに対して, QMA と QCMA の分離の代替的証明を示す。

It is a long-standing open question to construct a classical oracle relative to which BQP/qpoly $\neq$ BQP/poly or QMA $\neq$ QCMA. In this paper, we construct classically-accessible classical oracles relative to which BQP/qpoly $\neq$ BQP/poly. Here, classically-accessible classical oracles are oracles that can be accessed only classically even for quantum algorithms. Based on a similar technique, we also show an alternative proof for separation of QMA and QCMA relative to a distributional quantumly-accessible classical oracles, which was recently shown by Natarajan and Nirkhe.
翻訳日:2023-03-09 15:38:03 公開日:2023-03-08
# マルチスケール多方向gaborフィルタによるコーナー検出

Corner Detection Based on Multi-directional Gabor Filters with Multi-scales ( http://arxiv.org/abs/2303.04334v1 )

ライセンス: Link先を確認
Huaqing Wang, Junfeng Jing, Ning Li, Weichuan Zhang and Chao Liu(参考訳) gabor waveletは画像解析とコンピュータビジョンタスクに不可欠なツールである。 複数のスケールを持つ局所構造テンソルは局所特徴抽出に広く用いられている。 本研究は,ガボールウェーブレットに基づく現在のコーナー検出手法が複雑なシーンに効果的に適用できないことを示す。 本研究では,ステップエッジ,L字角,Y字角,T字角,X字角,星字角の強度変化をガボル関数で判別する機能について検討した。 アフィン画像変換を抑制するGaborウェーブレットの特性を調べた。 エッジとコーナーの多くの特性が発見され,新しいコーナー抽出法が提案された。 調整したGaborフィルタからの構造情報をフル活用するために、角検出のための新しい多方向構造テンソルを構築し、偽候補コーナーを除去するための多スケール角計測関数を提案する。 さらに, 最適性能を示す12の最先端手法と比較し, 良好な応用可能性を持つ3次元再構築に実用的応用を行った。

Gabor wavelet is an essential tool for image analysis and computer vision tasks. Local structure tensors with multiple scales are widely used in local feature extraction. Our research indicates that the current corner detection method based on Gabor wavelets can not effectively apply to complex scenes. In this work, the capability of the Gabor function to discriminate the intensity changes of step edges, L-shaped corners, Y-shaped or T-shaped corners, X-shaped corners, and star-shaped corners are investigated. The properties of Gabor wavelets to suppress affine image transformation are investigated and obtained. Many properties for edges and corners were discovered, which prompted us to propose a new corner extraction method. To fully use the structural information from the tuned Gabor filters, a novel multi-directional structure tensor is constructed for corner detection, and a multi-scale corner measurement function is proposed to remove false candidate corners. Furthermore, we compare the proposed method with twelve current state-of-the-art methods, which exhibit optimal performance and practical application to 3D reconstruction with good application potential.
翻訳日:2023-03-09 15:29:17 公開日:2023-03-08
# ラストミルロジスティックスにおける優先型デリバリ計画

Preference-Aware Delivery Planning for Last-Mile Logistics ( http://arxiv.org/abs/2303.04333v1 )

ライセンス: Link先を確認
Qian Shao, Shih-Fen Cheng(参考訳) ラストマイル物流サービスの配送経路の最適化は困難であり、多くの研究者の注目を集めている。 これらの問題は、通常、現実世界の制約(例えば、時間窓、優先)に挑戦する車両ルーティング問題(VRP)の変種としてモデル化され、解決される。 しかし、これらのVRPインスタンスの解決に何十年にもわたる確固たる研究にもかかわらず、最適化されたルートと実践者が実際に好むルートの間には、依然として大きなギャップがある。 これらのギャップの大部分は、最適化されたものと実践者が実際に関心を持っているものの違いによるもので、多くのインスタンスで正確に定義することは困難です。 本稿では,最適化手法と機械学習手法の両方の長所を組み合わせた,学習可能なパラメータを持つ新しい階層的経路最適化手法を提案する。 この階層的ルータは,まず,様々なゾーンレベルの特徴を学習可能な重みで,ゾーンレベルの走行セールスマン問題を解き,ゾーン訪問シーケンスを固定した上で,最短ハミルトン経路問題として停止レベルの車両経路問題を解く。 次にベイズ最適化アプローチを導入し、ゾーンレベルのトラベルセールスマン問題を解決するのに使用される異なるゾーン特徴に割り当てられる重みを調整できるようにします。 amazon last mile routing research challengeが提供する実世界の配信データセットを使用することで、最適化と機械学習コンポーネントの両方を持つことの重要性を実証する。 また、ルート関連機能を使用して難易度の高いインスタンスを識別する方法も示しています。 これにより、これらの困難なインスタンスにどのように対処できるか、さらなる研究が可能になる。

Optimizing delivery routes for last-mile logistics service is challenging and has attracted the attention of many researchers. These problems are usually modeled and solved as variants of vehicle routing problems (VRPs) with challenging real-world constraints (e.g., time windows, precedence). However, despite many decades of solid research on solving these VRP instances, we still see significant gaps between optimized routes and the routes that are actually preferred by the practitioners. Most of these gaps are due to the difference between what's being optimized, and what the practitioners actually care about, which is hard to be defined exactly in many instances. In this paper, we propose a novel hierarchical route optimizer with learnable parameters that combines the strength of both the optimization and machine learning approaches. Our hierarchical router first solves a zone-level Traveling Salesman Problem with learnable weights on various zone-level features; with the zone visit sequence fixed, we then solve the stop-level vehicle routing problem as a Shortest Hamiltonian Path problem. The Bayesian optimization approach is then introduced to allow us to adjust the weights to be assigned to different zone features used in solving the zone-level Traveling Salesman Problem. By using a real-world delivery dataset provided by the Amazon Last Mile Routing Research Challenge, we demonstrate the importance of having both the optimization and the machine learning components. We also demonstrate how we can use route-related features to identify instances that we might have difficulty with. This paves ways to further research on how we can tackle these difficult instances.
翻訳日:2023-03-09 15:29:00 公開日:2023-03-08
# ロバスト制御による適応分数次勾配適性アルゴリズムの設計

The Novel Adaptive Fractional Order Gradient Decent Algorithms Design via Robust Control ( http://arxiv.org/abs/2303.04328v1 )

ライセンス: Link先を確認
Jiaxu Liu and Song Chen and Shengze Cai and Chao Xu(参考訳) バニラ分数次勾配降下は、目的関数が強凸である場合には、正確な最小点に収束する代わりに、大域的最小値付近に振動的に収束するか、あるいは分岐する。 本稿では,新しい適応分数次勾配降下法 (afogd) 法と新しい適応分数次加速度勾配降下法 (afoagd) を提案する。 頑健な制御理論から二次的制約とリャプノフ安定性解析に着想を得て,提案アルゴリズムの収束を解析するための線形行列不等式を確立する。 提案アルゴリズムは、目的関数が $\textbf{L-}$smooth かつ $\textbf{m-}$strongly-convex であれば、R-線型収束を達成できることを示す。 提案アルゴリズムの有効性と優位性を検証するために,いくつかの数値シミュレーションを行った。

The vanilla fractional order gradient descent may oscillatively converge to a region around the global minimum instead of converging to the exact minimum point, or even diverge, in the case where the objective function is strongly convex. To address this problem, a novel adaptive fractional order gradient descent (AFOGD) method and a novel adaptive fractional order accelerated gradient descent (AFOAGD) method are proposed in this paper. Inspired by the quadratic constraints and Lyapunov stability analysis from robust control theory, we establish a linear matrix inequality to analyse the convergence of our proposed algorithms. We prove that the proposed algorithms can achieve R-linear convergence when the objective function is $\textbf{L-}$smooth and $\textbf{m-}$strongly-convex. Several numerical simulations are demonstrated to verify the effectiveness and superiority of our proposed algorithms.
翻訳日:2023-03-09 15:28:34 公開日:2023-03-08
# メモリベース学習を用いた状態制約のあるタスクの解法

Using Memory-Based Learning to Solve Tasks with State-Action Constraints ( http://arxiv.org/abs/2303.04327v1 )

ライセンス: Link先を確認
Mrinal Verghese and Chris Atkeson(参考訳) 可能なアクションのセットが状態に依存するタスクは、現在の強化学習アルゴリズムにとって大きな課題となる。 例えば、ロックされたドアを最初にアンロックし、ドアが開く前にハンドルを回さなければならない。 これらのタスクのシーケンシャルな性質は最終的な報酬を得るのを難しくし、離散シンボルではなく重みなどの連続学習値を用いてタスク変種間で情報を伝達することは非効率である。 私たちの重要な洞察は、象徴的に行動し思考するエージェントは、これらのタスクを扱う上でより効果的であることです。 本稿では,これらのタスクにおける制約の象徴的性質と行動の時間順序を活用し,ハイレベルな情報を素早く取得・転送するためのメモリベース学習手法を提案する。 本研究では,実タスクとシミュレーションタスクの両方におけるメモリベース学習の性能を,状態と動作のほぼ不連続な制約で評価し,これらのタスクをモデルベースおよびモデルフリーの深層強化学習法よりも桁違いに高速に解く方法を示す。

Tasks where the set of possible actions depend discontinuously on the state pose a significant challenge for current reinforcement learning algorithms. For example, a locked door must be first unlocked, and then the handle turned before the door can be opened. The sequential nature of these tasks makes obtaining final rewards difficult, and transferring information between task variants using continuous learned values such as weights rather than discrete symbols can be inefficient. Our key insight is that agents that act and think symbolically are often more effective in dealing with these tasks. We propose a memory-based learning approach that leverages the symbolic nature of constraints and temporal ordering of actions in these tasks to quickly acquire and transfer high-level information. We evaluate the performance of memory-based learning on both real and simulated tasks with approximately discontinuous constraints between states and actions, and show our method learns to solve these tasks an order of magnitude faster than both model-based and model-free deep reinforcement learning methods.
翻訳日:2023-03-09 15:28:15 公開日:2023-03-08
# dronerf: ニューラルネットワークの放射能場計算のためのリアルタイムマルチエージェントドローンポーズ最適化

DroNeRF: Real-time Multi-agent Drone Pose Optimization for Computing Neural Radiance Fields ( http://arxiv.org/abs/2303.04322v1 )

ライセンス: Link先を確認
Dipam Patel and Phu Pham and Aniket Bera(参考訳) 本論文では,物体まわりの単眼カメラドローンの自律位置決めのためのdronerfと呼ばれる新しい最適化アルゴリズムを提案する。 Neural Radiance Fields(NeRF)は、入力画像の集合からオブジェクトやシーンの新しいビューを生成するために使用される新しいビュー合成技術である。 ドローンをNeRFと組み合わせることで、シーンの新しいビューを生成するユニークなダイナミックな方法、特に制限された動きの限られたシーン能力を提供する。 提案手法は,物体形状にのみ依存しながら,個別のドローンに対する最適姿勢の算出に焦点をあてる。 データ収集フェーズにおけるユニークなカメラ位置決めは、3dモデルの品質に大きく影響する。 生成した新しいビューの品質を評価するために,ピーク信号対雑音比 (PSNR) や構造類似度指数測定 (SSIM) などの異なる知覚指標を計算した。 われわれの研究は、機動性に制限のある様々なドローンを最適に配置することで、知覚的により良い結果を生み出す利点を実証している。

We present a novel optimization algorithm called DroNeRF for the autonomous positioning of monocular camera drones around an object for real-time 3D reconstruction using only a few images. Neural Radiance Fields or NeRF, is a novel view synthesis technique used to generate new views of an object or scene from a set of input images. Using drones in conjunction with NeRF provides a unique and dynamic way to generate novel views of a scene, especially with limited scene capabilities of restricted movements. Our approach focuses on calculating optimized pose for individual drones while solely depending on the object geometry without using any external localization system. The unique camera positioning during the data-capturing phase significantly impacts the quality of the 3D model. To evaluate the quality of our generated novel views, we compute different perceptual metrics like the Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure(SSIM). Our work demonstrates the benefit of using an optimal placement of various drones with limited mobility to generate perceptually better results.
翻訳日:2023-03-09 15:27:55 公開日:2023-03-08
# SG-LSTM:Dense CrowdsによるロボットナビゲーションのためのソーシャルグループLSTM

SG-LSTM: Social Group LSTM for Robot Navigation Through Dense Crowds ( http://arxiv.org/abs/2303.04320v1 )

ライセンス: Link先を確認
Rashmi Bhaskara and Maurice Chiu and Aniket Bera(参考訳) 個人用ロボットの可用性と手頃さが増す中で、ロボットはもはや大企業の倉庫や工場に限らず、より制御の少ない環境で大規模集団と共に運用されることが期待されている。 安全性と効率の確保に加えて、ロボットが人間に与えるネガティブな心理的影響を最小限に抑え、これらの状況における無書きの社会的規範に従うことが不可欠である。 本研究の目的は,混雑した環境下での歩行者や知覚社会的グループの動きを予測できるモデルを開発することである。 社会的に認識されたLSTMを用いて、密集環境における人間グループと相互作用をモデル化し、より正確な軌道予測を行うソーシャルグループ長短期記憶(SG-LSTM)モデルを提案する。 本手法は,混雑した環境において,衝突のない経路を高速かつ正確に計算する。 さらに、より広いソーシャルナビゲーションコミュニティのために、ラベル付き歩行者グループによる大規模なビデオデータセットもリリースしました。 異なるデータセット(ETH, Hotel, MOT15)と異なる予測手法(LIN, LSTM, O-LSTM, S-LSTM)とランタイム性能の比較を行った。

With the increasing availability and affordability of personal robots, they will no longer be confined to large corporate warehouses or factories but will instead be expected to operate in less controlled environments alongside larger groups of people. In addition to ensuring safety and efficiency, it is crucial to minimize any negative psychological impact robots may have on humans and follow unwritten social norms in these situations. Our research aims to develop a model that can predict the movements of pedestrians and perceptually-social groups in crowded environments. We introduce a new Social Group Long Short-term Memory (SG-LSTM) model that models human groups and interactions in dense environments using a socially-aware LSTM to produce more accurate trajectory predictions. Our approach enables navigation algorithms to calculate collision-free paths faster and more accurately in crowded environments. Additionally, we also release a large video dataset with labeled pedestrian groups for the broader social navigation community. We show comparisons with different metrics on different datasets (ETH, Hotel, MOT15) and different prediction approaches (LIN, LSTM, O-LSTM, S-LSTM) as well as runtime performance.
翻訳日:2023-03-09 15:27:34 公開日:2023-03-08
# 深部セマンティックセグメンテーション : 効率指向, 時間, 深さを考慮した設計

A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design ( http://arxiv.org/abs/2303.04315v1 )

ライセンス: Link先を確認
Felipe Manfio Barbosa, Fernando Santos Os\'orio(参考訳) セマンティック画像とビデオセグメンテーションは、あるシーンにおけるピクセルの密度の高い分類によって、環境の完全かつ意味のある表現を提供するため、コンピュータビジョンにおける最も重要なタスクの1つである。 近年、Deep Learning(より正確には畳み込みニューラルネットワーク)は、セマンティックセグメンテーションをパフォーマンスと一般化能力の面で新たなレベルに引き上げている。 しかし、深い意味のセグメンテーションモデルを設計するのは複雑なタスクである。 特に、自動運転アプリケーションを考える場合、ロバストネス効率のトレードオフと、計算/メモリ境界とデータscarcity、そして制約(リアルタイム推論)を考慮する必要がある。 この点において、シーンの幾何学的推論のための深度知覚や、冗長性と一貫性を探求するビデオからの時間的手がかりなどの追加データモダリティの使用は、文学におけるその潜在能力を十分に探求していない有望な方向である。 本稿では,リアルタイム運転のための効率指向モデル開発,RGB-Dセマンティックセグメンテーション(RGB-Dセマンティックセグメンテーション),時間的認識モデルにおけるビデオからの時間的情報の利用,という3つの視点から,自動車のビジョンの文脈におけるDeep Semantic Segmentationの最も重要かつ最近の進歩について調査する。 我々の主な目的は、各視点で直面する主要な方法、利点、限界、結果、課題に関する包括的な議論を提供することであり、読者が始めるだけでなく、このエキサイティングで挑戦的な研究分野における最近の進歩についても最新のものとなるようにすることである。

Semantic image and video segmentation stand among the most important tasks in computer vision nowadays, since they provide a complete and meaningful representation of the environment by means of a dense classification of the pixels in a given scene. Recently, Deep Learning, and more precisely Convolutional Neural Networks, have boosted semantic segmentation to a new level in terms of performance and generalization capabilities. However, designing Deep Semantic Segmentation models is a complex task, as it may involve application-dependent aspects. Particularly, when considering autonomous driving applications, the robustness-efficiency trade-off, as well as intrinsic limitations - computational/memory bounds and data-scarcity - and constraints - real-time inference - should be taken into consideration. In this respect, the use of additional data modalities, such as depth perception for reasoning on the geometry of a scene, and temporal cues from videos to explore redundancy and consistency, are promising directions yet not explored to their full potential in the literature. In this paper, we conduct a survey on the most relevant and recent advances in Deep Semantic Segmentation in the context of vision for autonomous vehicles, from three different perspectives: efficiency-oriented model development for real-time operation, RGB-Depth data integration (RGB-D semantic segmentation), and the use of temporal information from videos in temporally-aware models. Our main objective is to provide a comprehensive discussion on the main methods, advantages, limitations, results and challenges faced from each perspective, so that the reader can not only get started, but also be up to date in respect to recent advances in this exciting and challenging research field.
翻訳日:2023-03-09 15:27:09 公開日:2023-03-08
# 安全なマルチロボットナビゲーションのための環境対応制御バリア関数の学習

Learning Environment-Aware Control Barrier Functions for Safe and Feasible Multi-Robot Navigation ( http://arxiv.org/abs/2303.04313v1 )

ライセンス: Link先を確認
Zhan Gao and Guang Yang and Amanda Prorok(参考訳) 制御バリア関数(CBF)は、ロボットナビゲーションの安全性を保証するために適用されている。 従来のアプローチでは、ナビゲーション中にCBFを固定し、基本パラメータをハンドチューニングする。 このようなアプローチは非効率であり、環境の変化に弱い。 本研究の目的は,ロボットが環境に対する認識に基づいて,マルチロボットナビゲーションのためのCBFを学習することである。 ロボットの安全性を確保しつつ、ナビゲーションタスクの実現性を保証するため、動的環境に配慮したCBF制約を定義することにより、ロボット行動の保守性と攻撃性のトレードオフを追求する。 CBF制約とナビゲーション性能との明確な関係はモデル化が難しいため,強化学習を活用して,時間変化のあるCBFをモデル無しで学習する。 我々は、グラフニューラルネットワーク(gnns)を用いてcbfポリシーをパラメータ化し、翻訳不変量および置換同変量であるgnnを設計し、環境をまたがる分散ポリシーを合成する。 提案手法は安全保証(CBFによる)を維持しつつ,ナビゲーション性能(報酬に基づく学習による)を最適化する。 提案手法を網羅的グリッドサーチによって調整された固定CBFと比較するシミュレーションを行う。 その結果,環境に配慮したCBFはロボットの動きや障害物の変化に適応し,ナビゲーション性能の向上と堅牢な一般化を実現することができた。

Control Barrier Functions (CBFs) have been applied to provide safety guarantees for robot navigation. Traditional approaches consider fixed CBFs during navigation and hand-tune the underlying parameters apriori. Such approaches are inefficient and vulnerable to changes in the environment. The goal of this paper is to learn CBFs for multi-robot navigation based on what robots perceive about their environment. In order to guarantee the feasibility of the navigation task, while ensuring robot safety, we pursue a trade-off between conservativeness and aggressiveness in robot behavior by defining dynamic environment-aware CBF constraints. Since the explicit relationship between CBF constraints and navigation performance is challenging to model, we leverage reinforcement learning to learn time-varying CBFs in a model-free manner. We parameterize the CBF policy with graph neural networks (GNNs), and design GNNs that are translation invariant and permutation equivariant, to synthesize decentralized policies that generalize across environments. The proposed approach maintains safety guarantees (due to the underlying CBFs), while optimizing navigation performance (due to the reward-based learning). We perform simulations that compare the proposed approach with fixed CBFs tuned by exhaustive grid-search. The results show that environment-aware CBFs are capable of adapting to robot movements and obstacle changes, yielding improved navigation performance and robust generalization.
翻訳日:2023-03-09 15:26:33 公開日:2023-03-08
# 自動運転車とadaのカメラレーダ認識:概念、データセット、メトリクス

Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts, Datasets and Metrics ( http://arxiv.org/abs/2303.04302v1 )

ライセンス: Link先を確認
Felipe Manfio Barbosa, Fernando Santos Os\'orio(参考訳) 交通事故の低減に向けた主要な道の1つは、運転支援システムや完全な自律性を持つシステムによる車両の安全性の向上である。 このようなシステムでは、障害物検出やセグメンテーション、特にディープラーニングに基づくタスクは、正しい安全なナビゲーションのためのシーン理解において基本的な役割を果たす。 さらに、近年の車両における多様なセンサーは、照明下のナビゲーションや天候の悪条件といった困難な状況における認識の堅牢性を改善するための、豊富な代替手段を提供している。 現在の主題に焦点が当てられているにもかかわらず、この文献はレーダーベースおよびレーダーカメラ融合に基づく知覚の研究を欠いている。 したがって、この研究は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことを目的としている。 両センサと融合に関する概念と特性について述べる。 さらに、深層学習に基づく検出とセグメント化タスクと、車両知覚における主要なデータセット、メトリクス、課題、オープン質問の概要を示す。

One of the main paths towards the reduction of traffic accidents is the increase in vehicle safety through driver assistance systems or even systems with a complete level of autonomy. In these types of systems, tasks such as obstacle detection and segmentation, especially the Deep Learning-based ones, play a fundamental role in scene understanding for correct and safe navigation. Besides that, the wide variety of sensors in vehicles nowadays provides a rich set of alternatives for improvement in the robustness of perception in challenging situations, such as navigation under lighting and weather adverse conditions. Despite the current focus given to the subject, the literature lacks studies on radar-based and radar-camera fusion-based perception. Hence, this work aims to carry out a study on the current scenario of camera and radar-based perception for ADAS and autonomous vehicles. Concepts and characteristics related to both sensors, as well as to their fusion, are presented. Additionally, we give an overview of the Deep Learning-based detection and segmentation tasks, and the main datasets, metrics, challenges, and open questions in vehicle perception.
翻訳日:2023-03-09 15:26:10 公開日:2023-03-08
# 決定スランプを用いた最適スパース回復

Optimal Sparse Recovery with Decision Stumps ( http://arxiv.org/abs/2303.04301v1 )

ライセンス: Link先を確認
Kiarash Banihashem, MohammadTaghi Hajiaghayi, Max Springer(参考訳) 決定木は計算コストの低減、予測性能の向上、特徴の重要性を評価する能力に広く利用されている。 特徴選択によく用いられるが、これらの手法の理論的保証はよく理解されていない。 単層決定木を用いた線形回帰における特徴選択問題に対する厳密な有限標本を得る。 これらの「決定切り株」の統計的性質を$p$の総特徴から$s$のアクティブな特徴を回復するために検討する。 ラッソが取得した有限標本境界の$O(s \log p)$と整合する高次元スパース系において, 試料性能の厳密な保証を行い, 中央値および最適スプリッティング基準の双方について, 以前の限界を改良した。 本研究の結果は,非線型分布や任意の準ガウス分布にまで拡張し,木質法が多種多様な条件下で強い特徴選択性を持つことを示すとともに,実際的な手法の成功に光を当てている。 また,本分析の副産物として,アクティブ機能数$s$が未知であっても,回復を確実に保証できることを示す。 計算実験を用いて理論的結果と検証手法をさらに検証する。

Decision trees are widely used for their low computational cost, good predictive performance, and ability to assess the importance of features. Though often used in practice for feature selection, the theoretical guarantees of these methods are not well understood. We here obtain a tight finite sample bound for the feature selection problem in linear regression using single-depth decision trees. We examine the statistical properties of these "decision stumps" for the recovery of the $s$ active features from $p$ total features, where $s \ll p$. Our analysis provides tight sample performance guarantees on high-dimensional sparse systems which align with the finite sample bound of $O(s \log p)$ as obtained by Lasso, improving upon previous bounds for both the median and optimal splitting criteria. Our results extend to the non-linear regime as well as arbitrary sub-Gaussian distributions, demonstrating that tree based methods attain strong feature selection properties under a wide variety of settings and further shedding light on the success of these methods in practice. As a byproduct of our analysis, we show that we can provably guarantee recovery even when the number of active features $s$ is unknown. We further validate our theoretical results and proof methodology using computational experiments.
翻訳日:2023-03-09 15:25:51 公開日:2023-03-08
# 位置不整合擬似ラベル補正モジュールによる半教師付き2次元ポーズ推定

Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction Module ( http://arxiv.org/abs/2303.04346v1 )

ライセンス: Link先を確認
Linzhi Huang, Yulong Li, Hongbo Tian, Yue Yang, Xiangang Li, Weihong Deng, Jieping Ye(参考訳) 本稿では,半教師付き2次元ポーズ推定について検討する。 以前の方法は2つの問題を無視した。 (i)大型モデルと軽量モデルの間でインタラクティブなトレーニングを行う場合、軽量モデルの擬似ラベルを使用して、大規模モデルのガイドを行う。 (ii)騒音擬似ラベルのトレーニングへの影響 さらに、2次元人間のポーズ推定に用いられるラベルは、キーポイントカテゴリとキーポイント位置という比較的複雑である。 上記の問題を解決するために,位置不整合擬似ラベル補正モジュール(sspcm)によって駆動される半教師付き2次元ポーズ推定フレームワークを提案する。 補助教師を新たに導入し,異なる期間に2つの教員モデルによって生成された擬似ラベルを用いて不一致スコアを算出し,外れ値の除去を行う。 そして、対話型トレーニングにより2つの教師モデルを更新し、2つの教師が生成した擬似ラベルを用いて生徒モデルを更新する。 学生モデルの性能向上のために,擬似キーポイント認識に基づく半教師付きカットオクルードを用いて,より硬く効果的なサンプルを生成する。 また,新しい屋内魚眼人キーポイントデータセット WEPDTOF-Pose も提案した。 大規模な実験により,本手法は従来の最良半教師付き2次元ポーズ推定法よりも優れていた。 コードとデータセットはhttps://github.com/hlz0606/SSPCMで公開します。

In this paper, we delve into semi-supervised 2D human pose estimation. The previous method ignored two problems: (i) When conducting interactive training between large model and lightweight model, the pseudo label of lightweight model will be used to guide large models. (ii) The negative impact of noise pseudo labels on training. Moreover, the labels used for 2D human pose estimation are relatively complex: keypoint category and keypoint position. To solve the problems mentioned above, we propose a semi-supervised 2D human pose estimation framework driven by a position inconsistency pseudo label correction module (SSPCM). We introduce an additional auxiliary teacher and use the pseudo labels generated by the two teacher model in different periods to calculate the inconsistency score and remove outliers. Then, the two teacher models are updated through interactive training, and the student model is updated using the pseudo labels generated by two teachers. To further improve the performance of the student model, we use the semi-supervised Cut-Occlude based on pseudo keypoint perception to generate more hard and effective samples. In addition, we also proposed a new indoor overhead fisheye human keypoint dataset WEPDTOF-Pose. Extensive experiments demonstrate that our method outperforms the previous best semi-supervised 2D human pose estimation method. We will release the code and dataset at https://github.com/hlz0606/SSPCM.
翻訳日:2023-03-09 15:20:12 公開日:2023-03-08
# 変分ベイズ推論による連合学習:パーソナライズ、スパーシティ、クラスタリング

Federated Learning via Variational Bayesian Inference: Personalization, Sparsity and Clustering ( http://arxiv.org/abs/2303.04345v1 )

ライセンス: Link先を確認
Xu Zhang, Wenpeng Li, Yunfeng Shao, Yinchuan Li(参考訳) Federated Learning(FL)は、分散機械学習をモデル化し、クライアントのプライバシを保護する、有望なフレームワークである。 しかし、FLは異種データや限られたデータからの性能劣化に悩まされる。 劣化を緩和するため,pFedBayesという新規なベイズFLアプローチを提案する。 各クライアントは、サーバからトレーニングしたグローバル分布を各クライアントの事前分布として使用することにより、パーソナライズされたデータに対する再構成エラーの総和と、ダウンロードされたグローバル分布とのKL分散を最小化して、独自の分散を調整する。 次に, sFedBayes という名前のベイズFLアプローチを提案する。 非i.i.d.データの極端な不均一性を克服するために、異なるクライアントに対する異なる事前分布を学習することにより、cfedbayes と呼ばれるクラスタ化されたベイズflモデルを提案する。 理論解析は3つのアプローチの一般化誤差境界を与え、提案手法の一般化誤差収束率は対数係数までミニマックス最適性を達成することを示した。 さらに、解析により、cFedbayes は pFedBayes よりも厳密な一般化誤差率を示す。 提案手法は、異種データや限定データの存在下で、他の高度なパーソナライズ手法よりも優れた性能を示すことを示すために、数多くの実験を行った。

Federated learning (FL) is a promising framework that models distributed machine learning while protecting the privacy of clients. However, FL suffers performance degradation from heterogeneous and limited data. To alleviate the degradation, we present a novel personalized Bayesian FL approach named pFedBayes. By using the trained global distribution from the server as the prior distribution of each client, each client adjusts its own distribution by minimizing the sum of the reconstruction error over its personalized data and the KL divergence with the downloaded global distribution. Then, we propose a sparse personalized Bayesian FL approach named sFedBayes. To overcome the extreme heterogeneity in non-i.i.d. data, we propose a clustered Bayesian FL model named cFedbayes by learning different prior distributions for different clients. Theoretical analysis gives the generalization error bound of three approaches and shows that the generalization error convergence rates of the proposed approaches achieve minimax optimality up to a logarithmic factor. Moreover, the analysis presents that cFedbayes has a tighter generalization error rate than pFedBayes. Numerous experiments are provided to demonstrate that the proposed approaches have better performance than other advanced personalized methods on private models in the presence of heterogeneous and limited data.
翻訳日:2023-03-09 15:19:51 公開日:2023-03-08
# M-EBM:エネルギーモデルの構築に向けて

M-EBM: Towards Understanding the Manifolds of Energy-Based Models ( http://arxiv.org/abs/2303.04343v1 )

ライセンス: Link先を確認
Xiulong Yang and Shihao Ji(参考訳) エネルギーベースモデル(EBM)は、一般性、単純性、構成性など、予測タスクにおいて様々な望ましい性質を示す。 しかし、高次元データセットでのebmのトレーニングは不安定で高価である。 本稿では,非条件ESMとジョイントエネルギーベースモデル(JEM)の総合性能を高めるためのマニフォールドEMM(M-EBM)を提案する。 その単純さにもかかわらず、M-EBMはCIFAR10、CIFAR100、CelebA-HQ、ImageNet 32x32といったベンチマークデータセットのホストのトレーニング安定性と速度の非条件ESMを大幅に改善した。 クラスラベルが利用可能になると、ラベル付きM-EBM(M-JEM)はさらに画像生成品質のM-EBMを40%以上改善し、精度の向上を享受する。 コードはhttps://github.com/sndnyang/mebm.comにある。

Energy-based models (EBMs) exhibit a variety of desirable properties in predictive tasks, such as generality, simplicity and compositionality. However, training EBMs on high-dimensional datasets remains unstable and expensive. In this paper, we present a Manifold EBM (M-EBM) to boost the overall performance of unconditional EBM and Joint Energy-based Model (JEM). Despite its simplicity, M-EBM significantly improves unconditional EBMs in training stability and speed on a host of benchmark datasets, such as CIFAR10, CIFAR100, CelebA-HQ, and ImageNet 32x32. Once class labels are available, label-incorporated M-EBM (M-JEM) further surpasses M-EBM in image generation quality with an over 40% FID improvement, while enjoying improved accuracy. The code can be found at https://github.com/sndnyang/mebm.
翻訳日:2023-03-09 15:19:30 公開日:2023-03-08
# 線グラフ上の二粒子散乱問題に対する完全解法

Complete solution to the two-particle scattering problem on a line graph ( http://arxiv.org/abs/2303.04342v1 )

ライセンス: Link先を確認
Luna Lima e Silva, Daniel Jost Brod(参考訳) 量子ウォークは、その開始以来、量子アルゴリズムの開発に使われており、通常の回路モデルに代わるものとして見ることができ、スパースグラフ上の単一粒子量子ウォークと線格子上の2粒子散乱を組み合わせた場合、普遍量子計算を行うには十分である。 本研究では, 変換不変性のない相互作用族に対する線格子上の2粒子散乱の問題を解き, ボース・ハバード相互作用を極限ケースとして回収する。 その一般化のため、我々の体系的なアプローチは、一般グラフ上の多粒子散乱のより一般的な問題を解くための基礎を築き、それによって異なるまたは単純な量子ゲートやガジェットの設計が可能になる。 本研究の結果,行グラフのごく一部にのみ作用する場合に,CPHASEゲートを高忠実度で実現可能であることを示す。

Quantum walks have been used to develop quantum algorithms since their inception, and can be seen as an alternative to the usual circuit model; combining single-particle quantum walks on sparse graphs with two-particle scattering on a line lattice is sufficient to perform universal quantum computation. In this work we solve the problem of two-particle scattering on the line lattice for a family of interactions without translation invariance, recovering the Bose-Hubbard interaction as the limiting case. Due to its generality, our systematic approach lays the groundwork to solve the more general problem of multi-particle scattering on general graphs, which in turn can enable design of different or simpler quantum gates and gadgets. As a consequence of this work, we show that a CPHASE gate can be achieved with high fidelity when the interaction acts only on a small portion of the line graph.
翻訳日:2023-03-09 15:19:11 公開日:2023-03-08
# 神経ベクトル場:明示的学習による暗示表現

Neural Vector Fields: Implicit Representation by Explicit Learning ( http://arxiv.org/abs/2303.04341v1 )

ライセンス: Link先を確認
Xianghui Yang, Guosheng Lin, Zhenghao Chen, Luping Zhou(参考訳) 現在、ディープニューラルネットワーク(DNN)は3次元表面再構成タスクに広く適用されており、これらの手法はさらに2つのカテゴリに分けられる。 暗黙的関数の高度な学習プロセスと強力な表現能力を両立させ,ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。 メッシュを直接操作するために明示的な学習プロセスを採用するだけでなく、udf(unsigned distance function)の暗黙的な表現を活用して、解像度とトポロジーの障壁を破る。 具体的には,まずクエリから表面への変位を予測し,形状をtextit{Vector Fields} としてモデル化する。 生成ベクトル場は、既存のUDF法と同様に方向場を得るためにネットワーク微分に頼るのではなく、距離と方向場の両方を符号化し、方向場の計算が簡単で微分自由であるような「尾根」点におけるあいまいさを軽減する。 この微分自由特性により,クロスオブジェクト前処理を符号化し,トレーニング手順を高速化し,クロスカテゴリ再構築におけるモデルの一般化を促進するベクトル量子化により,形状コードブックをさらに学習することができる。 表面再構成ベンチマークの広範囲な実験は, 水密型と非水密型, カテゴリー固有型とカテゴリー非依存型, カテゴリー・アンセン型, クロスドメイン型など, 異なる評価シナリオにおいて, それらの最先端手法に勝ることを示す。 私たちのコードは公開されます。

Deep neural networks (DNNs) are widely applied for nowadays 3D surface reconstruction tasks and such methods can be further divided into two categories, which respectively warp templates explicitly by moving vertices or represent 3D surfaces implicitly as signed or unsigned distance functions. Taking advantage of both advanced explicit learning process and powerful representation ability of implicit functions, we propose a novel 3D representation method, Neural Vector Fields (NVF). It not only adopts the explicit learning process to manipulate meshes directly, but also leverages the implicit representation of unsigned distance functions (UDFs) to break the barriers in resolution and topology. Specifically, our method first predicts the displacements from queries towards the surface and models the shapes as \textit{Vector Fields}. Rather than relying on network differentiation to obtain direction fields as most existing UDF-based methods, the produced vector fields encode the distance and direction fields both and mitigate the ambiguity at "ridge" points, such that the calculation of direction fields is straightforward and differentiation-free. The differentiation-free characteristic enables us to further learn a shape codebook via Vector Quantization, which encodes the cross-object priors, accelerates the training procedure, and boosts model generalization on cross-category reconstruction. The extensive experiments on surface reconstruction benchmarks indicate that our method outperforms those state-of-the-art methods in different evaluation scenarios including watertight vs non-watertight shapes, category-specific vs category-agnostic reconstruction, category-unseen reconstruction, and cross-domain reconstruction. Our code will be publicly released.
翻訳日:2023-03-09 15:18:57 公開日:2023-03-08
# 連結自動運転車のプライバシー保護と不確実性を考慮したフェデレーション軌道予測

Privacy-preserving and Uncertainty-aware Federated Trajectory Prediction for Connected Autonomous Vehicles ( http://arxiv.org/abs/2303.04340v1 )

ライセンス: Link先を確認
Muzi Peng, Jiangwei Wang, Dongjin Song, Fei Miao, Lili Su(参考訳) ディープラーニングは、自動運転車の軌道予測の選択方法である。 残念ながら、データ不足の性質は暗黙的に、十分にリッチで高品質な集中型データセットの可用性を必要とするため、簡単にプライバシーの漏洩につながる。 さらに、予測モジュールが機械学習ツールに大きく依存している安全に厳しいサイバー物理システムにとって、不確実性を認識することがますます重要になる。 本稿では,コネクテッド・オートモービルズにおけるフェデレート・ラーニング(Federated Learning on Connected autonomous Vehicles)によるデータ収集の要件を緩和し,不確実性意識を高める。 我々はこのアルゴリズムをFLTPと呼ぶ。 さらに、アクティブな学習技術を用いて、参加するクライアントを適応的に選択することで、FLTPを向上するALFLTPを紹介する。 負の対数類似度 (NLL) とアレタリック不確実性 (AU) の両方をクライアント選択指標とみなす。 Argoverseデータセットの実験では、FLTPはローカルデータに基づいてトレーニングされたモデルよりも大幅に優れていた。 さらに、ALFLTP-AUは、トレーニング回帰損失においてより早く収束し、ほとんどのラウンドでFLTPよりもNLL、minADE、MRの点で優れ、ALFLTP-NLLよりも安定なラウンドワイド性能を有する。

Deep learning is the method of choice for trajectory prediction for autonomous vehicles. Unfortunately, its data-hungry nature implicitly requires the availability of sufficiently rich and high-quality centralized datasets, which easily leads to privacy leakage. Besides, uncertainty-awareness becomes increasingly important for safety-crucial cyber physical systems whose prediction module heavily relies on machine learning tools. In this paper, we relax the data collection requirement and enhance uncertainty-awareness by using Federated Learning on Connected Autonomous Vehicles with an uncertainty-aware global objective. We name our algorithm as FLTP. We further introduce ALFLTP which boosts FLTP via using active learning techniques in adaptatively selecting participating clients. We consider both negative log-likelihood (NLL) and aleatoric uncertainty (AU) as client selection metrics. Experiments on Argoverse dataset show that FLTP significantly outperforms the model trained on local data. In addition, ALFLTP-AU converges faster in training regression loss and performs better in terms of NLL, minADE and MR than FLTP in most rounds, and has more stable round-wise performance than ALFLTP-NLL.
翻訳日:2023-03-09 15:18:00 公開日:2023-03-08
# より細かいことを学ぶ - インスタンス化レベルでのベイズ構造学習

Learning the Finer Things: Bayesian Structure Learning at the Instantiation Level ( http://arxiv.org/abs/2303.04339v1 )

ライセンス: Link先を確認
Chase Yakaboski and Eugene Santos Jr(参考訳) 成功した機械学習手法は記憶と一般化の間のトレードオフを必要とする。 記憶が多すぎるとモデルが観測できない例に一般化できない。 過剰な一般化が多すぎると、データに過度に適合するリスクがあります。 一般的に、クロスバリデーションと精度メトリクスを通じてパフォーマンスを計測するが、精度が常に満足できない領域において、これらのアルゴリズムはどのように対処すべきなのか? 本稿では,確率変数インスタンス化レベルで操作することで,これらの不可解な領域を学習し,一般化し,説明できる,新しい確率論的グラフィカルモデル構造学習手法を提案する。 MDL(Minimum Description Length)分析を用いて,全ての学習経験者に対する学習問題の新たな分解を提案し,最小エントロピー推論を融合して最終知識ベースを構築する。 ベイジアン・ナレッジ・ベース(BKB)をインスタンスレベルで動作し,本質的にベイジアン・ネットワーク(BN)を仮定するフレームワークとして活用することにより,40のベンチマーク・データセット上での学習BNに対する大幅な改善を示す理論的MDLスコアと関連する構造学習アルゴリズムを開発した。 さらに,本アルゴリズムでは,近年の既成のDAG学習技術を用いて,大規模な問題においても抽出可能な結果が得られる。 次に,癌ゲノムアトラス(tcga)から入手可能な乳癌遺伝子変異データに関する遺伝子制御ネットワークを学習することにより,この手法の有用性を示す。

Successful machine learning methods require a trade-off between memorization and generalization. Too much memorization and the model cannot generalize to unobserved examples. Too much over-generalization and we risk under-fitting the data. While we commonly measure their performance through cross validation and accuracy metrics, how should these algorithms cope in domains that are extremely under-determined where accuracy is always unsatisfactory? We present a novel probabilistic graphical model structure learning approach that can learn, generalize and explain in these elusive domains by operating at the random variable instantiation level. Using Minimum Description Length (MDL) analysis, we propose a new decomposition of the learning problem over all training exemplars, fusing together minimal entropy inferences to construct a final knowledge base. By leveraging Bayesian Knowledge Bases (BKBs), a framework that operates at the instantiation level and inherently subsumes Bayesian Networks (BNs), we develop both a theoretical MDL score and associated structure learning algorithm that demonstrates significant improvements over learned BNs on 40 benchmark datasets. Further, our algorithm incorporates recent off-the-shelf DAG learning techniques enabling tractable results even on large problems. We then demonstrate the utility of our approach in a significantly under-determined domain by learning gene regulatory networks on breast cancer gene mutational data available from The Cancer Genome Atlas (TCGA).
翻訳日:2023-03-09 15:17:37 公開日:2023-03-08
# 証明可能な経路: 複数の経路で複数のタスクを学習する

Provable Pathways: Learning Multiple Tasks over Multiple Paths ( http://arxiv.org/abs/2303.04338v1 )

ライセンス: Link先を確認
Yingcong Li, Samet Oymak(参考訳) 多数のタスクにまたがって有用な表現を構築することは、サンプル効率の良いインテリジェントシステムにとって重要な要件である。 マルチタスク学習(MTL)における従来の考え方は、タスク間で共有表現を構築し、最後のレイヤをチューニングすることで新しいタスクに適応する、というものだ。 共有のone-fits-all表現を使用する際の望ましい改良は、タスク固有の表現を構築することである。 この目的のために、最近のPathNet/muNetアーキテクチャは、個々のタスクをより大きなスーパーネット内の経路として表現している。 経路によって引き起こされるサブネットワークは、スーパーネットの計算グラフ内のモジュールの構成であるタスク固有の表現と見なすことができる。 我々はまず,複数経路上の複数のタスクを学習する経験的リスク最小化問題(Multipath MTL)に対して,新しい一般化境界を開発する。 同時に、新しい下流タスクに適応する際のマルチパス表現の利点を形式化する。 我々の境界はガウス複雑性の観点で表現され、線型表現のクラスに対する具体的な保証をもたらし、マルチパス表現の品質と利点に関する新しい洞察を提供する。 計算グラフが木である場合、Multipath MTLは階層的にタスクをクラスタ化し、クラスタ固有の表現を構築する。 我々は、階層型MTLのさらなる議論と実験を行い、Multipath MTLが浅いスーパーネットを持つ従来のMTLアプローチよりも確実に優れている条件を厳格に特定する。

Constructing useful representations across a large number of tasks is a key requirement for sample-efficient intelligent systems. A traditional idea in multitask learning (MTL) is building a shared representation across tasks which can then be adapted to new tasks by tuning last layers. A desirable refinement of using a shared one-fits-all representation is to construct task-specific representations. To this end, recent PathNet/muNet architectures represent individual tasks as pathways within a larger supernet. The subnetworks induced by pathways can be viewed as task-specific representations that are composition of modules within supernet's computation graph. This work explores the pathways proposal from the lens of statistical learning: We first develop novel generalization bounds for empirical risk minimization problems learning multiple tasks over multiple paths (Multipath MTL). In conjunction, we formalize the benefits of resulting multipath representation when adapting to new downstream tasks. Our bounds are expressed in terms of Gaussian complexity, lead to tangible guarantees for the class of linear representations, and provide novel insights into the quality and benefits of a multipath representation. When computation graph is a tree, Multipath MTL hierarchically clusters the tasks and builds cluster-specific representations. We provide further discussion and experiments for hierarchical MTL and rigorously identify the conditions under which Multipath MTL is provably superior to traditional MTL approaches with shallow supernets.
翻訳日:2023-03-09 15:17:14 公開日:2023-03-08
# QuickSRNet: モバイルプラットフォームでの高速推論のための平易な単一イメージ超解法アーキテクチャ

QuickSRNet: Plain Single-Image Super-Resolution Architecture for Faster Inference on Mobile Platforms ( http://arxiv.org/abs/2303.04336v1 )

ライセンス: Link先を確認
Guillaume Berger and Manik Dhingra and Antoine Mercier and Yashesh Savani and Sunny Panchal and Fatih Porikli(参考訳) 本稿では,モバイルプラットフォーム上でリアルタイムアプリケーションを実現するための,効率的な超解像アーキテクチャQuickSRNetを提案する。 超解像度は画像の高解像度化、シャープ化、アップスケール化を行う。 ゲームやビデオ再生などのアプリケーションや、テレビ、スマートフォン、VRヘッドセットのディスプレイ能力の向上は、効率的なアップスケーリングソリューションの必要性を喚起している。 既存のディープラーニングベースの超高解像度アプローチは、視覚的品質の観点から見事な結果をもたらすが、計算、熱、電力制約のあるモバイルデバイスでリアルタイムDLベースの超高解像度を実現することは困難である。 このような課題に対処するため,我々は,単一画像のスーパーレゾリューションのための既存のニューラルネットワークよりも精度とレイテンシのトレードオフを提供する,シンプルで効果的なアーキテクチャであるquicksrnetを提案する。 量子化に対する堅牢性を維持しつつ,既存の残差ベース超解像アーキテクチャを高速化する訓練手法を提案する。 提案するアーキテクチャは,最新のスマートフォンで2.2ミリ秒で2倍のアップスケーリングで1080pの出力を生成する。

In this work, we present QuickSRNet, an efficient super-resolution architecture for real-time applications on mobile platforms. Super-resolution clarifies, sharpens, and upscales an image to higher resolution. Applications such as gaming and video playback along with the ever-improving display capabilities of TVs, smartphones, and VR headsets are driving the need for efficient upscaling solutions. While existing deep learning-based super-resolution approaches achieve impressive results in terms of visual quality, enabling real-time DL-based super-resolution on mobile devices with compute, thermal, and power constraints is challenging. To address these challenges, we propose QuickSRNet, a simple yet effective architecture that provides better accuracy-to-latency trade-offs than existing neural architectures for single-image super resolution. We present training tricks to speed up existing residual-based super-resolution architectures while maintaining robustness to quantization. Our proposed architecture produces 1080p outputs via 2x upscaling in 2.2 ms on a modern smartphone, making it ideal for high-fps real-time applications.
翻訳日:2023-03-09 15:16:51 公開日:2023-03-08
# バイアスのない継続的フィードバックによるランク付け学習

Unbiased Learning to Rank with Biased Continuous Feedback ( http://arxiv.org/abs/2303.04335v1 )

ライセンス: Link先を確認
Yi Ren, Hongyan Tang, Siwen Zhu(参考訳) バイアスのあるフィードバックでバイアスのないランク付けを学ぶことは、よく知られた挑戦である。 雑音フィードバックに基づいて相対関係を正確にモデル化するアンバイアスド・ラーニング・トゥ・ランク(LTR)アルゴリズムは,ユーザのクリック信号などの単一カテゴリラベルを持つ多くのアプリケーションに適用されている。 それでも、既存の非バイアスのLTR法は、コンテンツレコメンデータシステムのような多くの産業アプリケーションに不可欠な継続的フィードバックを適切に扱えない。 パーソナライズされた高品質なレコメンデーション結果を得るためには、レコメンデーションシステムは、クリックやダウェルタイムのようなカテゴリと継続的なバイアス付きフィードバックの両方をモデル化する必要がある。 そこで我々は,ペアワイズ方式で位置バイアスを革新的にモデル化し,ペアワイズ信頼バイアスを導入し,位置バイアス,信頼バイアス,ユーザの妥当性を明示的に分離し,連続フィードバックとカテゴリフィードバックの両方に対応可能な,新たな非バイアスltrアルゴリズムを設計した。 Tencent Newsの公開ベンチマークデータセットと大規模リコメンデータシステムの内部ライブトラフィックの実験結果から,連続ラベルでは優れた結果が得られ,提案手法のカテゴリラベルでは競争性能が向上した。

It is a well-known challenge to learn an unbiased ranker with biased feedback. Unbiased learning-to-rank(LTR) algorithms, which are verified to model the relative relevance accurately based on noisy feedback, are appealing candidates and have already been applied in many applications with single categorical labels, such as user click signals. Nevertheless, the existing unbiased LTR methods cannot properly handle continuous feedback, which are essential for many industrial applications, such as content recommender systems. To provide personalized high-quality recommendation results, recommender systems need model both categorical and continuous biased feedback, such as click and dwell time. Accordingly, we design a novel unbiased LTR algorithm to tackle the challenges, which innovatively models position bias in the pairwise fashion and introduces the pairwise trust bias to separate the position bias, trust bias, and user relevance explicitly and can work for both continuous and categorical feedback. Experiment results on public benchmark datasets and internal live traffic of a large-scale recommender system at Tencent News show superior results for continuous labels and also competitive performance for categorical labels of the proposed method.
翻訳日:2023-03-09 15:16:32 公開日:2023-03-08
# 意味的に一貫性のある多視点表現学習

Semantically Consistent Multi-view Representation Learning ( http://arxiv.org/abs/2303.04366v1 )

ライセンス: Link先を確認
Yiyang Zhou, Qinghai Zheng, Shunshun Bai, Jihua Zhu(参考訳) 本研究では,Unsupervised Multi-view Representation Learning (UMRL) の課題に取り組み,教師なしの方法で複数のビューから統一された特徴表現を学習する必要がある。 既存のUMRL法は主に特徴空間における学習プロセスに集中し、異なる視点に隠された貴重な意味情報を無視する。 この問題に対処するために,多視点意味的コンセンサス情報を探索し,その情報を利用して特徴表現学習の統一を導出するセマンティック・コンスタンス・マルチビュー表現学習(SCMRL)を提案する。 具体的には、SCMRLは、ビュー内再構成モジュールと、コントラスト学習戦略によってエレガントに統合され、ビュー固有の特徴表現と学習された統一特徴表現のセマンティックラベルを同時に調整する統合特徴表現学習モジュールから構成される。 このように、意味空間におけるコンセンサス情報を効果的に利用して、統合された特徴表現の学習過程を制約することができる。 いくつかの最先端のアルゴリズムと比較して、広範な実験はその優位性を示している。

In this work, we devote ourselves to the challenging task of Unsupervised Multi-view Representation Learning (UMRL), which requires learning a unified feature representation from multiple views in an unsupervised manner. Existing UMRL methods mainly concentrate on the learning process in the feature space while ignoring the valuable semantic information hidden in different views. To address this issue, we propose a novel Semantically Consistent Multi-view Representation Learning (SCMRL), which makes efforts to excavate underlying multi-view semantic consensus information and utilize the information to guide the unified feature representation learning. Specifically, SCMRL consists of a within-view reconstruction module and a unified feature representation learning module, which are elegantly integrated by the contrastive learning strategy to simultaneously align semantic labels of both view-specific feature representations and the learned unified feature representation. In this way, the consensus information in the semantic space can be effectively exploited to constrain the learning process of unified feature representation. Compared with several state-of-the-art algorithms, extensive experiments demonstrate its superiority.
翻訳日:2023-03-09 15:10:24 公開日:2023-03-08
# sandformer:cnnとtransformerのゲート融合による砂塵画像復元

SANDFORMER: CNN and Transformer under Gated Fusion for Sand Dust Image Restoration ( http://arxiv.org/abs/2303.04365v1 )

ライセンス: Link先を確認
Jun Shi, Bingcai Wei, Gang Zhou, Liye Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)は画像復元において大きな進歩を遂げているが、畳み込みの本質的等価性と局所性は依然として画像品質のさらなる改善を妨げている。 近年のビジョントランスと自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。 しかし,画像復元にTransformerを直接活用することは難しい課題である。 本稿では,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を利用して,砂画像復元作業に有効なハイブリッドアーキテクチャを提案する。 トランスフォーマーとcnnの特徴的不整合問題を解決するため,砂塵画像復元のための効率的なハイブリッド構造を提案する。 このフレームワークは、単に機能を追加したり結合したりするのではなく、cnnベースのブランチやtransformerベースのブランチの機能を調整することで、各表現を補完する。 実験により,SandFormerは従来の砂画像復元法と比較して,合成および実塵のシーンにおいて顕著な性能向上を実現していることが示された。

Although Convolutional Neural Networks (CNN) have made good progress in image restoration, the intrinsic equivalence and locality of convolutions still constrain further improvements in image quality. Recent vision transformer and self-attention have achieved promising results on various computer vision tasks. However, directly utilizing Transformer for image restoration is a challenging task. In this paper, we introduce an effective hybrid architecture for sand image restoration tasks, which leverages local features from CNN and long-range dependencies captured by transformer to improve the results further. We propose an efficient hybrid structure for sand dust image restoration to solve the feature inconsistency issue between Transformer and CNN. The framework complements each representation by modulating features from the CNN-based and Transformer-based branches rather than simply adding or concatenating features. Experiments demonstrate that SandFormer achieves significant performance improvements in synthetic and real dust scenes compared to previous sand image restoration methods.
翻訳日:2023-03-09 15:10:04 公開日:2023-03-08
# 不均一グラフ畳み込みリカレントネットワークを用いた動き予測のための動的シナリオ表現学習

Dynamic Scenario Representation Learning for Motion Forecasting with Heterogeneous Graph Convolutional Recurrent Networks ( http://arxiv.org/abs/2303.04364v1 )

ライセンス: Link先を確認
Xing Gao, Xiaogang Jia, Yikang Li, and Hongkai Xiong(参考訳) 動的シナリオにおける複雑な相互作用と変化のため、動き予測は自律運転において難しい問題である。 既存の作品の多くは静的な道路グラフを利用してシナリオを特徴付けており、動的シナリオにおける時空間依存の進化のモデリングに制限がある。 本稿では,シナリオをモデル化するために動的不均一グラフを用いる。 車両(エージェント)や車線を含む様々なシナリオコンポーネント、多種間相互作用、およびそれらの経時変化を共同符号化する。 さらに,多様な相互作用情報を集約し,その進化を捉えた新しい異種グラフ畳み込みリカレントネットワークを設計し,動的グラフの時空間依存性を生かし,動的シナリオの効率的な表現を得る。 最後に,動き予測デコーダを用いて,エージェントの現実的および多変量的未来的軌跡を予測し,いくつかの動き予測ベンチマークで公表された最新成果を上回っている。

Due to the complex and changing interactions in dynamic scenarios, motion forecasting is a challenging problem in autonomous driving. Most existing works exploit static road graphs to characterize scenarios and are limited in modeling evolving spatio-temporal dependencies in dynamic scenarios. In this paper, we resort to dynamic heterogeneous graphs to model the scenario. Various scenario components including vehicles (agents) and lanes, multi-type interactions, and their changes over time are jointly encoded. Furthermore, we design a novel heterogeneous graph convolutional recurrent network, aggregating diverse interaction information and capturing their evolution, to learn to exploit intrinsic spatio-temporal dependencies in dynamic graphs and obtain effective representations of dynamic scenarios. Finally, with a motion forecasting decoder, our model predicts realistic and multi-modal future trajectories of agents and outperforms state-of-the-art published works on several motion forecasting benchmarks.
翻訳日:2023-03-09 15:09:48 公開日:2023-03-08
# インクリメンタル要約のためのサンプル効率の多モードセマンティック拡張

Sample Efficient Multimodal Semantic Augmentation for Incremental Summarization ( http://arxiv.org/abs/2303.04361v1 )

ライセンス: Link先を確認
Sumanta Bhattacharyya, Ramesh Manuvinakurike, Sahisnu Mazumder, Saurav Sahay(参考訳) 本研究では,タスクビデオの漸進的な要約のためのプロンプト手法を開発する。 中間ステップとして意味概念を抽出するためのサンプル効率のよい少数ショットアプローチを開発した。 画像から概念を抽出し,それをビデオに拡張する既存のモデルを活用し,近年の知覚アーキテクチャの進歩に動機づけられた,サンプル効率のためのクラスタリングとクエリ手法を導入する。 我々の研究は、より豊かな入力コンテキストを持つアプローチが、関連エンティティやアクションをビデオから提供し、それらをプロンプトとして使用することで、モデルが生成した要約を向上できるというさらなる証拠を提供する。 関連するデータセットに結果を示し,作業の方向性について検討する。

In this work, we develop a prompting approach for incremental summarization of task videos. We develop a sample-efficient few-shot approach for extracting semantic concepts as an intermediate step. We leverage an existing model for extracting the concepts from the images and extend it to videos and introduce a clustering and querying approach for sample efficiency, motivated by the recent advances in perceiver-based architectures. Our work provides further evidence that an approach with richer input context with relevant entities and actions from the videos and using these as prompts could enhance the summaries generated by the model. We show the results on a relevant dataset and discuss possible directions for the work.
翻訳日:2023-03-09 15:09:32 公開日:2023-03-08
# LLMの合成データ生成は臨床テキストマイニングに役立つか?

Does Synthetic Data Generation of LLMs Help Clinical Text Mining? ( http://arxiv.org/abs/2303.04360v1 )

ライセンス: Link先を確認
Ruixiang Tang, Xiaotian Han, Xiaoqian Jiang, Xia Hu(参考訳) 近年の大規模言語モデル(llm)の発展は、openaiのchatgptのような強力なモデルの開発につながった。 これらのモデルは、質問応答、エッセイ構成、コード生成など、さまざまなタスクで例外的なパフォーマンスを示している。 しかし、医療分野での効果はいまだに不明である。 本研究では,ChatGPTが臨床テキストマイニングに有効である可能性を検討するために,非構造化医療用テキストから構造化情報を抽出する能力について検討し,生物名の実体認識と関係抽出に焦点をあてる。 しかし,これらのタスクにChatGPTを直接利用するとパフォーマンスが低下し,ChatGPT APIに患者の情報をアップロードする際のプライバシー上の懸念が高まった。 これらの制約を克服するために,chatgptを利用したラベル付き高品質合成データ生成と,下流タスクの局所モデルを微調整する新たなトレーニングパラダイムを提案する。 提案手法は,f1-scoreの性能を23.37%から63.99%に改善し,75.86%から83.59%に改善した。 さらに、ChatGPTを使用したデータ生成は、データ収集とラベル付けに必要な時間と労力を大幅に削減し、データのプライバシの懸念を軽減する。 要約して,本フレームワークは臨床用テキストマイニングへのLLMモデルの適用性を高めるための有望なソリューションを提供する。

Recent advancements in large language models (LLMs) have led to the development of highly potent models like OpenAI's ChatGPT. These models have exhibited exceptional performance in a variety of tasks, such as question answering, essay composition, and code generation. However, their effectiveness in the healthcare sector remains uncertain. In this study, we seek to investigate the potential of ChatGPT to aid in clinical text mining by examining its ability to extract structured information from unstructured healthcare texts, with a focus on biological named entity recognition and relation extraction. However, our preliminary results indicate that employing ChatGPT directly for these tasks resulted in poor performance and raised privacy concerns associated with uploading patients' information to the ChatGPT API. To overcome these limitations, we propose a new training paradigm that involves generating a vast quantity of high-quality synthetic data with labels utilizing ChatGPT and fine-tuning a local model for the downstream task. Our method has resulted in significant improvements in the performance of downstream tasks, improving the F1-score from 23.37% to 63.99% for the named entity recognition task and from 75.86% to 83.59% for the relation extraction task. Furthermore, generating data using ChatGPT can significantly reduce the time and effort required for data collection and labeling, as well as mitigate data privacy concerns. In summary, the proposed framework presents a promising solution to enhance the applicability of LLM models to clinical text mining.
翻訳日:2023-03-09 15:09:20 公開日:2023-03-08
# 完全不等式制約付きソフトアクタ臨界アルゴリズム

Soft Actor-Critic Algorithm with Truly Inequality Constraint ( http://arxiv.org/abs/2303.04356v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。 ポリシーエントロピーを最大化することで、ノイズや摂動に頑健なロボットコントローラーが実現する。 しかし、ポリシーエントロピーを最大化する優先事項は、現在の実施において自動的に調整され、その規則は平等制約の1つとして解釈され、ポリシーエントロピーを指定された目標値に拘束する。 したがって現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。 SACにおけるこの問題を解決するため、政策エントロピーを最大化するために不等式制約を適切に扱うスラック変数による実装を改善する。 Mujoco と Pybullet のシミュレータでは、修正された SAC は動作規範を正規化しながら、より堅牢で安定した学習を実現した。 また,実世界のロボット制御に対する修正sacの適用性を示すために,実ロボット可変インピーダンスタスクが実証された。

Soft actor-critic (SAC) in reinforcement learning is expected to be one of the next-generation robot control schemes. Its ability to maximize policy entropy would make a robotic controller robust to noise and perturbation, which is useful for real-world robot applications. However, the priority of maximizing the policy entropy is automatically tuned in the current implementation, the rule of which can be interpreted as one for equality constraint, binding the policy entropy into its specified target value. The current SAC is therefore no longer maximize the policy entropy, contrary to our expectation. To resolve this issue in SAC, this paper improves its implementation with a slack variable for appropriately handling the inequality constraint to maximize the policy entropy. In Mujoco and Pybullet simulators, the modified SAC achieved the higher robustness and the more stable learning than before while regularizing the norm of action. In addition, a real-robot variable impedance task was demonstrated for showing the applicability of the modified SAC to real-world robot control.
翻訳日:2023-03-09 15:08:55 公開日:2023-03-08
# 一般知性に対する制約コンプライアンスの計算レベル解析

Computational-level Analysis of Constraint Compliance for General Intelligence ( http://arxiv.org/abs/2303.04352v1 )

ライセンス: Link先を確認
Robert E. Wray Steven J. Jones John E. Laird(参考訳) 人間の行動は行動を制限する規範と規範によって規定される。 規則(rules, `manners,' law, and moral imperatives)は、人間の行動を支配する制約のクラスの一例である。 これらの制約のシステムは、しばしば 'messy:'' の個々の制約は定義が不十分で、特定の状況において関連する制約は未知あるいは曖昧であり、制約は互いに相互作用し、対立し、関連する制約のバウンダリ内でどのように振る舞うかを決定することは、特に迅速な決定が必要な場合において重要な課題である。 このような混乱にもかかわらず、人間は決定に制約をしっかりと迅速に組み込む。 一般に、人工知的なエージェントは、予測可能性と確実に振る舞うために、現実世界の制約のシステムの混乱をナビゲートできる必要がある。 本稿では、一般エージェントの制約処理における複雑さの源泉を特徴付け、そのような \textit{constraint compliance} に対する計算レベル解析を記述する。 計算レベル解析に基づいて重要なアルゴリズム要件を特定し、制約コンプライアンスに対する一般的なアプローチの初期的探索的実装の概要を示す。

Human behavior is conditioned by codes and norms that constrain action. Rules, ``manners,'' laws, and moral imperatives are examples of classes of constraints that govern human behavior. These systems of constraints are ``messy:'' individual constraints are often poorly defined, what constraints are relevant in a particular situation may be unknown or ambiguous, constraints interact and conflict with one another, and determining how to act within the bounds of the relevant constraints may be a significant challenge, especially when rapid decisions are needed. Despite such messiness, humans incorporate constraints in their decisions robustly and rapidly. General, artificially-intelligent agents must also be able to navigate the messiness of systems of real-world constraints in order to behave predictability and reliably. In this paper, we characterize sources of complexity in constraint processing for general agents and describe a computational-level analysis for such \textit{constraint compliance}. We identify key algorithmic requirements based on the computational-level analysis and outline an initial, exploratory implementation of a general approach to constraint compliance.
翻訳日:2023-03-09 15:08:36 公開日:2023-03-08
# ElC-OIS:LiDARデータを用いたオープンワールドインスタンスセグメンテーションのための楕円クラスタリング

ElC-OIS: Ellipsoidal Clustering for Open-World Instance Segmentation on LiDAR Data ( http://arxiv.org/abs/2303.04351v1 )

ライセンス: Link先を確認
Wenbang Deng, Kaihong Huang, Qinghua Yu, Huimin Lu, Zhiqiang Zheng, Xieyuanli Chen(参考訳) オープンワールドインスタンスセグメンテーション(OIS)は、これらのインスタンスがトレーニングセットにラベル付けされているかどうかに関わらず、現在の観察に現れるすべてのオブジェクトインスタンスを正確にセグメンテーションすることを目的としている。 これはロバストな自律ナビゲーションのような安全クリティカルなアプリケーションにとって重要である。 本稿では,既知のインスタンスと未知インスタンスの両方を正確に分割できる,lidar point cloudのためのフレキシブルで効果的なoisフレームワークを提案する。 まず、既知のクラスに属するポイントを識別し、クローズセット・パノプティクス・セグメンテーション・ネットワークを利用して背景を除去する。 そこで我々は,LiDARスキャンの特性に適応し,未知のインスタンスを正確に分割できる新しい楕円体クラスタリング法を提案する。 さらに、既知のインスタンスに現れる一般的なオーバーセグメンテーション問題に対処するために、拡散探索法を提案する。 これらの手法を組み合わせることで、既知のインスタンスと未知のインスタンスの両方の正確なセグメンテーションを実現できる。 我々はSemanticKITTIのオープンワールドLiDARインスタンスセグメンテーションデータセットについて評価を行った。 実験結果から,現在の最先端手法,特に関連品質が10.0%向上していることが示唆された。 私たちのメソッドのソースコードはhttps://github.com/nubot-nudt/ElC-OISで公開されます。

Open-world Instance Segmentation (OIS) is a challenging task that aims to accurately segment every object instance appearing in the current observation, regardless of whether these instances have been labeled in the training set. This is important for safety-critical applications such as robust autonomous navigation. In this paper, we present a flexible and effective OIS framework for LiDAR point cloud that can accurately segment both known and unknown instances (i.e., seen and unseen instance categories during training). It first identifies points belonging to known classes and removes the background by leveraging close-set panoptic segmentation networks. Then, we propose a novel ellipsoidal clustering method that is more adapted to the characteristic of LiDAR scans and allows precise segmentation of unknown instances. Furthermore, a diffuse searching method is proposed to handle the common over-segmentation problem presented in the known instances. With the combination of these techniques, we are able to achieve accurate segmentation for both known and unknown instances. We evaluated our method on the SemanticKITTI open-world LiDAR instance segmentation dataset. The experimental results suggest that it outperforms current state-of-the-art methods, especially with a 10.0% improvement in association quality. The source code of our method will be publicly available at https://github.com/nubot-nudt/ElC-OIS.
翻訳日:2023-03-09 15:08:16 公開日:2023-03-08
# ユーザ中心の深層強化学習による無線ネットワーク上のメタバースの仮想現実

Virtual Reality in Metaverse over Wireless Networks with User-centered Deep Reinforcement Learning ( http://arxiv.org/abs/2303.04349v1 )

ライセンス: Link先を確認
Wenhan Yu, Terence Jie Chua, Jun Zhao(参考訳) metaverseとその約束は、成熟したテクノロジーがさまざまな面を力づけるにつれ、急速に現実化しつつある。 Metaverseのハイライトの一つは、高度に没入的でインタラクティブなソーシャル化を可能にすることだ。 仮想現実(VR)技術は、超現実的で没入的な体験を可能にするメタバース内の仮想宇宙のバックボーンであり、特に社会化の文脈ではそうである。 レンダリングされる仮想世界3dシーンは高解像度でフレームレートが高いため、これらのシーンは計算のためにエッジサーバにオフロードされる。 さらに、metaverseはユーザー中心のデザインであり、人間ユーザーは常にコアである。 本稿では,無線通信シナリオ上でのマルチユーザVR計算のオフロードについて紹介する。 さらに, ユーザ中心の深層強化学習手法を考案し, 最適に近い解を求める。 大規模な実験により、我々のアプローチは様々な要件と制約の下で顕著な結果をもたらすことを示した。

The Metaverse and its promises are fast becoming reality as maturing technologies are empowering the different facets. One of the highlights of the Metaverse is that it offers the possibility for highly immersive and interactive socialization. Virtual reality (VR) technologies are the backbone for the virtual universe within the Metaverse as they enable a hyper-realistic and immersive experience, and especially so in the context of socialization. As the virtual world 3D scenes to be rendered are of high resolution and frame rate, these scenes will be offloaded to an edge server for computation. Besides, the metaverse is user-center by design, and human users are always the core. In this work, we introduce a multi-user VR computation offloading over wireless communication scenario. In addition, we devised a novel user-centered deep reinforcement learning approach to find a near-optimal solution. Extensive experiments demonstrate that our approach can lead to remarkable results under various requirements and constraints.
翻訳日:2023-03-09 15:07:54 公開日:2023-03-08
# 高精度・低遅延スパイクニューラルネットワークのための最適ANN-SNN変換

Optimal ANN-SNN Conversion for High-accuracy and Ultra-low-latency Spiking Neural Networks ( http://arxiv.org/abs/2303.04347v1 )

ライセンス: Link先を確認
Tong Bu, Wei Fang, Jianhao Ding, PengLin Dai, Zhaofei Yu, Tiejun Huang(参考訳) スパイキングニューラルネットワーク(SNN)は、低消費電力とニューロモルフィックハードウェアにおける高速推論の特徴的な特性により、大きな注目を集めている。 ディープSNNを得る最も効果的な方法として、ANN-SNN変換は大規模データセット上でのANNと同等のパフォーマンスを達成した。 それにもかかわらず、SNNの発射速度とANNの活性化に合わせた長い時間を要する。 その結果、変換されたSNNは短時間で深刻な性能劣化に悩まされ、SNNの実用化を妨げている。 本稿では,ANN-SNN変換誤差を理論的に解析し,SNNの活性化関数を推定する。 次に、SNNのアクティベーション関数をよりよく近似できる、ソースANNにおけるReLUアクティベーション関数を置き換えるための量子化クリップフロアシフトアクティベーション関数を提案する。 SNNとANNの変換誤差はゼロであり,高精度かつ超低レイテンシのSNNを実現することができる。 CIFAR-10/100 と ImageNet のデータセット上で評価を行い、最先端の ANN-SNN と直接訓練された SNN を精度と時間の両方で上回っていることを示す。 我々の知る限りでは、超低レイテンシ(4段階)で高性能なANN-SNN変換を探索するのはこれが初めてである。 コードはhttps://github.com/putshua/snn\_conversion\_qcfsで入手できる。

Spiking Neural Networks (SNNs) have gained great attraction due to their distinctive properties of low power consumption and fast inference on neuromorphic hardware. As the most effective method to get deep SNNs, ANN-SNN conversion has achieved comparable performance as ANNs on large-scale datasets. Despite this, it requires long time-steps to match the firing rates of SNNs to the activation of ANNs. As a result, the converted SNN suffers severe performance degradation problems with short time-steps, which hamper the practical application of SNNs. In this paper, we theoretically analyze ANN-SNN conversion error and derive the estimated activation function of SNNs. Then we propose the quantization clip-floor-shift activation function to replace the ReLU activation function in source ANNs, which can better approximate the activation function of SNNs. We prove that the expected conversion error between SNNs and ANNs is zero, enabling us to achieve high-accuracy and ultra-low-latency SNNs. We evaluate our method on CIFAR-10/100 and ImageNet datasets, and show that it outperforms the state-of-the-art ANN-SNN and directly trained SNNs in both accuracy and time-steps. To the best of our knowledge, this is the first time to explore high-performance ANN-SNN conversion with ultra-low latency (4 time-steps). Code is available at https://github.com/putshua/SNN\_conversion\_QCFS
翻訳日:2023-03-09 15:07:39 公開日:2023-03-08
# リー群ベイズ学習規則

The Lie-Group Bayesian Learning Rule ( http://arxiv.org/abs/2303.04397v1 )

ライセンス: Link先を確認
Eren Mehmet K{\i}ral, Thomas M\"ollenhoff, Mohammad Emtiyaz Khan(参考訳) ベイズ学習規則は汎用アルゴリズム設計のフレームワークを提供するが、3つの理由により使用が困難である。 まず、指数関数ファミリーの特定のパラメータ化が必要である。 第二に、計算が難しい勾配を用いる。 第三に、更新は常に多様体上にとどまるとは限らない。 我々は、任意の基底分布の変換を通して後続がパラメータ化され、群の指数写像を介して更新されるリー群に基づく拡張を提案することで、これらの困難に対処する。 これは多くの場合の3つの困難を単純化し、群の作用による柔軟なパラメトリゼーション、再パラメータ化による単純な勾配計算、および常に多様体上に存在する更新を提供する。 我々は,この新たな学習規則を用いて,生物学的に有望な属性を持つ深層学習のアルゴリズムを導き,スパースの特徴を学習する。 我々の研究は、リー群構造を利用した新しいアルゴリズムの設計の新たなフロンティアを開く。

The Bayesian Learning Rule provides a framework for generic algorithm design but can be difficult to use for three reasons. First, it requires a specific parameterization of exponential family. Second, it uses gradients which can be difficult to compute. Third, its update may not always stay on the manifold. We address these difficulties by proposing an extension based on Lie-groups where posteriors are parametrized through transformations of an arbitrary base distribution and updated via the group's exponential map. This simplifies all three difficulties for many cases, providing flexible parametrizations through group's action, simple gradient computation through reparameterization, and updates that always stay on the manifold. We use the new learning rule to derive a new algorithm for deep learning with desirable biologically-plausible attributes to learn sparse features. Our work opens a new frontier for the design of new algorithms by exploiting Lie-group structures.
翻訳日:2023-03-09 15:02:19 公開日:2023-03-08
# 移動スレッショルド推定と漸進アライメントによる不均衡開集合領域適応

Imbalanced Open Set Domain Adaptation via Moving-threshold Estimation and Gradual Alignment ( http://arxiv.org/abs/2303.04393v1 )

ライセンス: Link先を確認
Ru, Jinghan and Tian, Jun and Du, Zhekai and Xiao, Chengwei and Li, Jingjing and Shen, Heng Tao(参考訳) マルチメディアアプリケーションはドメイン間の知識伝達と関連付けられ、Unsupervised Domain Adaptation (UDA) はドメインシフトを減らすために使用できる。 Open Set Domain Adaptation (OSDA) は、対象ドメインが未知のクラスを含むという仮定のもと、よくラベル付けされたソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。 既存のosda法は共変量シフトに一貫してストレスを与え、潜在的なラベルシフト問題を無視している。 OSDA法の性能はドメイン内クラス不均衡とドメイン間ラベルシフトで大幅に低下する。 しかし、コミュニティではこの問題にはほとんど注意が払われていない。 本稿では,共変量シフト,ラベルシフト,カテゴリミスマッチを同時に有する不均衡開集合領域適応(iosda)について検討する。 OSDAにおけるラベルシフトによる負の効果を軽減するため、クラス不均衡データに対する既存のOSDAメソッドを改善する新しいアーキテクチャである、オープンセット移動閾値推定とグラデーショナルアライメント(OMEGA)を提案する。 具体的には、ラベルシフトとドメイン内クラス不均衡の負の効果を低減するために、ターゲットドメインに厳密なクラスタを形成する新しい未知のターゲットクラスタリング手法を提案する。 さらに、移動スレッショルド推定は、すべてのサンプルに使用するのではなく、対象サンプルごとに特定のしきい値を生成するように設計されている。 IOSDA, OSDA および OPDA ベンチマークの大規模な実験により,本手法が既存の最先端技術を大きく上回ることを示した。 コードとデータはhttps://github.com/mendicant04/OMEGAで公開されている。

Multimedia applications are often associated with cross-domain knowledge transfer, where Unsupervised Domain Adaptation (UDA) can be used to reduce the domain shifts. Open Set Domain Adaptation (OSDA) aims to transfer knowledge from a well-labeled source domain to an unlabeled target domain under the assumption that the target domain contains unknown classes. Existing OSDA methods consistently lay stress on the covariate shift, ignoring the potential label shift problem. The performance of OSDA methods degrades drastically under intra-domain class imbalance and inter-domain label shift. However, little attention has been paid to this issue in the community. In this paper, the Imbalanced Open Set Domain Adaptation (IOSDA) is explored where the covariate shift, label shift and category mismatch exist simultaneously. To alleviate the negative effects raised by label shift in OSDA, we propose Open-set Moving-threshold Estimation and Gradual Alignment (OMEGA) - a novel architecture that improves existing OSDA methods on class-imbalanced data. Specifically, a novel unknown-aware target clustering scheme is proposed to form tight clusters in the target domain to reduce the negative effects of label shift and intra-domain class imbalance. Furthermore, moving-threshold estimation is designed to generate specific thresholds for each target sample rather than using one for all. Extensive experiments on IOSDA, OSDA and OPDA benchmarks demonstrate that our method could significantly outperform existing state-of-the-arts. Code and data are available at https://github.com/mendicant04/OMEGA.
翻訳日:2023-03-09 15:02:05 公開日:2023-03-08
# 深層学習に基づく感情脳-コンピュータインタフェースのためのニューラルデコーディングフレームワーク

A Deep-Learning-Based Neural Decoding Framework for Emotional Brain-Computer Interfaces ( http://arxiv.org/abs/2303.04391v1 )

ライセンス: Link先を確認
Xinming Wu, Ji Dai(参考訳) 神経活動のセグメントから感情を正確に読み取ることは、感情脳-コンピュータインターフェースの開発に不可欠である。 すべてのニューラルデコーディングアルゴリズムの中で、ディープラーニング(DL)が最も有望になる可能性を持っているが、近年は進歩が限られている。 DLの有効性はトレーニングサンプルに強く依存しているが、トレーニングに使用される神経データは非ヒト霊長類からのものであり、多くのノイズが混ざり合っており、DLモデルのトレーニングを誤解させる可能性がある。 動物の感情を人間の視点から正確に決定することは困難であり、異なる感情を表す神経データにおける支配的なノイズはラベルエラーであると仮定する。 本稿では、信頼学習(CL)コンポーネントとDLコンポーネントからなるEmo-Netと呼ばれるニューラルネットワークデコーディングフレームワークの開発と応用について報告する。 このフレームワークは完全にデータ駆動であり、猿から得られた複数のデータセットから感情をデコードすることができる。 復号能力の向上に加えて、Emo-Netは基礎となるDLモデルの性能を大幅に改善し、動物モデルにおける感情認識を可能にする。 要約すると、このフレームワークは感情の神経基盤に対する新しい理解を刺激し、近ループの感情脳-コンピュータインターフェースの実現を促進するかもしれない。

Reading emotions precisely from segments of neural activity is crucial for the development of emotional brain-computer interfaces. Among all neural decoding algorithms, deep learning (DL) holds the potential to become the most promising one, yet progress has been limited in recent years. One possible reason is that the efficacy of DL strongly relies on training samples, yet the neural data used for training are often from non-human primates and mixed with plenty of noise, which in turn mislead the training of DL models. Given it is difficult to accurately determine animals' emotions from humans' perspective, we assume the dominant noise in neural data representing different emotions is the labeling error. Here, we report the development and application of a neural decoding framework called Emo-Net that consists of a confidence learning (CL) component and a DL component. The framework is fully data-driven and is capable of decoding emotions from multiple datasets obtained from behaving monkeys. In addition to improving the decoding ability, Emo-Net significantly improves the performance of the base DL models, making emotion recognition in animal models possible. In summary, this framework may inspire novel understandings of the neural basis of emotion and drive the realization of close-loop emotional brain-computer interfaces.
翻訳日:2023-03-09 15:01:39 公開日:2023-03-08
# 外部知識を参照する解釈可能な視覚的質問応答

Interpretable Visual Question Answering Referring to Outside Knowledge ( http://arxiv.org/abs/2303.04388v1 )

ライセンス: Link先を確認
He Zhu, Ren Togo, Takahiro Ogawa and Miki Haseyama(参考訳) 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。 研究者は、モデルの決定を説明するために、可読性がありきめ細かい自然言語文を生成する方法をいくつか提案しているが、これらの方法は画像内の情報のみに焦点を当てている。 理想的には、背景知識を毎日使用するように、モデルが画像内外の様々な情報を参照して説明を正しく生成する必要がある。 提案手法では,外部知識情報と複数のキャプション情報を組み合わせて,モデルに利用可能な情報の多様性を高める。 本稿では,多モード入力を用いた解釈可能な視覚質問応答モデルを構築し,結果の合理性を向上させる。 実験結果から,本モデルは解答精度と説明合理性に関する最先端手法よりも優れていることがわかった。

We present a novel multimodal interpretable VQA model that can answer the question more accurately and generate diverse explanations. Although researchers have proposed several methods that can generate human-readable and fine-grained natural language sentences to explain a model's decision, these methods have focused solely on the information in the image. Ideally, the model should refer to various information inside and outside the image to correctly generate explanations, just as we use background knowledge daily. The proposed method incorporates information from outside knowledge and multiple image captions to increase the diversity of information available to the model. The contribution of this paper is to construct an interpretable visual question answering model using multimodal inputs to improve the rationality of generated results. Experimental results show that our model can outperform state-of-the-art methods regarding answer accuracy and explanation rationality.
翻訳日:2023-03-09 15:01:19 公開日:2023-03-08
# 政策鏡「Descent」がアクションスペースを探索

Policy Mirror Descent Inherently Explores Action Space ( http://arxiv.org/abs/2303.04386v1 )

ライセンス: Link先を確認
Yan Li, Guanghui Lan(参考訳) 最適$\mathcal{O}(1/\epsilon^2)$サンプルの複雑さはマルコフ決定過程(MDP)の解法として未解決のままである。 本書は, 国家空間の探査がMDP構造によって示唆される場合, 高度な探査戦略の必要性はほとんどないことを示すことによって, 単純性の観点から, この疑問に対する回答を提供するものである。 本研究では,有限状態と作用空間を有するMDPを割引した確率的ポリシー勾配法である確率的ポリシーミラー降下法を再検討する。 SPMDを伴って2つのオン・ポリティクス評価演算子を提示する。どちらも、明示的な探索のない軌跡収集の方針に従うか、いかなる形での介入を行うかのどちらかである。 SPMDは、値ベース推定と呼ばれる最初の評価演算子で、KL(Kulback-Leibler)の発散を補う。 生成したポリシの状態空間上のマルコフ連鎖が非最小訪問測度と均一に混合されている場合、$\tilde{\mathcal{O}}(1 / \epsilon^2)$サンプル複雑性は、アクション空間のサイズに線形に依存する。 2番目の評価演算子である truncated on-policy monte carlo で spmd は、生成したポリシーの状態連鎖と同じ仮定で、$\tilde{\mathcal{o}}(\mathcal{h}_{\mathcal{d}} / \epsilon^2)$ のサンプル複雑性を達成する。 我々は$\mathcal{H}_{\mathcal{D}}$を、有効地平線と作用空間の大きさの発散依存性関数として特徴づけ、KL の発散に対する後者の 2 量の指数関数依存と、負の Tsallis エントロピーによって引き起こされる発散に対する多項式依存を導く。 これらの試料複合体は, 明示的な探索を行わず, 政治上の確率的政策勾配法の中で新しいものと考えられる。

Designing computationally efficient exploration strategies for on-policy first-order methods that attain optimal $\mathcal{O}(1/\epsilon^2)$ sample complexity remains open for solving Markov decision processes (MDP). This manuscript provides an answer to this question from a perspective of simplicity, by showing that whenever exploration over the state space is implied by the MDP structure, there seems to be little need for sophisticated exploration strategies. We revisit a stochastic policy gradient method, named stochastic policy mirror descent, applied to the infinite horizon, discounted MDP with finite state and action spaces. Accompanying SPMD we present two on-policy evaluation operators, both simply following the policy for trajectory collection with no explicit exploration, or any form of intervention. SPMD with the first evaluation operator, named value-based estimation, tailors to the Kullback-Leibler (KL) divergence. Provided the Markov chains on the state space of generated policies are uniformly mixing with non-diminishing minimal visitation measure, an $\tilde{\mathcal{O}}( 1 / \epsilon^2)$ sample complexity is obtained with a linear dependence on the size of the action space. SPMD with the second evaluation operator, named truncated on-policy Monte Carlo, attains an $\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}} / \epsilon^2)$ sample complexity, with the same assumption on the state chains of generated policies. We characterize $\mathcal{H}_{\mathcal{D}}$ as a divergence-dependent function of the effective horizon and the size of the action space, which leads to an exponential dependence of the latter two quantities for the KL divergence, and a polynomial dependence for the divergence induced by negative Tsallis entropy. These obtained sample complexities seem to be new among on-policy stochastic policy gradient methods without explicit explorations.
翻訳日:2023-03-09 15:01:02 公開日:2023-03-08
# SEMv2:条件付き畳み込みに基づくテーブル分離線検出

SEMv2: Table Separation Line Detection Based on Conditional Convolution ( http://arxiv.org/abs/2303.04384v1 )

ライセンス: Link先を確認
Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Huihui Zhu, Baocai Yin, Bing Yin and Cong Liu(参考訳) テーブル構造認識は、機械がテーブルを理解するために欠かせない要素である。 その主な目的はテーブルの内部構造を特定することである。 それでも、その構造とスタイルの複雑さと多様性のため、表形式のデータを機械が理解できる構造化形式に解析することは極めて困難である。 本研究では,スプリット・アンド・マージ方式の原理に従い,semv2 (sem: split, embedded and merge) と呼ばれる正確な表構造認識器を提案する。 従来の「スプリット」段階とは違って、テーブル分離ラインのインスタンスレベルの識別問題に対処し、条件付き畳み込みに基づくテーブル分離ライン検出戦略を導入することを目指している。 具体的には、``split''をトップダウンで設計し、まずテーブル分離ラインインスタンスを検出し、次に各インスタンスのテーブル分離ラインマスクを動的に予測する。 テーブル分離線マスクを行方向/列方向に加工することにより、最終テーブル分離線形状を正確に得ることができる。 また,semv2を包括的に評価するために,iflytabと呼ばれるテーブル構造認識のためのより難解なデータセットを提案する。 公開データセット(SciTSR、PubTabNet、iFLYTABなど)に関する大規模な実験は、提案手法の有効性を実証している。 コードとiflytabデータセットは、この論文が受け入れられ次第、公開される予定だ。

Table structure recognition is an indispensable element for enabling machines to comprehend tables. Its primary purpose is to identify the internal structure of a table. Nevertheless, due to the complexity and diversity of their structure and style, it is highly challenging to parse the tabular data into a structured format that machines can comprehend. In this work, we adhere to the principle of the split-and-merge based methods and propose an accurate table structure recognizer, termed SEMv2 (SEM: Split, Embed and Merge). Unlike the previous works in the ``split'' stage, we aim to address the table separation line instance-level discrimination problem and introduce a table separation line detection strategy based on conditional convolution. Specifically, we design the ``split'' in a top-down manner that detects the table separation line instance first and then dynamically predicts the table separation line mask for each instance. The final table separation line shape can be accurately obtained by processing the table separation line mask in a row-wise/column-wise manner. To comprehensively evaluate the SEMv2, we also present a more challenging dataset for table structure recognition, dubbed iFLYTAB, which encompasses multiple style tables in various scenarios such as photos, scanned documents, etc. Extensive experiments on publicly available datasets (e.g. SciTSR, PubTabNet and iFLYTAB) demonstrate the efficacy of our proposed approach. The code and iFLYTAB dataset will be made publicly available upon acceptance of this paper.
翻訳日:2023-03-09 15:00:22 公開日:2023-03-08
# 離散最適化による大規模言語モデルの自動監査

Automatically Auditing Large Language Models via Discrete Optimization ( http://arxiv.org/abs/2303.04381v1 )

ライセンス: Link先を確認
Erik Jones, Anca Dragan, Aditi Raghunathan, Jacob Steinhardt(参考訳) 予期せぬ振る舞いに対する大きな言語モデル監査は、破滅的なデプロイメントを先延ばしする上で重要だが、依然として難しい。 本研究では,目標行動に適合する入出力ペアを自動検索する最適化問題として,監査手法を適用した。 例えば、モデルが有毒なアウトプットにマップする"バラック・オバマ"から始まる、非有毒なインプットを見つけることを目指しています。 この最適化問題は、実現可能な点の集合がスパースであり、空間は離散であり、監査する言語モデルは非線形かつ高次元であるため、解決が難しい。 これらの課題に対処するために、入力と出力を協調的に効率的に最適化する離散最適化アルゴリズムARCAを導入する。 我々のアプローチは、有名人に関する軽蔑的な完成(例:「バラック・オバマは合法化された未成年者」→「児童殺人者」)を自動的に発見し、英語のアウトプットに完成するフランス語のインプットを生成し、特定の名前を生成するインプットを見つける。 私たちの仕事は、デプロイ前にモデルの障害モードを明らかにするための有望な新しいツールを提供します。

Auditing large language models for unexpected behaviors is critical to preempt catastrophic deployments, yet remains challenging. In this work, we cast auditing as an optimization problem, where we automatically search for input-output pairs that match a desired target behavior. For example, we might aim to find a non-toxic input that starts with "Barack Obama" that a model maps to a toxic output. This optimization problem is difficult to solve as the set of feasible points is sparse, the space is discrete, and the language models we audit are non-linear and high-dimensional. To combat these challenges, we introduce a discrete optimization algorithm, ARCA, that jointly and efficiently optimizes over inputs and outputs. Our approach automatically uncovers derogatory completions about celebrities (e.g. "Barack Obama is a legalized unborn" -> "child murderer"), produces French inputs that complete to English outputs, and finds inputs that generate a specific name. Our work offers a promising new tool to uncover models' failure-modes before deployment.
翻訳日:2023-03-09 14:59:57 公開日:2023-03-08
# HappyMap: 一般化多重校正法

HappyMap: A Generalized Multi-calibration Method ( http://arxiv.org/abs/2303.04379v1 )

ライセンス: Link先を確認
Zhun Deng, Cynthia Dwork, Linjun Zhang(参考訳) マルチキャリブレーション(multi-calibration)は、アルゴリズムの公平性から生まれた、強力で進化した概念である。 covariates $x$ と関数クラス $\mathcal{c}$ を与えられた結果として推定する予測子 $f$ に対して、マルチキャリブレーションでは、予測子 $f(x)$ と結果 $y$ は、$\mathcal{c}$ の監査子のクラスで区別できない。 フェアネスは、階層的部分群を関数のクラス ~$\mathcal{c}$ に組み込むことで得られる。 近年の研究では、適切な確率再重み付け関数を組み込むために$\mathcal{C}$のクラスをリッチ化することにより、マルチキャリブレーションはターゲット非依存的な学習をもたらすことが示されている。 形式的には、$\mathcal{c}$バウンド$\big|\mathbb{e}_{(x,y)\sim \mathcal{d}}[c(f(x),x)\cdot(f(x)-y)]\big|$がすべての$c \in \mathcal{c}$に対して成立する。 この研究では、$(f(x)-y)$という用語をただ一つの特定のマッピングとして捉え、豊富なマッピングクラスのパワーを探求する。 本研究では,不確実性定量化のための新しいフェアネス概念(コンフォーマル予測),共変量シフト下でのコンフォメーション予測のための新しい手法,欠落データ解析のための異なるアプローチなど,幅広い新しい応用を導いてくれるマルチキャリブレーションの一般化である \textit{happymap} を提案する。 これらの結果をすべてキャプチャする単一 \textit{HappyMap} メタアルゴリズムと、その成功のための十分条件を提供します。

Multi-calibration is a powerful and evolving concept originating in the field of algorithmic fairness. For a predictor $f$ that estimates the outcome $y$ given covariates $x$, and for a function class $\mathcal{C}$, multi-calibration requires that the predictor $f(x)$ and outcome $y$ are indistinguishable under the class of auditors in $\mathcal{C}$. Fairness is captured by incorporating demographic subgroups into the class of functions~$\mathcal{C}$. Recent work has shown that, by enriching the class $\mathcal{C}$ to incorporate appropriate propensity re-weighting functions, multi-calibration also yields target-independent learning, wherein a model trained on a source domain performs well on unseen, future, target domains(approximately) captured by the re-weightings. Formally, multi-calibration with respect to $\mathcal{C}$ bounds $\big|\mathbb{E}_{(x,y)\sim \mathcal{D}}[c(f(x),x)\cdot(f(x)-y)]\big|$ for all $c \in \mathcal{C}$. In this work, we view the term $(f(x)-y)$ as just one specific mapping, and explore the power of an enriched class of mappings. We propose \textit{HappyMap}, a generalization of multi-calibration, which yields a wide range of new applications, including a new fairness notion for uncertainty quantification (conformal prediction), a novel technique for conformal prediction under covariate shift, and a different approach to analyzing missing data, while also yielding a unified understanding of several existing seemingly disparate algorithmic fairness notions and target-independent learning approaches. We give a single \textit{HappyMap} meta-algorithm that captures all these results, together with a sufficiency condition for its success.
翻訳日:2023-03-09 14:59:37 公開日:2023-03-08
# SGDViT:UAV追尾用サリエンシ誘導ダイナミックビジョントランス

SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking ( http://arxiv.org/abs/2303.04378v1 )

ライセンス: Link先を確認
Liangliang Yao, Changhong Fu, Sihang Li, Guangze Zheng, and Junjie Ye(参考訳) 視覚に基づく物体追跡は無人航空機(UAV)の広範な自律的応用を促進した。 しかし、UAV追跡における飛行操作のダイナミックな変化と視点は、例えばアスペクト比の変化、スケールの変動など、重大な困難を生じさせる。 従来の相互相関操作は一般的に使用されるが、知覚的類似性を効果的に捉え、外部の背景情報を組み込むには限界がある。 これらの制限を緩和するために、この研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提供する。 提案手法は, 相互相関操作を洗練し, フォアグラウンド情報と背景情報を効果的に判別するために, 新しいタスク特化オブジェクト塩分マイニングネットワークを設計する。 さらに、サリエンシ適応埋め込み操作は、初期サリエンシに基づいてトークンを動的に生成し、トランスフォーマーアーキテクチャの計算複雑性を低減する。 最後に、軽量なサリエンシフィルタリング変換器は、さらにサリエンシ情報を洗練し、外観情報に焦点を当てる。 提案手法の有効性とロバスト性は、広範に使用されている3つのUAV追跡ベンチマークと実世界のシナリオの実験を通じて徹底的に評価され、その結果はその優位性を示している。 ソースコードとデモビデオはhttps://github.com/vision4robotics/sgdvitで公開されている。

Vision-based object tracking has boosted extensive autonomous applications for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight maneuver and viewpoint encountered in UAV tracking pose significant difficulties, e.g. , aspect ratio change, and scale variation. The conventional cross-correlation operation, while commonly used, has limitations in effectively capturing perceptual similarity and incorporates extraneous background information. To mitigate these limitations, this work presents a novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The proposed method designs a new task-specific object saliency mining network to refine the cross-correlation operation and effectively discriminate foreground and background information. Additionally, a saliency adaptation embedding operation dynamically generates tokens based on initial saliency, thereby reducing the computational complexity of the Transformer architecture. Finally, a lightweight saliency filtering Transformer further refines saliency information and increases the focus on appearance information. The efficacy and robustness of the proposed approach have been thoroughly assessed through experiments on three widely-used UAV tracking benchmarks and real-world scenarios, with results demonstrating its superiority. The source code and demo videos are available at https://github.com/vision4robotics/SGDViT.
翻訳日:2023-03-09 14:58:58 公開日:2023-03-08
# TSANET: 教師なしビデオオブジェクトセグメンテーションのための時間とスケールアライメント

TSANET: Temporal and Scale Alignment for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2303.04376v1 )

ライセンス: Link先を確認
Seunghoon Lee, Suhwan Cho, Dogyoon Lee, Minhyeok Lee, Sangyoun Lee(参考訳) Unsupervised Video Object Segmentation (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。 言い換えれば、ネットワークは、事前知識のないRGBフレームのシーケンスにおいて、対象物の正確な領域を検出する。 最近の研究では、外見と外見に基づく方法の2つのアプローチが議論されている。 出現に基づく手法は、フレーム間の相関情報を用いて、通常シーケンスに現れるターゲットオブジェクトをキャプチャする。 しかし,これらの手法は,ランダムに組んだフレーム間の相関情報を利用するため,対象物体の動きを考慮しない。 一方、出現動作に基づく手法は、RGBフレームからの外観特徴と光学的フローからの運動特徴とを融合させる。 運動キューは、典型的にはシーケンスで特徴的な動きを示すため、有用な情報を提供する。 しかし、これらのアプローチは光の流れへの依存が支配的であるという限界がある。 本稿では,上記の2つのアプローチの制約に時間とスケールの両面から対処できるUVOSの新しいフレームワークを提案する。 時間アライメントフュージョンは、隣接するフレームのサリエンシ情報を目標フレームと整列させ、隣接するフレームの情報を活用する。 スケールアライメントデコーダは、暗黙のニューラル表現を持つ連続マッピングにより、異なるスケールのフィーチャマップを集約することにより、ターゲットオブジェクトマスクを正確に予測する。 DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。 DAVIS 2016では,最先端の手法よりも優れています。

Unsupervised Video Object Segmentation (UVOS) refers to the challenging task of segmenting the prominent object in videos without manual guidance. In other words, the network detects the accurate region of the target object in a sequence of RGB frames without prior knowledge. In recent works, two approaches for UVOS have been discussed that can be divided into: appearance and appearance-motion based methods. Appearance based methods utilize the correlation information of inter-frames to capture target object that commonly appears in a sequence. However, these methods does not consider the motion of target object due to exploit the correlation information between randomly paired frames. Appearance-motion based methods, on the other hand, fuse the appearance features from RGB frames with the motion features from optical flow. Motion cue provides useful information since salient objects typically show distinctive motion in a sequence. However, these approaches have the limitation that the dependency on optical flow is dominant. In this paper, we propose a novel framework for UVOS that can address aforementioned limitations of two approaches in terms of both time and scale. Temporal Alignment Fusion aligns the saliency information of adjacent frames with the target frame to leverage the information of adjacent frames. Scale Alignment Decoder predicts the target object mask precisely by aggregating differently scaled feature maps via continuous mapping with implicit neural representation. We present experimental results on public benchmark datasets, DAVIS 2016 and FBMS, which demonstrate the effectiveness of our method. Furthermore, we outperform the state-of-the-art methods on DAVIS 2016.
翻訳日:2023-03-09 14:58:33 公開日:2023-03-08
# 有理およびニューラルネットワークに基づく近似の比較

A comparison of rational and neural network based approximations ( http://arxiv.org/abs/2303.04436v1 )

ライセンス: Link先を確認
Vinesha Peiris, Reinier Diaz Millan, Nadezda Sukhorukova, Julien Ugon(参考訳) 合理的およびニューラルネットワークに基づく近似は、現代の近似における効率的なツールである。 これらのアプローチは、多変量領域関数を含む非スムートおよび非リプシッツ関数の正確な近似を生成することができる。 本稿では,有理近似,ニューラルネットワークおよびそれらの組み合わせを用いた関数近似の効率を比較する。 その結果、有理近似は、同じ数の決定変数を持つニューラルネットワークベースのアプローチよりも優れていることがわかった。 数値実験では, 近似パラメータの数(すなわち, 対応する最適化問題の次元)が小さい場合でも, 合理的近似の有効性を示す。 もう一つの重要な貢献は、合理的近似アルゴリズムの改善である。 すなわち、合理的近似のための最適化に基づくアルゴリズムは、制約行列の条件数を制御するように調整することができる。 この簡単な調整により、高次元最適化問題に取り組み、ニューラルネットワークの設計を改善することができる。 ニューラルネットワークの主な強みは、多数の変数を持つモデルを扱う能力である。 したがって、決定変数の多さは、ニューラルネットワークの性質にある。

Rational and neural network based approximations are efficient tools in modern approximation. These approaches are able to produce accurate approximations to nonsmooth and non-Lipschitz functions, including multivariate domain functions. In this paper we compare the efficiency of function approximation using rational approximation, neural network and their combinations. It was found that rational approximation is superior to neural network based approaches with the same number of decision variables. Our numerical experiments demonstrate the efficiency of rational approximation, even when the number of approximation parameters (that is, the dimension of the corresponding optimisation problems) is small. Another important contribution of this paper lies in the improvement of rational approximation algorithms. Namely, the optimisation based algorithms for rational approximation can be adjusted to in such a way that the conditioning number of the constraint matrices are controlled. This simple adjustment enables us to work with high dimension optimisation problems and improve the design of the neural network. The main strength of neural networks is in their ability to handle models with a large number of variables: complex models are decomposed in several simple optimisation problems. Therefore the the large number of decision variables is in the nature of neural networks.
翻訳日:2023-03-09 14:52:03 公開日:2023-03-08
# コントラスト学習の学習ダイナミクスに関するメッセージパッシングの視点から

A Message Passing Perspective on Learning Dynamics of Contrastive Learning ( http://arxiv.org/abs/2303.04435v1 )

ライセンス: Link先を確認
Yifei Wang, Qi Zhang, Tianqi Du, Jiansheng Yang, Zhouchen Lin, Yisen Wang(参考訳) 近年、コントラスト学習は自己指導型視覚表現学習において印象的な成果を上げているが、その学習力学に関する厳密な理解はいまだに欠けている。 本稿では,特徴空間に比較対象を同等に配置した場合,その学習力学は解釈可能な形式を持つことを示す。 具体的には、その勾配勾配は、対応する拡張グラフ上の特定のメッセージパッシングスキームに対応することを示す。 この観点から、コントラスト学習が、アライメント更新と均一性更新によって、差別的特徴を徐々に学習する方法を理論的に特徴づける。 一方で、この視点は、コントラスト学習とメッセージパッシンググラフニューラルネットワーク(mp-gnns)の間の興味深い関係を確立する。 このコネクションは、各コミュニティで独自に開発された多くのテクニックの統一的な理解を提供するだけでなく、MP-GNNの手法を借りて、グラフアテンション、グラフリウィリング、跳躍知識技術など、新しいコントラスト学習の亜種を設計することを可能にする。 メッセージパッシングの観点は、対照的な学習力学の新たな理論的理解を提供するだけでなく、2つの一見独立した領域を橋渡しすることで、相互に利益をもたらすことができると考えている。 コードはhttps://github.com/PKU-ML/Message-Passing-Contrastive-Learningで公開されている。

In recent years, contrastive learning achieves impressive results on self-supervised visual representation learning, but there still lacks a rigorous understanding of its learning dynamics. In this paper, we show that if we cast a contrastive objective equivalently into the feature space, then its learning dynamics admits an interpretable form. Specifically, we show that its gradient descent corresponds to a specific message passing scheme on the corresponding augmentation graph. Based on this perspective, we theoretically characterize how contrastive learning gradually learns discriminative features with the alignment update and the uniformity update. Meanwhile, this perspective also establishes an intriguing connection between contrastive learning and Message Passing Graph Neural Networks (MP-GNNs). This connection not only provides a unified understanding of many techniques independently developed in each community, but also enables us to borrow techniques from MP-GNNs to design new contrastive learning variants, such as graph attention, graph rewiring, jumpy knowledge techniques, etc. We believe that our message passing perspective not only provides a new theoretical understanding of contrastive learning dynamics, but also bridges the two seemingly independent areas together, which could inspire more interleaving studies to benefit from each other. The code is available at https://github.com/PKU-ML/Message-Passing-Contrastive-Learning.
翻訳日:2023-03-09 14:51:47 公開日:2023-03-08
# 群同変ニューラルネットワークの自己教師付き学習

Self-Supervised Learning for Group Equivariant Neural Networks ( http://arxiv.org/abs/2303.04427v1 )

ライセンス: Link先を確認
Yusuke Mukuta and Tatsuya Harada(参考訳) 本稿では,グループ同変ニューラルネットワーク上での自己教師あり学習のためのプリテキストタスクを構築する手法を提案する。 群同変ニューラルネットワークは、構造が入力の変換と可換に制限されるモデルである。 したがって、この等式に矛盾しない自己教師型学習のための前提課題を構築することが重要である。 トレーニングが同値であることを保証するため、同変プレテキストラベルと不変コントラスト損失という2つの自己教師型タスクの概念を提案する。 等変前文ラベルは、入力変化に対応する変換を定義することのできるラベルの集合を使用する。 不変コントラスト損失は、各入力に対する変換の影響を吸収する改良されたコントラスト損失を使用する。 標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された同変自己教師タスクを利用することを示した。

This paper proposes a method to construct pretext tasks for self-supervised learning on group equivariant neural networks. Group equivariant neural networks are the models whose structure is restricted to commute with the transformations on the input. Therefore, it is important to construct pretext tasks for self-supervised learning that do not contradict this equivariance. To ensure that training is consistent with the equivariance, we propose two concepts for self-supervised tasks: equivariant pretext labels and invariant contrastive loss. Equivariant pretext labels use a set of labels on which we can define the transformations that correspond to the input change. Invariant contrastive loss uses a modified contrastive loss that absorbs the effect of transformations on each input. Experiments on standard image recognition benchmarks demonstrate that the equivariant neural networks exploit the proposed equivariant self-supervised tasks.
翻訳日:2023-03-09 14:51:22 公開日:2023-03-08
# NASTyLinker: NIL対応のスケーラブルトランスフォーマーベースのEntity Linker

NASTyLinker: NIL-Aware Scalable Transformer-based Entity Linker ( http://arxiv.org/abs/2303.04426v1 )

ライセンス: Link先を確認
Nicolas Heist and Heiko Paulheim(参考訳) エンティティリンク(EL)は、テキスト中のエンティティの参照を検出し、それらを参照知識ベースに曖昧にするタスクである。 ほとんどの一般的なELアプローチは、参照知識ベースが完全であると仮定する。 しかし実際には、知識ベース(NILエンティティ)に含まれていないエンティティにリンクする場合を扱う必要がある。 近年の研究では、参照とエンティティ間の親和性のみに焦点を当てる代わりに、参照のクラスタを生成してNILエンティティを表現するために、相互親和性を考慮することが示されている。 同時に、メンション間の親和性は既知のエンティティのリンク性能を大幅に改善するのに役立つ。 NASTyLinkerでは、NIL-entitiesを認識し、対応する参照クラスタを生成しながら、既知のエンティティに対する高いリンク性能を維持しながら、ELアプローチを導入する。 このアプローチのクラスタはトランスフォーマーからの密表現に基づいて言及し、推移的参照エンティティアフィニティを計算することで競合(クラスタに複数のエンティティが割り当てられている場合)を解決する。 NIL-entities に対して EL を評価するために明示的に構築されたデータセットである NILK 上で NASTyLinker の有効性とスケーラビリティを示す。 さらに,提案手法を実際のELタスク,すなわちウィキペディアリスト内のエンティティをリンクすることで知識グラフ人口に適用し,その結果の分析を行う。

Entity Linking (EL) is the task of detecting mentions of entities in text and disambiguating them to a reference knowledge base. Most prevalent EL approaches assume that the reference knowledge base is complete. In practice, however, it is necessary to deal with the case of linking to an entity that is not contained in the knowledge base (NIL entity). Recent works have shown that, instead of focusing only on affinities between mentions and entities, considering inter-mention affinities can be used to represent NIL entities by producing clusters of mentions. At the same time, inter-mention affinities can help to substantially improve linking performance for known entities. With NASTyLinker, we introduce an EL approach that is aware of NIL-entities and produces corresponding mention clusters while maintaining high linking performance for known entities. The approach clusters mentions and entities based on dense representations from Transformers and resolves conflicts (if more than one entity is assigned to a cluster) by computing transitive mention-entity affinities. We show the effectiveness and scalability of NASTyLinker on NILK, a dataset that is explicitly constructed to evaluate EL with respect to NIL-entities. Further, we apply the presented approach to an actual EL task, namely to knowledge graph population by linking entities in Wikipedia listings, and provide an analysis of the outcome.
翻訳日:2023-03-09 14:51:08 公開日:2023-03-08
# ロバストなトランジッションレス量子駆動:連結アプローチ

Robust Transitionless Quantum Driving: A Concatenated Approach ( http://arxiv.org/abs/2303.04422v1 )

ライセンス: Link先を確認
Zhi-Cheng Shi, Cheng Zhang, Li-Tuo Shen, Jie Song, Yan Xia, and X. X. Yi(参考訳) パルス持続時間、パルス振幅、デチューニング、スタークシフトなどによって引き起こされるあらゆる系統的誤りに対して頑健でありながら、断続的条件によらずトランジッションレス量子駆動を実現するための連結的手法を提案する。 現在のアプローチは任意の形状の時間依存パルスに対して特に効率的であり、適切に変調するにはパルス間の位相差のみが必要である。 パルス整形技術や余分なパルスを使わずに簡単な物理的実装は、このアプローチを非常に普遍的にし、時間依存のハミルトニアンによる堅牢な量子制御の道筋を提供する。

We propose a concatenated approach for implementing transitionless quantum driving regardless of adiabatic conditions while being robustness with respect to all kinds of systematic errors induced by pulse duration, pulse amplitude, detunings, and Stark shift etc. The current approach is particularly efficient for all time-dependent pulses with arbitrary shape, and only the phase differences between pulses is required to properly modulate. The simple physical implementation without the help of pulse shaping techniques or extra pulses makes this approach quite universal and provides a different avenue for robust quantum control by the time-dependent Hamiltonian.
翻訳日:2023-03-09 14:50:46 公開日:2023-03-08
# FUSQA:胎児超音波のセグメンテーション品質評価

FUSQA: Fetal Ultrasound Segmentation Quality Assessment ( http://arxiv.org/abs/2303.04418v1 )

ライセンス: Link先を確認
Sevim Cengiz, Ibrahim Almakk, Mohammad Yaqub(参考訳) 深層学習モデルは様々な胎児超音波セグメンテーションタスクに有効である。 しかし、新たな未知のデータへの一般化は、臨床応用の有効性に関する疑問を提起している。 通常、新しい目に見えないデータへの遷移は、移行後のセグメンテーション性能を検証するのに時間を要する。 セグメンテーション品質評価の取り組みは自然画像に焦点を合わせており、その問題は通常、ダイススコア回帰タスクとして定式化されている。 本稿では,マスクが存在しない場合にセグメンテーション品質評価に取り組むために,簡易な胎児超音波セグメンテーション品質評価(FUSQA)モデルを提案する。 分別品質評価プロセスを,より正確な妊娠年齢推定のために,良質な分別マスクと低品質の分別マスクを区別するための自動分類タスクとして定式化する。 異なる超音波装置を用いて2つの病院から収集した2つのデータセットについて,提案手法の性能を検証する。 優れたセグメンテーションマスクと低い品質のセグメンテーションマスクを区別することで、90%以上の分類精度を達成しています。 さらに、医師が報告した妊娠年齢とCRL測定値との差は1.45日しかなかった。 一方,この差は,セグメンテーションの少ないマスクからcrlを計算した場合,最大7.73日にまで達した。 その結果、AIベースのアプローチは胎児超音波のセグメンテーションの品質評価に役立つ可能性があり、将来的にはリアルタイムスクリーニングにおけるセグメンテーションの低下を検出する可能性がある。

Deep learning models have been effective for various fetal ultrasound segmentation tasks. However, generalization to new unseen data has raised questions about their effectiveness for clinical adoption. Normally, a transition to new unseen data requires time-consuming and costly quality assurance processes to validate the segmentation performance post-transition. Segmentation quality assessment efforts have focused on natural images, where the problem has been typically formulated as a dice score regression task. In this paper, we propose a simplified Fetal Ultrasound Segmentation Quality Assessment (FUSQA) model to tackle the segmentation quality assessment when no masks exist to compare with. We formulate the segmentation quality assessment process as an automated classification task to distinguish between good and poor-quality segmentation masks for more accurate gestational age estimation. We validate the performance of our proposed approach on two datasets we collect from two hospitals using different ultrasound machines. We compare different architectures, with our best-performing architecture achieving over 90% classification accuracy on distinguishing between good and poor-quality segmentation masks from an unseen dataset. Additionally, there was only a 1.45-day difference between the gestational age reported by doctors and estimated based on CRL measurements using well-segmented masks. On the other hand, this difference increased and reached up to 7.73 days when we calculated CRL from the poorly segmented masks. As a result, AI-based approaches can potentially aid fetal ultrasound segmentation quality assessment and might detect poor segmentation in real-time screening in the future.
翻訳日:2023-03-09 14:50:33 公開日:2023-03-08
# ソフトマックス近似による最適動的政策の推理

Inference on Optimal Dynamic Policies via Softmax Approximation ( http://arxiv.org/abs/2303.04416v1 )

ライセンス: Link先を確認
Qizhao Chen, Morgane Austern, Vasilis Syrgkanis(参考訳) オフラインデータから最適な動的ポリシーを推定することは、動的意思決定における根本的な問題である。 因果推論の文脈では、この問題は最適な動的治療体制を推定することとして知られている。 推定のための多くの方法が存在するにもかかわらず、最適状態の値とそれに関連する構造パラメータの信頼区間を構築することは本質的に困難である。 以前の作業は、見積の品質を低下させるサブサンプルアプローチに頼っていた。 最適処理条件に対する簡易なソフトマックス近似により, 温度パラメータを適切に向上させることができ, 真に最適な条件を推定できることを示す。 提案手法は, 有限地平線の場合へ直接拡張するが, 2周期の最適力学系について検討する。 我々の研究は、半パラメトリック推論と$g$推定の手法と、適切な三角形配列中心極限定理と、ソフトマックス近似の漸近的影響と漸近的バイアスの新しい分析を組み合わせたものである。

Estimating optimal dynamic policies from offline data is a fundamental problem in dynamic decision making. In the context of causal inference, the problem is known as estimating the optimal dynamic treatment regime. Even though there exists a plethora of methods for estimation, constructing confidence intervals for the value of the optimal regime and structural parameters associated with it is inherently harder, as it involves non-linear and non-differentiable functionals of un-known quantities that need to be estimated. Prior work resorted to sub-sample approaches that can deteriorate the quality of the estimate. We show that a simple soft-max approximation to the optimal treatment regime, for an appropriately fast growing temperature parameter, can achieve valid inference on the truly optimal regime. We illustrate our result for a two-period optimal dynamic regime, though our approach should directly extend to the finite horizon case. Our work combines techniques from semi-parametric inference and $g$-estimation, together with an appropriate triangular array central limit theorem, as well as a novel analysis of the asymptotic influence and asymptotic bias of softmax approximations.
翻訳日:2023-03-09 14:50:10 公開日:2023-03-08
# PL-UNeXt:電力線検出のためのエッジ詳細とライン特徴分割

PL-UNeXt: Per-stage Edge Detail and Line Feature Guided Segmentation for Power Line Detection ( http://arxiv.org/abs/2303.04413v1 )

ライセンス: Link先を確認
Yang Cheng, Zhen Chen and Daming Liu(参考訳) 電力線検出は電力会社にとって重要な検査課題であり、ドローンの障害物回避にも有用である。 複雑な背景と低い画素比のため、空中画像内の周辺領域から正確に電力線を分離することは依然として困難である。 空間エッジディテールのガイダンスを事前およびラインの特徴を適切に把握するために,ブースタトレーニング戦略を備えた電力線セグメンテーションモデルであるpl-unextを提案する。 我々は,エッジ空間の損失を計算するエッジディテールヘッドを設計し,下位ディテール学習と補助セグメンテーションマスクを生成するライン特徴ヘッドを導出し,高レベルなライン特徴学習を監督する。 この設計に適合して、我々のモデルはTTPLAで70.6 F1スコア(+1.9%)、VITLで68.41 mIoU(+5.2%)に達し、推論パラメータが少ないためにリアルタイムのパフォーマンスを維持することができる。

Power line detection is a critical inspection task for electricity companies and is also useful in avoiding drone obstacles. Accurately separating power lines from the surrounding area in the aerial image is still challenging due to the intricate background and low pixel ratio. In order to properly capture the guidance of the spatial edge detail prior and line features, we offer PL-UNeXt, a power line segmentation model with a booster training strategy. We design edge detail heads computing the loss in edge space to guide the lower-level detail learning and line feature heads generating auxiliary segmentation masks to supervise higher-level line feature learning. Benefited from this design, our model can reach 70.6 F1 score (+1.9%) on TTPLA and 68.41 mIoU (+5.2%) on VITL (without utilizing IR images), while preserving a real-time performance due to few inference parameters.
翻訳日:2023-03-09 14:49:51 公開日:2023-03-08
# 中心スピンモデルに対する累積展開の妥当性の決定

Determining the validity of cumulant expansions for central spin models ( http://arxiv.org/abs/2303.04410v1 )

ライセンス: Link先を確認
Piper Fowler-Wright and Krist\'in B. Arnard\'ottir and Peter Kirton and Brendon W. Lovett and Jonathan Keeling(参考訳) 多対一接続を持つモデルの場合、平均場理論は多粒子の$N\to\infty$極限を捉え、ハイゼンベルク方程式の高次累積展開はこの極限に収束し、有限の$N$での近似の改善を与えると広く期待されている。 ここでは、これは必ずしもそうではないことを示す。 代わりに、平均場理論が大きな n$ 極限を正しく記述するかは、モデルパラメータが n$ とどのようにスケールするかに依存し、累積展開の収束は偶数次と奇数次にわたって非一様かを示す。 さらに、与えられた累積展開の順序が正しい極限を回復したとしても、高次の累積展開の誤差は$N$で単調ではなく、平均場理論の値を超えうる。

For a model with many-to-one connectivity it is widely expected that mean-field theory captures the many-particle $N\to\infty$ limit, and that higher-order cumulant expansions of the Heisenberg equations converge to this same limit whilst providing improved approximations at finite $N$. Here we show that this is in fact not always the case. Instead, whether mean-field theory correctly describes the large-$N$ limit depends on how the model parameters scale with $N$, and we show that convergence of cumulant expansions may be non-uniform across even and odd orders. Further, even when a given order of cumulant expansion does recover the correct limit, the error of higher-order cumulant expansions is not monotonic with $N$ and may exceed that of mean-field theory.
翻訳日:2023-03-09 14:49:32 公開日:2023-03-08
# ワープ・リファインネットワークを用いた静止衛星画像の中間・将来のフレーム予測

Intermediate and Future Frame Prediction of Geostationary Satellite Imagery With Warp and Refine Network ( http://arxiv.org/abs/2303.04405v1 )

ライセンス: Link先を確認
Minseok Seo, Yeji Choi, Hyungon Ry, Heesun Park, Hyungkun Bae, Hyesook Lee, Wanseok Seo(参考訳) 静止衛星画像は気候や天気予報、自然エネルギー資源の計画、極端な気象事象の予測に応用されている。 高精度な予測には,静止衛星画像の高分解能と時間分解能が重要である。 最近の静止衛星解像度は改善されているが、気候の長期的分析は、様々な解像度のために過去から現在までの複数の衛星の使用に限定されている。 そこで我々はwarp and refine network (wr-net) を提案する。 WR-Netは、光流ワープ成分とワープ画像精製成分とに分けられる。 光フローワープ成分を抽出するために,深層学習に基づくアプローチではなく,tv-l1アルゴリズムを用いた。 ディープラーニングベースのモデルは、rgbチャネルの人間中心の視点で訓練されており、グレースケールの1チャンネルイメージである静止衛星では動作しない。 精細ネットワークは、多時間融合層を介して歪んだ画像を精細化する。 我々は,大規模GK2A測地衛星画像において,時間分解能を4分間隔から2分間隔に補間することでWR-Netを評価した。 さらに、WR-Netを将来のフレーム予測タスクに適用し、光フローの明示的な利用が将来のフレーム予測に役立つことを示した。

Geostationary satellite imagery has applications in climate and weather forecasting, planning natural energy resources, and predicting extreme weather events. For precise and accurate prediction, higher spatial and temporal resolution of geostationary satellite imagery is important. Although recent geostationary satellite resolution has improved, the long-term analysis of climate applications is limited to using multiple satellites from the past to the present due to the different resolutions. To solve this problem, we proposed warp and refine network (WR-Net). WR-Net is divided into an optical flow warp component and a warp image refinement component. We used the TV-L1 algorithm instead of deep learning-based approaches to extract the optical flow warp component. The deep-learning-based model is trained on the human-centric view of the RGB channel and does not work on geostationary satellites, which is gray-scale one-channel imagery. The refinement network refines the warped image through a multi-temporal fusion layer. We evaluated WR-Net by interpolation of temporal resolution at 4 min intervals to 2 min intervals in large-scale GK2A geostationary meteorological satellite imagery. Furthermore, we applied WR-Net to the future frame prediction task and showed that the explicit use of optical flow can help future frame prediction.
翻訳日:2023-03-09 14:49:16 公開日:2023-03-08
# rm-depth:動的シーンにおける繰り返し単眼深度の教師なし学習

RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic Scenes ( http://arxiv.org/abs/2303.04456v1 )

ライセンス: Link先を確認
Tak-Wai Hui(参考訳) 教師なし手法は単分子深度推定において有望な結果を示した。 しかし、トレーニングデータは、動くオブジェクトなしでシーンでキャプチャされなければならない。 精度を高めるために、最近の手法はモデルのパラメータを増やす傾向がある。 本稿では,移動物体やカメラの動きを含む,単眼深度と3次元運動の同時予測を目的とした教師なし学習フレームワークを提案する。 1) 繰り返し変調ユニットを用いて、エンコーダとデコーダの特徴を適応的かつ反復的に融合させる。 これはシングルイメージの深度推論を改善するだけでなく、モデルパラメータをオーバースプレッドする。 2)アップサンプリングに1組のフィルタを使用する代わりに、残差アップサンプリングのために複数のフィルタセットが考案される。 これにより、エッジ保存フィルタの学習が容易になり、パフォーマンスが向上する。 (3) ワーピングに基づくネットワークは,動作対象の運動場をセマンティックな先入観を使わずに推定する。 これにより、シーンの剛性が要求され、教師なし学習に一般的なビデオを使用することができる。 運動場は、アウトリア認識訓練損失によりさらに規則化される。 深度モデルはテスト時間に1つのイメージと2.97Mパラメータを使用するだけで、KITTIとCityscapesベンチマークで最先端の結果が得られる。

Unsupervised methods have showed promising results on monocular depth estimation. However, the training data must be captured in scenes without moving objects. To push the envelope of accuracy, recent methods tend to increase their model parameters. In this paper, an unsupervised learning framework is proposed to jointly predict monocular depth and complete 3D motion including the motions of moving objects and camera. (1) Recurrent modulation units are used to adaptively and iteratively fuse encoder and decoder features. This not only improves the single-image depth inference but also does not overspend model parameters. (2) Instead of using a single set of filters for upsampling, multiple sets of filters are devised for the residual upsampling. This facilitates the learning of edge-preserving filters and leads to the improved performance. (3) A warping-based network is used to estimate a motion field of moving objects without using semantic priors. This breaks down the requirement of scene rigidity and allows to use general videos for the unsupervised learning. The motion field is further regularized by an outlier-aware training loss. Despite the depth model just uses a single image in test time and 2.97M parameters, it achieves state-of-the-art results on the KITTI and Cityscapes benchmarks.
翻訳日:2023-03-09 14:42:27 公開日:2023-03-08
# ロボット操作のための半教師付き学習

Grasping Student: semi-supervised learning for robotic manipulation ( http://arxiv.org/abs/2303.04452v1 )

ライセンス: Link先を確認
Piotr Krzywicki, Krzysztof Ciebiera, Rafa{\l} Michaluk, Inga Maziarz, Marek Cygan(参考訳) ロボットから現実世界のデータを集めることは、ロボット学習システムを構築する際にすぐにボトルネックとなる。 本研究では,ロボットの小さなサンプルに加えて,ロボットとのインタラクションなしに収集される,選択すべき製品のイメージを活用する,半教師付き把持システムを設計する。 我々はシミュレーションと実世界の両方でこの結果を検証する。 少数のロボットトレーニングサンプルのシステムでは、ラベルのないデータを活用することで、ベースラインが使用する10倍のデータセットサイズのパフォーマンスを実現することができます。 論文で使用されるコードとデータセットは、https://github.com/nomagiclab/grasping-studentでリリースされる。

Gathering real-world data from the robot quickly becomes a bottleneck when constructing a robot learning system for grasping. In this work, we design a semi-supervised grasping system that, on top of a small sample of robot experience, takes advantage of images of products to be picked, which are collected without any interactions with the robot. We validate our findings both in the simulation and in the real world. In the regime of a small number of robot training samples, taking advantage of the unlabeled data allows us to achieve performance at the level of 10-fold bigger dataset size used by the baseline. The code and datasets used in the paper will be released at https://github.com/nomagiclab/grasping-student.
翻訳日:2023-03-09 14:42:08 公開日:2023-03-08
# リパラメトリゼーション勾配を用いた非線形カルマンフィルタ

Nonlinear Kalman Filtering with Reparametrization Gradients ( http://arxiv.org/abs/2303.04450v1 )

ライセンス: Link先を確認
San Gultekin, Brendan Kitts, Aaron Flores, and John Paisley(参考訳) リパラメトリゼーション勾配を利用した非線形カルマンフィルタを提案する。 広く使われているパラメトリック近似は状態空間モデルのガウス的仮定に基づいているが、これはクルバック・リーバーの発散に対する近似の最小化と同値である。 アルファ発散を用いてより良い近似を得ることができるが、結果として生じる問題はより複雑である。 本稿では、アルファ発散の代わりに最適化可能なエネルギー関数に基づく代替定式化を提案する。 この最適化は、最近多くのディープラーニングモデルで使われている手法である再パラメータ化勾配を用いて行うことができる。

We introduce a novel nonlinear Kalman filter that utilizes reparametrization gradients. The widely used parametric approximation is based on a jointly Gaussian assumption of the state-space model, which is in turn equivalent to minimizing an approximation to the Kullback-Leibler divergence. It is possible to obtain better approximations using the alpha divergence, but the resulting problem is substantially more complex. In this paper, we introduce an alternate formulation based on an energy function, which can be optimized instead of the alpha divergence. The optimization can be carried out using reparametrization gradients, a technique that has recently been utilized in a number of deep learning models.
翻訳日:2023-03-09 14:41:58 公開日:2023-03-08
# データセットの選択と凝縮のための損失曲線マッチング

Loss-Curvature Matching for Dataset Selection and Condensation ( http://arxiv.org/abs/2303.04449v1 )

ライセンス: Link先を確認
Seungjae Shin, Heesun Bae, Donghyeok Shin, Weonyoung Joo, Il-Chul Moon(参考訳) 大規模なデータセットでニューラルネットワークをトレーニングするには、かなりの計算コストが必要です。 データセットの削減は、データセット全体から一般化性能の低下を最小限に抑えながら、大きなデータセットに基づいてデータインスタンスを選択または合成する。 既存の手法ではデータセットの縮小処理中にニューラルネットワークを利用するため、モデルパラメータは縮小後の性能を維持する上で重要な要素となる。 パラメータの重要性に依拠して,本論文では,パラメータ点よりも元のデータセットの損失曲率とモデルパラメータ空間上の縮小データセットとをマッチングする,lcmatという新しい還元目標を提案する。 この新たな目的は、正確な点マッチングよりも摂動パラメータ領域に縮小されたデータセットを適応させる。 特に,局所パラメータ領域から損失曲率ギャップの最悪の場合を特定し,理論的解析により,そのような最悪の場合の実装可能な上限を導出する。 コアセット選択と凝縮ベンチマークによる実験により, LCMatは既存のベースラインよりも優れた一般化性能を示した。

Training neural networks on a large dataset requires substantial computational costs. Dataset reduction selects or synthesizes data instances based on the large dataset, while minimizing the degradation in generalization performance from the full dataset. Existing methods utilize the neural network during the dataset reduction procedure, so the model parameter becomes important factor in preserving the performance after reduction. By depending upon the importance of parameters, this paper introduces a new reduction objective, coined LCMat, which Matches the Loss Curvatures of the original dataset and reduced dataset over the model parameter space, more than the parameter point. This new objective induces a better adaptation of the reduced dataset on the perturbed parameter region than the exact point matching. Particularly, we identify the worst case of the loss curvature gap from the local parameter region, and we derive the implementable upper bound of such worst-case with theoretical analyses. Our experiments on both coreset selection and condensation benchmarks illustrate that LCMat shows better generalization performances than existing baselines.
翻訳日:2023-03-09 14:41:47 公開日:2023-03-08
# 確率的ツールボックスユーザガイド --xSPDE3:確率的常微分方程式と偏微分方程式のための拡張可能なソフトウェア

The Stochastic Toolbox User's Guide -- xSPDE3: extensible software for stochastic ordinary and partial differential equations ( http://arxiv.org/abs/2303.04448v1 )

ライセンス: Link先を確認
Simon Kiesewetter, Ria R. Joseph, Peter D. Drummond(参考訳) xspdeツールボックスは、生物学、化学、工学、医学、物理学、量子技術への応用を含む、確率的偏微分方程式と常微分方程式を扱う。 時間ステップやサンプリングエラー推定を含む統計平均を計算する。 xSPDE は高次収束、フーリエスペクトル、確率密度を提供する。 ツールボックスにはグラフィカルな出力と$\chi^{2}$統計、重み付け、投影、フォワードバックワードの方程式がある。 入出力量子スペクトルを生成することができる。 すべての方程式は、任意の次元、任意のベクトル場成分、および任意の区間の両端において、独立周期、ディリクレ、ノイマンあるいはロビン境界条件を持つことができる。

The xSPDE toolbox treats stochastic partial and ordinary differential equations, with applications in biology, chemistry, engineering, medicine, physics and quantum technologies. It computes statistical averages, including time-step and/or sampling error estimation. xSPDE can provide higher order convergence, Fourier spectra and probability densities. The toolbox has graphical output and $\chi^{2}$ statistics, as well as weighted, projected, or forward-backward equations. It can generate input-output quantum spectra. All equations may have independent periodic, Dirichlet, and Neumann or Robin boundary conditions in any dimension, for any vector field component, and at either end of any interval.
翻訳日:2023-03-09 14:41:31 公開日:2023-03-08
# MKL-$L_{0/1}$-SVM

MKL-$L_{0/1}$-SVM ( http://arxiv.org/abs/2303.04445v1 )

ライセンス: Link先を確認
Bin Zhu and Yijie Shi(参考訳) 我々は、悪名高い$(0,1)$-loss関数を持つサポートベクターマシンの多重カーネル学習(mkl)問題を定式化する。 いくつかの一階最適条件が与えられ、ADMM型の高速数値解法を開発するために容易に利用することができる。

We formulate the Multiple Kernel Learning (abbreviated as MKL) problem for the support vector machine with the infamous $(0,1)$-loss function. Some first-order optimality conditions are given, which could be readily exploited to develop fast numerical solvers e.g., of the ADMM type.
翻訳日:2023-03-09 14:41:19 公開日:2023-03-08
# 高速成長をもつ非有界関数に対する経験最小化器の$L^1$-収束について

A note on $L^1$-Convergence of the Empiric Minimizer for unbounded functions with fast growth ( http://arxiv.org/abs/2303.04444v1 )

ライセンス: Link先を確認
Pierre Bras(参考訳) V : \mathbb{R}^d \to \mathbb{R}$ coercive に対して、経験的最小化器の$L^1$-距離の収束率について検討する。 一般に、成長速度が速い非有界函数に対しては、収束率は上から$a_n n^{-1/q}$であり、ここで$q$は潜在確率変数の次元であり、$a_n = o(n^\varepsilon)$は$\varepsilon > 0$である。 次に,機械学習およびモンテカルロシミュレーションにおける最適化問題への応用を提案する。

For $V : \mathbb{R}^d \to \mathbb{R}$ coercive, we study the convergence rate for the $L^1$-distance of the empiric minimizer, which is the true minimum of the function $V$ sampled with noise with a finite number $n$ of samples, to the minimum of $V$. We show that in general, for unbounded functions with fast growth, the convergence rate is bounded above by $a_n n^{-1/q}$, where $q$ is the dimension of the latent random variable and where $a_n = o(n^\varepsilon)$ for every $\varepsilon > 0$. We then present applications to optimization problems arising in Machine Learning and in Monte Carlo simulation.
翻訳日:2023-03-09 14:41:13 公開日:2023-03-08
# HyT-NAS:エッジデバイスのためのハイブリッドトランスフォーマーニューラルアーキテクチャ検索

HyT-NAS: Hybrid Transformers Neural Architecture Search for Edge Devices ( http://arxiv.org/abs/2303.04440v1 )

ライセンス: Link先を確認
Lotfi Abdelkrim Mecharbat, Hadjer Benmeziane, Hamza Ouranoughi and Smail Niar(参考訳) ビジョントランスフォーマーは近年,コンピュータビジョン(CV)タスクにおいて,注目度に基づくディープラーニング(DL)アーキテクチャを実現する。 しかし、膨大な計算資源を必要とするため、これらのアーキテクチャはリソース制約のあるプラットフォーム上ではほとんど実装されない。 画像分類や物体検出などのCVタスクに対する手作り畳み込みと注意に基づくハイブリッドモデルについて検討している。 本稿では,小型デバイス上での視覚タスクを対象とするハイブリッドアーキテクチャを含む,効率的なハードウェアアウェアニューラルアーキテクチャ探索(hw-nas)であるhyt-nasを提案する。 HyT-NASは、検索空間を充実させ、検索戦略と性能予測器を強化することにより、最先端のHW-NASを改善する。 実験の結果,HyT-NASは5倍以下のトレーニング評価で同様のハイパーボリュームを実現することがわかった。 その結果、MLPerf MobileNetV1の精度は6.3%向上し、Visual Wake Wordsのパラメータ数は3.5倍減少した。

Vision Transformers have enabled recent attention-based Deep Learning (DL) architectures to achieve remarkable results in Computer Vision (CV) tasks. However, due to the extensive computational resources required, these architectures are rarely implemented on resource-constrained platforms. Current research investigates hybrid handcrafted convolution-based and attention-based models for CV tasks such as image classification and object detection. In this paper, we propose HyT-NAS, an efficient Hardware-aware Neural Architecture Search (HW-NAS) including hybrid architectures targeting vision tasks on tiny devices. HyT-NAS improves state-of-the-art HW-NAS by enriching the search space and enhancing the search strategy as well as the performance predictors. Our experiments show that HyT-NAS achieves a similar hypervolume with less than ~5x training evaluations. Our resulting architecture outperforms MLPerf MobileNetV1 by 6.3% accuracy improvement with 3.5x less number of parameters on Visual Wake Words.
翻訳日:2023-03-09 14:40:52 公開日:2023-03-08
# アクティブ話者検出のための軽量モデル

A Light Weight Model for Active Speaker Detection ( http://arxiv.org/abs/2303.04439v1 )

ライセンス: Link先を確認
Junhua Liao, Haihan Duan, Kanghui Feng, Wanbing Zhao, Yanbing Yang and Liangyin Chen(参考訳) アクティブな話者検出(active speaker detection)は、音声と視覚のシナリオ理解において困難なタスクである。 このタスクは、話者ダイアリゼーション、話者追跡、自動ビデオ編集などのアプリケーションにおいて重要であるため、広く注目を集めている。 既存の研究は、複数の候補情報を入力し、複雑なモデルを設計することで、パフォーマンスの向上を試みている。 これらの手法は優れた性能を発揮するが、メモリ消費と計算能力が高いため、リソース制限のシナリオに適用することは困難である。 そこで我々は,入力候補を減らし,音声・視覚的特徴抽出のための2次元および3次元畳み込みを分割し,計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに適用し,軽量なアクティブ話者検出アーキテクチャを構築した。 AVA-ActiveSpeakerデータセットの実験結果から,我々のフレームワークは競争力のあるmAP性能(94.1% vs. 94.2%)を達成し,特にモデルパラメータ(1.0M vs. 22.5M, 約23x)とFLOP(0.6G vs. 2.6G, 約4x)において,資源コストは最先端手法よりも著しく低いことがわかった。 さらに,当社のフレームワークは,コロンビアデータセットでも堅牢性を示す上でも良好に機能します。 コードとモデルの重み付けはhttps://github.com/Junhua-Liao/Light-ASDで確認できる。

Active speaker detection is a challenging task in audio-visual scenario understanding, which aims to detect who is speaking in one or more speakers scenarios. This task has received extensive attention as it is crucial in applications such as speaker diarization, speaker tracking, and automatic video editing. The existing studies try to improve performance by inputting multiple candidate information and designing complex models. Although these methods achieved outstanding performance, their high consumption of memory and computational power make them difficult to be applied in resource-limited scenarios. Therefore, we construct a lightweight active speaker detection architecture by reducing input candidates, splitting 2D and 3D convolutions for audio-visual feature extraction, and applying gated recurrent unit (GRU) with low computational complexity for cross-modal modeling. Experimental results on the AVA-ActiveSpeaker dataset show that our framework achieves competitive mAP performance (94.1% vs. 94.2%), while the resource costs are significantly lower than the state-of-the-art method, especially in model parameters (1.0M vs. 22.5M, about 23x) and FLOPs (0.6G vs. 2.6G, about 4x). In addition, our framework also performs well on the Columbia dataset showing good robustness. The code and model weights are available at https://github.com/Junhua-Liao/Light-ASD.
翻訳日:2023-03-09 14:40:36 公開日:2023-03-08
# ハイブリッド解釈モデルを学ぶ:理論、分類学、方法

Learning Hybrid Interpretable Models: Theory, Taxonomy, and Methods ( http://arxiv.org/abs/2303.04437v1 )

ライセンス: Link先を確認
Julien Ferry (LAAS-ROC), Gabriel Laberge (EPM), Ulrich A\"ivodji (ETS)(参考訳) ハイブリッドモデルは、解釈可能なモデルと複雑なブラックボックスの協調を伴う。 推論において、ハイブリッドモデルの任意の入力は、ゲーティング機構に基づいて解釈可能または複雑なコンポーネントに割り当てられる。 古典的なモデルよりもこのモデルの利点は2つある。 1)システムの透明性のレベルをユーザが正確に制御できるようにする。 2) 解釈可能なモデルにいくつかの入力をリダイレクトして正規化を暗黙的に行うので,スタンドアロンのブラックボックスよりもパフォーマンスがよい可能性がある。 しかし、その可能性が高いにもかかわらず、ハイブリッドモデルは解釈可能性/説明可能性の文献では未研究のままである。 本稿では,これらのモデルについて,理論,分類学,方法論の3つの観点から徹底的な調査を行った。 まず、確率近似(PAC)の観点からハイブリッドモデルの一般化の背後にある理論を考察する。 当社のPAC保証の結果は、システムの最適透明性のためのスイートスポットの存在にあります。 このようなスイートスポットが達成されると、ハイブリッドモデルはスタンドアロンのブラックボックスよりもパフォーマンスが良い可能性がある。 第2に,ポストブラックボックスとプレブラックボックスという,ハイブリッドモデルのトレーニング方法に関する一般的な分類法を提案する。 これらのアプローチは、解釈可能かつ複雑なコンポーネントが訓練される順序で異なる。 この分類において,最新ハイブリッドモデルのハイブリッドルールセットとコンパニオンルールリストがどこに落ちているかを示す。 第3に,2つのパラダイムを1つの方法で実装する。hybridcorelsは,corelsアルゴリズムをハイブリッドモデリングに拡張するものだ。 CORELSを活用することで、HybridCORELSはその解釈可能なコンポーネントの最適性と透明性の正確な制御の証明書を提供する。 最終的に、HybridCORELSは既存のハイブリッドモデルと競合し、部分的に透明でありながらスタンドアローンのブラックボックス(またはそれ以上の)と同等の性能を発揮することを実証的に示す。

A hybrid model involves the cooperation of an interpretable model and a complex black box. At inference, any input of the hybrid model is assigned to either its interpretable or complex component based on a gating mechanism. The advantages of such models over classical ones are two-fold: 1) They grant users precise control over the level of transparency of the system and 2) They can potentially perform better than a standalone black box since redirecting some of the inputs to an interpretable model implicitly acts as regularization. Still, despite their high potential, hybrid models remain under-studied in the interpretability/explainability literature. In this paper, we remedy this fact by presenting a thorough investigation of such models from three perspectives: Theory, Taxonomy, and Methods. First, we explore the theory behind the generalization of hybrid models from the Probably-Approximately-Correct (PAC) perspective. A consequence of our PAC guarantee is the existence of a sweet spot for the optimal transparency of the system. When such a sweet spot is attained, a hybrid model can potentially perform better than a standalone black box. Secondly, we provide a general taxonomy for the different ways of training hybrid models: the Post-Black-Box and Pre-Black-Box paradigms. These approaches differ in the order in which the interpretable and complex components are trained. We show where the state-of-the-art hybrid models Hybrid-Rule-Set and Companion-Rule-List fall in this taxonomy. Thirdly, we implement the two paradigms in a single method: HybridCORELS, which extends the CORELS algorithm to hybrid modeling. By leveraging CORELS, HybridCORELS provides a certificate of optimality of its interpretable component and precise control over transparency. We finally show empirically that HybridCORELS is competitive with existing hybrid models, and performs just as well as a standalone black box (or even better) while being partly transparent.
翻訳日:2023-03-09 14:40:09 公開日:2023-03-08
# Magnushammer: トランスフォーマーによる選択の最適化

Magnushammer: A Transformer-based Approach to Premise Selection ( http://arxiv.org/abs/2303.04488v1 )

ライセンス: Link先を確認
Maciej Miku{\l}a, Szymon Antoniak, Szymon Tworkowski, Albert Qiaochu Jiang, Jin Peng Zhou, Christian Szegedy, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s, Yuhuai Wu(参考訳) 事前選択は自動定理証明の基本的な問題である。 以前は複雑なシンボリックな手法を使用しており、ドメイン知識に依存しており、この課題を解決するにはかなりのエンジニアリング努力が必要である。 本研究では、ニューラルトランスフォーマーに基づくアプローチであるMagnushammerが、従来のシンボルシステムよりも大きなマージンで優れていることを示す。 PISAベンチマークでテストされたMagnushammerは、最も成熟し人気のある記号ベースの解法であるSledgehammerの証明レート38.3\%に対して59.5\%の証明レートを達成した。 さらに,magnushammerを言語モデルに基づく神経形式証明器と組み合わせることで,従来の証明率を57.0\%$から71.0\%$に大幅に改善する。

Premise selection is a fundamental problem of automated theorem proving. Previous works often use intricate symbolic methods, rely on domain knowledge, and require significant engineering effort to solve this task. In this work, we show that Magnushammer, a neural transformer-based approach, can outperform traditional symbolic systems by a large margin. Tested on the PISA benchmark, Magnushammer achieves $59.5\%$ proof rate compared to a $38.3\%$ proof rate of Sledgehammer, the most mature and popular symbolic-based solver. Furthermore, by combining Magnushammer with a neural formal prover based on a language model, we significantly improve the previous state-of-the-art proof rate from $57.0\%$ to $71.0\%$.
翻訳日:2023-03-09 14:34:31 公開日:2023-03-08
# 問合せ要約のための共同モデリングによる問合せ発話注意

Query-Utterance Attention with Joint modeling for Query-Focused Meeting Summarization ( http://arxiv.org/abs/2303.04487v1 )

ライセンス: Link先を確認
Xingxian Liu, Bin Duan, Bo Xiao, Yajing Xu(参考訳) クエリ中心のミーティング要約(QFMS)は、所定のクエリに応答して、ミーティングのトランスクリプトから要約を生成することを目的としている。 以前の作業は通常、クエリと会議のトランスクリプトを結合し、トークンレベルでのみクエリ関連性を暗黙的にモデル化する。 しかし、長時間の会議記録によるキークエリ関連情報の希釈により、元のトランスフォーマーモデルではクエリに関連する重要な部分を強調できない。 本稿では,クエリ・Utterance Attentionに基づく共同モデリングトークンと発話を用いた問合せ対応フレームワークを提案する。 クエリーに対する発話レベルの関連性を高密度検索モジュールで計算する。 次に、トークンレベルのクエリ関連性と発話レベルのクエリ関連性を組み合わせ、アテンション機構を明示した生成プロセスに組み込む。 異なる粒度のクエリ関連性が,クエリに関連する要約を生成することに寄与することを示す。 QMSumデータセットの実験結果から,提案モデルが新たな最先端性能を実現することを示す。

Query-focused meeting summarization (QFMS) aims to generate summaries from meeting transcripts in response to a given query. Previous works typically concatenate the query with meeting transcripts and implicitly model the query relevance only at the token level with attention mechanism. However, due to the dilution of key query-relevant information caused by long meeting transcripts, the original transformer-based model is insufficient to highlight the key parts related to the query. In this paper, we propose a query-aware framework with joint modeling token and utterance based on Query-Utterance Attention. It calculates the utterance-level relevance to the query with a dense retrieval module. Then both token-level query relevance and utterance-level query relevance are combined and incorporated into the generation process with attention mechanism explicitly. We show that the query relevance of different granularities contributes to generating a summary more related to the query. Experimental results on the QMSum dataset show that the proposed model achieves new state-of-the-art performance.
翻訳日:2023-03-09 14:34:12 公開日:2023-03-08
# better together: マルチタスク学習を使用して、構造データセット内の機能選択を改善する

Better Together: Using Multi-task Learning to Improve Feature Selection within Structural Datasets ( http://arxiv.org/abs/2303.04486v1 )

ライセンス: Link先を確認
S.C. Bee, E. Papatheou, M Haywood-Alexander, R.S. Mills, L.A. Bull, K. Worden and N. Dervilis(参考訳) 近年,人口ベース構造健康モニタリング(PBSHM)システムへの移行が試みられている。 PBSHMの潜在的な発展のために認識されている分野の1つは、従来の独立した学習アルゴリズムとは異なるアルゴリズムであるマルチタスク学習(MTL)を使用することである。 ここでは、構造データセットに自動的な特徴選択を提供するために、MTL('Joint Feature Selection with LASSO')が使用されている。 分類タスクは、同じモデルの2機の航空機からサンプルを得るために、尾翼機のポート側と船尾側を区別することである。 独立した学習者は完全なf1スコアを生んだが、工学的な洞察力は乏しく、mtlの結果は解釈可能であり、実験的な設定の違いとは対照的に構造的な違いを強調した。

There have been recent efforts to move to population-based structural health monitoring (PBSHM) systems. One area of PBSHM which has been recognised for potential development is the use of multi-task learning (MTL); algorithms which differ from traditional independent learning algorithms. Presented here is the use of the MTL, ''Joint Feature Selection with LASSO'', to provide automatic feature selection for a structural dataset. The classification task is to differentiate between the port and starboard side of a tailplane, for samples from two aircraft of the same model. The independent learner produced perfect F1 scores but had poor engineering insight; whereas the MTL results were interpretable, highlighting structural differences as opposed to differences in experimental set-up.
翻訳日:2023-03-09 14:33:57 公開日:2023-03-08
# マルチモーダルウェアラブルデータから非閉塞性ストレス状態スクリーニングのためのデジタルバイオマーカーの抽出

Extracting Digital Biomarkers for Unobtrusive Stress State Screening from Multimodal Wearable Data ( http://arxiv.org/abs/2303.04484v1 )

ライセンス: Link先を確認
Berrenur Saylam, \"Ozlem Durmaz \.Incel(参考訳) ウェアラブル技術の発展に伴い、医療情報として新しいタイプの医療データが有用になった。 これらのデータは、活動レベル、気分、ストレス、認知健康といった個人の生理的および心理的状態に関する有意義な情報を提供する。 これらのバイオマーカーは、様々なセンサーを組み込んだデジタルデバイスから収集されるため、デジタルと呼ばれる。 本研究では,携帯電話やスマートウォッチから収集したデータを調べることで,ストレスモダリティに関連するデジタルバイオマーカーを探索する。 我々は,テッセルエデータセット,正確にはランダムフォレストを用いて,ストレスバイオマーカーの抽出を行う。 特徴選択技術を用いて,ウェアラブルの天気,活動,心拍数(HR),ストレス,睡眠,場所(ワークホーム)を測定し,ストレス関連バイオマーカーの重要度を決定する。 ストレスバイオマーカーの解釈には,様々なデバイスから多彩な特徴があると考えています。 さらに,最も重要な特徴を持つ5ドルのストレスレベルを分類し,クラス不均衡を調整し,人格特性に関連する付加的特徴を加えることで,クラス全体の精度を85 %以上向上できることを示した。 我々は,デジタルバイオマーカーを用いたストレス状態の認識において,関連研究と比較して,より多くのクラスを対象とする日常生活シナリオにおいて,同様の,さらに優れた結果が得られた。

With the development of wearable technologies, a new kind of healthcare data has become valuable as medical information. These data provide meaningful information regarding an individual's physiological and psychological states, such as activity level, mood, stress, and cognitive health. These biomarkers are named digital since they are collected from digital devices integrated with various sensors. In this study, we explore digital biomarkers related to stress modality by examining data collected from mobile phones and smartwatches. We utilize machine learning techniques on the Tesserae dataset, precisely Random Forest, to extract stress biomarkers. Using feature selection techniques, we utilize weather, activity, heart rate (HR), stress, sleep, and location (work-home) measurements from wearables to determine the most important stress-related biomarkers. We believe we contribute to interpreting stress biomarkers with a high range of features from different devices. In addition, we classify the $5$ different stress levels with the most important features, and our results show that we can achieve $85\%$ overall class accuracy by adjusting class imbalance and adding extra features related to personality characteristics. We perform similar and even better results in recognizing stress states with digital biomarkers in a daily-life scenario targeting a higher number of classes compared to the related studies.
翻訳日:2023-03-09 14:33:37 公開日:2023-03-08
# デチューニングスイッチド駆動による機械スクイージング

Mechanical Squeezing via Detuning-Switched Driving ( http://arxiv.org/abs/2303.04482v1 )

ライセンス: Link先を確認
Yaohua Li, An-Ning Xu, Long-Gang Huang, Yong-Chun Liu(参考訳) メカニカルスクイージングの生成は、その古典的でない性質、量子情報への応用、高感度測定に多くの関心を集めている。 本稿では, 高速かつ定常なメカニカルスクイーズを生成できるデチューニングスイッチング法を提案する。 パルス駆動は、光機械的カップリングを線形光学力に動的に変換し、効果的な機械的周波数を維持し、短時間で強力な機械的スクイーズを導入することができる。 さらに, パルス間隔を増大させることにより, 得られた強いメカニカルスクイーズを凍結し, 固定されたスクイーズ角度で定常的なメカニカルスクイーズを行うことを示した。 したがって、この提案は変調光学系の興味深い洞察と応用を提供する。

Generation of mechanical squeezing has attracted a lot of interest for its nonclassical properties, applications in quantum information, and high-sensitivity measurement. Here we propose a detuning-switched method that can rapidly generate strong and stationary mechanical squeezing. The pulsed driving can dynamically transpose the optomechanical coupling into a linear optical force and maintain an effective mechanical frequency, which can introduce strong mechanical squeezing in a short time. Moreover, we show the obtained strong mechanical squeezing can be frozen by increasing the pulse intervals, leading to stationary mechanical squeezing with a fixed squeezing angle. Thus, our proposal provides fascinating insights and applications of modulated optomechanical systems.
翻訳日:2023-03-09 14:32:59 公開日:2023-03-08
# グラフニューラルネットワークによる教育ブロックチェーンのスマートコントラクト脆弱性検出

Graph Neural Networks Enhanced Smart Contract Vulnerability Detection of Educational Blockchain ( http://arxiv.org/abs/2303.04477v1 )

ライセンス: Link先を確認
Zhifeng Wang, Wanxuan Wu, Chunyan Zeng, Jialong Yao, Yang Yang, Hongmin Xu(参考訳) ブロックチェーン技術の発展に伴い、ブロックチェーンと教育の交わりにますます注目が集まっており、ブロックチェーン技術に基づいて様々な教育評価システムやeラーニングシステムが開発されている。 その中でもethereum smart contractは、教育用インテリジェントトレーディングシステムとインテリジェントな学習プラットフォームを構築するための‘イベントトリガード’メカニズムで、開発者から好まれている。 しかし、ブロックチェーンの不変性のため、公開されたスマートコントラクトは変更できないため、教育ブロックチェーンのコードを変更することで問題のあるコントラクトを修正することはできない。 近年,スマートコントラクト脆弱性によるセキュリティインシデントが大きな資産損失を引き起こしているため,教育ブロックチェーンにおけるスマートコントラクト脆弱性の検出が大きな課題となっている。 本稿では,学習ブロックチェーンにおけるスマートコントラクトに対するグラフニューラルネットワーク(gnn)に基づく脆弱性検出を提案する。 まず、バイトコードはOpcodeを取得するために逆コンパイルされる。 次に、基本ブロックを分割し、オプコード実行ロジックに従って基本ブロック間のエッジを追加する。 次に、制御フローグラフ(CFG)を構築する。 最後に,脆弱性検出のためのGNNモデルの設計を行った。 実験の結果,提案手法はスマートコントラクトの脆弱性検出に有効であることがわかった。 従来のアプローチと比較すると、GCNモデルのレイヤが少なくて良い結果が得られるため、コントラクトバイトコードとGCNモデルは脆弱性検出において効率的であることがわかる。

With the development of blockchain technology, more and more attention has been paid to the intersection of blockchain and education, and various educational evaluation systems and E-learning systems are developed based on blockchain technology. Among them, Ethereum smart contract is favored by developers for its ``event-triggered" mechanism for building education intelligent trading systems and intelligent learning platforms. However, due to the immutability of blockchain, published smart contracts cannot be modified, so problematic contracts cannot be fixed by modifying the code in the educational blockchain. In recent years, security incidents due to smart contract vulnerabilities have caused huge property losses, so the detection of smart contract vulnerabilities in educational blockchain has become a great challenge. To solve this problem, this paper proposes a graph neural network (GNN) based vulnerability detection for smart contracts in educational blockchains. Firstly, the bytecodes are decompiled to get the opcode. Secondly, the basic blocks are divided, and the edges between the basic blocks according to the opcode execution logic are added. Then, the control flow graphs (CFG) are built. Finally, we designed a GNN-based model for vulnerability detection. The experimental results show that the proposed method is effective for the vulnerability detection of smart contracts. Compared with the traditional approaches, it can get good results with fewer layers of the GCN model, which shows that the contract bytecode and GCN model are efficient in vulnerability detection.
翻訳日:2023-03-09 14:32:40 公開日:2023-03-08
# RACCER:強化学習のための到達可能かつ確実な対実的説明を目指して

RACCER: Towards Reachable and Certain Counterfactual Explanations for Reinforcement Learning ( http://arxiv.org/abs/2303.04475v1 )

ライセンス: Link先を確認
Jasmina Gajcin and Ivana Dusparic(参考訳) 強化学習(RL)アルゴリズムは多くのタスクにうまく適用されているが、ニューラルネットワークに依存しているため、彼らの行動を理解し信頼することは困難である。 counterfactual descriptionsは、ブラックボックスシステムから望ましいアウトプットを達成するためにモデル入力をどのように変更するか、ユーザにアクション可能なアドバイスを提供する、人間フレンドリーな説明である。 しかし、RLにおける反事実生成への現在のアプローチは、RLタスクの確率的かつシーケンシャルな性質を無視し、望まれる結果を得るのが困難あるいは得られない反事実を生成することができる。 そこで本研究では,RLエージェントの動作に対する反実的説明を生成するための,RL固有のアプローチであるRACCERを提案する。 まず,RL固有の対物的特性の集合を提案し,その対物的特性を高い確率で容易に到達できるようにする。 我々はエージェントの実行軌跡のヒューリスティックな木探索を用いて、定義された特性に基づいて最も適切な対策を見つける。 2つのタスクでraccerを評価し,rl固有の反事実がエージェントの動作を理解する上で有効であることを示すために,ユーザ調査を行った。

While reinforcement learning (RL) algorithms have been successfully applied to numerous tasks, their reliance on neural networks makes their behavior difficult to understand and trust. Counterfactual explanations are human-friendly explanations that offer users actionable advice on how to alter the model inputs to achieve the desired output from a black-box system. However, current approaches to generating counterfactuals in RL ignore the stochastic and sequential nature of RL tasks and can produce counterfactuals which are difficult to obtain or do not deliver the desired outcome. In this work, we propose RACCER, the first RL-specific approach to generating counterfactual explanations for the behaviour of RL agents. We first propose and implement a set of RL-specific counterfactual properties that ensure easily reachable counterfactuals with highly-probable desired outcomes. We use a heuristic tree search of agent's execution trajectories to find the most suitable counterfactuals based on the defined properties. We evaluate RACCER in two tasks as well as conduct a user study to show that RL-specific counterfactuals help users better understand agent's behavior compared to the current state-of-the-art approaches.
翻訳日:2023-03-09 14:32:19 公開日:2023-03-08
# DANet:3次元点雲に対する対話的注意を伴う密度適応畳み込みネットワーク

DANet: Density Adaptive Convolutional Network with Interactive Attention for 3D Point Clouds ( http://arxiv.org/abs/2303.04473v1 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Zhengeng Yang, Wei Sun, Mingtao Feng, Ajmal Mian(参考訳) ローカル機能とコンテキスト依存は、3Dポイントクラウド分析に不可欠である。 多くの作業は、文脈依存を利用するより優れた局所畳み込みカーネルを設計することに費やされてきた。 しかし、現在の点畳み込みは、異なる点雲密度に対する堅牢性に欠ける。 さらに、文脈モデリングは計算コストのかかる非局所的あるいは自己意図的なモデルに支配されている。 これらの問題を解決するために,密度適応型畳み込み,DAConvを提案する。 重要なアイデアは、点密度と位置から得られた幾何接続から畳み込み重みを適応的に学習することである。 少ない計算量で正確な文脈依存性を抽出するために,空間情報を異なる方向に沿ってチャネルの注意に埋め込む対話型アテンションモジュール(iam)を提案する。 DAConvとIAMは階層型ネットワークアーキテクチャに統合され、ポイントクラウド分析のための局所密度とコンテキスト方向認識学習を実現する。 実験の結果、DAConvは既存の3Dポイントクラウドデータセットと比較して、ポイント密度に対してかなり堅牢であり、我々のネットワークは、ModelNet40の93.6%の最先端分類結果、S3DISの68.71% mIoUの競合セマンティックセグメンテーション結果、ShapeNetの86.7% mIoUのパートセグメンテーション結果を達成した。

Local features and contextual dependencies are crucial for 3D point cloud analysis. Many works have been devoted to designing better local convolutional kernels that exploit the contextual dependencies. However, current point convolutions lack robustness to varying point cloud density. Moreover, contextual modeling is dominated by non-local or self-attention models which are computationally expensive. To solve these problems, we propose density adaptive convolution, coined DAConv. The key idea is to adaptively learn the convolutional weights from geometric connections obtained from the point density and position. To extract precise context dependencies with fewer computations, we propose an interactive attention module (IAM) that embeds spatial information into channel attention along different spatial directions. DAConv and IAM are integrated in a hierarchical network architecture to achieve local density and contextual direction-aware learning for point cloud analysis. Experiments show that DAConv is significantly more robust to point density compared to existing methods and extensive comparisons on challenging 3D point cloud datasets show that our network achieves state-of-the-art classification results of 93.6% on ModelNet40, competitive semantic segmentation results of 68.71% mIoU on S3DIS and part segmentation results of 86.7% mIoU on ShapeNet.
翻訳日:2023-03-09 14:31:55 公開日:2023-03-08
# 統合的間接的相互性による協力と多様性の進化

The evolution of cooperation and diversity by integrated indirect reciprocity ( http://arxiv.org/abs/2303.04467v1 )

ライセンス: Link先を確認
Tatsuya Sasaki, Satoshi Uchida, Isamu Okada, Hitoshi Yamamoto(参考訳) 間接的相互性は、人間の社会における協力の進化の主要なメカニズムの1つである。 間接的な相互性には上流と下流の2種類がある。 下流の相互の協力は、"誰かを助けて、あなたを助けます"というパターンに従っています。 協力の方向は上流の相互関係で逆転し、代わりに"you helped me, and i will help someone"というパターンに従っている。 実際、これらの2種類の間接的相互性は、しばしば組み合わせて起こる。 しかし、上流と下流の相互性は理論上は孤立して研究されている。 本稿では,両タイプを統合する新しいモデルを提案する。 間接的相互性の標準付与ゲームフレームワークを適用し,進化ゲーム理論を用いてモデルを解析する。 このモデルにより,混合した個体群において,利他的互恵者と自由ライダーの安定な共存が得られた。 また,評価規則の不注意を考慮すると,この混合均衡の安定性が強くなり,グローバルな誘引者も生じることがわかった。 この結果から,社会における多様性と包摂性の創造と維持のために,支援の推進と報奨のサイクルを確立する必要があることが示唆された。

Indirect reciprocity is one of the major mechanisms for the evolution of cooperation in human societies. There are two types of indirect reciprocity: upstream and downstream. Cooperation in downstream reciprocity follows the pattern, 'You helped someone, and I will help you'. The direction of cooperation is reversed in upstream reciprocity, which instead follows the pattern, 'You helped me, and I will help someone else'. In reality, these two types of indirect reciprocity often occur in combination. However, upstream and downstream reciprocity have mostly been studied theoretically in isolation. Here, we propose a new model that integrates both types. We apply the standard giving-game framework of indirect reciprocity and analyze the model by means of evolutionary game theory. We show that the model can result in the stable coexistence of altruistic reciprocators and free riders in well-mixed populations. We also found that considering inattention in the assessment rule can strengthen the stability of this mixed equilibrium, even resulting in a global attractor. Our results indicate that the cycles of forwarding help and rewarding help need to be established for creating and maintaining diversity and inclusion in a society.
翻訳日:2023-03-09 14:31:31 公開日:2023-03-08
# 3次元点雲における局所特徴集合のためのフルポイント符号化

Full Point Encoding for Local Feature Aggregation in 3D Point Clouds ( http://arxiv.org/abs/2303.04458v1 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Zhengeng Yang, Xiaoyan Liu, Wei Sun, Ajmal Mian(参考訳) ポイントクラウド処理手法は,ローカルとグローバル間の内部相関を明示的にモデル化しないアグリゲーションを通じて,ローカルポイント機能とグローバルコンテキストを利用する。 この問題に対処するために,畳み込みおよびトランスフォーマーアーキテクチャに適用可能な全点符号化を提案する。 具体的には,Full Point Convolution (FPConv) アーキテクチャとFull Point Transformer (FPTransformer) アーキテクチャを提案する。 鍵となる考え方は、局所的および大域的幾何学的接続から重みを適応的に学習することであり、それぞれが局所的および大域的相関関数によって接続を確立する。 FPConvとFPTransformerは、局所的および大域的幾何学的関係と内部相関を同時にモデル化し、強力な一般化能力と高い性能を示す。 fpconvは、ローカルおよびグローバル形状認識学習を達成するために、古典的な階層ネットワークアーキテクチャに組み込まれている。 fptransformerでは,大域および局所受容野の各点位置を階層的に符号化するセルフアテンションにおける全点位置符号化を導入する。 また,局所的な形状とグローバルな文脈を考慮した形状認識型ダウンサンプリングブロックを提案する。 ベンチマークデータセットにおける既存の手法との実験的比較は、fpconvとfptransformerが意味セグメンテーション、オブジェクト検出、分類、正規推定タスクに有効であることを示している。 特に,S3DIS 6倍の76% mIoU,S3DIS Area5の72.2%の最先端セマンティックセマンティックセグメンテーション結果を得た。

Point cloud processing methods exploit local point features and global context through aggregation which does not explicity model the internal correlations between local and global features. To address this problem, we propose full point encoding which is applicable to convolution and transformer architectures. Specifically, we propose Full Point Convolution (FPConv) and Full Point Transformer (FPTransformer) architectures. The key idea is to adaptively learn the weights from local and global geometric connections, where the connections are established through local and global correlation functions respectively. FPConv and FPTransformer simultaneously model the local and global geometric relationships as well as their internal correlations, demonstrating strong generalization ability and high performance. FPConv is incorporated in classical hierarchical network architectures to achieve local and global shape-aware learning. In FPTransformer, we introduce full point position encoding in self-attention, that hierarchically encodes each point position in the global and local receptive field. We also propose a shape aware downsampling block which takes into account the local shape and the global context. Experimental comparison to existing methods on benchmark datasets show the efficacy of FPConv and FPTransformer for semantic segmentation, object detection, classification, and normal estimation tasks. In particular, we achieve state-of-the-art semantic segmentation results of 76% mIoU on S3DIS 6-fold and 72.2% on S3DIS Area5.
翻訳日:2023-03-09 14:31:13 公開日:2023-03-08
# アプリレビューの分析による技術価値ストリームの推進」論文の編集にあたって

An Annexure to the Paper "Driving the Technology Value Stream by Analyzing App Reviews" ( http://arxiv.org/abs/2303.04519v1 )

ライセンス: Link先を確認
Souvick Das, Novarun Deb, Agostino Cortesi and Nabendu Chaki(参考訳) 本稿では,NLP(Natural Language Processing)技術を用いて,モバイルアプリケーションのユーザフィードバックを理解する新しいフレームワークを提案する。 このフレームワークにより、ソフトウェア企業はユーザレビューに基づいた技術バリューストリームを推進でき、改善すべき領域を強調することができる。 フレームワークは深く分析され、モジュールはその有効性について評価される。 提案手法は,16種類のandroid play storeアプリケーションのレビューを長期にわたって分析することにより有効であることが実証された。

This paper presents a novel framework that utilizes Natural Language Processing (NLP) techniques to understand user feedback on mobile applications. The framework allows software companies to drive their technology value stream based on user reviews, which can highlight areas for improvement. The framework is analyzed in depth, and its modules are evaluated for their effectiveness. The proposed approach is demonstrated to be effective through an analysis of reviews for sixteen popular Android Play Store applications over a long period of time.
翻訳日:2023-03-09 14:24:14 公開日:2023-03-08
# 共振器光に結合した吊り鏡の量子状態-振り子と回転モードのウィナーフィルタ解析

Quantum state of a suspended mirror coupled to cavity light -- Wiener filter analysis of the pendulum and rotational modes ( http://arxiv.org/abs/2303.04511v1 )

ライセンス: Link先を確認
Tomoya Shichijo, Nobuyuki Matsumoto, Akira Matsumura, Daisuke Miki, Yuuki Sugiyama, Kazuhiro Yamamoto(参考訳) Weenerフィルタを用いた連続測定およびフィードバック制御により,光学懸濁鏡の量子状態を検討した。 我々は、懸濁鏡の2モード理論が振り子モードと回転モードで記述された量子状態に与える影響に焦点を当てる。 これは、ビームの内部摩擦やミラーの有限サイズ効果を含む低周波状態のキャビティ光に結合されたビームモデルに由来する。 2モード理論のためのワイナーフィルタを構築し,ワイナーフィルタ解析を用いて条件付き共分散行列の評価を行い,量子状態を予測する。 その結果, 多重モード解析は量子圧縮状態の生成に重要な役割を果たすことが示された。 また,ワイナーフィルタ解析におけるフーリエ空間の範囲を選択することで,一モード解析がよい近似となる可能性も指摘した。

We investigated the quantum state of an optomechanical suspended mirror under continuous measurement and feedback control using Wiener filtering. We focus on the impact of the two-mode theory of suspended mirror on the quantum state, which is described by the pendulum and rotational modes. It is derived from the beam model coupled to the cavity light in the low-frequency regime, including the internal friction of the beam and the finite size effect of the mirror. We constructed a Wiener filter for the two-mode theory and predicted the quantum state by evaluating the conditional covariance matrix using Wiener filter analysis. The results demonstrate that multimode analysis may play an important role in generating the quantum squeezed state. We also point out the possibility that one-mode analysis can be a good approximation by choosing the range of the Fourier space in the Wiener filter analysis.
翻訳日:2023-03-09 14:24:08 公開日:2023-03-08
# FastSurf: フレームごとの内在的微細化とTSDF融合による高速ニューラルネットワークRGB-D表面再構成

FastSurf: Fast Neural RGB-D Surface Reconstruction using Per-Frame Intrinsic Refinement and TSDF Fusion Prior Learning ( http://arxiv.org/abs/2303.04508v1 )

ライセンス: Link先を確認
Seunghwan Lee, Gwanmo Park, Hyewon Son, Jiwon Ryu, Han Joo Chae(参考訳) 我々は3次元再構成のための深度情報を含むNeRFフレームワークであるFastSurfを紹介する。 密度の高い特徴格子と浅い多層パーセプトロンは、シーン全体の高速かつ正確な表面最適化に使用される。 本手法は,グローバル最適化では処理できないフレーム固有の誤りを補正する。 さらに、FastSurfは従来のリアルタイム3次元表面再構成手法であるTSDFフュージョンを、事前の知識として利用し、特徴格子を事前訓練してトレーニングを加速させる。 本研究では,FastSurfの性能と先行作業とを比較した定量的,定性的な実験により,高速かつ高精度にシーンを再現できることを示す。 また,フレームごとの本質的改良とtsdfの事前学習手法の有効性をアブレーション実験により実証した。

We introduce FastSurf, an accelerated neural radiance field (NeRF) framework that incorporates depth information for 3D reconstruction. A dense feature grid and shallow multi-layer perceptron are used for fast and accurate surface optimization of the entire scene. Our per-frame intrinsic refinement scheme corrects the frame-specific errors that cannot be handled by global optimization. Furthermore, FastSurf utilizes a classical real-time 3D surface reconstruction method, the truncated signed distance field (TSDF) Fusion, as prior knowledge to pretrain the feature grid to accelerate the training. The quantitative and qualitative experiments comparing the performances of FastSurf against prior work indicate that our method is capable of quickly and accurately reconstructing a scene with high-frequency details. We also demonstrate the effectiveness of our per-frame intrinsic refinement and TSDF Fusion prior learning techniques via an ablation study.
翻訳日:2023-03-09 14:23:54 公開日:2023-03-08
# 電波による物体検出とセグメンテーション--ディープラーニング手法のベンチマーク

Radio astronomical images object detection and segmentation: A benchmark on deep learning methods ( http://arxiv.org/abs/2303.04506v1 )

ライセンス: Link先を確認
Renato Sortino, Daniel Magro, Giuseppe Fiameni, Eva Sciacca, Simone Riggi, Andrea DeMarco, Concetto Spampinato, Andrew M. Hopkins, Filomena Bufano, Francesco Schillir\`o, Cristobal Bordiu, Carmelo Pino(参考訳) 近年、深層学習は様々な科学分野に応用されている。 これらの有望な成果と性能に続いて、最近は電波天文学の分野でも評価が始まっている。 特に、電波天文学は、世界最大の望遠鏡であるスクエア・キロメア・アレー(SKA)の出現とともに、ビッグデータ時代に入ってきており、自動物体検出とインスタンス分割のタスクは、情報源の発見と分析に不可欠である。 本研究では,電波干渉計による天体画像に適用した,最も肯定的な深層学習手法の性能について検討し,自動音源検出の課題を解決する。 これは、オブジェクト検出とセマンティックセグメンテーションという2つの異なるタスクを達成するために設計されたモデルを適用することで実現される。 目標は、予測性能と計算効率の観点から既存の技術の概要を、彼らの研究に機械学習を使いたいと考える天体物理学コミュニティの科学者に提供することである。

In recent years, deep learning has been successfully applied in various scientific domains. Following these promising results and performances, it has recently also started being evaluated in the domain of radio astronomy. In particular, since radio astronomy is entering the Big Data era, with the advent of the largest telescope in the world - the Square Kilometre Array (SKA), the task of automatic object detection and instance segmentation is crucial for source finding and analysis. In this work, we explore the performance of the most affirmed deep learning approaches, applied to astronomical images obtained by radio interferometric instrumentation, to solve the task of automatic source detection. This is carried out by applying models designed to accomplish two different kinds of tasks: object detection and semantic segmentation. The goal is to provide an overview of existing techniques, in terms of prediction performance and computational efficiency, to scientists in the astrophysics community who would like to employ machine learning in their research.
翻訳日:2023-03-09 14:23:39 公開日:2023-03-08
# 免疫防御 : 敵の事例の発生を防ぐ新しい防御機構

Immune Defense: A Novel Adversarial Defense Mechanism for Preventing the Generation of Adversarial Examples ( http://arxiv.org/abs/2303.04502v1 )

ライセンス: Link先を確認
Jinwei Wang, Hao Wu, Haihua Wang, Jiawei Zhang, Xiangyang Luo, Bin Ma(参考訳) 敵の例に対するディープニューラルネットワーク(DNN)の脆弱性が確認されている。 既存の敵の防御は主に、敵がdnnをうまく攻撃することを防ぐことを目的としている。 敵の例の生成が規制されていない場合、リーチ内の画像はもはや安全ではなく、非ロバストなDNNに脅威をもたらす。 勾配難読化はこの問題に対処しようとするが、回避可能であることが示されている。 そこで本研究では,免疫防御と呼ばれる新しい対人防御機構を提案する。 本機構は、原画像に対する準知覚的摂動を慎重に設計し、原画像の逆例の発生を防止し、画像とDNNの両方を保護する。 これらの混乱したイメージを免疫例(IE)と呼ぶ。 ホワイトボックス免疫防御では、それぞれ勾配に基づくアプローチと最適化に基づくアプローチを提供する。 さらに、より複雑なブラックボックス免疫防御も考慮されている。 そこで我々は,Masked Gradient Sign Descent (MGSD)を提案し,近似誤差を低減し,IEの転送性を向上させるために更新を安定化し,ブラックボックス攻撃に対する有効性を確保する。 実験の結果, 最適化に基づくアプローチは, ホワイトボックス免疫防御において優れた性能と視覚品質を有することがわかった。 対照的に,グラデーションベースアプローチは移動性が強く,提案するmgsdはベースラインの移動性を大幅に向上させる。

The vulnerability of Deep Neural Networks (DNNs) to adversarial examples has been confirmed. Existing adversarial defenses primarily aim at preventing adversarial examples from attacking DNNs successfully, rather than preventing their generation. If the generation of adversarial examples is unregulated, images within reach are no longer secure and pose a threat to non-robust DNNs. Although gradient obfuscation attempts to address this issue, it has been shown to be circumventable. Therefore, we propose a novel adversarial defense mechanism, which is referred to as immune defense and is the example-based pre-defense. This mechanism applies carefully designed quasi-imperceptible perturbations to the raw images to prevent the generation of adversarial examples for the raw images, and thereby protecting both images and DNNs. These perturbed images are referred to as Immune Examples (IEs). In the white-box immune defense, we provide a gradient-based and an optimization-based approach, respectively. Additionally, the more complex black-box immune defense is taken into consideration. We propose Masked Gradient Sign Descent (MGSD) to reduce approximation error and stabilize the update to improve the transferability of IEs and thereby ensure their effectiveness against black-box adversarial attacks. The experimental results demonstrate that the optimization-based approach has superior performance and better visual quality in white-box immune defense. In contrast, the gradient-based approach has stronger transferability and the proposed MGSD significantly improve the transferability of baselines.
翻訳日:2023-03-09 14:23:22 公開日:2023-03-08
# パラメータ化多量子ポーリゲートの最適ハードウェアネイティブ分解

Optimal, hardware native decomposition of parameterized multi-qubit Pauli gates ( http://arxiv.org/abs/2303.04498v1 )

ライセンス: Link先を確認
P.V. Sriluckshmy, Vicente Pina-Canelles, Mario Ponce, Manuel G. Algaba, Fedor \v{S}imkovic IV and Martin Leib(参考訳) パラメータ化されたマルチキュービットパウリ(pmqp)ゲートを、回路深度とp2qpゲートの数を最小化するネイティブパラメータ化された2キュービットパウリ(p2qp)ゲートに効率的に分解する方法を示す。 現実的な量子計算モデルを考えると、ハードウェアネイティブゲートの数と分解の全体的な深さの観点から、この手法が最適であると主張する。 path と star のハードウェアグラフに対する pmqp ゲート分解から始まり、手続きを任意の汎用ハードウェアグラフに一般化し、分解の深さと p2qp ゲートの数の正確な表現を提供する。 さらに,Lechner-Hauke-Zoller (LHZ) マッピングを用いた組合せ最適化問題に対して,複数のPMQPゲートの分解とP2QPゲートの増減を効率的に組み合わせる方法について述べる。

We show how to efficiently decompose a parameterized multi-qubit Pauli (PMQP) gate into native parameterized two-qubit Pauli (P2QP) gates minimizing both the circuit depth and the number of P2QP gates. Given a realistic quantum computational model, we argue that the technique is optimal in terms of the number of hardware native gates and the overall depth of the decomposition. Starting from PMQP gate decompositions for the path and star hardware graph, we generalize the procedure to any generic hardware graph and provide exact expressions for the depth and number of P2QP gates of the decomposition. Furthermore, we show how to efficiently combine the decomposition of multiple PMQP gates to further reduce the depth as well as the number of P2QP gates for a combinatorial optimization problem using the Lechner-Hauke-Zoller (LHZ) mapping.
翻訳日:2023-03-09 14:23:00 公開日:2023-03-08
# テキストに基づく人物検索のための視覚言語事前学習からのテキストポテンシャルの爆発

Exploiting the Textual Potential from Vision-Language Pre-training for Text-based Person Search ( http://arxiv.org/abs/2303.04497v1 )

ライセンス: Link先を確認
Guanshuo Wang, Fufu Yu, Junjie Li, Qiong Jia, Shouhong Ding(参考訳) テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。 近年のVision-Language Pre-Training(VLP)モデルは、下流のTPSタスクに伝達可能な知識をもたらし、より効率的なパフォーマンス向上をもたらす。 しかしながら、VLPにより改善された既存のTPS法は、事前学習された視覚エンコーダのみを使用し、対応するテキスト表現を無視し、大規模な事前学習から得られた重要なモダリティアライメントを破る。 本稿では,TPSタスクにおけるVLPからのテキストポテンシャルのフル活用について検討する。 提案するvlp-tpsベースラインモデルに基づいて,事前学習した2つのモードを持つ最初のtpsモデルを構築した。 トレーニング中に細粒度コーパスの異なる成分を組み込むことにより、テキストモダリティの堅牢性を高めるために、MIDC(Multi-Integrity Description Constraints)を提案する。 VLPモデルを用いたゼロショット分類の迅速なアプローチに着想を得て,動的属性の統一コーパスを画像モダリティの言語ヒントとして提供するための動的属性プロンプト(DAP)を提案する。 実験の結果,提案するTPSフレームワークは,従来の最良手法のマージンを超え,最先端性能を実現していることがわかった。

Text-based Person Search (TPS), is targeted on retrieving pedestrians to match text descriptions instead of query images. Recent Vision-Language Pre-training (VLP) models can bring transferable knowledge to downstream TPS tasks, resulting in more efficient performance gains. However, existing TPS methods improved by VLP only utilize pre-trained visual encoders, neglecting the corresponding textual representation and breaking the significant modality alignment learned from large-scale pre-training. In this paper, we explore the full utilization of textual potential from VLP in TPS tasks. We build on the proposed VLP-TPS baseline model, which is the first TPS model with both pre-trained modalities. We propose the Multi-Integrity Description Constraints (MIDC) to enhance the robustness of the textual modality by incorporating different components of fine-grained corpus during training. Inspired by the prompt approach for zero-shot classification with VLP models, we propose the Dynamic Attribute Prompt (DAP) to provide a unified corpus of fine-grained attributes as language hints for the image modality. Extensive experiments show that our proposed TPS framework achieves state-of-the-art performance, exceeding the previous best method by a margin.
翻訳日:2023-03-09 14:22:44 公開日:2023-03-08
# menucraft: 大きな言語モデルによるインタラクティブなメニューシステム設計

MenuCraft: Interactive Menu System Design with Large Language Models ( http://arxiv.org/abs/2303.04496v1 )

ライセンス: Link先を確認
Amir Hossein Kargaran, Nafiseh Nikeghbal, Abbas Heydarnoori and Hinrich Sch\"utze(参考訳) メニューシステム設計は多くの設計オプションと様々なヒューマンファクターを含む課題である。 例えば、デザイナーが考慮する必要がある重要な要素はメニューコマンドの意味的かつ体系的な関係である。 しかし、利用可能なリソースが限られているため、これらの関係を捉えることは困難である。 ニューラル言語モデルの進歩により、大きな言語モデルはメニューシステムの設計と精錬において、既存の膨大な知識を利用することができる。 本稿では,メニューデザインのためのai支援デザイナーであるメニュークラフトを提案する。 MenuCraftはインタラクティブな言語ベースのメニューデザインツールで、メニューデザインプロセスをシンプルにし、デザインオプションを簡単にカスタマイズできる。 menucraftはダイアログを通じてさまざまなインタラクションをサポートし、最小限の学習を実行できる。

Menu system design is a challenging task involving many design options and various human factors. For example, one crucial factor that designers need to consider is the semantic and systematic relation of menu commands. However, capturing these relations can be challenging due to limited available resources. With the advancement of neural language models, large language models can utilize their vast pre-existing knowledge in designing and refining menu systems. In this paper, we propose MenuCraft, an AI-assisted designer for menu design that enables collaboration between the designer and a dialogue system to design menus. MenuCraft offers an interactive language-based menu design tool that simplifies the menu design process and enables easy customization of design options. MenuCraft supports a variety of interactions through dialog that allows performing few-shot learning.
翻訳日:2023-03-09 14:22:19 公開日:2023-03-08
# 高次量子断熱除去における還元ダイナミクスの完全正性違反

Complete positivity violation of the reduced dynamics in higher-order quantum adiabatic elimination ( http://arxiv.org/abs/2303.04495v1 )

ライセンス: Link先を確認
Masaaki Tokieda, Cyril Elouard, Alain Sarlette, Pierre Rouchon(参考訳) 本稿では,より遅い時間スケールで他のサブシステムと結合した高速減衰サブシステムからなる複合リンドブラッドシステムのモデル還元手法である量子断熱除去について論じる。 そのような系は、遅い部分系に近い不変多様体を特徴とする。 この不変多様体は、速い自由度が崩壊した後に到達し、その後、ゆっくりとした力学がそれに続く。 不変多様体のパラメトリゼーションにより、スローダイナミクスは縮小モデルを通してシミュレートできる。 縮小状態の進化を見出すため、時間スケールの分離に関して漸近的な拡張を行う。 これまでのところ、第2次拡張はほとんど検討されている。 その後、還元力学の2階展開は一般的にリンドブラッド方程式によって与えられることが判明し、時間進化の完全な肯定性を保証する。 本稿では,還元力学の完全正の正の値が高次寄与に反する2つの例を示す。 最初の例では、漸近展開の停止なしに部分的トレースの進化に対して違反が検出される。 部分的トレースは、遅いダイナミクスをパラメータ化する唯一の方法ではない。 この非特異性については、(R. Azouit, F. Chittaro, A. Sarlette, P. Rouchon, Quantum Sci. Technol. 2, 044011 (2017)) において、完全正当性を保証するパラメータ選択が存在すると推測された。 しかし、第2の例では、全正性が任意のパラメータ化の選択において復元できないことを示すことによって、この予想を反論する。 これらの結果は、不変なスロー多様体の初期状態において、高速と遅い自由度の間の不可避な相関の観点から議論される。

This paper discusses quantum adiabatic elimination, which is a model reduction technique for a composite Lindblad system consisting of a fast decaying sub-system coupled to another sub-system with a much slower timescale. Such a system features an invariant manifold that is close to the slow sub-system. This invariant manifold is reached subsequent to the decay of the fast degrees of freedom, after which the slow dynamics follow on it. By parametrizing invariant manifold, the slow dynamics can be simulated via a reduced model. To find the evolution of the reduced state, we perform the asymptotic expansion with respect to the timescale separation. So far, the second-order expansion has mostly been considered. It has then been revealed that the second-order expansion of the reduced dynamics is generally given by a Lindblad equation, which ensures complete positivity of the time evolution. In this paper, we present two examples where complete positivity of the reduced dynamics is violated with higher-order contributions. In the first example, the violation is detected for the evolution of the partial trace without truncation of the asymptotic expansion. The partial trace is not the only way to parametrize the slow dynamics. Concerning this non-uniqueness, it was conjectured in [R. Azouit, F. Chittaro, A. Sarlette, and P. Rouchon, Quantum Sci. Technol. 2, 044011 (2017)] that there exists a parameter choice ensuring complete positivity. With the second example, however, we refute this conjecture by showing that complete positivity cannot be restored in any choice of parametrization. We discuss these results in terms of unavoidable correlations, in the initial states on the invariant slow manifold, between the fast and the slow degrees of freedom.
翻訳日:2023-03-09 14:22:09 公開日:2023-03-08
# T深度に制限のあるフォールトトレラント変動量子アルゴリズム

A fault-tolerant variational quantum algorithm with limited T-depth ( http://arxiv.org/abs/2303.04491v1 )

ライセンス: Link先を確認
Hasan Sayginel, Francois Jamet, Abhishek Agarwal, Dan E. Browne and Ivan Rungger(参考訳) 本稿では,フォールトトレラントゲートセットを用いた可変量子固有解法(VQE)アルゴリズムを提案する。 VQE量子回路は一般に、短期的、ノイズの多い量子デバイスのために設計され、中央のビルディングブロックとして連続的にパラメータ化された回転ゲートを持つ。 一方、フォールトトレラントな量子コンピュータは、いわゆるクリフォード+Tゲートのような論理ゲートの離散セットしか実装できない。 ここではロス・セリンガーアルゴリズムを用いて連続回転ゲートを誤り訂正可能なクリフォード+Tゲートセットに変換する。 また,VQE最適化において,適応精度を用いた場合,パラメータ化回路と比較して収束の損失は生じないことがわかった。 VQEによる状態調製は、システムサイズとトランスパイル精度に応じて、適度な数のTゲートしか必要としない。 16量子ビットまでの2つの原型スピンモデルのエミュレータ上で、これらの特性を実証する。 これは、vqeとより一般的な変分アルゴリズムを、フォールトトレラントな設定で統合する有望な結果であり、フォールトトレラントな量子コンピュータでアクセス可能な一般的な量子アルゴリズムのビルディングブロックを形成することができる。

We propose a variational quantum eigensolver (VQE) algorithm that uses a fault-tolerant gate-set, and is hence suitable for implementation on a future error-corrected quantum computer. VQE quantum circuits are typically designed for near-term, noisy quantum devices and have continuously parameterized rotation gates as the central building block. On the other hand, a fault-tolerant quantum computer can only implement a discrete set of logical gates, such as the so-called Clifford+T gates. We show that the energy minimization of VQE can be performed with such a fault-tolerant discrete gate-set, where we use the Ross-Selinger algorithm to transpile the continuous rotation gates to the error-correctable Clifford+T gate-set. We find that there is no loss of convergence when compared to the one of parameterized circuits if an adaptive accuracy of the transpilation is used in the VQE optimization. State preparation with VQE requires only a moderate number of T-gates, depending on the system size and transpilation accuracy. We demonstrate these properties on emulators for two prototypical spin models with up to 16 qubits. This is a promising result for the integration of VQE and more generally variational algorithms in the emerging fault-tolerant setting, where they can form building blocks of the general quantum algorithms that will become accessible in a fault-tolerant quantum computer.
翻訳日:2023-03-09 14:21:41 公開日:2023-03-08
# 球面上のノイズデータフィッティングのための球面設計によるスケッチ

Sketching with Spherical Designs for Noisy Data Fitting on Spheres ( http://arxiv.org/abs/2303.04550v1 )

ライセンス: Link先を確認
Shao-Bo Lin, Di Wang, Ding-Xuan Zhou(参考訳) 本稿では,球面データ適合のための古典的球面基底関数アプローチに適用した,球面設計に基づくスケッチ手法を提案する。 提案手法の実現可能性を示すために,理論解析と数値検証を行う。 理論的には,球面設計に基づくスケッチは近似性を犠牲にすることなく,球面基底関数アプローチの計算負担を軽減できることを実証する。 特に,提案した<スケッチング>戦略に対して,ノイズの多いデータを球面に収まるための上下境界を提供する。 実験的な側面から,球面基底関数アプローチと同等の適合性能を示すことにより,スケッチ戦略の有効性を数値的に説明する。 これらの興味深い知見は,提案手法が球面上に大規模でノイズの多いデータを適合させることができることを示す。

This paper proposes a sketching strategy based on spherical designs, which is applied to the classical spherical basis function approach for massive spherical data fitting. We conduct theoretical analysis and numerical verifications to demonstrate the feasibility of the proposed { sketching} strategy. From the theoretical side, we prove that sketching based on spherical designs can reduce the computational burden of the spherical basis function approach without sacrificing its approximation capability. In particular, we provide upper and lower bounds for the proposed { sketching} strategy to fit noisy data on spheres. From the experimental side, we numerically illustrate the feasibility of the sketching strategy by showing its comparable fitting performance with the spherical basis function approach. These interesting findings show that the proposed sketching strategy is capable of fitting massive and noisy data on spheres.
翻訳日:2023-03-09 14:15:32 公開日:2023-03-08
# クラウドソーシングにおける貢献者の資格と行動の推定と回答の集約

Estimation of the qualification and behavior of a contributor and aggregation of his answers in a crowdsourcing context ( http://arxiv.org/abs/2303.04548v1 )

ライセンス: Link先を確認
Constance Thierry (IRISA-D7, IRISA, DRUID), Arnaud Martin (DRUID), Jean-Christophe Dubois (DRUID), Yolande Le Gall (DRUID)(参考訳) クラウドソーシング(crowdsourcing)とは、専用のプラットフォーム上のコントリビュータの群集にタスクをアウトソーシングすることである。 これらのプラットフォーム上の群衆は非常に多様化しており、不均一な品質のデータを生成するさまざまなコントリビュータのプロファイルを含んでいる。 しかし、プラットフォームで一般的に使用される集約方式である多数決は、各コントリビューションに等しい重みを与える。 そこで本研究では,投稿者のプロファイルを推定し,信条関数の理論による不完全性を考慮し,収集したデータを集約する手法である monitorを提案する。 そのため、MONITORは、作業の資格と行動を通じて、貢献者のプロファイルを推定することから始まり、既存のアプローチと比較するために、実際のデータ上でMONITORをテストするために必要なデータを収集するクラウドソーシングキャンペーンが実施されている。 実験の結果,MONITOR法を用いることで,コントリビューションの集計後の正解率を多数投票よりも向上させることができた。 この記事における我々の貢献は、彼のプロファイルの推定において、貢献者の資格と彼の行動の両方を考慮に入れるモデルの提案を初めて行います。 2つ目は、推定されたプロファイルに従って回答の弱化と集約である。

Crowdsourcing is the outsourcing of tasks to a crowd of contributors on a dedicated platform. The crowd on these platforms is very diversified and includes various profiles of contributors which generates data of uneven quality. However, majority voting, which is the aggregating method commonly used in platforms, gives equal weight to each contribution. To overcome this problem, we propose a method, MONITOR, which estimates the contributor's profile and aggregates the collected data by taking into account their possible imperfections thanks to the theory of belief functions. To do so, MONITOR starts by estimating the profile of the contributor through his qualification for the task and his behavior.Crowdsourcing campaigns have been carried out to collect the necessary data to test MONITOR on real data in order to compare it to existing approaches. The results of the experiments show that thanks to the use of the MONITOR method, we obtain a better rate of correct answer after aggregation of the contributions compared to the majority voting. Our contributions in this article are for the first time the proposal of a model that takes into account both the qualification of the contributor and his behavior in the estimation of his profile. For the second one, the weakening and the aggregation of the answers according to the estimated profiles.
翻訳日:2023-03-09 14:15:19 公開日:2023-03-08
# 正規回帰のための一様分布

Unimodal Distributions for Ordinal Regression ( http://arxiv.org/abs/2303.04547v1 )

ライセンス: Link先を確認
Jaime S. Cardoso and Ricardo Cruz and Tom\'e Albuquerque(参考訳) 多くの実世界の予測タスクでは、クラスラベルはラベル間の相対順序に関する情報を含んでおり、マルチカテゴリクロスエントロピーのような一般的な損失関数ではキャプチャされない。 近年,そのような順序付け情報を考慮したモデルや損失関数に,出力空間における一様分布の嗜好が組み込まれている。 しかし、現在のアプローチは理論的基礎を持たないヒューリスティックスに依存している。 本稿では,一様分布の選好を予測モデルに組み込むための2つの新しいアプローチを提案する。 確率シンプレックスにおける一様分布の集合を解析し,基本特性を定式化する。 次に、一様分布を課す新しいアーキテクチャと、一様性を促進する集合における射影の概念に依存する新しい損失項を提案する。 実験では、新しいアーキテクチャはトップ2のパフォーマンスを達成するが、提案された新しい損失項は、高い一様性を維持しながら非常に競争力がある。

In many real-world prediction tasks, class labels contain information about the relative order between labels that are not captured by commonly used loss functions such as multicategory cross-entropy. Recently, the preference for unimodal distributions in the output space has been incorporated into models and loss functions to account for such ordering information. However, current approaches rely on heuristics that lack a theoretical foundation. Here, we propose two new approaches to incorporate the preference for unimodal distributions into the predictive model. We analyse the set of unimodal distributions in the probability simplex and establish fundamental properties. We then propose a new architecture that imposes unimodal distributions and a new loss term that relies on the notion of projection in a set to promote unimodality. Experiments show the new architecture achieves top-2 performance, while the proposed new loss term is very competitive while maintaining high unimodality.
翻訳日:2023-03-09 14:14:57 公開日:2023-03-08
# 逐次適応重要度サンプリングを用いた等値情報を用いたロバストな信頼度更新法

A robust method for reliability updating with equality information using sequential adaptive importance sampling ( http://arxiv.org/abs/2303.04545v1 )

ライセンス: Link先を確認
Xiong Xiao, Zeyu Wang, Quanwang Li(参考訳) 信頼性更新とは、ベイズ的更新手法と構造的信頼性解析を統合する問題であり、平等な情報を含む場合、構造的信頼性手法(srm)では直接解決できない。 最先端のアプローチは、補助標準正規パラメータを導入して、平等情報を不等式情報に変換する。 しかし, これらの手法は, 確率関数の最大値を求めるのが難しいこと, 後続故障確率に付随する大きな変動係数(COV), 新たな情報が常に利用可能となる動的更新問題への適用性などにより, 計算効率の低下に直面する。 このような制約を克服するために, RU-SAIS (Reliability updated using sequence Adaptive importance sample) と呼ばれる, 逐次重要度サンプリングとK平均クラスタリングを組み合わせた, ガウス混合を用いた一連の重要なサンプリング密度 (ISD) の構築手法を提案する。 配列の最後のIDDは、クロスエントロピー法の適用により、さらに適応的に修正される。 RU-SAISのパフォーマンスを3つの例で示す。 その結果,ru-saisは部分集合シミュレーションなどの既存手法よりも高精度でロバストな後方故障確率推定が可能となった。

Reliability updating refers to a problem that integrates Bayesian updating technique with structural reliability analysis and cannot be directly solved by structural reliability methods (SRMs) when it involves equality information. The state-of-the-art approaches transform equality information into inequality information by introducing an auxiliary standard normal parameter. These methods, however, encounter the loss of computational efficiency due to the difficulty in finding the maximum of the likelihood function, the large coefficient of variation (COV) associated with the posterior failure probability and the inapplicability to dynamic updating problems where new information is constantly available. To overcome these limitations, this paper proposes an innovative method called RU-SAIS (reliability updating using sequential adaptive importance sampling), which combines elements of sequential importance sampling and K-means clustering to construct a series of important sampling densities (ISDs) using Gaussian mixture. The last ISD of the sequence is further adaptively modified through application of the cross entropy method. The performance of RU-SAIS is demonstrated by three examples. Results show that RU-SAIS achieves a more accurate and robust estimator of the posterior failure probability than the existing methods such as subset simulation.
翻訳日:2023-03-09 14:14:42 公開日:2023-03-08
# コミュニケーションにおけるシンボルの出現モデル--概念的レビューと局所的ミニマを避けるためのガイド

Models of symbol emergence in communication: a conceptual review and a guide for avoiding local minima ( http://arxiv.org/abs/2303.04544v1 )

ライセンス: Link先を確認
Julian Zubek, Tomasz Korbak, Joanna R\k{a}czaszek-Leonardi(参考訳) 計算シミュレーションは、コミュニケーションの出現に関する仮説をテストする一般的な方法である。 この種の研究は、言語進化、発達心理学、認知科学、機械学習、ロボット工学など、様々な伝統で行われている。 モデルのモチベーションは異なるが、使用される運用や方法はしばしば似ている。 我々は、いくつかの代表的なモデルの仮定と説明対象を特定し、既知の結果を要約する。 マッピングの観点で意味を表現すること、コミュニケーションの記述的機能に焦点を当てること、アモーダルトークンによる信号のモデリングなど、いくつかの仮定がモデリングの成功を妨げる可能性があると我々は主張する。 これらの仮定を緩和し、具体化および配置されたエージェントの相互作用を前倒しすることで、象徴的なシステムが進化する圧力の多重性を体系化することができる。 この観点から,シンボルを行動と知覚を同時に基礎とし,抽象的なシステムを形成する意味あるシンボルコミュニケーションの出現をモデル化するための道筋をスケッチする。

Computational simulations are a popular method for testing hypotheses about the emergence of communication. This kind of research is performed in a variety of traditions including language evolution, developmental psychology, cognitive science, machine learning, robotics, etc. The motivations for the models are different, but the operationalizations and methods used are often similar. We identify the assumptions and explanatory targets of several most representative models and summarise the known results. We claim that some of the assumptions -- such as portraying meaning in terms of mapping, focusing on the descriptive function of communication, modelling signals with amodal tokens -- may hinder the success of modelling. Relaxing these assumptions and foregrounding the interactions of embodied and situated agents allows one to systematise the multiplicity of pressures under which symbolic systems evolve. In line with this perspective, we sketch the road towards modelling the emergence of meaningful symbolic communication, where symbols are simultaneously grounded in action and perception and form an abstract system.
翻訳日:2023-03-09 14:14:19 公開日:2023-03-08
# 純粋退化系のハイブリッド量子古典力学

Hybrid quantum-classical dynamics of pure-dephasing systems ( http://arxiv.org/abs/2303.04538v1 )

ライセンス: Link先を確認
Giovanni Manfredi, Antoine Rittaud, Cesare Tronci(参考訳) 古典発振器と量子2レベル系の相互作用ダイナミクスを,$\widehat{h}(q,p)=h_c(q,p)\boldsymbol{1}+h_i(q,p)\widehat{\sigma}_z$の異なる純粋デファクトハミルトニアンに対して検討する。 このタイプのシステムは、一般的なハイブリッド量子古典的記述に対する厳しい挑戦を表している。 例えば、エレンフェストモデルの場合、古典密度の進化は純粋に強調される量子力学から完全に分離することが示されている。 古典力学の波動関数記述に基づく,最近提案されているハイブリッド波動方程式に着目する。 このモデルはカップリングポテンシャルが存在するたびに量子古典相関を保持する。 ここでは、いくつかのベンチマーク問題を考慮し、完全な量子力学による結果と比較する。 線形および二次結合を持つ高調波発振器と時変結合パラメータを含む一連の研究事例について良好な一致が得られた。 これらすべてのケースにおいて、古典的進化は、完全に古典的な記述から生じる振動子力学と完全に一致する。 周波数の異なる古典振動子への時間非依存結合の特別な場合、量子ブロッホ回転はハイブリッド記述から逃れる特異な特徴を示す。 さらに、高調波ハミルトニアンへの非線形補正は、完全な量子処理に存在しない長い時間におけるデコヒーレンスの全体的な成長をもたらす。

We consider the interaction dynamics of a classical oscillator and a quantum two-level system for different pure-dephasing Hamiltonians of the type $\widehat{H}(q,p)=H_C(q,p)\boldsymbol{1}+H_I(q,p)\widehat{\sigma}_z$. This type of systems represents a severe challenge for popular hybrid quantum-classical descriptions. For example, in the case of the Ehrenfest model, the classical density evolution is shown to decouple entirely from the pure-dephasing quantum dynamics. We focus on a recently proposed hybrid wave equation that is based on Koopman's wavefunction description of classical mechanics. This model retains quantum-classical correlations whenever a coupling potential is present. Here, several benchmark problems are considered and the results are compared with those arising from fully quantum dynamics. A good agreement is found for a series of study cases involving harmonic oscillators with linear and quadratic coupling, as well as time-varying coupling parameters. In all these cases the classical evolution coincides exactly with the oscillator dynamics resulting from the fully classical description. In the special case of time-independent coupling to a classical oscillator with varying frequency, the quantum Bloch rotation exhibits peculiar features that escape from the hybrid description. In addition, nonlinear corrections to the harmonic Hamiltonian lead to an overall growth of decoherence at long times, which is absent in the fully quantum treatment.
翻訳日:2023-03-09 14:14:01 公開日:2023-03-08
# 多値重み付き知識ベース1における難解推論の複雑さと拡張性

Complexity and scalability of defeasible reasoning in 1 many-valued weighted knowledge bases ( http://arxiv.org/abs/2303.04534v1 )

ライセンス: Link先を確認
Mario Alviano, Laura Giordano, Daniele Theseider Dupr\'e(参考訳) 概念的」な多述語意味論に基づく記述論理の重み付け知識ベースは、多層知覚論の論理的解釈を提供する。 この文脈では、解集合プログラミング(asp)は有限多値の場合の難解な推論に対処するのに適しており、問題の複雑性に対して$\pi^p_2$の上限を与えるが、しかしながら、正確な複雑さは未知であり、概念実証実装のみを提供する。 この論文は、$p^{np[log]}$完全性の結果と、大きな検索空間を持つ重み付き知識ベースを扱う新しいaspエンコーディングを提供することで、不足を解消する。

Weighted knowledge bases for description logics with typicality under a "concept-wise'' multi-preferential semantics provide a logical interpretation of MultiLayer Perceptrons. In this context, Answer Set Programming (ASP) has been shown to be suitable for addressing defeasible reasoning in the finitely many-valued case, providing a $\Pi^p_2$ upper bound on the complexity of the problem, nonetheless leaving unknown the exact complexity and only providing a proof-of-concept implementation. This paper fulfils the lack by providing a $P^{NP[log]}$-completeness result and new ASP encodings that deal with weighted knowledge bases with large search spaces.
翻訳日:2023-03-09 14:13:37 公開日:2023-03-08
# フェルミ問題としてのクラス濃度比較

Class Cardinality Comparison as a Fermi Problem ( http://arxiv.org/abs/2303.04532v1 )

ライセンス: Link先を確認
Shrestha Ghosh, Simon Razniewski, Gerhard Weikum(参考訳) クラス濃度比較に関する質問は、答えて独自の課題を持つのは非常に難しい。 ウェブ文書や知識ベース、必須の情報ソースは、「宇宙飛行士やノーベル物理学賞受賞者が多いか?」といった質問に対して直接答えを格納することはめったにないため、ある種の推論を必要とする。 より信頼性の高い推定のための部分的カバレッジを持つ信号を集約する新しい手法を提案し,その精度を83.7%とする4005組のデータセット上で評価する。

Questions on class cardinality comparisons are quite tricky to answer and come with its own challenges. They require some kind of reasoning since web documents and knowledge bases, indispensable sources of information, rarely store direct answers to questions, such as, ``Are there more astronauts or Physics Nobel Laureates?'' We tackle questions on class cardinality comparison by tapping into three sources for absolute cardinalities as well as the cardinalities of orthogonal subgroups of the classes. We propose novel techniques for aggregating signals with partial coverage for more reliable estimates and evaluate them on a dataset of 4005 class pairs, achieving an accuracy of 83.7%.
翻訳日:2023-03-09 14:13:24 公開日:2023-03-08
# 学生のt-distribution:観測時の信頼度の測定について

Student's t-Distribution: On Measuring the Inter-Rater Reliability When the Observations are Scarce ( http://arxiv.org/abs/2303.04526v1 )

ライセンス: Link先を確認
Serge Gladkoff and Lifeng Han and Goran Nenadic(参考訳) 自然言語処理(NLP)において、我々は常にゴールデンクオリティ評価法として人間の判断に頼っている。 しかし、翻訳品質評価(TQE)、特にデータサンプル(観測値)が非常に少ない場合など、特定の評価タスクに対して、レータ間信頼性(IRR)レベルをより良く評価する方法に関する議論が続いている。 本研究ではまず,1つのデータ(評価)ポイントしか得られない場合に,測定値の信頼区間を推定する方法について検討する。 次に,2つの人間生成観察スコアを例示し,``sudent's \textit{t}-distribution'' 法を紹介し,これら2つのデータ点のみを用いて irr スコアを測定する方法と,品質評価の信頼区間 (cis) について説明する。 評価信頼度は, 1回だけ観察しても, より多くの観察を導入することで, 評価信頼度が大幅に向上することを示す。 研究者は、学生の「textit{t}-Distribution method」など、あらゆる方法でIRRスコアを報告し、NLP評価をより有意義で透明で信頼性の高いものにすることを推奨する。 この \textit{t}-distribution 法は nlp フィールドの外でも利用でき、観測データが乏しい場合には、実験調査の信頼に値する評価のために irr レベルを測定することができる。 キーワード:インターレータ信頼性(IRR)、スカース観測(Scarce Observations)、信頼区間(CIs)、自然言語処理(NLP)、翻訳品質評価(TQE)、学生の『textit{t}-Distribution』

In natural language processing (NLP) we always rely on human judgement as the golden quality evaluation method. However, there has been an ongoing debate on how to better evaluate inter-rater reliability (IRR) levels for certain evaluation tasks, such as translation quality evaluation (TQE), especially when the data samples (observations) are very scarce. In this work, we first introduce the study on how to estimate the confidence interval for the measurement value when only one data (evaluation) point is available. Then, this leads to our example with two human-generated observational scores, for which, we introduce ``Student's \textit{t}-Distribution'' method and explain how to use it to measure the IRR score using only these two data points, as well as the confidence intervals (CIs) of the quality evaluation. We give quantitative analysis on how the evaluation confidence can be greatly improved by introducing more observations, even if only one extra observation. We encourage researchers to report their IRR scores in all possible means, e.g. using Student's \textit{t}-Distribution method whenever possible; thus making the NLP evaluation more meaningful, transparent, and trustworthy. This \textit{t}-Distribution method can be also used outside of NLP fields to measure IRR level for trustworthy evaluation of experimental investigations, whenever the observational data is scarce. Keywords: Inter-Rater Reliability (IRR); Scarce Observations; Confidence Intervals (CIs); Natural Language Processing (NLP); Translation Quality Evaluation (TQE); Student's \textit{t}-Distribution
翻訳日:2023-03-09 14:13:14 公開日:2023-03-08
# 信頼性UAV追跡のための連続性を考慮した潜在フレーム間情報マイニング

Continuity-Aware Latent Interframe Information Mining for Reliable UAV Tracking ( http://arxiv.org/abs/2303.04525v1 )

ライセンス: Link先を確認
Changhong Fu, Mutian Cai, Sihang Li, Kunhan Lu, Haobo Zuo, Chongjun Liu(参考訳) 無人航空機(UAV)の追跡は自律走行に不可欠であり、ロボット自動化分野に広く応用されている。 しかし、頻繁な閉塞やアスペクト比の変化など様々な困難のため、信頼性の高いUAV追跡は依然として困難な課題である。 さらに、既存の作業の大部分は、潜在的なフレーム間接続を無視して、トラッキングパフォーマンスを改善するための明示的な情報に重点を置いている。 上記の課題に対処するため,ClimRT という信頼性の高い UAV 追跡のための連続性を考慮した潜時情報マイニングフレームワークを提案する。 具体的には,uav追跡のための新しい効率的な連続性認識型潜在フレーム間情報マイニングネットワーク (climnet) を提案する。 さらに、連続性を考慮した空間時間情報を完全に探索する新しい位置連続変換器(LCT)を設計し、UAV追跡を著しく強化する。 UAV追跡性能におけるClimRTのロバスト性と信頼性を強く評価する3つの信頼性航空ベンチマークの大規模定性的および定量的実験を行った。 さらに、空中プラットフォームにおける実世界のテストは、その実践性と有効性を検証する。 コードとデモ資料はhttps://github.com/vision4robotics/ClimRTで公開されている。

Unmanned aerial vehicle (UAV) tracking is crucial for autonomous navigation and has broad applications in robotic automation fields. However, reliable UAV tracking remains a challenging task due to various difficulties like frequent occlusion and aspect ratio change. Additionally, most of the existing work mainly focuses on explicit information to improve tracking performance, ignoring potential interframe connections. To address the above issues, this work proposes a novel framework with continuity-aware latent interframe information mining for reliable UAV tracking, i.e., ClimRT. Specifically, a new efficient continuity-aware latent interframe information mining network (ClimNet) is proposed for UAV tracking, which can generate highly-effective latent frame between two adjacent frames. Besides, a novel location-continuity Transformer (LCT) is designed to fully explore continuity-aware spatial-temporal information, thereby markedly enhancing UAV tracking. Extensive qualitative and quantitative experiments on three authoritative aerial benchmarks strongly validate the robustness and reliability of ClimRT in UAV tracking performance. Furthermore, real-world tests on the aerial platform validate its practicability and effectiveness. The code and demo materials are released at https://github.com/vision4robotics/ClimRT.
翻訳日:2023-03-09 14:12:45 公開日:2023-03-08
# BBOB問題とアフィンの組み合わせによる性能評価

Using Affine Combinations of BBOB Problems for Performance Assessment ( http://arxiv.org/abs/2303.04573v1 )

ライセンス: Link先を確認
Diederick Vermetten, Furong Ye, Carola Doerr(参考訳) ベンチマークは最適化アルゴリズムの開発と解析において重要な役割を果たす。 このように、使用済みのベンチマーク問題を定義する方法は、任意のベンチマーク調査から得られる洞察に大きく影響します。 利用可能なベンチマーク関数の範囲を簡単に拡張する方法の一つは、関数対間のアフィンの組み合わせである。 ランドスケープ解析の観点からは、これらの関数の組み合わせは2つの基本関数間でスムーズに遷移する。 本稿では,これらのアフィン関数の組み合わせを最適化アルゴリズムの挙動解析に利用できることを示す。 特に,組合せ問題間の重み付けを変化させることで,最適化アルゴリズムの性能に付加的なグローバル構造が与える影響についての洞察を得ることができる。 さらに,より機能的な組み合わせで性能特性を分析することにより,目的関数のスケーリングや最適な配置といった側面が,これらの結果の解釈に多大な影響を与えうることを示した。

Benchmarking plays a major role in the development and analysis of optimization algorithms. As such, the way in which the used benchmark problems are defined significantly affects the insights that can be gained from any given benchmark study. One way to easily extend the range of available benchmark functions is through affine combinations between pairs of functions. From the perspective of landscape analysis, these function combinations smoothly transition between the two base functions. In this work, we show how these affine function combinations can be used to analyze the behavior of optimization algorithms. In particular, we highlight that by varying the weighting between the combined problems, we can gain insights into the effects of added global structure on the performance of optimization algorithms. By analyzing performance trajectories on more function combinations, we also show that aspects such as the scaling of objective functions and placement of the optimum can greatly impact how these results are interpreted.
翻訳日:2023-03-09 14:06:30 公開日:2023-03-08
# 一般知性の分類的枠組み

A Categorical Framework of General Intelligence ( http://arxiv.org/abs/2303.04571v1 )

ライセンス: Link先を確認
Yang Yuan(参考訳) マシンは考えられるか? 1950年にアラン・チューリング(alan turing)がこの疑問を問うため、一般の知性に対する数学的基礎がないために、直接答えることはできない。 本稿では,センサ,世界カテゴリー,目標を持ったプランナー,アクターの4つの構成要素からなる,この目標に向けた分類的枠組みを紹介する。 圏論を活用することで、一般知性における多くの重要な概念を厳密に定義し分析することができる。 例えば、自己意識のカテゴリー的アナロジーとして自己状態認識の概念を導入し、学習と評価のためのアルゴリズムを提供する。 本稿では,他のエージェントとのコミュニケーションにおいて,自然言語の代わりにコンテキストの正確な表現をキャプチャするダイアグラムを提案する。 さらに,目標を自己状態上の関数の出力として設計することで,モデルのヒューマンフレンドリー性が保証されることを示す。 最も重要なのは、フレームワークに適合するモデルをトレーニングするためのアライメント信号として機能するカテゴリ的不変性に基づいた、さまざまな制約を自然に導入することです。

Can machines think? Since Alan Turing asked this question in 1950, nobody is able to give a direct answer, due to the lack of solid mathematical foundations for general intelligence. In this paper, we introduce a categorical framework towards this goal, consisting of four components: the sensor, world category, planner with objectives, and actor. By leveraging category theory, many important notions in general intelligence can be rigorously defined and analyzed. For instance, we introduce the concept of self-state awareness as a categorical analogy for self-consciousness and provide algorithms for learning and evaluating it. For communication with other agents, we propose to use diagrams that capture the exact representation of the context, instead of using natural languages. Additionally, we demonstrate that by designing the objectives as the output of function over self-state, the model's human-friendliness is guaranteed. Most importantly, our framework naturally introduces various constraints based on categorical invariance that can serve as the alignment signals for training a model that fits into the framework.
翻訳日:2023-03-09 14:06:17 公開日:2023-03-08
# ロボットにおける安全機械学習支援モデル予測力と運動制御

Safe Machine-Learning-supported Model Predictive Force and Motion Control in Robotics ( http://arxiv.org/abs/2303.04569v1 )

ライセンス: Link先を確認
Janine Matschek, Johanna Bethge, and Rolf Findeisen(参考訳) 人間とロボットのインタラクションや脆弱な物体のハンドリングといった多くのロボットタスクは、安全かつ高性能な操作を達成するために、見やすいモーションコントロールと並行して現れる力とモーメントの厳密な制御と制限を必要とする。 変化する状況に適応しながら確率的安全性を保証できる学習支援型モデル予測力・運動制御スキームを提案する。 ガウス過程は、ロボットの状態と力とモーメントをマッピングする不確定な関係を学ぶために用いられる。 モデル予測コントローラは、これらのガウス過程モデルを用いて、確率的制約満足度の下で正確な動きと力制御を実現する。 不確実性は、静的モデル部分 -- 出力方程式 -- でのみ発生するため、計算効率の高い確率mpcの定式化が用いられる。 静的不確実性ケースに対する最適制御問題の再帰可能性の解析と閉ループシステムの収束性について述べる。 確率制約の定式化とバックオフは、ガウス過程の分散に基づいて構築され、安全な操作が保証される。 このアプローチは、シミュレーションと実験で軽量ロボットに説明される。

Many robotic tasks, such as human-robot interactions or the handling of fragile objects, require tight control and limitation of appearing forces and moments alongside sensible motion control to achieve safe yet high-performance operation. We propose a learning-supported model predictive force and motion control scheme that provides stochastic safety guarantees while adapting to changing situations. Gaussian processes are used to learn the uncertain relations that map the robot's states to the forces and moments. The model predictive controller uses these Gaussian process models to achieve precise motion and force control under stochastic constraint satisfaction. As the uncertainty only occurs in the static model parts -- the output equations -- a computationally efficient stochastic MPC formulation is used. Analysis of recursive feasibility of the optimal control problem and convergence of the closed loop system for the static uncertainty case are given. Chance constraint formulation and back-offs are constructed based on the variance of the Gaussian process to guarantee safe operation. The approach is illustrated on a lightweight robot in simulations and experiments.
翻訳日:2023-03-09 14:06:00 公開日:2023-03-08
# 変成試験を用いた手探り推定モデルのロバスト性評価

Robustness Evaluation in Hand Pose Estimation Models using Metamorphic Testing ( http://arxiv.org/abs/2303.04566v1 )

ライセンス: Link先を確認
Muxin Pu, Chun Yong Chong, Mei Kuan Lim(参考訳) ハンドポーズ推定(HPE)は、画像やビデオフレームから手ポーズを予測し、記述するタスクである。 HPEモデルでは、実験室や制御された環境下での手でのポーズを推定すると、通常は良いパフォーマンスが得られる。 しかし、現実の環境は複雑であり、様々な不確実性が生じ、HPEモデルの性能が低下する可能性がある。 例えば、手は閉塞され、不完全な露出速度によって手の視認性は低下し、手の動きが速いときに手の輪郭がぼやけやすい。 本研究では,HPEモデルのロバスト性を評価するためにメタモルフィックテストを採用し,異なるアプリケーションに対するHPEモデルの選択について提案する。 このロバスト性評価はmediapipe hand, openpose, bodyhands, nsrm handの4モデルを用いて行った。 その結果, 手指の80~%以上は身体手では識別できず, 対角運動のぼやきが出現しても少なくとも50~%はメディアパイプ手では識別できなかったが, 強い露出の強い手の50~%以上はnsrm手では正確には推定できないことがわかった。 同様に、4つの手関節のみにオクルージョンを適用することで、これらのモデルの性能も大幅に低下する。 実験の結果,既存のHPEモデルの性能には,オクルージョン,照明の変動,動きのぼかしなどが大きな障害となることがわかった。 これらの知見は、手ポーズ推定モデルとその応用の性能と堅牢性を改善するための道を開く可能性がある。

Hand pose estimation (HPE) is a task that predicts and describes the hand poses from images or video frames. When HPE models estimate hand poses captured in a laboratory or under controlled environments, they normally deliver good performance. However, the real-world environment is complex, and various uncertainties may happen, which could degrade the performance of HPE models. For example, the hands could be occluded, the visibility of hands could be reduced by imperfect exposure rate, and the contour of hands prone to be blurred during fast hand movements. In this work, we adopt metamorphic testing to evaluate the robustness of HPE models and provide suggestions on the choice of HPE models for different applications. The robustness evaluation was conducted on four state-of-the-art models, namely MediaPipe hands, OpenPose, BodyHands, and NSRM hand. We found that on average more than 80\% of the hands could not be identified by BodyHands, and at least 50\% of hands could not be identified by MediaPipe hands when diagonal motion blur is introduced, while an average of more than 50\% of strongly underexposed hands could not be correctly estimated by NSRM hand. Similarly, applying occlusions on only four hand joints will also largely degrade the performance of these models. The experimental results show that occlusions, illumination variations, and motion blur are the main obstacles to the performance of existing HPE models. These findings may pave the way for researchers to improve the performance and robustness of hand pose estimation models and their applications.
翻訳日:2023-03-09 14:05:42 公開日:2023-03-08
# 反復精製による外挿制御シーケンス生成

Extrapolative Controlled Sequence Generation via Iterative Refinement ( http://arxiv.org/abs/2303.04562v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, Richard Yuanzhe Pang, He He, Ankur P. Parikh(参考訳) 本研究では,外挿制御生成の問題,すなわち,トレーニングで見られる範囲を超えて属性値を持つシーケンスを生成することを検討する。 この課題は自動設計、特に薬物発見において重要な意味を持ち、その目標は既存の配列よりも新しいタンパク質(例えば、より安定な)を設計することである。 したがって、定義上、ターゲットシーケンスとその属性値はトレーニング分布外であり、ターゲットシーケンスを直接生成することを目的とした既存のメソッドに挑戦する。 そこで本研究では,逐次外挿を可能にするために局所的な編集を反復的に行う反復制御外挿(ice)を提案する。 我々は、属性値の小さな改善を示す合成生成シーケンスペアでモデルを訓練する。 1つの自然言語タスク(感覚分析)と2つのタンパク質工学タスク(ACE2安定性とAAV適合性)の結果、ICEは単純さにもかかわらず最先端のアプローチをかなり上回っている。 私たちのコードとモデルは、https://github.com/vishakhpk/iter-extrapolationで利用可能です。

We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation.
翻訳日:2023-03-09 14:05:13 公開日:2023-03-08
# ビザンチン-ロバストループレス確率分散還元勾配

Byzantine-Robust Loopless Stochastic Variance-Reduced Gradient ( http://arxiv.org/abs/2303.04560v1 )

ライセンス: Link先を確認
Nikita Fedin, Eduard Gorbunov(参考訳) オープンなコラボレーションによる分散最適化は、小さなグループ/コンポーネント/大学、個人が巨大な問題を共同で解決する機会を提供するため、一般的な分野です。 しかし、標準的な最適化アルゴリズムは、いわゆるビザンチン労働者の存在によって、このような設定では脆弱である -- プロトコルによって規定されるものの代わりに間違った情報を送信(意図的かそうでないか)できる参加者(例えば、確率的勾配の代わりに反勾配を送る)。 このように、ビザンチン労働者に証明可能な堅牢性を持つ分散手法を設計する問題は近年注目されている。 特に、いくつかの作品は分散還元とロバストアグリゲーションを利用してビザンチン耐性を達成する非常に有望な方法と考えている。 既存のアプローチでは,SAGA型およびSARAH型分散再現型推定器が用いられているが,Byzantine-robustnessではSVRGは研究されていない。 本研究では,文献のこのギャップを埋め,Byzantine-Robust Loopless Stochastic Variance Reduced Gradient (BR-LSVRG) という新しい手法を提案する。 強凸の場合の新手法に対する非漸近収束保証を導出し,その性能を数値実験における既存の手法と比較する。

Distributed optimization with open collaboration is a popular field since it provides an opportunity for small groups/companies/universities, and individuals to jointly solve huge-scale problems. However, standard optimization algorithms are fragile in such settings due to the possible presence of so-called Byzantine workers -- participants that can send (intentionally or not) incorrect information instead of the one prescribed by the protocol (e.g., send anti-gradient instead of stochastic gradients). Thus, the problem of designing distributed methods with provable robustness to Byzantine workers has been receiving a lot of attention recently. In particular, several works consider a very promising way to achieve Byzantine tolerance via exploiting variance reduction and robust aggregation. The existing approaches use SAGA- and SARAH-type variance-reduced estimators, while another popular estimator -- SVRG -- is not studied in the context of Byzantine-robustness. In this work, we close this gap in the literature and propose a new method -- Byzantine-Robust Loopless Stochastic Variance Reduced Gradient (BR-LSVRG). We derive non-asymptotic convergence guarantees for the new method in the strongly convex case and compare its performance with existing approaches in numerical experiments.
翻訳日:2023-03-09 14:04:53 公開日:2023-03-08
# 超選択規則の存在下でのフェルミオンモード絡みの操作

Manipulating fermionic mode entanglement in the presence of superselection rules ( http://arxiv.org/abs/2303.04559v1 )

ライセンス: Link先を確認
\"Omer T{\i}r{\i}nk, Onur Pusuluk, G\"okhan Torun(参考訳) スーパーセレクションルール(SSR)は、パリティや粒子数などの物理量の保存から生じるもので、フェルミオンモード系の物理状態空間に制約を課す。 これは、与えられた状態にある抽出可能なモードの絡み合いの量と、いわゆる絡み合いのない操作による操作に影響する。 ここでは、二部モード絡み合いの混合状態変換(資源非生成操作)、すなわちローカル操作と古典的通信が局所SSRによって制限されるような、一組のメジャー化ベースの条件を提案する。 次に,局所パリティSSRに着目し,触媒によって課される制約を緩和する可能性を検討する。 特に,アシラリーモードが局所パリティの変化を触媒することを示す。 最後に,様々な分野の様々な問題に対する方法論の適用について論じる。 したがって、化学分子における軌道絡み合いの活性化と、識別可能な量子系における多成分絡み合いや量子不一致の操作に新たな光をあてる可能性がある。

Superselection rules (SSRs), arising from the conservation of physical quantities such as parity or particle number, place constraints on the physical state space of fermionic mode systems. This affects the amount of extractable mode entanglement possessed in a given state and its manipulation by the so-called entanglement-free operations. Here, we present a set of majorization-based conditions for the mixed state transformations of bipartite mode entanglement, where the allowed operations (i.e., resource non-generating operations), that is, local operations and classical communication, are restricted by local SSRs. We then focus on the local parity SSR and investigate the possibility to relax the constraints imposed by it through a catalyst. In particular, we show that an ancillary mode system can catalyze the change in local parity. Finally, we discuss the application of our methodology to various problems in different fields. Accordingly, we propose that it may shed new light on the activation of orbital entanglement in chemical molecules and the manipulation of multipartite entanglement or quantum discord in distinguishable quantum systems.
翻訳日:2023-03-09 14:04:27 公開日:2023-03-08
# シーン:モデルに基づくディープビデオ圧縮

Scene Matters: Model-based Deep Video Compression ( http://arxiv.org/abs/2303.04557v1 )

ライセンス: Link先を確認
Lv Tang, Xinfeng Zhang, Gai Zhang and Xiaoqi Ma(参考訳) ビデオ圧縮は常に人気のある研究分野であり、多くの伝統的なディープビデオ圧縮法が提案されている。 これらの方法は典型的には信号予測理論を利用して圧縮性能を高め、高効率な内部および間予測戦略を設計し、ビデオフレームを1つずつ圧縮する。 本稿では,シーンを映像シーケンスの基本単位とみなす新しいモデルベースビデオ圧縮(MVC)フレームワークを提案する。 提案するMVCは,一場面におけるビデオシーケンス全体の強度変化を直接モデル化し,時空間予測による冗長性を低減せず,非冗長表現を求める。 これを実現するために、我々は基本的なモデリングアーキテクチャとして暗黙の神経表現(INR)を用いる。 ビデオモデリングの効率を向上させるために、まず、空間文脈拡張における文脈関連空間位置埋め込み(CRSPE)と周波数領域監督(FDS)を提案する。 時間的相関キャプチャのために,シーンフロー制約機構 (SFCM) と時間的コントラスト損失 (TCL) を設計する。 広範に実験した結果,本手法は最新のh.266ビデオ符号化方式に比べて最大20-%のビットレート削減を達成でき,既存のビデオ符号化方式よりもデコード効率が向上した。

Video compression has always been a popular research area, where many traditional and deep video compression methods have been proposed. These methods typically rely on signal prediction theory to enhance compression performance by designing high efficient intra and inter prediction strategies and compressing video frames one by one. In this paper, we propose a novel model-based video compression (MVC) framework that regards scenes as the fundamental units for video sequences. Our proposed MVC directly models the intensity variation of the entire video sequence in one scene, seeking non-redundant representations instead of reducing redundancy through spatio-temporal predictions. To achieve this, we employ implicit neural representation (INR) as our basic modeling architecture. To improve the efficiency of video modeling, we first propose context-related spatial positional embedding (CRSPE) and frequency domain supervision (FDS) in spatial context enhancement. For temporal correlation capturing, we design the scene flow constrain mechanism (SFCM) and temporal contrastive loss (TCL). Extensive experimental results demonstrate that our method achieves up to a 20\% bitrate reduction compared to the latest video coding standard H.266 and is more efficient in decoding than existing video coding strategies.
翻訳日:2023-03-09 14:04:07 公開日:2023-03-08
# 空間を小さくしたストリーミングカーネルPCAアルゴリズム

Streaming Kernel PCA Algorithm With Small Space ( http://arxiv.org/abs/2303.04555v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Zifan Wang, Han Zhang(参考訳) 主成分分析(PCA)は、機械学習、データ分析、信号処理において広く使われている技術である。 データセットのサイズと複雑さの増大に伴い、PCAの低空間利用アルゴリズムを開発することが重要になっている。 近年,大規模データセットを効率的に処理できるストリーミングpcaが注目されている。 サポートベクターマシン(svm)などの学習アルゴリズムで一般的に用いられるカーネル法は、pcaアルゴリズムにも適用されている。 本稿では,Oja の従来のスキームに基づく Kernel PCA 問題に対するストリーミングアルゴリズムを提案する。 本アルゴリズムは,PCAのメモリ使用量を削減し,精度を向上する。 我々は,アルゴリズムが成功する条件を調べることにより,その性能を解析する。 具体的には、ターゲット共分散行列のスペクトル比$R := \lambda_1/\lambda_2$を$C \cdot \log n\cdot \log d$で下限にすると、ストリーミングPCAは$O(d)$スペースコストで解決できることを示す。 提案アルゴリズムは既存手法に対していくつかの利点がある。 まず、大規模なデータセットを効率的に処理できるストリーミングアルゴリズムである。 第二に、カーネル法を用いて、データポイント間の複雑な非線形関係をキャプチャする。 第3に、メモリ使用量が少ないため、メモリ制限のあるアプリケーションに適している。

Principal Component Analysis (PCA) is a widely used technique in machine learning, data analysis and signal processing. With the increase in the size and complexity of datasets, it has become important to develop low-space usage algorithms for PCA. Streaming PCA has gained significant attention in recent years, as it can handle large datasets efficiently. The kernel method, which is commonly used in learning algorithms such as Support Vector Machines (SVMs), has also been applied in PCA algorithms. We propose a streaming algorithm for Kernel PCA problems based on the traditional scheme by Oja. Our algorithm addresses the challenge of reducing the memory usage of PCA while maintaining its accuracy. We analyze the performance of our algorithm by studying the conditions under which it succeeds. Specifically, we show that, when the spectral ratio $R := \lambda_1/\lambda_2$ of the target covariance matrix is lower bounded by $C \cdot \log n\cdot \log d$, the streaming PCA can be solved with $O(d)$ space cost. Our proposed algorithm has several advantages over existing methods. First, it is a streaming algorithm that can handle large datasets efficiently. Second, it employs the kernel method, which allows it to capture complex nonlinear relationships among data points. Third, it has a low-space usage, making it suitable for applications where memory is limited.
翻訳日:2023-03-09 14:03:47 公開日:2023-03-08
# RADAM:Deep Activation Mapsのランダム化集約符号化によるテクスチャ認識

RADAM: Texture Recognition through Randomized Aggregated Encoding of Deep Activation Maps ( http://arxiv.org/abs/2303.04554v1 )

ライセンス: Link先を確認
Leonardo Scabini, Kallil M. Zielinski, Lucas C. Ribas, Wesley N. Gon\c{c}alves, Bernard De Baets, Odemir M. Bruno(参考訳) テクスチャ分析は、ディープニューラルネットワークが積極的に適用されているコンピュータビジョンにおいて、古典的だが挑戦的なタスクである。 ほとんどのアプローチは、事前トレーニングされたバックボーンの周りにフィーチャーアグリゲーションモジュールを構築し、特定のテクスチャ認識タスクで新しいアーキテクチャを微調整することに基づいている。 本稿では,背骨を変更せずにリッチなテクスチャ表現を抽出する,textbf{R}andom encoding of \textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM)を提案する。 この技術は、ランダム化オートエンコーダ(RAE)を用いて、事前訓練された深層畳み込みネットワークの異なる深さで出力を符号化する。 RAEは閉形式解を用いて各画像に局所的にトレーニングされ、そのデコーダ重みは線形SVMに入力される1次元テクスチャ表現を構成するために使用される。 つまり、微調整やバックプロパゲーションは不要である。 いくつかのテクスチャベンチマークでRADAMを探索し、様々な計算予算で最先端の結果を得る。 以上の結果から,事前学習したバックボーンは,学習した表現がよりうまく符号化された場合,テクスチャ認識のための微調整を必要としない可能性が示唆された。

Texture analysis is a classical yet challenging task in computer vision for which deep neural networks are actively being applied. Most approaches are based on building feature aggregation modules around a pre-trained backbone and then fine-tuning the new architecture on specific texture recognition tasks. Here we propose a new method named \textbf{R}andom encoding of \textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM) which extracts rich texture representations without ever changing the backbone. The technique consists of encoding the output at different depths of a pre-trained deep convolutional network using a Randomized Autoencoder (RAE). The RAE is trained locally to each image using a closed-form solution, and its decoder weights are used to compose a 1-dimensional texture representation that is fed into a linear SVM. This means that no fine-tuning or backpropagation is needed. We explore RADAM on several texture benchmarks and achieve state-of-the-art results with different computational budgets. Our results suggest that pre-trained backbones may not require additional fine-tuning for texture recognition if their learned representations are better encoded.
翻訳日:2023-03-09 14:03:24 公開日:2023-03-08
# 肝dce-ct画像の構造認識登録ネットワーク

Structure-aware registration network for liver DCE-CT images ( http://arxiv.org/abs/2303.04595v1 )

ライセンス: Link先を確認
Peng Xue, Jingyang Zhang, Lei Ma, Mianxin Liu, Yuning Gu, Jiawei Huang, Feihong Liua, Yongsheng Pan, Xiaohuan Cao, Dinggang Shen(参考訳) 肝ダイナミックコントラスト造影CT(DCE-CT)の画像登録は,肝癌の診断と画像ガイド下手術計画に不可欠である。 しかし, コントラスト剤の流れによる強度変化と呼吸による複雑な空間運動の組み合わせは, 既存の強度に基づく登録法に大きな課題をもたらす。 これらの問題に対処するため,我々は,関連する臓器の構造情報をセグメント化誘導深層登録ネットワークに組み込んだ構造認識登録手法を提案する。 既存のセグメンテーションガイド登録法は、ペア臓器セグメンテーション内のボリューム登録のみに焦点を当て、解剖学的構造の固有の特性を無視している。 さらに、コントラストエージェントのフローのため、DCE-CT画像ではこのようなペアオルガンセグメンテーションが必ずしも利用できない。 既存のセグメンテーション誘導登録法と異なり,提案手法は線と表面の階層的幾何学的視点で構造情報を抽出する。 そして、抽出された構造情報に基づいて、前後の変形フィールドに同時に構造認識制約を構築して課する。 このようにして、欠損した臓器を含むすべての臓器のセグメンテーションは、コントラスト剤の副作用を回避し、登録中の臓器のトポロジーを保存するために完全に利用することができる。 社内のDCE-CTデータセットと一般向けLiTSデータセットの大規模な実験により,本手法は登録精度が高く,最先端の手法よりも解剖学的構造を効果的に維持できることが示された。

Image registration of liver dynamic contrast-enhanced computed tomography (DCE-CT) is crucial for diagnosis and image-guided surgical planning of liver cancer. However, intensity variations due to the flow of contrast agents combined with complex spatial motion induced by respiration brings great challenge to existing intensity-based registration methods. To address these problems, we propose a novel structure-aware registration method by incorporating structural information of related organs with segmentation-guided deep registration network. Existing segmentation-guided registration methods only focus on volumetric registration inside the paired organ segmentations, ignoring the inherent attributes of their anatomical structures. In addition, such paired organ segmentations are not always available in DCE-CT images due to the flow of contrast agents. Different from existing segmentation-guided registration methods, our proposed method extracts structural information in hierarchical geometric perspectives of line and surface. Then, according to the extracted structural information, structure-aware constraints are constructed and imposed on the forward and backward deformation field simultaneously. In this way, all available organ segmentations, including unpaired ones, can be fully utilized to avoid the side effect of contrast agent and preserve the topology of organs during registration. Extensive experiments on an in-house liver DCE-CT dataset and a public LiTS dataset show that our proposed method can achieve higher registration accuracy and preserve anatomical structure more effectively than state-of-the-art methods.
翻訳日:2023-03-09 13:57:26 公開日:2023-03-08
# FCN+:世界的受容的コンボリューションでFCNが復活

FCN+: Global Receptive Convolution Makes FCN Great Again ( http://arxiv.org/abs/2303.04589v1 )

ライセンス: Link先を確認
Zhongying Deng, Xiaoyu Ren, Jin Ye, Junjun He, Yu Qiao(参考訳) 完全畳み込みネットワーク(FCN)はセマンティックセグメンテーションのための基礎研究である。 しかし、その限定的な受容領域のため、fcnは意味セグメンテーションに不可欠なグローバルコンテキスト情報を効果的に捉えることができない。 その結果、より大きな受容場のために異なるフィルタサイズを利用する最先端の手法に打ち負かされる。 しかし、そのような戦略は通常より多くのパラメータを導入し、計算コストを増大させる。 本稿では、文脈情報抽出のためのFCNの受容場を効果的に向上させる新しいグローバル受容畳み込み(GRC)を提案する。 GRCは、余分な学習可能なパラメータを導入することなく、畳み込みのためのグローバルな受容場を提供する。 GRCの動機は、畳み込みフィルタの異なるチャネルが入力特徴マップ全体にわたって異なるグリッドサンプリング位置を持つことができることである。 具体的には、GRCはまずフィルタのチャネルを2つのグループに分割する。 最初のグループのグリッドサンプリングロケーションは、チャネルインデックスに従って、機能マップ全体にわたって異なる空間座標にシフトされる。 これは畳み込みフィルタがグローバルコンテキスト情報をキャプチャするのに役立つ。 第2群のグリッドサンプリング位置は、元の位置情報を保持するために変わっていない。 これら2つのグループを用いて、GRCはグローバルコンテキストを各ピクセルの元の位置情報に統合し、より高密度な予測結果を得る。 GRCが組み込まれているため、FCN+はPASCAL VOC 2012、Cityscapes、ADE20Kで検証されているように、セマンティックセグメンテーションタスクの最先端メソッドと同等のパフォーマンスを達成できる。

Fully convolutional network (FCN) is a seminal work for semantic segmentation. However, due to its limited receptive field, FCN cannot effectively capture global context information which is vital for semantic segmentation. As a result, it is beaten by state-of-the-art methods which leverage different filter sizes for larger receptive fields. However, such a strategy usually introduces more parameters and increases the computational cost. In this paper, we propose a novel global receptive convolution (GRC) to effectively increase the receptive field of FCN for context information extraction, which results in an improved FCN termed FCN+. The GRC provides global receptive field for convolution without introducing any extra learnable parameters. The motivation of GRC is that different channels of a convolutional filter can have different grid sampling locations across the whole input feature map. Specifically, the GRC first divides the channels of the filter into two groups. The grid sampling locations of the first group are shifted to different spatial coordinates across the whole feature map, according to their channel indexes. This can help the convolutional filter capture the global context information. The grid sampling location of the second group remains unchanged to keep the original location information. Convolving using these two groups, the GRC can integrate the global context into the original location information of each pixel for better dense prediction results. With the GRC built in, FCN+ can achieve comparable performance to state-of-the-art methods for semantic segmentation tasks, as verified on PASCAL VOC 2012, Cityscapes, and ADE20K.
翻訳日:2023-03-09 13:56:12 公開日:2023-03-08
# テキスト・画像生成システムのプロンプトログ解析

A Prompt Log Analysis of Text-to-Image Generation Systems ( http://arxiv.org/abs/2303.04587v1 )

ライセンス: Link先を確認
Yutong Xie, Zhaoying Pan, Jinge Ma, Jie Luo, Qiaozhu Mei(参考訳) 近年の拡散モデルの発展は、与えられた参照テキストに忠実な高品質な画像を合成するテキスト対画像生成システムの驚くべき能力を解き放ち、"prompt"として知られる。 これらのシステムはかつて一般公開されたが、すぐに研究者、クリエイター、一般ユーザーから多くの注目を集めた。 下位生成モデルを改善する努力はたくさんあるが、例えば、ユーザが大規模に入力したプロンプトを調べることで、これらのシステムの実際のユーザの情報ニーズを理解する作業は限られている。 本稿では,複数のテキスト対画像生成システムから収集した大規模プロンプトログの包括的解析を行う。 我々の研究は、Web検索産業と研究の栄光に重要な貢献をした一連の研究であるWeb検索エンジンのクエリログの分析に類似している。 我々は,200万以上のユーザ入力プロンプトを大規模に解析した。 web検索クエリと比較して、テキストから画像へのプロンプトは大幅に長く、しばしばユニークな構造に編成され、異なる種類の情報を必要とする。 ユーザーは作成セッション内でより多くの編集を行う傾向があり、顕著な探索パターンを示す。 本研究は,テキスト対画像生成システムの改善方法に関する具体的な知見を提供する。

Recent developments in diffusion models have unleashed the astonishing capabilities of text-to-image generation systems to synthesize high-quality images that are faithful to a given reference text, known as a "prompt." These systems, once released to the public, have immediately received tons of attention from researchers, creators, and common users. Despite the plenty of efforts to improve the underneath generative models, there is limited work on understanding the information needs of the real users of these systems, e.g., by investigating the prompts the users input at scale. In this paper, we take the initiative to conduct a comprehensive analysis of large-scale prompt logs collected from multiple text-to-image generation systems. Our work is analogous to analyzing the query log of Web search engines, a line of work that has made critical contributions to the glory of the Web search industry and research. We analyze over two million user-input prompts submitted to three popular text-to-image systems at scale. Compared to Web search queries, text-to-image prompts are significantly longer, often organized into unique structures, and present different categories of information needs. Users tend to make more edits within creation sessions, showing remarkable exploratory patterns. Our findings provide concrete implications on how to improve text-to-image generation systems for creation purposes.
翻訳日:2023-03-09 13:55:47 公開日:2023-03-08
# brivlから画像ganを生成する新しい音声表現

New Audio Representations Image Gan Generation from BriVL ( http://arxiv.org/abs/2303.04585v1 )

ライセンス: Link先を確認
Sen Fang, Yangjian Wu, Bowen Gao, Teik Toe Teoh(参考訳) 近年,大規模インターネットデータに対する自己教師付き事前学習は,高品質・手動ラベル付きデータセットよりも優れており,マルチモーダル・大規模モデルの方がシングルモデルやバイモーダル・小型モデルよりも優れていることが研究で徐々に認識されている。 本稿では,Briging-Vision-and-Language (BriVL) に基づく頑健な音声表現学習手法を提案する。 wavbrivlは、オーディオ、画像、テキストを共有の埋め込み空間に投影することで、マルチモーダルなアプリケーションを実現する。 本稿では,wavbrivlから生成された画像の共有埋め込み空間としての質的評価を,(1)音声と画像の相関関係を学習すること,(2)画像生成の新しい方法を探ること,すなわち,音声を用いて画像を生成すること,という目的から示す。 実験結果から,音声から適切な画像を生成することができることがわかった。

Recently, researchers have gradually realized that in some cases, the self-supervised pre-training on large-scale Internet data is better than that of high-quality/manually labeled data sets, and multimodal/large models are better than single or bimodal/small models. In this paper, we propose a robust audio representation learning method WavBriVL based on Bridging-Vision-and-Language (BriVL). WavBriVL projects audio, image and text into a shared embedded space, so that multi-modal applications can be realized. We demonstrate the qualitative evaluation of the image generated from WavBriVL as a shared embedded space, with the main purposes of this paper: (1) Learning the correlation between audio and image; (2) Explore a new way of image generation, that is, use audio to generate pictures. Experimental results show that this method can effectively generate appropriate images from audio.
翻訳日:2023-03-09 13:55:28 公開日:2023-03-08
# 固体量子系における相互作用誘起トポロジカルポンピング

Interaction-induced topological pumping in a solid-state quantum system ( http://arxiv.org/abs/2303.04582v1 )

ライセンス: Link先を確認
Ziyu Tao, Wenhui Huang, Jingjing Niu, Libo Zhang, Yongguan Ke, Xiu Gu, Ling Lin, Jiawei Qiu, Xuandong Sun, Xiaohan Yang, Jiajian Zhang, Jiawei Zhang, Shuxiang Zhao, Yuxuan Zhou, Xiaowei Deng, Changkang Hu, Ling Hu, Jian Li, Yang Liu, Dian Tan, Yuan Xu, Tongxing Yan, Yuanzhen Chen, Chaohong Lee, Youpeng Zhong, Song Liu, Dapeng Yu(参考訳) 多粒子量子相関の生成の基礎として、粒子間相互作用は集合量子現象、量子相転移、量子情報処理において重要な役割を果たす。 量子多体系のバンド構造を深く変えることができ、エキゾチックな位相現象を引き起こす。 従来の位相ポンピングは、駆動線形または非相互作用系でよく示されてきたが、強い相互作用の存在下では崩壊する可能性がある。 しかし、バンドトポロジと相互作用の相互作用は相互作用する粒子の創発的なトポロジカルポンピングを引き起こす可能性があるが、その実験的実現は困難であることが証明された。 ここでは、36個の超伝導量子ビットからなる固体量子系における相互作用誘起トポロジカルポンピングを示す。 量子ビットに固有の強い相互作用と格子ポテンシャルのサイト分解制御性とホッピング強度により, 単一および2つの有界粒子のトポロジカルThouless pumpingを実現する。 線形あるいは非相互作用の位相現象の他に、位相共振トンネルや相互作用粒子の非対称エッジ状態輸送も観測する。 我々の研究は多粒子トポロジカルエフェクトのパラダイムを作り、エキゾチックなトポロジカル現象、多体量子輸送、量子情報伝達の研究の新しい経路を提供する。

As the basis for generating multi-particle quantum correlations, inter-particle interaction plays a crucial role in collective quantum phenomena, quantum phase transitions, and quantum information processing. It can profoundly alter the band structure of quantum many-body systems and give rise to exotic topological phenomena. Conventional topological pumping, which has been well demonstrated in driven linear or noninteracting systems, may break down in the presence of strong interaction. However, the interplay between band topology and interaction could also induce emergent topological pumping of interacting particles, but its experimental realization has proven challenging. Here we demonstrate interaction-induced topological pumping in a solid-state quantum system comprising an array of 36 superconducting qubits. With strong interaction inherent in the qubits and site-resolved controllability of the lattice potential and hopping strength, we realize the topological Thouless pumping of single and two bounded particles. Beyond these topological phenomena with linear or noninteracting counterparts, we also observe topologically resonant tunneling and asymmetric edge-state transport of interacting particles. Our work creates a paradigm for multi-particle topological effects, and provides a new pathway to the study of exotic topological phenomena, many-body quantum transport, and quantum information transfer.
翻訳日:2023-03-09 13:55:10 公開日:2023-03-08
# 中国未来市場における教師付き学習モデルの応用

Application of supervised learning models in the Chinese futures market ( http://arxiv.org/abs/2303.04581v1 )

ライセンス: Link先を確認
Fuquan Tang(参考訳) 中国先物市場の特徴に基づいて,先物価格の傾向を予測し,予測結果に基づいて取引戦略を設計するための教師付き学習モデルを構築した。 分類問題の精度、リコール、F1スコアは、テストデータの観点から将来の価格変動の分類の精度要件を満たすことができることを示している。 バックテストの結果から,私たちのトレーディングシステムは,資本残高の低い上昇傾向のリターン曲線を有することが示された。

Based on the characteristics of the Chinese futures market, this paper builds a supervised learning model to predict the trend of futures prices and then designs a trading strategy based on the prediction results. The Precision, Recall and F1-score of the classification problem show that our model can meet the accuracy requirements for the classification of futures price movements in terms of test data. The backtest results show that our trading system has an upward trending return curve with low capital retracement.
翻訳日:2023-03-09 13:54:47 公開日:2023-03-08
# 「どうやって滞在させるか?」-従業員の異例の異例説明

"How to make them stay?" -- Diverse Counterfactual Explanations of Employee Attrition ( http://arxiv.org/abs/2303.04579v1 )

ライセンス: Link先を確認
Andr\'e Artelt, Andreas Gregoriades(参考訳) 従業員の誘惑は、組織の競争力とパフォーマンスに直接影響を与える、重要で複雑な問題である。 従業員が組織を離れる理由を説明することは、人材を惹きつけるのに必要なコストと時間のために、人的資源管理の重要な課題である。 そのため企業は、従業員の維持率を高め、コストを最小化し、パフォーマンスを最大化する。 機械学習(ML)は人的資源管理の様々な側面に適用され、企業に対して有能な従業員が辞めるのを防ぐための積極的対策に関する洞察を提供する。 これらのml手法のうち、最も優れた性能はアンサンブルやディープニューラルネットワークによって報告されており、それは本質的にブラックボックスの技術であり、容易には解釈できない。 これらのモデルの推論を理解するために、いくつかの説明可能性フレームワークが提案されている。 近年では、望まれる結果を得るために実施すべき行動の説明や推奨に利用できるため、カウンターファクトな説明法が注目されている。 しかし、現在のカウンターファクトな説明手法は、望ましい結果を達成するために個々のケースで行う変更を最適化することに焦点を当てている。 誘惑的な問題では、組織が会社を去るのを防ぐことが目的である従業員のグループに対して、組織の動きの影響を予測できることが重要です。 そこで本稿では,複数事例に焦点をあてた反事実的説明を歴史的データから活用し,組織がその実践や政策に最適な介入を行ない,これらの事例の帰属確率を最小化する手法を提案する。

Employee attrition is an important and complex problem that can directly affect an organisation's competitiveness and performance. Explaining the reasons why employees leave an organisation is a key human resource management challenge due to the high costs and time required to attract and keep talented employees. Businesses therefore aim to increase employee retention rates to minimise their costs and maximise their performance. Machine learning (ML) has been applied in various aspects of human resource management including attrition prediction to provide businesses with insights on proactive measures on how to prevent talented employees from quitting. Among these ML methods, the best performance has been reported by ensemble or deep neural networks, which by nature constitute black box techniques and thus cannot be easily interpreted. To enable the understanding of these models' reasoning several explainability frameworks have been proposed. Counterfactual explanation methods have attracted considerable attention in recent years since they can be used to explain and recommend actions to be performed to obtain the desired outcome. However current counterfactual explanations methods focus on optimising the changes to be made on individual cases to achieve the desired outcome. In the attrition problem it is important to be able to foresee what would be the effect of an organisation's action to a group of employees where the goal is to prevent them from leaving the company. Therefore, in this paper we propose the use of counterfactual explanations focusing on multiple attrition cases from historical data, to identify the optimum interventions that an organisation needs to make to its practices/policies to prevent or minimise attrition probability for these cases.
翻訳日:2023-03-09 13:54:38 公開日:2023-03-08
# 符号付き置換表現を持つ密結合$g$不変深層ニューラルネットワーク

Densely Connected $G$-invariant Deep Neural Networks with Signed Permutation Representations ( http://arxiv.org/abs/2303.04614v1 )

ライセンス: Link先を確認
Devanshu Agrawal and James Ostrowski(参考訳) 我々は、有限群$G$,$G$-不変ディープニューラルネットワーク(G$-DNN)アーキテクチャについて、ReLUアクティベーションを高密度に接続するアーキテクチャ(すなわち、すべてのスキップ接続を含む)を紹介し、検討する。 文学における他の$G$不変アーキテクチャとは対照的に、ここで提示される$G$-DNNのプリアクティベーションは、$G$の \emph{signed} 置換表現(符号付きperm-reps)によって変換できる。 さらに、$g$-dnnの個々の層は、$g$-同値である必要はなく、代わりに、プリアクティベーションは、すべての層に重みを結合する方法で、ネットワーク入力の$g$-同変関数に制限される。 その結果、これまで見たことのない$G$不変アーキテクチャの豊富なファミリーとなる。 重みの再パラメータ化後の$G$-DNNの効率的な実装と、アーキテクチャが"許容"であるために必要な十分な条件、すなわち、より小さなアーキテクチャと等価でないことを導出する。 ユーザがインタラクティブにレイヤバイレイヤーで$g$-dnnを構築できるコードが含まれており、最終的なアーキテクチャは許容可能であることが保証されています。 最後に,(1)$\{-1, 1\}$の乗算(理論的保証付き)と(2)3dオブジェクト分類の2つの問題に対して$g$-dnnを適用する。

We introduce and investigate, for finite groups $G$, $G$-invariant deep neural network ($G$-DNN) architectures with ReLU activation that are densely connected -- i.e., include all possible skip connections. In contrast to other $G$-invariant architectures in the literature, the preactivations of the$G$-DNNs presented here are able to transform by \emph{signed} permutation representations (signed perm-reps) of $G$. Moreover, the individual layers of the $G$-DNNs are not required to be $G$-equivariant; instead, the preactivations are constrained to be $G$-equivariant functions of the network input in a way that couples weights across all layers. The result is a richer family of $G$-invariant architectures never seen previously. We derive an efficient implementation of $G$-DNNs after a reparameterization of weights, as well as necessary and sufficient conditions for an architecture to be "admissible" -- i.e., nondegenerate and inequivalent to smaller architectures. We include code that allows a user to build a $G$-DNN interactively layer-by-layer, with the final architecture guaranteed to be admissible. Finally, we apply $G$-DNNs to two example problems -- (1) multiplication in $\{-1, 1\}$ (with theoretical guarantees) and (2) 3D object classification -- finding that the inclusion of signed perm-reps significantly boosts predictive performance compared to baselines with only ordinary (i.e., unsigned) perm-reps.
翻訳日:2023-03-09 13:47:56 公開日:2023-03-08
# グラフニューラルネットワークの記述的複雑性

The Descriptive Complexity of Graph Neural Networks ( http://arxiv.org/abs/2303.04613v1 )

ライセンス: Link先を確認
Martin Grohe(参考訳) 我々はブール回路の複雑さと記述複雑性の観点からグラフニューラルネットワーク(GNN)のパワーを分析する。 GNNの多項式サイズ境界深度ファミリーで計算できるグラフクエリは、計算と組込み関係を持つ一階述語論理のガード付きフラグメント GFO+C で正確に定義可能であることを証明した。 これにより、GNNは回路複雑性クラスTC^0に入る。 注目すべきことに、GNNファミリーは任意の実重みと、標準ReLU、ロジスティックな「シグモイド」、双曲的接形関数を含む幅広い種類の活性化関数を使用することができる。 gnnがランダム初期化とグローバル読み出し(どちらも実際には広く使われているgnnの標準機能)を使用することが許されている場合、それらはしきい値ゲートを持つ有界深さブール回路、すなわちtc^0のクエリと全く同じクエリを計算できる。 さらに,GFO+Cでは,一括線形なアクティベーションと有理重みを持つ単一のGNNで計算可能なクエリが,組込み関係なく定義可能であることを示す。 したがって、それらは一様TC^0に含まれる。

We analyse the power of graph neural networks (GNNs) in terms of Boolean circuit complexity and descriptive complexity. We prove that the graph queries that can be computed by a polynomial-size bounded-depth family of GNNs are exactly those definable in the guarded fragment GFO+C of first-order logic with counting and with built-in relations. This puts GNNs in the circuit complexity class TC^0. Remarkably, the GNN families may use arbitrary real weights and a wide class of activation functions that includes the standard ReLU, logistic "sigmoid", and hyperbolic tangent functions. If the GNNs are allowed to use random initialisation and global readout (both standard features of GNNs widely used in practice), they can compute exactly the same queries as bounded depth Boolean circuits with threshold gates, that is, exactly the queries in TC^0. Moreover, we show that queries computable by a single GNN with piecewise linear activations and rational weights are definable in GFO+C without built-in relations. Therefore, they are contained in uniform TC^0.
翻訳日:2023-03-09 13:47:22 公開日:2023-03-08
# ニューラルネットワークのプルーニングと差分プライバシー

Differential Privacy Meets Neural Network Pruning ( http://arxiv.org/abs/2303.04612v1 )

ライセンス: Link先を確認
Kamil Adamczewski, Mijung Park(参考訳) ディープニューラルネットワークモデルのトレーニングにディファレンシャルプライバシを適用する上での大きな課題はスケーラビリティである。広く使われているトレーニングアルゴリズムであるDP-SGDは、高レベルのプライバシ保護に対応するエプシロン値に対する適度なサイズのニューラルネットワークモデルのトレーニングに苦労している。 本稿では,dp-sgdのスケーラビリティを向上させるために,ニューラルネットワークのプルーニングに触発された次元性低減の考え方を検討する。 ニューラルネットワークのプルーニングと差分プライバシーの相互作用をパラメータ更新の2つのモードを用いて検討する。 最初のモードはパラメータ凍結と呼ばれ、ネットワークを事前起動し、残りのパラメータをDP-SGDで更新する。 第2モードをパラメータセレクションと呼び、トレーニングの各ステップで更新するパラメータを選択し、dp-sgdを使用して選択したパラメータのみを更新する。 これらのモードでは、これらのステップで生じるプライバシー損失を回避するために、パラメータの凍結や選択に公開データを使用します。 当然、プライベートデータとパブリックデータの間の密接性は、このパラダイムの成功において重要な役割を果たす。 実験により,パラメータ空間の減少が個人訓練の差分を改善することを示す。 さらに,グラデーションに依存しず,追加のプライバシ損失を伴わない2種類の一般的なプルーニングを解析することにより,dp-sgdトレーニングにおいて,ランダム選択がマグニチュードベース選択と同等の性能を発揮することを示す。

A major challenge in applying differential privacy to training deep neural network models is scalability.The widely-used training algorithm, differentially private stochastic gradient descent (DP-SGD), struggles with training moderately-sized neural network models for a value of epsilon corresponding to a high level of privacy protection. In this paper, we explore the idea of dimensionality reduction inspired by neural network pruning to improve the scalability of DP-SGD. We study the interplay between neural network pruning and differential privacy, through the two modes of parameter updates. We call the first mode, parameter freezing, where we pre-prune the network and only update the remaining parameters using DP-SGD. We call the second mode, parameter selection, where we select which parameters to update at each step of training and update only those selected using DP-SGD. In these modes, we use public data for freezing or selecting parameters to avoid privacy loss incurring in these steps. Naturally, the closeness between the private and public data plays an important role in the success of this paradigm. Our experimental results demonstrate how decreasing the parameter space improves differentially private training. Moreover, by studying two popular forms of pruning which do not rely on gradients and do not incur an additional privacy loss, we show that random selection performs on par with magnitude-based selection when it comes to DP-SGD training.
翻訳日:2023-03-09 13:47:04 公開日:2023-03-08
# 多目的進化アルゴリズムにおける自己適応のための性能指標

What Performance Indicators to Use for Self-Adaptation in Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2303.04611v1 )

ライセンス: Link先を確認
Furong Ye and Frank Neumann and Jacob de Nobel and Aneta Neumann and Thomas B\"ack(参考訳) パラメータ制御は進化アルゴリズムの収束過程を加速させることに成功した。 OneMaxやLeadingOnesなどの古典的擬似ブール問題に対する実証的および理論的研究は、パラメータの影響を説明し、単一目的最適化のためのアルゴリズムの振る舞いを理解するのに役立っている。 本研究では, 単目的最適化の手法を伝達することにより, 自己適応型GSEMOの挙動に関する広範な実験的研究を行う。 我々は、OneMinMax、COCZ、LOTZ、OneJumpZeroJump問題に対して、単目的最適化のために設計された3つの自己適応突然変異手法をテストする。 GSEMOアルゴリズムにこれらの手法を適用しながら、現在の非支配的解集合に基づいて異なる性能指標を考察する。 これらのメトリクスは、自己適応プロセスのガイドに使われます。 その結果, ベンチマーク問題に対する自己適応の利点が示唆された。 我々は,メトリクスの選択が自己適応アルゴリズムの性能に大きく影響することを明らかにする。 1つの目的の進捗に基づく自己適応法は、超体積、逆世代距離、得られたパレート解の個数などの多目的指標を用いた手法よりも優れた性能を発揮する。 さらに,OneMinMax と COCZ の集団規模が大きいことから,自己適応手法が有用であることが判明した。

Parameter control has succeeded in accelerating the convergence process of evolutionary algorithms. Empirical and theoretical studies for classic pseudo-Boolean problems, such as OneMax, LeadingOnes, etc., have explained the impact of parameters and helped us understand the behavior of algorithms for single-objective optimization. In this work, by transmitting the techniques of single-objective optimization, we perform an extensive experimental investigation into the behavior of the self-adaptive GSEMO variants. We test three self-adaptive mutation techniques designed for single-objective optimization for the OneMinMax, COCZ, LOTZ, and OneJumpZeroJump problems. While adopting these techniques for the GSEMO algorithm, we consider different performance metrics based on the current non-dominated solution set. These metrics are used to guide the self-adaption process. Our results indicate the benefits of self-adaptation for the tested benchmark problems. We reveal that the choice of metrics significantly affects the performance of the self-adaptive algorithms. The self-adaptation methods based on the progress in one objective can perform better than the methods using multi-objective metrics such as hypervolume, inverted generational distance, and the number of the obtained Pareto solutions. Moreover, we find that the self-adaptive methods benefit from the large population size for OneMinMax and COCZ.
翻訳日:2023-03-09 13:46:37 公開日:2023-03-08
# 非マルコフ量子力学のためのテンソル・トレイン形式における運動の階層方程式の探索

Survey of the Hierarchical Equations of Motion in Tensor-Train format for non-Markovian quantum dynamics ( http://arxiv.org/abs/2303.04608v1 )

ライセンス: Link先を確認
Etienne Mangaud, Amine Jaouadi, Alex Chin and Mich\`ele Desouter-Lecomte(参考訳) 本研究は階層的運動方程式とそのテンソル-トレイン形式による実装に関する教育的調査である。 これらの方程式は非摂動的非マルコフ開量子系において大きな標準である。 これらは階層の関連する切断の限界における調和浴に完全である。 我々は、ブロッホ・レッドフィールド方程式(Bloch-Redfield equations)として知られる摂動性第二次時間畳み込み方程式との関係を思い出す。 非マルコフ性測度や動的写像などの非マルコフ力学を特徴づける理論的なツールもHEOMシミュレーションの文脈で簡単に議論されている。 テンソル-トレイン展開の主点は、ローレンツスペクトル密度によって記述された入浴と相互作用する量子ビットの例で示される。 最後に,システムバス結合演算子が解析処理と類似した3つの図解的応用について述べる。 最初の例では、入浴による集団間のコヒーレンス移動が2つの状態間の長いコヒーレンスを生み出すモデルを再検討する。 2番目は定常吸収スペクトルと放射スペクトルの計算に費やされている。 スペクトル密度とストークスの相関関係を非断熱相互作用の有無で示す。 最後に、スペクトル密度を無損傷モードで離散化した場合の励起伝達をシミュレートし、TT定式化が標準モードよりも効率的である状況を示す。

This work is a pedagogical survey about the hierarchical equations of motion and their implementation with the tensor-train format. These equations are a great standard in non-perturbative non-Markovian open quantum systems. They are exact for harmonic baths in the limit of relevant truncation of the hierarchy. We recall the link with the perturbative second order time convolution equations also known as the Bloch-Redfield equations. Some theoretical tools characterizing non-Markovian dynamics such as the non- Markovianity measures or the dynamical map are also briefly discussed in the context of HEOM simulations. The main points of the tensor-train expansion are illustrated in an example with a qubit interacting with a bath described by a Lorentzian spectral density. Finally, we give three illustrative applications in which the system-bath coupling operator is similar to that of the analytical treatment. The first example revisits a model in which population-to-coherence transfer via the bath creates a long-lasting coherence between two states. The second one is devoted to the computation of stationary absorption and emission spectra. We illustrate the link between the spectral density and the Stokes shift in situations with and without nonadiabatic interaction. Finally, we simulate an excitation transfer when the spectral density is discretized by undamped modes to illustrate a situation in which the TT formulation is more efficient than the standard one.
翻訳日:2023-03-09 13:46:16 公開日:2023-03-08
# スライド画像全体の評価のための簡易かつ効率的な信頼度スコア

Simple and Efficient Confidence Score for Grading Whole Slide Images ( http://arxiv.org/abs/2303.04604v1 )

ライセンス: Link先を確認
M\'elanie Lubrano, Ya\"elle Bellahsen-Harrar, Rutger Fick, C\'ecile Badoual, Thomas Walter(参考訳) 形態的表現型の連続的な空間は、異なるグレード間の明確な決定をしばしば困難にし、層間および層内合意の低さにつながる。 より多くの人工知能(AI)アルゴリズムが開発され、病理学者が診断を実行し標準化するのに役立つ。 しかし,これらのモデルでは,クラス間のあいまいさを考慮せずに予測を行うことができ,臨床的文脈において広く受け入れられることを防ぐことなく失敗する。 本稿では,学習課題におけるAIモデルの信頼性を評価するための新しいスコアを提案する。 私たちの信頼スコアは、順序付き出力変数に特化しており、汎用的で、追加のトレーニングや追加の推論や特定のアーキテクチャの変更を必要としない。 モンテカルロドロップアウトやディープアンサンブルといった他の一般的な手法と比較すると、この手法はよりシンプルで汎用性が高く、計算量も少ないが最先端の技術結果を提供する。 このスコアは容易に解釈でき、病理学者の現実の迷信とも一致している。 評価結果から,誤判定されたスライドを正確に識別でき,信頼度の高い判断の精度は,信頼度の低い判断(aucでは17.1%)よりも有意に高いことが示された。 提案する信頼度スコアは, 病理医が直接ワークフローで活用し, 先天性病変の診断などの困難な作業を支援することができると信じている。

Grading precancerous lesions on whole slide images is a challenging task: the continuous space of morphological phenotypes makes clear-cut decisions between different grades often difficult, leading to low inter- and intra-rater agreements. More and more Artificial Intelligence (AI) algorithms are developed to help pathologists perform and standardize their diagnosis. However, those models can render their prediction without consideration of the ambiguity of the classes and can fail without notice which prevent their wider acceptance in a clinical context. In this paper, we propose a new score to measure the confidence of AI models in grading tasks. Our confidence score is specifically adapted to ordinal output variables, is versatile and does not require extra training or additional inferences nor particular architecture changes. Comparison to other popular techniques such as Monte Carlo Dropout and deep ensembles shows that our method provides state-of-the art results, while being simpler, more versatile and less computationally intensive. The score is also easily interpretable and consistent with real life hesitations of pathologists. We show that the score is capable of accurately identifying mispredicted slides and that accuracy for high confidence decisions is significantly higher than for low-confidence decisions (gap in AUC of 17.1% on the test set). We believe that the proposed confidence score could be leveraged by pathologists directly in their workflow and assist them on difficult tasks such as grading precancerous lesions.
翻訳日:2023-03-09 13:45:58 公開日:2023-03-08
# 劣化からの学習促進:ファンドス画像強調のための拡散モデル

Learning Enhancement From Degradation: A Diffusion Model For Fundus Image Enhancement ( http://arxiv.org/abs/2303.04603v1 )

ライセンス: Link先を確認
Puijin Cheng and Li Lin and Yijin Huang and Huaqing He and Wenhan Luo and Xiaoying Tang(参考訳) 基礎画像の品質は多くの要因によって損なわれ、その多くが適切に数学的にモデル化されることが困難である。 本稿では,新しい拡散モデルに基づくフレームワークであるLearning Enhancement from Degradation(LED)を紹介した。 具体的には,まずデータ駆動型分解フレームワークを採用し,非ペア型高画質画像から低品質画像への分解マッピングを学習した。 次に,条件付き拡散モデルを適用して,逆拡張過程をペアで学習する。 提案したLEDは、臨床的に重要な特徴をより明瞭に維持する拡張結果を出力することができる。 また、推測段階では、LEDを既存の眼底画像強調フレームワークと容易に効果的に統合することができる。 提案したLEDは,様々な臨床関連指標に対して,様々な下流課題において評価し,既存の最先端手法よりも定量的かつ定性的に優れていることを示した。 ソースコードはhttps://github.com/QtacierP/LEDで入手できる。

The quality of a fundus image can be compromised by numerous factors, many of which are challenging to be appropriately and mathematically modeled. In this paper, we introduce a novel diffusion model based framework, named Learning Enhancement from Degradation (LED), for enhancing fundus images. Specifically, we first adopt a data-driven degradation framework to learn degradation mappings from unpaired high-quality to low-quality images. We then apply a conditional diffusion model to learn the inverse enhancement process in a paired manner. The proposed LED is able to output enhancement results that maintain clinically important features with better clarity. Moreover, in the inference phase, LED can be easily and effectively integrated with any existing fundus image enhancement framework. We evaluate the proposed LED on several downstream tasks with respect to various clinically-relevant metrics, successfully demonstrating its superiority over existing state-of-the-art methods both quantitatively and qualitatively. The source code is available at https://github.com/QtacierP/LED.
翻訳日:2023-03-09 13:45:32 公開日:2023-03-08
# 特徴空間におけるクラスタリングによるコンテンツベーストランスフォーマによるポイントクラウド分類

Point Cloud Classification Using Content-based Transformer via Clustering in Feature Space ( http://arxiv.org/abs/2303.04599v1 )

ライセンス: Link先を確認
Yahui Liu, Bin Tian, Yisheng Lv, Lingxi Li, Feiyue Wang(参考訳) 最近、3Dポイントクラウド分類におけるTransformerの試みがある。 計算量を削減するため、既存の手法のほとんどは局所的な空間的注意に重点を置いているが、その内容は無視し、遠いが関連する点間の関係を確立できない。 局所的な空間的注意の制限を克服するため,PointConTと呼ばれるポイントコンテンツベースのトランスフォーマーアーキテクチャを提案する。 類似した機能を持つサンプリングされたポイントを同じクラスに集約し、各クラス内のセルフアテンションを計算する機能空間(コンテントベース)内のポイントの局所性を活用し、長距離依存関係のキャプチャと計算複雑性の間の効果的なトレードオフを可能にする。 さらに,並列構造を用いて各ブランチの高周波・低周波情報を別々に集約する,ポイントクラウド分類のためのインセプション特徴集約器についても紹介する。 我々のPointConTモデルは点雲の形状分類において顕著な性能を示す。 特に,ScanObjectNNの難易度に90.3%のTop-1精度を示す。 この論文のソースコードはhttps://github.com/yahuiliu99/pointcontで入手できる。

Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention, but ignore their content and fail to establish relationships between distant but relevant points. To overcome the limitation of local spatial attention, we propose a point content-based Transformer architecture, called PointConT for short. It exploits the locality of points in the feature space (content-based), which clusters the sampled points with similar features into the same class and computes the self-attention within each class, thus enabling an effective trade-off between capturing long-range dependencies and computational complexity. We further introduce an Inception feature aggregator for point cloud classification, which uses parallel structures to aggregate high-frequency and low-frequency information in each branch separately. Extensive experiments show that our PointConT model achieves a remarkable performance on point cloud shape classification. Especially, our method exhibits 90.3% Top-1 accuracy on the hardest setting of ScanObjectNN. Source code of this paper is available at https://github.com/yahuiliu99/PointConT.
翻訳日:2023-03-09 13:45:03 公開日:2023-03-08
# MCTS-GEB:Monte Carlo Tree Searchは優れたEグラフビルダー

MCTS-GEB: Monte Carlo Tree Search is a Good E-graph Builder ( http://arxiv.org/abs/2303.04651v1 )

ライセンス: Link先を確認
Guoliang He, Zak Singh, Eiko Yoneki(参考訳) 書き換えシステム [6, 10, 12] は、飽和eグラフを用いて全ての可能な書き直しシーケンスを同時に表現し、最適なものを取り出す最適化手法である等式飽和[9]を広く採用している。 そのため、位相順序問題を避けることで最適な結果が得られる。 しかし,e-グラフが飽和していない場合,すべての可能な書き換えの機会を表現できないため,e-グラフの構築段階において位相順序付けの問題が再導入された。 この問題を解決するために,e-graph構築に強化学習(rl)を適用するドメイン一般書き換えシステムであるmcts-gebを提案する。 MCTS-GEB はモンテカルロ木探索 (MCTS) [3] を用いて最適な電子グラフ構築を効率的に計画するので, 建設段階での位相順序付け問題を効果的に排除し, 適正な時間で性能を向上させることができる。 2つの異なる領域の評価では、MCTS-GEBは最先端のリライトシステムを最大49倍の性能で上回るが、最適化は一般的に1時間以内で実行でき、MCTS-GEBは将来のリライトシステムのための有望なビルディングブロックであることを示している。

Rewrite systems [6, 10, 12] have been widely employing equality saturation [9], which is an optimisation methodology that uses a saturated e-graph to represent all possible sequences of rewrite simultaneously, and then extracts the optimal one. As such, optimal results can be achieved by avoiding the phase-ordering problem. However, we observe that when the e-graph is not saturated, it cannot represent all possible rewrite opportunities and therefore the phase-ordering problem is re-introduced during the construction phase of the e-graph. To address this problem, we propose MCTS-GEB, a domain-general rewrite system that applies reinforcement learning (RL) to e-graph construction. At its core, MCTS-GEB uses a Monte Carlo Tree Search (MCTS) [3] to efficiently plan for the optimal e-graph construction, and therefore it can effectively eliminate the phase-ordering problem at the construction phase and achieve better performance within a reasonable time. Evaluation in two different domains shows MCTS-GEB can outperform the state-of-the-art rewrite systems by up to 49x, while the optimisation can generally take less than an hour, indicating MCTS-GEB is a promising building block for the future generation of rewrite systems.
翻訳日:2023-03-09 13:39:16 公開日:2023-03-08
# グラフェンナノリボンのねじれに及ぼす均一磁場の影響

Effects of a uniform magnetic field on twisted graphene nanoribbons ( http://arxiv.org/abs/2303.04645v1 )

ライセンス: Link先を確認
Camila C. Soares, Angel E. Obispo, Andr\'es G. Jir\'on Vicente, Luis B. Castro(参考訳) 本研究では, 均一磁場の影響下でのヘリコダルグラフェンナノリボン中の無質量フェルミオンの相対論的量子運動について検討した。 ヘリコイドの軸に沿って整列した一様磁場 (b$) を考えると、この問題は曲線時空におけるディラック方程式の文脈で検討される。 本システムは,背景を考慮し,正確な解をサポートしないため,境界状態解と局所状態密度(LDOS)はヌメロフ法を用いて数値的に得られる。 ナノリボン(D$)、リボン(L$)、ツイストパラメータ(\omega$)およびB$(B$)の幅が運動方程式および状態の局所密度(LDOS)に及ぼす影響を解析し、考察した。 B$の存在は、文献で既に研究されている$B=0$とは対照的に、$\omega$の大きい値に対してのみ可能であり、ヘリコイドの軸上の状態の局所密度の一定限の値を生成することが確認された。

In the present work, the relativistic quantum motion of massless fermions in a helicoidal graphene nanoribbon under the influence of a uniform magnetic field is investigated. Considering a uniform magnetic field ($B$) aligned along the axis of helicoid, this problem is explored in the context of Dirac equation in a curved space-time. As this system does not support exact solutions due to considered background, the bound-state solutions and local density of state (LDOS) are obtained numerically by means of the Numerov method. The combined effects of width of the nanoribbon ($D$), length of ribbon ($L$), twist parameter ($\omega$) and $B$ on the equations of motion and local density of states (LDOS) are analyzed and discussed. It is verified that the presence of $B$ produces a constant minimum value of local density of state on the axis of helicoid, which is possible only for values large enough of $\omega$, in contrast to the case for $B=0$ already studied in the literature.
翻訳日:2023-03-09 13:38:51 公開日:2023-03-08
# Bitcoin価格の動きを予測する:機械学習アルゴリズムの応用

Forecasting the movements of Bitcoin prices: an application of machine learning algorithms ( http://arxiv.org/abs/2303.04642v1 )

ライセンス: Link先を確認
Hakan Pabuccu, Serdar Ongan and Ayse Ongan(参考訳) Bitcoinのような暗号通貨は、今日の金融システムにおいて最も議論の的かつ複雑な技術革新の1つである。 本研究は、Bitcoin価格の動きを高い精度で予測することを目的とする。 この目的のために、ロジスティック回帰(lr)に加えて、サポートベクターマシン(svm)、人工ニューラルネットワーク(ann)、ナイーブベイズ(nb)、ランダムフォレスト(rf)の4つの異なる機械学習(ml)アルゴリズムをベンチマークモデルとして適用する。 これらのアルゴリズムをテストするために、既存の連続データセットに加えて、離散データセットも作成され、使用された。 アルゴリズムの性能評価には、F統計量、精度統計量、平均絶対誤差(MAE)、ルート平均平方誤差(RMSE)、ルート絶対誤差(RAE)メトリクスが用いられた。 t試験は、SVM, ANN, NB, RFの性能とLRの性能を比較した。 実験により、RFは連続データセットで最高の予測性能を持つが、NBは最低であることがわかった。 一方、ANNは最高であり、NBは離散データセットの中では最低性能である。 さらに、離散データセットは、推定された全てのアルゴリズム(モデル)の全体的な予測性能を改善する。

Cryptocurrencies, such as Bitcoin, are one of the most controversial and complex technological innovations in today's financial system. This study aims to forecast the movements of Bitcoin prices at a high degree of accuracy. To this aim, four different Machine Learning (ML) algorithms are applied, namely, the Support Vector Machines (SVM), the Artificial Neural Network (ANN), the Naive Bayes (NB) and the Random Forest (RF) besides the logistic regression (LR) as a benchmark model. In order to test these algorithms, besides existing continuous dataset, discrete dataset was also created and used. For the evaluations of algorithm performances, the F statistic, accuracy statistic, the Mean Absolute Error (MAE), the Root Mean Square Error (RMSE) and the Root Absolute Error (RAE) metrics were used. The t test was used to compare the performances of the SVM, ANN, NB and RF with the performance of the LR. Empirical findings reveal that, while the RF has the highest forecasting performance in the continuous dataset, the NB has the lowest. On the other hand, while the ANN has the highest and the NB the lowest performance in the discrete dataset. Furthermore, the discrete dataset improves the overall forecasting performance in all algorithms (models) estimated.
翻訳日:2023-03-09 13:38:30 公開日:2023-03-08
# ヒト活動認識のためのロバストマルチモーダル融合

Robust Multimodal Fusion for Human Activity Recognition ( http://arxiv.org/abs/2303.04636v1 )

ライセンス: Link先を確認
Sanju Xaviar, Xin Yang and Omid Ardakanian(参考訳) 異種センサを備えたiotおよびモバイルデバイスの増殖により、複数のセンサが生成する時系列データの融合に依存する新しいアプリケーションが可能になる。 マルチモーダル融合のためのディープニューラルネットワークアーキテクチャは期待されているが、その性能は、複数のモーダル/センサーにまたがる連続したデータとノイズの存在によって、すぐにバラバラになってしまう。 我々は,これらのデータ品質問題に対して堅牢な,人間活動認識(HAR)のためのマルチモーダル融合モデルであるCentaurを提案する。 Centaurは、畳み込み層をデノナイズするオートエンコーダであるデータクリーニングモジュールと、深い畳み込みニューラルネットワークであるマルチモーダル融合モジュールと、自己認識機構を組み合わせて、クロスセンサー相関をキャプチャする。 確率的データ破損スキームを用いてcentaurをトレーニングし,複数の慣性測定ユニットで生成されたデータを含む3つのデータセット上で評価する。 Centaurのデータクリーニングモジュールは2つの最先端のオートエンコーダベースモデルより優れ、マルチモーダル融合モジュールは4つの強力なベースラインより優れている。 2つの関連する堅牢な融合アーキテクチャと比較して、Centaurはより堅牢で、HARにおいて11.59-17.52%高い精度を実現している。

The proliferation of IoT and mobile devices equipped with heterogeneous sensors has enabled new applications that rely on the fusion of time-series data generated by multiple sensors with different modalities. While there are promising deep neural network architectures for multimodal fusion, their performance falls apart quickly in the presence of consecutive missing data and noise across multiple modalities/sensors, the issues that are prevalent in real-world settings. We propose Centaur, a multimodal fusion model for human activity recognition (HAR) that is robust to these data quality issues. Centaur combines a data cleaning module, which is a denoising autoencoder with convolutional layers, and a multimodal fusion module, which is a deep convolutional neural network with the self-attention mechanism to capture cross-sensor correlation. We train Centaur using a stochastic data corruption scheme and evaluate it on three datasets that contain data generated by multiple inertial measurement units. Centaur's data cleaning module outperforms 2 state-of-the-art autoencoder-based models and its multimodal fusion module outperforms 4 strong baselines. Compared to 2 related robust fusion architectures, Centaur is more robust, achieving 11.59-17.52% higher accuracy in HAR, especially in the presence of consecutive missing data in multiple sensor channels.
翻訳日:2023-03-09 13:38:07 公開日:2023-03-08
# カテゴリーデータ生成のための拡散ガウス混合

Diffusing Gaussian Mixtures for Generating Categorical Data ( http://arxiv.org/abs/2303.04635v1 )

ライセンス: Link先を確認
Florence Regol and Mark Coates(参考訳) カテゴリの分布を学ぶには、独自の課題が伴う。 最先端の研究によって成功したアプローチは、連続データに対する生成モデルの印象的なパフォーマンスを活用するために、問題を連続的なドメインに配置することである。 中でも近年出現している拡散確率モデルでは、高品質なサンプルを生成するという利点がある。 分類的生成モデルの最近の進歩は、ログ可能性の改善に焦点を当てている。 本研究では,高品質なサンプル生成に着目した拡散モデルに基づく分類データの生成モデルを提案し,サンプルベース評価手法を提案する。 本手法の有効性は, 対象分布の分類的性質の構造によりパラメータ化を知らせつつ, 連続領域での拡散を行うことに起因している。 評価手法は,分類データを生成するための異なる生成モデルの能力と限界を強調し,合成および実世界のタンパク質データセットに関する実験を含む。

Learning a categorical distribution comes with its own set of challenges. A successful approach taken by state-of-the-art works is to cast the problem in a continuous domain to take advantage of the impressive performance of the generative models for continuous data. Amongst them are the recently emerging diffusion probabilistic models, which have the observed advantage of generating high-quality samples. Recent advances for categorical generative models have focused on log likelihood improvements. In this work, we propose a generative model for categorical data based on diffusion models with a focus on high-quality sample generation, and propose sampled-based evaluation methods. The efficacy of our method stems from performing diffusion in the continuous domain while having its parameterization informed by the structure of the categorical nature of the target distribution. Our method of evaluation highlights the capabilities and limitations of different generative models for generating categorical data, and includes experiments on synthetic and real-world protein datasets.
翻訳日:2023-03-09 13:37:42 公開日:2023-03-08
# シーングラフからのトランスフォーマティブ画像生成

Transformer-based Image Generation from Scene Graphs ( http://arxiv.org/abs/2303.04634v1 )

ライセンス: Link先を確認
Renato Sortino, Simone Palazzo, Concetto Spampinato(参考訳) グラフ構造化シーン記述は、生成した画像の構成を制御するために、生成モデルで効率的に使用することができる。 従来の手法は,それぞれ,グラフ畳み込みネットワークと,レイアウト予測と画像生成のための逆法の組み合わせに基づいていた。 本研究では,グラフ情報を符号化するためのマルチヘッドアテンションの活用と,画像生成のための潜伏空間におけるトランスフォーマーベースモデルの使用が,トレーニング安定性の面でのアドバイザリモデルの採用を必要とせず,サンプルデータの品質を向上させる方法を示す。 提案手法は、シーングラフを中間オブジェクトレイアウトに符号化し、これらのレイアウトを画像にデコードし、ベクトル量子化された変分オートエンコーダによって学習された低次元空間を通り抜けるトランスフォーマアーキテクチャに基づいている。 本手法は,最先端の手法による画質の向上と,同一のシーングラフから複数の世代間での多様性の高まりを示す。 我々は、Visual Genome、COCO、CLEVRの3つの公開データセットに対するアプローチを評価した。 開始スコアは13.7と12.8、fidは52.3と60.3をcocoと視覚ゲノムでそれぞれ達成した。 それぞれのコンポーネントの影響を評価するために、コントリビューションに関するアブレーション研究を行います。 コードはhttps://github.com/perceivelab/trf-sg2imで入手できる。

Graph-structured scene descriptions can be efficiently used in generative models to control the composition of the generated image. Previous approaches are based on the combination of graph convolutional networks and adversarial methods for layout prediction and image generation, respectively. In this work, we show how employing multi-head attention to encode the graph information, as well as using a transformer-based model in the latent space for image generation can improve the quality of the sampled data, without the need to employ adversarial models with the subsequent advantage in terms of training stability. The proposed approach, specifically, is entirely based on transformer architectures both for encoding scene graphs into intermediate object layouts and for decoding these layouts into images, passing through a lower dimensional space learned by a vector-quantized variational autoencoder. Our approach shows an improved image quality with respect to state-of-the-art methods as well as a higher degree of diversity among multiple generations from the same scene graph. We evaluate our approach on three public datasets: Visual Genome, COCO, and CLEVR. We achieve an Inception Score of 13.7 and 12.8, and an FID of 52.3 and 60.3, on COCO and Visual Genome, respectively. We perform ablation studies on our contributions to assess the impact of each component. Code is available at https://github.com/perceivelab/trf-sg2im
翻訳日:2023-03-09 13:37:28 公開日:2023-03-08
# 外傷性脳損傷後の臨床経過と予後 : 欧州集中治療単位データによる患者軌道の抽出

Contribution of clinical course to outcome after traumatic brain injury: mining patient trajectories from European intensive care unit data ( http://arxiv.org/abs/2303.04630v1 )

ライセンス: Link先を確認
Shubhayu Bhattacharyay, Pier Francesco Caruso, Cecilia {\AA}kerlund, Lindsay Wilson, Robert D Stevens, David K Menon, Ewout W Steyerberg, David W Nelson, Ari Ercole, the CENTER-TBI investigators/participants(参考訳) 集中治療室(ICU)における外傷性脳損傷(TBI)患者の進行状態を特徴付ける既存の方法は、治療の個別化に必要なコンテキストを捉えていない。 医療記録に格納されているすべてのデータを統合し,tbi患者のicu滞在毎に解釈可能な疾患コースを作成するモデリング戦略を開発することを目的とした。 TBI患者のヨーロッパコホート(n=1,550,65センタ,19か国)から,ICU滞在前後に収集した1,166変数と,Glasgow Outcome Scale-Extended(GOSE)の6ヶ月の機能を抽出した。 リカレントニューラルネットワークモデルをトレーニングして,2時間毎にすべての変数(データ欠落を含む)のトークン埋め込み時系列表現を,順序ゴス予後にマップした。 繰り返しのクロスバリデーションを行い,somers dxyを用いたgoseの校正と順序のばらつきについて検討した。 さらに,TimeSHAPを用いて,患者軌跡の遷移に対する変数および先行時刻の寄与を計算した。 提案手法は8時間でキャリブレーションを行い,最大52% (95% ci: 50-54%) の確率的機能的結果のばらつきが説明できた。 この説明の最大91%(90~91%)はICU以前の情報と入院情報から導かれたものである。 ICUで収集された情報では説明が5%まで(4-6%)増加するが、長期(5.75日)の患者では成績が低かった。 最も寄与率の高い静的変数は、医師の予後と特定の人口統計学的特徴とct特徴であった。 動的変数のうち,頭蓋内高血圧および神経機能マーカーが最も寄与した。 現在、機能的結果説明の大部分が静的情報であるにもかかわらず、我々のデータ駆動分析は、より長期の患者の動的特徴化を改善するための調査方法を強調している。

Existing methods to characterise the evolving condition of traumatic brain injury (TBI) patients in the intensive care unit (ICU) do not capture the context necessary for individualising treatment. We aimed to develop a modelling strategy which integrates all data stored in medical records to produce an interpretable disease course for each TBI patient's ICU stay. From a prospective, European cohort (n=1,550, 65 centres, 19 countries) of TBI patients, we extracted all 1,166 variables collected before or during ICU stay as well as 6-month functional outcome on the Glasgow Outcome Scale-Extended (GOSE). We trained recurrent neural network models to map a token-embedded time series representation of all variables (including missing data) to an ordinal GOSE prognosis every 2 hours. With repeated cross-validation, we evaluated calibration and the explanation of ordinal variance in GOSE with Somers' Dxy. Furthermore, we applied TimeSHAP to calculate the contribution of variables and prior timepoints towards transitions in patient trajectories. Our modelling strategy achieved calibration at 8 hours, and the full range of variables explained up to 52% (95% CI: 50-54%) of the variance in ordinal functional outcome. Up to 91% (90-91%) of this explanation was derived from pre-ICU and admission information. Information collected in the ICU increased explanation (by up to 5% [4-6%]), though not enough to counter poorer performance in longer-stay (>5.75 days) patients. Static variables with the highest contributions were physician prognoses and certain demographic and CT features. Among dynamic variables, markers of intracranial hypertension and neurological function contributed the most. Whilst static information currently accounts for the majority of functional outcome explanation, our data-driven analysis highlights investigative avenues to improve dynamic characterisation of longer-stay patients.
翻訳日:2023-03-09 13:37:07 公開日:2023-03-08
# ELF: プリマル,デュアル,双方向圧縮を用いたLangevinアルゴリズム

ELF: Federated Langevin Algorithms with Primal, Dual and Bidirectional Compression ( http://arxiv.org/abs/2303.04622v1 )

ライセンス: Link先を確認
Avetik Karagulyan and Peter Richt\'arik(参考訳) フェデレーションサンプリングアルゴリズムは最近、機械学習と統計のコミュニティで大きな人気を得ている。 本稿では,エラーフィードバックランジュバンアルゴリズム(elf)と呼ばれるアルゴリズムの変種について検討する。 特に, EF21とEF21-PとLangevin Monte-Carloの組合せを解析した。 本稿では,P-ELF,D-ELF,B-ELFの3つのアルゴリズムを提案する。 提案手法をlog-sobolev不等式で解析し,非漸近収束保証を提供する。

Federated sampling algorithms have recently gained great popularity in the community of machine learning and statistics. This paper studies variants of such algorithms called Error Feedback Langevin algorithms (ELF). In particular, we analyze the combinations of EF21 and EF21-P with the federated Langevin Monte-Carlo. We propose three algorithms: P-ELF, D-ELF, and B-ELF that use, respectively, primal, dual, and bidirectional compressors. We analyze the proposed methods under Log-Sobolev inequality and provide non-asymptotic convergence guarantees.
翻訳日:2023-03-09 13:36:24 公開日:2023-03-08
# 表面コードにおけるコヒーレントエラーと読み出しエラー

Coherent errors and readout errors in surface code ( http://arxiv.org/abs/2303.04672v1 )

ライセンス: Link先を確認
\'Aron M\'arton, J\'anos K. Asb\'oth(参考訳) 本研究では,表面コードに対する読み出し誤差とコヒーレント誤差,すなわち決定論的位相回転の併用効果について考察する。 物理キュービットからマヨラナフェルミオンへのマッピングにより,最近開発された数値的手法を用いる。 提案手法は, 予測誤差の有無, 現象学レベルでの扱い, 潜在的に不正に記録された結果を伴う完全な投影計測, 複数回の測定ラウンドで適用する方法を示す。 このエラーの組み合わせのしきい値を見つけ、対応する非一貫性エラーチャネルのしきい値に近いエラーレート(pauli-zとreadoutエラーのランダム化)を見つける。 しきい値エラーレートの値は、論理レベルの誤差の定量化方法によって異なり、ダイヤモンドノルムでは3.1%、論理レベルの忠実度では2.6%である。 しきい値以下では、コードのスケールアップにより、論理レベルのエラーではコヒーレンスが急速に失われるが、対応する非コヒーレントなエラーチャネルよりも大きいエラー率となる。 また、コヒーレントエラーと読み出しエラー率を独立に変更し、読み出しエラーよりも表面コードの方がコヒーレントエラーに敏感であることが分かりました。 我々の研究は、完全読み出しを伴うコヒーレントエラーに関する最近の結果を拡張し、読み出しエラーも発生している実験的により現実的な状況に拡張する。

We consider the combined effect of readout errors and coherent errors, i.e., deterministic phase rotations, on the surface code. We use a recently developed numerical approach, via a mapping of the physical qubits to Majorana fermions. We show how to use this approach in the presence of readout errors, treated on the phenomenological level: perfect projective measurements with potentially incorrectly recorded outcomes, and multiple repeated measurement rounds. We find a threshold for this combination of errors, with an error rate close to the threshold of the corresponding incoherent error channel (random Pauli-Z and readout errors). The value of the threshold error rate depends on how the logical-level errors are quantified: using the diamond norm, it is 3.1%, using for logical-level fidelity, it is 2.6%. Below the threshold, scaling up the code leads to the rapid loss of coherence in the logical-level errors, but error rates that are greater than those of the corresponding incoherent error channel. We also vary the coherent and readout error rates independently, and find that the surface code is more sensitive to coherent errors than to readout errors. Our work extends the recent results on coherent errors with perfect readout to the experimentally more realistic situation where readout errors also occur.
翻訳日:2023-03-09 13:29:51 公開日:2023-03-08
# Visual ChatGPT: Visual Foundation Modelとの対話、描画、編集

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models ( http://arxiv.org/abs/2303.04671v1 )

ライセンス: Link先を確認
Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan(参考訳) ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。 しかし、ChatGPTは言語で訓練されているため、現在は視覚世界からの画像の処理や生成ができない。 同時に、視覚トランスフォーマーや安定拡散といった視覚基盤モデルは、優れた視覚理解と生成能力を示すが、それらは1ラウンドの固定入力と出力を持つ特定のタスクについてのみ専門家である。 この目的のために,ユーザが ChatGPT と対話できるように,異なる Visual Foundation Model を組み込んだ \textbf{Visual ChatGPT} というシステムを構築した。 1)言語だけでなく画像も送受信する 2) 複数のAIモデルの協調を必要とする複雑な視覚的質問や視覚的編集指示を提供する。 3)フィードバックを提供し,修正結果を求める。 視覚モデル情報をChatGPTに注入するための一連のプロンプトを設計し、視覚的フィードバックを必要とする複数の入出力モデルとモデルについて検討する。 実験によると、Visual ChatGPTは、Visual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。 このシステムは \url{https://github.com/microsoft/visual-chatgpt} で公開されている。

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational competency and reasoning capabilities across many domains. However, since ChatGPT is trained with languages, it is currently not capable of processing or generating images from the visual world. At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one-round fixed inputs and outputs. To this end, We build a system called \textbf{Visual ChatGPT}, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 3) providing feedback and asking for corrected results. We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback. Experiments show that Visual ChatGPT opens the door to investigating the visual roles of ChatGPT with the help of Visual Foundation Models. Our system is publicly available at \url{https://github.com/microsoft/visual-chatgpt}.
翻訳日:2023-03-09 13:29:30 公開日:2023-03-08
# EvConv:高速ロボット認識のためのイベントカメラ入力の高速CNN推論

EvConv: Fast CNN Inference on Event Camera Inputs For High-Speed Robot Perception ( http://arxiv.org/abs/2303.04670v1 )

ライセンス: Link先を確認
Sankeerth Durvasula, Yushi Guan, Nandita Vijaykumar(参考訳) イベントカメラは、高時間分解能と広いダイナミックレンジで視覚情報をキャプチャする。 これにより、急速に変化する環境で、細かい時間的粒度(マイクロ秒など)で視覚情報をキャプチャできる。 これにより、イベントカメラは、高速な知覚、物体追跡、制御などの迅速な動きを含む高速ロボット作業に非常に有用である。 しかし、イベントカメラストリーム上の畳み込みニューラルネットワーク推論は、現在のcnn推論時間が通常のフレームベースのカメラのフレームレートに桁違いに近く、イベントカメラが動作している高速でリアルタイム推論を行うことができない。 イベントカメラが提供する高頻度かつ高時間分解能をフル活用するには、イベントカメラレートでのリアルタイム推論が必要である。 本稿では,イベントカメラからの入力に対して,CNN上で高速な推論を可能にするEvConvを提案する。 イベントカメラからのCNNへの連続的な入力は、その差が小さいことを観察する。 そこで本研究では,連続的な入力テンソルの差分,あるいはインクリメントの差分を推定する。 これにより、インクリメントが非常に少ないため、必要な浮動小数点演算の数(つまり推論遅延)を大幅に削減できる。 EvConvは、イベントカメラからのインクリメントの不規則な間隔を利用して、ネットワークの全層にわたるインクリメントの間隔を維持するように設計されている。 我々は,フォワードパスで要求される浮動小数点数を最大98%削減することを示す。 また,CNNを用いた深度推定,物体認識,光フロー推定などのタスクにおいて,精度をほぼ損なうことなく,最大1.6倍の高速化を実現した。

Event cameras capture visual information with a high temporal resolution and a wide dynamic range. This enables capturing visual information at fine time granularities (e.g., microseconds) in rapidly changing environments. This makes event cameras highly useful for high-speed robotics tasks involving rapid motion, such as high-speed perception, object tracking, and control. However, convolutional neural network inference on event camera streams cannot currently perform real-time inference at the high speeds at which event cameras operate - current CNN inference times are typically closer in order of magnitude to the frame rates of regular frame-based cameras. Real-time inference at event camera rates is necessary to fully leverage the high frequency and high temporal resolution that event cameras offer. This paper presents EvConv, a new approach to enable fast inference on CNNs for inputs from event cameras. We observe that consecutive inputs to the CNN from an event camera have only small differences between them. Thus, we propose to perform inference on the difference between consecutive input tensors, or the increment. This enables a significant reduction in the number of floating-point operations required (and thus the inference latency) because increments are very sparse. We design EvConv to leverage the irregular sparsity in increments from event cameras and to retain the sparsity of these increments across all layers of the network. We demonstrate a reduction in the number of floating operations required in the forward pass by up to 98%. We also demonstrate a speedup of up to 1.6X for inference using CNNs for tasks such as depth estimation, object recognition, and optical flow estimation, with almost no loss in accuracy.
翻訳日:2023-03-09 13:29:09 公開日:2023-03-08
# STPDnet : 動的PET画像再構成のための時空間畳み込み原始二重ネットワーク

STPDnet: Spatial-temporal convolutional primal dual network for dynamic PET image reconstruction ( http://arxiv.org/abs/2303.04667v1 )

ライセンス: Link先を確認
Rui Hu, Jianan Cui, Chengjin Yu, Yunmei Chen, Huafeng Liu(参考訳) 動的ポジトロン・エミッション・トモグラフィ(dPET)画像再構成は,個々のフレームで受信する回数に制限があるため,極めて困難である。 本稿では,動的PET画像再構成のための時空間畳み込みプリミティブネットワーク(STPDnet)を提案する。 空間相関も時間相関も3次元畳み込み演算子によって符号化される。 PETの物理投影は、ネットワークの反復学習プロセスに埋め込まれ、物理的な制約を提供し、解釈可能性を高める。 実ラットスキャンデータを用いた実験により,提案手法は時間領域と空間領域の両方において実質的なノイズ低減を実現し,最大推定予測最大化(MLEM),空間時空間カーネル法(KEM-ST),DeepPET,Learted Primal Dual(LPD)よりも優れることが示された。

Dynamic positron emission tomography (dPET) image reconstruction is extremely challenging due to the limited counts received in individual frame. In this paper, we propose a spatial-temporal convolutional primal dual network (STPDnet) for dynamic PET image reconstruction. Both spatial and temporal correlations are encoded by 3D convolution operators. The physical projection of PET is embedded in the iterative learning process of the network, which provides the physical constraints and enhances interpretability. The experiments of real rat scan data have shown that the proposed method can achieve substantial noise reduction in both temporal and spatial domains and outperform the maximum likelihood expectation maximization (MLEM), spatial-temporal kernel method (KEM-ST), DeepPET and Learned Primal Dual (LPD).
翻訳日:2023-03-09 13:28:36 公開日:2023-03-08
# 効率的な視覚トランスフォーマ訓練のための遠心中心モデル

Centroid-centered Modeling for Efficient Vision Transformer Pre-training ( http://arxiv.org/abs/2303.04664v1 )

ライセンス: Link先を確認
Xin Yan, Zuchao Li, Lefei Zhang, Bo Du, and Dacheng Tao(参考訳) Masked Image Modeling (MIM) は、視覚変換器 (ViT) を用いた新しい自己教師型ビジョン事前学習パラダイムである。 以前の作品はピクセルベースまたはトークンベースで、それぞれパラメトリックトークンモデルからのオリジナルピクセルまたは離散視覚トークンを使用する。 提案手法である「textbf{CCViT}」は,k平均クラスタリングを利用して画像モデリングのためのセントロイドを得る。 セントロイドはパッチピクセルとインデックストークンを表し、局所不変性を持っている。 non-parametric centroid tokenizerは作成にほんの数秒しかかからず、トークン推論のために高速である。 具体的には,パッチマスキングとセンタロイド置換戦略を用いて,破損した入力と2つのスタックエンコーダブロックを構築し,破損したパッチトークンを予測し,元のパッチピクセルを再構築する。 実験の結果、300エポックしか持たないViT-Bモデルでは、ImageNet-1K分類では84.3\%、ADE20Kセマンティックセグメンテーションでは51.6\%となる。 提案手法はBEiTv2と競合する結果を得るが,他のモデルからの蒸留訓練は行わない。

Masked Image Modeling (MIM) is a new self-supervised vision pre-training paradigm using Vision Transformer (ViT). Previous works can be pixel-based or token-based, using original pixels or discrete visual tokens from parametric tokenizer models, respectively. Our proposed approach, \textbf{CCViT}, leverages k-means clustering to obtain centroids for image modeling without supervised training of tokenizer model. The centroids represent patch pixels and index tokens and have the property of local invariance. Non-parametric centroid tokenizer only takes seconds to create and is faster for token inference. Specifically, we adopt patch masking and centroid replacement strategies to construct corrupted inputs, and two stacked encoder blocks to predict corrupted patch tokens and reconstruct original patch pixels. Experiments show that the ViT-B model with only 300 epochs achieves 84.3\% top-1 accuracy on ImageNet-1K classification and 51.6\% on ADE20K semantic segmentation. Our approach achieves competitive results with BEiTv2 without distillation training from other models and outperforms other methods such as MAE.
翻訳日:2023-03-09 13:28:19 公開日:2023-03-08
# 超伝導量子プロセッサにおける周波数衝突の緩和

Mitigation of frequency collisions in superconducting quantum processors ( http://arxiv.org/abs/2303.04663v1 )

ライセンス: Link先を確認
Amr Osman, Jorge Fern\`andez-Pend\`as, Chris Warren, Sandoko Kosen, Marco Scigliuzzo, Anton Frisk Kockum, Giovanna Tancredi, Anita Fadavi Roudsari, and Jonas Bylander(参考訳) 量子ビットパラメータの再現性は超伝導量子プロセッサのスケールアップの課題である。 信号クロストークは隣接するキュービット間の周波数分離に制約を課す。 製造過程から発生するトランスモン量子ビットの周波数不確かさは、ジョセフソン接合部の偏差、トンネル障壁厚およびキュービットコンデンサに起因する。 より大きなジョセフソン接合を作製し, 耐候性の標準偏差を2%まで低減することにより, これらの変動に対する感度を低下させる。 我々は、32個の同一のトランスモン量子ビットを特徴付け、40mhzの標準偏差(すなわち1%)と200万以上のクビット品質因子を持つクビット周波数の再現性を示す。 我々は2レベル系(TLS)分光を行い、キュービット緩和を引き起こすTLSの数が顕著に増加しない。 さらに、パラメトリックゲートアーキテクチャーと、量子ビット周波数の不確実性に起因する誤差のみを考慮し、平均3回の量子ゲート遷移周波数の衝突で最大100量子ビットまでスケールできることをシミュレーションにより示し、2%のクロストークと99.9%のターゲットゲート忠実性を仮定した。

The reproducibility of qubit parameters is a challenge for scaling up superconducting quantum processors. Signal crosstalk imposes constraints on the frequency separation between neighboring qubits. The frequency uncertainty of transmon qubits arising from the fabrication process is attributed to deviations in the Josephson junction area, tunnel barrier thickness, and the qubit capacitor. We decrease the sensitivity to these variations by fabricating larger Josephson junctions and reduce the wafer-level standard deviation in resistance down to 2%. We characterize 32 identical transmon qubits and demonstrate the reproducibility of the qubit frequencies with a 40 MHz standard deviation (i.e. 1%) with qubit quality factors exceeding 2 million. We perform two-level-system (TLS) spectroscopy and observe no significant increase in the number of TLSs causing qubit relaxation. We further show by simulation that for our parametric-gate architecture, and accounting only for errors caused by the uncertainty of the qubit frequency, we can scale up to 100 qubits with an average of only 3 collisions between quantum-gate transition frequencies, assuming 2% crosstalk and 99.9% target gate fidelity.
翻訳日:2023-03-09 13:27:55 公開日:2023-03-08
# dulda:pet画像再構成のための教師なし学習降下アルゴリズム

DULDA: Dual-domain Unsupervised Learned Descent Algorithm for PET image reconstruction ( http://arxiv.org/abs/2303.04661v1 )

ライセンス: Link先を確認
Rui Hu, Yunmei Chen, Kyungsang Kim, Marcio Aloisio Bezerra Cavalcanti Rockenbach, Quanzheng Li, Huafeng Liu(参考訳) 近年,ディープラーニングに基づくPET画像再構成手法が有望な成果を上げている。 しかし、これらの手法の多くは、高品質なトレーニングラベルの可用性に大きく依存する教師あり学習パラダイムに従っている。 特に、PETスキャンに伴う長時間の走査時間と高い放射線曝露は、このラベルを得るのを非現実的にする。 本稿では, 画像ラベルを必要とせず, 高品質なPET画像から高画質なPET画像を再構成する, 学習精度の高いアルゴリズムに基づく2領域非教師付きPET画像再構成手法を提案する。 具体的には、PET画像再構成問題に対して、学習可能なl2,1ノルムを用いて近位勾配法をアンロールする。 トレーニングは、深部画像に基づく測定領域の損失と回転同値性に基づく画像領域の損失を用いて教師なしである。 実験により,提案手法の性能は,最大推定予測最大化(MLEM),全変量正規化EM(EM-TV),深部画像優先法(DIP)と比較して向上した。

Deep learning based PET image reconstruction methods have achieved promising results recently. However, most of these methods follow a supervised learning paradigm, which rely heavily on the availability of high-quality training labels. In particular, the long scanning time required and high radiation exposure associated with PET scans make obtaining this labels impractical. In this paper, we propose a dual-domain unsupervised PET image reconstruction method based on learned decent algorithm, which reconstructs high-quality PET images from sinograms without the need for image labels. Specifically, we unroll the proximal gradient method with a learnable l2,1 norm for PET image reconstruction problem. The training is unsupervised, using measurement domain loss based on deep image prior as well as image domain loss based on rotation equivariance property. The experimental results domonstrate the superior performance of proposed method compared with maximum likelihood expectation maximazation (MLEM), total-variation regularized EM (EM-TV) and deep image prior based method (DIP).
翻訳日:2023-03-09 13:27:35 公開日:2023-03-08
# 離散連続領域における神経確率論理プログラミング

Neural Probabilistic Logic Programming in Discrete-Continuous Domains ( http://arxiv.org/abs/2303.04660v1 )

ライセンス: Link先を確認
Lennert De Smet and Pedro Zuidberg Dos Martires and Robin Manhaeve and Giuseppe Marra and Angelika Kimmig and Luc De Readt(参考訳) ニューラルシンボリックAI(NeSy)は、ニューラルネットワークが論理の形でシンボリックバックグラウンド知識を利用することを可能にする。 限られたデータレジームでの学習を支援し、分散データの推論を容易にすることが示されている。 確率論的NeSyは、ニューラルネットワークを論理理論と確率理論の両方に統合することに焦点を当てている。 DeepProbLogのような現在の確率的NeSy系の大きな制限は、有限確率分布、すなわち離散確率変数に対する制限である。 対照的に、dpp(deep probabilistic programming)は連続確率分布のモデリングと最適化に優れている。 そこで我々は,DPP技術をNeSyに組み込んだニューラル確率論理型言語DeepSeaProbLogを紹介する。 これにより、論理的制約下での離散確率分布と連続確率分布の推論と学習がサポートされる。 私たちの主な貢献は 1)DeepSeaProbLogのセマンティクスとそれに対応する推論アルゴリズム 2)漸近的に偏見のない学習アルゴリズム,及び 3)我々のアプローチの汎用性を示す一連の実験。

Neural-symbolic AI (NeSy) allows neural networks to exploit symbolic background knowledge in the form of logic. It has been shown to aid learning in the limited data regime and to facilitate inference on out-of-distribution data. Probabilistic NeSy focuses on integrating neural networks with both logic and probability theory, which additionally allows learning under uncertainty. A major limitation of current probabilistic NeSy systems, such as DeepProbLog, is their restriction to finite probability distributions, i.e., discrete random variables. In contrast, deep probabilistic programming (DPP) excels in modelling and optimising continuous probability distributions. Hence, we introduce DeepSeaProbLog, a neural probabilistic logic programming language that incorporates DPP techniques into NeSy. Doing so results in the support of inference and learning of both discrete and continuous probability distributions under logical constraints. Our main contributions are 1) the semantics of DeepSeaProbLog and its corresponding inference algorithm, 2) a proven asymptotically unbiased learning algorithm, and 3) a series of experiments that illustrate the versatility of our approach.
翻訳日:2023-03-09 13:27:18 公開日:2023-03-08
# 線形QAOAに基づく分解アルゴリズムの落とし穴

Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v1 )

ライセンス: Link先を確認
S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, K.V. Kuchkin, A.R. Efimov, A.K. Fedorov(参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。 しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。 yanらによる最近の提案 al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。 我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。 提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。

Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm.
翻訳日:2023-03-09 13:27:03 公開日:2023-03-08
# Aberration-Aware Depth-from-Focus

Aberration-Aware Depth-from-Focus ( http://arxiv.org/abs/2303.04654v1 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Mohammed Elhoseiny, Wolfgang Heidrich(参考訳) 深度推定のためのコンピュータビジョン法は通常、理想化された光学系を持つ単純なカメラモデルを用いる。 現代の機械学習アプローチでは、特にDepth-from-Focusのようなフォーカスセンシティブなタスクにおいて、シミュレーションデータでディープネットワークをトレーニングしようとするときに問題が発生する。 本研究では,focalスタックにおける最良焦点フレームの決定に影響を与えるオフ軸収差に起因する領域ギャップについて検討する。 次に、収差認識トレーニング(AAT)を通じて、このドメインギャップをブリッジすることを検討します。 我々のアプローチは、異なる位置におけるレンズ収差と焦点距離をモデル化し、従来のネットワークトレーニングパイプラインに統合する軽量ネットワークである。 我々は、合成データと実世界のデータの両方で事前訓練されたモデルの一般性を評価する。 実験の結果,提案手法はモデルを微調整したり,ネットワークアーキテクチャを変更することなく,深度推定精度を向上させることができることがわかった。

Computer vision methods for depth estimation usually use simple camera models with idealized optics. For modern machine learning approaches, this creates an issue when attempting to train deep networks with simulated data, especially for focus-sensitive tasks like Depth-from-Focus. In this work, we investigate the domain gap caused by off-axis aberrations that will affect the decision of the best-focused frame in a focal stack. We then explore bridging this domain gap through aberration-aware training (AAT). Our approach involves a lightweight network that models lens aberrations at different positions and focus distances, which is then integrated into the conventional network training pipeline. We evaluate the generality of pretrained models on both synthetic and real-world data. Our experimental results demonstrate that the proposed AAT scheme can improve depth estimation accuracy without fine-tuning the model or modifying the network architecture.
翻訳日:2023-03-09 13:26:47 公開日:2023-03-08
# マルチモード Gottesman-Kitaev-Preskill 符号の最も近い格子点復号法

Closest lattice point decoding for multimode Gottesman-Kitaev-Preskill codes ( http://arxiv.org/abs/2303.04702v1 )

ライセンス: Link先を確認
Mao Lin, Christopher Chamberland, Kyungjoo Noh(参考訳) 量子誤り訂正(QEC)は、フォールトトレラントな量子アルゴリズムの実現において重要な役割を果たす。 QECに対する様々なアプローチの中で、調和振動子モードで論理量子情報を符号化することは有望でハードウェア効率が良いことが示されている。 本研究では,多モードの Gottesman-Kitaev-Preskill (GKP) 符号について検討し,多くの振動子に量子ビットを符号化する。 特に,ランダムガウスシフト誤差を補正するための最接近点復号法を実装した。 一般的な多モードGKP符号の復号には、まず対応する格子を識別し、次にシンプレクティック双対格子の最も近い格子点と、エラーシンドロームと互換性のある候補シフト誤差を見出す。 本手法は,複数の既知の多モードGKP符号の符号距離や忠実度を含む誤り訂正能力を特徴付ける。 また、最大10モードまでのマルチモードGKP符号の数値最適化を行い、同じモード数のGKP符号と比較して符号距離と忠実度が良い2つのインスタンス(3モードと9モード)を求める。 一般の非構造化GKP符号のモード数において、正確に最も近い点復号法は指数時間コストを発生させるが、最も近い点復号法は線形時間で正確に実行できるような構造化GKP符号の例をいくつか挙げる。 表面GKP符号に対しては,最小長マッチングアルゴリズム(MWPM)の助けを借りて,多項式時間で最も近い点復号を行うことができることを示す。 このMWPM最寄りのポイントデコーダは、従来研究されてきたMWPMデコーダと比較して、表面GKP符号の忠実度とノイズ閾値の両方を0.602に改善し、ノイズ閾値が0.599となるログ状アナログ情報によって支援されている。

Quantum error correction (QEC) plays an essential role in fault-tolerantly realizing quantum algorithms of practical interest. Among different approaches to QEC, encoding logical quantum information in harmonic oscillator modes has been shown to be promising and hardware efficient. In this work, we study multimode Gottesman-Kitaev-Preskill (GKP) codes, encoding a qubit in many oscillators, through a lattice perspective. In particular, we implement a closest point decoding strategy for correcting random Gaussian shift errors. For decoding a generic multimode GKP code, we first identify its corresponding lattice followed by finding the closest lattice point in its symplectic dual lattice to a candidate shift error compatible with the error syndrome. We use this method to characterize the error correction capabilities of several known multimode GKP codes, including their code distances and fidelities. We also perform numerical optimization of multimode GKP codes up to ten modes and find two instances (with three and nine modes) with better code distances and fidelities compared to the known GKP codes with the same number of modes. While exact closest point decoding incurs exponential time cost in the number of modes for general unstructured GKP codes, we give several examples of structured GKP codes (i.e., of the repetition-rectangular GKP code types) where the closest point decoding can be performed exactly in linear time. For the surface-GKP code, we show that the closest point decoding can be performed exactly in polynomial time with the help of a minimum-weight-perfect-matching algorithm (MWPM). We show that this MWPM closest point decoder improves both the fidelity and the noise threshold of the surface-GKP code to 0.602 compared to the previously studied MWPM decoder assisted by log-likelihood analog information which yields a noise threshold of 0.599.
翻訳日:2023-03-09 13:21:43 公開日:2023-03-08
# VOLTA: 環境に配慮した病理組織学のためのコントラスト細胞表現学習

VOLTA: an Environment-Aware Contrastive Cell Representation Learning for Histopathology ( http://arxiv.org/abs/2303.04696v1 )

ライセンス: Link先を確認
Ramin Nakhli, Allen Zhang, Hossein Farahani, Amirali Darbandsari, Elahe Shenasa, Sidney Thiessen, Katy Milne, Jessica McAlpine, Brad Nelson, C Blake Gilks, Ali Bashashati(参考訳) 臨床では、多くの診断タスクは病理組織像中の細胞の同定に依存する。 教師付き機械学習技術はラベルを必要とするが、多数のセルのために手動のセルアノテーションを提供するのに時間がかかる。 本稿では,細胞表現の環境との相互関係を考慮に入れた新しい手法を用いて,細胞表現学習のための自己教師型フレームワーク(VOLTA)を提案する。 我々は,70,000以上の細胞,4種類の癌,および各データセットの3~6つのカテゴリからなる世界中の複数の機関から収集されたデータに関する広範な実験を行った。 その結果,細胞表現学習において,我々のモデルは最先端のモデルよりも優れていた。 提案フレームワークの潜在能力を実証するため,非常に小さなサンプルサイズ(10-20サンプル)の卵巣癌および子宮内膜癌にVOLTAを適用し,卵巣癌の既往の組織型を同定し,子宮内膜癌の病理組織と分子サブタイプを関連づける新たな知見を提供することができた。 トレーニング用に大規模なサンプルサイズを必要とする教師付きディープラーニングモデルとは異なり、サンプルサイズが制限された状況において、アノテーションデータなしで新しい発見を促進するフレームワークを提供する。

In clinical practice, many diagnosis tasks rely on the identification of cells in histopathology images. While supervised machine learning techniques require labels, providing manual cell annotations is time-consuming due to the large number of cells. In this paper, we propose a self-supervised framework (VOLTA) for cell representation learning in histopathology images using a novel technique that accounts for the cell's mutual relationship with its environment for improved cell representations. We subjected our model to extensive experiments on the data collected from multiple institutions around the world comprising of over 700,000 cells, four cancer types, and cell types ranging from three to six categories for each dataset. The results show that our model outperforms the state-of-the-art models in cell representation learning. To showcase the potential power of our proposed framework, we applied VOLTA to ovarian and endometrial cancers with very small sample sizes (10-20 samples) and demonstrated that our cell representations can be utilized to identify the known histotypes of ovarian cancer and provide novel insights that link histopathology and molecular subtypes of endometrial cancer. Unlike supervised deep learning models that require large sample sizes for training, we provide a framework that can empower new discoveries without any annotation data in situations where sample sizes are limited.
翻訳日:2023-03-09 13:21:05 公開日:2023-03-08
# 空間依存度を求める回帰ランダム林の経路--分類法と体系的考察

A path in regression Random Forest looking for spatial dependence: a taxonomy and a systematic review ( http://arxiv.org/abs/2303.04693v1 )

ライセンス: Link先を確認
Luca Patelli, Michela Cameletti, Natalia Golini, Rosaria Ignaccolo(参考訳) ランダムフォレスト (Random Forest, RF) は、応答変数と予測器の関係をモデル化する柔軟性により、いくつかの分野でよく知られたデータ駆動アルゴリズムである。 環境応用において、関心の現象は、標準バージョンではRFによって明示的に考慮されていない空間的および時間的依存を示すことがある。 本研究では,空間情報を回帰RFに含めようとする時期(前・内・後処理)に応じて戦略を分類する分類法を提案する。 さらに,PRISMA (Preferred Reporting Items for Systematic Review and Meta-Analysis) の基準に基づき,空間依存データに対する回帰RFの「調整」に採用された最新の戦略を体系的に検討し,分類する。 後者は、異なるソースから特定のトピックについて既存の文献を収集し処理するための再現可能な方法論からなる。 私たちは2022年10月25$^{th}$でオンラインクエリを行い、最終的に32のドキュメントがレビューのために検討されました。 32の科学的文書で考慮された方法論戦略と応用分野について解説・考察した。

Random Forest (RF) is a well-known data-driven algorithm applied in several fields thanks to its flexibility in modeling the relationship between the response variable and the predictors, also in case of strong non-linearities. In environmental applications, it often occurs that the phenomenon of interest may present spatial and/or temporal dependence that is not taken explicitly into account by RF in its standard version. In this work, we propose a taxonomy to classify strategies according to when (Pre-, In- and/or Post-processing) they try to include the spatial information into regression RF. Moreover, we provide a systematic review and classify the most recent strategies adopted to "adjust" regression RF to spatially dependent data, based on the criteria provided by the Preferred Reporting Items for Systematic reviews and Meta-Analysis (PRISMA). The latter consists of a reproducible methodology for collecting and processing existing literature on a specified topic from different sources. PRISMA starts with a query and ends with a set of scientific documents to review: we performed an online query on the 25$^{th}$ October 2022 and, in the end, 32 documents were considered for review. The employed methodological strategies and the application fields considered in the 32 scientific documents are described and discussed.
翻訳日:2023-03-09 13:20:43 公開日:2023-03-08
# wright-fisherモデルによる推論のための自己完結型β-with-spikes近似

Self-contained Beta-with-Spikes Approximation for Inference Under a Wright-Fisher Model ( http://arxiv.org/abs/2303.04691v1 )

ライセンス: Link先を確認
Juan Guerrero Montero, Richard A. Blythe(参考訳) 時系列データから,選択と遺伝的ドリフトによる対立頻度の変化を記述するライト・フィッシュモデルにおいて,進化パラメータの信頼性の高い推定を行う。 このようなデータは、例えば人工進化実験や、同様の意味を持つ異なる単語の歴史的使用を文書化した言語コーパスのような、行動の文化的進化のための生物集団に存在している。 本手法は,Wright-Fisherモデルにより予測されるアレル周波数の分布に対するBeta-with-Spikes近似に基づく。 近似におけるパラメータを推定するための自己完結型スキームを導入し、特に前回のアプローチが失敗する強選択・準指数法において、その堅牢性を合成データで示す。 さらにパン屋の酵母(Saccharomyces cerevisiae)のアレル頻度データにも適用し,このような結論を裏付ける独立した証拠が得られた場合に,選択の有意なシグナルを見出した。 さらに,スペイン語における歴史的綴り改革の文脈において,進化的パラメータが変化する時点を検出する可能性を示す。

We construct a reliable estimation of evolutionary parameters within the Wright-Fisher model, which describes changes in allele frequencies due to selection and genetic drift, from time-series data. Such data exists for biological populations, for example via artificial evolution experiments, and for the cultural evolution of behavior, such as linguistic corpora that document historical usage of different words with similar meanings. Our method of analysis builds on a Beta-with-Spikes approximation to the distribution of allele frequencies predicted by the Wright-Fisher model. We introduce a self-contained scheme for estimating the parameters in the approximation, and demonstrate its robustness with synthetic data, especially in the strong-selection and near-extinction regimes where previous approaches fail. We further apply to allele frequency data for baker's yeast (Saccharomyces cerevisiae), finding a significant signal of selection in cases where independent evidence supports such a conclusion. We further demonstrate the possibility of detecting time-points at which evolutionary parameters change in the context of a historical spelling reform in the Spanish language.
翻訳日:2023-03-09 13:20:11 公開日:2023-03-08
# 特徴類似知識蒸留による低分解能顔認識の実現

Enhancing Low-resolution Face Recognition with Feature Similarity Knowledge Distillation ( http://arxiv.org/abs/2303.04681v1 )

ライセンス: Link先を確認
Sungho Shin, Yeonguk Yu, Kyoobin Lee(参考訳) 本研究では,高分解能画像から得られた知識を用いて,低分解能(LR)顔認識性能を向上させるための特徴知識蒸留フレームワークを提案する。 提案フレームワークは, HR学習ネットワークからLR学習ネットワークへ, 距離を縮めることで情報的特徴を伝達する。 HRとLRの特徴を効果的に整合させるため,コサイン類似度尺度を距離計として用いた。 このアプローチは、l_p距離メトリクスを使用し、異なる解像度の特徴間の距離を減らす際によく収束する利点を提供する従来の知識蒸留フレームワークとは異なる。 提案手法は従来のAdageDB-30ベンチマークでベルやホイッスルを使わずに3%改善し,HR画像上での強い性能を維持した。 距離距離測定によるコサイン類似性の有効性を統計的解析により検証し,LR画像に頻繁に遭遇する実世界のアプリケーションにとって有望な解であることを示す。 コードと事前トレーニングされたモデルはgithubで公開されている。

In this study, we introduce a feature knowledge distillation framework to improve low-resolution (LR) face recognition performance using knowledge obtained from high-resolution (HR) images. The proposed framework transfers informative features from an HR-trained network to an LR-trained network by reducing the distance between them. A cosine similarity measure was employed as a distance metric to effectively align the HR and LR features. This approach differs from conventional knowledge distillation frameworks, which use the L_p distance metrics and offer the advantage of converging well when reducing the distance between features of different resolutions. Our framework achieved a 3% improvement over the previous state-of-the-art method on the AgeDB-30 benchmark without bells and whistles, while maintaining a strong performance on HR images. The effectiveness of cosine similarity as a distance metric was validated through statistical analysis, making our approach a promising solution for real-world applications in which LR images are frequently encountered. The code and pretrained models will be publicly available on GitHub.
翻訳日:2023-03-09 13:19:11 公開日:2023-03-08
# 量子基底状態におけるブリルアン光力学

Brillouin optomechanics in the quantum ground state ( http://arxiv.org/abs/2303.04677v1 )

ライセンス: Link先を確認
H. M. Doeleman, T. Schatteburg, R. Benevides, S. Vollenweider, D. Macri and Y. Chu(参考訳) バルク音響波(baw)共振器は、長いコヒーレンス時間と光子と超伝導量子ビットとの制御可能な結合のため、マイクロ波-光変換器の中間体として魅力的である。 しかし、光学機械式トランスデューサが余分なノイズを伴わずに動作するためには、メカニカルモードは量子基底状態にある必要がある。 これは、レーザー光の吸収がフォノンモードの加熱を引き起こした他の種類の機械共振器に基づくトランスダクションの最近の実証において困難であることが証明されている。 本研究では,光空洞内における水晶BAW共振器からなるブリルアン光学系の基底状態動作を実証する。 このシステムは希釈冷凍機内で$2sim$200mkの温度で作動し、冷却中に自発的に作動し、機械的な振動に比較的敏感であるように設計することで実現されている。 複数のフォノンモードへの光力学的結合を示し、基底温度で0.5フォノン以下の熱占有を示すために、サイドバンド非対称性温度測定を行う。 これは、現在までの量子基底状態において測定される最も重い機械オブジェクトである($494$\mu$g)。 さらなる測定により、このフォノンの占有に対するレーザー加熱の無視的な効果が確認された。 その結果,BAW共振器を用いた低雑音・高効率マイクロ波-光伝送への道を開いた。

Bulk acoustic wave (BAW) resonators are attractive as intermediaries in a microwave-to-optical transducer, due to their long coherence times and controllable coupling to optical photons and superconducting qubits. However, for an optomechanical transducer to operate without detrimental added noise, the mechanical modes must be in the quantum ground state. This has proven challenging in recent demonstrations of transduction based on other types of mechanical resonators, where absorption of laser light caused heating of the phonon modes. In this work, we demonstrate ground state operation of a Brillouin optomechanical system composed of a quartz BAW resonator inside an optical cavity. The system is operated at $\sim$200 mK temperatures inside a dilution refrigerator, which is made possible by designing the system so that it self-aligns during cooldown and is relatively insensitive to mechanical vibrations. We show optomechanical coupling to several phonon modes and perform sideband asymmetry thermometry to demonstrate a thermal occupation below 0.5 phonons at base temperature. This constitutes the heaviest ($\sim$494 $\mu$g) mechanical object measured in the quantum ground state to date. Further measurements confirm a negligible effect of laser heating on this phonon occupation. Our results pave the way toward low-noise, high-efficiency microwave-to-optical transduction based on BAW resonators.
翻訳日:2023-03-09 13:18:54 公開日:2023-03-08
# 差分プライバシーを持つ訓練モデルの理論に関する考察

Considerations on the Theory of Training Models with Differential Privacy ( http://arxiv.org/abs/2303.04676v1 )

ライセンス: Link先を確認
Marten van Dijk and Phuong Ha Nguyen(参考訳) 連携学習におけるコラボレーティブラーニングは、各クライアントがそれぞれのローカルトレーニングデータの使用方法、特に各クライアントのローカルトレーニングデータがプライベートのままであることをコントロールしたいという一連のクライアントによって行われる。 差分プライバシーは、プライバシー漏洩を制限する方法のひとつだ。 本稿では,そのフレームワークの概要と証明可能な特性について概説し,Gaussian DP あるいは $f$-DP と呼ばれる仮説に基づくより最近の定義を取り入れた上で,Pariially Private Stochastic Gradient Descent (DP-SGD) について議論する。 私たちはメタレベルに留まり、直感的な説明と洞察を試みます。

In federated learning collaborative learning takes place by a set of clients who each want to remain in control of how their local training data is used, in particular, how can each client's local training data remain private? Differential privacy is one method to limit privacy leakage. We provide a general overview of its framework and provable properties, adopt the more recent hypothesis based definition called Gaussian DP or $f$-DP, and discuss Differentially Private Stochastic Gradient Descent (DP-SGD). We stay at a meta level and attempt intuitive explanations and insights \textit{in this book chapter}.
翻訳日:2023-03-09 13:18:34 公開日:2023-03-08
# 多くのマヨラナエッジモードを持つフロケットトポロジカル超伝導体:位相不変量、絡み合いスペクトル、バルクエッジ対応

Floquet topological superconductors with many Majorana edge modes: topological invariants, entanglement spectrum and bulk-edge correspondence ( http://arxiv.org/abs/2303.04674v1 )

ライセンス: Link先を確認
Hailing Wu, Shenlin Wu, and Longwen Zhou(参考訳) 1次元フロケトポロジカル超伝導体は、0 と $\pi$ quasienerige の2種類の退化マヨラナエッジモードを持ち、静的な結晶よりも境界時間結晶や量子コンピューティングスキームの設計に余分な余地を残している。 本研究では,周期的に駆動されるキタエフ鎖において,位相不変量が大きく,任意に多数のマヨラエッジモードを持つフロッケ超伝導相を発見する。 フロッケ作用素とフロッケ絡み合いハミルトニアンのために定義された位相的巻線数は、異なる駆動プロトコルの下でシステムの位相図、バルクエッジ対応、およびゼロおよび$\pi$ majoranaエッジモードに関する一貫した予測を生成する。 両部エンタングルメントエントロピーは、異なるフロケット超伝導相間のトポロジカル遷移点周辺の非解析的挙動を示す。 これらの一般的な特徴は、周期的にペアリングやホッピング振幅を用いてキタエフ連鎖を調べることによって示される。 我々の発見は、一次元超伝導系の周期駆動場によって引き起こされる豊富な位相位相と多くのマヨラナエッジモードを明らかにする。 さらに、その準エネルギーバンドと絡み合い特性から、フロケトポロジカル超伝導体のクラスに対する統一的な記述を導入する。

One-dimensional Floquet topological superconductors possess two types of degenerate Majorana edge modes at zero and $\pi$ quasieneriges, leaving more room for the design of boundary time crystals and quantum computing schemes than their static counterparts. In this work, we discover Floquet superconducting phases with large topological invariants and arbitrarily many Majorana edge modes in periodically driven Kitaev chains. Topological winding numbers defined for the Floquet operator and Floquet entanglement Hamiltonian are found to generate consistent predictions about the phase diagram, bulk-edge correspondence and numbers of zero and $\pi$ Majorana edge modes of the system under different driving protocols. The bipartite entanglement entropy further show non-analytic behaviors around the topological transition point between different Floquet superconducting phases. These general features are demonstrated by investigating the Kitaev chain with periodically kicked pairing or hopping amplitudes. Our discovery reveals the rich topological phases and many Majorana edge modes that could be brought about by periodic driving fields in one-dimensional superconducting systems. It further introduces a unified description for a class of Floquet topological superconductors from their quasienergy bands and entanglement properties.
翻訳日:2023-03-09 13:18:22 公開日:2023-03-08
# 大規模言語モデル生成推論のためのコスト効果ハイパーパラメータ最適化

Cost-Effective Hyperparameter Optimization for Large Language Model Generation Inference ( http://arxiv.org/abs/2303.04673v1 )

ライセンス: Link先を確認
Chi Wang, Susan Xueqing Liu, Ahmed H. Awadallah(参考訳) GPT-3のような大規模言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発につながった。 モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。 本稿では,テキスト生成の実用/コストに大きな影響を及ぼす応答数,温度,最大トークンなどの推定ハイパーパラメータの最適化について検討する。 経済的なハイパーパラメータ最適化とコストベースプルーニングを活用したEcoOptiGenというフレームワークを設計する。 様々なタスクにおける最新のGPT-3.5モデルによる実験は、その有効性を検証する。 EcoOptiGenはFLAMLライブラリで実装されている。 https://github.com/microsoft/FLAML。

Large Language Models (LLMs) like GPT-3 have sparked significant interest in their generative capabilities, leading to the development of various commercial applications. The high cost of using the models drives application builders to maximize the value of generation under a limited inference budget. This paper presents a study of optimizing inference hyperparameters like the number of responses, temperature and max tokens, which significantly affects the utility/cost of text generation. We design a framework named EcoOptiGen which leverages economical hyperparameter optimization and cost-based pruning. Experiments with the latest GPT-3.5 models on a variety of tasks verify its effectiveness. EcoOptiGen is implemented in the FLAML library: https://github.com/microsoft/FLAML, and we provide one example of using it at: https://microsoft.github.io/FLAML/docs/Examples/Integrate%20-%20OpenAI.
翻訳日:2023-03-09 13:17:58 公開日:2023-03-08
# 固体量子エミッタの偏光ダイナミクス

Polarization dynamics of solid-state quantum emitters ( http://arxiv.org/abs/2303.04732v1 )

ライセンス: Link先を確認
Anand Kumar, \c{C}a\u{g}lar Samaner, Chanaprom Cholsuk, Tjorben Matthes, Serkan Pa\c{c}al, Ya\u{g}{\i}z Oyun, Ashkan Zand, Robert J. Chapman, Gr\'egoire Saerens, Rachel Grange, Sujin Suwanna, Serkan Ate\c{s}, Tobias Vogl(参考訳) 固体結晶中の量子エミッタは最近、光学量子技術における単純な応用性のために多くの注目を集めている。 ダイヤモンドや六方晶窒化ホウ素(hBN)によってホストされる蛍光欠陥などの色中心は室温で単一光子を放出し、ナノスケールのセンシングに使用できる。 しかし、hBN欠陥の原子構造はまだよく分かっていない。 本研究では、局所電子照射により同一のhBNエミッタの配列を作製する。 これにより、双極子配向をホスト結晶軸と関連付けることができる。 結晶軸に対する励起と放出の双極子の角度も密度汎関数理論を用いて計算され、特定の欠陥ごとに特性角が示される。 さらに,時間的偏光ダイナミクスを調査し,hbnおよびダイヤモンドにおける色中心の時間依存偏光可視性と双極子配向の機構を見出した。 これは局所結晶環境における過剰電荷の励起に遡ることができる。 したがって、我々は、色中心の同定と固体量子エミッタのダイナミクスに関する重要な洞察を期待できる経路を提供する。

Quantum emitters in solid-state crystals have recently attracted a lot of attention due to their simple applicability in optical quantum technologies. Color centers such as fluorescent defects hosted by diamond and hexagonal boron nitride (hBN) emit single photons at room temperature and can be used for nanoscale sensing. The atomic structure of the hBN defects, however, is not yet well understood. In this work, we fabricate an array of identical hBN emitters by localized electron irradiation. This allows us to correlate the dipole orientations with the host crystal axes. The angle of excitation and emission dipoles relative to the crystal axes are also calculated using density functional theory, which reveals characteristic angles for every specific defect. Moreover, we also investigate the temporal polarization dynamics and discover a mechanism of time-dependent polarization visibility and dipole orientation of color centers in hBN and diamond. This can be traced back to the excitation of excess charges in the local crystal environment. We therefore provide a promising pathway for the identification of color centers as well as important insight into the dynamics of solid-state quantum emitters.
翻訳日:2023-03-09 13:11:04 公開日:2023-03-08
# 甲状腺結節診断における説明可能なAIの信頼に向けて

Towards Trust of Explainable AI in Thyroid Nodule Diagnosis ( http://arxiv.org/abs/2303.04731v1 )

ライセンス: Link先を確認
Truong Thanh Hung Nguyen, Van Binh Truong, Vo Thanh Khang Nguyen, Quoc Hung Cao, Quoc Khanh Nguyen(参考訳) ディープラーニングモデルの予測をエンドユーザに説明する能力は、医学的意思決定プロセスにおいて人工知能(AI)の力を活用する上で重要な特徴である。 本稿では,甲状腺結節診断アプリケーションにおけるブラックボックスAIモデルの予測について,最先端のeXplainable AI(XAI)手法を適用した。 我々は,検出された結節がない場合を説明するために,新しい統計ベースのXAI手法,すなわちカーネル密度推定と密度マップを提案する。 XAI法の性能は,データ品質とモデル性能を改善するためのフィードバックとして質的かつ定量的に比較される。 最後に,甲状腺結節画像におけるXAIモデルの決定について,医師の信頼度とXAIモデルへの信頼度を調査した。

The ability to explain the prediction of deep learning models to end-users is an important feature to leverage the power of artificial intelligence (AI) for the medical decision-making process, which is usually considered non-transparent and challenging to comprehend. In this paper, we apply state-of-the-art eXplainable artificial intelligence (XAI) methods to explain the prediction of the black-box AI models in the thyroid nodule diagnosis application. We propose new statistic-based XAI methods, namely Kernel Density Estimation and Density map, to explain the case of no nodule detected. XAI methods' performances are considered under a qualitative and quantitative comparison as feedback to improve the data quality and the model performance. Finally, we survey to assess doctors' and patients' trust in XAI explanations of the model's decisions on thyroid nodule images.
翻訳日:2023-03-09 13:10:48 公開日:2023-03-08
# 言語モデルの復号アルゴリズムをステーリングするリスクについて

On the Risks of Stealing the Decoding Algorithms of Language Models ( http://arxiv.org/abs/2303.04729v1 )

ライセンス: Link先を確認
Ali Naseh, Kalpesh Krishna, Mohit Iyyer, Amir Houmansadr(参考訳) 現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。 これらのアルゴリズムは、LMによって生成される内部確率分布からテキストを生成する方法を決定する。 復号アルゴリズムを選択してハイパーパラメータをチューニングするプロセスには、かなりの時間、手作業、計算が必要であり、人的評価も必要である。 したがって、そのような復号アルゴリズムのアイデンティティとハイパーパラメータは、所有者にとって極めて貴重であると考えられる。 この研究で、我々は、lmに典型的なapiアクセスを持つ敵が、非常に低い金銭的コストでデコードアルゴリズムのタイプとハイパーパラメータを盗むことができることを初めて示す。 我々の攻撃は、GPT-2やGPT-3を含むテキスト生成APIで使われる一般的なLMに対して効果的である。 GPT-3の4つのバージョンでは、$$$0.8$、$$$1$、$$$4$、$$$40$などである。

A key component of generating text from modern language models (LM) is the selection and tuning of decoding algorithms. These algorithms determine how to generate text from the internal probability distribution generated by the LM. The process of choosing a decoding algorithm and tuning its hyperparameters takes significant time, manual effort, and computation, and it also requires extensive human evaluation. Therefore, the identity and hyperparameters of such decoding algorithms are considered to be extremely valuable to their owners. In this work, we show, for the first time, that an adversary with typical API access to an LM can steal the type and hyperparameters of its decoding algorithms at very low monetary costs. Our attack is effective against popular LMs used in text generation APIs, including GPT-2 and GPT-3. We demonstrate the feasibility of stealing such information with only a few dollars, e.g., $\$0.8$, $\$1$, $\$4$, and $\$40$ for the four versions of GPT-3.
翻訳日:2023-03-09 13:10:36 公開日:2023-03-08
# gaussian process-supported dynamical constraintsによる自動運転車のモデル予測制御

Model Predictive Control with Gaussian-Process-Supported Dynamical Constraints for Autonomous Vehicles ( http://arxiv.org/abs/2303.04725v1 )

ライセンス: Link先を確認
Johanna Bethge, Maik Pfefferkorn, Alexander Rose, Jan Peters, Rolf Findeisen(参考訳) 学習したガウス過程を利用して人間の運転行動を予測する自律走行車両のモデル予測制御手法を提案する。 提案手法は安全を達成するためのGPの予測の不確実性を利用する。 マルチモード予測制御アプローチは、人間のドライバーの意図を考慮に入れる。 意図は異なるガウス過程で表されるが、観察された行動の確率は適切なオンライン分類によって決定される。 一定の確率しきい値以下の意図は性能を改善するために無視される。 ガウス過程回帰支援を用いた多モードモデル予測制御手法により、確率の高い繰り返し実現可能性および確率的制約満足度を実現する。 このアプローチは、ガウス過程を訓練するための実世界の測定を考慮し、シミュレーションにおいて下記の通りである。

We propose a model predictive control approach for autonomous vehicles that exploits learned Gaussian processes for predicting human driving behavior. The proposed approach employs the uncertainty about the GP's prediction to achieve safety. A multi-mode predictive control approach considers the possible intentions of the human drivers. While the intentions are represented by different Gaussian processes, their probabilities foreseen in the observed behaviors are determined by a suitable online classification. Intentions below a certain probability threshold are neglected to improve performance. The proposed multi-mode model predictive control approach with Gaussian process regression support enables repeated feasibility and probabilistic constraint satisfaction with high probability. The approach is underlined in simulation, considering real-world measurements for training the Gaussian processes.
翻訳日:2023-03-09 13:10:18 公開日:2023-03-08
# 高速オフセット補正インメモリトレーニング

Fast offset corrected in-memory training ( http://arxiv.org/abs/2303.04721v1 )

ライセンス: Link先を確認
Malte J. Rasch, Fabio Carta, Omebayode Fagbohungbe, Tayfun Gokmen(参考訳) 抵抗性クロスバーアレイを用いたインメモリコンピューティングは、ディープラーニングのワークロードを高い効率で高速化することが提案されている。 インメモリコンピューティングの可能性を最大限に発揮するには、トレーニングの加速と大規模ディープニューラルネットワーク(dnn)の推論が望ましい。 過去には、前方と後方のパスを加速するだけでなく、ウェイトインメモリと並列にウェイトを更新するためのトリックを確立する特別なインメモリトレーニングアルゴリズムが提案されている。 しかし、最先端のアルゴリズム(Tiki-Takaバージョン2(TTv2))は依然としてほぼ完全なオフセット補正を必要としており、プログラムや推定の不正確さによって生じる可能性のあるバイアスや、デバイス材料の長期的な不安定さに悩まされている。 本稿では,メモリ内計算のための2つの新しい改良アルゴリズム(chopped-ttv2 (c-ttv2) と動的参照を用いたアナログ勾配累積法(agad))を提案する。 これらのアルゴリズムはデバイス要件を大幅に緩和し、このような高速なインメモリDNNトレーニングに使用される可能性のある材料の範囲を広げる。

In-memory computing with resistive crossbar arrays has been suggested to accelerate deep-learning workloads in highly efficient manner. To unleash the full potential of in-memory computing, it is desirable to accelerate the training as well as inference for large deep neural networks (DNNs). In the past, specialized in-memory training algorithms have been proposed that not only accelerate the forward and backward passes, but also establish tricks to update the weight in-memory and in parallel. However, the state-of-the-art algorithm (Tiki-Taka version 2 (TTv2)) still requires near perfect offset correction and suffers from potential biases that might occur due to programming and estimation inaccuracies, as well as longer-term instabilities of the device materials. Here we propose and describe two new and improved algorithms for in-memory computing (Chopped-TTv2 (c-TTv2) and Analog Gradient Accumulation with Dynamic reference (AGAD)), that retain the same runtime complexity but correct for any remaining offsets using choppers. These algorithms greatly relax the device requirements and thus expanding the scope of possible materials potentially employed for such fast in-memory DNN training.
翻訳日:2023-03-09 13:10:09 公開日:2023-03-08
# 医療廃棄物ソーティング : コンピュータビジョンによる一次選別支援

Medical Waste Sorting: a computer vision approach for assisted primary sorting ( http://arxiv.org/abs/2303.04720v1 )

ライセンス: Link先を確認
A. Bruno, C.Caudai, G.R. Leone, M. Martinelli, D. Moroni, F. Crotti(参考訳) 医療廃棄物、すなわち病院、診療所、研究所における医療活動中に発生する廃棄物は、特別のケアと高いコストを伴う危険廃棄物である。 しかし、この種の廃棄物は、循環経済プロセスに入ることのできる非常に価値の高い材料のかなりの割合を含んでいる。 そこで本稿では, 医療廃棄物の一次選別を支援するコンピュータビジョン手法を提案する。 このアプローチの有効性は、私たちが収集し、コミュニティに提供した代表的データセットで実証され、100倍精度のモデルと、トレーニングされたモデルが優れた一般化を示す新しいデータセットをトレーニングしました。

Medical waste, i.e. waste produced during medical activities in hospitals, clinics and laboratories, represents hazardous waste whose management involves special care and high costs. However, this kind of waste contains a significant fraction of highly valued materials that can enter a circular economy process. To this end, in this paper, we propose a computer vision approach for assisting in the primary sorting of medical waste. The feasibility of our approach is demonstrated on a representative dataset we collected and made available to the community, with which we have trained a model that achieves 100\% accuracy, and a new dataset on which the trained model exhibits good generalization.
翻訳日:2023-03-09 13:09:47 公開日:2023-03-08
# 伝統的な中国語サポートの改善のためのBLOOMの事前学習の拡張:モデル,方法,結果

Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results ( http://arxiv.org/abs/2303.04715v1 )

ライセンス: Link先を確認
Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu, Yin-Hsiang Liao, Chin-Tung Lin, Da-Shan Shiu, Wei-Yun Ma(参考訳) 本稿では,従来の中国語のサポート強化を特徴とする多言語言語モデルBLOOM-zhを提案する。 BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 発表モデルから,新聞記事,書籍,百科事典,教育資料,音声言語など,さまざまな領域をカバーし,従来の中国語や英語で74億トークンを追加することで,BLOOMの事前学習を拡大した。 BLOOM-zhの特性を示すために、既存のベンチマークシナリオと新しく作成されたベンチマークシナリオの両方を用いて性能を評価する。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れている。 すべてのモデルを研究コミュニティにリリースします。

In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community.
翻訳日:2023-03-09 13:09:37 公開日:2023-03-08
# Levin-Wen系における凝縮の格子モデル

A lattice model for condensation in Levin-Wen systems ( http://arxiv.org/abs/2303.04711v1 )

ライセンス: Link先を確認
Jessica Christian, David Green, Peter Huston, David Penneys(参考訳) levin-wen 弦ネットモデルは、ユニタリ核融合圏の {drinfeld} 中心で記述された(2+1)d 位相的に順序付けられた物質の位相相を構成する。 Anyon condensation は (2+1)D 位相秩序相間の相転移のメカニズムである。 パラメータのチューニングが任意の凝縮を実装するLevin-Wenモデルの拡張を構築する。 また、管代数の表現論を通じて、レヴィン=ウェン模型内の任意の電子の分類を記述し、管代数の変種を用いて凝縮相の低エネルギー局所励起を分類する。

Levin-Wen string-net models provide a construction of (2+1)D topologically ordered phases of matter with anyonic localized excitations described by the {Drinfeld} center of a unitary fusion category. Anyon condensation is a mechanism for phase transitions between (2+1)D topologically ordered phases. We construct an extension of Levin-Wen models in which tuning a parameter implements anyon condensation. We also describe the classification of anyons in Levin-Wen models via representation theory of the tube algebra, and use a variant of the tube algebra to classify low-energy localized excitations in the condensed phase.
翻訳日:2023-03-09 13:09:25 公開日:2023-03-08
# DiM: 生成モデルにデータセットを蒸留する

DiM: Distilling Dataset into Generative Model ( http://arxiv.org/abs/2303.04707v1 )

ライセンス: Link先を確認
Kai Wang, Jianyang Gu, Daquan Zhou, Zheng Zhu, Wei Jiang and Yang You(参考訳) データセット蒸留は、大規模データセットから小規模で有益なデータセットを合成することで、ネットワークトレーニングコストを削減します。 最近のデータセット蒸留アルゴリズムの成功にもかかわらず、3つの欠点は広い適用範囲を制限している。 私)。 合成画像は大きな建築では性能が悪く i)。 蒸留比が変わると再最適化する必要があります iii)。 限られた多様性は 蒸留比が大きい場合に 性能を制限します 本稿では,大列車集合 \textbf{i}nto 生成型 \textbf{m}odels の情報を dim と呼ぶ新しい蒸留スキームを提案する。 具体的には、ターゲットデータセットの情報を保存するために生成モデルを使用することを学ぶ。 蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。 展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。 単純で効果的な設計のため、訓練されたDiMは、追加のコストなしで異なる蒸留比と大きな建築に直接適用することができる。 4つのデータセットにまたがって提案したDiMを検証する。 私たちの知る限りでは、resnet-18で75.1\%、cifar-10のクラスで10イメージでconvnet-3で72.6\%といった単純なアーキテクチャよりも、複雑なアーキテクチャで高い精度を達成するのは初めてです。 さらに、SVHNデータセット上のクラス毎のイメージが1と10である場合、DiMは10\%$\sim$ 22\%で、従来のメソッドよりも優れています。

Dataset distillation reduces the network training cost by synthesizing small and informative datasets from large-scale ones. Despite the success of the recent dataset distillation algorithms, three drawbacks still limit their wider application: i). the synthetic images perform poorly on large architectures; ii). they need to be re-optimized when the distillation ratio changes; iii). the limited diversity restricts the performance when the distillation ratio is large. In this paper, we propose a novel distillation scheme to \textbf{D}istill information of large train sets \textbf{i}nto generative \textbf{M}odels, named DiM. Specifically, DiM learns to use a generative model to store the information of the target dataset. During the distillation phase, we minimize the differences in logits predicted by a models pool between real and generated images. At the deployment stage, the generative model synthesizes various training samples from random noises on the fly. Due to the simple yet effective designs, the trained DiM can be directly applied to different distillation ratios and large architectures without extra cost. We validate the proposed DiM across 4 datasets and achieve state-of-the-art results on all of them. To the best of our knowledge, we are the first to achieve higher accuracy on complex architectures than simple ones, such as 75.1\% with ResNet-18 and 72.6\% with ConvNet-3 on ten images per class of CIFAR-10. Besides, DiM outperforms previous methods with 10\% $\sim$ 22\% when images per class are 1 and 10 on the SVHN dataset.
翻訳日:2023-03-09 13:09:15 公開日:2023-03-08
# 局所光子の理論と場の量子論への応用

A theory of local photons with applications in quantum field theory ( http://arxiv.org/abs/2303.04706v1 )

ライセンス: Link先を確認
Daniel R. E. Hodgson(参考訳) 量子光学では、電磁場(em)の光子の基本エネルギー量子論を、一定のエネルギーと運動量を持つ単色波を用いて記述し、ボソニックな可換関係を満足することが一般的である。 しかしこのアプローチを採用すると、単一光子の局所性および超光伝播に関するいくつかのノーゴー定理が導かれる。 残念なことに、em場の局所量子記述がなければ、局所相互作用や局所境界条件の存在下での光の特定のダイナミクスを記述することは困難になる。 本論文では,1次元と3次元の両方における自由em場を,完全に局所化され,分散することなく光速で伝播する量子量の観点から定量化する。 我々のアプローチには、初期のノーゴー定理を克服できる2つの特性がある。 第一に、常に局所化できる粒子と、不可能な電場と磁場を明確に区別し、第二に、ハミルトニアン上の下界を取り除き、基本原理から負周波光子を導入する。 その後、フェルミの2原子問題に類似した線形光学実験において、光の伝播を研究して量子化スキームをテストする。 本稿では,標準量子化スキームとは異なり,局所化フォトニックウェーブパケットの因果伝播を予測する手法を提案する。 また、この理論を用いて1次元と3次元の両方におけるカシミール効果の新しい視点を与える。 論文のこの部分では、正規化手順を起動することなく、2つの高反射性金属板間の魅力的な力を予測する。

In quantum optics it is usual to describe the basic energy quanta of the electromagnetic (EM) field, photons, in terms of monochromatic waves which have a definite energy and momentum, and satisfy bosonic commutation relations. Taking this approach, however, leads to several no-go theorems regarding the localisability and superluminal propagation of single photons. Unfortunately, without a local quantum description of the EM field it becomes difficult to describe the specific dynamics of light in the presence of local interactions or local boundary conditions. In this thesis we take an alternative approach and quantise the free EM field in both one and three dimensions in terms of quanta that are perfectly localised and propagate at the speed of light without dispersion. Our approach has two characteristics that allow it to overcome earlier no-go theorems. Firstly, we make a clear distinction between particles, which can always be localised, and the electric and magnetic fields, which cannot; and secondly, we remove the lower bound on the Hamiltonian, thereby introducing negative-frequency photons from basic principles. Afterwards we test our quantisation scheme by studying the propagation of light in a linear optics experiment analogous to that studied in Fermi's two-atom problem. Here we show that, unlike standard quantisation schemes, our approach predicts the causal propagation of localised photonic wave packets. We also use our theory to provide a new perspective on the Casimir effect in both one and three dimensions. In this part of the thesis we predict an attractive force between two highly-reflecting metallic plates without having to invoke regularisation procedures.
翻訳日:2023-03-09 13:08:50 公開日:2023-03-08
# Video-P2P:クロスアテンション制御によるビデオ編集

Video-P2P: Video Editing with Cross-attention Control ( http://arxiv.org/abs/2303.04761v1 )

ライセンス: Link先を確認
Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, Jiaya Jia(参考訳) 本稿では,クロスアテンション制御による映像編集のための新しいフレームワークであるVideo-P2Pを提案する。 注意制御は、事前訓練された画像生成モデルによる画像編集に有効であることが証明されているが、現在、大規模な映像生成モデルは公開されていない。 Video-P2Pは、様々なビデオ編集タスクを完了させるために画像生成拡散モデルを適用することで、この制限に対処する。 具体的には,まずテキスト・ツー・セット(t2s)モデルをチューニングして近似反転を完了させ,共有非条件埋め込みを最適化し,少ないメモリコストで正確な映像インバージョンを実現することを提案する。 注意制御には,ソースとターゲットのプロンプトに対して異なる誘導戦略を用いる,新たな分離誘導戦略を導入する。 ソースに対する最適化された無条件埋め込みは再構築能力を向上させる一方、ターゲットに対する初期化された無条件埋め込みは編集性を向上させる。 これら2つのブランチの注意マップを組み込むことで、詳細な編集が可能になる。 これらの技術設計により、ワードスワップ、プロンプトリファインメント、アテンション再重み付けなどの様々なテキスト駆動編集アプリケーションが可能になる。 video-p2pは現実世界の動画でうまく動作し、オリジナルのポーズやシーンを最適に保存しながら新しいキャラクターを生成する。 これは以前のアプローチを大きく上回っている。

This paper presents Video-P2P, a novel framework for real-world video editing with cross-attention control. While attention control has proven effective for image editing with pre-trained image generation models, there are currently no large-scale video generation models publicly available. Video-P2P addresses this limitation by adapting an image generation diffusion model to complete various video editing tasks. Specifically, we propose to first tune a Text-to-Set (T2S) model to complete an approximate inversion and then optimize a shared unconditional embedding to achieve accurate video inversion with a small memory cost. For attention control, we introduce a novel decoupled-guidance strategy, which uses different guidance strategies for the source and target prompts. The optimized unconditional embedding for the source prompt improves reconstruction ability, while an initialized unconditional embedding for the target prompt enhances editability. Incorporating the attention maps of these two branches enables detailed editing. These technical designs enable various text-driven editing applications, including word swap, prompt refinement, and attention re-weighting. Video-P2P works well on real-world videos for generating new characters while optimally preserving their original poses and scenes. It significantly outperforms previous approaches.
翻訳日:2023-03-09 13:03:00 公開日:2023-03-08
# RAF:ディープラーニングモデルトレーニングのためのホロスティックコンパイル

RAF: Holistic Compilation for Deep Learning Model Training ( http://arxiv.org/abs/2303.04759v1 )

ライセンス: Link先を確認
Cody Hao Yu, Haozheng Fan, Guangtai Huang, Zhen Jia, Yizhi Liu, Jie Wang, Zach Zheng, Yuan Zhou, Haichen Shen, Junru Shao, Mu Li, Yida Wang(参考訳) ディープラーニングは現代のアプリケーションで広く普及しているため、ディープラーニングの実践者がDNNモデルの開発とトレーニングを迅速に行うために、多くのディープラーニングフレームワークが提示されている。 一方,近年,大規模ディープラーニングモデルのトレーニングがトレンドとなっているため,トレーニングスループットとメモリフットプリントが重要になっている。 したがって、コンパイラ最適化によるトレーニングワークロードの最適化は必然的であり、ますます注目を集めている。 しかし、既存のディープラーニングコンパイラ(DLC)は、主に推論を対象とし、自動微分や自動混合精度といった全体最適化をトレーニングワークロードに含まない。 本稿では,学習のための深層学習コンパイラであるRAFについて述べる。 既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。 したがって、RAFはパフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。 さらに、手作りのカーネルライブラリやテンソルコンパイラによる最先端のパフォーマンスに追いつくために、RAFは全ての可能なカーネル実装をシームレスに統合する演算子弁証機構を提案する。 インハウストレーニンググラフ生成とオペレータ弁証機構によって,gpu上の一般的なトランスフォーマモデルに対して,総合的な最適化を行うことで,pytorch(eagerおよびtorchscriptモード),xla,deepspeedに対するトレーニングスループットの向上やバッチサイズの向上を実現できることを実証した。

As deep learning is pervasive in modern applications, many deep learning frameworks are presented for deep learning practitioners to develop and train DNN models rapidly. Meanwhile, as training large deep learning models becomes a trend in recent years, the training throughput and memory footprint are getting crucial. Accordingly, optimizing training workloads with compiler optimizations is inevitable and getting more and more attentions. However, existing deep learning compilers (DLCs) mainly target inference and do not incorporate holistic optimizations, such as automatic differentiation and automatic mixed precision, in training workloads. In this paper, we present RAF, a deep learning compiler for training. Unlike existing DLCs, RAF accepts a forward model and in-house generates a training graph. Accordingly, RAF is able to systematically consolidate graph optimizations for performance, memory and distributed training. In addition, to catch up to the state-of-the-art performance with hand-crafted kernel libraries as well as tensor compilers, RAF proposes an operator dialect mechanism to seamlessly integrate all possible kernel implementations. We demonstrate that by in-house training graph generation and operator dialect mechanism, we are able to perform holistic optimizations and achieve either better training throughput or larger batch size against PyTorch (eager and torchscript mode), XLA, and DeepSpeed for popular transformer models on GPUs.
翻訳日:2023-03-09 13:02:40 公開日:2023-03-08
# meta-learning control variates: 限定データによる分散削減

Meta-learning Control Variates: Variance Reduction with Limited Data ( http://arxiv.org/abs/2303.04756v1 )

ライセンス: Link先を確認
Zhuo Sun, Chris J. Oates, Fran\c{c}ois-Xavier Briol(参考訳) 制御変数はモンテカルロ推定器の分散を低減する強力なツールとなり得るが、サンプル数が少ない場合、効果的な制御変数の構築は困難である。 本稿では,多数の関連積分を計算する必要がある場合,これらの統合タスク間の類似性を利用して,タスク毎のサンプル数が極めて少ない場合でも性能を向上させることができることを示す。 メタラーニングCV(Meta-CVs)と呼ばれる私たちのアプローチは、数百から数千のタスクに使用できます。 実験結果から,メタcvsは,そのような状況下で大きなばらつきを生じさせる可能性が示唆され,理論解析によりメタcvsを効果的に訓練できる一般的な条件が確立される。

Control variates can be a powerful tool to reduce the variance of Monte Carlo estimators, but constructing effective control variates can be challenging when the number of samples is small. In this paper, we show that when a large number of related integrals need to be computed, it is possible to leverage the similarity between these integration tasks to improve performance even when the number of samples per task is very small. Our approach, called meta learning CVs (Meta-CVs), can be used for up to hundreds or thousands of tasks. Our empirical assessment indicates that Meta-CVs can lead to significant variance reduction in such settings, and our theoretical analysis establishes general conditions under which Meta-CVs can be successfully trained.
翻訳日:2023-03-09 13:02:16 公開日:2023-03-08
# 特異値分解を用いた合成エネルギースペクトルアンサンブルの展開

Unfolding a composed ensemble of energy spectra using singular value decomposition ( http://arxiv.org/abs/2303.04755v1 )

ライセンス: Link先を確認
Richard Berkovits(参考訳) エネルギースペクトルの挙動とランダム行列理論の予測を比較する際、平均レベルの間隔が一定となるようなスペクトルを変換しなければならない。 エネルギースペクトルが大きな実現から実現までの揺らぎがあるアンサンブルに属すると、展開の正準法は失敗する。 ここでは, 特異値分解が, 非単調な局所的な状態密度を生じるパラメータの異なる範囲から得られる実現から, アンサンブルが構成される困難な状況においても利用できることを示す。 これは、物理的パラメータを厳密に制御できない実験的な状況や、状態の局所密度が強く変動している状況に有用である。

In comparing the behavior of an energy spectrum to the predictions of random matrix theory one must transform the spectrum such that the averaged level spacing is constant, a procedure known as unfolding. Once energy spectrums belong to an ensemble where there are large realization-to-realization fluctuations the canonical methods for unfolding fail. Here we show that singular value decomposition can be used even for the challenging situations where the ensemble is composed out of realizations originating from a different range of parameters resulting in a non-monotonous local density of states. This can be useful in experimental situations for which the physical parameters can not be tightly controlled, of for situations for which the local density of states is strongly fluctuating.
翻訳日:2023-03-09 13:02:03 公開日:2023-03-08
# マルチモーダルパラメータ効率の良いFew-Shotクラスインクリメンタルラーニング

Multimodal Parameter-Efficient Few-Shot Class Incremental Learning ( http://arxiv.org/abs/2303.04751v1 )

ライセンス: Link先を確認
Marco D'Alessandro, Alberto Alonso, Enrique Calabr\'es, Mikel Galar(参考訳) FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。 このタスクを成功させるためには,マイナショットトレーニングセットにおけるバイアス分散に起因する新しいクラスへの過剰適合を避ける必要がある。 この問題に対処する一般的なアプローチは、古いクラスとの後方互換性のために特別なモジュールを追加することで、事前定義されたバックボーンアーキテクチャの表現能力を高めることである。 しかし、この手法は、より大きなトレーニングセットとより小さなトレーニングセットで得られた性能のギャップを減らしながら、時間とともに高い分類精度を確保するというジレンマをまだ解決していない。 本研究では,異なる学習セッション間での情報損失を低減するために,連続パラメータ効率クリップ(cpe-clip)と呼ばれる代替手法を提案する。 情報損失に対処するために追加モジュールを適用する代わりに、大規模事前学習においてCLIPが獲得した膨大な知識を活用し、新しい概念への一般化に有効である。 我々のアプローチはマルチモーダルかつパラメータ効率であり、セッション間の移動学習を可能にするために言語と視覚エンコーダの両方で学習可能なプロンプトに依存している。 また、パフォーマンスを改善し、忘れることを防ぐために、即興の規則化も導入します。 実験の結果,CPE-CLIPは最新の提案に比べてFSCILの性能を著しく向上させるとともに,学習可能なパラメータの数やトレーニングコストを大幅に削減することがわかった。

Few-Shot Class Incremental Learning (FSCIL) is a challenging continual learning task, where limited training examples are available during several learning sessions. To succeed in this task, it is necessary to avoid over-fitting new classes caused by biased distributions in the few-shot training sets. The general approach to address this issue involves enhancing the representational capability of a pre-defined backbone architecture by adding special modules for backward compatibility with older classes. However, this approach has not yet solved the dilemma of ensuring high classification accuracy over time while reducing the gap between the performance obtained on larger training sets and the smaller ones. In this work, we propose an alternative approach called Continual Parameter-Efficient CLIP (CPE-CLIP) to reduce the loss of information between different learning sessions. Instead of adapting additional modules to address information loss, we leverage the vast knowledge acquired by CLIP in large-scale pre-training and its effectiveness in generalizing to new concepts. Our approach is multimodal and parameter-efficient, relying on learnable prompts for both the language and vision encoders to enable transfer learning across sessions. We also introduce prompt regularization to improve performance and prevent forgetting. Our experimental results demonstrate that CPE-CLIP significantly improves FSCIL performance compared to state-of-the-art proposals while also drastically reducing the number of learnable parameters and training costs.
翻訳日:2023-03-09 13:01:52 公開日:2023-03-08
# CLIP-FO3D: 2D Dense CLIPから自由なオープンワールド3Dシーン表現を学ぶ

CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP ( http://arxiv.org/abs/2303.04748v1 )

ライセンス: Link先を確認
Junbo Zhang, Runpei Dong, Kaisheng Ma(参考訳) 3Dシーン理解モデルのトレーニングには複雑な人間のアノテーションが必要である。 対照的に、視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。 そこで本研究では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。 私たちはまず,CLIPの入力・転送処理を3次元シーンコンテンツのための高密度画素特徴抽出に適用できるように修正する。 次に,マルチビュー画像機能をポイントクラウドに投影し,機能蒸留による3次元シーン理解モデルをトレーニングする。 アノテーションや追加のトレーニングがなければ、オープンボキャブラリセマンティクスとロングテールの概念に対して、アノテーションフリーなセマンティクスセグメンテーション結果が得られる。 また, クロスモーダルな事前学習フレームワークとして機能し, 微調整時のデータ効率向上に有効である。 我々のモデルは、様々なゼロショットおよびデータ効率の学習ベンチマークにおいて、従来のSOTA手法よりも優れている。 最も重要なことは、私たちのモデルはCLIPの豊富な構造化知識を継承し、3Dシーン理解モデルがオブジェクトの概念だけでなく、オープンワールドのセマンティクスも認識できるようにすることです。

Training a 3D scene understanding model requires complicated human annotations, which are laborious to collect and result in a model only encoding close-set object semantics. In contrast, vision-language pre-training models (e.g., CLIP) have shown remarkable open-world reasoning properties. To this end, we propose directly transferring CLIP's feature space to 3D scene understanding model without any form of supervision. We first modify CLIP's input and forwarding process so that it can be adapted to extract dense pixel features for 3D scene contents. We then project multi-view image features to the point cloud and train a 3D scene understanding model with feature distillation. Without any annotations or additional training, our model achieves promising annotation-free semantic segmentation results on open-vocabulary semantics and long-tailed concepts. Besides, serving as a cross-modal pre-training framework, our method can be used to improve data efficiency during fine-tuning. Our model outperforms previous SOTA methods in various zero-shot and data-efficient learning benchmarks. Most importantly, our model successfully inherits CLIP's rich-structured knowledge, allowing 3D scene understanding models to recognize not only object concepts but also open-world semantics.
翻訳日:2023-03-09 13:01:26 公開日:2023-03-08
# 正当性, 誤り性, 外在性等式に関する一般理論

A General Theory of Correct, Incorrect, and Extrinsic Equivariance ( http://arxiv.org/abs/2303.04745v1 )

ライセンス: Link先を確認
Dian Wang, Xupeng Zhu, Jung Yeon Park, Robert Platt, Robin Walters(参考訳) 等価な機械学習は多くのタスクで有効であることが証明されているが、成功は、同変ニューラルネットワークの対称性に一致する領域全体に基底真理関数が対称であるという仮定に大きく依存している。 同変学習文献の欠片は、対称性が領域内にのみ存在するときの同変ネットワークの分析である。 本研究では,そのような状況に対する一般的な理論を示す。 関数が表示する各種類の等分散の程度を連続的に定量化できる、正、不正確、極値等分散のポイントワイズ定義を提案する。 次に, モデル誤差に対する不正確な, 極端な対称性の影響について検討した。 部分的不正確な対称性を持つ分類や回帰設定において、不変あるいは同変ネットワークに対する誤差の低い境界を証明した。 また、外因性同値の潜在的有害効果も分析した。 実験は3つの異なる環境でこれらの結果を検証する。

Although equivariant machine learning has proven effective at many tasks, success depends heavily on the assumption that the ground truth function is symmetric over the entire domain matching the symmetry in an equivariant neural network. A missing piece in the equivariant learning literature is the analysis of equivariant networks when symmetry exists only partially in the domain. In this work, we present a general theory for such a situation. We propose pointwise definitions of correct, incorrect, and extrinsic equivariance, which allow us to quantify continuously the degree of each type of equivariance a function displays. We then study the impact of various degrees of incorrect or extrinsic symmetry on model error. We prove error lower bounds for invariant or equivariant networks in classification or regression settings with partially incorrect symmetry. We also analyze the potentially harmful effects of extrinsic equivariance. Experiments validate these results in three different environments.
翻訳日:2023-03-09 13:01:03 公開日:2023-03-08
# 双方向事前モデルを用いたベクトル量子化時系列生成

Vector Quantized Time Series Generation with a Bidirectional Prior Model ( http://arxiv.org/abs/2303.04743v1 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne and Erlend Aune(参考訳) 時系列生成(TSG)の研究は、主にGAN(Generative Adversarial Networks)とRNN(Recurrent Neural Network)の亜種の使用に焦点を当てている。 しかし、GANの訓練の基本的な限界と課題は依然として残っている。 加えて、RNNファミリーは通常、遠方の時間ステップ間の時間的一貫性が困難である。 画像生成(img)領域の成功に動機づけられ、tsg問題に対処するためにベクトル量子化(vq)技術を用いて、我々の知識に対して最初の仕事であるtimevqvaeを提案する。 さらに、離散潜在空間の事前は、大域的時間的一貫性をよりよく捉えるための双方向トランスフォーマーモデルで学習される。 また、低周波(LF)と高周波(HF)に分かれた時間周波数領域におけるVQモデリングを提案する。 これにより、時系列の重要な特性を保ち、代わりに、競合するTSG法よりも、モジュール性の急激な変化を伴う、より良い品質の合成信号を生成することができる。 IMG文献におけるFr'echetインセプション距離やインセプションスコアなどの指標を用いて,UCRアーカイブの全データセットについて実験を行った。 GitHub上の実装: \url{https://github.com/ML4ITS/TimeVQVAE}。

Time series generation (TSG) studies have mainly focused on the use of Generative Adversarial Networks (GANs) combined with recurrent neural network (RNN) variants. However, the fundamental limitations and challenges of training GANs still remain. In addition, the RNN-family typically has difficulties with temporal consistency between distant timesteps. Motivated by the successes in the image generation (IMG) domain, we propose TimeVQVAE, the first work, to our knowledge, that uses vector quantization (VQ) techniques to address the TSG problem. Moreover, the priors of the discrete latent spaces are learned with bidirectional transformer models that can better capture global temporal consistency. We also propose VQ modeling in a time-frequency domain, separated into low-frequency (LF) and high-frequency (HF). This allows us to retain important characteristics of the time series and, in turn, generate new synthetic signals that are of better quality, with sharper changes in modularity, than its competing TSG methods. Our experimental evaluation is conducted on all datasets from the UCR archive, using well-established metrics in the IMG literature, such as Fr\'echet inception distance and inception scores. Our implementation on GitHub: \url{https://github.com/ML4ITS/TimeVQVAE}.
翻訳日:2023-03-09 13:00:51 公開日:2023-03-08
# 畳み込みスライシング最適化とISA拡張を用いた直接畳み込みの改善

Advancing Direct Convolution using Convolution Slicing Optimization and ISA Extensions ( http://arxiv.org/abs/2303.04739v1 )

ライセンス: Link先を確認
Victor Ferrari, Rafael Sousa, Marcio Pereira, Jo\~ao P. L. de Carvalho, Jos\'e Nelson Amaral, Jos\'e Moreira, Guido Araujo(参考訳) 畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。 畳み込みを計算する従来の手法は、Im2Col + BLAS法として知られている。 本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。 このアルゴリズムは (a)畳み込みスライシング分析(CSA)-畳み込み固有の3Dキャッシュブロッキング解析パスで、キャッシュ階層のタイル再利用に焦点を当てる。 b)畳み込みスライシング最適化(CSO) - CSAを使ってタイル付き直接畳み込みマクロカーネルを生成するコード生成パス。 c)vector-based packing (vbp) - ユニタリストライドを持つ畳み込みに対するベクター・レジスタシフト命令に基づくアーキテクチャ固有の最適化入力テンソルパッキングソリューション。 完全なONNX-MLIR機械学習モデルによる393の畳み込み実験により、Im2Col変換の除去と高速パッキングルーチンの使用により、Intel x86では2.0x3.9x、IBM POWER10では3.6x-7.2xの完全なパッキング時間削減が達成された。 エンド・ツー・エンドの機械学習モデル推論のための現在のBLAS実装に基づくIm2Col + BLASメソッドの高速化は、Intel x86では9%から25%、IBM POWER10アーキテクチャでは10%から42%の範囲である。 モデル推論の総畳み込み速度は、intel x86では12% - 27%、ibm power10では26% - 46%である。 SConvはまた、219のテストインスタンスの83%以上において、ポイントワイドの畳み込みを計算する場合、BLAS GEMMよりも優れている。

Convolution is one of the most computationally intensive operations that must be performed for machine-learning model inference. A traditional approach to compute convolutions is known as the Im2Col + BLAS method. This paper proposes SConv: a direct-convolution algorithm based on a MLIR/LLVM code-generation toolchain that can be integrated into machine-learning compilers . This algorithm introduces: (a) Convolution Slicing Analysis (CSA) - a convolution-specific 3D cache-blocking analysis pass that focuses on tile reuse over the cache hierarchy; (b) Convolution Slicing Optimization (CSO) - a code-generation pass that uses CSA to generate a tiled direct-convolution macro-kernel; and (c) Vector-Based Packing (VBP) - an architecture-specific optimized input-tensor packing solution based on vector-register shift instructions for convolutions with unitary stride. Experiments conducted on 393 convolutions from full ONNX-MLIR machine-learning models indicate that the elimination of the Im2Col transformation and the use of fast packing routines result in a total packing time reduction, on full model inference, of 2.0x - 3.9x on Intel x86 and 3.6x - 7.2x on IBM POWER10. The speed-up over an Im2Col + BLAS method based on current BLAS implementations for end-to-end machine-learning model inference is in the range of 9% - 25% for Intel x86 and 10% - 42% for IBM POWER10 architectures. The total convolution speedup for model inference is 12% - 27% on Intel x86 and 26% - 46% on IBM POWER10. SConv also outperforms BLAS GEMM, when computing pointwise convolutions, in more than 83% of the 219 tested instances.
翻訳日:2023-03-09 13:00:29 公開日:2023-03-08
# SoftMatch Distance: バイテンポラル画像における弱教師付きトレンド変化検出のための新しい距離

SoftMatch Distance: A Novel Distance for Weakly-Supervised Trend Change Detection in Bi-Temporal Images ( http://arxiv.org/abs/2303.04737v1 )

ライセンス: Link先を確認
Yuqun Yang, Xu Tang, Xiangrong Zhang, Jingjing Ma, Licheng Jiao(参考訳) 一般的な変化検出(GCD)と意味変化検出(SCD)は、変化を識別し、それらの変化に関与する対象カテゴリを識別する一般的な方法である。 しかし、GCDによって提供されるバイナリの変更は、しばしば実用的ではなく、SCDモデルをトレーニングするための意味ラベルのアノテートは非常に高価である。 そこで,本論文では,意味カテゴリーに代えて,変化を直感的に3つの傾向(`appear', ``disappear', ``transform'')に分割する新しい解法を提案する。 GCDよりも詳細な変更情報を提供し、SCDよりも手作業によるアノテーションのコストが低い。 しかし、tcdアプリケーションをサポートする特定のトレンドラベルを持つ公開データセットは限られている。 そこで本研究では,TDラベルの代わりにGCDラベルを用いて,単純なGCDモデルで弱い教師付きTDブランチを構築するためのソフトマッチ距離を提案する。 さらに,弱教師付きTDタスクにおいて重要な背景情報の探索と抽出に戦略的なアプローチが提案されている。 4つの公開データセットにおける実験結果は,提案モデルの有効性を実証する非常に有益である。

General change detection (GCD) and semantic change detection (SCD) are common methods for identifying changes and distinguishing object categories involved in those changes, respectively. However, the binary changes provided by GCD is often not practical enough, while annotating semantic labels for training SCD models is very expensive. Therefore, there is a novel solution that intuitively dividing changes into three trends (``appear'', ``disappear'' and ``transform'') instead of semantic categories, named it trend change detection (TCD) in this paper. It offers more detailed change information than GCD, while requiring less manual annotation cost than SCD. However, there are limited public data sets with specific trend labels to support TCD application. To address this issue, we propose a softmatch distance which is used to construct a weakly-supervised TCD branch in a simple GCD model, using GCD labels instead of TCD label for training. Furthermore, a strategic approach is presented to successfully explore and extract background information, which is crucial for the weakly-supervised TCD task. The experiment results on four public data sets are highly encouraging, which demonstrates the effectiveness of our proposed model.
翻訳日:2023-03-09 12:59:57 公開日:2023-03-08
# 分子グラフのためのEwald-based Long-Range Message Passing

Ewald-based Long-Range Message Passing for Molecular Graphs ( http://arxiv.org/abs/2303.04791v1 )

ライセンス: Link先を確認
Arthur Kosmala, Johannes Gasteiger, Nicholas Gao, Stephan G\"unnemann(参考訳) 分子データから潜在的なエネルギー表面を学ぶニューラルアーキテクチャは近年急速に改善されている。 この成功の鍵となる要因は、メッセージパッシングニューラルネットワーク(mpnn)パラダイムである。 システムサイズでの好ましいスケーリングは、部分的にメッセージの空間距離制限に依存する。 この局所性への焦点は誘導バイアスとして有用であるが、静電気やファンデルワールス力のような長距離相互作用の学習を妨げる。 この欠点に対処するために、距離ではなく周波数のカットオフによる相互作用を制限する非局所フーリエ空間スキームであるEwaldメッセージパッシングを提案する。 計算的に安価で、他のアーキテクチャの詳細と無関係であるため、既存のMPNNアーキテクチャの上の拡張として機能する。 4つのベースラインモデルと、多様な周期構造(OC20)と周期構造(OE62)を含む2つのデータセットを用いてアプローチを検証した。 すべてのモデルとデータセットにおいて、エネルギーの堅牢な改善は絶対的なエラーであり、oc20では10%、oe62では16%である。 解析の結果,これらの改良が地中真理エネルギーに対する長期的寄与が大きい構造に与える影響が明らかとなった。

Neural architectures that learn potential energy surfaces from molecular data have undergone fast improvement in recent years. A key driver of this success is the Message Passing Neural Network (MPNN) paradigm. Its favorable scaling with system size partly relies upon a spatial distance limit on messages. While this focus on locality is a useful inductive bias, it also impedes the learning of long-range interactions such as electrostatics and van der Waals forces. To address this drawback, we propose Ewald message passing: a nonlocal Fourier space scheme which limits interactions via a cutoff on frequency instead of distance, and is theoretically well-founded in the Ewald summation method. It can serve as an augmentation on top of existing MPNN architectures as it is computationally cheap and agnostic to other architectural details. We test the approach with four baseline models and two datasets containing diverse periodic (OC20) and aperiodic structures (OE62). We observe robust improvements in energy mean absolute errors across all models and datasets, averaging 10% on OC20 and 16% on OE62. Our analysis shows an outsize impact of these improvements on structures with high long-range contributions to the ground truth energy.
翻訳日:2023-03-09 12:53:50 公開日:2023-03-08
# トリウム229核時計周波数のトラップによる交流ゼーマンシフト

Trap-induced ac Zeeman shift of the thorium-229 nuclear clock frequency ( http://arxiv.org/abs/2303.04789v1 )

ライセンス: Link先を確認
K. Beloy(参考訳) イオントラップによる寄生性rf磁場が$^{229}$Th$^{3+}$[C. J. Campbell et al., Phys. Rev. 108, 120802 (2012)]に基づいて高い期待値の核時計に与える影響を調べた。 rf磁場は交流ゼーマンシフトをクロック周波数に誘導する。 我々が示すように、このシフトはクロックにおける支配的な系統的周波数シフトであり、他の系統的周波数シフトや予測された系統的不確実性を超える。 この変化を抑える、あるいは排除する実用的な方法を提案する。

We examine the effect of a parasitic rf magnetic field, attributed to ion trapping, on the highly anticipated nuclear clock based on $^{229}$Th$^{3+}$ [C. J. Campbell et al., Phys. Rev. Lett. 108, 120802 (2012)]. The rf magnetic field induces an ac Zeeman shift to the clock frequency. As we demonstrate, this shift threatens to be the dominant systematic frequency shift for the clock, exceeding other systematic frequency shifts and the projected systematic uncertainty of the clock by orders of magnitude. We propose practical means to suppress or eliminate this shift.
翻訳日:2023-03-09 12:53:28 公開日:2023-03-08
# 変分量子スプラインによる非線形量子演算の実現

Enabling Non-Linear Quantum Operations through Variational Quantum Splines ( http://arxiv.org/abs/2303.04788v1 )

ライセンス: Link先を確認
Matteo Antonio Inajetovic, Filippo Orazi, Antonio Macaluso, Stefano Lodi, Claudio Sartori(参考訳) 量子力学の仮定は量子状態にのみユニタリ変換を課すが、これは量子機械学習アルゴリズムの厳しい制限である。 量子スプライン(qsplines)は、量子アルゴリズムに非線形性を導入するために量子活性化関数を近似するために最近提案されている。 しかし、QSplinesはHHLをサブルーチンとして使用し、フォールトトレラントな量子コンピュータを正しく実装する必要がある。 本稿では,ハイブリッド量子古典計算を用いた非線形量子活性化関数近似法である一般化qsplines(gqsplines)を提案する。 GQSplinesは、量子ハードウェアという観点でオリジナルのQSplinesの要求を克服し、短期量子コンピュータを用いて実装することができる。 さらに,提案手法は非線形近似に対する柔軟な問題表現に依存しており,既存の量子ニューラルネットワークアーキテクチャに組み込むのに適している。 さらに,Pennylane を用いた GQSplines の実践的実装を提案し,本モデルが適合品質において元の QSplines よりも優れていることを示す。

The postulates of quantum mechanics impose only unitary transformations on quantum states, which is a severe limitation for quantum machine learning algorithms. Quantum Splines (QSplines) have recently been proposed to approximate quantum activation functions to introduce non-linearity in quantum algorithms. However, QSplines make use of the HHL as a subroutine and require a fault-tolerant quantum computer to be correctly implemented. This work proposes the Generalised QSplines (GQSplines), a novel method for approximating non-linear quantum activation functions using hybrid quantum-classical computation. The GQSplines overcome the highly demanding requirements of the original QSplines in terms of quantum hardware and can be implemented using near-term quantum computers. Furthermore, the proposed method relies on a flexible problem representation for non-linear approximation and it is suitable to be embedded in existing quantum neural network architectures. In addition, we provide a practical implementation of GQSplines using Pennylane and show that our model outperforms the original QSplines in terms of quality of fitting.
翻訳日:2023-03-09 12:53:15 公開日:2023-03-08
# ベルパラメータのシングルペア計測

Single-pair measurement of the Bell parameter ( http://arxiv.org/abs/2303.04787v1 )

ライセンス: Link先を確認
Salvatore Virz\`i, Enrico Rebufello, Francesco Atzori, Alessio Avella, Fabrizio Piacentini, Rudi Lussana, Iris Cusini, Francesca Madonini, Federica Villa, Marco Gramegna, Eliahu Cohen, Ivo Pietro Degiovanni, Marco Genovese(参考訳) ベルの不等式は量子基礎の基礎の一つであり、量子技術の基本ツールである。 最近、世界中の科学コミュニティは、抜け穴のない実験で頂点に達した彼らに対して、多くの努力を払った。 それにもかかわらず、各絡み合ったペアから完全な不等式に関する情報を抽出できなかったのは、波動関数の崩壊が同じ量子状態においてベルパラメータ全体の評価に必要な全ての測定を行うことを禁じているためである。 ここでは, 1対のベル不等式テストを行い, 検出されたアンタングルペア毎にベルパラメータ値を求める。 これは、連続的な弱い測定を活用し、各絡み合った粒子上で同じ状態の連続で非可換可観測性を測定することで可能となる。 このようなアプローチは前例のない測定能力を付与するだけでなく、異なる測定基準を選択する必要性を排除し、本質的には選択の自由な抜け穴を排除し、反定性の概念を延長する(非定性ベースでの計測を可能にするため)。 また、ベルパラメータの測定後、テスト中のペアが依然として注目に値するエンタングルメントを示し、(完全な)波動関数が崩壊していない証拠を提供し、この量子リソースをさらなるプロトコルに活用できることを示す。

Bell inequalities are one of the cornerstones of quantum foundations, and fundamental tools for quantum technologies. Recently, the scientific community worldwide has put a lot of effort towards them, which culminated with loophole-free experiments. Nonetheless, none of the experimental tests so far was able to extract information on the full inequality from each entangled pair, since the wave function collapse forbids performing, on the same quantum state, all the measurements needed for evaluating the entire Bell parameter. We present here the first single-pair Bell inequality test, able to obtain a Bell parameter value for every entangled pair detected. This is made possible by exploiting sequential weak measurements, allowing to measure non-commuting observables in sequence on the same state, on each entangled particle. Such an approach not only grants unprecedented measurement capability, but also removes the need to choose between different measurement bases, intrinsically eliminating the freedom-of-choice loophole and stretching the concept of counterfactual-definiteness (since it allows measuring in the otherwise not-chosen bases). We also demonstrate how, after the Bell parameter measurement, the pair under test still presents a noteworthy amount of entanglement, providing evidence of the absence of (complete) wave function collapse and allowing to exploit this quantum resource for further protocols.
翻訳日:2023-03-09 12:52:57 公開日:2023-03-08
# エピタキシャルal-inas平面ジョセフソン接合の準粒子ダイナミクス

Quasiparticle dynamics in epitaxial Al-InAs planar Josephson junctions ( http://arxiv.org/abs/2303.04784v1 )

ライセンス: Link先を確認
Bassel Heiba Elfeky, William M. Strickland, Jaewoo Lee, James T. Farmer, Sadman Shanto, Azarin Zarassi, Dylan Langone, Maxim G. Vavilov, Eli M. Levenson-Falk, Javad Shabani(参考訳) 準粒子効果(QP)は超伝導量子回路のコヒーレンスと忠実性において重要な役割を果たす。 高透明性ジョセフソン接合のアンドレフ境界状態はQPの低エネルギートラップとして作用し、QPと接合の両方の力学と性質を研究するメカニズムを提供する。 超伝導量子干渉装置(SQUID)に組み込まれたエピタキシャルAl-InAsジョセフソン接合のAndreev境界状態からのQPの捕捉と除去について,超伝導共振器を地上にガルバニカルに短縮する。 隣り合う電圧バイアスのジョセフソン接合を用いてQPを回路に注入する。 QPを注入すると、SQUIDがフラックスバイアスを受けたときにQPをトラップし、クリアできることを示す。 共振器におけるバルクQP輸送に伴うマイクロ波損失,ジャンクションにおけるQP関連消散,QP中毒について検討した。 時間内にQPトラップとクリアをモニタリングすることにより、これらのプロセスのダイナミクスを調べ、システム内の電子-フォノン緩和と相関する数マイクロ秒の時間スケールと、QPトラップとクリア機構の相関を見出す。 本研究は,al-inasヘテロ構造に基づく高透明性ジョセフソン接合におけるqpトラップとクリアリングのダイナミクスと関連する時間スケールに注目した。

Quasiparticle (QP) effects play a significant role in the coherence and fidelity of superconducting quantum circuits. The Andreev bound states of high transparency Josephson junctions can act as low-energy traps for QPs, providing a mechanism for studying the dynamics and properties of both the QPs and the junction. We study the trapping and clearing of QPs from the Andreev bound states of epitaxial Al-InAs Josephson junctions incorporated in a superconducting quantum interference device (SQUID) galvanically shorting a superconducting resonator to ground. We use a neighboring voltage-biased Josephson junction to inject QPs into the circuit. Upon the injection of QPs, we show that we can trap and clear QPs when the SQUID is flux-biased. We examine effects of the microwave loss associated with bulk QP transport in the resonator, QP-related dissipation in the junction, and QP poisoning events. By monitoring the QP trapping and clearing in time, we study the dynamics of these processes and find a time-scale of few microseconds that is consistent with electron-phonon relaxation in our system and correlated QP trapping and clearing mechanisms. Our results highlight the QP trapping and clearing dynamics as well as the associated time-scales in high transparency Josephson junctions based fabricated on Al-InAs heterostructures.
翻訳日:2023-03-09 12:52:33 公開日:2023-03-08
# Fourier-MIONet: 地質炭素沈降の多相モデリングのためのフーリエ強化多重入力ニューラル演算子

Fourier-MIONet: Fourier-enhanced multiple-input neural operators for multiphase modeling of geological carbon sequestration ( http://arxiv.org/abs/2303.04778v1 )

ライセンス: Link先を確認
Zhongyi Jiang, Min Zhu, Dongzhuo Li, Qiuzi Li, Yanhua O. Yuan, Lu Lu(参考訳) 地質炭素貯蔵(GCS)は大気中の二酸化炭素の削減を目的とした重要な技術である。 多孔質媒質中の多相流は,GCSに関連する地下のCO2移動と圧力場を理解するために不可欠である。 しかし、高非線形支配偏微分方程式(PDE)の多物理性や多スケール性のため、4Dにおけるそのような問題の数値シミュレーションは計算的に困難で費用がかかる。 これにより、複数のサブサーフェスシナリオを検討し、リアルタイムの最適化を行うことができない。 本稿では,多孔質媒質中の多相流問題に対する解演算子を学ぶために,フーリエ強調多入力ニューラルネットワーク(fourier-mionet)を開発した。 Fourier-MIONetは、最近開発されたマルチインプットディープニューラル演算子(MIONet)のフレームワークを使用し、ネットワークアーキテクチャにフーリエニューラル演算子(FNO)を組み込んでいる。 フーリエ・マイオネットを訓練すると、透水性、多孔性不均一性、異方性、射出構成、多相流特性などの様々な貯留層条件下での飽和と多相流の圧力の進化を予測できる。 強化されたfno (u-fno) と比較して、フーリエマイオネットは未知のパラメータが90%少なくなり、cpuメモリがはるかに少ない(<15%)とgpuメモリが(<35%)でかなり少ない(約3.5倍の速度)でトレーニングでき、同様の予測精度が得られる。 計算コストの削減に加えて、Fourier-MIONetは30年間、PDEソリューションを予測するために6つのスナップショットでトレーニングすることができる。 フーリエ・マイオネットの優れた一般化性は、PDEの解が時間とともに連続であるという物理原理に固執することによって実現される。

Geologic Carbon Storage (GCS) is an important technology that aims to reduce the amount of carbon dioxide in the atmosphere. Multiphase flow in porous media is essential to understand CO2 migration and pressure fields in the subsurface associated with GCS. However, numerical simulation for such problems in 4D is computationally challenging and expensive, due to the multiphysics and multiscale nature of the highly nonlinear governing partial differential equations (PDEs). It prevents us from considering multiple subsurface scenarios and conducting real-time optimization. Here, we develop a Fourier-enhanced multiple-input neural operator (Fourier-MIONet) to learn the solution operator of the problem of multiphase flow in porous media. Fourier-MIONet utilizes the recently developed framework of the multiple-input deep neural operators (MIONet) and incorporates the Fourier neural operator (FNO) in the network architecture. Once Fourier-MIONet is trained, it can predict the evolution of saturation and pressure of the multiphase flow under various reservoir conditions, such as permeability and porosity heterogeneity, anisotropy, injection configurations, and multiphase flow properties. Compared to the enhanced FNO (U-FNO), the proposed Fourier-MIONet has 90% fewer unknown parameters, and it can be trained in significantly less time (about 3.5 times faster) with much lower CPU memory (< 15%) and GPU memory (< 35%) requirements, to achieve similar prediction accuracy. In addition to the lower computational cost, Fourier-MIONet can be trained with only 6 snapshots of time to predict the PDE solutions for 30 years. The excellent generalizability of Fourier-MIONet is enabled by its adherence to the physical principle that the solution to a PDE is continuous over time.
翻訳日:2023-03-09 12:52:10 公開日:2023-03-08
# LMIに基づくデータ駆動ロバストモデル予測制御

LMI-based Data-Driven Robust Model Predictive Control ( http://arxiv.org/abs/2303.04777v1 )

ライセンス: Link先を確認
Hoang Hai Nguyen, Maurice Friedel, Rolf Findeisen(参考訳) 予測制御は、将来のシステムの振る舞いを最適化する応用入力を計算するシステムのモデルに基づいており、現在では広く使われている。 名目モデルが与えられていない、あるいは非常に不確実な場合、過去の計測軌道からシステムモデルや入力を直接得るデータ駆動モデル予測制御手法が用いられる。 データ情報化フレームワークとFinslerの補題を用いて,入力制約と状態制約を考慮したデータ駆動型ロバストな線形行列不等式モデル予測制御手法を提案する。 これらのデータを用いて、線形フィードバックに対する行列ゲインを提供する半定値最適化問題として問題を定式化し、決定変数は測定データの長さに依存しない。 設計したコントローラは閉ループ系を漸近的に安定化し、制約満足度を保証する。 本手法の数値的な例を示す。

Predictive control, which is based on a model of the system to compute the applied input optimizing the future system behavior, is by now widely used. If the nominal models are not given or are very uncertain, data-driven model predictive control approaches can be employed, where the system model or input is directly obtained from past measured trajectories. Using a data informativity framework and Finsler's lemma, we propose a data-driven robust linear matrix inequality-based model predictive control scheme that considers input and state constraints. Using these data, we formulate the problem as a semi-definite optimization problem, whose solution provides the matrix gain for the linear feedback, while the decisive variables are independent of the length of the measurement data. The designed controller stabilizes the closed-loop system asymptotically and guarantees constraint satisfaction. Numerical examples are conducted to illustrate the method.
翻訳日:2023-03-09 12:51:33 公開日:2023-03-08
# 多値拡散:画像生成のための無限次元スコアベース拡散モデル

Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models for Image Generation ( http://arxiv.org/abs/2303.04772v1 )

ライセンス: Link先を確認
Paul Hagemann, Lars Ruthotto, Gabriele Steidl, Nicole Tianjiao Yang(参考訳) スコアベース拡散モデル(SBDM)は画像生成のための最先端のアプローチとして最近登場した。 既存のSBDMは通常有限次元の設定で定式化され、画像は有限サイズのテンソルと見なされる。 本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。 より高解像度で画像を生成することの探求に加えて、我々の主な動機は、よく考えられた無限次元の学習問題を作成し、複数の解像度レベルで一貫した識別を可能にすることである。 これにより,異なる解像度レベルにまたがる拡散モデルが得られ,訓練プロセスの効率が向上することを期待している。 無限次元設定におけるsbdmアプローチの2つの欠点を克服する方法を示す。 まず, 潜在分布が無限次元設定においてトレースクラス作用素の概念を用いて well-defined であることを保証するために, フォワードプロセスを修正した。 第2に,演算子ネットワークを用いたスコア関数の近似化は,fno(fourier neural operator)が多レベルトレーニングに有用であることを示す。 無限次元設定における前方および逆過程を導出した後、それらの適切性を示し、適切な離散化を導出し、潜在分布の役割について検討する。 2つのデータセット、MNISTと材料構造について、まず有望な数値結果を提供する。 特に、このフレームワークでマルチレベルトレーニングが実現可能であることを示す。

Score-based diffusion models (SBDM) have recently emerged as state-of-the-art approaches for image generation. Existing SBDMs are typically formulated in a finite-dimensional setting, where images are considered as tensors of a finite size. This papers develops SBDMs in the infinite-dimensional setting, that is, we model the training data as functions supported on a rectangular domain. Besides the quest for generating images at ever higher resolution our primary motivation is to create a well-posed infinite-dimensional learning problem so that we can discretize it consistently on multiple resolution levels. We thereby hope to obtain diffusion models that generalize across different resolution levels and improve the efficiency of the training process. We demonstrate how to overcome two shortcomings of current SBDM approaches in the infinite-dimensional setting. First, we modify the forward process to ensure that the latent distribution is well-defined in the infinite-dimensional setting using the notion of trace class operators. Second, we illustrate that approximating the score function with an operator network, in our case Fourier neural operators (FNOs), is beneficial for multilevel training. After deriving the forward and reverse process in the infinite-dimensional setting, we show their well-posedness, derive adequate discretizations, and investigate the role of the latent distributions. We provide first promising numerical results on two datasets, MNIST and material structures. In particular, we show that multilevel training is feasible within this framework.
翻訳日:2023-03-09 12:51:19 公開日:2023-03-08
# 非零温度における量子非調和鎖のR'enyiエントロピー

R\'enyi entropy of quantum anharmonic chain at non-zero temperature ( http://arxiv.org/abs/2303.04768v1 )

ライセンス: Link先を確認
Miha Srdin\v{s}ek, Michele Casula, and Rodolphe Vuilleumier(参考訳) 量子臨界点(QCP)近傍における量子的および古典的ゆらぎの相互作用は、異なる量子的特徴を持つ様々な状態や位相を引き起こす。 本研究では, r\'enyiエントロピーが, 有限温度での局所秩序の出現を検知する能力により, qcpの周辺だけでなく, そこから離れた臨界系の位相図を特徴付ける貴重なツールであることを示す。 r\'enyiエントロピーの効率的な評価のために、経路積分ランジュバンダイナミクスに基づく新しいアルゴリズムと、以前に提案された正規化経路に基づく熱力学積分法を提案する。 この枠組みを用いて、非調和振動子の線形鎖の臨界挙動、特に$\phi^4$モデルの実現について研究する。 温度と相互作用強度の両方の関数として,その相図を完全に解決した。 有限温度では、相互作用が増加するにつれて、パラ、不規則、準長距離秩序の3つのレジームの列を見つける。 R'enyiエントロピーの発散は、常温と乱れた状態の交叉と一致し、温度依存は見られない。 一方、準長距離秩序の発生は温度に依存する。 2つの交差線は、r\'enyiエントロピーが鋭くピークとなるゼロ温度でqcpに近接して合流する。 サブシステムサイズのスケーリングにより、遷移は2次元のイジング普遍性クラスに属することを確認できる。 この現象学は、すべての$\phi^4$-like系や、第VII相、第VIII相、第X相の溶存水の氷転移で起こることが期待されている。

The interplay of quantum and classical fluctuations in the vicinity of a quantum critical point (QCP) gives rise to various regimes or phases with distinct quantum character. In this work, we show that the R\'enyi entropy is a precious tool to characterize the phase diagram of critical systems not only around the QCP but also away from it, thanks to its capability to detect the emergence of local order at finite temperature. For an efficient evaluation of the R\'enyi entropy, we introduce a new algorithm based on a path integral Langevin dynamics combined with a previously proposed thermodynamic integration method built on regularized paths. We apply this framework to study the critical behavior of a linear chain of anharmonic oscillators, a particular realization of the $\phi^4$ model. We fully resolved its phase diagram, as a function of both temperature and interaction strength. At finite temperature, we find a sequence of three regimes - para, disordered and quasi long-range ordered -, met as the interaction is increased. The R\'enyi entropy divergence coincides with the crossover between the para and disordered regime, which shows no temperature dependence. The occurrence of quasi long-range order, on the other hand, is temperature dependent. The two crossover lines merge in proximity of the QCP, at zero temperature, where the R\'enyi entropy is sharply peaked. Via its subsystem-size scaling, we confirm that the transition belongs to the two-dimensional Ising universality class. This phenomenology is expected to happen in all $\phi^4$-like systems, as well as in the elusive water ice transition across phases VII, VIII and X.
翻訳日:2023-03-09 12:50:57 公開日:2023-03-08
# fastfill: 効率的なモデル更新

FastFill: Efficient Compatible Model Update ( http://arxiv.org/abs/2303.04766v1 )

ライセンス: Link先を確認
Florian Jaeckle, Fartash Faghri, Ali Farhadi, Oncel Tuzel, and Hadi Pouransari(参考訳) 多くの検索システムでは、元の高次元データ(例えば画像)は学習された埋め込みモデルを介して低次元の特徴にマッピングされる。 ギャラリーセットから所定のクエリデータに最も類似したデータを検索するタスクは、特徴の類似性比較によって実行される。 組み込みモデルが更新されると、古いモデルで計算されたギャラリーにある機能と同等で互換性のない機能を生成するかもしれません。 その後、ギャラリーのすべての機能は、新しい埋め込みモデル(backfillingと呼ばれる計算コストの高いプロセス)を使って再計算する必要がある。 近年,バックフィルを避けるための表現学習手法が提案されている。 比較的成功したにもかかわらず、新しいモデルのパフォーマンスと旧モデルとの互換性には本質的にトレードオフがある。 本稿では,機能アライメントとポリシーに基づく部分的バックフィルを用いたモデル更新プロセスであるFastFillを導入し,検索性能を高速化する。 過去のバックフィル戦略は性能低下に悩まされており,オンライン部分補充におけるトレーニング目標と注文の重要性が示されている。 本研究では,不確実性推定を用いた新しい埋込みモデルと埋込みモデルの特徴調整手法を提案する。 従来の研究と比べて、imagenet (+4.4\%)、places-365 (+2.7\%)、vgg-face2 (+1.3\%) の様々なデータセットで、大幅に改善されたバックフィル結果が得られる。 さらに,fastfillでバイアスモデルを更新すると,部分バックフィルのごく一部で少数部分群精度ギャップが即座に消失することを示す。

In many retrieval systems the original high dimensional data (e.g., images) is mapped to a lower dimensional feature through a learned embedding model. The task of retrieving the most similar data from a gallery set to a given query data is performed through a similarity comparison on features. When the embedding model is updated, it might produce features that are not comparable/compatible with features already in the gallery computed with the old model. Subsequently, all features in the gallery need to be re-computed using the new embedding model -- a computationally expensive process called backfilling. Recently, compatible representation learning methods have been proposed to avoid backfilling. Despite their relative success, there is an inherent trade-off between the new model performance and its compatibility with the old model. In this work, we introduce FastFill: a compatible model update process using feature alignment and policy based partial backfilling to promptly elevate retrieval performance. We show that previous backfilling strategies suffer from decreased performance and demonstrate the importance of both the training objective and the ordering in online partial backfilling. We propose a new training method for feature alignment between old and new embedding models using uncertainty estimation. Compared to previous works, we obtain significantly improved backfilling results on a variety of datasets: mAP on ImageNet (+4.4\%), Places-365 (+2.7\%), and VGG-Face2 (+1.3\%). Further, we demonstrate that when updating a biased model with FastFill, the minority subgroup accuracy gap promptly vanishes with a small fraction of partial backfilling.
翻訳日:2023-03-09 12:50:31 公開日:2023-03-08
# 超伝導量子プロセッサ上の分数量子ホール準ホールのブレイディング

Braiding fractional quantum Hall quasiholes on a superconducting quantum processor ( http://arxiv.org/abs/2303.04806v1 )

ライセンス: Link先を確認
Ammar Kirmani, Derek S. Wang, Pouyan Ghaemi, Armin Rahmani(参考訳) 励起と波動関数位相の測定による分数量子ホール系における陽電子交換統計の直接的実験的検出は大きな課題である。 ここでは,小型でノイズの多い量子コンピュータを用いて,シンシリンダ形状に適用可能な簡易モデルの枠組み内で直接ブレイディングをエミュレートし,位相位相を計測する。 アルゴリズムはまず2つの準ホールで基底状態を作成する。 すると、アンシラによって制御されるユニタリ操作が適用され、一方が他方の準ホールを取る断熱的な進化の列に対応する。 最後に, 複合誤差緩和戦略を用いて, 陰茎計測から波動関数の位相を抽出する。 我々の結果は分数ホール状態におけるブレイディング統計を研究するための新しい道を開く。

Direct experimental detection of anyonic exchange statistics in fractional quantum Hall systems by braiding the excitations and measuring the wave-function phase is an enormous challenge. Here, we use a small, noisy quantum computer to emulate direct braiding within the framework of a simplified model applicable to a thin cylinder geometry and measure the topological phase. Our algorithm first prepares the ground state with two quasiholes. It then applies a unitary operation controlled by an ancilla, corresponding to a sequence of adiabatic evolutions that takes one quasihole around the other. We finally extract the phase of the wave function from measuring the ancilla with a compound error mitigation strategy. Our results open a new avenue for studying braiding statistics in fractional Hall states.
翻訳日:2023-03-09 12:44:29 公開日:2023-03-08
# x-avatar (複数形 x-avatars)

X-Avatar: Expressive Human Avatars ( http://arxiv.org/abs/2303.04805v1 )

ライセンス: Link先を確認
Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges(参考訳) x-avatarは、デジタル人間の完全な表現性を捉え、テレプレゼンスやar/vrなどのライフライクな体験をもたらす新しいアバターモデルだ。 本手法は,体,手,表情,外観を包括的にモデル化し,フル3DスキャンまたはRGB-Dデータから学習することができる。 そこで本研究では,SMPL-Xのパラメータ空間によって駆動され,X-アバターの表現的アニメーションを可能にする,学習した前方スキンモジュールを提案する。 ニューラル形状と変形場を効率的に学習するために,新しい部分認識サンプリングと初期化戦略を提案する。 これにより、関節骨の数が増えるにもかかわらず、特に小さな身体部位では高い忠実性が得られ、効率的な訓練が維持される。 本研究では,アバターの外観を高周波で捉えるために,ポーズ,表情,形状,変形面の正常さを条件としたテクスチャネットワークを用いて形状と変形場を拡張した。 本手法は, アニメーション処理において, 定量的および定性的に両方のデータ領域において, 強いベースラインを上回っていることを実験的に示す。 表現力のあるアバターの今後の研究を容易にするために、20人の参加者から233の高品質なテクスチャスキャンを含む、X-Humansと呼ばれる新しいデータセットをコントリビュートする。

We present X-Avatar, a novel avatar model that captures the full expressiveness of digital humans to bring about life-like experiences in telepresence, AR/VR and beyond. Our method models bodies, hands, facial expressions and appearance in a holistic fashion and can be learned from either full 3D scans or RGB-D data. To achieve this, we propose a part-aware learned forward skinning module that can be driven by the parameter space of SMPL-X, allowing for expressive animation of X-Avatars. To efficiently learn the neural shape and deformation fields, we propose novel part-aware sampling and initialization strategies. This leads to higher fidelity results, especially for smaller body parts while maintaining efficient training despite increased number of articulated bones. To capture the appearance of the avatar with high-frequency details, we extend the geometry and deformation fields with a texture network that is conditioned on pose, facial expression, geometry and the normals of the deformed surface. We show experimentally that our method outperforms strong baselines in both data domains both quantitatively and qualitatively on the animation task. To facilitate future research on expressive avatars we contribute a new dataset, called X-Humans, containing 233 sequences of high-quality textured scans from 20 participants, totalling 35,500 data frames.
翻訳日:2023-03-09 12:44:15 公開日:2023-03-08
# 完全接続量子コンピュータにおける時間最適量子状態移動

Time optimal quantum state transfer in a fully-connected quantum computer ( http://arxiv.org/abs/2303.04804v1 )

ライセンス: Link先を確認
Casey Jameson, Bora Basyildiz, Daniel Moore, Kyle Clark, and Zhexuan Gong(参考訳) 相互作用する粒子の系における量子状態移動の速度限界は、量子情報処理において重要であるだけでなく、量子多体物理学の様々な側面を理解する上で重要なリーブ・ロビンソン型境界に直接結びつく。 完全接続量子コンピュータのような強長距離相互作用系では、そのような速度制限はまだ不明である。 ここでは、ハミルトニアンに不等式制約を組み込むことができる新しい量子ブラヒストローネ法を開発した。 この方法により、完全に接続された量子コンピュータで実現可能なハミルトンのサブクラスにおける量子状態移動速度の厳密な束縛を証明できる。

The speed limit of quantum state transfer in a system of interacting particles is not only important for quantum information processing, but also directly linked to Lieb-Robinson-type bounds that are crucial for understanding various aspects of quantum many-body physics. For strongly long-range interacting systems such a fully-connected quantum computer, such speed limit is still unknown. Here we develop a new Quantum Brachistochrone method that can incorporate inequality constraints on the Hamiltonian. This method allows us to prove an exactly tight bound on the speed of quantum state transfer on a subclass of Hamiltonians realizable by a fully-connected quantum computer.
翻訳日:2023-03-09 12:43:51 公開日:2023-03-08
# テキストと画像の拡散モデルを用いたオープンボキャブラリパノプティックセグメンテーション

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.04803v1 )

ライセンス: Link先を確認
Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello(参考訳) 本稿では,事前学習されたテキスト画像拡散と識別モデルを統合し,オープンボカブラリのパンオプティカルセグメンテーションを行うオープンボカブラリ拡散ベースのパンオプティカルセグメンテーションを提案する。 テキストから画像への拡散モデルは、多様なボキャブラリー言語記述を持つ高品質な画像を生成する素晴らしい能力を示している。 このことは、それらの内部表現空間が実世界の開概念と強く相関していることを示している。 一方、CLIPのようなテキスト画像識別モデルは、画像のオープン語彙ラベルへの分類に長けている。 両モデルの凍結表現を活用して,野生の任意のカテゴリーの汎視的セグメンテーションを実行することを提案する。 オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。 特に、COCOトレーニングのみの場合、ADE20Kデータセット上で23.4 PQと30.0 mIoUを達成し、8.3 PQと7.9 mIoUを従来よりも絶対的に改善した。 プロジェクトページは \url{https://jerryxu.net/odise} で利用可能である。

We present ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation, which unifies pre-trained text-image diffusion and discriminative models to perform open-vocabulary panoptic segmentation. Text-to-image diffusion models have shown the remarkable capability of generating high-quality images with diverse open-vocabulary language descriptions. This demonstrates that their internal representation space is highly correlated with open concepts in the real world. Text-image discriminative models like CLIP, on the other hand, are good at classifying images into open-vocabulary labels. We propose to leverage the frozen representation of both these models to perform panoptic segmentation of any category in the wild. Our approach outperforms the previous state of the art by significant margins on both open-vocabulary panoptic and semantic segmentation tasks. In particular, with COCO training only, our method achieves 23.4 PQ and 30.0 mIoU on the ADE20K dataset, with 8.3 PQ and 7.9 mIoU absolute improvement over the previous state-of-the-art. Project page is available at \url{https://jerryxu.net/ODISE}.
翻訳日:2023-03-09 12:43:41 公開日:2023-03-08
# 核系の絡み合いエントロピー

Entanglement entropy of nuclear systems ( http://arxiv.org/abs/2303.04799v1 )

ライセンス: Link先を確認
Chenyi Gu, Z. H. Sun, G. Hagen, T. Papenbrock(参考訳) 核系におけるホール空間の単一粒子状態と補体との絡み合いエントロピーについて検討する。 結合クラスター法に基づく解析の結果, エンタングルメントエントロピーは粒子数ゆらぎとホール空間の枯渇数に比例し, 十分に弱い相互作用を示すことがわかった。 一般的な議論は、核系の絡み合いエントロピーが領域の法則の代わりに体積を満たすことも示唆している。 これらの結果は、ペアリングモデルと中性子物質の絡み合いエントロピー、および有限核の枯渇数を用いて検証し、検証する。

We study entanglement entropies between the single-particle states of the hole space and its complement in nuclear systems. Analytical results based on the coupled-cluster method show that entanglement entropies are proportional to the particle number fluctuation and the depletion number of the hole space for sufficiently weak interactions. General arguments also suggest that the entanglement entropy in nuclear systems fulfills a volume instead of an area law. We test and confirm these results by computing entanglement entropies of the pairing model and neutron matter, and the depletion number of finite nuclei.
翻訳日:2023-03-09 12:43:04 公開日:2023-03-08
# 階層記憶:局所ゲートを用いた量子LDPC符号のシミュレーション

Hierarchical memories: Simulating quantum LDPC codes with local gates ( http://arxiv.org/abs/2303.04798v1 )

ライセンス: Link先を確認
Christopher A. Pattison, Anirudh Krishna, John Preskill(参考訳) 一定のレートの低密度パリティチェック(LDPC)符号は、効率的なフォールトトレラント量子メモリを構築する上で有望な候補である。 しかし、物理ゲートが幾何学的局所性制約を受ける場合、これらの符号を実現することは困難になる。 本稿では,K = Omega(N/\log(N)^2) の論理量子ビットをエンコードする[N,K,D] 符号の新しい族を階層符号として構築する。 このコードファミリーのn番目の要素は、定数量子ldpc符号と表面コードとを結合して得られ、2次元の最寄りゲートは対応するシンドローム抽出回路を実装ししきい値を達成するのに十分である。 閾値以下の論理的故障率は、距離D(N)の関数として超多項式的に消滅する。 本稿では,シンドローム抽出回路を実装するための2層アーキテクチャを提案し,このアーキテクチャの論理故障率を推定する。 保守的な仮定では、階層的符号は、全ての論理量子ビットが曲面コードに符号化される基本符号化よりも優れている。

Constant-rate low-density parity-check (LDPC) codes are promising candidates for constructing efficient fault-tolerant quantum memories. However, if physical gates are subject to geometric-locality constraints, it becomes challenging to realize these codes. In this paper, we construct a new family of [[N,K,D]] codes, referred to as hierarchical codes, that encode a number of logical qubits K = Omega(N/\log(N)^2). The N-th element of this code family is obtained by concatenating a constant-rate quantum LDPC code with a surface code; nearest-neighbor gates in two dimensions are sufficient to implement the corresponding syndrome-extraction circuit and achieve a threshold. Below threshold the logical failure rate vanishes superpolynomially as a function of the distance D(N). We present a bilayer architecture for implementing the syndrome-extraction circuit, and estimate the logical failure rate for this architecture. Under conservative assumptions, we find that the hierarchical code outperforms the basic encoding where all logical qubits are encoded in the surface code.
翻訳日:2023-03-09 12:42:53 公開日:2023-03-08
# 正, ラベルなし, 露出データからの自動脱バイアス学習

Automatic Debiased Learning from Positive, Unlabeled, and Exposure Data ( http://arxiv.org/abs/2303.04797v1 )

ライセンス: Link先を確認
Masahiro Kato, Shuting Wu, Kodai Kureishi, and Shota Yasui(参考訳) ポジティブデータとラベルなしデータ(pu分類)から2値分類の問題に対処し,選択バイアスを正値データに有する。 観察の過程で (i)試料がユーザに露出する。 (ii) ユーザが露出したサンプルのラベルを返却し、 (iii) 正のサンプルしか観察できない。 したがって, 観測した正のラベルは露出とラベルの組合せであり, 観測された正のサンプルの選択バイアス問題を生成する。 このシナリオは、レコメンデータシステムのような、多くの実用的なアプリケーションのための概念的枠組みを表しており、"``learning from positive, unlabeled, and exposure data'(pue分類)と呼ばれる。 この問題に対処するため、私たちはまず、露出ラベル付きデータへのアクセスを想定します。 そこで我々は,強い無知性仮定を用いて関心の関数を同定し,「自動脱バイアスPUE」学習法(ADPUE)を開発する手法を提案する。 このアルゴリズムは、他の学習方法に必要な確率スコアなどの中間推定を必要とせずに、選択バイアスを直接排除する。 実験により,本手法は,様々な半合成データセット上で従来のPU学習手法より優れていることを示した。

We address the issue of binary classification from positive and unlabeled data (PU classification) with a selection bias in the positive data. During the observation process, (i) a sample is exposed to a user, (ii) the user then returns the label for the exposed sample, and (iii) we however can only observe the positive samples. Therefore, the positive labels that we observe are a combination of both the exposure and the labeling, which creates a selection bias problem for the observed positive samples. This scenario represents a conceptual framework for many practical applications, such as recommender systems, which we refer to as ``learning from positive, unlabeled, and exposure data'' (PUE classification). To tackle this problem, we initially assume access to data with exposure labels. Then, we propose a method to identify the function of interest using a strong ignorability assumption and develop an ``Automatic Debiased PUE'' (ADPUE) learning method. This algorithm directly debiases the selection bias without requiring intermediate estimates, such as the propensity score, which is necessary for other learning methods. Through experiments, we demonstrate that our approach outperforms traditional PU learning methods on various semi-synthetic datasets.
翻訳日:2023-03-09 12:42:33 公開日:2023-03-08
# 変分量子アルゴリズムのための4レベルトランスモンキューディットによる2つの量子ビットのエミュレート

Emulating two qubits with a four-level transmon qudit for variational quantum algorithms ( http://arxiv.org/abs/2303.04796v1 )

ライセンス: Link先を確認
Shuxiang Cao, Mustafa Bakr, Giulio Campanaro, Simone D. Fasciati, James Wills, Deep Lall, Boris Shteynas, Vivek Chidambaram, Ivan Rungger, Peter Leek(参考訳) 2レベル以上の量子システム(qudits)を使用すると、量子プロセッサの計算空間を量子ビットを使うよりも効率的にスケールできるため、より大きなヒルベルト空間に対する物理的な実装が容易になる。 しかし、個々のquditはより大きなノイズを示す可能性があり、qubits用に設計されたアルゴリズムは実行のためにquditアルゴリズムに再コンパイルする必要がある。 本研究では,4レベル超伝導トランスモンquditを用いた2量子ビットエミュレータを実装し,ノイズモデルの解析を行った。 変分アルゴリズムの誤差の主な原因は、読み出しミスクラス化エラーと振幅減衰であった。 結果の精度を向上させるため,誤分類および疑似減衰現象の影響を低減するため,誤差軽減手法を適用した。 最終的な予測エネルギー値は化学精度の範囲内である。 我々の研究は、量子ビットが変分アルゴリズムの代替となることを示す。

Using quantum systems with more than two levels, or qudits, can scale the computation space of quantum processors more efficiently than using qubits, which may offer an easier physical implementation for larger Hilbert spaces. However, individual qudits may exhibit larger noise, and algorithms designed for qubits require to be recompiled to qudit algorithms for execution. In this work, we implemented a two-qubit emulator using a 4-level superconducting transmon qudit for variational quantum algorithm applications and analyzed its noise model. The major source of error for the variational algorithm was readout misclassification error and amplitude damping. To improve the accuracy of the results, we applied error-mitigation techniques to reduce the effects of the misclassification and qudit decay event. The final predicted energy value is within the range of chemical accuracy. Our work demonstrates that qudits are a practical alternative to qubits for variational algorithms.
翻訳日:2023-03-09 12:42:15 公開日:2023-03-08
# イベント知識グラフと自然言語処理を用いた総合的イベント表現

Comprehensive Event Representations using Event Knowledge Graphs and Natural Language Processing ( http://arxiv.org/abs/2303.04794v1 )

ライセンス: Link先を確認
Tin Kuculo(参考訳) 近年,自然言語理解,質問応答,レコメンデーションシステム,その他のタスクに対する知識認識アプローチが活用されている。 これらのアプローチは、多くのダウンストリームアプリケーションに有用な、よく構築された大規模知識グラフに依存し、常識推論による知識認識モデルを強化する。 このような知識グラフは,関係抽出や知識グラフ補完といった知識獲得タスクを通じて構築される。 この研究は、自然言語処理(NLP)の分野からの発見を利用して、テキストから知識を抽出し、知識グラフを構築する、成長する仕事の体系を利用して構築することを目指している。 この研究プロジェクトの焦点は、transformerベースのアプローチを使ってイベント情報を抽出し、コンテキスト化し、既存のオントロジーにマッチさせ、グラフベースのイベント表現に関する包括的な知識を構築する方法にあります。 具体的には、サブイベント抽出は、サブイベントアウェアイベント表現を作成する方法として使用される。 これらのイベント表現は、きめ細かい位置抽出によってさらに強化され、歴史的に関連する引用のアラインメントを通じて文脈化される。

Recent work has utilised knowledge-aware approaches to natural language understanding, question answering, recommendation systems, and other tasks. These approaches rely on well-constructed and large-scale knowledge graphs that can be useful for many downstream applications and empower knowledge-aware models with commonsense reasoning. Such knowledge graphs are constructed through knowledge acquisition tasks such as relation extraction and knowledge graph completion. This work seeks to utilise and build on the growing body of work that uses findings from the field of natural language processing (NLP) to extract knowledge from text and build knowledge graphs. The focus of this research project is on how we can use transformer-based approaches to extract and contextualise event information, matching it to existing ontologies, to build a comprehensive knowledge of graph-based event representations. Specifically, sub-event extraction is used as a way of creating sub-event-aware event representations. These event representations are then further enriched through fine-grained location extraction and contextualised through the alignment of historically relevant quotes.
翻訳日:2023-03-09 12:42:00 公開日:2023-03-08
# 時空における量子情報相:ノイズ量子プロセッサにおける測定誘起エンタングルメントとテレポーテーション

Quantum information phases in space-time: measurement-induced entanglement and teleportation on a noisy quantum processor ( http://arxiv.org/abs/2303.04792v1 )

ライセンス: Link先を確認
Jesse C. Hoke, Matteo Ippoliti, Dmitry Abanin, Rajeev Acharya, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Joseph C. Bardin, Andreas Bengtsson, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Desmond Chik, Charina Chou, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Alejandro Grajales Dau, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Augustin Di Paolo, Ilya K. Drozdov, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatem, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Paula Heu, Markus R. Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William J. Huggins, Sergei V. Isakov, Justin Iveland, Evan Jeffr, Cody Jones, Pavol Juhas, Dvir Kafri, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny W. Lee, Yuri D. Lensky, Brian J. Lester, Alexander T. Lill, Wayne Liu, Aditya Locharla, Fionn D. Malone, Orion Martin, Jarrod R. McClean, Trevor McCourt, Matt McEwen, Kevin C.Miao, Amanda Mieszala, Shirin Montazeri, Alexis Morvan, Ramis Movassagh, Wojciech Mruczkiewicz, Matthew Neeley, Charles Neill, Ani Nersisyan, Michael Newman, Jiun H. Ng, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Tom E. O'Brien, Seun Omonije, Alex Opremcak, Andre Petukhov, Rebecca Potter, Leonid P. Pryadko, Chris Quintana, Charles Rocque, Nicholas C. Rubin, Negar Saei Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vlad Shvarts, Jindra Skruzny, W. Clarke Smith, Rolando D. Somma George Sterling, Douglas Strain, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Ted White, Bryan W. K. Woo, Cheng Xing, Z. Jamie. Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Harmut Neven, Ryan Babbush, Dave Bacon, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Xiao Mi, Vedika Khemani, Pedram Roushan(参考訳) 測定は量子論において特別な役割を持ち、波動関数を崩壊させることで、テレポーテーションのような現象を可能とし、ユニタリ進化を制限する「時間の幅」を変更することができる。 多体力学に組み込むと、測定は時空における量子情報の創発的パターンにつながり、平衡内または平衡外のいずれかの位相を特徴付ける確立されたパラダイムを超える。 現在のNISQプロセッサでは、ノイズ、ハードウェアの制限、量子測定の確率的性質により、この物理の実験的な実現が困難である。 本稿では、これらの実験課題をそれぞれ解決し、70以上の超伝導量子ビット上の測定誘起量子情報位相について検討する。 空間と時間の交換性を活用することで、二元性マッピングを用いて、中循環の測定を避け、絡み合いスケーリングから測定誘発テレポーテーションまで、基盤となるフェーズの異なる表現にアクセスします。 実験記録と古典的シミュレーションデータとの相関関係を示す復号プロトコルを用いて位相遷移の有限サイズシグネチャを得る。 位相はノイズに対する感度が著しく異なり、それを利用して固有のハードウェア制限を有用な診断にします。 本研究では,現在のnisqプロセッサの限界であるスケールで測定誘起物理を実現する手法を示す。

Measurement has a special role in quantum theory: by collapsing the wavefunction it can enable phenomena such as teleportation and thereby alter the "arrow of time" that constrains unitary evolution. When integrated in many-body dynamics, measurements can lead to emergent patterns of quantum information in space-time that go beyond established paradigms for characterizing phases, either in or out of equilibrium. On present-day NISQ processors, the experimental realization of this physics is challenging due to noise, hardware limitations, and the stochastic nature of quantum measurement. Here we address each of these experimental challenges and investigate measurement-induced quantum information phases on up to 70 superconducting qubits. By leveraging the interchangeability of space and time, we use a duality mapping, to avoid mid-circuit measurement and access different manifestations of the underlying phases -- from entanglement scaling to measurement-induced teleportation -- in a unified way. We obtain finite-size signatures of a phase transition with a decoding protocol that correlates the experimental measurement record with classical simulation data. The phases display sharply different sensitivity to noise, which we exploit to turn an inherent hardware limitation into a useful diagnostic. Our work demonstrates an approach to realize measurement-induced physics at scales that are at the limits of current NISQ processors.
翻訳日:2023-03-09 12:41:43 公開日:2023-03-08