このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220926となっている論文です。

PDF登録状況(公開日: 20220926)

TitleAuthorsAbstract論文公表日・翻訳日
# 非自明な単位セルを持つ二次元テンソルネットワークの効率的な変動収縮

Efficient variational contraction of two-dimensional tensor networks with a non-trivial unit cell ( http://arxiv.org/abs/2003.01142v4 )

ライセンス: Link先を確認
A. Nietner, B. Vanhecke, F. Verstraete, J. Eisert, L. Vanderstraeten(参考訳) テンソルネットワーク状態は、古典統計力学において強相関量子モデルと系を忠実に捉える効率的な状態のクラスを提供する。 テンソルネットワークは、このような複雑な多体系の記述における標準ツールとみなすことができるが、そのような状態に基づく最適な変分原理に近いことは明らかではない。 本研究では,熱力学的極限における一次元量子格子を捉えるための変分一様行列積状態アルゴリズムを,非自明な単位セルを持つ正則2次元テンソルネットワークの研究に一般化する。 このアルゴリズムの重要な性質は、単位セルのサイズを指数的にではなく線形にスケールする計算努力である。 反強磁性イジングモデルの古典的分割関数と正方格子上の相互作用二量体、および量子ドープ共振価結合状態の計算における我々のアプローチの性能を実証する。

Tensor network states provide an efficient class of states that faithfully capture strongly correlated quantum models and systems in classical statistical mechanics. While tensor networks can now be seen as becoming standard tools in the description of such complex many-body systems, close to optimal variational principles based on such states are less obvious to come by. In this work, we generalize a recently proposed variational uniform matrix product state algorithm for capturing one-dimensional quantum lattices in the thermodynamic limit, to the study of regular two-dimensional tensor networks with a non-trivial unit cell. A key property of the algorithm is a computational effort that scales linearly rather than exponentially in the size of the unit cell. We demonstrate the performance of our approach on the computation of the classical partition functions of the antiferromagnetic Ising model and interacting dimers on the square lattice, as well as of a quantum doped resonating valence bond state.
翻訳日:2023-05-31 12:14:09 公開日:2022-09-26
# 変分量子状態固有解法

Variational Quantum State Eigensolver ( http://arxiv.org/abs/2004.01372v2 )

ライセンス: Link先を確認
M. Cerezo, Kunal Sharma, Andrew Arrasmith, Patrick J. Coles(参考訳) 指数関数的に大きな行列の固有値と固有ベクトルを抽出することは、短期量子コンピュータの重要な応用となる。 変分量子固有解法(VQE)は、行列がハミルトニアンである場合を扱う。 ここでは、行列が密度行列 $\rho$ である場合に対処する。 本稿では,変分量子状態固有解器(VQSE)について紹介する。これはVQEに類似しており,最大固有値$\rho$と対応する固有ベクトルを作成するゲートシーケンス$V$を変動的に学習する。 VQSE は対角化と偏化の間の接続を利用してコスト関数 $C=\Tr(\tilde{\rho} H)$ を定義する。 シュール凸のため、$C$ は $\tilde{\rho} = V\rho V^\dagger$ が $H$ の固有基底において対角であるときに最小化される。 VQSEは、VQSEアルゴリズムの反復ごとに$\rho$ (わずか$n$ qubits) のコピーのみを必要とするため、短期的な実装には適している。 我々は,(1)主成分分析,(2)誤差緩和という2つのvqseの応用をヒューリスティックに実証する。

Extracting eigenvalues and eigenvectors of exponentially large matrices will be an important application of near-term quantum computers. The Variational Quantum Eigensolver (VQE) treats the case when the matrix is a Hamiltonian. Here, we address the case when the matrix is a density matrix $\rho$. We introduce the Variational Quantum State Eigensolver (VQSE), which is analogous to VQE in that it variationally learns the largest eigenvalues of $\rho$ as well as a gate sequence $V$ that prepares the corresponding eigenvectors. VQSE exploits the connection between diagonalization and majorization to define a cost function $C=\Tr(\tilde{\rho} H)$ where $H$ is a non-degenerate Hamiltonian. Due to Schur-concavity, $C$ is minimized when $\tilde{\rho} = V\rho V^\dagger$ is diagonal in the eigenbasis of $H$. VQSE only requires a single copy of $\rho$ (only $n$ qubits) per iteration of the VQSE algorithm, making it amenable for near-term implementation. We heuristically demonstrate two applications of VQSE: (1) Principal component analysis, and (2) Error mitigation.
翻訳日:2023-05-27 01:02:25 公開日:2022-09-26
# トランスモンキュービット貯水池のメモリ容量特性

Characterizing the memory capacity of transmon qubit reservoirs ( http://arxiv.org/abs/2004.08240v7 )

ライセンス: Link先を確認
Samudra Dasgupta, Kathleen E. Hamilton, and Arnab Banerjee(参考訳) Quantum Reservoir Computing (QRC)は、機械学習のための量子アンサンブルシステムのダイナミクスを利用する。 数値実験により、5-7量子ビットからなる量子系は、従来の100から500ノードのリカレントニューラルネットワークに匹敵する計算能力を有することが示された。 従来のニューラルネットワークとは異なり、高性能情報処理のためのリザーバ設計の指針は理解されていない。 量子貯水池のメモリ容量を理解することは、未解決の問題である。 本研究では,IBMが提供するトランスモンデバイスを用いて構築した量子貯水池のメモリ容量を特徴付けるタスクに着目した。 我々のハイブリッド貯水池は、最近のベンチマークに匹敵する6x10^{-4の正規化平均角誤差(NMSE)を達成した。 n量子ビット貯水池のメモリ容量特性はトポロジーの複雑さと系統的な変化を示し,n-1自己ループ構成のピークを示した。 このようなピークは、予測タスクの最適設計を選択する基礎を提供する。

Quantum Reservoir Computing (QRC) exploits the dynamics of quantum ensemble systems for machine learning. Numerical experiments show that quantum systems consisting of 5-7 qubits possess computational capabilities comparable to conventional recurrent neural networks of 100 to 500 nodes. Unlike traditional neural networks, we do not understand the guiding principles of reservoir design for high-performance information processing. Understanding the memory capacity of quantum reservoirs continues to be an open question. In this study, we focus on the task of characterizing the memory capacity of quantum reservoirs built using transmon devices provided by IBM. Our hybrid reservoir achieved a Normalized Mean Square Error (NMSE) of 6x10^{-4} which is comparable to recent benchmarks. The Memory Capacity characterization of a n-qubit reservoir showed a systematic variation with the complexity of the topology and exhibited a peak for the configuration with n-1 self-loops. Such a peak provides a basis for selecting the optimal design for forecasting tasks.
翻訳日:2023-05-23 08:51:27 公開日:2022-09-26
# 1Gbit/sを超える量子鍵分布の実験エンタングルメント生成

Experimental entanglement generation for quantum key distribution beyond 1 Gbit/s ( http://arxiv.org/abs/2107.07756v4 )

ライセンス: Link先を確認
Sebastian Philipp Neumann, Mirela Selimovic, Martin Bohmann and Rupert Ursin(参考訳) フォトニックエンタングルメントの最高性能源は、量子通信、特に量子鍵分布において多くの応用に欠かせない資源である。 しかし、今のところ、ギガビット安全な鍵レートに必要な高いペア生成率、広い帯域幅、優れた状態忠実度、本質的な損失を同時に示す資料は存在しない。 本稿では、実世界の量子暗号アプリケーションのニーズをすべてカバーする通信波長における偏光子対の源を初めて提示し、前例のない1gbit/s以上の量子セキュアな鍵レートを実現する。 当社のソースは最先端の通信機器と検知システムを最適に活用するように設計されている。 後者の技術的改善は、ソースを変更することなくさらに高いレートをもたらすことになる。 本稿では,マルチユーザ量子ネットワークの可能性とその基本的限界を含む波長多重化手法について論じる。 我々の情報源は、現在のインターネット帯域に近づく高速量子暗号化の道を開く。

Top-performance sources of photonic entanglement are an indispensable resource for many applications in quantum communication, most notably quantum key distribution. However, up to now, no source has been shown to simultaneously exhibit the high pair-creation rate, broad bandwidth, excellent state fidelity, and low intrinsic loss necessary for gigabit secure key rates. In this work, we present for the first time a source of polarization-entangled photon pairs at telecommunication wavelengths that covers all these needs of real-world quantum-cryptographic applications, thus enabling unprecedented quantum-secure key rates of more than 1 Gbit/s. Our source is designed to optimally exploit state-of-the-art telecommunication equipment and detection systems. Any technological improvement of the latter would result in an even higher rate without modification of the source. We discuss the used wavelength-multiplexing approach, including its potential for multi-user quantum networks and its fundamental limitations. Our source paves the way for high-speed quantum encryption approaching present-day internet bandwidth.
翻訳日:2023-03-22 03:11:45 公開日:2022-09-26
# Fock--Segal--Bargmann空間上のクロストプリッツ作用素とハイゼンベルク群上の2次元畳み込み

Cross-Toeplitz Operators on the Fock--Segal--Bargmann Spaces and Two-Sided Convolutions on the Heisenberg Group ( http://arxiv.org/abs/2108.13710v3 )

ライセンス: Link先を確認
Vladimir V. Kisil(参考訳) 我々は、異なる重みを持つフォック-セガル-バルグマン空間の間で作用するクロストプリッツ作用素の拡張クラスを導入する。 これらの作用素をハイゼンベルク群の表現論の枠組みとして考えるのは当然である。 我々の主な手法は、ハイゼンベルク群からの両側相対畳み込みによるクロストプリッツの表現である。 逆に、両側畳み込みは、二重次元のハイゼンベルク群上の通常の(一方的な)畳み込みに還元される。 これにより,コヒーレント状態,共変変換,反変変換,ツイスト畳み込み,シンプレクティックフーリエ変換などの強力な群表現手法を活用できる。 本論文は,位相空間および時間周波数作用素理論における群論的手法の導入に適した,詳細かつ合理的に自己完結した方法で記述されている。

We introduce an extended class of cross-Toeplitz operators which act between Fock--Segal--Bargmann spaces with different weights. It is natural to consider these operators in the framework of representation theory of the Heisenberg group. Our main technique is representation of cross-Toeplitz by two-sided relative convolutions from the Heisenberg group. In turn, two-sided convolutions are reduced to usual (one-sided) convolutions on the Heisenberg group of the doubled dimensionality. This allows us to utilise the powerful group-representation technique of coherent states, co- and contra-variant transforms, twisted convolutions, symplectic Fourier transform, etc.We discuss connections of (cross-)Toeplitz operators with pseudo-differential operators, localisation operators in time-frequency analysis, and characterisation of kernels in terms of ladder operators. The paper is written in detailed and reasonably self-contained manner to be suitable as an introduction into group-theoretical methods in phase space and time-frequency operator theory.
翻訳日:2023-03-16 16:15:19 公開日:2022-09-26
# 畳み込みニューラルネットワークを用いた効率的な量子状態トモグラフィ

Efficient quantum state tomography with convolutional neural networks ( http://arxiv.org/abs/2109.13776v2 )

ライセンス: Link先を確認
Tobias Schmale, Moritz Reh, Martin G\"arttner(参考訳) 現代の量子シミュレータは、様々な量子状態を生成することができるが、断層計測データから観測可能な正確な推定は、しばしば問題となる。 畳み込みニューラルネットワークで表される変分多様体における情報的完備な測定結果の確率分布を近似する量子状態トモグラフィー手法を開発し,この問題に対処する。 システムサイズを多項式的に拡大する多数の変分パラメータを用いて, このアンザッツを用いて, 原型的基底状態と定常状態の優れた表現性を示す。 この圧縮表現により、最大推定などの標準手法よりも高い古典的忠実度で状態を再構成することができる。 さらに、実験データから直接推定した場合と比較して、観測可能量の推定誤差を最大で1桁削減する。

Modern day quantum simulators can prepare a wide variety of quantum states but the accurate estimation of observables from tomographic measurement data often poses a challenge. We tackle this problem by developing a quantum state tomography scheme which relies on approximating the probability distribution over the outcomes of an informationally complete measurement in a variational manifold represented by a convolutional neural network. We show an excellent representability of prototypical ground- and steady states with this ansatz using a number of variational parameters that scales polynomially in system size. This compressed representation allows us to reconstruct states with high classical fidelities outperforming standard methods such as maximum likelihood estimation. Furthermore, it achieves a reduction of the estimation error of observables by up to an order of magnitude compared to their direct estimation from experimental data.
翻訳日:2023-03-13 07:39:41 公開日:2022-09-26
# フラックスニウム回路用高速フラックス絡みゲート

Fast Flux Entangling Gate for Fluxonium Circuits ( http://arxiv.org/abs/2110.00632v2 )

ライセンス: Link先を確認
Yinqi Chen, Konstantin N. Nesterov, Vladimir E. Manucharyan, Maxim G. Vavilov(参考訳) 超伝導フラクソニウム量子ビット上の高速フラックスパルスを用いた高忠実二量子ゲートの解析を行った。 ゲートは、半磁束量子甘点から遠ざかる磁束ループを介して一時的に磁束を調整することによって実現される。 フラックスパルス中の2つの容量結合フラッソニウムのダイナミクスをシミュレートし、パルスパラメータを最適化し、高精度な$\sqrt{i\mathrm{swap}}$-like entangling gateを得る。 また,フラックスノイズと量子緩和がゲート忠実度に及ぼす影響についても評価した。 その結果,現在達成可能なフラックスノイズとキュービット緩和時間に対して,ゲート誤差が10^{-4}$以下であることを示す。

We analyze a high-fidelity two-qubit gate using fast flux pulses on superconducting fluxonium qubits. The gate is realized by temporarily detuning magnetic flux through fluxonium loop away from the half flux quantum sweet spot. We simulate dynamics of two capacitively coupled fluxoniums during the flux pulses and optimize the pulse parameters to obtain a highly accurate $\sqrt{i\mathrm{swap}}$-like entangling gate. We also evaluate the effect of the flux noise and qubit relaxation on the gate fidelity. Our results demonstrate that the gate error remains below $10^{-4}$ for currently achievable magnitude of the flux noise and qubit relaxation time.
翻訳日:2023-03-12 19:46:15 公開日:2022-09-26
# 3レベルエミッタを用いた光子のパッシブ量子位相ゲート

Passive quantum phase gate for photons based on three level emitters ( http://arxiv.org/abs/2112.11328v2 )

ライセンス: Link先を確認
Bj\"orn Schrinski, Miren Lamaison, Anders S. S{\o}rensen(参考訳) 1次元導波路を走行する2つの光子間の量子位相ゲートを実装するための完全受動的手法を提案する。 ゲートは3レベル$v$構成のキラル結合エミッタに基づいており、外部の制御フィールドを使わずに光子フィールドを通してのみ相互作用する。 発散する偏光子状態の非線形散乱を記述し、近共振子光子に対して散乱ダイナミクスは、多くのエミッタの極限で入射光子間の完全な制御位相ゲートを直接実装することを示す。 有限個のエミッタに対して、成功確率の小さな低減を犠牲にして、単純な周波数フィルタにより支配的な誤差機構を抑えることができることを示す。 正確な散乱行列理論との比較により結果を検証するとともに,8個のエミッターのゲート成功確率を$>99\%とすることで,その忠実度が$\mathcal{F}\sim99\%$に達することを示す。

We present a fully passive method for implementing a quantum phase gate between two photons travelling in a one-dimensional wave guide. The gate is based on chirally coupled emitters in a three-level $V$ configuration, which only interact through the photon field without any external control fields. We describe the (non-)linear scattering of the emerging polariton states and show that for near resonant photons the scattering dynamics directly implements a perfect control phase gate between the incoming photons in the limit of many emitters. For a finite number of emitters we show that the dominant error mechanism can be suppressed by a simple frequency filter at the cost of a minor reduction in the success probability. We verify the results via comparison with exact scattering matrix theory and show that the fidelity can reach values $\mathcal{F}\sim99\%$ with a gate success probability of $>99\%$ for as few as 8 emitters.
翻訳日:2023-03-03 22:39:32 公開日:2022-09-26
# 深層量子ニューラルネットワークのトレーサビリティに向けて

Toward Trainability of Deep Quantum Neural Networks ( http://arxiv.org/abs/2112.15002v2 )

ライセンス: Link先を確認
Kaining Zhang and Min-Hsiu Hsieh and Liu Liu and Dacheng Tao(参考訳) ランダムな構造を持つ量子ニューラルネットワーク(QNN)は、回路深さと量子ビット数が増加するにつれて指数関数的に減少する勾配のため、トレーニング性に乏しい。 この結果は、深いQNNが実現できないという一般的な信念につながります。 本研究では,理論的な保証のある深部QNNに対して,消滅する勾配問題の解法を初めて提供する。 具体的には、制御層構造を持つ回路の場合、勾配ノルムの期待値は、量子ビット数と回路深さに依存しない値で下界できることを示す。 その結果, ほとんどすべてのqnnで用いられているように, パラメータ空間の勾配挙動を, 非実用的な2-デザインの仮定に頼るのではなく, 注意深く解析した。 QNNだけがトレーニング可能で収束可能な例を明示的に構築しています。

Quantum Neural Networks (QNNs) with random structures have poor trainability due to the exponentially vanishing gradient as the circuit depth and the qubit number increase. This result leads to a general belief that a deep QNN will not be feasible. In this work, we provide the first viable solution to the vanishing gradient problem for deep QNNs with theoretical guarantees. Specifically, we prove that for circuits with controlled-layer architectures, the expectation of the gradient norm can be lower bounded by a value that is independent of the qubit number and the circuit depth. Our results follow from a careful analysis of the gradient behaviour on parameter space consisting of rotation angles, as employed in almost any QNNs, instead of relying on impractical 2-design assumptions. We explicitly construct examples where only our QNNs are trainable and converge, while others in comparison cannot.
翻訳日:2023-03-02 21:20:27 公開日:2022-09-26
# latent variable method demonstrator -- 多変量データ解析アルゴリズムを理解するためのソフトウェア

Latent Variable Method Demonstrator -- Software for Understanding Multivariate Data Analytics Algorithms ( http://arxiv.org/abs/2205.08132v2 )

ライセンス: Link先を確認
Joachim Schaeffer and Richard Braatz(参考訳) 多変量プロセスデータの増加は、熟練したエンジニアがそのようなデータからモデルを分析し、解釈し、構築する必要性を増している。 多変量データ分析は線形代数、最適化、統計に大きく依存しており、ほとんどのカリキュラムが後3つのトピックに強いカバレッジを持っていないため、学生には理解が困難である。 本稿では,潜在変数の方法を教える,学習し,理解するための,インタラクティブなソフトウェア - the latent variable demonstrator (lavade)について述べる。 本ソフトウェアでは,PLS (Partial Least Squares) やプリンシパルコンポーネント回帰 (Principal Component Regression, PCR) などの潜伏変数メソッドと,Least Absolute Shrinkage and Selection Operator (lasso), Ridge Regression (RR), Elastic Net (EN) などの回帰手法を対話的に比較することができる。 LAVADEは、適切な方法、ハイパーパラメータチューニング、モデル係数解釈の選択に関する直観の構築を支援し、アルゴリズムの違いの概念的理解を促進する。 このソフトウェアは、データ生成方法と3つの化学プロセスデータセットを含み、異なる複雑さのレベルとデータセットの結果を比較することができる。 LAVADEはオープンソースソフトウェアとしてリリースされており、他の人が教育や研究に使用するツールを応用し前進させることができる。

The ever-increasing quantity of multivariate process data is driving a need for skilled engineers to analyze, interpret, and build models from such data. Multivariate data analytics relies heavily on linear algebra, optimization, and statistics and can be challenging for students to understand given that most curricula do not have strong coverage in the latter three topics. This article describes interactive software - the Latent Variable Demonstrator (LAVADE) - for teaching, learning, and understanding latent variable methods. In this software, users can interactively compare latent variable methods such as Partial Least Squares (PLS), and Principal Component Regression (PCR) with other regression methods such as Least Absolute Shrinkage and Selection Operator (lasso), Ridge Regression (RR), and Elastic Net (EN). LAVADE helps to build intuition on choosing appropriate methods, hyperparameter tuning, and model coefficient interpretation, fostering a conceptual understanding of the algorithms' differences. The software contains a data generation method and three chemical process datasets, allowing for comparing results of datasets with different levels of complexity. LAVADE is released as open-source software so that others can apply and advance the tool for use in teaching or research.
翻訳日:2023-02-19 16:57:46 公開日:2022-09-26
# 医療応用のための統合型マルチモーダル人工知能フレームワーク

Integrated multimodal artificial intelligence framework for healthcare applications ( http://arxiv.org/abs/2202.12998v4 )

ライセンス: Link先を確認
Luis R. Soenksen, Yu Ma, Cynthia Zeng, Leonard D.J. Boussioux, Kimberly Villalobos Carballo, Liangyuan Na, Holly M. Wiberg, Michael L. Li, Ignacio Fuentes, Dimitris Bertsimas(参考訳) 人工知能(AI)システムは今後数十年にわたって医療を改善することを約束している。 具体的には、複数のデータソースと入力モダリティを活用するAIシステムは、より正確な結果を提供するための実行可能な方法になり、幅広いアプリケーションにわたってパイプラインをデプロイできるようになります。 本研究では,マルチモーダル入力を利用するAIシステムの生成とテストを容易にするために,統合されたHolistic AI in Medicine(HAIM)フレームワークを提案し,評価する。 このアプローチでは、一般化可能なデータ前処理と機械学習モデリングステージを使用し、医療環境における研究やデプロイメントに容易に適応できる。 HAIM-MIMIC-MMをベースとした14,324の独立したモデル,7,279のユニークな入院と6,485の患者を含む多段階臨床データベース(N=34,537のサンプル)をトレーニング,評価し,4つのデータモダリティ(表,時系列,テキスト,画像)、11のユニークなデータソースと12の予測タスクの入力組み合わせを網羅した。 このフレームワークは、様々な医療実演(6~33%)で類似の単一ソースアプローチを上回る、一貫して堅牢にモデルを作成できることを示し、胸部病理診断10例と、長期生存と48時間の死亡予測を行った。 また,shapley値を用いて各モダリティとデータソースの寄与度を定量化し,さまざまな医療関連タスクにおけるデータモダリティの重要性とマルチモダリティ入力の必要性を示す。 当社のHolistic AI in Medicine(HAIM)フレームワークの一般化可能な特性と柔軟性は、臨床および手術医療設定における将来のマルチモーダル予測システムにとって有望な経路を提供する可能性がある。

Artificial intelligence (AI) systems hold great promise to improve healthcare over the next decades. Specifically, AI systems leveraging multiple data sources and input modalities are poised to become a viable method to deliver more accurate results and deployable pipelines across a wide range of applications. In this work, we propose and evaluate a unified Holistic AI in Medicine (HAIM) framework to facilitate the generation and testing of AI systems that leverage multimodal inputs. Our approach uses generalizable data pre-processing and machine learning modeling stages that can be readily adapted for research and deployment in healthcare environments. We evaluate our HAIM framework by training and characterizing 14,324 independent models based on HAIM-MIMIC-MM, a multimodal clinical database (N=34,537 samples) containing 7,279 unique hospitalizations and 6,485 patients, spanning all possible input combinations of 4 data modalities (i.e., tabular, time-series, text, and images), 11 unique data sources and 12 predictive tasks. We show that this framework can consistently and robustly produce models that outperform similar single-source approaches across various healthcare demonstrations (by 6-33%), including 10 distinct chest pathology diagnoses, along with length-of-stay and 48-hour mortality predictions. We also quantify the contribution of each modality and data source using Shapley values, which demonstrates the heterogeneity in data modality importance and the necessity of multimodal inputs across different healthcare-relevant tasks. The generalizable properties and flexibility of our Holistic AI in Medicine (HAIM) framework could offer a promising pathway for future multimodal predictive systems in clinical and operational healthcare settings.
翻訳日:2023-02-19 15:16:04 公開日:2022-09-26
# algorithmic fairness datasets: これまでの話

Algorithmic Fairness Datasets: the Story so Far ( http://arxiv.org/abs/2202.01711v4 )

ライセンス: Link先を確認
Alessandro Fabris, Stefano Messina, Gianmaria Silvello, Gian Antonio Susto(参考訳) データ駆動アルゴリズムは様々な領域で研究され、人々の幸福に直接影響を与える。 その結果、研究者のコミュニティが既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対するリスクと自動意思決定の機会の理解を進めてきた。 公正な機械学習の進歩は、適切にドキュメント化された場合にのみ適切に使用できるデータに基づく。 残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)に起因する、集合的なデータドキュメント負債に悩まされている。 本研究では,アルゴリズム的公平性研究に採用されている200以上のデータセットを調査し,それぞれを標準化し,検索可能なドキュメントを作成することで,データドキュメントの負債を解消する。 さらに、最も人気のある3つのフェアネスデータセット(大人、コンパス、ドイツのクレジット)を厳密に識別し、詳細なドキュメントをコンパイルします。 この統合ドキュメントの取り組みは、複数のコントリビューションをサポートする。 まず、アダルト、CompAS、ドイツ信用のメリットと限界を要約し、最近の奨学金の追加と統一を行い、汎用フェアネスベンチマークとしての適合性を疑問視する。 第二に、利用可能な何百もの代替案を文書化、要約し、それらのドメインに注釈を付け、フェアネスタスクをサポートし、そして、フェアネス研究者の興味を引いた。 最後に,これらのデータセットを,匿名化,同意,包括性,機密性,機密性,透明性という5つの重要なデータキュレーショントピックの観点から分析する。 我々は,これらのトピックに対する様々なアプローチと注意のレベルについて議論し,それらを具体化し,新しいリソースのキュレーションのためのベストプラクティスのセットに蒸留する。

Data-driven algorithms are studied in diverse domains to support critical decisions, directly impacting people's well-being. As a result, a growing community of researchers has been investigating the equity of existing algorithms and proposing novel ones, advancing the understanding of risks and opportunities of automated decision-making for historically disadvantaged populations. Progress in fair Machine Learning hinges on data, which can be appropriately used only if adequately documented. Unfortunately, the algorithmic fairness community suffers from a collective data documentation debt caused by a lack of information on specific resources (opacity) and scatteredness of available information (sparsity). In this work, we target data documentation debt by surveying over two hundred datasets employed in algorithmic fairness research, and producing standardized and searchable documentation for each of them. Moreover we rigorously identify the three most popular fairness datasets, namely Adult, COMPAS and German Credit, for which we compile in-depth documentation. This unifying documentation effort supports multiple contributions. Firstly, we summarize the merits and limitations of Adult, COMPAS and German Credit, adding to and unifying recent scholarship, calling into question their suitability as general-purpose fairness benchmarks. Secondly, we document and summarize hundreds of available alternatives, annotating their domain and supported fairness tasks, along with additional properties of interest for fairness researchers. Finally, we analyze these datasets from the perspective of five important data curation topics: anonymization, consent, inclusivity, sensitive attributes, and transparency. We discuss different approaches and levels of attention to these topics, making them tangible, and distill them into a set of best practices for the curation of novel resources.
翻訳日:2023-02-19 14:41:35 公開日:2022-09-26
# 地方自治体にデジタル参加型予算を組み込む : モチベーション・戦略・障壁

Embedding digital participatory budgeting within local government: motivations, strategies and barriers faced ( http://arxiv.org/abs/2209.12598v1 )

ライセンス: Link先を確認
Jonathan Davies, Miguel Arana-Catania, Rob Procter(参考訳) 革新的な参加プロセスや技術を地方政府に組み込むという困難な課題は、しばしば地方行政官に負う。 質的データ収集と分析を用いて、スコットランドの地方自治体が組織内で参加予算(pb)のプロセスを実行しようとする作業や、これをサポートするためのデジタルプラットフォームの利用、そして直面する課題について調査する。 そこで本論文では, 埋め込みの背景にある力学や力に関する議論の進展を支援するために, 実験資料を引用する。 我々の分析は、正式な合意だけではプロセスが確実でないことを示している。 地方評議会の役員は、代表的構造と新しい革新的な働き方の間の過渡的な空間において仲介者として働かなければならない。 そのためには、デジタルプラットフォームをプロセスの一部として効果的に使用できる機能を含む、十分なトレーニングとリソースが必要となる。 これは、参加に必要な、アクセス性、透過性、慎重なスペースを提供する。

The challenging task of embedding innovative participatory processes and technologies within local government often falls upon local council officers. Using qualitative data collection and analysis, we investigate the ongoing work of Scottish local councils seeking to run the process of participatory budgeting (PB) within their institution, the use of digital platforms to support this and the challenges faced. In doing so this paper draws on empirical material to support the growing discussion on the dynamics or forces behind embedding. Our analysis shows that formal agreement alone does not make the process a certainty. Local council officers must work as mediators in the transitional space between representative structures and new, innovative ways of working, unsettling the entrenched power dynamics. To do so they must be well trained and well resourced, including the ability to use digital platforms effectively as part of the process. This provides the necessary, accessible, transparent and deliberative space for participation.
翻訳日:2023-02-19 11:23:38 公開日:2022-09-26
# コンピュータ支援シフト計画における対話型紛争交渉の実践経験的利益

Experiential Benefits of Interactive Conflict Negotiation Practices in Computer-Supported Shift Planning ( http://arxiv.org/abs/2209.12568v1 )

ライセンス: Link先を確認
Alarith Uhde and Matthias Laschke and Marc Hassenzahl(参考訳) シフトプランニングは、医療従事者の健康と幸福に重要な役割を果たす。 それは、彼らがいつ仕事をするか、いつ退社して社会活動を回復するかを判断する。 現在のシフト計画におけるコンピュータサポートは、一般的に管理の観点から設計され、プロセス効率に重点を置いている。 これは感情的にチャージされたスケジュールコンフリクトの自動解決を意味する。 本研究では,このような完全自動化プロセスが労働者の幸福感,公平性,チーム精神に及ぼす影響を計測し,作業者の意思決定に直接関与するよりインタラクティブなプロセスと比較した。 実験オンライン実験 (n = 94) では, よりインタラクティブなプロセスがすべての尺度に有意な効果を示した。 作業者の視点からは,完全自動化は望ましいものではない可能性が示唆された。 我々は,作業者制御を最適化し,作業者エクスペリエンスを考慮し,より広い作業コンテキストにシフト計画を埋め込むことにより,作業者中心のハイブリッドシフト計画システムを設計するための具体的な提案を締めくくった。

Shift planning plays a key role for the health and well-being of healthcare workers. It determines when they work and when they can take time off to recover or engage in social activities. Current computer-support in shift planning is typically designed from a managerial perspective and focuses on process efficiency, with the long-term goal of full automation. This implies automatic resolutions of emotionally charged scheduling conflicts. In the present study, we measured the effects of such a fully automated process on workers' well-being, fairness, and team spirit, and compared them with a more interactive process that directly involves workers in the decision-making. In our experimental online study (n = 94), we found positive effects of the more interactive process on all measures. Our findings indicate that full automation may not be desirable from the worker perspective. We close with concrete suggestions to design more worker-centered, hybrid shift planning systems by optimizing worker control, considering the worker experience, and embedding shift planning in the broader work context.
翻訳日:2023-02-19 11:23:20 公開日:2022-09-26
# シリコンシールドからカーボンロックインまで? 台湾における電子部品製造の環境足跡(2015-2020)

From Silicon Shield to Carbon Lock-in ? The Environmental Footprint of Electronic Components Manufacturing in Taiwan (2015-2020) ( http://arxiv.org/abs/2209.12523v1 )

ライセンス: Link先を確認
Gauthier Roussilhe, Thibault Pirson, Mathieu Xhonneux, David Bol(参考訳) 台湾は、電子部品の工業生産能力を急速に増やし、同時に環境変化の政策を策定する計画である。 島が世界の電子部品のかなりの部分を製造する責任を負っていることを考えると、台湾の電子産業の持続性は重要な関心事である。 本稿では,企業サステナビリティ責任報告(CSR)を用いて,台湾の電子部品メーカー16社(ECM)の環境フットプリントを調査した。 2015年から2020年のデータから、我々の16社のサンプルは、温室効果ガス(GHG)排出量を年間7.5 %増加させ、最終エネルギーと電力消費を8.8 %と8.9 %増加させ、水使用量を6.1 %増加させた。 本研究では, 製造された電子部品の体積と環境フットプリントの相関が強く, 環境フットプリントを全国規模で抑制するには相対効率が不十分であることが示唆された。 台湾の地政学と経済におけるエレクトロニクス産業の批判的な性質、観察されたエネルギー消費の増加、再生可能エネルギーの遅いロールアウトを考えると、これらの産業活動は炭素ロックインを生じさせ、台湾政府による二酸化炭素削減目標と持続可能性政策の達成を妨げる可能性がある。 加えて、欧州連合、米国、さらには中国さえも、台湾に似た10nm以下のCMOS技術ノードをターゲットにした産業エコシステムの開発を目指している。 本研究は,このような技術ロードマップに関連する環境要因に関する重要な知見を提供する。 本研究で使用するデータおよび計算モデルは補足材料として提供される。

Taiwan plans to rapidly increase its industrial production capacity of electronic components while concurrently setting policies for its ecological transition. Given that the island is responsible for the manufacturing of a significant part of worldwide electronics components, the sustainability of the Taiwanese electronics industry is therefore of critical interest. In this paper, we survey the environmental footprint of 16 Taiwanese electronic components manufacturers (ECM) using corporate sustainability responsibility reports (CSR). Based on data from 2015 to 2020, this study finds out that our sample of 16 manufacturers increased its greenhouse gases (GHG) emissions by 7.5\% per year, its final energy and electricity consumption by 8.8\% and 8.9\%, and the water usage by 6.1\%. We show that the volume of manufactured electronic components and the environmental footprints compiled in this study are strongly correlated, which suggests that relative efficiency gains are not sufficient to curb the environmental footprint at the national scale. Given the critical nature of electronics industry for Taiwan's geopolitics and economics, the observed increase of energy consumption and the slow renewable energy roll-out, these industrial activities could create a carbon lock-in, blocking the Taiwanese government from achieving its carbon reduction goals and its sustainability policies. Besides, the European Union, the USA or even China aim at developing an industrial ecosystem targeting sub-10nm CMOS technology nodes similar to Taiwan. This study thus provides important insights regarding the environmental implications associated with such a technology roadmap. All data and calculation models used in this study are provided as supplementary material.
翻訳日:2023-02-19 11:23:02 公開日:2022-09-26
# あなたの同意は年間75ユーロに上る -- クッキーのペイウォールの測定と合法性

Your Consent Is Worth 75 Euros A Year -- Measurement and Lawfulness of Cookie Paywalls ( http://arxiv.org/abs/2209.09946v3 )

ライセンス: Link先を確認
Victor Morel, Cristiana Santos, Yvonne Lintao, Soheil Human(参考訳) ほとんどのWebサイトは、コンテンツを無料で提供しているが、この幸運感は、しばしばある。個人データは、主に、ターゲット広告を追跡して、それらのWebサイトをファイナンスするために収集される。 同意を得るために使われたクッキーの壁とペイウォールは、最近EUのDPAから関心を集め、人気を博したようである。 しかし、学者からは見過ごされている。 本論文で紹介する 1) クッキーペイウォールの存在と実践を測定するため, 中央ヨーロッパの2800のウェブサイトで実施した探索調査の結果 2 法律上の決定及びガイドラインの多様の中で、その合法性の枠組み

Most websites offer their content for free, though this gratuity often comes with a counterpart: personal data is collected to finance these websites by resorting, mostly, to tracking and thus targeted advertising. Cookie walls and paywalls, used to retrieve consent, recently generated interest from EU DPAs and seemed to have grown in popularity. However, they have been overlooked by scholars. We present in this paper 1) the results of an exploratory study conducted on 2800 Central European websites to measure the presence and practices of cookie paywalls, and 2) a framing of their lawfulness amidst the variety of legal decisions and guidelines.
翻訳日:2023-02-19 11:16:47 公開日:2022-09-26
# 一様precessionにおける量子性の検出

Detecting quantumness in uniform precessions ( http://arxiv.org/abs/2204.10498v3 )

ライセンス: Link先を確認
Lin Htoo Zaw, Clive Cenxin Aw, Zakarya Lasmar, and Valerio Scarani(参考訳) ツィレルソンによる研究に基づいて、測定された力学観測可能な状態が一様偏差を受けるという前提の下で、単一の量子系の適切な状態の非古典性を検出する一連のプロトコルを提示する。 ハーモニック発振器のケースはtsirelsonによる研究で予測され,拡張されている。 次に、このプロトコルを実空間で一様沈着する有限次元スピンに適用し、すべての$j\geq \frac{3}{2}$($j=2$を除く)の古典的期待値と量子的期待値の間のギャップを求める。

Building on work by Tsirelson, we present a family of protocols that detect the nonclassicality of suitable states of a single quantum system, under the sole assumption that the measured dynamical observable undergoes a uniform precession. The case of the harmonic oscillator was anticipated in the work by Tsirelson, which we extend. We then apply the protocols to finite-dimensional spins that undergo uniform precession in real space and find a gap between the classical and the quantum expectations for every $j\geq \frac{3}{2}$ (excluding $j=2$).
翻訳日:2023-02-16 01:16:10 公開日:2022-09-26
# 一般化多数関数のランダム局所探索のための実行時間解析

Run Time Analysis for Random Local Search on Generalized Majority Functions ( http://arxiv.org/abs/2204.12770v3 )

ライセンス: Link先を確認
Carola Doerr and Martin S. Krejca(参考訳) 進化的アルゴリズムの実行時間解析はアルゴリズム性能をアルゴリズムパラメータにリンクする上で大きな進歩を遂げている。 しかし、問題パラメータの影響を研究する設定は稀である。 最近提案されたW-モデルはそのような分析のための優れたフレームワークを提供し、チューナブルな特性を持つ擬似ブール最適化問題を生成する。 我々は、w-モデルの理論的研究を開始し、その特性である中立性がランダムな局所探索の実行時間にどのように影響するかを研究する。 中立性は、まずソリューション候補のサブセットに対して過半数の投票を行い、次に低レベルフィットネス関数を介してより小さな次元の文字列を評価することによって、検索空間の高原を生み出す。 我々は、この多数問題に対するランダム局所探索の期待実行時間の上限をパラメータスペクトル全体に対して証明する。 この目的のために、多くの最適化アルゴリズムに適用可能な定理を提供し、実行時間とその対称バージョンhas majorityをリンクし、サブセットを最適化するのに十分な過半数が必要となる。 また、古典的ドリフト定理の一般化版や、ウォルド方程式の一般化版も導入し、どちらも独立な関心を持つと考えている。

Run time analysis of evolutionary algorithms recently makes significant progress in linking algorithm performance to algorithm parameters. However, settings that study the impact of problem parameters are rare. The recently proposed W-model provides a good framework for such analyses, generating pseudo-Boolean optimization problems with tunable properties. We initiate theoretical research of the W-model by studying how one of its properties -- neutrality -- influences the run time of random local search. Neutrality creates plateaus in the search space by first performing a majority vote for subsets of the solution candidate and then evaluating the smaller-dimensional string via a low-level fitness function. We prove upper bounds for the expected run time of random local search on this MAJORITY problem for its entire parameter spectrum. To this end, we provide a theorem, applicable to many optimization algorithms, that links the run time of MAJORITY with its symmetric version HASMAJORITY, where a sufficient majority is needed to optimize the subset. We also introduce a generalized version of classic drift theorems as well as a generalized version of Wald's equation, both of which we believe to be of independent interest.
翻訳日:2023-02-15 09:26:08 公開日:2022-09-26
# MoS$_2$ナノディスクにおける量子エミッタとエキシトン偏光子の強い結合

Strong coupling of quantum emitters and the exciton polariton in MoS$_2$ nanodisks ( http://arxiv.org/abs/2204.13383v2 )

ライセンス: Link先を確認
Feng-Zhou Ji, Si-Yuan Bai, Jun-Hong An(参考訳) 半導体中の光と励起子によって形成される準粒子として、エクシトン・ポラリトン(EP)は室温での量子相互接続装置の開発に期待されている。 しかし、材料中のEPの顕著な減衰は一般に量子情報の損失を引き起こす。 本稿では、減衰EPが量子エミッタ(QE)の媒介する相関ダイナミクスに与える影響を克服するメカニズムを提案する。 単層MoS$_{2}$ nanodiskにおける2つのQEとEPの近接場カップリングの研究により、QEの完全散逸を効率的に回避することで、QE間の永続的な量子相関が生成され、安定した状態でも安定化できることが判明した。 これは、QE-MoS$_2$距離を減少させると、QEはEPと非常にハイブリダイズされ、1つまたは2つの境界状態が形成されるためである。 その結果,EP減衰の破壊的影響を回避するための有用な方法が得られ,吸収媒体における光-物質相互作用の理解が深まる。

As a quasiparticle formed by light and excitons in semiconductors, the exciton-polariton (EP) as a quantum bus is promising for the development of quantum interconnect devices at room temperature. However, the significant damping of EPs in the material generally causes a loss of quantum information. We propose a mechanism to overcome the destructive effect of a damping EP on its mediated correlation dynamics of quantum emitters (QEs). Via an investigation of the near-field coupling between two QEs and the EP in a monolayer MoS$_{2}$ nanodisk, we find that, with the complete dissipation of the QEs efficiently avoided, a persistent quantum correlation between the QEs can be generated and stabilized even to their steady state. This is due to the fact that, with upon decreasing the QE-MoS$_2$ distance, the QEs become so hybridized with the EP that one or two bound states are formed between them. Our result supplies a useful way to avoid the destructive impact of EP damping, and it refreshes our understanding of the light-matter interaction in absorbing medium.
翻訳日:2023-02-15 06:40:12 公開日:2022-09-26
# 臨界kerr共振器の発振電流ゆらぎ

Diverging current fluctuations in critical Kerr resonators ( http://arxiv.org/abs/2205.02622v2 )

ライセンス: Link先を確認
Michael J. Kewming, Mark T. Mitchison, Gabriel T. Landi(参考訳) パラメトリックポンピングカーモデルでは、非平衡位相図は連続的および不連続な量子相転移を特徴とする、駆動散逸性非線形空洞を記述する。 キャビティの連続的弱測定により得られた光電流の揺らぎに対するこれらの臨界現象の影響を考察する。 直接光検出法とホモダイン検出法の両方を考慮すると、電流変動は不連続相転移で指数関数的に変化する。 しかし, この2つの検出方式の変動は, 連続遷移付近で著しく異なることが判明した。 これらの結果を得るために, 量子マスター方程式から直接, 長期電流ゆらぎを特徴づける拡散係数を効率的に計算するための公式を考案し, 全計数統計と確率的量子軌道の形式を結びつける。 本研究は, 量子光学系における非平衡相転移近傍の電流変動の豊富な特徴を明らかにする。

The parametrically pumped Kerr model describes a driven-dissipative nonlinear cavity, whose nonequilibrium phase diagram features both continuous and discontinuous quantum phase transitions. We consider the consequences of these critical phenomena for the fluctuations of the photocurrent obtained via continuous weak measurements on the cavity. Considering both direct photodetection and homodyne detection schemes, we find that the current fluctuations diverge exponentially at the discontinuous phase transition. However, we find strikingly different current fluctuations for these two detection schemes near the continuous transition, a behaviour which is explained by the complementary information revealed by measurements in different bases. To obtain these results, we develop formulas to efficiently compute the diffusion coefficient -- which characterises the long-time current fluctuations -- directly from the quantum master equation, thus connecting the formalisms of full counting statistics and stochastic quantum trajectories. Our findings highlight the rich features of current fluctuations near nonequilibrium phase transitions in quantum-optical systems.
翻訳日:2023-02-14 06:19:59 公開日:2022-09-26
# 相互作用振動子から生じる量子状態について

On quantum states generated from interacting oscillators ( http://arxiv.org/abs/2205.04932v2 )

ライセンス: Link先を確認
Haqi Ismael Shareef and Fardin Kheirandish(参考訳) 本稿では、線形に相互作用する2つと3つの量子調和振動子から生じる量子状態について検討する。 振動子のうちの1つが古典的な外部源の影響を受けている可能性を検討し,システムに関連する総密度行列と縮小密度行列を求める。 問題をn個の線形相互作用振動子に直接一般化する方法を示す。

In this paper, we study the quantum states generated from two and three linearly interacting quantum harmonic oscillators. We consider the possibility that one of the oscillators be under the influence of a classical external source and obtain the total and reduced density matrices related to the system. We show how the problem can be generalized to n linearly interacting oscillators straightforwardly.
翻訳日:2023-02-13 17:42:51 公開日:2022-09-26
# マグノメカニカルトランスデューサによる最適広帯域周波数変換

Optimal broad-band frequency conversion via a magnomechanical transducer ( http://arxiv.org/abs/2205.05088v2 )

ライセンス: Link先を確認
F. Engelhardt, V. A. S. V. Bittencourt, H. Huebl, O. Klein, S. Viola Kusminskiy(参考訳) 量子信号の効率的かつ広帯域周波数変換のためのスキームの開発は、現代の量子情報分野において進行中の課題である。 特にマイクロ波と光信号のコヒーレント変換は長距離量子通信にとって重要なマイルストーンである。 本研究では,マイクロ波光子と光子の中間子として磁気励起と機械励起の共振相互作用を用いる2段階変換プロトコルを提案する。 イットリウム鉄ガーネットの最適化条件下での結合強度の推定値に基づいて, 整合性を必要とせず, 単体変換効率をほぼ予測する。 結合強度の桁数で最大効率の領域における変換帯域幅を予測し、変換効率の低下を犠牲にしてさらに増大させることができる。

Developing schemes for efficient and broad-band frequency conversion of quantum signals is an ongoing challenge in the field of modern quantum information. Especially the coherent conversion between microwave and optical signals is an important milestone towards long-distance quantum communication. In this work, we propose a two-stage conversion protocol, employing a resonant interaction between magnetic and mechanical excitations as a mediator between microwave and optical photons. Based on estimates for the coupling strengths under optimized conditions for yttrium iron garnet, we predict close to unity conversion efficiency without the requirement of matching cooperativities. We predict a conversion bandwidth in the regions of largest efficiency on the order of magnitude of the coupling strengths which can be further increased at the expense of reduced conversion efficiency.
翻訳日:2023-02-13 17:33:03 公開日:2022-09-26
# 運動量空間量子ウォークにおける光シフト誘起挙動

Light-shift induced behaviors observed in momentum-space quantum walks ( http://arxiv.org/abs/2205.07732v2 )

ライセンス: Link先を確認
Nikolai Bolik, Caspar Groiseau, Jerry H. Clark, Alexander Gresch, Siamak Dadras, Gil S. Summy, Yingmei Liu, and Sandro Wimberger(参考訳) 過去10年間、量子ウォーク(qws)の研究は、スピン系ボース=アインシュタイン凝縮系で最近実現された運動量空間qwを含む多くの進歩を遂げてきた。 このqwは理論的な予測と概ね一致する挙動を持っていたが、理論によって適切に説明されていない運動量分布も示していた。 スピノール凝縮物のコヒーレントダイナミクスは、元の理論のように原子の熱雲の存在を招かなくても実験データを説明するのに十分であることを示す理論モデルを提案する。 計算結果は,0温度凝縮の限界における運動量分布の解析的予測によって裏付けられる。 このモデルは、フロッケ駆動系における量子探索アルゴリズムや位相位相相の研究に応用できる運動量空間 qws のより完全な説明を提供する。

Over the last decade there have been many advances in studies of quantum walks (QWs) including a momentum-space QW recently realized in our spinor Bose-Einstein condensate system. This QW possessed behaviors that generally agreed with theoretical predictions; however, it also showed momentum distributions that were not adequately explained by the theory. We present a theoretical model which proves that the coherent dynamics of the spinor condensate is sufficient to explain the experimental data without invoking the presence of a thermal cloud of atoms as in the original theory. Our numerical findings are supported by an analytical prediction for the momentum distributions in the limit of zero-temperature condensates. This current model provides more complete explanations to the momentum-space QWs that can be applied to study quantum search algorithms and topological phases in Floquet-driven systems.
翻訳日:2023-02-12 23:40:15 公開日:2022-09-26
# $\mathcal{P}\mathcal{T}$-symmetric Dielectric slabにおける異常ファラデー効果

Anomalous Faraday effect in a $\mathcal{P}\mathcal{T}$-symmetric dielectric slab ( http://arxiv.org/abs/2205.09871v2 )

ライセンス: Link先を確認
Vladimir Gasparian, Peng Guo and Esther J\'odar(参考訳) このレターでは、ファラデー回転角の位相遷移のような異常な挙動を、通常の誘電スラブの両境界に2つの複素$\delta$-potentialを配置した単純なパリティ時間 ("\mathcal{P}\mathcal{T}$) 対称モデルで論じる。 異常位相では、ファラデー回転角の1つの値が負に変化し、両角度はスペクトル特異点に悩まされ、特異点付近で強いエンハンスメントをもたらす。

In this letter we discuss a phase transition-like anomalous behavior of Faraday rotation angles in a simple parity-time ($\mathcal{P}\mathcal{T}$) symmetric model with two complex $\delta$-potential placed at both boundaries of a regular dielectric slab. In anomalous phase, the value of one of Faraday rotation angles may turn negative, and both angles suffer spectral singularities and yield strong enhancement near singularities.
翻訳日:2023-02-12 15:26:06 公開日:2022-09-26
# 2つの空間分離したUnruh-DeWitt検出器の均一加速による真空の長距離特性の提案

Probing long-range properties of vacuum altered by uniformly accelerating two spatially separated Unruh-DeWitt detectors ( http://arxiv.org/abs/2205.11086v3 )

ライセンス: Link先を確認
Shijing Cheng, Wenting Zhou and Hongwei Yu(参考訳) 量子的な意味では、真空は空虚ではなく、仮想粒子(場)で満たされている。 長い範囲の性質を持ち、変化し、相転移することもある。 量子真空の長距離特性は、物質を大きな空間体積に分散させることによって探究できることが示唆された。 本稿では, 空間的に分離された2つのUnruh-DeWitt検出器の簡易な例について検討し, 空間的に分離された2つの検出器を均一に加速させることにより, 真空の長距離特性に係わる新しい現象が生じるかどうかを調べる。 その結果, 検出器間分離がアンルー熱浴の熱波長よりはるかに大きい場合, 検出器間相互作用は完全に新しい挙動を示し, 慣性検出器と比較すると, 驚くほど加速依存的であり, 2人の慣性オブザーバによるインプリントが完全に消去されるように思われる真空の新しい位相を示唆する。 さらに, 近接領域における検出器間相互作用は, ある状況下で加速運動によって著しく向上し, 2つのRydberg原子を検出器として, 実験的に検出可能な相互作用エネルギーの増強に必要な加速度は, ウンルー効果の検出に必要なものよりも10^5$s小さくすることができることを示した。

In a quantum sense, vacuum is not an empty void but full of virtual particles (fields). It may have long-range properties, be altered, and even undergo phase transitions. It is suggested that long-range properties of a quantum vacuum may be probed by distributing matter over a large spatial volume. Here, we study a simplest example of such, i.e., two uniformly accelerated Unruh-DeWitt detectors which are spatially separated, and examine the inter-detector interaction energy arising from the coupling between the detectors and fluctuating fields to see if novel phenomena related to the long-range properties emerge of a vacuum altered by uniformly accelerating two spatially separated detectors through it. Our results show that when the inter-detector separation is much larger than the thermal wavelength of the Unruh thermal bath, the inter-detector interaction displays a completely new behavior, which, as compared with that of the inertial detectors, is surprisingly exclusively acceleration-dependent, signaling a new phase of the vacuum in which its imprint as seen by two inertial observers seems to be completely wiped out. Moreover, we demonstrate that the inter-detector interaction in the near region can be significantly enhanced by the accelerated motion in certain circumstances, and with two Rydberg atoms as the detectors, the acceleration required for an experimentally detectable enhancement of the interaction energy can be $10^5$ times smaller than that required for the detection of the Unruh effect.
翻訳日:2023-02-12 00:50:49 公開日:2022-09-26
# CONGESTネットワークにおける重み付き直径と半径の量子複雑性

Quantum Complexity of Weighted Diameter and Radius in CONGEST Networks ( http://arxiv.org/abs/2206.02767v2 )

ライセンス: Link先を確認
Xudong Wu and Penghui Yao(参考訳) 本稿では,量子集束モデルにおけるグラフの重み付き直径と半径を計算するラウンド複雑性について検討する。 1+o(1))$が直径と半径を近似し、ラウンド複雑性$\widetilde o\left(\min\left\{n^{9/10}d^{3/10},n\right\}\right)$となる量子アルゴリズムを提案する。 これは、古典的なCONGESTネットワークにおける直径と半径の近似の$(3/2-\varepsilon)$-approximationが$\widetilde\Omega(n)$ roundsであり、たとえ$D$が定数であるとしても [Abboud, Censor-Hillel, and Khoury, DISC '16] である。 また、下限の$\widetilde\omega(n^{2/3})$ for $(3/2-\varepsilon)$- 量子集束ネットワークにおける重み付き直径/ラディウスを近似する、たとえ$d=\theta(\log n)$であっても。 したがって、量子CONGESTネットワークでは、L Gall と Magniez の $\widetilde O\left(\sqrt{nD}\right)$-round algorithm for unweighted diameter/radius [PODC '18] により、小さな$D$のグラフの重み付き直径と重み付き半径の計算は、未重み付きよりも厳密に難しい。

This paper studies the round complexity of computing the weighted diameter and radius of a graph in the quantum CONGEST model. We present a quantum algorithm that $(1+o(1))$-approximates the diameter and radius with round complexity $\widetilde O\left(\min\left\{n^{9/10}D^{3/10},n\right\}\right)$, where $D$ denotes the unweighted diameter. This exhibits the advantages of quantum communication over classical communication since computing a $(3/2-\varepsilon)$-approximation of the diameter and radius in a classical CONGEST network takes $\widetilde\Omega(n)$ rounds, even if $D$ is constant [Abboud, Censor-Hillel, and Khoury, DISC '16]. We also prove a lower bound of $\widetilde\Omega(n^{2/3})$ for $(3/2-\varepsilon)$-approximating the weighted diameter/radius in quantum CONGEST networks, even if $D=\Theta(\log n)$. Thus, in quantum CONGEST networks, computing weighted diameter and weighted radius of graphs with small $D$ is strictly harder than unweighted ones due to Le Gall and Magniez's $\widetilde O\left(\sqrt{nD}\right)$-round algorithm for unweighted diameter/radius [PODC '18].
翻訳日:2023-02-10 09:23:04 公開日:2022-09-26
# 光超格子における原子トラップの電界における平面ロータの振動へのマッピング

Mapping atomic trapping in an optical superlattice onto the libration of a planar rotor in electric fields ( http://arxiv.org/abs/2208.02096v3 )

ライセンス: Link先を確認
Marjan Mirahmadi, Bretislav Friedrich, Burkhard Schmidt and Jes\'us P\'erez-R\'ios(参考訳) 光超格子(osl)における原子のトラップと、電場と光学場を組み合わせた平面剛性ロータの共役という2つの一見無関係な問題は、同型なハミルトニアンを持つことを示した。 空間周期が2つの因子によって異なる光学格子の干渉によって形成されるOSLは、ACスターク効果を介して原子翻訳に作用する周期ポテンシャルを生じる。 後者のシステムは、一般化平面振り子(英語版)(GPP)としても知られ、回転子の永久および誘導電気双極子モーメントと組み合わせた場との結合による相互作用の配向と整合を平面剛性ローターに与えることで実現される。 このマッピングは、2つの固有problemのために個別に開発された概念、例えば一方のローカライズと他方の向き/調整の間の対応を確立することができる。 さらに、GPP問題は条件付き準特殊解法(C-QES)であるため、OSLにおける原子トラップも可能である。 光超格子中の超低温原子を半有限-gap系として扱うために、対応式と準実解性の両方を利用する。 この系のバンド構造は、ウィテカー・ヒル方程式の解析解として、以前に GPP で得られた固有エネルギーとそれらの真で避けられた交差から従う。 これらの解は、光学超格子に閉じ込められた原子のスクイーズとトンネルの両方を特徴づけ、そのダイナミクスを解析形式で解き放つ道を開く。

We show that two seemingly unrelated problems - the trapping of an atom in an optical superlattice (OSL) and the libration of a planar rigid rotor in combined electric and optical fields - have isomorphic Hamiltonians. Formed by the interference of optical lattices whose spatial periods differ by a factor of two, OSL gives rise to a periodic potential that acts on atomic translation via the AC Stark effect. The latter system, also known as the generalized planar pendulum (GPP), is realized by subjecting a planar rigid rotor to combined orienting and aligning interactions due to the coupling of the rotor's permanent and induced electric dipole moments with the combined fields. The mapping makes it possible to establish correspondence between concepts developed for the two eigenproblems individually, such as localization on the one hand and orientation/alignment on the other. Moreover, since the GPP problem is conditionally quasi-exactly solvable (C-QES), so is atomic trapping in an OSL. We make use of both the correspondence and the quasi-exact solvability to treat ultracold atoms in an optical superlattice as a semifinite-gap system. The band structure of this system follows from the eigenenergies and their genuine and avoided crossings obtained previously for the GPP as analytic solutions of the Whittaker-Hill equation. These solutions characterize both the squeezing and the tunneling of atoms trapped in an optical superlattice and pave the way to unraveling their dynamics in analytic form.
翻訳日:2023-02-02 10:05:12 公開日:2022-09-26
# ノイズ量子計算の安定性の評価

Assessing the Stability of Noisy Quantum Computation ( http://arxiv.org/abs/2208.07219v2 )

ライセンス: Link先を確認
Samudra Dasgupta and Travis S. Humble(参考訳) 量子計算は過去10年で大きく進歩し、複数の新興技術がそのような計算の実証実験を提供している。 しかし、これらの実験的な量子計算の実証は、この技術の完全な実装から生じるノイズとエラーのために技術的課題に直面している。 本稿では,計算精度,結果再現性,デバイス信頼性,プログラム安定性の概念を量子計算の文脈で概観する。 これらの概念の直感的な定義を量子計算の文脈で提供し、プログラム出力の操作上有意義な境界へと導く。 本評価では,量子情報科学の分野への信頼を高めるために,量子コンピューティングプログラムの統計解析の継続の必要性を浮き彫りにする。

Quantum computation has made considerable progress in the last decade with multiple emerging technologies providing proof-of-principle experimental demonstrations of such calculations. However, these experimental demonstrations of quantum computation face technical challenges due to the noise and errors that arise from imperfect implementation of the technology. Here, we frame the concepts of computational accuracy, result reproducibility, device reliability and program stability in the context of quantum computation. We provide intuitive definitions for these concepts in the context of quantum computation that lead to operationally meaningful bounds on program output. Our assessment highlights the continuing need for statistical analyses of quantum computing program to increase our confidence in the burgeoning field of quantum information science.
翻訳日:2023-01-31 20:36:12 公開日:2022-09-26
# ホットバンドの音

Hot band sound ( http://arxiv.org/abs/2208.13767v2 )

ライセンス: Link先を確認
Vir B. Bulchandani and David A. Huse(参考訳) 高温のカオス格子モデルは、全局所保存電荷の拡散輸送を示すことが一般的に期待されている。 このような拡散輸送は通常、関連する電流を過度に緩和する。 ここでは, 粒子間相互作用を適切に調整することにより, 無限温度におけるカオスフェルミオンの格子モデルが, 拡散の過減衰状態から「ホットバンド音」の過減衰状態へと交差することを示す。 本研究では, 音波の減衰時間を, 有効相互作用強度が一定であっても任意に長くすることができる, 長距離密度-密度相互作用を有する一次元スピンレスフェルミオン鎖の族について検討する。 その結果, 電荷密度の低減衰音波は, 積分性から遠く, 非常に高温の単一帯域内で発生することがわかった。

Chaotic lattice models at high temperature are generically expected to exhibit diffusive transport of all local conserved charges. Such diffusive transport is usually associated with overdamped relaxation of the associated currents. Here we show that by appropriately tuning the inter-particle interactions, lattice models of chaotic fermions at infinite temperature can be made to cross over from an overdamped regime of diffusion to an underdamped regime of "hot band sound". We study a family of one-dimensional spinless fermion chains with long-range density-density interactions, in which the damping time of sound waves can be made arbitrarily long even as an effective interaction strength is held fixed. Our results demonstrate that underdamped sound waves of charge density can arise within a single band, far from integrability, and at very high temperature.
翻訳日:2023-01-28 14:34:14 公開日:2022-09-26
# シード法による非線形干渉計の強化

Enhanced nonlinear interferometry via seeding ( http://arxiv.org/abs/2209.06749v2 )

ライセンス: Link先を確認
Jefferson Fl\'orez, Emma Pearce, Nathan R. Gemmell, Yue Ma, Gabriele Bressanini, Chris C. Phillips, Rupert F. Oulton, Alex S. Clark(参考訳) 我々は、内部損失と非効率検出器の存在下で非線形干渉計(SU(1,1)干渉計)を解析する。 これらの制限を克服するために、干渉計入力モードの1つを数状態またはコヒーレント状態でシードする効果を検討する。 我々は, 干渉可視性, コントラスト, 位相感度, 信号対雑音比の分析式を導出し, シード光子数の関数としてこれらすべての量に有意な増強効果を示した。 例えば、かなりの損失と非常に非効率な検出器が存在する場合でも、数十個の光子をシードすることで、未シードの非線形干渉計と同じ量子制限位相感度を達成できると予測する。 さらに, 干渉計が低利得状態で動作する場合, 数とコヒーレント播種状態の差を観測せず, 減衰レーザーによる播種が可能となる。 現実的な実験条件下では, 量子イメージング, 気象学, 分光学の分野における非線形干渉計測能力が拡張される。

We analyse a nonlinear interferometer, also known as an SU(1,1) interferometer, in the presence of internal losses and inefficient detectors. To overcome these limitations, we consider the effect of seeding one of the interferometer input modes with either a number state or a coherent state. We derive analytical expressions for the interference visibility, contrast, phase sensitivity, and signal-to-noise ratio, and show a significant enhancement in all these quantities as a function of the seeding photon number. For example, we predict that, even in the presence of substantial losses and highly inefficient detectors, we can achieve the same quantum-limited phase sensitivity of an unseeded nonlinear interferometer by seeding with a few tens of photons. Furthermore, we observe no difference between a number or a coherent seeding state when the interferometer operates in the low-gain regime, which enables seeding with an attenuated laser. Our results expand the nonlinear interferometry capabilities in the field of quantum imaging, metrology, and spectroscopy under realistic experimental conditions.
翻訳日:2023-01-26 16:49:11 公開日:2022-09-26
# 空洞内圧縮光を用いた二重空洞光力学系における強い光子反束効果

Strong photon antibunching effect in a double cavity optomechanical system with intracavity squeezed light ( http://arxiv.org/abs/2209.07401v2 )

ライセンス: Link先を確認
M. Amazioug, M. Daoud, S. K. Singh and M. Asjad(参考訳) 二重キャビティ光力学系における2次相関関数の挙動を調べ,各キャビティに縮退光パラメトリック増幅器(opa)を配置した。 第1空洞は、弱古典レーザー場によってさらに駆動される。 これら2つの結合空洞における強い光子反束効果の発生を観察した。 光力学結合強度と光子ホッピング過程の適切な値を得るために、この系は非常に強い光子反束効果を示すことができる。 また,本研究は,強い結合状態においてのみ発生する従来の光子封鎖と比較して,弱い結合と強い結合状態の両方において,非慣習的な光子遮断が発生することを示した。 従来の光子遮断機構よりも、従来とは異なる光子遮断機構の下で非常に強い光子抑制効果が得られる。 本研究は、結合非線形光力学系における単一光子の生成にも利用できる。

We study the behaviour of the second-order correlation function in a double cavity optomechanical system and a degenerate optical parametric amplifier (OPA) is placed in each cavity. The first cavity is additionally driven by a weak classical laser field. The occurrence of strong photon antibunching effect in these two coupled cavities is observed. For suitable values of optomechanical coupling strength as well as photon hopping process, the system can exhibit a very strong photon antibunching effect. Our study also shows that the unconventional photon blockade occurs in both coupling, i.e. the weak coupling as well as in the strong coupling regimes as compared to the conventional photon blockade which occurs only in the strong coupling regime. We get a very strong photon antibunching effect under the unconventional photon blockade mechanism than the conventional photon blockade mechanism. Our study can be also used for the generation of single photon in coupled nonlinear optomechanical systems.
翻訳日:2023-01-26 12:08:27 公開日:2022-09-26
# 高次位相遷移の統一的特徴付け

Unified characterization for higher-order topological phase transitions ( http://arxiv.org/abs/2209.10394v2 )

ライセンス: Link先を確認
Wei Jia, Xin-Chi Zhou, Lin Zhang, Long Zhang, and Xiong-Jun Liu(参考訳) 高次トポロジカル相転移(HOTPTs)は、対称性を変えることなくバルクエネルギーギャップ(タイプI)または境界エネルギーギャップ(タイプII)を閉じることに関連している。 タイプIとタイプIIの遷移は通常別々に特徴づけられ、実験では区別が難しい。 本稿では,HOTPTを統一したトポロジカル・キャラクタリゼーションを提案し,クエンチ・ダイナミックスによる両タイプのトポロジカル・トランジションの正確な検出を可能にする。 高次の位相相に対しては、実空間境界上の質量領域の壁と運動量部分空間の特定の界面である高次のバンド反転面(BIS)との間の対応が示される。 位相相転移は、運動量空間の位相ノードが正射影の後に高次位相電荷と呼ばれるときに起こる。 特に、バルク(または境界)ギャップは、すべての(または一部の)トポロジカルチャージがBISを横断して、タイプI(またはタイプII)HOTPTを特徴付けるときに閉じる。 最後に,実験において制御によって駆動されるクエンチダイナミクスから,統一的なキャラクタリゼーションを容易に測定できることを示す。

Higher-order topological phase transitions (HOTPTs) are associated with closing either the bulk energy gap (type-I) or boundary energy gap (type-II) without changing symmetry. The type-I and type-II transitions are usually characterized separately and are hard to distinguish in experiments. Here we propose a unified topological characterization of the HOTPTs, which further enables a precise detection of the both types of topological transitions by quench dynamics. For a higher-order topological phase a correspondence is shown between the mass domain walls on real-space boundaries and the higher-order band-inversion surfaces (BISs) which are certain interfaces in the momentum subspace. The topological phase transitions occur when momentum-space topological nodes, dubbed higher-order topological charges, cross the higher-order BISs after proper projection. Particularly, the bulk (or boundary) gap closes when all (or part of) topological charges cross the BISs, characterizing the type-I (or type-II) HOTPTs. We finally show that our unified characterization can be easily measured from quench dynamics, which is driven with control in experiments.
翻訳日:2023-01-25 20:47:38 公開日:2022-09-26
# 一般時間依存型3重結合発振器の量子力学」へのコメント

Comment on "the quantum dynamics for general time-dependent three coupled oscillators" ( http://arxiv.org/abs/2209.11560v2 )

ライセンス: Link先を確認
Zerimeche Rahma, Mana Naima and Maamache Mustapha(参考訳) 最近の論文では、hassoul et al。 [1] 著者らは、一般時間依存型3重結合振動子に対する量子力学の解析を、ユニタリ変換法を用いて、その分離に基づくアプローチにより提案した。 したがって、変換ハミルトニアンを対角化するために、オイラー角でパラメータ化された3次元回転に対応する新しいユニタリ作用素を導入する。 この手順を通じて、hassoulらはal。 [1])結合振動子サブシステムは完全に分離されている。 この最後のアプローチは一部間違っています。 本稿では,提案手法が正しくないことを示すとともに,真に誤りの背後にあるものを説明する。 また,満足な結果が得られるような代替手法に関する簡単な議論も提案する。

In a recent paper, Hassoul et al.[1], the authors proposed an analysis of the quantum dynamics for general time-dependent three coupled oscillators through an approach based on their decouplement using the unitary transformation method. Thus, to diagonalize the transformed Hamiltonian, they introduce a new unitary operator corresponding to a three-dimensional rotation parameterized by Euler angles. Through this procedure, Hassoul et al. [1] claim that the coupled oscillatory subsystems are completely decoupled. This last approach is partly wrong. In this brief note, we show that their method is indeed not correct and we try to explain what truly lies behind their mistakes. We also propose a brief discussion on an alternative method that might achieve satisfactory results.
翻訳日:2023-01-25 10:14:40 公開日:2022-09-26
# 局所誤差補正による位相秩序検出の促進

Enhancing Detection of Topological Order by Local Error Correction ( http://arxiv.org/abs/2209.12428v1 )

ライセンス: Link先を確認
Iris Cong, Nishad Maskara, Minh C. Tran, Hannes Pichler, Giulia Semeghini, Susanne F. Yelin, Soonwon Choi, Mikhail D. Lukin(参考訳) 物質の位相秩序状態の探索は、物理科学のいくつかのサブフィールドのインターフェイスにおける長年の目標である。 このような状態は、長距離の絡み合い、創発ゲージ場、非局所相関などの物理的性質を特徴とし、スケーラブルなフォールトトレラント量子計算の実現に役立つ。 しかし、これら同じ特徴は位相的に順序付けられた状態の生成、検出、キャラクタリゼーションを特に困難にする。 近年の実証実験に動機づけられ,誤差補正法と再正規化群フローの考え方を組み合わせることにより,局所的誤り補正装飾(led)を定量化する新しい手法を提案する。 提案手法は, トポロジカルな順序の同定を効率的かつ堅牢に行うことができ, 不整合ノイズ源の存在下で適用でき, 現実的な実験に特に適している。 様々な摂動下でのトーリック符号の数値シミュレーションを用いてLEDのパワーを実証し,Rydberg-atom量子シミュレータを用いて量子スピン液体を実験的に実現した。 物質の他のエキゾチックな状態の特徴づけの拡張について論じる。

The exploration of topologically-ordered states of matter is a long-standing goal at the interface of several subfields of the physical sciences. Such states feature intriguing physical properties such as long-range entanglement, emergent gauge fields and non-local correlations, and can aid in realization of scalable fault-tolerant quantum computation. However, these same features also make creation, detection, and characterization of topologically-ordered states particularly challenging. Motivated by recent experimental demonstrations, we introduce a new approach for quantifying topological states -- locally error-corrected decoration (LED) -- by combining methods of error correction with ideas of renormalization-group flow. Our approach allows for efficient and robust identification of topological order, and is applicable in the presence of incoherent noise sources, making it particularly suitable for realistic experiments. We demonstrate the power of LED using numerical simulations of the toric code under a variety of perturbations, and we subsequently apply it to an experimental realization of a quantum spin liquid using a Rydberg-atom quantum simulator. Extensions to the characterization of other exotic states of matter are discussed.
翻訳日:2023-01-25 03:17:19 公開日:2022-09-26
# スピン緩和によるアルカリ金属原子の光学的保護

Optical protection of alkali-metal atoms from spin relaxation ( http://arxiv.org/abs/2209.12360v1 )

ライセンス: Link先を確認
Avraham Berrebi, Mark Dikopoltsev, Ori Katz, Or Katz(参考訳) 本稿では,アルカリ金属原子を単一共振光ビームを用いてスピン緩和から継続的に保護する機構について述べる。 我々は、状態選択的光シフトが2つの超微細構造のラーモア周波数を同期できることを実験的に証明し、それによって一意なデコヒーレンスフリー部分空間を形成する。 セシウム原子のスピン脱コヒーレンスを極大に抑制し, ランダムなスピン交換衝突から同時に保護し, 弱い脱分極壁との相互作用によってスピン緩和を防ぐ。 さらに,磁気状態の品質因子の桁違いな改善について報告する。 本研究は, 原子や分子の多レベル構造を, アクセス可能な光学ツールで利用し, 有用なデコヒーレンスフリー部分空間を設計できることを実証する。

We describe a new mechanism to continuously protect alkali-metal atoms from spin relaxation using a single off-resonant optical beam. We experimentally demonstrate that state-selective light-shifts can synchronize the Larmor frequencies of the two hyperfine manifolds, and by that form a unique decoherence-free subspace. We report an order of magnitude suppression of the spin decoherence for cesium atoms, simultaneously protecting from random spin-exchange collisions and partially also from spin-relaxation by the interaction with weakly-depolarizing walls. We further report an order of magnitude improvement of the quality factor of the magnetic states. Our results demonstrate the ability to use the multi-level structure of atoms or molecules with accessible optical tools to engineer useful decoherence-free subspaces.
翻訳日:2023-01-25 03:16:36 公開日:2022-09-26
# 超伝導回路における非アベリア系の量子幾何テンソルの測定

Measuring quantum geometric tensor of non-Abelian system in superconducting circuits ( http://arxiv.org/abs/2209.12359v1 )

ライセンス: Link先を確認
Wen Zheng, Jianwen Xu, Zhuang Ma, Yong Li, Yuqian Dong, Yu Zhang, Xiaohan Wang, Guozhu Sun, Peiheng Wu, Jie Zhao, Shaoxiong Li, Dong Lan, Xinsheng Tan, and Yang Yu(参考訳) 過去数十年間、トポロジーは物理学研究において重要な役割を果たした。 特に、位相特性に関する局所的な情報を提供する量子幾何テンソルが注目されている。 実際には実現されていない非可換系における興味深い位相的性質を明らかにする。 ここでは超伝導回路において4量子ビット量子系を用いてパラメトリック変調を持つ縮退ハミルトニアンを構成する。 周期的な駆動でハミルトニアンを操作することで、ベルネヴィグ・ヒューズ・ジャング模型をシミュレートし、干渉振動から量子幾何学的テンソルを得る。 さらに,このトポロジ的不変性を抽出し,非アベリア系の量子シミュレーションに有効なプロトコルを実証することにより,そのトポロジ的特徴を明らかにする。

Topology played an important role in physics research during the last few decades. In particular, the quantum geometric tensor that provides local information about topological properties has attracted much attention. It will reveal interesting topological properties in non-Abelian systems, which have not been realized in practice. Here, we use a four-qubit quantum system in superconducting circuits to construct a degenerate Hamiltonian with parametric modulation. By manipulating the Hamiltonian with periodic drivings, we simulate the Bernevig-Hughes-Zhang model and obtain the quantum geometric tensor from interference oscillation. In addition, we reveal its topological feature by extracting the topological invariant, demonstrating an effective protocol for quantum simulation of a non-Abelian system.
翻訳日:2023-01-25 03:16:20 公開日:2022-09-26
# $\theta$ vacua の格子正規化:異常と量子ビットモデル

Lattice regularizations of $\theta$ vacua: Anomalies and qubit models ( http://arxiv.org/abs/2209.12630v1 )

ライセンス: Link先を確認
Mendel Nguyen, Hersh Singh(参考訳) 異常は量子場理論の格子正則化に関する洞察を得るための強力な方法である。 この研究において、与えられた対称性に対する連続体異常は、同じ時空次元における明らかな対称性、局所的、格子正規化によって一致することができると論じる。 一 対称性の作用が外れていること、又は (ii) 連続体異常が格子上で正確に再現されている場合。 1+1)次元の漸近的にフリーなグラスマン非線形シグマモデル (nlsms) は$\theta$項を持つ。 グラスマン nlsms をケーススタディとして使用し, 両可能性が実現される格子正規化の例を示す。 可能性 i) グラスマン NLSMs は、よく定義された連続極限を持つ $\mathrm{SU}(N)$ 反強磁性体から得ることができ、$\theta$ vacua の赤外物理学と漸近自由の紫外物理学の両方を再現することができる。 これらの結果は、量子場理論の格子モンテカルロ研究への新しい古典的アルゴリズムの適用を可能にし、量子シミュレーションに適した実行可能な実現を可能にする。 一方、Berberg と L\"uscher による$\theta$ vacua の従来の格子正規化は格子上の異常を正確に再現し、2番目の可能性を実現する。

Anomalies are a powerful way to gain insight into possible lattice regularizations of a quantum field theory. In this work, we argue that the continuum anomaly for a given symmetry can be matched by a manifestly-symmetric, local, lattice regularization in the same spacetime dimensionality only if (i) the symmetry action is offsite, or (ii) if the continuum anomaly is reproduced exactly on the lattice. We consider lattice regularizations of a class of prototype models of QCD: the (1+1)-dimensional asymptotically-free Grassmannian nonlinear sigma models (NLSMs) with a $\theta$ term. Using the Grassmannian NLSMs as a case study, we provide examples of lattice regularizations in which both possibilities are realized. For possibility (i), we argue that Grassmannian NLSMs can be obtained from $\mathrm{SU}(N)$ antiferromagnets with a well-defined continuum limit, reproducing both the infrared physics of $\theta$ vacua and the ultraviolet physics of asymptotic freedom. These results enable the application of new classical algorithms to lattice Monte Carlo studies of these quantum field theories, and provide a viable realization suited for their quantum simulation. On the other hand, we show that, perhaps surprisingly, the conventional lattice regularization of $\theta$ vacua due to Berg and L\"uscher reproduces the anomaly exactly on the lattice, providing a realization of the second possibility.
翻訳日:2023-01-25 03:13:12 公開日:2022-09-26
# 運動量空間における離散時間量子ウォークに対するパロンドのパラドックス

Parrondo's paradox for discrete-time quantum walks in momentum space ( http://arxiv.org/abs/2209.12622v1 )

ライセンス: Link先を確認
Georg Trautmann, Caspar Groiseau, Sandro Wimberger(参考訳) 確率分布が全体の正の勝利確率を与える量子ウォークの列を実装する可能性を検討するが、これは単一のウォークに対して負である(Parrondoのパラドックス)。 特に、ウォーカー空間が運動量空間であるボース=アインシュタイン凝縮体を用いた実験的実現を念頭に置いている。 離散時間量子ウォークにおけるコイン操作の正確な実装に関する実験的な問題を詳細に分析する。 コンデンサの有限運動量幅から生じる摂動とともに, コインの時間依存性の位相変動について検討した。 歩行の数百ステップまでの実験で利用可能な時間スケールに対するparrondoのパラドックスの可視性を確認した。

We investigate the possibility of implementing a sequence of quantum walks whose probability distributions give an overall positive winning probability, while it is negative for the single walks (Parrondo's paradox). In particular, we have in mind an experimental realisation with a Bose-Einstein condensate in which the walker's space is momentum space. Experimental problems in the precise implementation of the coin operations for our discrete-time quantum walks are analysed in detail. We study time-dependent phase fluctuations of the coins as well as perturbations arising from the finite momentum width of the condensate. We confirm the visibility of Parrondo's paradox for experimentally available time scales of up to a few hundred steps of the walk.
翻訳日:2023-01-25 03:12:43 公開日:2022-09-26
# 準周期駆動電位におけるトンクスガスの動的多体脱局在遷移

Dynamical many-body delocalization transition of a Tonks gas in a quasi-periodic driving potential ( http://arxiv.org/abs/2209.12510v1 )

ライセンス: Link先を確認
Vincent Vuatelet, Adam Ran\c{c}on(参考訳) 量子キックローターは動的(アンダーソン)なロータライゼーションを示すことでよく知られている。 最近、定期的に蹴られたトンクスガスが常に局所化し、有限エネルギー定常状態に収束することが示されている。 この定常状態は、キックのパラメータに依存する有効温度で効果的に熱的であると説明されてきた。 本研究では、金属-絶縁体アンダーソン遷移を持つ3つの周波数を持つ準周期駆動への一般化について検討する。 準周期的に蹴られたトンクスガスは、キック強度が増大すると動的多体非局在化遷移を経ることを示す。 局所化相は依然として低有効温度で記述され、非局在化相は無限温度相に対応し、温度は線形に上昇する。 臨界点において、トンクスガスの運動量分布は、局所化の1パラメータスケーリング理論の崩壊を示唆する(非相互作用の場合と異なる)小さなモータにおいて異なるスケーリングを示す。

The quantum kicked rotor is well-known for displaying dynamical (Anderson) localization. It has recently been shown that a periodically kicked Tonks gas will always localize and converge to a finite energy steady-state. This steady-state has been described as being effectively thermal with an effective temperature that depends on the parameters of the kick. Here we study a generalization to a quasi-periodic driving with three frequencies which, without interactions, has a metal-insulator Anderson transition. We show that a quasi-periodically kicked Tonks gas goes through a dynamical many-body delocalization transition when the kick strength is increased. The localized phase is still described by a low effective temperature, while the delocalized phase corresponds to an infinite-temperature phase, with the temperature increasing linearly in time. At the critical point, the momentum distribution of the Tonks gas displays different scaling at small and large momenta (contrary to the non-interacting case), signaling a breakdown of the one-parameter scaling theory of localization.
翻訳日:2023-01-25 03:11:32 公開日:2022-09-26
# 大きなスピンとの繰り返し相互作用による単一量子電池の量子強化

Quantum enhancement of a single quantum battery by repeated interactions with large spins ( http://arxiv.org/abs/2209.12498v1 )

ライセンス: Link先を確認
P. Chen, T. S. Yin, Z. Q. Jiang, and G. R. Jin(参考訳) 原子の集合演算子を採用し、電池を一様エネルギーラグでモデル化する多原子大スピンとの繰り返し相互作用により、単一量子電池をコヒーレントに充電する一般衝突モデルを開発した。 最初の空電池については、平均励起数と短時間の充電電力の分析結果から導出する。 解析の結果, 原子の相コヒーレンスから, 高速帯電とコヒーレントプロトコルのパワーの増大が一意に生じることが明らかとなった。 最後に、いわゆるエルゴトロピーによって定義される充電パワーは、短時間のバッテリのほぼ純粋な状態のため、我々の分析結果にほぼ従っていることを示します。

A generalized collision model is developed to investigate coherent charging a single quantum battery by repeated interactions with many-atom large spins, where collective atom operators are adopted and the battery is modeled by a uniform energy ladder. For an initially empty battery, we derive analytical results of the average number of excitations and hence the charging power in the short-time limit. Our analytical results show that a faster charging and an increased amount of the power in the coherent protocol uniquely arise from the phase coherence of the atoms. Finally, we show that the charging power defined by the so-called ergotropy almost follows our analytical result, due to a nearly pure state of the battery in the short-time limit.
翻訳日:2023-01-25 03:10:58 公開日:2022-09-26
# 新しい相転移のクラスとしての自然対称性の出現

Spontaneous symmetry emergence as a source of new class of phase transitions ( http://arxiv.org/abs/2209.12497v1 )

ライセンス: Link先を確認
T. T. Sergeev, E. S. Andrianov, A. A. Zyablovsky(参考訳) 対称性を持つ系の自発的対称性の破れは、2階相転移を伴うコアストーン現象である。 ここでは,非対称系における自発的対称性の出現という逆現象を予測する。 周波数が有限周波数範囲を均一に満たす振動子の集合と非対称に相互作用する2つの結合振動子の例において、系状態がハミルトニアン系に固有の対称性を得ることができることを示す。 対称性の出現は系動力学の変化に現れ、これは新しい相転移のクラスとして解釈できる。

Spontaneous symmetry breaking in systems with symmetry is core-stone phenomenon accompanying second-order phase transitions. Here, we predict an opposite phenomenon, namely, spontaneous symmetry emergence in a system without symmetry. On the example of two coupled oscillators interacting non-symmetrically with a set of oscillators whose frequencies uniformly fill a finite frequency range, we demonstrate that the system state can acquire symmetry, which is not inherent to the system Hamiltonian. The symmetry emergence manifests in the change of the system dynamics, which can be interpreted as a new class of phase transitions.
翻訳日:2023-01-25 03:10:46 公開日:2022-09-26
# 量子インスパイアアルゴリズムのエクストリームラーニングへの応用

Quantum-inspired algorithm applied to extreme learning ( http://arxiv.org/abs/2209.12452v1 )

ライセンス: Link先を確認
Iori Takeda, Souichi Takahira, Kosuke Mitarai, Keisuke Fujii(参考訳) SVD(Quantum-inspired singular value decomposition)は、セグメントツリーデータ構造に埋め込まれた行列へのアクセスを前提として、行列の次元に関する対数時間でSVDを実行する技術である。 スピードアップは、行列要素のノルムに従って効率的なサンプリングによって可能となる。 本稿では,ランダムニューラルネットワークによって生成されたランダム特徴ベクトルを用いて線形回帰を行う機械学習フレームワークであるextreme learningに適用する。 極端な学習は、量子インスパイアされたsvdの応用に適しており、まず各データをランダムな特徴に変換し、データ数に関して対数的なオーバーヘッドを持つデータ構造を構築する必要がある。 提案アルゴリズムは,高次元特徴ベクトルを用いた場合,精度の高いSVDよりも高速に動作することを示す。 しかし,ランダムニューラルネットワークが生成するランダムな特徴に対して,量子インスパイアされたアルゴリズムのノルムベースサンプリングを一様サンプリングで置き換えることで,行列の均一性によって同じレベルのテスト精度が得られることを観測した。 ノルムに基づくサンプリングは、特徴写像を最適化したより一様でない行列に対して有効である。 これは行列要素の非一様性が量子に着想を得たSVDの重要な性質であることを意味する。 この研究は量子インスパイアされたアルゴリズムの実用化に向けた第一歩である。

Quantum-inspired singular value decomposition (SVD) is a technique to perform SVD in logarithmic time with respect to the dimension of a matrix, given access to the matrix embedded in a segment-tree data structure. The speedup is possible through the efficient sampling of matrix elements according to their norms. Here, we apply it to extreme learning which is a machine learning framework that performs linear regression using random feature vectors generated through a random neural network. The extreme learning is suited for the application of quantum-inspired SVD in that it first requires transforming each data to a random feature during which we can construct the data structure with a logarithmic overhead with respect to the number of data. We implement the algorithm and observe that it works order-of-magnitude faster than the exact SVD when we use high-dimensional feature vectors. However, we also observe that, for random features generated by random neural networks, we can replace the norm-based sampling in the quantum-inspired algorithm with uniform sampling to obtain the same level of test accuracy due to the uniformity of the matrix in this case. The norm-based sampling becomes effective for more non-uniform matrices obtained by optimizing the feature mapping. It implies the non-uniformity of matrix elements is a key property of the quantum-inspired SVD. This work is a first step toward the practical application of the quantum-inspired algorithm.
翻訳日:2023-01-25 03:10:36 公開日:2022-09-26
# トリパーティイト非局所性を用いたデバイス非依存暗号の高速化

Boosting device-independent cryptography with tripartite nonlocality ( http://arxiv.org/abs/2209.12828v1 )

ライセンス: Link先を確認
Federico Grasselli, Gl\'aucia Murta, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) DI会議鍵契約(DICKA)やDIランダムネス拡張(DIRE)のようなデバイス非依存(DI)プロトコルは、2つ以上のパーティがベルの不等式をテストすると、非局所的相関を観察することによってプライベートランダム性を検証する。 ほとんどのdiプロトコルは2部ベルテストに制限されているが、複数部非局所相関を利用するとパフォーマンスが向上する可能性がある。 本稿では,マルチパーティライトベルの不等式,特にMermin-Ardehali-Belinskii-Klyshkoの不等式,HolzとParity-CHSHの不等式をテストしたDICKAとDIREプロトコルについて考察する。 ディッカプロトコル(dire)の漸近的性能を会議鍵率(ネット乱数生成率)を用いて評価し、一方の当事者の結果の条件付きフォン・ノイマンエントロピーと2つの当事者の成果を導出することで評価した。 ホルツの不等式に対しては、一元エントロピー上の強固な解析的下界を証明し、二元エントロピー上の強固な下界を予想する。 さらに,mabk不等式に対する解析的一元エントロピーをより簡単な方法で再導出し,パリティ・chsh不等式に対する二元エントロピーの数値下界を得る。 シミュレーションの結果,DICKAとDIREプロトコルの3部構成のベル不等式は両部構成よりも優れていた。 さらに,DICKAの必要性は疑問視されているものの,真の多部絡み合いは多部DIREの前提条件ではないことが確認された。

Device-independent (DI) protocols, such as DI conference key agreement (DICKA) and DI randomness expansion (DIRE), certify private randomness by observing nonlocal correlations when two or more parties test a Bell inequality. While most DI protocols are restricted to bipartite Bell tests, harnessing multipartite nonlocal correlations may lead to better performance. Here, we consider tripartite DICKA and DIRE protocols based on testing multipartite Bell inequalities, specifically: the Mermin-Ardehali-Belinskii-Klyshko (MABK) inequality, and the Holz and the Parity-CHSH inequalities introduced in the context of DICKA protocols. We evaluate the asymptotic performance of the DICKA (DIRE) protocols in terms of their conference key rate (net randomness generation rate), by deriving lower bounds on the conditional von Neumann entropy of one party's outcome and two parties' outcomes. For the Holz inequality, we prove a tight analytical lower bound on the one-outcome entropy and conjecture a tight lower bound on the two-outcome entropy. We additionally re-derive the analytical one-outcome entropy bound for the MABK inequality with a much simpler method and obtain a numerical lower bound on the two-outcome entropy for the Parity-CHSH inequality. Our simulations show that DICKA and DIRE protocols employing tripartite Bell inequalities can significantly outperform their bipartite counterparts. Moreover, we establish that genuine multipartite entanglement is not a precondition for multipartite DIRE while its necessity for DICKA remains an open question.
翻訳日:2023-01-25 03:04:33 公開日:2022-09-26
# 量子ウォークにおける位相位相への相対ホモトピー的アプローチ

Relative homotopy approach to topological phases in quantum walks ( http://arxiv.org/abs/2209.12820v1 )

ライセンス: Link先を確認
Andrzej Grudka, Marcin Karczewski, Pawel Kurzynski, Jan Wojcik, and Antoni Wojcik(参考訳) 離散時間量子ウォーク(DTQW)は、非相互作用系における多くの位相位相を実現するための便利なプラットフォームを提供する。 静的ハミルトニアンを持つシステムよりも多くの可能性を提供する。 それでも研究者は、位相位相を保護するDTQW対称性と適切な位相不変量の定義を求めている。 この話題に関するDTQW研究の大半は、いわゆるスプリットステップ量子ウォークに焦点を当てているが、より基本的なモデルでは、2つの異なる位相位相が観察できる。 ここでは、ブリュアンゾーンからブロッホハミルトニアンへの写像から直接基本的なdtqwsの位相的性質を推測する。 翻訳対称系では、特殊点に対するホモトピーによって特徴付けられることを示す。 また、この概念に対応する新しい位相不変量を提案する。 この不変量は、2つの異なる位相間の界面におけるエッジ状態の数を示す。

Discrete-time quantum walks (DTQWs) provide a convenient platform for a realisation of many topological phases in noninteracting systems. They often offer more possibilities than systems with a static Hamiltonian. Nevertheless, researchers are still looking for DTQW symmetries protecting topological phases and for definitions of appropriate topological invariants. Although majority of DTQW studies on this topic focus on the so called split-step quantum walk, two distinct topological phases can be observed in more basic models. Here we infer topological properties of the basic DTQWs directly from the mapping of the Brillouin zone to the Bloch Hamiltonian. We show that for translation symmetric systems they can be characterized by a homotopy relative to special points. We also propose a new topological invariant corresponding to this concept. This invariant indicates the number of edge states at the interface between two distinct phases.
翻訳日:2023-01-25 03:03:59 公開日:2022-09-26
# 変量量子固有解器の性能に及ぼす雑音の影響評価

Evaluating the impact of noise on the performance of the Variational Quantum Eigensolver ( http://arxiv.org/abs/2209.12803v1 )

ライセンス: Link先を確認
Marita Oliv, Andrea Matic, Thomas Messerer, Jeanette Miriam Lorenz(参考訳) 量子コンピュータは化学シミュレーションに非常に有益であり、精度と速度を大幅に改善することが期待されている。 NISQデバイス上での化学シミュレーションの最も顕著なアルゴリズムは変分量子固有解法(VQE)である。 パラメトリズド量子回路に基づくハミルトンの基底状態エネルギーを計算するハイブリッド量子古典アルゴリズムであり、古典的な最適化器を用いて最適なパラメータ値を求める。 しかし、量子ハードウェアはノイズの影響を受けており、VQEアルゴリズムの性能をどの程度劣化させるかを理解する必要がある。 本稿では,水素分子の例に対するノイズの影響について検討する。 まず,一連の最適化器のVQE性能を比較し,NFTが最適であることを示す。 次に, その強度を体系的に増すことにより, 異なる音源の効果を定量化する。 ノイズ強度はibm qの超伝導デバイスと共通する値を中心に変化し、曲線フィッティングは得られたエネルギー値と雑音の大きさの関係をモデル化するために用いられる。 回路内のノイズの量は、その構造に大きく依存するため、ハードウェア効率と化学に着想を得たものの両方を含む、異なるアンサーゼの研究を行う。

Quantum computers are expected to be highly beneficial for chemistry simulations, promising significant improvements in accuracy and speed. The most prominent algorithm for chemistry simulations on NISQ devices is the Variational Quantum Eigensolver (VQE). It is a hybrid quantum-classical algorithm which calculates the ground state energy of a Hamiltonian based on parametrized quantum circuits, while a classical optimizer is used to find optimal parameter values. However, quantum hardware is affected by noise, and it needs to be understood to which extent it can degrade the performance of the VQE algorithm. In this paper, we study the impact of noise on the example of the hydrogen molecule. First, we compare the VQE performance for a set of various optimizers, from which we find NFT to be the most suitable one. Next, we quantify the effect of different noise sources by systematically increasing their strength. The noise intensity is varied around values common to superconducting devices of IBM Q, and curve fitting is used to model the relationship between the obtained energy values and the noise magnitude. Since the amount of noise in a circuit highly depends on its architecture, we perform our studies for different ansatzes, including both hardware-efficient and chemistry-inspired ones.
翻訳日:2023-01-25 03:03:48 公開日:2022-09-26
# CEPCにおけるヒッグス物理研究における量子機械学習の適用

Application of Quantum Machine Learning in a Higgs Physics Study at the CEPC ( http://arxiv.org/abs/2209.12788v1 )

ライセンス: Link先を確認
Abdualazem Fadol, Qiyu Sha, Yaquan Fang, Zhan Li, Sitian Qian, Yuyang Xiao, Yu Zhang, Chen Zhou(参考訳) 機械学習はここ数十年で花を咲かせ、多くの分野で必須となっている。 粒子物理学では、粒子再構成や事象分類など、いくつかの問題を著しく解決した。 しかし、量子コンピューティングによる従来の機械学習の限界を打破する時が来た。 量子カーネル推定器(QSVM-Kernel)を用いたサポートベクトルマシンアルゴリズムは、高次元量子状態空間を利用して背景からの信号を特定する。 本研究では、この量子機械学習アルゴリズムを用いて、中国の科学者によって提案されたヒッグス工場であるCircular Electron-Positron Collider (CEPC)で、$e^{+}e^{-} \rightarrow ZH$プロセスを研究する。 量子コンピュータシミュレータの6量子ビットを用いて、QSVM-Kernelアルゴリズムを最適化し、古典的なサポートベクトルマシンアルゴリズムと同様の分類性能を得た。 また,IBM と Origin Quantum (中国の量子技術企業) の量子コンピュータハードウェア上での6量子ビットを用いた QSVM-Kernel アルゴリズムの検証を行った。 我々の研究は、大規模な実験データに依存する基礎科学の分野である粒子物理学に最先端の量子コンピューティング技術を適用する数少ない例の1つである。

Machine learning has blossomed in recent decades and has become essential in many fields. It significantly solved some problems for particle physics -- particle reconstruction, event classification, etc. However, it is now time to break the limitation of conventional machine learning with quantum computing. A support-vector machine algorithm with a quantum kernel estimator (QSVM-Kernel) leverages high-dimensional quantum state space to identify a signal from backgrounds. In this study, we have employed this quantum machine learning algorithm to study the $e^{+}e^{-} \rightarrow ZH$ process at the Circular Electron-Positron Collider (CEPC), a Higgs factory proposed by Chinese scientists. Using 6-qubits on quantum computer simulators, we have optimized the QSVM-Kernel algorithm and obtained a similar classification performance to the classical support-vector machine algorithm. We have also validated the QSVM-Kernel algorithm using 6-qubits on quantum computer hardware from both IBM and Origin Quantum (a quantum technology company in China), where the classification performance is approaching noiseless quantum computer simulators. Our study is one of the few examples that apply state-of-the-art quantum computing technologies to particle physics, a branch of fundamental science that relies on big experimental data.
翻訳日:2023-01-25 03:03:29 公開日:2022-09-26
# 4H-SiCにおける単一浅いシリコン空孔中心のキャラクタリゼーション

Characterization of single shallow silicon-vacancy centers in 4H-SiC ( http://arxiv.org/abs/2209.12722v1 )

ライセンス: Link先を確認
Harpreet Singh, Mario Alex Hollberg, Misagh Ghezellou, Jawad Ul-Hassan, Florian Kaiser and Dieter Suter(参考訳) 浅い負電荷のシリコン空洞中心は、磁気量子センシングやその他の量子応用に応用されている。 表面付近(100nm)の空隙中心はスピン緩和率と光スピン偏光率が異なるため、光学的に検出された磁気共鳴(odmr)信号に影響を及ぼす。 そのため、これらの中心を特徴付けることが不可欠である。 ここでは、そのような中心の関連するスピン特性を示す。 odmr は最大 4% のコントラストを有しており、これは最先端技術よりも優れており、ゼロフィールドの分割や、ほとんどのセンシングアプリケーションに関連するデファスレート t2* の決定を可能にした。 また、信号が単一中心から発生したことを検証し、異なる電子状態間の遷移率を抽出するために強度相関データも提示する。

Shallow negatively charged silicon-vacancy centers have applications in magnetic quantum sensing and other quantum applications. Vacancy centers near the surface (within 100 nm) have different spin relaxation rates and optical spin polarization, affecting the optically detected magnetic resonance (ODMR) signal. This makes it essential to characterize these centers. Here we present the relevant spin properties of such centers. ODMR with a contrast of up to 4%, which is better than the state of the art, allowed us to determine the zero-field splitting as well as the dephasing rate T2*, which is relevant for most sensing applications. We also present intensity-correlation data to verify that the signal originates from a single center and to extract transition rates between different electronic states.
翻訳日:2023-01-25 03:02:42 公開日:2022-09-26
# 変動する真空電磁界に結合した2レベル原子の加速特性の推定精度

Estimation precision of the acceleration for a two-level atom coupled to fluctuating vacuum electromagnetic fields ( http://arxiv.org/abs/2209.12690v1 )

ライセンス: Link先を確認
Mengge Zheng, Baoyuan Yang, Zixu Zhao(参考訳) オープン量子システムでは、ミンコフスキー真空中の変動する電磁場に結合した一様加速2レベル原子の加速度の量子フィッシャー情報を調べる。 時間発展により、初期原子状態パラメータ $\theta\neq\pi$ に対して、量子フィッシャー情報は安定値に到達する前に最大値と局所最小値が存在することができる。 さらに、短時間で量子フィッシャー情報は初期状態パラメータによって異なり、量子フィッシャー情報は$\theta=0$で最大値を取ることができる。 量子フィッシャー情報は、ある瞬間に2つのピーク値が存在するかもしれない。 これらの機能は、マスレススカラーフィールドのケースとは異なる。 時間の進化とともに、$F_{max}$は最初に増加し、次に減少し、最後に同じ値に達する。 しかし、$f_{max}$は質量を持たないスカラーフィールドの場合、安定した最大値に達する。 真空ゆらぎ電磁界に対する原子の応答は質量のないスカラー磁場の場合とは異なるが、量子フィッシャー情報は最終的に安定値に達する。

In open quantum systems, we study the quantum Fisher information of acceleration for a uniformly accelerated two-level atom coupled to fluctuating electromagnetic fields in the Minkowski vacuum. With the time evolution, for the initial atom state parameter $\theta\neq\pi$, the quantum Fisher information can exist a maximum value and a local minimum value before reaching a stable value. In addition, in a short time, the quantum Fisher information varies with the initial state parameter, and the quantum Fisher information can take a maximum value at $\theta=0$. The quantum Fisher information may exist two peak values at a certain moment. These features are different from the massless scalar fields case. With the time evolution, $F_{max}$ firstly increases, then decreases, and finally, reaches the same value. However, $F_{max}$ will arrive at a stable maximum value for the case of the massless scalar fields. Although the atom response to the vacuum fluctuation electromagnetic fields is different from the case of massless scalar fields, the quantum Fisher information eventually reaches a stable value.
翻訳日:2023-01-25 03:02:28 公開日:2022-09-26
# 変調光学における重力エンタングルメントの増強

Enhanced Gravitational Entanglement in Modulated Optomechanics ( http://arxiv.org/abs/2209.12656v1 )

ライセンス: Link先を確認
A. Douglas K. Plato, Dennis R\"atzel, Chuanqi Wan(参考訳) 与えられた相互作用の非古典性を決定する上での絡み合いの役割は、ここ数年で大きな注目を集めている。 特に、重力場の量子的性質をテストするための新しい実験的提案の基礎として。 以上の結果から, 光学結合の変調により, 2つの分離した光学機械系間の重力による絡み合いが著しく増加することが示された。 これは、低質量の高周波システム(量子状態に到達するのに便利)では最もよく発音され、数桁の改善や測定窓の拡大につながる可能性がある。 しかし、大きな障害が残っている。 特に,変調は絡み合いの改善と同じ速度でデコヒーレンス効果を増大させることがわかった。 これは、ノイズの制約(位置 d.o.f に作用する)が環境の粒子の質量、分離、温度にのみ依存し、新しい量子制御によって改善できないという証拠を増大させる。 最後に,量子相関の観測とクレーア・ラオ境界による測定精度の限界との密接な関係を強調する。 即ち、重力場の重畳を探索すると、検出器の感度と絡み合いの検証に類似した要求が生じる。

The role of entanglement in determining the non-classicality of a given interaction has gained significant traction over the last few years. In particular, as the basis for new experimental proposals to test the quantum nature of the gravitational field. Here we show that the rate of gravity mediated entanglement between two otherwise isolated optomechanical systems can be significantly increased by modulating the optomechanical coupling. This is most pronounced for low mass, high frequency systems - convenient for reaching the quantum regime - and can lead to improvements of several orders of magnitude, as well as a broadening of the measurement window. Nevertheless, significant obstacles still remain. In particular, we find that modulations increase decoherence effects at the same rate as the entanglement improvements. This adds to the growing evidence that the constraint on noise (acting on the position d.o.f) depends only on the particle mass, separation, and temperature of the environment and cannot be improved by novel quantum control. Finally, we highlight the close connection between the observation of quantum correlations and the limits of measurement precision derived via the Cram\'er-Rao Bound. An immediate consequence is that probing superpositions of the gravitational field places similar demands on detector sensitivity as entanglement verification.
翻訳日:2023-01-25 03:02:11 公開日:2022-09-26
# NISQデバイス以降におけるトロッタライゼーションの適応化

Making Trotterization adaptive for NISQ devices and beyond ( http://arxiv.org/abs/2209.12653v1 )

ライセンス: Link先を確認
Hongzheng Zhao, Marin Bukov, Markus Heyl, and Roderich Moessner(参考訳) 量子コンピュータの最も有望な応用の1つである量子多体力学のデジタルシミュレーションでは、トロッター化が鍵要素である。 適応的トロッター時間ステップを可能にする量子アルゴリズムを定式化するのは非常に難しい課題である。 これは今日のノイズの多い中間スケール量子デバイスにおいて特に重要であり、回路深さの最小化は中央最適化タスクである。 本稿では,局所可観測体の量子多体ダイナミクスの制御解を提供する適応的トロッタライズ方式を提案する。 我々の量子アルゴリズムは、従来の固定時間ステップのトロッタライズスキームを量子クエンチで上回り、制御された漸近的長期誤差を許容し、トロッタライズドダイナミクスが一般に挑戦的なレジームに入る。 この適応法は、格子ゲージ理論において局所ガウスの法則を保ちながら、様々な種類の対称性を保護するためにも一般化することができる。 実験資源の要求条件を考察し, 時間発展型ブロックデシメーション法のように, トロタライズに基づく数値的手法においても, 適応的トロタライズ手法が有効であることを指摘した。

The digital simulation of quantum many-body dynamics, one of the most promising applications of quantum computers, involves Trotterization as a key element. It is an outstanding challenge to formulate a quantum algorithm allowing adaptive Trotter time steps. This is particularly relevant for today's noisy intermediate scale quantum devices, where the minimization of the circuit depth is a central optimization task. Here, we introduce an adaptive Trotterization scheme providing a controlled solution of the quantum many-body dynamics of local observables. Our quantum algorithm outperforms conventional fixed-time step Trotterization schemes in a quantum quench and even allows for a controlled asymptotic long-time error, where Trotterized dynamics generically enters challenging regimes. This adaptive method can also be generalized to protect various other kinds of symmetries, which we illustrate by preserving the local Gauss's law in a lattice gauge theory. We discuss the requirements imposed by experimental resources, and point out that our adaptive Trotterization scheme can be of use also in numerical approaches based on Trotterization such as in time-evolving block decimation methods.
翻訳日:2023-01-25 03:01:50 公開日:2022-09-26
# シリコンマイクロ共振器アレイにおける超自然四波混合

Super spontaneous four-wave mixing in an array of silicon microresonators ( http://arxiv.org/abs/2209.12641v1 )

ライセンス: Link先を確認
Massimo Borghi, Federico Andrea Sabattoli, Houssein El Dirani, Laurene Youssef, Camille Petit-Etienne, Erwine Pargon, J.E. Sipe, Amideddin Mataji-Kojouri, Marco Liscidini, Corrado Sciancalepore, Matteo Galli, and Daniele Bajoni(参考訳) 複合光学系は魅力的な集合力学を示す。 例えば、量子エミッタの共振モードへの共振崩壊は、個々のエミッタの放射率の合計よりもアンサンブルの放射率が大きい超放射率をもたらす。 本稿では,光子対の生成に類似した超自発4波混合(スーパーSFWM)の実験的証拠を集積フォトニックデバイス上でのパラメトリック非線形プロセスで報告する。 バス導波路に結合したシリコンフォトニックチップ上のマイクロリング共振器のアレイでこの現象を研究する。 それぞれの共振器の共振器の周波数の非整合和を常に上回る協調対生成率を測定した。 我々は,この集団行動の基礎となる物理的メカニズムを調査し,損失の影響を明らかにし,その基礎的・技術的妥当性について考察する。

Composite optical systems can show compelling collective dynamics. For instance, the cooperative decay of quantum emitters into a common radiation mode can lead to superradiance, where the emission rate of the ensemble is larger than the sum of the rates of the individual emitters. Here, we report experimental evidence of super spontaneous four-wave mixing (super SFWM), an analogous effect for the generation of photon pairs in a parametric nonlinear process on an integrated photonic device. We study this phenomenon in an array of microring resonators on a silicon photonic chip coupled to bus waveguides. We measured a cooperative pair generation rate that always exceeds the incoherent sum of the rates of the individual resonators. We investigate the physical mechanisms underlying this collective behaviour, clarify the impact of loss, and address the aspects of fundamental and technological relevance of our results.
翻訳日:2023-01-25 03:01:32 公開日:2022-09-26
# 非局所量子演算の局所実装のための普遍資源としての因果構造の量子重ね合わせ

Quantum superposition of causal-structure as a universal resource for local implementation of nonlocal quantum operations ( http://arxiv.org/abs/2209.12925v1 )

ライセンス: Link先を確認
Pratik Ghosal, Arkaprabha Ghosal, Debarshi Das and Ananda G. Maity(参考訳) 空間分離は、分散多部量子系の局所的に実装可能な量子演算の集合を制限する。 空間分布型量子システム上での任意の量子演算を局所的に実装するための独立した普遍的資源として,異なる時空幾何の量子重ね合わせによって生じる不定因果構造を用いることができる。 したがって、LOCCによって達成できない全ての量子タスクも局所的にしか達成できない。 本研究は, 不確定因果構造を唯一の資源として活用することで, 遠隔実験室のエージェントが実験室で最初に共有された状態全体にアクセスでき, 局所的にグローバルな量子操作を行えるように, エージェントのサブシステムの状態を遠隔実験室に完全にテレポートすることが可能であることを示す。 さらに、テレポーテーションのプロセスの後、リソース -- 時空の無期限因果構造が破壊されないことも分かりました。 したがって、所望の量子演算を実装した後、第1のエージェントのサブシステムの状態を同じリソースを使って以前の研究室にテレポートすることができる。 この双方向テレポーテーションは,loccのみでは実現できない非局所量子タスクをローカルに実行する場合,必ずしも必要ではないことを示す。 いかなるテレポーテーションも呼び出すことなく,不定因果構造を唯一の資源として利用する4つのベル状態の完全な局所的識別のためのプロトコルを提案する。 直近の成果として,「絡み合いのない量子非局所性」を示す状態集合の局所的識別や,不定因果構造を資源として含む提案プロトコルによって実現可能な結合した絡み合い状態の活性化など,非局所的なタスクの例を示す。

Spatial separation restricts the set of locally implementable quantum operations on distributed multipartite quantum systems. We propose that indefinite causal structure arising due to quantum superposition of different spacetime geometries can be used as an independent universal resource for local implementation of any quantum operation on spatially distributed quantum systems. Consequently, all such quantum tasks that are not accomplishable by LOCC only also become locally accomplishable. We show that exploiting indefinite causal structure as the sole resource, it is possible to perfectly teleport the state of one agent's subsystem to the other distant lab in such a way that the agent at the distant lab can have access to the whole initially shared state in his/her lab and can perform any global quantum operation on the joint state locally. We further find that after the teleportation process, the resource -- indefinite causal structure of the spacetime does not get destroyed. Hence, after implementing the desired quantum operation the state of the first agent's subsystem can be teleported back to its previous lab using the same resource. We show that this two-way teleportation is not always necessary for locally executing all nonlocal quantum tasks that are not realisable by LOCC only. Without invoking any kind of teleportation, we present a protocol for perfect local discrimination of the set of four Bell states that exploits indefinite causal structure as the sole resource. As immediate upshots, we present some more examples of such nonlocal tasks like local discrimination of the set of states exhibiting `quantum nonlocality without entanglement' and activation of bound entangled states that are also achievable by our proposed protocol incorporating indefinite causal structure as resource.
翻訳日:2023-01-25 02:55:15 公開日:2022-09-26
# 浅い影:低深さランダムクリフォード回路を用いた期待推定

Shallow shadows: Expectation estimation using low-depth random Clifford circuits ( http://arxiv.org/abs/2209.12924v1 )

ライセンス: Link先を確認
Christian Bertoni, Jonas Haferkamp, Marcel Hinsche, Marios Ioannou, Jens Eisert, Hakop Pashayan(参考訳) 量子状態のスパーリング数を用いて未知のn量子ビット量子状態の多くの特性を学習するための実用的で強力なスキームを提供する。 具体的には、ランダムなパウリ測定とランダムなクリフォード測定に基づいて、2つの既知の古典的な影を補間する深さ変調ランダム化測定手法を提案する。 これらは、それぞれ 0 と無限深さの特別な場合と見なすことができる。 我々は、n において深さが対数的にスケールする系に注目し、これが両極値スキームの望ましい性質を保ちながら、ランダムクリフォードスキームとは対照的に実験的に実現可能であることを示す。 本研究では,生成した古典影から観測可能時間の期待値を推定し,奥行き変調影ノルム上の上限を計算することで,出力推定の精度を厳格に保証する手法を提案する。 我々は、ポリ(n)ポーリスの線型結合として書ける可観測性と、低結合次元行列積作用素として書ける可観測性を考える。 前者のobservableクラスでは、両方のタスクはnで効率的に解決される。 後者のクラスでは、効率を保証せず、実際に機能する手法を提示している; 両タスクを効率的に実行するのに使用できるテンソルネットワークのヘラルド近似逆数を変分的に計算することにより。

We provide practical and powerful schemes for learning many properties of an unknown n-qubit quantum state using a sparing number of copies of the state. Specifically, we present a depth-modulated randomized measurement scheme that interpolates between two known classical shadows schemes based on random Pauli measurements and random Clifford measurements. These can be seen within our scheme as the special cases of zero and infinite depth, respectively. We focus on the regime where depth scales logarithmically in n and provide evidence that this retains the desirable properties of both extremal schemes whilst, in contrast to the random Clifford scheme, also being experimentally feasible. We present methods for two key tasks; estimating expectation values of certain observables from generated classical shadows and, computing upper bounds on the depth-modulated shadow norm, thus providing rigorous guarantees on the accuracy of the output estimates. We consider observables that can be written as a linear combination of poly(n) Paulis and observables that can be written as a low bond dimension matrix product operator. For the former class of observables both tasks are solved efficiently in n. For the latter class, we do not guarantee efficiency but present a method that works in practice; by variationally computing a heralded approximate inverses of a tensor network that can then be used for efficiently executing both these tasks.
翻訳日:2023-01-25 02:54:44 公開日:2022-09-26
# ホログラフィック計測とバルクテレポーテーション

Holographic measurement and bulk teleportation ( http://arxiv.org/abs/2209.12903v1 )

ライセンス: Link先を確認
Stefano Antonini, Gregory Bentsen, ChunJun Cao, Jonathan Harper, Shao-Kai Jian, Brian Swingle(参考訳) ホログラフィは時空は創発的であり、その性質は双対理論の絡み合い構造に依存することを教えてくれる。 本稿では,境界理論のサブリージョン$A$における局所射影測定(LPM)による絡み合いの変化が,バルク双対時空を変化させる方法について述べる。 我々は,LPMがバルク幾何学の一部を破壊し,観測後のバルク時空が相補的未測定領域$A^c$と双対となることを見出した。 ホログラフィの$ads_3$およびテンソルネットワークモデルにおけるバルク計算を用いて、測定後に保存されるバルク幾何の部分は、$a$のサイズと我々が投射する状態に依存することを示した。 測定後のバルク倍の$A^c$は、元々は測定前の$A$の絡み合いウェッジの一部であった領域を含む。 これは、当初$a$でエンコードされたバルク情報のバウンダリサブリージョン$a$テレポート部分で実行されたlpmが、補完的なリージョン$a^c$であることを示唆している。 半古典ホログラフィーでは、任意の量のバルク情報をこの方法で伝送することができるが、テンソルネットワークモデルでは、テレポートされた情報は有限$N$効果により$A$と$A^c$の間で共有される絡み合いの量によって上界となる。 a$ が2つの非連結部分領域の結合であるとき、測定は、バルク記述の連結/非連結位相遷移に対応する残りの2つの未測定部分領域の間の絡み合い/絡み合い状態遷移をトリガーする。 その結果、ホログラフィック理論の絡み合い構造に及ぼす測定の影響について新たな光を当て、境界理論からどのようにバルク情報を操作できるかを考察した。 これらはより一般的な量子系にも拡張され、実験的にテストされ、計測誘起相転移のホログラム記述への第一歩となる。

Holography has taught us that spacetime is emergent and its properties depend on the entanglement structure of the dual theory. In this paper, we describe how changes in the entanglement due to a local projective measurement (LPM) on a subregion $A$ of the boundary theory modify the bulk dual spacetime. We find that LPMs destroy portions of the bulk geometry, yielding post-measurement bulk spacetimes dual to the complementary unmeasured region $A^c$ that are cut off by end-of-the-world branes. Using a bulk calculation in $AdS_3$ and tensor network models of holography, we show that the portions of the bulk geometry that are preserved after the measurement depend on the size of $A$ and the state we project onto. The post-measurement bulk dual to $A^c$ includes regions that were originally part of the entanglement wedge of $A$ prior to measurement. This suggests that LPMs performed on a boundary subregion $A$ teleport part of the bulk information originally encoded in $A$ into the complementary region $A^c$. In semiclassical holography an arbitrary amount of bulk information can be teleported in this way, while in tensor network models the teleported information is upper-bounded by the amount of entanglement shared between $A$ and $A^c$ due to finite-$N$ effects. When $A$ is the union of two disjoint subregions, the measurement triggers an entangled/disentangled phase transition between the remaining two unmeasured subregions, corresponding to a connected/disconnected phase transition in the bulk description. Our results shed new light on the effects of measurement on the entanglement structure of holographic theories and give insight on how bulk information can be manipulated from the boundary theory. They could also be extended to more general quantum systems and tested experimentally, and represent a first step towards a holographic description of measurement-induced phase transitions.
翻訳日:2023-01-25 02:54:01 公開日:2022-09-26
# 指数的に少ない量子ビットを用いたトポロジカルデータ解析のための合理化量子アルゴリズム

A streamlined quantum algorithm for topological data analysis with exponentially fewer qubits ( http://arxiv.org/abs/2209.12887v1 )

ライセンス: Link先を確認
Sam McArdle, Andr\'as Gily\'en, Mario Berta(参考訳) データセットの位相不変量(例えば、ある長さスケールから別のスケール(永続的なベッチ数)まで存続する穴の数)は、機械学習アプリケーションにおけるデータの分析と分類に使用できる。 我々は、永続ベッチ数を計算するための改良された量子アルゴリズムを提案し、エンドツーエンドの複雑性解析を提供する。 提案手法は,既存の量子アルゴリズムよりも大きな多項式時間の改善と指数空間の節約を実現する。 差分依存性を考慮し,本アルゴリズムは,連続的な加法誤差に対するベッチ数を計算するための厳密な古典的アルゴリズムよりも,データポイント数をほぼ一様に高速化する。 しかし、これはヒューリスティックな古典的手法と比較すると2次に近づき、スケーリングが観察される。 これまでに述べたように、量子アルゴリズムが実用的なタスクの指数的高速化を達成できるかどうかを論じる。 現在、これが事実である証拠はないと結論付けている。

Topological invariants of a dataset, such as the number of holes that survive from one length scale to another (persistent Betti numbers) can be used to analyse and classify data in machine learning applications. We present an improved quantum algorithm for computing persistent Betti numbers, and provide an end-to-end complexity analysis. Our approach provides large polynomial time improvements, and an exponential space saving, over existing quantum algorithms. Subject to gap dependencies, our algorithm obtains an almost quintic speedup in the number of datapoints over rigorous state-of-the-art classical algorithms for calculating the persistent Betti numbers to constant additive error - the salient task for applications. However, this may be reduced to closer to quadratic when compared against heuristic classical methods and observed scalings. We discuss whether quantum algorithms can achieve an exponential speedup for tasks of practical interest, as claimed previously. We conclude that there is currently no evidence that this is the case.
翻訳日:2023-01-25 02:53:07 公開日:2022-09-26
# 2光子パルスの完全分割

Perfect splitting of two-photon pulses ( http://arxiv.org/abs/2209.12852v1 )

ライセンス: Link先を確認
Mads Middelhede Lund, Fan Yang and Klaus M{\o}lmer(参考訳) カイラル導波路qedにおける光子パルスと2レベル散乱器の相互作用を数値シミュレーションするためにカスケードシステムを用いた。 2つの光子の純粋な状態は直交2光子パルスの重ね合わせとして拡張することができる。 適切な持続時間を持つ2光子パルスの散乱は、前述した2つの2つの2光子状態間の絡み合った出力状態をもたらす可能性がある。 相補波パケットベースでは、この状態は2つの直交単一光子波パケットの積状態である。 この散乱過程の時間反転により、識別可能な単一光子波パケットを2つの同一光子を持つ単一モードパルスに完全結合することができる。

We employ a cascaded system approach to numerically simulate the interaction of photon pulses with a two-level scatterer in a chiral waveguide QED setup. It is possible to expand any pure state of two photons as a superposition of orthogonal two-photon pulses. We show that the scattering of a two-photon pulse of suitable duration may lead to an entangled output state between predominately two equally populated two-photon states. In a complementary wave packet basis, this state is a product state of two orthogonal single photon wave packets. The time reversal of the above scattering process allows for a perfect combination of distinguishable single-photon wave packet into a single-mode pulse carrying two identical photons.
翻訳日:2023-01-25 02:52:48 公開日:2022-09-26
# フォトニック格子の超対称再構成と高次元再構成

Supersymmetric reshaping and higher-dimensional rearrangement of photonic lattices ( http://arxiv.org/abs/2209.12847v1 )

ライセンス: Link先を確認
Tom A. W. Wolterink, Matthias Heinrich, Alexander Szameit(参考訳) 量子調和振動子にインスパイアされたjxフォトニック格子とその等価固有値スペクトルは、完全撮像や量子状態のコヒーレント転送といった様々な応用に非常に有用であることが証明されている。 しかし、これまでのところ、大規模な実装は困難である。 超対称性の概念を適用して、一次元(1D)Jx格子と同じスペクトルを持つ2次元(2D)システムを構築する。 異なるダイナミクスを示す一方で、これらの2Dシステムは1D Jx格子のキーイメージングと状態伝達特性を保持する。 本手法は分離可能なスペクトルを持つ他のシステムにも拡張され, 実験的な作製が容易となり, 大規模フォトニック回路における不完全化に対するロバスト性が高まる。

Integrated Jx photonic lattices, inspired by the quantum harmonic oscillator and due to their equidistant eigenvalue spectrum, have been proven extremely useful for various applications, such as perfect imaging and coherent transfer of quantum states. However, to date their large-scale implementation remains challenging. We apply concepts from supersymmetry to construct two-dimensional (2D) systems with spectra identical to that of one-dimensional (1D) Jx lattices. While exhibiting different dynamics, these 2D systems retain the key imaging and state transfer properties of the 1D Jx lattice. Our method extends to other systems with separable spectra, facilitates experimental fabrication, and may increase robustness to fabrication imperfections in large-scale photonic circuits.
翻訳日:2023-01-25 02:52:41 公開日:2022-09-26
# 多変量アンサンブル後処理のための生成機械学習手法

Generative machine learning methods for multivariate ensemble post-processing ( http://arxiv.org/abs/2211.01345v1 )

ライセンス: Link先を確認
Jieyu Chen, Tim Janke, Florian Steinke, Sebastian Lerch(参考訳) 複数の気象予測モデルに基づくアンサンブル気象予報は、一般に系統的な誤りを示し、信頼できる予報を得るためには後処理を必要とする。 多変量依存の正確なモデリングは多くの実用アプリケーションにおいて重要であり、各マージンでアンサンブル予測を個別に後処理し、多変量依存をコプラで復元する多変量後処理への様々なアプローチが提案されている。 これらの2ステップメソッドは共通の制限を共有しており、特に依存関係のモデリングにおいて追加の予測器を含めることが困難である。 これらの課題に対処するために,生成機械学習に基づく多変量後処理手法を提案する。 この非パラメトリックなデータ駆動分布回帰モデルでは、生成ニューラルネットワークの出力として、多変量予測分布からのサンプルを直接取得する。 生成データと観測データとの差を測定する適切なスコアリングルールを最適化し、外部入力変数を条件として生成モデルを訓練する。 本手法では,一変量分布や多変量依存に関するパラメトリックな仮定は必要とせず,任意の予測器を組み込むことができる。 ドイツ各地の気象観測所における多変量温度と風速予測に関する2つのケーススタディにおいて,この生成モデルは最先端の手法よりも大幅に改善し,特に空間依存性の表現を改善している。

Ensemble weather forecasts based on multiple runs of numerical weather prediction models typically show systematic errors and require post-processing to obtain reliable forecasts. Accurately modeling multivariate dependencies is crucial in many practical applications, and various approaches to multivariate post-processing have been proposed where ensemble predictions are first post-processed separately in each margin and multivariate dependencies are then restored via copulas. These two-step methods share common key limitations, in particular the difficulty to include additional predictors in modeling the dependencies. We propose a novel multivariate post-processing method based on generative machine learning to address these challenges. In this new class of nonparametric data-driven distributional regression models, samples from the multivariate forecast distribution are directly obtained as output of a generative neural network. The generative model is trained by optimizing a proper scoring rule which measures the discrepancy between the generated and observed data, conditional on exogenous input variables. Our method does not require parametric assumptions on univariate distributions or multivariate dependencies and allows for incorporating arbitrary predictors. In two case studies on multivariate temperature and wind speed forecasting at weather stations over Germany, our generative model shows significant improvements over state-of-the-art methods and particularly improves the representation of spatial dependencies.
翻訳日:2023-01-25 02:46:47 公開日:2022-09-26
# 量子測定の確率はどうなるのか?

How Do the Probabilities Arise in Quantum Measurement? ( http://arxiv.org/abs/2210.10624v1 )

ライセンス: Link先を確認
Mani L. Bhaumik(参考訳) 何十年にもわたって多くの著名な科学者の努力にもかかわらず、永続的な量子測定問題の十分な解決はいまだに未解決のままである。 中でも重要な要素の一つはまだ解決されていない。 測定結果の確率がどこから来ているかからなる。 本稿は、この謎に対する妥当な答えを提供しようとして、長きにわたる測定問題のコジェントな解へと進む。

A satisfactory resolution of the persistent quantum measurement problem remains stubbornly unresolved in spite of an overabundance of efforts of many prominent scientists over the decades. Among others, one key element is considered yet to be resolved. It comprises of where the probabilities of the measurement outcome stem from. This article attempts to provide a plausible answer to this enigma, thus eventually making progress toward a cogent solution of the longstanding measurement problem.
翻訳日:2023-01-25 02:46:23 公開日:2022-09-26
# 電子輸送のSu-Schrieffer-Heegerモデル:メルリン変換による低温光伝導

On the Su-Schrieffer-Heeger model of electron transport: low-temperature optical conductivity by the Mellin transform ( http://arxiv.org/abs/2209.13068v1 )

ライセンス: Link先を確認
Dionisios Margetis, Alexander B. Watson, and Mitchell Luskin(参考訳) 高分子鎖に沿ってホップする電子の量子力学系の周波数関数として低温光伝導率を記述する。 この目的のために、一次元(1D)格子上の非相互作用スピンレス電子に対してSu-Schrieffer-Heeger \emph{tight-binding} Hamiltonian を呼び出す。 我々の目標は、この系のバンド間伝導度が最小のエネルギーバンドギャップが閉じるにつれてどのように振る舞うかを漸近的に示すことである。 私たちの分析アプローチには (i)微小衝突による非零減衰による光導電率の公方型定式化 (ii)この定式化をブリルアンゾーン上の1次元運動量積分に還元すること。 3) この積分の3次元メリン変換による初等函数の評価は、各複素空間の領域における鍵的物理パラメータとその後の反転に対して行われる。 本手法は, 導電率の挙動とメリン変換の特異点との密接な関係を明らかにする。 解析結果は直接数値計算とよく一致している。

We describe the low-temperature optical conductivity as a function of frequency for a quantum-mechanical system of electrons that hop along a polymer chain. To this end, we invoke the Su-Schrieffer-Heeger \emph{tight-binding} Hamiltonian for non-interacting spinless electrons on a one-dimensional (1D) lattice. Our goal is to show via asymptotics how the interband conductivity of this system behaves as the smallest energy bandgap tends to close. Our analytical approach includes: (i) the Kubo-type formulation for the optical conductivity with a nonzero damping due to microscopic collisions; (ii) reduction of this formulation to a 1D momentum integral over the Brillouin zone; and (iii) evaluation of this integral in terms of elementary functions via the three-dimensional Mellin transform with respect to key physical parameters and subsequent inversion in a region of the respective complex space. Our approach reveals an intimate connection of the behavior of the conductivity to particular singularities of its Mellin transform. The analytical results are found in good agreement with direct numerical computations.
翻訳日:2023-01-25 02:46:17 公開日:2022-09-26
# 頂点色制約下での量子インスパイアされた完全マッチング

Quantum-Inspired Perfect Matching under Vertex-Color Constraints ( http://arxiv.org/abs/2209.13063v1 )

ライセンス: Link先を確認
Moshe Y. Vardi and Zhiwei Zhang(参考訳) 二色エッジを持つグラフの頂点色制約下での完全マッチング問題pm-vcを提案し,検討する。 PM-VCは、量子状態同定と量子実験設計の動機と、その豊かな表現性、すなわちPM-VCは、完全整合のような多くの制約付きマッチング問題を自然に仮定するため、特に関心がある。 2種類の頂点色制約の下でPM-VCの複雑性とアルゴリズム的結果を与える。 1)対称制約(pm-vc-sym)及び 2)決定ダイアグラム制約(pm-vc-dd)。 PM-VC-Sym は、平面グラフ上でデランドマイズ可能なシンボリック決定式アルゴリズムにより RNC に含まれることを示す。 さらに,PM-VC-Symを拡張MSOで表現することで,有界木幅グラフ上でのPM-VC-Symの効率的な動的プログラミングアルゴリズムの設計を促進することができる。 PM-VC-DDでは,グラフガジェット法によりNP硬度を明らかにする。 PM-VCの新たな結果は、制約付きマッチングとスケーラブルな量子実験設計の両方に対する洞察を提供する。

We propose and study the graph-theoretical problem PM-VC: perfect matching under vertex-color constraints on graphs with bi-colored edges. PM-VC is of special interest because of its motivation from quantum-state identification and quantum-experiment design, as well as its rich expressiveness, i.e., PM-VC subsumes many constrained matching problems naturally, such as exact perfect matching. We give complexity and algorithmic results for PM-VC under two types of vertex color constraints: 1) symmetric constraints (PM-VC-Sym) and 2) decision-diagram constraints (PM-VC-DD). We prove that PM-VC-Sym is in RNC via a symbolic determinant algorithm, which can be derandomized on planar graphs. Moreover, PM-VC-Sym can be expressed in extended MSO, which encourages our design of an efficient dynamic programming algorithm for PM-VC-Sym on bounded-treewidth graphs. For PM-VC-DD, we reveal its NP-hardness by a graph-gadget technique. Our novel results for PM-VC provide insights to both constrained matching and scalable quantum experiment design.
翻訳日:2023-01-25 02:46:02 公開日:2022-09-26
# 超伝導量子コンピューティングにおけるI/Oボトルネックの克服--超低消費電力低温CMOS多重回路を用いた多重量子ビット制御

Overcoming I/O bottleneck in superconducting quantum computing: multiplexed qubit control with ultra-low-power, base-temperature cryo-CMOS multiplexer ( http://arxiv.org/abs/2209.13060v1 )

ライセンス: Link先を確認
Rohith Acharya, Steven Brebels, Alexander Grill, Jeroen Verjauw, Tsvetan Ivanov, Daniel Perez Lozano, Danny Wan, Jacques van Damme, A. M. Vadiraj, Massimo Mongillo, Bogdan Govoreanu, Jan Craninckx, I. P. Radu, Kristiaan de Greve, Georges Gielen, Francky Catthoor, Anton Poto\v{c}nik(参考訳) 大規模超伝導量子コンピューティングシステムは、ミリケルビンの温度で大量の量子ビットの高忠実性制御と読み出しを伴い、大量の入力出力ボトルネックを引き起こす。 相補的金属酸化物半導体(CMOS)技術に基づくクライオエレクトロニクスは、このボトルネックを克服するためのスケーラブルで汎用的なソリューションを提供するかもしれない。 しかし, 低温電子動作中に発生する電子ノイズと熱ノイズの相互結合による劣化効果は避ける必要がある。 ここでは、15mK以下で動作する超低出力無線周波数(RF)多重クレオエレクトロニクスソリューションを提案し、最小のクロスカップリングで超伝導量子ビットの制御と対面を可能にする。 我々は超伝導量子ビットと相互作用してその性能をベンチマークし、量子ビットの緩和時間(T_1$)が影響を受けないのに対して、コヒーレンス時間(T_2$)は静的動作と動的動作の両方に最小限の影響しか与えないことを示した。 マルチプレクサを使用すると、99.9%以上の単一量子ビットゲートのフィデル、すなわち表面符号に基づく量子誤り訂正のしきい値を大きく上回る、適切な熱フィルタリングによって達成できる。 さらに,量子ビット制御パルスのキャリブレーションを動的に行うことで,時間分割多重化量子ビット制御の能力を示す。 その結果,cryo-cmosマルチプレクサは,大規模量子ビットデバイスキャラクタリゼーション,大規模量子プロセッサ制御,量子誤り訂正プロトコルの配線資源を著しく削減できることがわかった。

Large-scale superconducting quantum computing systems entail high-fidelity control and readout of large numbers of qubits at millikelvin temperatures, resulting in a massive input-output bottleneck. Cryo-electronics, based on complementary metal-oxide-semiconductor (CMOS) technology, may offer a scalable and versatile solution to overcome this bottleneck. However, detrimental effects due to cross-coupling between the electronic and thermal noise generated during cryo-electronics operation and the qubits need to be avoided. Here we present an ultra-low power radio-frequency (RF) multiplexing cryo-electronics solution operating below 15 mK that allows for control and interfacing of superconducting qubits with minimal cross-coupling. We benchmark its performance by interfacing it with a superconducting qubit and observe that the qubit's relaxation times ($T_1$) are unaffected, while the coherence times ($T_2$) are only minimally affected in both static and dynamic operation. Using the multiplexer, single qubit gate fidelities above 99.9%, i.e., well above the threshold for surface-code based quantum error-correction, can be achieved with appropriate thermal filtering. In addition, we demonstrate the capability of time-division-multiplexed qubit control by dynamically windowing calibrated qubit control pulses. Our results show that cryo-CMOS multiplexers could be used to significantly reduce the wiring resources for large-scale qubit device characterization, large-scale quantum processor control and quantum error correction protocols.
翻訳日:2023-01-25 02:45:43 公開日:2022-09-26
# 連続時間量子ウォークの限界分布からサンプルを得る方法

How to Sample From The Limiting Distribution of a Continuous-Time Quantum Walk ( http://arxiv.org/abs/2209.13028v1 )

ライセンス: Link先を確認
Javad Doliskani(参考訳) 我々は、連続時間量子ウォークの制限分布からサンプリングできる$\varepsilon$-projectorsを紹介した。 与えられた量子ウォークの限界分布に近い分布からサンプリングする標準的なアルゴリズムは、大きな間隔からランダムに選択された時間に対して量子ウォークを実行し、その結果の量子状態を測定することである。 このアプローチは通常、指数的な実行時間をもたらす。 我々は、$\varepsilon$-プロジェクタを使用して、制限分布から正確にサンプルできることを示す。 グラフの隣接行列へのクエリアクセスしか持たないブラックボックス設定では、サンプリングアルゴリズムは$\Delta^{-1}$に比例して実行され、$\Delta$はグラフの異なる固有値間の最小間隔である。 非ブラックボックス設定では,アルゴリズムが標準サンプリングアルゴリズムよりも指数関数的に高速に動作するグラフの例を示す。

We introduce $\varepsilon$-projectors, using which we can sample from limiting distributions of continuous-time quantum walks. The standard algorithm for sampling from a distribution that is close to the limiting distribution of a given quantum walk is to run the quantum walk for a time chosen uniformly at random from a large interval, and measure the resulting quantum state. This approach usually results in an exponential running time. We show that, using $\varepsilon$-projectors, we can sample exactly from the limiting distribution. In the black-box setting, where we only have query access to the adjacency matrix of the graph, our sampling algorithm runs in time proportional to $\Delta^{-1}$, where $\Delta$ is the minimum spacing between the distinct eigenvalues of the graph. In the non-black-box setting, we give examples of graphs for which our algorithm runs exponentially faster than the standard sampling algorithm.
翻訳日:2023-01-25 02:45:10 公開日:2022-09-26
# 2次高調波発生と2重モード圧縮真空状態を用いた非条件リモート絡み合わせ

Unconditional remote entanglement using second-harmonic generation and twin two-mode squeezed vacuum states ( http://arxiv.org/abs/2209.12969v1 )

ライセンス: Link先を確認
Richard J. Birrittella, James Schneeloch, Christopher C. Tison, Michael L. Fanto, Paul M. Alsing, Christopher C. Gerry(参考訳) 本稿では,状態投影計測(条件付けのない遠隔絡み合い)を必要とせず,厳密な2次非線形光学相互作用を利用した,光工学に基づく連続的絡み合い(cv)方式を提案する。 このスキームは2つの独立したダウンコンバータを用いており、対応する非線形結晶はパラメトリック近似によって定められた強い古典的場によって駆動されるとともに、進化が $\hat{H}_{\text{shg}} = i\hbar\kappa\big(\hat{a}\hat{b}\hat{c}^{\dagger}\hat{a}^{\dagger}\hat{a}^{\dagger}\hat{b}^{\dagger}\hat{c}\big)$ の三線型ハミルトニアンによって記述される非退化第二高調波生成(SHG)の完全な量子力学モデルである。 2つのダウンコンバータの信号モードでSHG過程を駆動することにより、相互作用モードにおける状態還元測定を必要とせず、生成した第2高調波モード(SHモード)と非相互作用共振器サブシステムとの絡み合いの形成を示す。

We propose a photonics-based, continuous-variable (CV) form of remote entanglement utilizing strictly second-order nonlinear optical interactions that does not require the implementation of a state-projective measurement (i.e. remote entanglement without conditioning). This scheme makes use of two separate down-converters, wherein the corresponding nonlinear crystals are driven by strong classical fields as prescribed by the parametric approximation, as well as a fully quantum mechanical model of nondegenerate second harmonic generation (SHG) whose evolution is described by the trilinear Hamiltonian of the form $\hat{H}_{\text{shg}} = i\hbar\kappa\big(\hat{a}\hat{b}\hat{c}^{\dagger} - \hat{a}^{\dagger}\hat{b}^{\dagger}\hat{c}\big)$. By driving the SHG process with the signal modes of the two down-converters, we show entanglement formation between the generated second-harmonic mode (SH-mode) and the non-interacting joint-idler subsystem without the need for any state-reductive measurements on the interacting modes.
翻訳日:2023-01-25 02:44:26 公開日:2022-09-26
# 保護された学習凸最適化

Safeguarded Learned Convex Optimization ( http://arxiv.org/abs/2003.01880v3 )

ライセンス: Link先を確認
Howard Heaton and Xiaohan Chen and Zhangyang Wang and Wotao Yin(参考訳) 最適化問題が繰り返し解決されなければならないアプリケーションには、新しい(しかし類似した)データがある。 解析最適化アルゴリズムは、反復的な方法でこれらの問題を解決するために手作業で設計することができる。 一方、データ駆動型アルゴリズムは、汎用最適化アルゴリズムとして、より少ないイテレーションと1イテレーションあたりの同様のコストで、"最適化に導く(learn to optimize)"ことができる。 一方、残念ながら多くのL2Oアルゴリズムは収束保証を欠いている。 これらのアプローチの利点を融合させるために、Safe-L2Oフレームワークを提案する。 Safe-L2Oアップデートには、近位および/または勾配のオラクルによる凸問題の収束を保証するためのセーフガードが組み込まれている。 safeguardはシンプルで、計算コストも安く、データ駆動のl2oアップデートがパフォーマンスが悪いか、あるいは分岐しているように見える場合にのみ有効になる。 これにより、機械学習を用いて高速なL2Oアルゴリズムを作成することで、収束を保証しながら数値的なメリットが得られる。 この数値例は,トレーニングデータの分布から提供されたデータが得られなくても,safe-l2oアルゴリズムの収束を示す。

Applications abound in which optimization problems must be repeatedly solved, each time with new (but similar) data. Analytic optimization algorithms can be hand-designed to provably solve these problems in an iterative fashion. On one hand, data-driven algorithms can "learn to optimize" (L2O) with much fewer iterations and similar cost per iteration as general-purpose optimization algorithms. On the other hand, unfortunately, many L2O algorithms lack converge guarantees. To fuse the advantages of these approaches, we present a Safe-L2O framework. Safe-L2O updates incorporate a safeguard to guarantee convergence for convex problems with proximal and/or gradient oracles. The safeguard is simple and computationally cheap to implement, and it is activated only when the data-driven L2O updates would perform poorly or appear to diverge. This yields the numerical benefits of employing machine learning to create rapid L2O algorithms while still guaranteeing convergence. Our numerical examples show convergence of Safe-L2O algorithms, even when the provided data is not from the distribution of training data.
翻訳日:2022-12-26 13:44:26 公開日:2022-09-26
# 完全畳み込みニューラルネットワークを用いたppg(photoplethysmogram)信号を動脈血圧(abp)波形へ変換するppg2abp

PPG2ABP: Translating Photoplethysmogram (PPG) Signals to Arterial Blood Pressure (ABP) Waveforms using Fully Convolutional Neural Networks ( http://arxiv.org/abs/2005.01669v2 )

ライセンス: Link先を確認
Nabil Ibtehaz, Sakib Mahmud, Muhammad E. H. Chowdhury, Amith Khandakar, Mohamed Arselene Ayari, Anas Tahir, M. Sohel Rahman(参考訳) 心臓血管疾患は死亡の最も深刻な原因の1つであり、世界中で毎年大量の命を奪っている。 血圧の連続的なモニタリングは最も有効な選択肢に思えるが、これは侵襲的なプロセスが必要であり、複雑度の層がいくつかある。 これにより,ppg(photoplethysmogram)信号を用いた非侵襲的アプローチにより,持続的動脈血圧(abp)波形を予測する方法を開発した。 さらに私たちは,既存のアプローチの欠点である手作り特徴量計算を無関係にすることで,理想的に形成されたppg信号のみに固執することから,ディープラーニングのメリットを探求する。 そこで本研究では,入力されたPSG信号から連続的なAPP波形を4.604mmHgの平均絶対誤差で予測し,その形状,大きさ,位相を一様に保存する深層学習方式 PPG2ABP を提案する。 しかし、PPG2ABPのより驚くべき成功は、予測されたAPP波形からのDBP、MAP、SBPの計算値が、PPG2ABPが明示的に訓練されていないにもかかわらず、既存の測定値よりも優れていることが判明した。

Cardiovascular diseases are one of the most severe causes of mortality, taking a heavy toll of lives annually throughout the world. The continuous monitoring of blood pressure seems to be the most viable option, but this demands an invasive process, bringing about several layers of complexities. This motivates us to develop a method to predict the continuous arterial blood pressure (ABP) waveform through a non-invasive approach using photoplethysmogram (PPG) signals. In addition we explore the advantage of deep learning as it would free us from sticking to ideally shaped PPG signals only, by making handcrafted feature computation irrelevant, which is a shortcoming of the existing approaches. Thus, we present, PPG2ABP, a deep learning based method, that manages to predict the continuous ABP waveform from the input PPG signal, with a mean absolute error of 4.604 mmHg, preserving the shape, magnitude and phase in unison. However, the more astounding success of PPG2ABP turns out to be that the computed values of DBP, MAP and SBP from the predicted ABP waveform outperforms the existing works under several metrics, despite that PPG2ABP is not explicitly trained to do so.
翻訳日:2022-12-07 01:31:04 公開日:2022-09-26
# プロジェクトと目標:大規模メトリクス制約問題の解決

Project and Forget: Solving Large-Scale Metric Constrained Problems ( http://arxiv.org/abs/2005.03853v2 )

ライセンス: Link先を確認
Rishi Sonthalia, Anna C. Gilbert(参考訳) データポイント間の不均一性測定のセットが与えられると、どのメトリック表現が入力測定値と最も"一貫性"があるかを決定することは、多くの機械学習アルゴリズムにおいて重要なステップとなる。 既存の手法は、そのような問題に大量のメートル法制約があるため、特定の種類のメトリクスや小さな問題のサイズに制限される。 本稿では,多くの(指数関数的に)不等式制約を持つ計量制約問題の解法として,ブレグマン射影を用いた能動集合アルゴリズムProject and Forgetを提案する。 我々は、textsc{Project and Forget} の理論解析を行い、我々のアルゴリズムが大域最適解に収束し、電流と最適解との$L_2$距離が指数率で漸近的に崩壊することを証明する。 また,本手法を用いて,一般重量相関クラスタリング,距離近接性,距離学習という3種類の制約付き問題の大規模問題インスタンスを解決できることを実証した。

Given a set of dissimilarity measurements amongst data points, determining what metric representation is most "consistent" with the input measurements or the metric that best captures the relevant geometric features of the data is a key step in many machine learning algorithms. Existing methods are restricted to specific kinds of metrics or small problem sizes because of the large number of metric constraints in such problems. In this paper, we provide an active set algorithm, Project and Forget, that uses Bregman projections, to solve metric constrained problems with many (possibly exponentially) inequality constraints. We provide a theoretical analysis of \textsc{Project and Forget} and prove that our algorithm converges to the global optimal solution and that the $L_2$ distance of the current iterate to the optimal solution decays asymptotically at an exponential rate. We demonstrate that using our method we can solve large problem instances of three types of metric constrained problems: general weight correlation clustering, metric nearness, and metric learning; in each case, out-performing the state of the art methods with respect to CPU times and problem sizes.
翻訳日:2022-12-05 12:06:48 公開日:2022-09-26
# ベイズヒルベルト空間における反復射影としての変分推論とロボット状態推定への応用

Variational Inference as Iterative Projection in a Bayesian Hilbert Space with Application to Robotic State Estimation ( http://arxiv.org/abs/2005.07275v3 )

ライセンス: Link先を確認
Timothy D. Barfoot and Gabriele M. T. D'Eleuterio(参考訳) 変分ベイズ推論は統計学からロボット工学への応用を見つける重要な機械学習ツールである。 目標は、ある意味で「最も近い」選択された族からベイズ後方まで、近似確率密度関数(pdf)を見つけることである。 閉じ度は通常、KL(Kulback-Leibler)の発散のような適切な損失関数の選択によって定義される。 本稿では,ベクター加算,スカラー乗算,内積の注意深い定義の下で,(ほとんど)PDFがベイズヒルベルト空間のメンバーであるという事実を利用して,変分推論の新しい定式化を考察する。 正しい条件下では、klの発散に基づく変分推論は、選択された近似族に対応する部分空間へのベイズ後方のユークリッド的意味での反復射影に等しいことが示されている。 我々は、ガウス近似の特定の場合に対するこの一般的な枠組みの詳細を調べ、別のガウス変分推論のアプローチと等価性を示す。 さらに,ベイジアン空間で自然に処理される空間の疎度を示すシステムについて考察し,その結果として扱える高次元ロボット状態推定問題の例を示す。 我々は、非ガウス的推論にアプローチをどのように適用できるかの予備的な例を示し、これらの線に沿った追従作業を促進するために、アプローチの限界を詳細に議論する。

Variational Bayesian inference is an important machine-learning tool that finds application from statistics to robotics. The goal is to find an approximate probability density function (PDF) from a chosen family that is in some sense 'closest' to the full Bayesian posterior. Closeness is typically defined through the selection of an appropriate loss functional such as the Kullback-Leibler (KL) divergence. In this paper, we explore a new formulation of variational inference by exploiting the fact that (most) PDFs are members of a Bayesian Hilbert space under careful definitions of vector addition, scalar multiplication and an inner product. We show that, under the right conditions, variational inference based on KL divergence can amount to iterative projection, in the Euclidean sense, of the Bayesian posterior onto a subspace corresponding to the selected approximation family. We work through the details of this general framework for the specific case of the Gaussian approximation family and show the equivalence to another Gaussian variational inference approach. We furthermore discuss the implications for systems that exhibit sparsity, which is handled naturally in Bayesian space, and give an example of a high-dimensional robotic state estimation problem that can be handled as a result. We provide some preliminary examples of how the approach could be applied to non-Gaussian inference and discuss the limitations of the approach in detail to encourage follow-on work along these lines.
翻訳日:2022-12-03 04:58:18 公開日:2022-09-26
# 世界エージェントとしてのデータからリアルなリミットオーダーブックマーケットをシミュレートする学習

Learning to simulate realistic limit order book markets from data as a World Agent ( http://arxiv.org/abs/2210.09897v1 )

ライセンス: Link先を確認
Andrea Coletta, Aymeric Moulin, Svitlana Vyetrenko, Tucker Balch(参考訳) マルチエージェント市場シミュレータは通常、エージェントの数や種類を含む実際の市場をエミュレートするために注意深いキャリブレーションを必要とする。 過度に校正されたシミュレーターは誤った結論を導き、投資銀行やヘッジファンド、トレーダーが貿易戦略を研究し評価する際に深刻な損失をもたらす可能性がある。 本稿では, エージェントキャリブレーションを必要とせず, 履歴データから直接市場行動のシミュレーションを学習する, 制限順序ブックマーケットを正確にエミュレートする世界モデルシミュレータを提案する。 従来のアプローチでは、個々のトレーダー戦略の詳細を示すラベル付きデータが公開されていないため、トレーダー人口の学習と校正に失敗する。 歴史的データからユニークな「世界」エージェントを学習することを提案する。 個々の市場エージェント戦略を前提にすることなく、トレーダー全体の人口をエミュレートすることを目的としている。 本研究では, パラメータ分布の混合とともに, CGAN (Conditional Generative Adversarial Network) として世界エージェントシミュレーターモデルを実装し, 従来のモデルとの比較を行った。 質的かつ定量的に,提案手法が先行研究よりも一貫して優れており,リアリズムと応答性が向上していることを示す。

Multi-agent market simulators usually require careful calibration to emulate real markets, which includes the number and the type of agents. Poorly calibrated simulators can lead to misleading conclusions, potentially causing severe loss when employed by investment banks, hedge funds, and traders to study and evaluate trading strategies. In this paper, we propose a world model simulator that accurately emulates a limit order book market -- it requires no agent calibration but rather learns the simulated market behavior directly from historical data. Traditional approaches fail short to learn and calibrate trader population, as historical labeled data with details on each individual trader strategy is not publicly available. Our approach proposes to learn a unique "world" agent from historical data. It is intended to emulate the overall trader population, without the need of making assumptions about individual market agent strategies. We implement our world agent simulator models as a Conditional Generative Adversarial Network (CGAN), as well as a mixture of parametric distributions, and we compare our models against previous work. Qualitatively and quantitatively, we show that the proposed approaches consistently outperform previous work, providing more realism and responsiveness.
翻訳日:2022-10-23 21:03:01 公開日:2022-09-26
# FeatureBox: 大規模広告システムのためのGPUの機能エンジニアリング

FeatureBox: Feature Engineering on GPUs for Massive-Scale Ads Systems ( http://arxiv.org/abs/2210.07768v1 )

ライセンス: Link先を確認
Weijie Zhao, Xuewu Jiao, Xinsheng Luo, Jingxue Li, Belhal Karimi, Ping Li(参考訳) オンライン広告システムでは、Click-Through Rate(CTR)を予測するためにディープラーニングが広く使われている。 機械学習の研究者や実践者は、新しい抽出された機能をテストするために、頻繁にCTRモデルをトレーニングする。 しかし、CTRモデルのトレーニングは、しばしば大量の生のデータログに依存している。 これにより,産業レベルのCTRモデルのトレーニング時間のかなりの割合で特徴抽出を行うことができる。 本稿では,機能抽出の中間I/Oを保存するために,GPUサーバ上で機能抽出とトレーニングをパイプライン化する,新しいエンドツーエンドトレーニングフレームワークであるFeatureBoxを提案する。 我々は計算集約的な特徴抽出演算子をGPU演算子として書き直し、メモリ集約的な演算子をCPUに残す。 これらの不均一な演算子をスケジューリングするための階層演算子スケジューリングアルゴリズムを提案する。 オーバーヘッドを最小限に抑えた動的GPUメモリ割り当てをサポートする軽量GPUメモリ管理アルゴリズムを提案する。 実験によりFeatureBoxを評価し、2つの現実世界の広告アプリケーション上で、以前の実運用機能抽出フレームワークと比較した。 その結果,提案手法の有効性が確認された。

Deep learning has been widely deployed for online ads systems to predict Click-Through Rate (CTR). Machine learning researchers and practitioners frequently retrain CTR models to test their new extracted features. However, the CTR model training often relies on a large number of raw input data logs. Hence, the feature extraction can take a significant proportion of the training time for an industrial-level CTR model. In this paper, we propose FeatureBox, a novel end-to-end training framework that pipelines the feature extraction and the training on GPU servers to save the intermediate I/O of the feature extraction. We rewrite computation-intensive feature extraction operators as GPU operators and leave the memory-intensive operator on CPUs. We introduce a layer-wise operator scheduling algorithm to schedule these heterogeneous operators. We present a light-weight GPU memory management algorithm that supports dynamic GPU memory allocation with minimal overhead. We experimentally evaluate FeatureBox and compare it with the previous in-production feature extraction framework on two real-world ads applications. The results confirm the effectiveness of our proposed method.
翻訳日:2022-10-23 20:51:28 公開日:2022-09-26
# LRC, 旋回型およびハイブリッド型貯留層における計算容量

The Computational Capacity of LRC, Memristive and Hybrid Reservoirs ( http://arxiv.org/abs/2009.00112v3 )

ライセンス: Link先を確認
Forrest C. Sheldon, Artemy Kolchinsky, Francesco Caravelli(参考訳) 貯留層計算(Reservoir computing)は、時系列データの近似と予測に高次元力学系(emph{reservoir})を用いる機械学習パラダイムである。 電子回路から貯水池を構築することで、貯水池コンピュータのスケール、速度、電力利用が向上する可能性があり、いくつかの実験的研究がこの方向に期待されている。 しかし、品質貯水池の設計には、そのような回路がどのように情報を処理し保存するかを正確に理解する必要がある。 我々は, 線形素子(抵抗, インダクタ, コンデンサ)と非線形メモリ素子(メムリスタ)の両方を含む電子貯水池の実現可能性と最適設計を解析した。 これらの貯水池の実現可能性に関する解析結果を提供し、それらが近似可能な入出力関係のタイプを調べることにより、それらの計算特性を体系的に評価する。 これにより最適な特性を持つ貯水池を設計できる。 貯水池の全線形および非線形計算容量の測定方法を導入することで,全計算容量がシステム規模に応じて広範囲にスケールする電子回路を設計できる。 我々の電子貯水池は、ハードウェアで直接実装できる形で、従来の「エコー状態ネットワーク」の性能と一致または上回ることができる。

Reservoir computing is a machine learning paradigm that uses a high-dimensional dynamical system, or \emph{reservoir}, to approximate and predict time series data. The scale, speed and power usage of reservoir computers could be enhanced by constructing reservoirs out of electronic circuits, and several experimental studies have demonstrated promise in this direction. However, designing quality reservoirs requires a precise understanding of how such circuits process and store information. We analyze the feasibility and optimal design of electronic reservoirs that include both linear elements (resistors, inductors, and capacitors) and nonlinear memory elements called memristors. We provide analytic results regarding the feasibility of these reservoirs, and give a systematic characterization of their computational properties by examining the types of input-output relationships that they can approximate. This allows us to design reservoirs with optimal properties. By introducing measures of the total linear and nonlinear computational capacities of the reservoir, we are able to design electronic circuits whose total computational capacity scales extensively with the system size. Our electronic reservoirs can match or exceed the performance of conventional "echo state network" reservoirs in a form that may be directly implemented in hardware.
翻訳日:2022-10-23 07:10:23 公開日:2022-09-26
# O-RANリソース割り当てのためのアクタ・クリティカルネットワーク:xApp設計、デプロイ、分析

Actor-Critic Network for O-RAN Resource Allocation: xApp Design, Deployment, and Analysis ( http://arxiv.org/abs/2210.04604v1 )

ライセンス: Link先を確認
Mohammadreza Kouchaki, Vuk Marojevic(参考訳) Open Radio Access Network (O-RAN)は、オープンネス、インテリジェンス、自動制御を可能にする新しいRANアーキテクチャを導入した。 RAN Intelligent Controller (RIC)は、RANコントローラの設計とデプロイのためのプラットフォームを提供する。 xAppsは、機械学習(ML)アルゴリズムを活用してほぼリアルタイムで動作することで、この責任を負うアプリケーションである。 この新しいアーキテクチャが提供する機会にもかかわらず、ネットワーク制御と自動化のための実用的な人工知能(AI)ベースのソリューションの進歩は遅かった。 これは主に、実際のO-RANネットワークで完全に実行可能なAIベースのxAppを設計、デプロイ、テストするためのエンドツーエンドソリューションがないためである。 本稿では,2つの異なるRLアプローチと最新のO-RANアーキテクチャとインターフェースを考慮した強化学習(RL)ベースのxAppの開発について,エンド・ツー・エンドのO-RAN設計と評価手順を紹介した。

Open Radio Access Network (O-RAN) has introduced an emerging RAN architecture that enables openness, intelligence, and automated control. The RAN Intelligent Controller (RIC) provides the platform to design and deploy RAN controllers. xApps are the applications which will take this responsibility by leveraging machine learning (ML) algorithms and acting in near-real time. Despite the opportunities provided by this new architecture, the progress of practical artificial intelligence (AI)-based solutions for network control and automation has been slow. This is mostly because of the lack of an endto-end solution for designing, deploying, and testing AI-based xApps fully executable in real O-RAN network. In this paper we introduce an end-to-end O-RAN design and evaluation procedure and provide a detailed discussion of developing a Reinforcement Learning (RL) based xApp by using two different RL approaches and considering the latest released O-RAN architecture and interfaces.
翻訳日:2022-10-16 16:26:50 公開日:2022-09-26
# TaskMix: 音声入力理解のメタ学習のためのデータ拡張

TaskMix: Data Augmentation for Meta-Learning of Spoken Intent Understanding ( http://arxiv.org/abs/2210.06341v1 )

ライセンス: Link先を確認
Surya Kant Sahu(参考訳) メタラーニングは、関連するタスクから見当たらないが関連するタスクへの知識の伝達を改善するための研究方向として登場した。 しかしメタラーニングは、目に見えないタスクにうまく移行する表現を学ぶために多くのトレーニングタスクを必要とします。 最新のデータ拡張手法はタスクの多様性が低ければオーバーフィットの問題を悪化させる。 既存のタスクを線形補間して新しいタスクを合成する単純な方法であるtaskmixを提案する。 我々は,実生活における人間-機械的テレフォニー発話から得られたN-Best ASR仮説とMTOPから派生した2つのデータセットを,社内の多言語意図分類データセットで比較した。 TaskMixはベースラインを上回り、タスクの多様性が低い場合の過度な適合を軽減し、高い場合でも性能が低下しないことを示す。

Meta-Learning has emerged as a research direction to better transfer knowledge from related tasks to unseen but related tasks. However, Meta-Learning requires many training tasks to learn representations that transfer well to unseen tasks; otherwise, it leads to overfitting, and the performance degenerates to worse than Multi-task Learning. We show that a state-of-the-art data augmentation method worsens this problem of overfitting when the task diversity is low. We propose a simple method, TaskMix, which synthesizes new tasks by linearly interpolating existing tasks. We compare TaskMix against many baselines on an in-house multilingual intent classification dataset of N-Best ASR hypotheses derived from real-life human-machine telephony utterances and two datasets derived from MTOP. We show that TaskMix outperforms baselines, alleviates overfitting when task diversity is low, and does not degrade performance even when it is high.
翻訳日:2022-10-16 16:19:30 公開日:2022-09-26
# 投資リターン予測のための埋め込み型ニューラルネットワーク

Embedding-based neural network for investment return prediction ( http://arxiv.org/abs/2210.00876v1 )

ライセンス: Link先を確認
Jianlong Zhu, Dan Xian, Fengxiao, Yichen Nie(参考訳) 政策に詳しいことに加えて、高い投資リターンには関連する業界知識やニュースに関する広範な知識も必要である。 また、投資に関する理論を活用して意思決定を行い、投資リターンを増幅する必要がある。 効果的な投資リターン推定は、将来の投資行動のリターン率をフィードバックすることができる。 近年,深層学習が急速に発展し,深層学習に基づく投資リターン予測が注目されている。 本稿では,投資収益予測のための埋め込み型デュアルブランチ手法を提案する。 このアプローチでは、投資idを低次元密度ベクトルにエンコードすることで、高次元データを低次元多様体にマッピングすることにより、高次元の特徴を競争的に表現することができる。 さらに、二重分岐モデルは、2つの分岐に異なる情報を別々に符号化することで特徴の分離を実現する。 さらに、スウィッシュ活性化関数はモデル性能をさらに向上させる。 われわれのアプローチはUbiquant Market Predictionデータセットで検証されている。 その結果,Xgboost,Lightgbm,Catboostに対するアプローチの優位性が示された。

In addition to being familiar with policies, high investment returns also require extensive knowledge of relevant industry knowledge and news. In addition, it is necessary to leverage relevant theories for investment to make decisions, thereby amplifying investment returns. A effective investment return estimate can feedback the future rate of return of investment behavior. In recent years, deep learning are developing rapidly, and investment return prediction based on deep learning has become an emerging research topic. This paper proposes an embedding-based dual branch approach to predict an investment's return. This approach leverages embedding to encode the investment id into a low-dimensional dense vector, thereby mapping high-dimensional data to a low-dimensional manifold, so that highdimensional features can be represented competitively. In addition, the dual branch model realizes the decoupling of features by separately encoding different information in the two branches. In addition, the swish activation function further improves the model performance. Our approach are validated on the Ubiquant Market Prediction dataset. The results demonstrate the superiority of our approach compared to Xgboost, Lightgbm and Catboost.
翻訳日:2022-10-09 17:12:09 公開日:2022-09-26
# DynImp: 知覚と時間的関連性によるウェアラブルセンシングデータの動的計算

DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and Temporal Relatedness ( http://arxiv.org/abs/2209.15415v1 )

ライセンス: Link先を確認
Zepeng Huo, Taowei Ji, Yifei Liang, Shuai Huang, Zhangyang Wang, Xiaoning Qian, Bobak Mortazavi(参考訳) ウェアラブルセンシングアプリケーションでは、データを不規則にサンプリングしたり、部分的に欠落させたりすることは避けられない。 ウェアラブルデータのユニークな特徴は、時系列データであり、各チャネルは加速度計のx、y、z軸など他のチャネルと関連付けることができる点である。 従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。 我々は,DynImpと呼ばれるモデルを提案し,特徴軸に沿って近接する近傍の時間点の欠落を処理し,その不備を時間軸に沿って再構成可能なLSTMベースのデノナイジングオートエンコーダにデータを送り込む。 私たちは、ウェアラブルデータで広くテストされていない極端な欠落シナリオ (>50\%$ missing rate) でモデルを実験します。 活動認識実験により, 関連センサのマルチモーダルな特徴を生かし, 履歴時系列のダイナミクスから学習し, 極端に欠落した状態でデータを再構築できることが判明した。

In wearable sensing applications, data is inevitable to be irregularly sampled or partially missing, which pose challenges for any downstream application. An unique aspect of wearable data is that it is time-series data and each channel can be correlated to another one, such as x, y, z axis of accelerometer. We argue that traditional methods have rarely made use of both times-series dynamics of the data as well as the relatedness of the features from different sensors. We propose a model, termed as DynImp, to handle different time point's missingness with nearest neighbors along feature axis and then feeding the data into a LSTM-based denoising autoencoder which can reconstruct missingness along the time axis. We experiment the model on the extreme missingness scenario ($>50\%$ missing rate) which has not been widely tested in wearable data. Our experiments on activity recognition show that the method can exploit the multi-modality features from related sensors and also learn from history time-series dynamics to reconstruct the data under extreme missingness.
翻訳日:2022-10-09 17:01:17 公開日:2022-09-26
# アクセス制御のためのテキスト独立話者識別システム

Text Independent Speaker Identification System for Access Control ( http://arxiv.org/abs/2209.14335v1 )

ライセンス: Link先を確認
Oluyemi E. Adetoyi(参考訳) ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。 機械学習は、音声特徴抽出と音声モデリング技術への様々なアプローチを通して、話者識別問題の人間を模倣しようとしている。 本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。 最大クロスバリデーション精度は60%であった。 これはその後の研究で改善される。

Even human intelligence system fails to offer 100% accuracy in identifying speeches from a specific individual. Machine intelligence is trying to mimic humans in speaker identification problems through various approaches to speech feature extraction and speech modeling techniques. This paper presents a text-independent speaker identification system that employs Mel Frequency Cepstral Coefficients (MFCC) for feature extraction and k-Nearest Neighbor (kNN) for classification. The maximum cross-validation accuracy obtained was 60%. This will be improved upon in subsequent research.
翻訳日:2022-09-30 18:23:38 公開日:2022-09-26
# Greybox XAI:画像分類のための解釈可能な予測を生成するニューラルネットワーク・シンボリック学習フレームワーク

Greybox XAI: a Neural-Symbolic learning framework to produce interpretable predictions for image classification ( http://arxiv.org/abs/2209.14974v1 )

ライセンス: Link先を確認
Adrien Bennetot, Gianni Franchi, Javier Del Ser, Raja Chatila, Natalia Diaz-Rodriguez(参考訳) Deep Neural Networks (DNN) は高度な一般化と予測機能を備えているが、その機能によってその振る舞いを詳細に説明することはできない。 不透明なディープラーニングモデルは、重要な環境で重要な予測を行うためにますます使われています。 機械学習モデルから説明を分離するいくつかのeXplainable Artificial Intelligence (XAI)メソッドが登場したが、実際の機能と堅牢性には欠点がある。 その結果、深層学習モデルに説明能力を持たせることの重要性について広く合意し、それがなぜ特定の予測が行われたのかを自らが答えられるようにしている。 まず、XAIの普遍的基準が欠如している問題について、説明文を形式化する。 また,数学的観点からXAIを明らかにするための公理と定義も導入した。 最後に,DNNと透過的なモデルを構成するフレームワークであるGreybox XAIを紹介する。 データセットからkbを抽出し、それを透過モデル(すなわちロジスティック回帰)のトレーニングに使用します。 rgbイメージ上でエンコーダ-デコーダアーキテクチャを訓練し、透過モデルで使用されるkbと同様の出力を生成する。 2つのモデルが独立して訓練されると、説明可能な予測モデルを形成するために合成的に使用される。 この新しいアーキテクチャがいかに正確で、いくつかのデータセットで説明可能であるかを示す。

Although Deep Neural Networks (DNNs) have great generalization and prediction capabilities, their functioning does not allow a detailed explanation of their behavior. Opaque deep learning models are increasingly used to make important predictions in critical environments, and the danger is that they make and use predictions that cannot be justified or legitimized. Several eXplainable Artificial Intelligence (XAI) methods that separate explanations from machine learning models have emerged, but have shortcomings in faithfulness to the model actual functioning and robustness. As a result, there is a widespread agreement on the importance of endowing Deep Learning models with explanatory capabilities so that they can themselves provide an answer to why a particular prediction was made. First, we address the problem of the lack of universal criteria for XAI by formalizing what an explanation is. We also introduced a set of axioms and definitions to clarify XAI from a mathematical perspective. Finally, we present the Greybox XAI, a framework that composes a DNN and a transparent model thanks to the use of a symbolic Knowledge Base (KB). We extract a KB from the dataset and use it to train a transparent model (i.e., a logistic regression). An encoder-decoder architecture is trained on RGB images to produce an output similar to the KB used by the transparent model. Once the two models are trained independently, they are used compositionally to form an explainable predictive model. We show how this new architecture is accurate and explainable in several datasets.
翻訳日:2022-09-30 16:01:11 公開日:2022-09-26
# DVGAN:時間領域重力波物理のための安定化ワッサースタインGANトレーニング

DVGAN: Stabilize Wasserstein GAN training for time-domain Gravitational Wave physics ( http://arxiv.org/abs/2209.13592v1 )

ライセンス: Link先を確認
Tom Dooney, Stefano Bromuri, Lyana Curier(参考訳) 重力波(GW)検出器環境の時間領域観測をシミュレーションすることで、GW源の理解を深め、GW信号検出のためのデータセットを増強し、検出器のノイズを特徴づけるのに役立つ。 本稿では,dvganと呼ばれる3人のワッサースタイン生成敵ネットワーク(wgan)を用いて,入力信号の導関数を識別する補助識別器を含む固定長時間領域信号をシミュレートする新しい手法を提案する。 補助派生判別器からの敵意フィードバックを含む効果をバニラ2プレイヤーwganと比較するためにアブレーション研究が用いられる。 導関数の識別は1次元連続信号におけるgan成分の学習を学習中に安定化させる。 これにより、実際のサンプルと区別しにくいよりスムーズな生成信号が得られ、トレーニングデータの分布をよりよく把握できる。 DVGANはまた、高度なLIGO GW検出器で捕捉された実際の過渡的なノイズイベントをシミュレートするためにも用いられる。

Simulating time-domain observations of gravitational wave (GW) detector environments will allow for a better understanding of GW sources, augment datasets for GW signal detection and help in characterizing the noise of the detectors, leading to better physics. This paper presents a novel approach to simulating fixed-length time-domain signals using a three-player Wasserstein Generative Adversarial Network (WGAN), called DVGAN, that includes an auxiliary discriminator that discriminates on the derivatives of input signals. An ablation study is used to compare the effects of including adversarial feedback from an auxiliary derivative discriminator with a vanilla two-player WGAN. We show that discriminating on derivatives can stabilize the learning of GAN components on 1D continuous signals during their training phase. This results in smoother generated signals that are less distinguishable from real samples and better capture the distributions of the training data. DVGAN is also used to simulate real transient noise events captured in the advanced LIGO GW detector.
翻訳日:2022-09-29 18:22:56 公開日:2022-09-26
# パワーエレクトロニクスコンバータにおけるAIを用いたオープン回路故障診断手法のレビュー

Review for AI-based Open-Circuit Faults Diagnosis Methods in Power Electronics Converters ( http://arxiv.org/abs/2209.14058v1 )

ライセンス: Link先を確認
Chuang Liu, Lei Kou, Guowei Cai, Zihan Zhao, Zhe Zhang(参考訳) 電力変換器は航空宇宙システム、直流送電、分散型エネルギー、スマートグリッドなどに広く使われており、電力変換器の信頼性は学界や産業においてホットスポットとなっている。 電力変換器のオープンサーキット故障監視とインテリジェント故障診断を行い、二次故障を回避し、運転と保守の時間とコストを削減し、電力エレクトロニクスシステムの信頼性を向上させることは、非常に重要である。 まず、電力変換器の故障特性を分析して要約する。 次に, パワーエレクトロニクスコンバータにおけるAIに基づく故障診断手法と応用例を概説し, 3相パワーエレクトロニクスコンバータにおいて, ランダム森林と過渡断層の特徴を組み合わせた故障診断手法を提案する。 最後に,AIに基づく故障診断手法の今後の研究課題と方向性を指摘する。

Power electronics converters have been widely used in aerospace system, DC transmission, distributed energy, smart grid and so forth, and the reliability of power electronics converters has been a hotspot in academia and industry. It is of great significance to carry out power electronics converters open-circuit faults monitoring and intelligent fault diagnosis to avoid secondary faults, reduce time and cost of operation and maintenance, and improve the reliability of power electronics system. Firstly, the faults features of power electronic converters are analyzed and summarized. Secondly, some AI-based fault diagnosis methods and application examples in power electronics converters are reviewed, and a fault diagnosis method based on the combination of random forests and transient fault features is proposed for three-phase power electronics converters. Finally, the future research challenges and directions of AI-based fault diagnosis methods are pointed out.
翻訳日:2022-09-29 18:17:11 公開日:2022-09-26
# 教師付き学習によるパラゴルギア・アルボレアのポリプ活性のモデル化

Modeling Polyp Activity of Paragorgia arborea Using Supervised Learning ( http://arxiv.org/abs/2209.13644v1 )

ライセンス: Link先を確認
Arne Johanson, Sascha Fl\"ogel, Wolf-Christian Dullo, Peter Linke, Wilhelm Hasselbring(参考訳) パラゴルジア・アルボレア(paragorgia arborea)のような冷水サンゴの分布パターンは近年注目されているが、その活動パターンについてはほとんど知られていない。 本稿では,ノルウェーのstjernsundに分布する自律着陸船群から得られた高解像度時系列データと写真を分析するために,機械学習を用いてp. arboreaのポリープ活性を調べる。 本論文から得られたモデルのインタラクティブな図解が補足材料としてオンラインで提供される。 その結果,サンゴの伸長度を最大に予測できるのは,3時間遅れの現在の方向であることがわかった。 温度や塩分濃度などの水流に直接関連しない他の変数は、ポリプ活性に関する情報をはるかに少ないものにしている。 興味深いことに、サンゴの直近のより乱流的な流れをサンプリングするよりも、測定部位の上の水柱内の層流をサンプリングすることで、ポリプ伸長の程度をより確実に予測できる。 以上の結果から, p. arborea polypsの活性パターンはstjernsundの強い潮流構造によって制御されていることが示唆された。 P. arboreaは、周囲の電流状態の短い変化に反応せず、代わりに、栄養摂取を最適化するために潮流自体の大規模なパターンに従ってその挙動を調整する。

While the distribution patterns of cold-water corals, such as Paragorgia arborea, have received increasing attention in recent studies, little is known about their in situ activity patterns. In this paper, we examine polyp activity in P. arborea using machine learning techniques to analyze high-resolution time series data and photographs obtained from an autonomous lander cluster deployed in the Stjernsund, Norway. An interactive illustration of the models derived in this paper is provided online as supplementary material. We find that the best predictor of the degree of extension of the coral polyps is current direction with a lag of three hours. Other variables that are not directly associated with water currents, such as temperature and salinity, offer much less information concerning polyp activity. Interestingly, the degree of polyp extension can be predicted more reliably by sampling the laminar flows in the water column above the measurement site than by sampling the more turbulent flows in the direct vicinity of the corals. Our results show that the activity patterns of the P. arborea polyps are governed by the strong tidal current regime of the Stjernsund. It appears that P. arborea does not react to shorter changes in the ambient current regime but instead adjusts its behavior in accordance with the large-scale pattern of the tidal cycle itself in order to optimize nutrient uptake.
翻訳日:2022-09-29 18:15:03 公開日:2022-09-26
# PearNet:睡眠段階認識のためのピアソン相関に基づくグラフ注意ネットワーク

PearNet: A Pearson Correlation-based Graph Attention Network for Sleep Stage Recognition ( http://arxiv.org/abs/2209.13645v1 )

ライセンス: Link先を確認
Jianchao Lu, Yuzhe Tian, Shuang Wang, Michael Sheng, Xi Zheng(参考訳) 睡眠ステージ認識は、睡眠の評価と慢性疾患の診断に不可欠である。 Convolutional Neural NetworksやRecurrent Neural Networksといったディープラーニングモデルは、グリッドデータを入力として使用してトレーニングされており、非ユークリッド空間で関係を学習することができない。 様々な脳領域にまたがる電極信号の外部関係を調査する際に、この問題に対処するためにグラフベースの深層モデルが開発されている。 しかし、モデルでは特定の脳領域内の電極信号のセグメント間の内部関係に関する問題は解決できない。 本研究では,この問題の解法として,ピアソン相関に基づくグラフアテンションネットワークPearNetを提案する。 階層的特徴抽出法により抽出された時空間特徴に基づいてグラフノードを生成し,ノード接続を構築するためにグラフ構造を適応的に学習する。 われわれのSleep-EDF-20とSleep-EDF-78データセットの実験に基づいて、PearNetは最先端のベースラインよりもパフォーマンスがよい。

Sleep stage recognition is crucial for assessing sleep and diagnosing chronic diseases. Deep learning models, such as Convolutional Neural Networks and Recurrent Neural Networks, are trained using grid data as input, making them not capable of learning relationships in non-Euclidean spaces. Graph-based deep models have been developed to address this issue when investigating the external relationship of electrode signals across different brain regions. However, the models cannot solve problems related to the internal relationships between segments of electrode signals within a specific brain region. In this study, we propose a Pearson correlation-based graph attention network, called PearNet, as a solution to this problem. Graph nodes are generated based on the spatial-temporal features extracted by a hierarchical feature extraction method, and then the graph structure is learned adaptively to build node connections. Based on our experiments on the Sleep-EDF-20 and Sleep-EDF-78 datasets, PearNet performs better than the state-of-the-art baselines.
翻訳日:2022-09-29 18:14:40 公開日:2022-09-26
# ラマン増幅器を用いた機械学習に基づくスペクトル空間パワー進化形状の実験的検証

Experimental validation of machine-learning based spectral-spatial power evolution shaping using Raman amplifiers ( http://arxiv.org/abs/2209.13401v1 )

ライセンス: Link先を確認
Mehran Soltani, Francesco Da Ros, Andrea Carena, Darko Zibar(参考訳) 我々は,ラマン増幅器のポンプパワー値を制御し,2次元周波数とファイバー距離の信号パワー変化を形作るリアルタイム機械学習フレームワークを実験的に検証した。 提案方式では, 所望の2次元パワープロファイルを実現するために, 4つの1次逆伝播ポンプの電力値を最適化する。 ポンプパワー最適化フレームワークは、畳み込みニューラルネットワーク(CNN)と、目標の2Dパワープロファイルを自動的に達成するためにアンプ設定にオンラインに適用された微分進化(DE)技術を含む。 達成可能な2Dプロファイルの結果から, 得られた2Dプロファイルと目標2Dプロファイルとの間には, 極端に低い絶対誤差 (MAE) (<0.5dB) を保証できることがわかった。 さらに、このフレームワークは、繊維長全体の最小スペクトル抽出と共同で、スパンの端で平坦なゲインレベルを持つ2次元プロファイルを達成することを目標とする多目的設計シナリオでテストされる。 この場合、実験結果は、目標のフラットゲインレベルを持つ2次元プロファイルに対して、ポンプパワー値に物理的に制限されない場合に、DECは最大ゲイン偏差が1dB未満となることを主張する。 シミュレーションの結果、十分なポンプパワーが得られれば、より高い目標ゲインレベルに対してより良いゲイン偏差(0.6dB未満)が得られることが証明された。

We experimentally validate a real-time machine learning framework, capable of controlling the pump power values of Raman amplifiers to shape the signal power evolution in two-dimensions (2D): frequency and fiber distance. In our setup, power values of four first-order counter-propagating pumps are optimized to achieve the desired 2D power profile. The pump power optimization framework includes a convolutional neural network (CNN) followed by differential evolution (DE) technique, applied online to the amplifier setup to automatically achieve the target 2D power profiles. The results on achievable 2D profiles show that the framework is able to guarantee very low maximum absolute error (MAE) (<0.5 dB) between the obtained and the target 2D profiles. Moreover, the framework is tested in a multi-objective design scenario where the goal is to achieve the 2D profiles with flat gain levels at the end of the span, jointly with minimum spectral excursion over the entire fiber length. In this case, the experimental results assert that for 2D profiles with the target flat gain levels, the DE obtains less than 1 dB maximum gain deviation, when the setup is not physically limited in the pump power values. The simulation results also prove that with enough pump power available, better gain deviation (less than 0.6 dB) for higher target gain levels is achievable.
翻訳日:2022-09-28 16:51:15 公開日:2022-09-26
# 概凸関数最適化の量子スピードアップと対数的後悔確率凸バンドへの応用

Quantum Speedups of Optimizing Approximately Convex Functions with Applications to Logarithmic Regret Stochastic Convex Bandits ( http://arxiv.org/abs/2209.12897v1 )

ライセンス: Link先を確認
Tongyang Li, Ruizhe Zhang(参考訳) 概凸関数を最適化するための量子アルゴリズムの研究を開始する。 凸集合 ${\cal k}\subseteq\mathbb{r}^{n}$ と関数 $f\colon\mathbb{r}^{n}\to\mathbb{r}$ が与えられたとき、その凸関数 $f\colon\mathcal{k}\to\mathbb{r}$ が $\sup_{x\in{\cal k}}|f(x)-f(x)|\leq \epsilon/n$ を満たすような凸関数 $f(x^{*})-\min_{x\in{\cal k}} f(x)\leq\epsilon$ が $f(x^{*})-\tilde{o}(n^{3})$ で$f(x)-f(x)|\leq \epsilon/n$ を満たすように、量子アルゴリズムは $x^{*}\in{\cal k}$ を求める。 これは、よく知られた古典的アルゴリズムと比較して多項式量子スピードアップを達成する。 例として、ゼロ次確率凸バンドの量子アルゴリズムを$\tilde{o}(n^{5}\log^{2} t)$ regretで与え、従来の$\omega(\sqrt{t})$lowboundと比較して指数速度が$t$である。 技術的には、シミュレーションアニーリングの量子フレームワークを利用し、ヒットアンドランウォークの量子バージョンを採用することで、量子スピードアップをn$で達成する。 ゼロ階確率凸バンディットの$T$での高速化は、平均推定の乗算誤差の2次量子スピードアップに起因する。

We initiate the study of quantum algorithms for optimizing approximately convex functions. Given a convex set ${\cal K}\subseteq\mathbb{R}^{n}$ and a function $F\colon\mathbb{R}^{n}\to\mathbb{R}$ such that there exists a convex function $f\colon\mathcal{K}\to\mathbb{R}$ satisfying $\sup_{x\in{\cal K}}|F(x)-f(x)|\leq \epsilon/n$, our quantum algorithm finds an $x^{*}\in{\cal K}$ such that $F(x^{*})-\min_{x\in{\cal K}} F(x)\leq\epsilon$ using $\tilde{O}(n^{3})$ quantum evaluation queries to $F$. This achieves a polynomial quantum speedup compared to the best-known classical algorithms. As an application, we give a quantum algorithm for zeroth-order stochastic convex bandits with $\tilde{O}(n^{5}\log^{2} T)$ regret, an exponential speedup in $T$ compared to the classical $\Omega(\sqrt{T})$ lower bound. Technically, we achieve quantum speedup in $n$ by exploiting a quantum framework of simulated annealing and adopting a quantum version of the hit-and-run walk. Our speedup in $T$ for zeroth-order stochastic convex bandits is due to a quadratic quantum speedup in multiplicative error of mean estimation.
翻訳日:2022-09-28 16:46:08 公開日:2022-09-26
# 機械学習に基づく有機分子の粗粒マッピング方式の検討

Investigation of Machine Learning-based Coarse-Grained Mapping Schemes for Organic Molecules ( http://arxiv.org/abs/2209.12946v1 )

ライセンス: Link先を確認
Dimitris Nasikas, Eleonora Ricci, George Giannakopoulos, Vangelis Karkaletsis, Doros N. Theodorou, Niki Vergadou(参考訳) マクロ分子系に存在する幅広い時間スケールのため、その計算研究には階層的マルチスケール戦略が必要である。 粗粒化(CG)は、異なるシステム解像度間のリンクを確立し、堅牢なマルチスケールシミュレーションと分析を開発するためのバックボーンを提供する。 CGマッピングプロセスは通常、システムとアプリケーション固有のもので、化学的直観に依存している。 本研究では,可変オートエンコーダに基づく機械学習戦略の応用について検討し,化学複雑性が増大する分子の原子空間から粗粒空間への適切なマッピングスキームの開発について検討した。 モデルのハイパーパラメータがトレーニングプロセスおよび最終出力に及ぼす影響を広範囲に評価し、異なる損失関数の定義と出力の物理的一貫性を保証する選択基準の実装により、既存の方法を拡張した。 入力特徴選択と再構成精度の関係を解析し, システムに回転不変性を導入する必要性について検討した。 マッピングとバックマッピングステップの両方において、アプローチの強度と制限が強調され、批判的に議論される。

Due to the wide range of timescales that are present in macromolecular systems, hierarchical multiscale strategies are necessary for their computational study. Coarse-graining (CG) allows to establish a link between different system resolutions and provides the backbone for the development of robust multiscale simulations and analyses. The CG mapping process is typically system- and application-specific, and it relies on chemical intuition. In this work, we explored the application of a Machine Learning strategy, based on Variational Autoencoders, for the development of suitable mapping schemes from the atomistic to the coarse-grained space of molecules with increasing chemical complexity. An extensive evaluation of the effect of the model hyperparameters on the training process and on the final output was performed, and an existing method was extended with the definition of different loss functions and the implementation of a selection criterion that ensures physical consistency of the output. The relationship between the input feature choice and the reconstruction accuracy was analyzed, supporting the need to introduce rotational invariance into the system. Strengths and limitations of the approach, both in the mapping and in the backmapping steps, are highlighted and critically discussed.
翻訳日:2022-09-28 16:45:17 公開日:2022-09-26
# 粗粒分子シミュレーションのための機械学習電位の開発:挑戦と落とし穴

Developing Machine-Learned Potentials for Coarse-Grained Molecular Simulations: Challenges and Pitfalls ( http://arxiv.org/abs/2209.12948v1 )

ライセンス: Link先を確認
Eleonora Ricci, George Giannakopoulos, Vangelis Karkaletsis, Doros N. Theodorou, Niki Vergadou(参考訳) 粗粒化(CG)は、原子分解能で達成できるものよりも大きな系とより長い時間スケールで分子特性を調べることができる。 近年,CG粒子相互作用の学習,すなわちCG力場の開発のために機械学習技術が提案されている。 分子のグラフ表現とグラフ畳み込みニューラルネットワークアーキテクチャの教師付きトレーニングは、力マッチングスキームを通じて平均力のポテンシャルを学ぶために使用される。 本研究では, cg粒子に作用する力は, 連続フィルタ畳み込みによって構成されるシュネットという名で学習された局所環境の表現と相関する。 液体ベンゼンのcgポテンシャルを得るためのschnetモデルの適用について検討し、モデルアーキテクチャとハイパーパラメータがシミュレーションcgシステムの熱力学的、動的、構造的性質に及ぼす影響を調査し、遭遇した課題と今後の方向性を報告・議論する。

Coarse graining (CG) enables the investigation of molecular properties for larger systems and at longer timescales than the ones attainable at the atomistic resolution. Machine learning techniques have been recently proposed to learn CG particle interactions, i.e. develop CG force fields. Graph representations of molecules and supervised training of a graph convolutional neural network architecture are used to learn the potential of mean force through a force matching scheme. In this work, the force acting on each CG particle is correlated to a learned representation of its local environment that goes under the name of SchNet, constructed via continuous filter convolutions. We explore the application of SchNet models to obtain a CG potential for liquid benzene, investigating the effect of model architecture and hyperparameters on the thermodynamic, dynamical, and structural properties of the simulated CG systems, reporting and discussing challenges encountered and future directions envisioned.
翻訳日:2022-09-28 16:44:58 公開日:2022-09-26
# ディープラーニングニューラルネットワークによる電子エネルギー損失分光法データベース合成とコア損失エッジ認識の自動化

Electron energy loss spectroscopy database synthesis and automation of core-loss edge recognition by deep-learning neural networks ( http://arxiv.org/abs/2209.13026v1 )

ライセンス: Link先を確認
Lingli Kong, Zhengran Ji, Huolin L. Xin(参考訳) 電子エネルギー損失分光(EELS)スペクトルに符号化されたイオン化エッジは、組成分析や元素定量化を含む高度な物質分析を可能にする。 並列EELS計器と高速感度検出器の開発により、EELSスペクトルの取得速度が大幅に向上した。 しかし、コア損失エッジ認識の伝統的な方法は経験ベースであり、人間の労働力に依存しており、処理速度を制限している。 これまでのところ、生のEELSスペクトルにおける低信号ノイズ比とコアロスエッジの低ジャンプ比は、エッジ認識の自動化に困難である。 本研究では,コアロスエッジの検出と同定を自動化するために,畳み込み型双方向長短期記憶ニューラルネットワーク(CNN-BiLSTM)を提案する。 eelsスペクトルデータベースは、ニューラルネットワークのトレーニングと検証を支援するために、フォワードモデルを用いて合成されます。 合成スペクトルを実スペクトルに類似させるため,実験により得られたEELSコアエッジの大規模なライブラリを収集した。 学習ライブラリを合成する場合、実験の実際のエッジにマルチガウシアンモデルを適用してエッジをモデル化し、ノイズやインストゥルメンタル不完全性をシミュレートして付加する。 十分に訓練されたCNN-BiLSTMネットワークは、実験から収集した模擬スペクトルと実スペクトルの両方に対して試験される。 94.9%の精度で、提案したCNN-BiLSTMネットワークは、生スペクトルの複雑な前処理がなければ、EELSスペクトルのコアロスエッジ認識を高精度に自動化することを証明する。

The ionization edges encoded in the electron energy loss spectroscopy (EELS) spectra enable advanced material analysis including composition analyses and elemental quantifications. The development of the parallel EELS instrument and fast, sensitive detectors have greatly improved the acquisition speed of EELS spectra. However, the traditional way of core-loss edge recognition is experience based and human labor dependent, which limits the processing speed. So far, the low signal-noise ratio and the low jump ratio of the core-loss edges on the raw EELS spectra have been challenging for the automation of edge recognition. In this work, a convolutional-bidirectional long short-term memory neural network (CNN-BiLSTM) is proposed to automate the detection and elemental identification of core-loss edges from raw spectra. An EELS spectral database is synthesized by using our forward model to assist in the training and validation of the neural network. To make the synthesized spectra resemble the real spectra, we collected a large library of experimentally acquired EELS core edges. In synthesize the training library, the edges are modeled by fitting the multi-gaussian model to the real edges from experiments, and the noise and instrumental imperfectness are simulated and added. The well-trained CNN-BiLSTM network is tested against both the simulated spectra and real spectra collected from experiments. The high accuracy of the network, 94.9 %, proves that, without complicated preprocessing of the raw spectra, the proposed CNN-BiLSTM network achieves the automation of core-loss edge recognition for EELS spectra with high accuracy.
翻訳日:2022-09-28 16:44:42 公開日:2022-09-26
# 線形汎関数のオフポリシー推定:半パラメトリック効率の非漸近理論

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency ( http://arxiv.org/abs/2209.13075v1 )

ライセンス: Link先を確認
Wenlong Mou, Martin J. Wainwright, Peter L. Bartlett(参考訳) 観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。 まず,治療効果関数を推定する2段階の方法の幅広いクラスを分析し,その量を用いて線形汎関数を推定する。 これらの境界は、非漸近的最適手順を得るために、処理効果を推定する誤差を、ある重み付き$l^2$-norm で最小にするべきであることを証明している。 この重み付きノルムの制約付き回帰に基づいて2段階の手順を解析し、非漸近的局所ミニマックス下限をマッチングすることで有限標本のインスタンス依存最適性を確立する。 これらの結果から, 最適非漸近的リスクは, 漸近的効率的な分散に依存することに加えて, 実結果関数の重み付きノルム距離と, サンプルサイズが支持する最もリッチな関数クラスによる近似に依存することがわかった。

The problem of estimating a linear functional based on observational data is canonical in both the causal inference and bandit literatures. We analyze a broad class of two-stage procedures that first estimate the treatment effect function, and then use this quantity to estimate the linear functional. We prove non-asymptotic upper bounds on the mean-squared error of such procedures: these bounds reveal that in order to obtain non-asymptotically optimal procedures, the error in estimating the treatment effect should be minimized in a certain weighted $L^2$-norm. We analyze a two-stage procedure based on constrained regression in this weighted norm, and establish its instance-dependent optimality in finite samples via matching non-asymptotic local minimax lower bounds. These results show that the optimal non-asymptotic risk, in addition to depending on the asymptotically efficient variance, depends on the weighted norm distance between the true outcome function and its approximation by the richest function class supported by the sample size.
翻訳日:2022-09-28 16:37:33 公開日:2022-09-26
# 光神経常微分方程式

Optical Neural Ordinary Differential Equations ( http://arxiv.org/abs/2209.12898v1 )

ライセンス: Link先を確認
Yun Zhao, Hang Chen, Min Lin, Haiou Zhang, Tao Yan, Xing Lin, Ruqi Huang and Qionghai Dai(参考訳) オンチップフォトニックニューラルネットワーク(PNN)の層数の増加は、モデルの性能向上に不可欠である。 しかし、ネットワーク隠蔽層の連続カスケードにより、より大きな集積フォトニックチップ領域が得られる。 この問題に対処するため,光学的ODEソルバを用いた隠れ層の連続力学をパラメータ化する光学的ニューラル常微分方程式(ON-ODE)アーキテクチャを提案する。 オンオードは、pnnに続いてフォトニックインテグレータおよび光フィードバックループを含み、チップ領域占有を効果的に低減した残留ニューラルネットワーク(resnet)および再帰ニューラルネットワークを表すように構成することができる。 干渉型光電子非線形隠蔽層では, 単一の隠蔽層ON-ODEが, 画像分類作業における2層光学ResNetとほぼ同じ精度を達成できることを示した。 さらに、ONODEは回折に基づく全光線形隠蔽層のモデル分類精度を向上させる。 on-odeの時間依存ダイナミクス特性は、精度の高い軌道予測にも応用できる。

Increasing the layer number of on-chip photonic neural networks (PNNs) is essential to improve its model performance. However, the successively cascading of network hidden layers results in larger integrated photonic chip areas. To address this issue, we propose the optical neural ordinary differential equations (ON-ODE) architecture that parameterizes the continuous dynamics of hidden layers with optical ODE solvers. The ON-ODE comprises the PNNs followed by the photonic integrator and optical feedback loop, which can be configured to represent residual neural networks (ResNet) and recurrent neural networks with effectively reduced chip area occupancy. For the interference-based optoelectronic nonlinear hidden layer, the numerical experiments demonstrate that the single hidden layer ON-ODE can achieve approximately the same accuracy as the two-layer optical ResNet in image classification tasks. Besides, the ONODE improves the model classification accuracy for the diffraction-based all-optical linear hidden layer. The time-dependent dynamics property of ON-ODE is further applied for trajectory prediction with high accuracy.
翻訳日:2022-09-28 16:36:49 公開日:2022-09-26
# スパースリワード環境におけるデモを用いたメタ強化学習の強化

Enhanced Meta Reinforcement Learning using Demonstrations in Sparse Reward Environments ( http://arxiv.org/abs/2209.13048v1 )

ライセンス: Link先を確認
Desik Rengarajan, Sapana Chaudhary, Jaewon Kim, Dileep Kalathil, Srinivas Shakkottai(参考訳) メタ強化学習(Meta-RL)は、様々なタスクを解くことによって得られる経験をメタ政治に蒸留する手法である。 メタポリシー(meta-policy)は、小さな(または1つの)ステップしか適応しない場合、新しい関連するタスクでほぼ最適に実行することができる。 しかし、現実の問題を解決するためにこのアプローチを採用する上で大きな課題は、しばしばタスクが部分的に完了したか完全に完了したかのみを示すスパース報酬関数と関連付けられていることである。 サブ最適エージェントが生成する可能性のあるデータの一部が各タスクで利用可能である状況について考察する。 そこで我々は,訓練中のガイダンスを得るために準最適であっても,この情報を活用するアルゴリズムをEMRLD (Enhanced Meta-RL using Demonstrations) と呼ぶ。 EMRLDがRLと教師付き学習をオフラインデータ上で併用して,モノトーン性能の向上を示すメタポリティクスを生成する方法を示す。 また,emrld-wsと呼ばれるウォームスタート型を開発し,サブ最適デモンストレーションデータに対して特に効率的である。 最後に,EMRLDアルゴリズムは,移動ロボットなど,さまざまな報酬環境において,既存のアプローチよりも大幅に優れていることを示す。

Meta reinforcement learning (Meta-RL) is an approach wherein the experience gained from solving a variety of tasks is distilled into a meta-policy. The meta-policy, when adapted over only a small (or just a single) number of steps, is able to perform near-optimally on a new, related task. However, a major challenge to adopting this approach to solve real-world problems is that they are often associated with sparse reward functions that only indicate whether a task is completed partially or fully. We consider the situation where some data, possibly generated by a sub-optimal agent, is available for each task. We then develop a class of algorithms entitled Enhanced Meta-RL using Demonstrations (EMRLD) that exploit this information even if sub-optimal to obtain guidance during training. We show how EMRLD jointly utilizes RL and supervised learning over the offline data to generate a meta-policy that demonstrates monotone performance improvements. We also develop a warm started variant called EMRLD-WS that is particularly efficient for sub-optimal demonstration data. Finally, we show that our EMRLD algorithms significantly outperform existing approaches in a variety of sparse reward environments, including that of a mobile robot.
翻訳日:2022-09-28 16:36:33 公開日:2022-09-26
# 有効非可逆任意画像再スケーリング

Effective Invertible Arbitrary Image Rescaling ( http://arxiv.org/abs/2209.13055v1 )

ライセンス: Link先を確認
Zhihong Pan, Baopu Li, Dongliang He, Wenhao Wu, Errui Ding(参考訳) 画像超解像(SR)のための深層学習技術を用いて、一定のスケールで大きな成功を収めた。 実世界の適用性を高めるために、水平方向と垂直方向の異なるスケールに画像が再サイズされる非対称な要素を含む任意のスケール要素でSR画像を復元する多くのモデルも提案されている。 ほとんどのモデルは、低解像度(LR)入力に対する事前定義されたダウンスケーリングカーネルを仮定しながら、一方向のアップスケーリングタスクに最適化されているだけであるが、Invertible Neural Networks (INN) に基づく最近のモデルは、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することで、アップスケーリング精度を著しく向上させることができる。 しかし、innアーキテクチャによって制限されるため、固定整数スケール係数に制限され、各スケールに1つのモデルが必要である。 モデル複雑性を増大させることなく、本研究の1つのモデルのみをトレーニングすることで任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。 位置認識スケールエンコーディングやプリエンプティブチャネル分割といった革新的なコンポーネントを使用して、ネットワークは非可逆的再スケーリングサイクルを効果的に非可逆プロセスに変換するように最適化されている。 LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。 また、同じネットワークアーキテクチャを用いた非対称スケールのテストでもうまく機能することが示されている。

Great successes have been achieved using deep learning techniques for image super-resolution (SR) with fixed scales. To increase its real world applicability, numerous models have also been proposed to restore SR images with arbitrary scale factors, including asymmetric ones where images are resized to different scales along horizontal and vertical directions. Though most models are only optimized for the unidirectional upscaling task while assuming a predefined downscaling kernel for low-resolution (LR) inputs, recent models based on Invertible Neural Networks (INN) are able to increase upscaling accuracy significantly by optimizing the downscaling and upscaling cycle jointly. However, limited by the INN architecture, it is constrained to fixed integer scale factors and requires one model for each scale. Without increasing model complexity, a simple and effective invertible arbitrary rescaling network (IARN) is proposed to achieve arbitrary image rescaling by training only one model in this work. Using innovative components like position-aware scale encoding and preemptive channel splitting, the network is optimized to convert the non-invertible rescaling cycle to an effectively invertible process. It is shown to achieve a state-of-the-art (SOTA) performance in bidirectional arbitrary rescaling without compromising perceptual quality in LR outputs. It is also demonstrated to perform well on tests with asymmetric scales using the same network architecture.
翻訳日:2022-09-28 16:19:43 公開日:2022-09-26
# 一時停止エージェントリプレイリフレッシュ

Paused Agent Replay Refresh ( http://arxiv.org/abs/2209.13398v1 )

ライセンス: Link先を確認
Benjamin Parr(参考訳) 強化学習アルゴリズムは、ターゲットネットワークの発明以来、より複雑になっている。 残念ながら、ターゲットネットワークはこの複雑さの増大に遅れず、計算的に実現可能な近似解を必要とする。 これらの近似はQ値目標とリプレイサンプリング分布のノイズを増加させる。 Paused Agent Replay Refresh(PARR)は、より複雑な学習アルゴリズムをサポートするターゲットネットワークのドロップイン置換である。 基本的なqネットワークアーキテクチャを使い、ノベルティ値、ターゲット値、リプレイサンプリング分布をリフレッシュすることで、わずか30.9万フレームのアタリフレームでモンテズマのリベンジ2500ポイントを獲得した。 最後に、PARRを炭素ベースの学習の文脈で解釈することは、睡眠の新たな理由となる。

Reinforcement learning algorithms have become more complex since the invention of target networks. Unfortunately, target networks have not kept up with this increased complexity, instead requiring approximate solutions to be computationally feasible. These approximations increase noise in the Q-value targets and in the replay sampling distribution. Paused Agent Replay Refresh (PARR) is a drop-in replacement for target networks that supports more complex learning algorithms without this need for approximation. Using a basic Q-network architecture, and refreshing the novelty values, target values, and replay sampling distribution, PARR gets 2500 points in Montezuma's Revenge after only 30.9 million Atari frames. Finally, interpreting PARR in the context of carbon-based learning offers a new reason for sleep.
翻訳日:2022-09-28 16:10:45 公開日:2022-09-26
# ロボットマニピュレーションのためのエンドツーエンド学習

End-to-End Affordance Learning for Robotic Manipulation ( http://arxiv.org/abs/2209.12941v1 )

ライセンス: Link先を確認
Yiran Geng, Boshi An, Haoran Geng, Yuanpei Chen, Yaodong Yang, Hao Dong(参考訳) インタラクティブ環境における3dオブジェクト操作の学習は,強化学習(rl)において難しい課題となっている。 特に、異なる意味圏、多様な形状幾何学、多用途機能を持つオブジェクトを一般化できるポリシーを訓練することは困難である。 近年,視覚支援技術は,オブジェクト中心の情報優先と効果的な動作可能なセマンティクスの提供に大きな期待を寄せている。 そのため、ハンドルに力をかける方法を知ることで、ドアを開くための効果的な政策を訓練することができる。 しかし、手頃な価格を知るためには、しばしば人間定義のアクションプリミティブを必要とし、適用可能なタスクの範囲を制限する。 本研究では,RL学習過程において生成した接触情報を用いて視覚的余裕を生かし,興味のある接触マップを予測する。 このような接触予測プロセスは、様々な種類の操作タスクを一般化できるエンドツーエンドのアプライアンス学習フレームワークへとつながる。 驚くべきことに、このようなフレームワークの有効性は、マルチステージシナリオやマルチエージェントシナリオでも維持される。 8種類の操作タスクで本手法を検証した。 その結果,提案手法は,視覚ベースアフォーアンス法やrl法などベースラインアルゴリズムを上回っており,成功率に大きな差が見られた。 デモはhttps://sites.google.com/view/rlafford/で見ることができる。

Learning to manipulate 3D objects in an interactive environment has been a challenging problem in Reinforcement Learning (RL). In particular, it is hard to train a policy that can generalize over objects with different semantic categories, diverse shape geometry and versatile functionality. Recently, the technique of visual affordance has shown great prospects in providing object-centric information priors with effective actionable semantics. As such, an effective policy can be trained to open a door by knowing how to exert force on the handle. However, to learn the affordance, it often requires human-defined action primitives, which limits the range of applicable tasks. In this study, we take advantage of visual affordance by using the contact information generated during the RL training process to predict contact maps of interest. Such contact prediction process then leads to an end-to-end affordance learning framework that can generalize over different types of manipulation tasks. Surprisingly, the effectiveness of such framework holds even under the multi-stage and the multi-agent scenarios. We tested our method on eight types of manipulation tasks. Results showed that our methods outperform baseline algorithms, including visual-based affordance methods and RL methods, by a large margin on the success rate. The demonstration can be found at https://sites.google.com/view/rlafford/.
翻訳日:2022-09-28 16:10:12 公開日:2022-09-26
# e-Healthシステムにおける実行時確率的事象計算の意思決定への応用

An Application of a Runtime Epistemic Probabilistic Event Calculus to Decision-making in e-Health Systems ( http://arxiv.org/abs/2209.13043v1 )

ライセンス: Link先を確認
Fabio Aurelio D'Asaro, Luca Raggioli, Salim Malek, Marco Grazioso, Silvia Rossi(参考訳) 本稿では,神経運動障害児のリハビリテーションのためのeヘルスシステムの観点から,感覚データと分類器と論理に基づく意思決定システムを統合するランタイムアーキテクチャについて論じる。 このアプリケーションでは、子どもたちはゲーム形式でリハビリテーションタスクを実行します。 システムの主な目的は、利用可能なセンサーと分類器(例えば、アイトラッカー、モーションセンサー、感情認識技術)から、子どもの現在の認知的および行動的パフォーマンス(例えば、エンゲージメント、注意力、タスク精度)のレベルを導出し、それに応じて決定を行うことである。 これらの決定は一般に、注意が低いときに適切な再エンゲージメント刺激を誘発し、ゲームを変更したり、子供が作業への興味を失うと、より難しくすることで、子供のパフォーマンスを改善することを目的としている。 感情認識と頭部ポーズ推定の最先端技術とともに、我々は、エピステミック確率論的事象計算として知られるイベント計算の確率的およびエピステミック論理プログラミング方言のランタイム変種を使用する。 特に、このシンボリックフレームワークの確率的コンポーネントは、機械学習技術との自然なインターフェースを可能にする。 アーキテクチャとそのコンポーネントを概観し、実行中の実例と実験の議論を通じて、その特徴をいくつか示す。 論理プログラミングの理論と実践(tplp)における出版について考察する。

We present and discuss a runtime architecture that integrates sensorial data and classifiers with a logic-based decision-making system in the context of an e-Health system for the rehabilitation of children with neuromotor disorders. In this application, children perform a rehabilitation task in the form of games. The main aim of the system is to derive a set of parameters the child's current level of cognitive and behavioral performance (e.g., engagement, attention, task accuracy) from the available sensors and classifiers (e.g., eye trackers, motion sensors, emotion recognition techniques) and take decisions accordingly. These decisions are typically aimed at improving the child's performance by triggering appropriate re-engagement stimuli when their attention is low, by changing the game or making it more difficult when the child is losing interest in the task as it is too easy. Alongside state-of-the-art techniques for emotion recognition and head pose estimation, we use a runtime variant of a probabilistic and epistemic logic programming dialect of the Event Calculus, known as the Epistemic Probabilistic Event Calculus. In particular, the probabilistic component of this symbolic framework allows for a natural interface with the machine learning techniques. We overview the architecture and its components, and show some of its characteristics through a discussion of a running example and experiments. Under consideration for publication in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-09-28 16:09:52 公開日:2022-09-26
# 分析ポリシー勾配による効率的な制御器の訓練

Training Efficient Controllers via Analytic Policy Gradient ( http://arxiv.org/abs/2209.13052v1 )

ライセンス: Link先を確認
Nina Wiedemann, Valentin W\"uest, Antonio Loquercio, Matthias M\"uller, Dario Floreano, Davide Scaramuzza(参考訳) ロボットシステムの制御設計は複雑であり、軌道を正確に追従するには最適化の解決がしばしば必要となる。 Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。 逆に、Reinforcement Learning (RL)のような学習ベースのオフライン最適化アプローチは、ロボット上で高速かつ効率的な実行を可能にするが、軌道追跡タスクにおけるMPCの精度とはほとんど一致しない。 航空車両のような限られた計算量を持つシステムでは、実行時に効率的な正確な制御装置が必須である。 この問題に対処するための分析政策勾配法(APG)を提案する。 APGは、トラッキングエラーの勾配降下でコントローラをオフラインにトレーニングすることで、差別化可能なシミュレータの可用性を活用する。 カリキュラム学習を通じてAPGで頻繁に発生するトレーニングの不安定性に対処し、広く使われているコントロールベンチマークであるCartPoleと、一般的な2つの空中ロボットである四輪車と固定翼ドローンを実験する。 提案手法は, モデルベースおよびモデルフリーの rl 手法を追跡誤差の点で上回っている。 同時に、計算時間を桁違いに少なくしながら、MPCと同じような性能を実現する。 我々の研究は、ロボット工学の有望な制御方法としてのapgの可能性に関する洞察を提供する。 APGの探索を容易にするため、私たちはコードをオープンソースにしてhttps://github.com/lis-epfl/apg_trajectory_tracking.comで公開しています。

Control design for robotic systems is complex and often requires solving an optimization to follow a trajectory accurately. Online optimization approaches like Model Predictive Control (MPC) have been shown to achieve great tracking performance, but require high computing power. Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks. In systems with limited compute, such as aerial vehicles, an accurate controller that is efficient at execution time is imperative. We propose an Analytic Policy Gradient (APG) method to tackle this problem. APG exploits the availability of differentiable simulators by training a controller offline with gradient descent on the tracking error. We address training instabilities that frequently occur with APG through curriculum learning and experiment on a widely used controls benchmark, the CartPole, and two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed method outperforms both model-based and model-free RL methods in terms of tracking error. Concurrently, it achieves similar performance to MPC while requiring more than an order of magnitude less computation time. Our work provides insights into the potential of APG as a promising control method for robotics. To facilitate the exploration of APG, we open-source our code and make it available at https://github.com/lis-epfl/apg_trajectory_tracking.
翻訳日:2022-09-28 16:09:29 公開日:2022-09-26
# アウト・オブ・ディストリビューション検出の動向, 応用, 課題の包括的レビュー

A Comprehensive Review of Trends, Applications and Challenges In Out-of-Distribution Detection ( http://arxiv.org/abs/2209.12935v1 )

ライセンス: Link先を確認
Navid Ghassemi, Ehsan Fazl-Ersi(参考訳) 近年の人工知能の進歩により、その応用は人間の日常生活のあらゆる側面で見ることができる。 音声アシスタントからモバイルヘルスケア、自律運転に至るまで、私たちは多くの重要なタスクにおいてAIメソッドのパフォーマンスに依存しているため、損傷を防ぐために適切な方法でモデルのパフォーマンスを主張することが不可欠である。 AIモデル全般、特にディープラーニングの欠点のひとつは、データの分散の変化に直面した場合のパフォーマンス低下である。 しかしながら、これらのシフトは常に現実世界のアプリケーションで期待されているため、配布外データサブセットの検出とより包括的な一般化の実現に焦点をあてた研究分野が生まれている。 さらに、多くのディープラーニングベースのモデルがベンチマークデータセットでほぼ完全な結果を得たため、これらのモデルの信頼性と信頼性を評価して現実のアプリケーションにプッシュする必要性は、これまで以上に強く感じられる。 これは、分散検出とドメイン一般化の分野における研究の増加をもたらし、様々な観点からこれらの研究を比較し、その正しさと弱さを強調する調査の必要性を訴えている。 本稿では,70以上の論文のレビューに加えて,今後の研究に向けた課題と方向性を提示するとともに,様々なデータシフトと解の統一的考察を行い,その一般化について述べる。

With recent advancements in artificial intelligence, its applications can be seen in every aspect of humans' daily life. From voice assistants to mobile healthcare and autonomous driving, we rely on the performance of AI methods for many critical tasks; therefore, it is essential to assert the performance of models in proper means to prevent damage. One of the shortfalls of AI models in general, and deep machine learning in particular, is a drop in performance when faced with shifts in the distribution of data. Nonetheless, these shifts are always expected in real-world applications; thus, a field of study has emerged, focusing on detecting out-of-distribution data subsets and enabling a more comprehensive generalization. Furthermore, as many deep learning based models have achieved near-perfect results on benchmark datasets, the need to evaluate these models' reliability and trustworthiness for pushing towards real-world applications is felt more strongly than ever. This has given rise to a growing number of studies in the field of out-of-distribution detection and domain generalization, which begs the need for surveys that compare these studies from various perspectives and highlight their straightens and weaknesses. This paper presents a survey that, in addition to reviewing more than 70 papers in this field, presents challenges and directions for future works and offers a unifying look into various types of data shifts and solutions for better generalization.
翻訳日:2022-09-28 16:02:22 公開日:2022-09-26
# 音声質問応答におけるパス検索における音声認識誤りの影響について

On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering ( http://arxiv.org/abs/2209.12944v1 )

ライセンス: Link先を確認
Georgios Sidiropoulos, Svitlana Vakulenko, and Evangelos Kanoulas(参考訳) 質問応答システム(qa)を問合せするための音声インターフェースとの対話がますます普及している。 典型的には、QAシステムは、最終回答を抽出するために候補コンテキストを選択し、理解を読み取るために通過探索に依存する。 自動音声認識(ASR)モデルが導入する誤りに対して,QAシステムの読解部分を改善することに注意が向けられているが,その読解部は未探索のままである。 しかし,そのような誤りは経路探索の性能に影響を与え,終端性能は低下する。 このギャップに対処するため、既存の2つの大規模パスランキングとオープンドメインQAデータセットを合成ASRノイズで拡張し、ASRノイズのある質問に対する語彙的および密度の高い検索者の堅牢性について検討した。 さらに、各ドメインは異なる言語方言またはアクセントであると共に、異なるドメインにわたるデータ拡張技術の一般化可能性について検討する。 最後に,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。

Interacting with a speech interface to query a Question Answering (QA) system is becoming increasingly popular. Typically, QA systems rely on passage retrieval to select candidate contexts and reading comprehension to extract the final answer. While there has been some attention to improving the reading comprehension part of QA systems against errors that automatic speech recognition (ASR) models introduce, the passage retrieval part remains unexplored. However, such errors can affect the performance of passage retrieval, leading to inferior end-to-end performance. To address this gap, we augment two existing large-scale passage ranking and open domain QA datasets with synthetic ASR noise and study the robustness of lexical and dense retrievers against questions with ASR noise. Furthermore, we study the generalizability of data augmentation techniques across different domains; with each domain being a different language dialect or accent. Finally, we create a new dataset with questions voiced by human users and use their transcriptions to show that the retrieval performance can further degrade when dealing with natural ASR noise instead of synthetic ASR noise.
翻訳日:2022-09-28 15:51:00 公開日:2022-09-26
# スパースアノテーションを用いた衛星観測からのハビタット分類

Habitat classification from satellite observations with sparse annotations ( http://arxiv.org/abs/2209.12995v1 )

ライセンス: Link先を確認
Mikko Impi\"o, Pekka H\"arm\"a, Anna Tammilehto, Saku Anttila, Jenni Raitoharju(参考訳) リモートセンシングは、特にリモートセンシングされたデータを自動分析できる場合に、フィールドサーベイよりも大規模なモニタリングを容易にすることで、生息地保全に寄与する。 モニタリングの重要な側面は、監視領域に存在する生息地の分類とマッピングである。 クラスは細かな違いがあり、その分布は長くてバランスが取れないため、自動分類は難しい作業である。 通常、自動土地被覆分類に使用される訓練データは、リモートセンシング画像からかなり高いレベルの分類、すなわち森林、農地、都市部などの分類に注釈付けされた完全に注釈付きセグメンテーションマップに依存している。 自動生息地分類の課題は、信頼できるデータアノテーションがフィールドサーベイを必要とすることである。 したがって、完全なセグメンテーションマップの作成にはコストがかかり、トレーニングデータは、足でアクセス可能な領域に制限されることが多い。 これらの限られたデータをより効率的に利用するための方法が必要となる。 そこで,本研究では,北フィンランドのラップランド地域全体をnatura2000クラスに分類するために,生息地分類とマッピングの手法を提案する。 フィールドから収集した細粒度でスパースな単一ピクセルアノテーションと、大量の無注釈データを組み合わせてセグメンテーションマップを生成することを特徴とする。 教師なし、半教師なしの手法を比較し、より大きなドメイン外のデータセットからの転送学習の利点を示す。 本稿では,無作為な森林分類器が組み合わさった中心画素分類に偏りを持つ‘ac{CNN}を提案し,モデル自体よりも高品質な分類を行う。 クロッピング増補,テスト時間増補,半教師付き学習がさらに分類に有用であることを示す。

Remote sensing benefits habitat conservation by making monitoring of large areas easier compared to field surveying especially if the remote sensed data can be automatically analyzed. An important aspect of monitoring is classifying and mapping habitat types present in the monitored area. Automatic classification is a difficult task, as classes have fine-grained differences and their distributions are long-tailed and unbalanced. Usually training data used for automatic land cover classification relies on fully annotated segmentation maps, annotated from remote sensed imagery to a fairly high-level taxonomy, i.e., classes such as forest, farmland, or urban area. A challenge with automatic habitat classification is that reliable data annotation requires field-surveys. Therefore, full segmentation maps are expensive to produce, and training data is often sparse, point-like, and limited to areas accessible by foot. Methods for utilizing these limited data more efficiently are needed. We address these problems by proposing a method for habitat classification and mapping, and apply this method to classify the entire northern Finnish Lapland area into Natura2000 classes. The method is characterized by using finely-grained, sparse, single-pixel annotations collected from the field, combined with large amounts of unannotated data to produce segmentation maps. Supervised, unsupervised and semi-supervised methods are compared, and the benefits of transfer learning from a larger out-of-domain dataset are demonstrated. We propose a \ac{CNN} biased towards center pixel classification ensembled with a random forest classifier, that produces higher quality classifications than the models themselves alone. We show that cropping augmentations, test-time augmentation and semi-supervised learning can help classification even further.
翻訳日:2022-09-28 15:35:48 公開日:2022-09-26
# Totems:ビジュアルインテリジェンスを検証する物理オブジェクト

Totems: Physical Objects for Verifying Visual Integrity ( http://arxiv.org/abs/2209.13032v1 )

ライセンス: Link先を確認
Jingwei Ma, Lucy Chai, Minyoung Huh, Tongzhou Wang, Ser-Nam Lim, Phillip Isola, Antonio Torralba(参考訳) 画像法医学の新しいアプローチとして,私たちがtotemと呼ぶ物理的屈折物体をシーンに配置し,そのシーンの撮影された写真を保護する。 トーテムは光線を曲げてリダイレクトし、1枚の画像内に複数の歪んだシーンのビューを提供する。 ディフェンダーは、これらの歪んだtotemピクセルを使用して、画像が操作されたかどうかを検出することができる。 我々のアプローチは、風景中の位置を推定し、既知の幾何学的および物質的性質を用いて、トーテムを通過する光線を解き放つ。 トテム保護画像を検証するため、トテム視点から再構成されたシーンとカメラ視点からシーンの外観の不整合を検出する。 このようなアプローチは、敵がtotemの物理的性質を知らずに、totemとイメージピクセルの両方を幾何学的に一貫した方法で修正しなければならないため、敵の操作タスクをより困難にする。 従来の学習手法とは異なり,本手法では特定の操作のデータセットのトレーニングを必要とせず,現場とカメラの物理的特性を用いて法医学的問題を解決する。

We introduce a new approach to image forensics: placing physical refractive objects, which we call totems, into a scene so as to protect any photograph taken of that scene. Totems bend and redirect light rays, thus providing multiple, albeit distorted, views of the scene within a single image. A defender can use these distorted totem pixels to detect if an image has been manipulated. Our approach unscrambles the light rays passing through the totems by estimating their positions in the scene and using their known geometric and material properties. To verify a totem-protected image, we detect inconsistencies between the scene reconstructed from totem viewpoints and the scene's appearance from the camera viewpoint. Such an approach makes the adversarial manipulation task more difficult, as the adversary must modify both the totem and image pixels in a geometrically consistent manner without knowing the physical properties of the totem. Unlike prior learning-based approaches, our method does not require training on datasets of specific manipulations, and instead uses physical properties of the scene and camera to solve the forensics problem.
翻訳日:2022-09-28 15:35:19 公開日:2022-09-26
# 視覚タスクのための多様な動的ルーティング

Diversified Dynamic Routing for Vision Tasks ( http://arxiv.org/abs/2209.13071v1 )

ライセンス: Link先を確認
Botos Csaba, Adel Bibi, Yanwei Li, Philip Torr, Ser-Nam Lim(参考訳) ビジョンタスクのためのディープラーニングモデルは、すべてのサンプルの予測に使用できる普遍表現が存在するという仮定の下で、大規模なデータセットでトレーニングされる。 高複雑性モデルはそのような表現を学習できることが証明されているが、データの特定のサブセットで訓練された専門家の混合はラベルをより効率的に推測することができる。 しかし 専門家が混ざり合うことで 2つの新しい問題が生じます (i)新しい未知のサンプルが提示されたとき、推論時に正しい専門家を割り当てる。 (ii)訓練データの最適な分割を見つけることは、専門家が共通の特徴にほとんど依存しないようにすること。 動的ルーティング(dr)では、各レイヤが専門家のセットで構成された、新しいアーキテクチャが提案されていますが、2つの課題に対処せずに、モデルが専門家の同じサブセットを使用するように戻すことを実証します。 分散動的ルーティング(divdr)では,データ分割に関する課題を解決するためにモデルを明示的に訓練し,教師なしのアプローチで適切な専門家を割り当てる。 都市景観におけるセマンティックセグメンテーションと,MS-COCOにおけるオブジェクト検出とインスタンスセグメンテーションについて,複数のベースライン上での性能向上を示す実験を行った。

Deep learning models for vision tasks are trained on large datasets under the assumption that there exists a universal representation that can be used to make predictions for all samples. Whereas high complexity models are proven to be capable of learning such representations, a mixture of experts trained on specific subsets of the data can infer the labels more efficiently. However using mixture of experts poses two new problems, namely (i) assigning the correct expert at inference time when a new unseen sample is presented. (ii) Finding the optimal partitioning of the training data, such that the experts rely the least on common features. In Dynamic Routing (DR) a novel architecture is proposed where each layer is composed of a set of experts, however without addressing the two challenges we demonstrate that the model reverts to using the same subset of experts. In our method, Diversified Dynamic Routing (DivDR) the model is explicitly trained to solve the challenge of finding relevant partitioning of the data and assigning the correct experts in an unsupervised approach. We conduct several experiments on semantic segmentation on Cityscapes and object detection and instance segmentation on MS-COCO showing improved performance over several baselines.
翻訳日:2022-09-28 15:34:59 公開日:2022-09-26
# 空間的階層とヒューマンインストラクションを考慮した自動都市計画

Automated Urban Planning aware Spatial Hierarchies and Human Instructions ( http://arxiv.org/abs/2209.13002v1 )

ライセンス: Link先を確認
Dongjie Wang, Kunpeng Liu, Yanyong Huang, Leilei Sun, Bowen Du, and Yanjie Fu(参考訳) 伝統的な都市計画は、多くの建築上の制約の下で最適な都市計画を作成するために、多くの時間と労力を都市の専門家に要求する。 深層学習の驚くべき想像力は、都市計画の改革に期待を与えている。 自動都市計画が検討されているが、以下の制約がある。 1) 都市計画における人的要件の無視 2)都市計画における空間階層の省略 3)多数の都市計画データサンプルがない。 これらの制約を克服するため,我々は新しい深層計画立案者を提案する。 予備的な作業では、エンコーダ-デコーダパラダイムに定式化する。 エンコーダは、周囲の状況、人的指示、土地利用構成に関する情報分布を学習する。 デコーダは、土地利用構成と関連する都市機能ゾーンを再構築するものである。 再構成手順は機能領域と空間グリッドの間の空間階層をキャプチャする。 一方,データ分散問題を緩和するための変分ガウス機構を導入する。 初期の研究は良い結果をもたらしたが、空間階層の取得方法が不明瞭な最適化方向につながるため、生成性能は依然として不安定である。 本稿では,都市専門家のワークフローに触発されて,この問題を解決するために,GAN(Generative Adversarial Network)に基づくカスケード深層生成フレームワークを提案する。 特に、最初のGANの目的は、人間の指示や周囲の文脈からの情報に基づいて都市機能ゾーンを構築することである。 第2のGANは、構築された機能ゾーンに基づいた土地利用構成を生成する。 さらに,データサンプルを補完するコンディショニング拡張モジュールも提供する。 最後に,本研究の有効性を検証するために広範な実験を行った。

Traditional urban planning demands urban experts to spend considerable time and effort producing an optimal urban plan under many architectural constraints. The remarkable imaginative ability of deep generative learning provides hope for renovating urban planning. While automated urban planners have been examined, they are constrained because of the following: 1) neglecting human requirements in urban planning; 2) omitting spatial hierarchies in urban planning, and 3) lacking numerous urban plan data samples. To overcome these limitations, we propose a novel, deep, human-instructed urban planner. In the preliminary work, we formulate it into an encoder-decoder paradigm. The encoder is to learn the information distribution of surrounding contexts, human instructions, and land-use configuration. The decoder is to reconstruct the land-use configuration and the associated urban functional zones. The reconstruction procedure will capture the spatial hierarchies between functional zones and spatial grids. Meanwhile, we introduce a variational Gaussian mechanism to mitigate the data sparsity issue. Even though early work has led to good results, the performance of generation is still unstable because the way spatial hierarchies are captured may lead to unclear optimization directions. In this journal version, we propose a cascading deep generative framework based on generative adversarial networks (GANs) to solve this problem, inspired by the workflow of urban experts. In particular, the purpose of the first GAN is to build urban functional zones based on information from human instructions and surrounding contexts. The second GAN will produce the land-use configuration based on the functional zones that have been constructed. Additionally, we provide a conditioning augmentation module to augment data samples. Finally, we conduct extensive experiments to validate the efficacy of our work.
翻訳日:2022-09-28 15:24:36 公開日:2022-09-26
# winogradの畳み込み: 4x4タイルの効率的な推論のためのタップワイズ量子化

Going Further With Winograd Convolutions: Tap-Wise Quantization for Efficient Inference on 4x4 Tile ( http://arxiv.org/abs/2209.12982v1 )

ライセンス: Link先を確認
Renzo Andri, Beatrice Bussolino, Antonio Cipolletta, Lukas Cavigelli, Zhe Wang(参考訳) 今日のコンピュータビジョンパイプラインのほとんどはディープニューラルネットワークを中心に構築されており、畳み込み操作は一般的に高い計算労力を必要とする。 Winograd畳み込みアルゴリズムは、標準的なアルゴリズムに比べてMACが少ない畳み込みを計算し、2x2サイズのタイルを持つバージョンを使用する場合、3x3畳み込みの2.25倍の倍率で演算数を削減している。 利益は大きいものの、より大きなタイルサイズを持つウィノグラードアルゴリズム(例えば$f_4$)は、必要なmacを4倍削減するので、スループットとエネルギー効率をさらに向上させる可能性がある。 残念なことに、より大きなタイルサイズを持つWinogradアルゴリズムは、整数ドメイン固有のアクセラレーターの使用を阻止し、空間領域とWinogradドメイン間の入力と出力データを変換するための計算オーバーヘッドを高くする数値的な問題を提起している。 winograd $f_4$ のポテンシャルを最大限に発揮するために,より大きいタイルを用いた数値的な問題を克服し,整数のみの推論を可能にする新しいタップワイズ量子化法を提案する。 さらに、Winograd変換を電力効率と面積効率で処理するカスタムハードウェアユニットを提案し、そのようなカスタムモジュールを産業グレードでプログラム可能なDSAにどのように統合するかを示す。 最先端のコンピュータビジョンベンチマークの大規模な実験により、タップワイド量子化アルゴリズムは量子化されたWinograd$F_4$ネットワークをFP32ベースラインとほぼ同じ精度で実現していることが明らかとなった。 winograd-enhanced dsaは最大1.85倍のエネルギー効率を実現し、最先端のセグメンテーションと検出ネットワークのエンドツーエンドの最大1.83倍のスピードアップを実現している。

Most of today's computer vision pipelines are built around deep neural networks, where convolution operations require most of the generally high compute effort. The Winograd convolution algorithm computes convolutions with fewer MACs compared to the standard algorithm, reducing the operation count by a factor of 2.25x for 3x3 convolutions when using the version with 2x2-sized tiles $F_2$. Even though the gain is significant, the Winograd algorithm with larger tile sizes, i.e., $F_4$, offers even more potential in improving throughput and energy efficiency, as it reduces the required MACs by 4x. Unfortunately, the Winograd algorithm with larger tile sizes introduces numerical issues that prevent its use on integer domain-specific accelerators and higher computational overhead to transform input and output data between spatial and Winograd domains. To unlock the full potential of Winograd $F_4$, we propose a novel tap-wise quantization method that overcomes the numerical issues of using larger tiles, enabling integer-only inference. Moreover, we present custom hardware units that process the Winograd transformations in a power- and area-efficient way, and we show how to integrate such custom modules in an industrial-grade, programmable DSA. An extensive experimental evaluation on a large set of state-of-the-art computer vision benchmarks reveals that the tap-wise quantization algorithm makes the quantized Winograd $F_4$ network almost as accurate as the FP32 baseline. The Winograd-enhanced DSA achieves up to 1.85x gain in energy efficiency and up to 1.83x end-to-end speed-up for state-of-the-art segmentation and detection networks.
翻訳日:2022-09-28 15:18:06 公開日:2022-09-26
# 英語・韓国語・タミル語における言語間差重度分類

Cross-lingual Dysarthria Severity Classification for English, Korean, and Tamil ( http://arxiv.org/abs/2209.12942v1 )

ライセンス: Link先を確認
Eun Jung Yeo, Kwanhee Choi, Sunhee Kim, Minhwa Chung(参考訳) 本稿では,英語,韓国語,タミル語について,言語に依存しない特徴と言語統合特徴を併用した言語横断分類法を提案する。 まず,音声の質,発音,韻律などの多様さから,39個の特徴を抽出した。 第二に、各言語に最適な特徴を特定するために特徴選択が適用される。 3つの言語の特徴選択結果を比較することにより、共有された特徴の集合と特徴の集合を区別する。 最後に、2つの特徴セットを利用して自動重大度分類を行う。 特に、提案手法は言語によって異なる特徴を取り除き、他の言語特有の特徴の悪影響を防止する。 したがって、eXtreme Gradient Boosting (XGBoost)アルゴリズムは、欠落したデータを出力する強度のために分類に使用される。 提案手法の有効性を検証するために, 単言語特徴集合の交叉集合(Intersection)を用いた実験と, 単言語特徴集合の結合集合(Union)を用いた実験の2つの基礎実験を行った。 実験結果によると, この手法は67.14%のF1スコアで, インターセクション実験では64.52%, ユニオン実験では66.74%の成績を示した。 さらに,提案手法は,英語,韓国語,タミル語でそれぞれ17.67%,2.28%,7.79%の相対的な増加率を達成した。 その結果,多言語性難読度分類では,共通する特徴と言語固有の特徴を別々に考慮する必要があることが明らかになった。

This paper proposes a cross-lingual classification method for English, Korean, and Tamil, which employs both language-independent features and language-unique features. First, we extract thirty-nine features from diverse speech dimensions such as voice quality, pronunciation, and prosody. Second, feature selections are applied to identify the optimal feature set for each language. A set of shared features and a set of distinctive features are distinguished by comparing the feature selection results of the three languages. Lastly, automatic severity classification is performed, utilizing the two feature sets. Notably, the proposed method removes different features by languages to prevent the negative effect of unique features for other languages. Accordingly, eXtreme Gradient Boosting (XGBoost) algorithm is employed for classification, due to its strength in imputing missing data. In order to validate the effectiveness of our proposed method, two baseline experiments are conducted: experiments using the intersection set of mono-lingual feature sets (Intersection) and experiments using the union set of mono-lingual feature sets (Union). According to the experimental results, our method achieves better performance with a 67.14% F1 score, compared to 64.52% for the Intersection experiment and 66.74% for the Union experiment. Further, the proposed method attains better performances than mono-lingual classifications for all three languages, achieving 17.67%, 2.28%, 7.79% relative percentage increases for English, Korean, and Tamil, respectively. The result specifies that commonly shared features and language-specific features must be considered separately for cross-language dysarthria severity classification.
翻訳日:2022-09-28 15:15:45 公開日:2022-09-26
# Lex2Sent: 教師なし感情分析のためのバッグングアプローチ

Lex2Sent: A bagging approach to unsupervised sentiment analysis ( http://arxiv.org/abs/2209.13023v1 )

ライセンス: Link先を確認
Kai-Robin Lange, Jonas Rieger, Carsten Jentsch(参考訳) 教師なし感情分析は、伝統的に感情辞書に格納されたテキストにこれらの単語をカウントし、正と負の単語の割合に応じてラベルを割り当てる。 これらの「計数」法はテキストを決定論的に評価することで有益と考えられるが、解析されたテキストが短い場合や語彙が既定であると考えるものと異なる場合、分類率は低下する。 本論文で提案するモデルはlex2sentと呼ばれ,感情語彙法の分類を改善するための教師なし感情分析手法である。 この目的のためにDoc2Vecモデルを訓練し、文書埋め込みと感情辞書の正および負の部分の埋め込みの距離を決定する。 これらの距離は、再サンプリングされた文書上でDoc2Vecの複数の実行に対して評価され、分類タスクを実行するために平均化される。 本論文で検討した3つのベンチマークデータセットにおいて,提案するlex2sentは,vader のような最先端のlexica やオピニオン・レキシコンといった評価されたレキシコンを,分類率で上回っている。

Unsupervised sentiment analysis is traditionally performed by counting those words in a text that are stored in a sentiment lexicon and then assigning a label depending on the proportion of positive and negative words registered. While these "counting" methods are considered to be beneficial as they rate a text deterministically, their classification rates decrease when the analyzed texts are short or the vocabulary differs from what the lexicon considers default. The model proposed in this paper, called Lex2Sent, is an unsupervised sentiment analysis method to improve the classification of sentiment lexicon methods. For this purpose, a Doc2Vec-model is trained to determine the distances between document embeddings and the embeddings of the positive and negative part of a sentiment lexicon. These distances are then evaluated for multiple executions of Doc2Vec on resampled documents and are averaged to perform the classification task. For three benchmark datasets considered in this paper, the proposed Lex2Sent outperforms every evaluated lexicon, including state-of-the-art lexica like VADER or the Opinion Lexicon in terms of classification rate.
翻訳日:2022-09-28 15:15:15 公開日:2022-09-26
# MonoGraspNet: 単一のRGBイメージによる6-DoFグラフ作成

MonoGraspNet: 6-DoF Grasping with a Single RGB Image ( http://arxiv.org/abs/2209.13036v1 )

ライセンス: Link先を確認
Guangyao Zhai, Dianye Huang, Shun-Cheng Wu, Hyunjun Jung, Yan Di, Fabian Manhardt, Federico Tombari, Nassir Navab and Benjamin Busam(参考訳) 6-DoFロボットの把握は長続きするが未解決の問題だ。 近年の手法では、3Dネットワークを用いて深度センサから幾何学的把握表現を抽出し、一般的な物体に対して優れた精度を示すが、透明または反射性材料中の物体など、光学的に困難な物体に対して不満足に実行する。 ボトルネックは、これらの物体の表面が光の吸収や屈折によって正確な深さを反射できないことである。 本稿では,不正確な深度データを利用するのとは対照的に,安定な2次元特徴を利用したRGBのみの6-DoF把握パイプラインMonoGraspNetを提案する。 MonoGraspNetはキーポイントヒートマップとノーマルマップを利用して,2次元キーポイントと対応する深さ,把握方向,幅,角度をパラメータ化して表現した6-DoFグルーピングポーズを復元する。 実場面での広範囲な実験により,本手法は共通物体の把握において競争的な結果を達成し,光量的に挑戦する物体の把握において,深度ベースの競合相手を大きく超えることを証明した。 ロボット操作研究をさらに促進するために,20Mの正確な把握ラベルと120の混合光度複雑性のオブジェクトを含む多視点および多シーンの実世界の把握データセットを,アノテーションおよびオープンソース化した。

6-DoF robotic grasping is a long-lasting but unsolved problem. Recent methods utilize strong 3D networks to extract geometric grasping representations from depth sensors, demonstrating superior accuracy on common objects but perform unsatisfactorily on photometrically challenging objects, e.g., objects in transparent or reflective materials. The bottleneck lies in that the surface of these objects can not reflect back accurate depth due to the absorption or refraction of light. In this paper, in contrast to exploiting the inaccurate depth data, we propose the first RGB-only 6-DoF grasping pipeline called MonoGraspNet that utilizes stable 2D features to simultaneously handle arbitrary object grasping and overcome the problems induced by photometrically challenging objects. MonoGraspNet leverages keypoint heatmap and normal map to recover the 6-DoF grasping poses represented by our novel representation parameterized with 2D keypoints with corresponding depth, grasping direction, grasping width, and angle. Extensive experiments in real scenes demonstrate that our method can achieve competitive results in grasping common objects and surpass the depth-based competitor by a large margin in grasping photometrically challenging objects. To further stimulate robotic manipulation research, we additionally annotate and open-source a multi-view and multi-scene real-world grasping dataset, containing 120 objects of mixed photometric complexity with 20M accurate grasping labels.
翻訳日:2022-09-28 15:08:34 公開日:2022-09-26
# 分子特性予測のための表現学習からの反響

Taking a Respite from Representation Learning for Molecular Property Prediction ( http://arxiv.org/abs/2209.13492v1 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。 分子表現学習におけるAI技術のブームにもかかわらず、分子特性予測の根底にあるいくつかの重要な側面はまだ慎重に検討されていない。 本研究では, 3つの主要な分子表現, 拡張結合指紋, SMILES文字列, および分子グラフを用いた, ランダム森林, MolBERT および GROVER の3つの代表モデルについて, 系統的比較を行った。 特に、 MolBERT と GROVER は、自己制御された方法で、大規模未標識分子コーパスで事前訓練されている。 一般的なMoreculeNetベンチマークデータセットに加えて、下流予測評価のためのオピオイド関連データセットも組み立てました。 まずラベル分布と構造解析に関するデータセットのプロファイリングを行い,オピオイド関連データセットにおける活動崖問題についても検討した。 次に,予測モデル4,320を訓練し,学習表現の有用性を評価した。 さらに,統計的テスト,評価指標,タスク設定の効果について検討し,モデル評価について検討した。 最後に, 化学空間の一般化をスキャフォールド間およびスキャフォールド内一般化に分解し, モデル一般化性を評価する。 この苦難を乗り越えることで、我々は分子特性予測の根底にある重要な側面を反映し、この分野でより良いAI技術をもたらすことを願っている。

Artificial intelligence (AI) has been widely applied in drug discovery with a major task as molecular property prediction. Despite the boom of AI techniques in molecular representation learning, some key aspects underlying molecular property prediction haven't been carefully examined yet. In this study, we conducted a systematic comparison on three representative models, random forest, MolBERT and GROVER, which utilize three major molecular representations, extended-connectivity fingerprints, SMILES strings and molecular graphs, respectively. Notably, MolBERT and GROVER, are pretrained on large-scale unlabelled molecule corpuses in a self-supervised manner. In addition to the commonly used MoleculeNet benchmark datasets, we also assembled a suite of opioids-related datasets for downstream prediction evaluation. We first conducted dataset profiling on label distribution and structural analyses; we also examined the activity cliffs issue in the opioids-related datasets. Then, we trained 4,320 predictive models and evaluated the usefulness of the learned representations. Furthermore, we explored into the model evaluation by studying the effect of statistical tests, evaluation metrics and task settings. Finally, we dissected the chemical space generalization into inter-scaffold and intra-scaffold generalization and measured prediction performance to evaluate model generalizbility under both settings. By taking this respite, we reflected on the key aspects underlying molecular property prediction, the awareness of which can, hopefully, bring better AI techniques in this field.
翻訳日:2022-09-28 15:07:37 公開日:2022-09-26
# erase-net:自動車用レーダ信号の効率的なセグメンテーションネットワーク

ERASE-Net: Efficient Segmentation Networks for Automotive Radar Signals ( http://arxiv.org/abs/2209.12940v1 )

ライセンス: Link先を確認
Shihong Fang, Haoran Zhu, Devansh Bisla, Anna Choromanska, Satish Ravindran, Dongyin Ren, Ryan Wu(参考訳) 自律運転システムのための様々なセンサーのうち、自動車用レーダーは悪天候や照明条件でも堅牢で低コストなソリューションとみなされている。 近年,レーダ技術やアノテートデータセットのオープンソース化により,レーダ信号を用いたセマンティックセグメンテーションが非常に有望になった。 しかし、既存の手法は計算コストがかかるか、平均2次元平面に還元することで生の3Dレーダー信号からかなりの量の貴重な情報を破棄する。 本研究では,効率的なレーダセグメンテーションネットワークであるERASE-Netを導入し,生のレーダ信号を意味的に分割する。 本手法の核となるのが,レーダー信号の検出・制御法である。 まず各対象の中心点を検出し、次にコンパクトなレーダ信号表現を抽出し、最終的にセマンティックセグメンテーションを実行する。 本手法は,最先端(sota)手法と比較して,レーダセマンティクスセグメンテーションタスクにおいて優れた性能が得られることを示す。 さらに、我々の手法は最大20倍の計算資源を必要とする。 最後に,提案するERASE-Netは,性能が著しく低下することなく40%圧縮可能であることを示す。

Among various sensors for assisted and autonomous driving systems, automotive radar has been considered as a robust and low-cost solution even in adverse weather or lighting conditions. With the recent development of radar technologies and open-sourced annotated data sets, semantic segmentation with radar signals has become very promising. However, existing methods are either computationally expensive or discard significant amounts of valuable information from raw 3D radar signals by reducing them to 2D planes via averaging. In this work, we introduce ERASE-Net, an Efficient RAdar SEgmentation Network to segment the raw radar signals semantically. The core of our approach is the novel detect-then-segment method for raw radar signals. It first detects the center point of each object, then extracts a compact radar signal representation, and finally performs semantic segmentation. We show that our method can achieve superior performance on radar semantic segmentation task compared to the state-of-the-art (SOTA) technique. Furthermore, our approach requires up to 20x less computational resources. Finally, we show that the proposed ERASE-Net can be compressed by 40% without significant loss in performance, significantly more than the SOTA network, which makes it a more promising candidate for practical automotive applications.
翻訳日:2022-09-28 15:05:56 公開日:2022-09-26
# 不確かさ,小ささ,空の参照アノテーションのための医用画像分割モデルの評価

Evaluation of Medical Image Segmentation Models for Uncertain, Small or Empty Reference Annotations ( http://arxiv.org/abs/2209.13008v1 )

ライセンス: Link先を確認
Sophie Ostmeier, Brian Axelrod, Jeroen Bertels, Fabian Isensee, Maarten G.Lansberg, Soren Christensen, Gregory W. Albers, Li-Jia Li, Jeremy J. Heit(参考訳) 医用画像セグメンテーションモデルの性能指標は、参照アノテーションと予測との一致を測定するために用いられる。 共通のメトリクスのセットがそのようなモデルの開発に使われ、結果がより同等になる。 しかし、公開データセットの分布と臨床実践で遭遇した症例との間にはミスマッチがある。 多くの一般的な指標は、このミスマッチの影響を測ることに失敗し、特に不確実な、小さいまたは空の参照アノテーションを含む臨床データセットに対してである。 したがって、そのような指標によって臨床的に有意な合意のためにモデルは検証されない。 臨床的価値を評価する方法としては,参照アノテーションボリュームサイズからの独立性,参照アノテーションの不確実性の検討,ボリュームおよび/または位置合意の報奨,空参照アノテーションの正しい分類の報奨などが挙げられる。 一般的な公開データセットとは異なり、社内データセットはより代表的です。 未定、小または空の参照アノテーションを含んでいる。 本稿では,ディープラーニングフレームワークの予測に関する公開メトリクスについて検討し,一般的な指標が臨床的に有意な結果をもたらす条件を特定する。 我々は、不確実、小さい、または空の参照アノテーションなしで、公開ベンチマークデータセットと比較する。 コードは公開されます。

Performance metrics for medical image segmentation models are used to measure agreement between the reference annotation and the prediction. A common set of metrics is used in the development of such models to make results more comparable. However, there is a mismatch between the distributions in public data sets and cases encountered in clinical practice. Many common metrics fail to measure the impact of this mismatch, especially for clinical data sets containing uncertain, small or empty reference annotation. Thus, models may not be validated for clinically meaningful agreement by such metrics. Dimensions of evaluating clinical value include independence from reference annotation volume size, consideration of uncertainty of reference annotations, reward of volumetric and/or location agreement and reward of correct classification of empty reference annotations. Unlike common public data sets, our in-house data set is more representative. It contains uncertain, small or empty reference annotations. We examine publicly available metrics on the predictions of a deep learning framework in order to identify for which settings common metrics provide clinical meaningful results. We compare to a public benchmark data set without uncertain, small or empty reference annotations. The code will be published.
翻訳日:2022-09-28 14:58:06 公開日:2022-09-26
# 音声表現のための自己教師あり音声モデルの能力

The Ability of Self-Supervised Speech Models for Audio Representations ( http://arxiv.org/abs/2209.12900v1 )

ライセンス: Link先を確認
Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsu-Yuan Hsu, Hung-Yi Lee(参考訳) 自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めている。 1)ssl音声モデルは非音声を扱うことができるか? 異なるssl音声モデルは、オーディオ機能の様々な側面についての洞察を持つだろうか? 本稿では,現在最先端のSSL音声モデルであるwav2vec 2.0とHuBERTの表現能力を評価するために,豊富な音声および非音声音声データセットに関する広範な実験を行った。 これらの実験は、競争役が提供した標準的な評価パイプラインとして、NeurIPS 2021 HEAR Challengeで実施されている。 以上の結果から,(1) SSL音声モデルは,特定の種類のデータセットでフェールする一方で,幅広い非音声音声の特徴を抽出することができること,(2) 異なるSSL音声モデルが音声特徴の異なる側面についての洞察を得られること,などが示唆された。 2つの結論は、表現モデルのアンサンブルの基礎を提供する。 さらに,音声表現モデルの埋め込みを融合するアンサンブルフレームワークを提案する。 我々のフレームワークは最先端のSSL音声/オーディオモデルより優れており、HEAR Challengeの他のチームと比較すると、豊富なデータセットで一般的に優れている。 私たちのコードはhttps://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURAで公開されています。

Self-supervised learning (SSL) speech models have achieved unprecedented success in speech representation learning, but some questions regarding their representation ability remain unanswered. This paper addresses two of them: (1) Can SSL speech models deal with non-speech audio?; (2) Would different SSL speech models have insights into diverse aspects of audio features? To answer the two questions, we conduct extensive experiments on abundant speech and non-speech audio datasets to evaluate the representation ability of currently state-of-the-art SSL speech models, which are wav2vec 2.0 and HuBERT in this paper. These experiments are carried out during NeurIPS 2021 HEAR Challenge as a standard evaluation pipeline provided by competition officials. Results show that (1) SSL speech models could extract meaningful features of a wide range of non-speech audio, while they may also fail on certain types of datasets; (2) different SSL speech models have insights into different aspects of audio features. The two conclusions provide a foundation for the ensemble of representation models. We further propose an ensemble framework to fuse speech representation models' embeddings. Our framework outperforms state-of-the-art SSL speech/audio models and has generally superior performance on abundant datasets compared with other teams in HEAR Challenge. Our code is available at https://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURA.
翻訳日:2022-09-28 14:51:17 公開日:2022-09-26
# 多様性の最小化を再考する直近のゴールリラベルを理解する

Understanding Hindsight Goal Relabeling Requires Rethinking Divergence Minimization ( http://arxiv.org/abs/2209.13046v1 )

ライセンス: Link先を確認
Lunjun Zhang, Bradly C. Stadie(参考訳) 後視目標relabelingはマルチゴール強化学習(rl)の基礎的手法となっている。 任意の軌道は、軌道の終了状態に到達するための専門家のデモンストレーションと見なすことができる。 直感的には、この手順は準最適専門家を模倣するために目標条件の政策を訓練する。 しかし、模倣と後見のレラベルの関係はよく分かっていない。 現代の模倣学習アルゴリズムは、分散化の言語で説明されているが、後見目標をそのフレームワークに組み込む方法については、未解決の問題である。 本研究は、ゴール条件付き教師付き学習(GCSL)と、後見経験リプレイ(HER)における報酬関数を第一原理から導出できるようなコネを説明する、ゴール取得のための統一的な目的を開発する。 目的条件付き行動クローニング(BC)の最近の進歩にもかかわらず、マルチゴールQ-ラーニングはBCライクな手法よりも優れており、バニラの組み合わせはモデルの性能を実際に損なう。 われわれのフレームワークでは,BCがいつ役に立つかを調査し,その結果を実証的に検証する。 我々の研究は、目標達成と生成モデリングをさらに橋渡しし、生成モデルの成功をRLに拡張するためのニュアンスと新しい経路を描き出す。

Hindsight goal relabeling has become a foundational technique for multi-goal reinforcement learning (RL). The idea is quite simple: any arbitrary trajectory can be seen as an expert demonstration for reaching the trajectory's end state. Intuitively, this procedure trains a goal-conditioned policy to imitate a sub-optimal expert. However, this connection between imitation and hindsight relabeling is not well understood. Modern imitation learning algorithms are described in the language of divergence minimization, and yet it remains an open problem how to recast hindsight goal relabeling into that framework. In this work, we develop a unified objective for goal-reaching that explains such a connection, from which we can derive goal-conditioned supervised learning (GCSL) and the reward function in hindsight experience replay (HER) from first principles. Experimentally, we find that despite recent advances in goal-conditioned behaviour cloning (BC), multi-goal Q-learning can still outperform BC-like methods; moreover, a vanilla combination of both actually hurts model performance. Under our framework, we study when BC is expected to help, and empirically validate our findings. Our work further bridges goal-reaching and generative modeling, illustrating the nuances and new pathways of extending the success of generative models to RL.
翻訳日:2022-09-28 14:50:55 公開日:2022-09-26
# テキスト分類のための簡易かつ効率的なタスク適応型事前学習に向けて

Towards Simple and Efficient Task-Adaptive Pre-training for Text Classification ( http://arxiv.org/abs/2209.12943v1 )

ライセンス: Link先を確認
Arnav Ladkat, Aamir Miyajiwala, Samiksha Jagadale, Rekha Kulkarni, Raviraj Joshi(参考訳) 言語モデルは、書籍コーパス、コモンクロール、ウィキペディアのような大量の汎用データを用いて事前学習されており、言語の特徴を理解するのに欠かせない。 ドメイン適応事前訓練(DAPT)とタスク適応事前訓練(TAPT)を最終微調整作業の中間段階として用いることを提案する。 このステップは、ターゲットドメインの語彙をカバーし、下流タスクのモデルパフォーマンスを改善するのに役立つ。 本研究では,TAPTおよびタスク特化ファインタニング中のモデルの性能に及ぼす埋め込み層のみのトレーニングの影響について検討する。 本研究では,BERTモデルにおけるTAPTの中間ステップをより効率的にするための簡単な手法を提案する。 TAPT中のBERT埋め込み層のみのトレーニングは、ターゲットドメインの語彙に適応し、同等の性能を達成するのに十分であることを示す。 提案手法は計算効率が良く,taptでは78\%のパラメータがトレーニングされている。 提案する埋め込み層微細化手法は,効率的なドメイン適応手法である。

Language models are pre-trained using large corpora of generic data like book corpus, common crawl and Wikipedia, which is essential for the model to understand the linguistic characteristics of the language. New studies suggest using Domain Adaptive Pre-training (DAPT) and Task-Adaptive Pre-training (TAPT) as an intermediate step before the final finetuning task. This step helps cover the target domain vocabulary and improves the model performance on the downstream task. In this work, we study the impact of training only the embedding layer on the model's performance during TAPT and task-specific finetuning. Based on our study, we propose a simple approach to make the intermediate step of TAPT for BERT-based models more efficient by performing selective pre-training of BERT layers. We show that training only the BERT embedding layer during TAPT is sufficient to adapt to the vocabulary of the target domain and achieve comparable performance. Our approach is computationally efficient, with 78\% fewer parameters trained during TAPT. The proposed embedding layer finetuning approach can also be an efficient domain adaptation technique.
翻訳日:2022-09-28 14:41:40 公開日:2022-09-26
# タスク駆動型具体化エージェントのためのダイアログ

Dialog Acts for Task-Driven Embodied Agents ( http://arxiv.org/abs/2209.12953v1 )

ライセンス: Link先を確認
Spandana Gella, Aishwarya Padmakumar, Patrick Lange, Dilek Hakkani-Tur(参考訳) 具体化されたエージェントは、自然言語理解タスク記述と適切なフォローアップ質問で対話でき、幅広いユーザのためにタスクを成功させるのに効果的な必要な情報を得る必要がある。 本研究では,このようなダイアログをモデル化するためのダイアログのセットを提案し,3000以上のタスク指向会話(合計39.5k発声)を含むTEAChデータセットにアノテートする。 TEACh-DAは、ダイアログアクトアノテーションを具現化した最初の大規模データセットの1つである。 さらに、この注釈付きデータセットを、与えられた発話のダイアログ動作にタグ付けし、ダイアログ履歴を与えられた次の応答のダイアログ動作を予測する訓練モデルに使用し、ダイアログ動作を使用してエージェントの非ダイアログ動作をガイドする。 特に,実環境において実行すべき低レベルアクションのシーケンスをモデルが予測するダイアログ履歴タスクからの指導実行実験では,ダイアログ動作が,ダイアログ動作を行わないシステムと比較して,最大2ポイントのエンドタスク成功率を向上できることを実証する。

Embodied agents need to be able to interact in natural language understanding task descriptions and asking appropriate follow up questions to obtain necessary information to be effective at successfully accomplishing tasks for a wide range of users. In this work, we propose a set of dialog acts for modelling such dialogs and annotate the TEACh dataset that includes over 3,000 situated, task oriented conversations (consisting of 39.5k utterances in total) with dialog acts. TEACh-DA is one of the first large scale dataset of dialog act annotations for embodied task completion. Furthermore, we demonstrate the use of this annotated dataset in training models for tagging the dialog acts of a given utterance, predicting the dialog act of the next response given a dialog history, and use the dialog acts to guide agent's non-dialog behaviour. In particular, our experiments on the TEACh Execution from Dialog History task where the model predicts the sequence of low level actions to be executed in the environment for embodied task completion, demonstrate that dialog acts can improve end task success rate by up to 2 points compared to the system without dialog acts.
翻訳日:2022-09-28 14:30:47 公開日:2022-09-26
# 時間的ビデオグラウンドにおける事前学習言語モデルのパラメータ効率向上に向けて

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding ( http://arxiv.org/abs/2209.13359v1 )

ライセンス: Link先を確認
Erica K. Shimomoto, Edison Marrese-Taylor, Hiroya Takamura, Ichiro Kobayashi, Hideki Nakayama, Yusuke Miyao(参考訳) 本稿では,提案する自然言語クエリによって記述されたビデオ中のアクションインスタンスの時間的境界を認識し,決定することを目的とした,ビデオ検索(TVG)の課題について検討する。 最近の研究は、大規模事前学習言語モデル(PLM)を用いてクエリを直接符号化することで、この課題を解決する。 しかし,言語表現の改善効果の分離は困難であり,視覚入力の改善も提案されている。 さらに、これらのPLMは、TVGモデルをトレーニングする際の計算コストを大幅に向上させる。 そこで本研究では,TVG タスクにおける PLM の効果について検討し,アダプタに基づく NLP パラメータ効率の訓練方法の適用性を評価する。 一般的なplmと既存のアプローチを組み合わせることで、追加パラメータの影響を減らすために異なるアダプタをテストする。 3つの挑戦的データセットから得られた結果から,TVG モデルがタスク用に微調整された場合の PLM の恩恵が大きく,アダプタがタスク用に調整されていない場合でも,完全な微調整に代わる効果的な代替手段であることが示唆された。 具体的には、アダプタは計算コストを削減し、より大きなTVGモデルへのPLM統合を可能にし、最先端のモデルに匹敵する結果を提供する。 最後に、TVGのさまざまなタイプのアダプタをベンチマークすることで、研究対象のケースごとにどのアダプタが最適かが明らかになった。

This paper explores the task of Temporal Video Grounding (TVG) where, given an untrimmed video and a query sentence, the goal is to recognize and determine temporal boundaries of action instances in the video described by the provided natural language queries. Recent works solve this task by directly encoding the query using large pre-trained language models (PLM). However, isolating the effects of the improved language representations is difficult, as these works also propose improvements in the visual inputs. Furthermore, these PLMs significantly increase the computational cost of training TVG models. Therefore, this paper studies the effects of PLMs in the TVG task and assesses the applicability of NLP parameter-efficient training alternatives based on adapters. We couple popular PLMs with a selection of existing approaches and test different adapters to reduce the impact of the additional parameters. Our results on three challenging datasets show that TVG models could greatly benefit from PLMs when these are fine-tuned for the task and that adapters are an effective alternative to full fine-tuning, even though they are not tailored for our task. Concretely, adapters helped save on computational cost, allowing PLM integration in larger TVG models and delivering results comparable to the state-of-the-art models. Finally, through benchmarking different types of adapters in TVG, our results shed light on what kind of adapters work best for each studied case.
翻訳日:2022-09-28 14:30:27 公開日:2022-09-26
# 液体構造状態空間モデル

Liquid Structural State-Space Models ( http://arxiv.org/abs/2209.12951v1 )

ライセンス: Link先を確認
Ramin Hasani, Mathias Lechner, Tsun-Hsuan Wang, Makram Chahine, Alexander Amini, Daniela Rus(参考訳) 線形状態空間モデル(SSM)の状態遷移行列の適切なパラメータ化と標準非線形性により、シーケンシャルデータから表現を効率よく学習し、多数の長距離シーケンスモデリングベンチマーク上で最先端のモデルを確立することができる。 本稿では,S4 のような構造的 SSM が線形液体時間定数 (LTC) 状態空間モデルによって与えられる場合,さらに改善可能であることを示す。 LTCニューラルネットワークは、入力依存状態遷移モジュールを備えた因果的連続時間ニューラルネットワークであり、推論時に入力に適応することを学ぶ。 本稿では,S4 で導入された状態遷移行列の対角的および低ランク分解といくつかの単純化により,Long-Range Arena ベンチマークで平均87.32%の性能で,画像,テキスト,オーディオ,医療時系列などの長期依存性を持つシーケンスモデリングタスクを対象とする,LCC ベースの構造状態空間モデル,Liquid-S4 を新たに実現したことを示す。 全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。 パフォーマンスのさらなる向上は、トレーニングと推論中の入力シーケンスサンプルの類似性を考慮したliquid-s4のカーネル構造による直接的な結果である。

A proper parametrization of state transition matrices of linear state-space models (SSMs) followed by standard nonlinearities enables them to efficiently learn representations from sequential data, establishing the state-of-the-art on a large series of long-range sequence modeling benchmarks. In this paper, we show that we can improve further when the structural SSM such as S4 is given by a linear liquid time-constant (LTC) state-space model. LTC neural networks are causal continuous-time neural networks with an input-dependent state transition module, which makes them learn to adapt to incoming inputs at inference. We show that by using a diagonal plus low-rank decomposition of the state transition matrix introduced in S4, and a few simplifications, the LTC-based structural state-space model, dubbed Liquid-S4, achieves the new state-of-the-art generalization across sequence modeling tasks with long-term dependencies such as image, text, audio, and medical time-series, with an average performance of 87.32% on the Long-Range Arena benchmark. On the full raw Speech Command recognition, dataset Liquid-S4 achieves 96.78% accuracy with a 30% reduction in parameter counts compared to S4. The additional gain in performance is the direct result of the Liquid-S4's kernel structure that takes into account the similarities of the input sequence samples during training and inference.
翻訳日:2022-09-28 14:24:57 公開日:2022-09-26
# 地域競争による活性化学習

Activation Learning by Local Competitions ( http://arxiv.org/abs/2209.13400v1 )

ライセンス: Link先を確認
Hongchao Zhou(参考訳) ディープラーニングの成功を促すバックプロパゲーションは、おそらく脳の学習メカニズムとは異なるものだ。 本稿では,ヘッブの有名な提案に倣って,神経細胞間の局所的な競争の特徴を発見する生物学に基づく学習ルールを開発する。 この局所学習規則によって学習された教師なし特徴が,教師なし学習タスクの性能向上のための事前学習モデルとして機能することが実証された。 さらに重要なことは、この局所学習規則によって、ニューラルネットワークの出力活性化が入力パターンの確率を大まかに測定する、活性化学習と呼ばれる、バックプロパゲーションとは異なる新しい学習パラダイムを構築することができます。 アクティベーション学習は、少数の入力パターンから豊富な局所特徴を学習することができ、トレーニングサンプルの数が比較的少ない場合、バックプロパゲーションアルゴリズムよりもはるかに優れた性能を示す。 この学習パラダイムは教師なし学習、教師なし学習、生成モデルを統合すると同時に、敵の攻撃に対してより安全であり、汎用的なタスクニューラルネットワークを作成する可能性への道を開く。

The backpropagation that drives the success of deep learning is most likely different from the learning mechanism of the brain. In this paper, we develop a biology-inspired learning rule that discovers features by local competitions among neurons, following the idea of Hebb's famous proposal. It is demonstrated that the unsupervised features learned by this local learning rule can serve as a pre-training model to improve the performance of some supervised learning tasks. More importantly, this local learning rule enables us to build a new learning paradigm very different from the backpropagation, named activation learning, where the output activation of the neural network roughly measures how probable the input patterns are. The activation learning is capable of learning plentiful local features from few shots of input patterns, and demonstrates significantly better performances than the backpropagation algorithm when the number of training samples is relatively small. This learning paradigm unifies unsupervised learning, supervised learning and generative models, and is also more secure against adversarial attack, paving a road to some possibilities of creating general-task neural networks.
翻訳日:2022-09-28 14:24:03 公開日:2022-09-26
# FaRO 2: リアルタイム分散ビジョンとバイオメトリックシステムのためのオープンソースで構成可能なスマートシティフレームワーク

FaRO 2: an Open Source, Configurable Smart City Framework for Real-Time Distributed Vision and Biometric Systems ( http://arxiv.org/abs/2209.12962v1 )

ライセンス: Link先を確認
Joel Brogan and Nell Barber and David Cornett and David Bolme(参考訳) 近年のスマートシティのグローバルな成長は、研究開発への数十億ドルの投資につながっている。 これらの都市は、テクノロジーと社会の共生を生み出し、生活費、安全、生態学的持続可能性、社会の質を世界規模で変革する可能性がある。 スマートシティ構築の重要な構成要素は、スマートグリッド、自動運転車、連邦学習システム、スマートユーティリティ、大規模公共交通機関、アクティブな監視システムである。 将来性はエキサイティングだが、これらの技術とその後の統合は、そのような高度な自動化とデータ共有の潜在的な社会的影響に対処せずには試みられない。 さらに、多くの異なるタスクをコーディネートする可能性は、高速で拡張可能な統一フレームワークを必要とします。 そのために、ゼロから構築された完全に再設計されたFaRO1の後継であるFaRO2を提案する。 FaRO2は以前のものと同じ機能を備えており、シームレスな評価、デプロイメント、異種バイオメトリックソフトウェアのための単純なパイプライン生成を可能にする、統一されたバイオメトリックAPIハーネスとして機能する。 FaRO2はまた、カスタム機械学習とセンサーパイプラインを定義し、調整するための完全に宣言的な機能を提供する。 FaRO2は、メンテナンスを中断することなく、迅速に設定し、ホットスワップし、大規模な協調システムや連合システムをオンラインで拡張する方法を提供する。 スマートシティで収集されたデータの多くはPersonally Identifying Information (PII)を含んでいるため、FaRO2はまた、セキュアで暗号化されたストリーミング、ストレージ、分散システム間のPIIデータのアクセスを保証するための組み込みツールとレイヤも提供する。

Recent global growth in the interest of smart cities has led to trillions of dollars of investment toward research and development. These connected cities have the potential to create a symbiosis of technology and society and revolutionize the cost of living, safety, ecological sustainability, and quality of life of societies on a world-wide scale. Some key components of the smart city construct are connected smart grids, self-driving cars, federated learning systems, smart utilities, large-scale public transit, and proactive surveillance systems. While exciting in prospect, these technologies and their subsequent integration cannot be attempted without addressing the potential societal impacts of such a high degree of automation and data sharing. Additionally, the feasibility of coordinating so many disparate tasks will require a fast, extensible, unifying framework. To that end, we propose FaRO2, a completely reimagined successor to FaRO1, built from the ground up. FaRO2 affords all of the same functionality as its predecessor, serving as a unified biometric API harness that allows for seamless evaluation, deployment, and simple pipeline creation for heterogeneous biometric software. FaRO2 additionally provides a fully declarative capability for defining and coordinating custom machine learning and sensor pipelines, allowing the distribution of processes across otherwise incompatible hardware and networks. FaRO2 ultimately provides a way to quickly configure, hot-swap, and expand large coordinated or federated systems online without interruptions for maintenance. Because much of the data collected in a smart city contains Personally Identifying Information (PII), FaRO2 also provides built-in tools and layers to ensure secure and encrypted streaming, storage, and access of PII data across distributed systems.
翻訳日:2022-09-28 14:22:48 公開日:2022-09-26
# EPIC-KITCHENS VISORベンチマーク:Videoセグメンテーションとオブジェクト関係

EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations ( http://arxiv.org/abs/2209.13064v1 )

ライセンス: Link先を確認
Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, Dima Damen(参考訳) 我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックビデオにおける手とアクティブオブジェクトのセグメンテーションのためのベンチマークスイートを紹介する。 VISORはEPIC-KITCHENSのビデオに注釈を付けている。 具体的には、タマネギを剥がし、ダイクし、調理するなど、変形的な相互作用を行うオブジェクトとして、ピクセルレベルのアノテーションの短期的および長期的一貫性を確保する必要がある。 VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。 対象のクラス257、補間された密閉マスク9.9M、67Kのハンドオブジェクト関係の合計272Kのセマンティックマスクを公開しました。 アノテーションとともに,ビデオオブジェクトセグメンテーション,インタラクション理解,長期推論の3つの課題を紹介した。 データ、コード、リーダーボード:http://epic-kitchens.github.io/VISOR

We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specifically, we need to ensure both short- and long-term consistency of pixel-level annotations as objects undergo transformative interactions, e.g. an onion is peeled, diced and cooked - where we aim to obtain accurate pixel-level annotations of the peel, onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR introduces an annotation pipeline, AI-powered in parts, for scalability and quality. In total, we publicly release 272K manual semantic masks of 257 object classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36 hours of 179 untrimmed videos. Along with the annotations, we introduce three challenges in video object segmentation, interaction understanding and long-term reasoning. For data, code and leaderboards: http://epic-kitchens.github.io/VISOR
翻訳日:2022-09-28 14:22:20 公開日:2022-09-26
# 学習した力場は、基底状態の触媒発見の準備ができている

Learned Force Fields Are Ready For Ground State Catalyst Discovery ( http://arxiv.org/abs/2209.12466v1 )

ライセンス: Link先を確認
Michael Schaarschmidt, Morgane Riviere, Alex M. Ganose, James S. Spencer, Alexander L. Gaunt, James Kirkpatrick, Simon Axelrod, Peter W. Battaglia, Jonathan Godwin(参考訳) 密度汎関数理論(`dft'')の学習された力場は基底状態触媒の発見の準備ができていることを示す。 我々の重要な発見は、学習電位からの力による緩和は、予測された力が基底の真理と大きく異なるにもかかわらず、RPBE関数を50%以上の評価系で緩和した構造と類似または低エネルギーな構造をもたらすことである。 これは、Open Catalyst 2020データセットに見られるような、挑戦的な触媒システムにおいて、学習したポテンシャルがDFTを置き換える準備ができている、という驚くべき意味を持つ。 さらに,対象のdftエネルギーと同じ極小の局所高調波エネルギー面上で訓練された力場は,50/%以上のケースで低レベルあるいは類似したエネルギー構造を見つけることができることを示した。 この「簡単なポテンシャル」は、真のエネルギーと力で訓練された標準モデルよりも少ないステップで収束し、計算をさらに加速する。 学習されたポテンシャルは、モデルに高い力の誤差がある場合でも、エネルギーの最小値を見つけることができる。 構造最適化の主な要件は、学習するポテンシャルが正しい極小を持つことである。 学習されたポテンシャルはシステムサイズと線形に高速でスケールするため、我々の結果は大規模システムの基底状態が迅速に見つかる可能性を開く。

We present evidence that learned density functional theory (``DFT'') force fields are ready for ground state catalyst discovery. Our key finding is that relaxation using forces from a learned potential yields structures with similar or lower energy to those relaxed using the RPBE functional in over 50\% of evaluated systems, despite the fact that the predicted forces differ significantly from the ground truth. This has the surprising implication that learned potentials may be ready for replacing DFT in challenging catalytic systems such as those found in the Open Catalyst 2020 dataset. Furthermore, we show that a force field trained on a locally harmonic energy surface with the same minima as a target DFT energy is also able to find lower or similar energy structures in over 50\% of cases. This ``Easy Potential'' converges in fewer steps than a standard model trained on true energies and forces, which further accelerates calculations. Its success illustrates a key point: learned potentials can locate energy minima even when the model has high force errors. The main requirement for structure optimisation is simply that the learned potential has the correct minima. Since learned potentials are fast and scale linearly with system size, our results open the possibility of quickly finding ground states for large systems.
翻訳日:2022-09-27 18:40:20 公開日:2022-09-26
# モデルベースとニューラルネットワークフィードフォワードの統一:線形自己回帰ダイナミクスを用いた物理誘導ニューラルネットワーク

Unifying Model-Based and Neural Network Feedforward: Physics-Guided Neural Networks with Linear Autoregressive Dynamics ( http://arxiv.org/abs/2209.12489v1 )

ライセンス: Link先を確認
Johan Kon, Dennis Bruijnen, Jeroen van de Wijdeven, Marcel Heertjes, Tom Oomen(参考訳) 未知非線形ダイナミクスはしばしばフィードフォワード制御のトラッキング性能を制限する。 本研究の目的は、普遍関数近似器を用いて未知の非線形ダイナミクスを補償できるフィードフォワード制御フレームワークを開発することである。 feedforwardコントローラは、物理ベースのモデルとニューラルネットワークの並列結合としてパラメータ化され、どちらも同じ線形自己回帰(ar)ダイナミクスを共有する。 このパラメータ化により、sanathanan-koerner(sk)反復による効率的な出力エラー最適化が可能になる。 各SKイテレーション内では、ニューラルネットワークの出力は直交射影に基づく正規化を通じて物理モデルの部分空間でペナル化され、ニューラルネットワークは非モデル化されたダイナミクスのみをキャプチャし、解釈可能なモデルをもたらす。

Unknown nonlinear dynamics often limit the tracking performance of feedforward control. The aim of this paper is to develop a feedforward control framework that can compensate these unknown nonlinear dynamics using universal function approximators. The feedforward controller is parametrized as a parallel combination of a physics-based model and a neural network, where both share the same linear autoregressive (AR) dynamics. This parametrization allows for efficient output-error optimization through Sanathanan-Koerner (SK) iterations. Within each SK-iteration, the output of the neural network is penalized in the subspace of the physics-based model through orthogonal projection-based regularization, such that the neural network captures only the unmodelled dynamics, resulting in interpretable models.
翻訳日:2022-09-27 18:39:55 公開日:2022-09-26
# 多階層ブーストニューラルネットワークを用いたマルチ時間ヘッドドスト指数予測

Multi-Hour Ahead Dst Index Prediction Using Multi-Fidelity Boosted Neural Networks ( http://arxiv.org/abs/2209.12571v1 )

ライセンス: Link先を確認
A. Hu, E. Camporeale, B. Swiger(参考訳) 外乱嵐時間(dst)指数は、リング電流強度の指標として広く用いられており、それゆえ地磁気活動の指標となっている。 地磁気赤道領域の4つの地磁気センサの測定から導かれる。 1時間から6時間のリードタイムで$Dst$を予測する新しいモデルを提案する。 このモデルは、太陽風パラメータを用いて訓練されたGRU(Gated Recurrent Unit)ネットワークを用いて最初に開発された。 次に、ACCRUE法[Camporeale et al. 2021]を用いて、$Dst$モデルの不確実性を推定する。 最後に,モデルの精度を高め,それに伴う不確実性を低減するため,多相強化法を開発した。 開発されたモデルは、13.54$\mathrm{nT}$のルート平均二乗誤差(RMSE)を6時間前に予測できる。 これは永続化モデルと単純なGRUモデルよりもはるかに優れている。

The Disturbance storm time (Dst) index has been widely used as a proxy for the ring current intensity, and therefore as a measure of geomagnetic activity. It is derived by measurements from four ground magnetometers in the geomagnetic equatorial regions. We present a new model for predicting $Dst$ with a lead time between 1 and 6 hours. The model is first developed using a Gated Recurrent Unit (GRU) network that is trained using solar wind parameters. The uncertainty of the $Dst$ model is then estimated by using the ACCRUE method [Camporeale et al. 2021]. Finally, a multi-fidelity boosting method is developed in order to enhance the accuracy of the model and reduce its associated uncertainty. It is shown that the developed model can predict $Dst$ 6 hours ahead with a root-mean-square-error (RMSE) of 13.54 $\mathrm{nT}$. This is significantly better than the persistence model and a simple GRU model.
翻訳日:2022-09-27 18:39:41 公開日:2022-09-26
# wls-ekf状態推定と機械学習を用いた電力系統異常検出と分類

Power System Anomaly Detection and Classification Utilizing WLS-EKF State Estimation and Machine Learning ( http://arxiv.org/abs/2209.12629v1 )

ライセンス: Link先を確認
Sajjad Asefi, Mile Mitrovic, Dragan \'Cetenovi\'c, Victor Levi, Elena Gryazina, Vladimir Terzija(参考訳) 電力系統の状態推定は様々な種類の異常に直面している。 これらは、粗大な測定エラーや通信システム障害に起因する悪いデータを含むかもしれない。 負荷や発生の突然の変化は、実装された状態推定方法によって異常と見なすことができる。 さらに、電力網をサイバー物理システムとして考えると、状態推定は偽のデータ注入攻撃に対して脆弱になる。 既存の異常分類法は、上記の3種類の異常を正確に分類(区別)することはできない。 本稿では,異常の存在を検知し,異常タイプを分類し,異常の発生源を特定する新しいアルゴリズム,すなわち,悪いデータの場合の総誤差を含む測定値,突然変化した負荷に関連するバス,あるいは偽データインジェクション攻撃の対象とする状態変数を提案する。 このアルゴリズムは分析と機械学習(ML)のアプローチを組み合わせる。 第1段階では,$\chi^2$-test と anomaly detection index を組み合わせることで異常検出を行う。 第2段階はmlを用いて異常タイプを分類し、その起源を識別し、特に突発的な負荷変化と偽データ注入攻撃の区別について説明する。 提案手法は,ネットワークトポロジ変更後のアルゴリズムの再学習を排除するネットワーク構成に依存しないよう訓練されている。 IEEE 14バステストシステムに提案アルゴリズムを実装した結果,提案アルゴリズムの精度と有効性を示した。

Power system state estimation is being faced with different types of anomalies. These might include bad data caused by gross measurement errors or communication system failures. Sudden changes in load or generation can be considered as anomaly depending on the implemented state estimation method. Additionally, considering power grid as a cyber physical system, state estimation becomes vulnerable to false data injection attacks. The existing methods for anomaly classification cannot accurately classify (discriminate between) the above-mentioned three types of anomalies, especially when it comes to discrimination between sudden load changes and false data injection attacks. This paper presents a new algorithm for detecting anomaly presence, classifying the anomaly type and identifying the origin of the anomaly, i.e., measurements that contain gross errors in case of bad data, or bus(es) associated with load(s) experiencing a sudden change, or state variables targeted by false data injection attack. The algorithm combines analytical and machine learning (ML) approaches. The first stage exploits an analytical approach to detect anomaly presence by combining $\chi^2$-test and anomaly detection index. The second stage utilizes ML for the classification of anomaly type and identification of its origin, with particular reference to discrimination between sudden load changes and false data injection attacks. The proposed ML based method is trained to be independent of the network configuration which eliminates retraining of the algorithm after network topology changes. The results obtained by implementing the proposed algorithm on IEEE 14 bus test system demonstrate the accuracy and effectiveness of the proposed algorithm.
翻訳日:2022-09-27 18:39:26 公開日:2022-09-26
# 協調型エネルギーシステムにおけるガスネットワークモデル改善のための機械学習

Machine Learning for Improved Gas Network Models in Coordinated Energy Systems ( http://arxiv.org/abs/2209.12731v1 )

ライセンス: Link先を確認
Adriano Arrigo, Mih\'aly Dol\'anyi, Kenneth Bruninx, Jean-Fran\c{c}ois Toubeau(参考訳) 現在のエネルギー遷移は、電力と天然ガスシステム間の運転の収束を促進する。 この方向では、コーディネートパワーとガスディスパッチ内の非凸天然ガスフローダイナミクスのモデリングを改善するために最重要となる。 本研究では,教師付き機械学習に基づくweymouth方程式の回帰モデルを含む,ニューラルネットワークによる最適化手法を提案する。 ウェイマス方程式は、ガスの流れを各パイプラインの入口圧力と出口圧力とを、ニューラルネットワークによって捕捉される二次等式で結びつける。 後者は扱いやすい混合整数線形プログラムを通して制約の集合に符号化される。 さらに,本提案フレームワークは,複雑かつ不正確な凸化アプローチを伴わずに双方向性を検討することができる。 さらに, 活性化関数の再構成を導入することで, 計算効率を向上させることにより, モデルをさらに強化する。 実生活ベルギーの電力・ガスシステムに基づく広範な数値研究により,提案手法は精度とトラクタビリティの観点から有望な結果をもたらすことが示された。

The current energy transition promotes the convergence of operation between the power and natural gas systems. In that direction, it becomes paramount to improve the modeling of non-convex natural gas flow dynamics within the coordinated power and gas dispatch. In this work, we propose a neural-network-constrained optimization method which includes a regression model of the Weymouth equation, based on supervised machine learning. The Weymouth equation links gas flow to inlet and outlet pressures for each pipeline via a quadratic equality, which is captured by a neural network. The latter is encoded via a tractable mixed-integer linear program into the set of constraints. In addition, our proposed framework is capable of considering bidirectionality without having recourse to complex and potentially inaccurate convexification approaches. We further enhance our model by introducing a reformulation of the activation function, which improves the computational efficiency. An extensive numerical study based on the real-life Belgian power and gas systems shows that the proposed methodology yields promising results in terms of accuracy and tractability.
翻訳日:2022-09-27 18:38:58 公開日:2022-09-26
# 電力系統の運転リスク評価のためのジャストインタイム学習

Just-In-Time Learning for Operational Risk Assessment in Power Grids ( http://arxiv.org/abs/2209.12762v1 )

ライセンス: Link先を確認
Oliver Stover, Pranav Karve, Sankaran Mahadevan, Wenbo Chen, Haoruo Zhao, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 再生可能エネルギーのかなりのシェアを持つグリッドでは、負荷と発電のボラティリティの増加による運転リスクを評価するための追加のツールが必要である。 セキュリティ制約付き経済派遣(SCED)最適化を多数解決しなければならない前方不確実性伝播問題の計算要求は、そのようなリアルタイムリスク評価の大きな障壁である。 本稿では,Just-In-Time Risk Assessment Learning Framework (JITRALF) を代替として提案する。 JITRALFは、SCED問題を明示的に解決することなく、リスクを見積るために必要な量を予測するために機械学習(ML)を使用して、1日毎のリスク代理をトレーニングする。 これは前方の不確実性伝播の計算負荷を大幅に削減し、高速でリアルタイムなリスク推定を可能にする。 また,新しい非対称損失関数を提案し,非対称損失を用いたモデルが非対称損失関数を用いたモデルよりも優れた性能を示す。 JITRALFは、運転準備不足のリスク、負荷削減のリスク、期待される運転コストを評価するために、フランスの送信システム上で評価される。

In a grid with a significant share of renewable generation, operators will need additional tools to evaluate the operational risk due to the increased volatility in load and generation. The computational requirements of the forward uncertainty propagation problem, which must solve numerous security-constrained economic dispatch (SCED) optimizations, is a major barrier for such real-time risk assessment. This paper proposes a Just-In-Time Risk Assessment Learning Framework (JITRALF) as an alternative. JITRALF trains risk surrogates, one for each hour in the day, using Machine Learning (ML) to predict the quantities needed to estimate risk, without explicitly solving the SCED problem. This significantly reduces the computational burden of the forward uncertainty propagation and allows for fast, real-time risk estimation. The paper also proposes a novel, asymmetric loss function and shows that models trained using the asymmetric loss perform better than those using symmetric loss functions. JITRALF is evaluated on the French transmission system for assessing the risk of insufficient operating reserves, the risk of load shedding, and the expected operating cost.
翻訳日:2022-09-27 18:38:41 公開日:2022-09-26
# ソーシャルネットワークにおけるコミュニティ構造の直接比較に向けて

Towards Direct Comparison of Community Structures in Social Networks ( http://arxiv.org/abs/2209.12841v1 )

ライセンス: Link先を確認
Soumita Das, Anupam Biswas(参考訳) コミュニティ検出アルゴリズムは、異なるアルゴリズムで得られたコミュニティの評価メトリック値を比較することで一般に評価される。 コミュニティの品質を測定するために使用される評価指標には、コミュニティ内外のノードの接続のようなエンティティのトポロジー情報が含まれている。 しかし、計量値を比較する一方で、比較プロセスにおいてコミュニティのトポロジー情報に直接関与することはない。 本稿では、2つのアルゴリズムで得られたコミュニティのトポロジカルな情報を直接比較する直接比較手法を提案する。 地域社会のトポロジ的情報の直接比較に基づいて, 品質指標, すなわち, 位相的変動 (TV) を設計する。 新たに設計された品質指標を考えると、2つのランキング方式が開発されている。 提案手法の有効性を,8つの実世界のデータセットと6つのコミュニティ検出アルゴリズムを用いて検討した。

Community detection algorithms are in general evaluated by comparing evaluation metric values for the communities obtained with different algorithms. The evaluation metrics that are used for measuring quality of the communities incorporate the topological information of entities like connectivity of the nodes within or outside the communities. However, while comparing the metric values it loses direct involvement of topological information of the communities in the comparison process. In this paper, a direct comparison approach is proposed where topological information of the communities obtained with two algorithms are compared directly. A quality measure namely \emph{Topological Variance (TV)} is designed based on direct comparison of topological information of the communities. Considering the newly designed quality measure, two ranking schemes are developed. The efficacy of proposed quality metric as well as the ranking scheme is studied with eight widely used real-world datasets and six community detection algorithms.
翻訳日:2022-09-27 18:38:23 公開日:2022-09-26
# 変分模倣演算子ネットワーク

Variationally Mimetic Operator Networks ( http://arxiv.org/abs/2209.12871v1 )

ライセンス: Link先を確認
Dhruv Patel, Deep Ray, Michael R. A. Abdelmalik, Thomas J. R. Hughes, Assad A. Oberai(参考訳) 演算子ネットワークは偏微分方程式(PDE)の解を近似するための有望なディープラーニングツールとして登場した。 これらのネットワークは、材料特性を記述する入力関数をマッピングし、関数と境界データをpdeの解に強制する。 本研究は,問題の変動あるいは弱い定式化の近似から得られる数値解の形式を模倣した,演算子ネットワークのための新しいアーキテクチャを記述する。 これらのアイデアの汎用楕円型PDEへの応用は、変動緩和作用素ネットワーク(VarMiON)につながる。 従来のDeep Operator Network(DeepONet)と同様に、VarMiONは出力の基底関数を構成するサブネットワークと、これらの基底関数の係数を構成するサブネットワークで構成されている。 しかし、DeepONetとは対照的に、VarMiONではこれらのネットワークのアーキテクチャが正確に決定されている。 VarMiONソリューションにおけるエラーの分析では、トレーニングデータにおけるエラー、トレーニングエラー、サンプリング入力および出力関数における二次誤差、およびトレーニングデータセットにおけるテスト入力関数と最も近い関数の間の距離を測定する"カバレッジエラー"が含まれていることが明らかになった。 また、厳密なネットワークの安定性定数と、その変量近似にも依存する。 標準楕円型PDEへのVarMiONの適用により、およそ同じ数のネットワークパラメータに対して、VarMiONは標準のDeepONetよりも小さなエラーを発生させることが明らかになった。 さらに、その性能は、入力関数のバリエーション、入力関数と出力関数をサンプリングするのに使用される技術、基本関数を構築するのに使用される技術、入力関数の数に対してより堅牢である。

Operator networks have emerged as promising deep learning tools for approximating the solution to partial differential equations (PDEs). These networks map input functions that describe material properties, forcing functions and boundary data to the solution of a PDE. This work describes a new architecture for operator networks that mimics the form of the numerical solution obtained from an approximation of the variational or weak formulation of the problem. The application of these ideas to a generic elliptic PDE leads to a variationally mimetic operator network (VarMiON). Like the conventional Deep Operator Network (DeepONet) the VarMiON is also composed of a sub-network that constructs the basis functions for the output and another that constructs the coefficients for these basis functions. However, in contrast to the DeepONet, in the VarMiON the architecture of these networks is precisely determined. An analysis of the error in the VarMiON solution reveals that it contains contributions from the error in the training data, the training error, quadrature error in sampling input and output functions, and a "covering error" that measures the distance between the test input functions and the nearest functions in the training dataset. It also depends on the stability constants for the exact network and its VarMiON approximation. The application of the VarMiON to a canonical elliptic PDE reveals that for approximately the same number of network parameters, on average the VarMiON incurs smaller errors than a standard DeepONet. Further, its performance is more robust to variations in input functions, the techniques used to sample the input and output functions, the techniques used to construct the basis functions, and the number of input functions.
翻訳日:2022-09-27 18:38:11 公開日:2022-09-26
# FORESEE: Unscented Transform を用いたモデルに基づく強化学習と制御バリア関数のチューニング

FORESEE: Model-based Reinforcement Learning using Unscented Transform with application to Tuning of Control Barrier Functions ( http://arxiv.org/abs/2209.12644v1 )

ライセンス: Link先を確認
Hardik Parwana and Dimitra Panagou(参考訳) 本稿では,不確実性を利用したオンラインモデルに基づく強化学習アルゴリズムを提案する。 事前のアプローチでは、予測水平線の各ステップにおける状態分布をガウシアンと近似するか、あるいはモンテカルロシミュレーションを行い、報酬を推定する。 本手法は,採用するシグマ点の数に応じて,極小点に対する平均および共分散あるいはモンテカルロと同様により多くの点を持つ高次モーメントを伝播することができる。 フレームワーク全体がオンライントレーニングのための計算グラフとして実装されている。 さらに,汎用状態依存不確実性モデルを通じて伝播するシグマ点数の爆発を防止するために,モーメントマッチングの原理を用いて設計されたシグマ点拡大と縮小層をグラフに追加する。 最後に,逐次二次計画法に触発された勾配降下法を提案し,状態制約が存在する場合にポリシーパラメータを更新する。 提案手法をシミュレーションに2つの応用例で示す。 最初のものは、状態依存の不確かさでダイナミクスが知られているとき、カートポール問題の安定化制御器を設計する。 第2の例は、前回の作業に続いて、入力制約が存在する場合、リーダフォロー問題に対する制御バリア関数ベースの二次プログラミングコントローラのパラメータをチューニングします。

In this paper, we introduce a novel online model-based reinforcement learning algorithm that uses Unscented Transform to propagate uncertainty for the prediction of the future reward. Previous approaches either approximate the state distribution at each step of the prediction horizon with a Gaussian, or perform Monte Carlo simulations to estimate the rewards. Our method, depending on the number of sigma points employed, can propagate either mean and covariance with minimal points, or higher-order moments with more points similarly to Monte Carlo. The whole framework is implemented as a computational graph for online training. Furthermore, in order to prevent explosion in the number of sigma points when propagating through a generic state-dependent uncertainty model, we add sigma-point expansion and contraction layers to our graph, which are designed using the principle of moment matching. Finally, we propose gradient descent inspired by Sequential Quadratic Programming to update policy parameters in the presence of state constraints. We demonstrate the proposed method with two applications in simulation. The first one designs a stabilizing controller for the cart-pole problem when the dynamics is known with state-dependent uncertainty. The second example, following up on our previous work, tunes the parameters of a control barrier function-based Quadratic Programming controller for a leader-follower problem in the presence of input constraints.
翻訳日:2022-09-27 18:37:27 公開日:2022-09-26
# 部分視覚支援を用いた音声認識のためのマルチエンコーダアテンションベースアーキテクチャ

Multi-encoder attention-based architectures for sound recognition with partial visual assistance ( http://arxiv.org/abs/2209.12826v1 )

ライセンス: Link先を確認
Wim Boes, Hugo Van hamme(参考訳) 大規模音声認識データセットは通常、マルチメディアライブラリから得られた音響記録から構成される。 その結果、オーディオ以外のモダリティは、関連するタスクのために設計されたモデルの出力を改善するためにしばしば利用される。 しかし、このようなコレクションのすべてのサンプルについて、すべてのコンテンツが利用できるわけではない。例えば、原資料は、ある時点でソースプラットフォームから削除された可能性があるため、非聴覚機能は、もはや取得できない。 本手法を音声認識分野の最先端技術である注目型ディープラーニングシステムに適用することにより,この問題に対処するためのマルチエンコーダフレームワークを応用できることを実証する。 より具体的には、提案したモデル拡張は、トレーニングや推論時にのみ聴覚機能を使用するネットワークの操作手順に、部分的に利用可能な視覚情報を組み込むためにうまく利用できることを示す。 実験により,提案手法が音響タグ付けおよび音響イベント検出に関する多くの評価シナリオにおいて,予測精度の向上につながることを確認した。 さらに,提案手法の特性と限界についても検討する。

Large-scale sound recognition data sets typically consist of acoustic recordings obtained from multimedia libraries. As a consequence, modalities other than audio can often be exploited to improve the outputs of models designed for associated tasks. Frequently, however, not all contents are available for all samples of such a collection: For example, the original material may have been removed from the source platform at some point, and therefore, non-auditory features can no longer be acquired. We demonstrate that a multi-encoder framework can be employed to deal with this issue by applying this method to attention-based deep learning systems, which are currently part of the state of the art in the domain of sound recognition. More specifically, we show that the proposed model extension can successfully be utilized to incorporate partially available visual information into the operational procedures of such networks, which normally only use auditory features during training and inference. Experimentally, we verify that the considered approach leads to improved predictions in a number of evaluation scenarios pertaining to audio tagging and sound event detection. Additionally, we scrutinize some properties and limitations of the presented technique.
翻訳日:2022-09-27 18:31:12 公開日:2022-09-26
# 有界追跡後悔を伴うオンラインサブモジュラーコーディネーション:理論、アルゴリズム、およびマルチロボットコーディネーションへの応用

Online Submodular Coordination with Bounded Tracking Regret: Theory, Algorithm, and Applications to Multi-Robot Coordination ( http://arxiv.org/abs/2209.12429v1 )

ライセンス: Link先を確認
Zirui Xu and Hongyu Zhou and Vasileios Tzoumas(参考訳) 我々は予測不能な環境で効率的かつ効果的な協調を可能にする。 将来の進化が不明な環境では、先行的かつ逆境さえある。 目標追跡、画像被覆、エリア監視といった複雑なタスクを完了するために、動的、非構造化、敵対的な環境を協調する複数のロボットが関与する自律性の未来にモチベーションを与えています。 このようなタスクは、しばしば部分モジュラー最大化調整問題としてモデル化される。 そこで我々は,有界な追跡後悔を伴う最初の部分モジュラコーディネートアルゴリズムを導入する。 有界な準最適性は、未来を先入観として知る最適な時間変化作用に向けられる。 環境が逆向きに変化する能力によって、境界は優雅に劣化する。 また、ロボットが前もって未来を知っていたかのように"学習"するために行動を再選択する頻度も測定する。 本アルゴリズムは,fisherらによるseminal sequential greedyアルゴリズムを予測不能な環境に一般化し,最善のエキスパートを追跡するためのサブモジュラリティとアルゴリズムを活用する。 ターゲット追跡のシミュレーションシナリオでアルゴリズムを検証する。

We enable efficient and effective coordination in unpredictable environments, ie., in environments whose future evolution is unknown a priori and even adversarial. We are motivated by the future of autonomy that involves multiple robots coordinating in dynamic, unstructured, and adversarial environments to complete complex tasks such as target tracking, image covering, and area monitoring. Such tasks are often modeled as submodular maximization coordination problems. We thus introduce the first submodular coordination algorithm with bounded tracking regret, ie., with bounded suboptimality with respect to optimal time-varying actions that know the future a priori. The bound gracefully degrades with the environments' capacity to change adversarially. It also quantifies how often the robots must re-select actions to "learn" to coordinate as if they knew the future a priori. Our algorithm generalizes the seminal Sequential Greedy algorithm by Fisher et al. to unpredictable environments, leveraging submodularity and algorithms for the problem of tracking the best expert. We validate our algorithm in simulated scenarios of target tracking.
翻訳日:2022-09-27 18:30:56 公開日:2022-09-26
# 深部生成モデルによる空間相関多地域気候データの構築

Deep generative model super-resolves spatially correlated multiregional climate data ( http://arxiv.org/abs/2209.12433v1 )

ライセンス: Link先を確認
Norihiro Oyama, Noriko N. Ishizaki, Satoshi Koide, and Hiroaki Yoshida(参考訳) 地球温暖化の長期予測を必要とするシステムの政治的・社会的決定には、世界気候シミュレーションの粗い結果の超解き方(ダウンスケール)が不可欠である。 しかし, 既存の高速超解像技術は, 交通インフラの整備など, 空間的拡張を伴うシステムに対処する上で特に重要となる, 気象データの空間的相関性を維持していない。 本稿では, 対角的ネットワークに基づく機械学習により, 最大50倍の倍率でダウンスケール中の領域間空間相関を高精度に再構築し, 画素単位の統計的整合性を維持する。 温度と降水分布の気象データと直接比較すると、気候学的に重要な物理情報を統合することが正確なダウンスケーリングに不可欠であることが分かり、我々はアプローチを$\pi$SRGAN(Physics Informed Super-Resolution Generative Adversarial Network)と呼ぶ。 本手法は、気候変動の影響の地域間一貫した評価に潜在的に応用できる。

Super-resolving the coarse outputs of global climate simulations, termed downscaling, is crucial in making political and social decisions on systems requiring long-term climate change projections. Existing fast super-resolution techniques, however, have yet to preserve the spatially correlated nature of climatological data, which is particularly important when we address systems with spatial expanse, such as the development of transportation infrastructure. Herein, we show an adversarial network-based machine learning enables us to correctly reconstruct the inter-regional spatial correlations in downscaling with high magnification up to fifty, while maintaining the pixel-wise statistical consistency. Direct comparison with the measured meteorological data of temperature and precipitation distributions reveals that integrating climatologically important physical information is essential for the accurate downscaling, which prompts us to call our approach $\pi$SRGAN (Physics Informed Super-Resolution Generative Adversarial Network). The present method has a potential application to the inter-regionally consistent assessment of the climate change impact.
翻訳日:2022-09-27 18:28:59 公開日:2022-09-26
# Shuffle-QUDIO: トレーニング性向上と測定低減による分散VQEの高速化

Shuffle-QUDIO: accelerate distributed VQE with trainability enhancement and measurement reduction ( http://arxiv.org/abs/2209.12454v1 )

ライセンス: Link先を確認
Yang Qian, Yuxuan Du, Dacheng Tao(参考訳) 変分量子固有解法(VQE)は、ノイズの多い中間スケール量子(NISQ)マシンを利用して古典的アプローチよりも優れた化学問題に取り組むための主要な戦略である。 大規模な問題に対するそのような計算上の利点を得るために、実現可能な解決策は量子分散最適化(qudio)スキームであり、元の問題を$k$サブプロブレムに分割し、それらを$k$量子マシンに割り当てる。 保証可能な加速比にもかかわらず、同期操作によりQUDIOの効率は著しく低下する。 この問題を克服するために,量子分散最適化において局所ハミルトニアンのシャッフル演算を行うshuffle-qudioを提案する。 QUDIOと比較して、Shuffle-QUDIOは量子プロセッサ間の通信周波数を著しく低減し、同時にトレーニング性を向上させる。 特に、Shuffle-QUDIOはQUDIOよりも高速な収束率を実現する。 分子の基底状態エネルギーを推定するタスクにおいて、Shuffle-QUDIOがウォールクロックのタイムスピードアップと低近似誤差の両方を可能にすることを検証するために、大規模な数値実験を行った。 我々は,VQEの有効性を高めるために,演算子グループ化などの他の加速手法とシームレスに統合できることを実証的に実証した。

The variational quantum eigensolver (VQE) is a leading strategy that exploits noisy intermediate-scale quantum (NISQ) machines to tackle chemical problems outperforming classical approaches. To gain such computational advantages on large-scale problems, a feasible solution is the QUantum DIstributed Optimization (QUDIO) scheme, which partitions the original problem into $K$ subproblems and allocates them to $K$ quantum machines followed by the parallel optimization. Despite the provable acceleration ratio, the efficiency of QUDIO may heavily degrade by the synchronization operation. To conquer this issue, here we propose Shuffle-QUDIO to involve shuffle operations into local Hamiltonians during the quantum distributed optimization. Compared with QUDIO, Shuffle-QUDIO significantly reduces the communication frequency among quantum processors and simultaneously achieves better trainability. Particularly, we prove that Shuffle-QUDIO enables a faster convergence rate over QUDIO. Extensive numerical experiments are conducted to verify that Shuffle-QUDIO allows both a wall-clock time speedup and low approximation error in the tasks of estimating the ground state energy of molecule. We empirically demonstrate that our proposal can be seamlessly integrated with other acceleration techniques, such as operator grouping, to further improve the efficacy of VQE.
翻訳日:2022-09-27 18:28:38 公開日:2022-09-26
# ゼロショットクロスモーダル検索のための情報理論ハッシュ

Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval ( http://arxiv.org/abs/2209.12491v1 )

ライセンス: Link先を確認
Yufeng Shi, Shujian Yu, Duanquan Xu, Xinge You(参考訳) ゼロショットクロスモーダル検索(zs-cmr)は,未知クラスからの異種データ間の検索問題を扱う。 通常、一般化を保証するために、自然言語処理(NLP)モデルから定義されたクラス埋め込みを用いて共通空間を構築する。 本稿では,NLPモデルを用いて共通空間を事前に定義するのではなく,情報理論の観点から共通ハミング空間を構築する(あるいは学習する)全く異なる方法を検討する。 本稿では,アダプティブ情報集約(AIA)モジュールとセマンティック保存符号化(SPE)モジュールの2つのカスケードモジュールからなる情報理論ハッシュ(ITH)モデルについて述べる。 具体的には、AIAモジュールは、関連情報原理(PRI)からインスピレーションを得て、異なるデータモダリティの本質的な意味を適応的に集約し、冗長または無関係な情報をフィルタリングする共通空間を構築する。 一方,speモジュールは,kl(element-wise kullback-leibler)の分岐と固有意味論の類似性を保ちながら,異なるモダリティのハッシュ符号を生成する。 ハッシュ符号の異なる次元間の冗長性を低減するために、総相関正規化項も課される。 3つのベンチマークデータセットに対する十分な実験は、ZS-CMRにおける提案されたITHの優位性を示す。 ソースコードは補足資料で入手できる。

Zero-shot cross-modal retrieval (ZS-CMR) deals with the retrieval problem among heterogenous data from unseen classes. Typically, to guarantee generalization, the pre-defined class embeddings from natural language processing (NLP) models are used to build a common space. In this paper, instead of using an extra NLP model to define a common space beforehand, we consider a totally different way to construct (or learn) a common hamming space from an information-theoretic perspective. We term our model the Information-Theoretic Hashing (ITH), which is composed of two cascading modules: an Adaptive Information Aggregation (AIA) module; and a Semantic Preserving Encoding (SPE) module. Specifically, our AIA module takes the inspiration from the Principle of Relevant Information (PRI) to construct a common space that adaptively aggregates the intrinsic semantics of different modalities of data and filters out redundant or irrelevant information. On the other hand, our SPE module further generates the hashing codes of different modalities by preserving the similarity of intrinsic semantics with the element-wise Kullback-Leibler (KL) divergence. A total correlation regularization term is also imposed to reduce the redundancy amongst different dimensions of hash codes. Sufficient experiments on three benchmark datasets demonstrate the superiority of the proposed ITH in ZS-CMR. Source code is available in the supplementary material.
翻訳日:2022-09-27 18:12:20 公開日:2022-09-26
# イムノリンゴ:言語による抗体言語の定式化

ImmunoLingo: Linguistics-based formalization of the antibody language ( http://arxiv.org/abs/2209.12635v1 )

ライセンス: Link先を確認
Mai Ha Vu, Philippe A. Robert, Rahmad Akbar, Bartlomiej Swiatczak, Geir Kjetil Sandve, Dag Trygve Truslew Haug, Victor Greiff(参考訳) 自然言語と生物学的配列の明らかな類似性は、抗体やその他の生物学的配列の解析への深層言語モデル(LM)の適用の近年の急増につながっている。 しかし、生物学的シーケンス言語の厳密な言語形式化の欠如は、レキシコン(すなわち、言語の離散単位)や文法(すなわち、配列の健全な形式性、構造、意味をリンクする規則)のような基本的な構成要素を定義するため、研究された生物学的シーケンスの基盤構造を考慮しない、lmsの領域非特異的な応用へと導かれる。 一方、言語形式化は、言語的にインフォームドされ、したがって、LMアプリケーションのためのドメイン適応コンポーネントを確立する。 これは、自然言語と生物学的配列の違いと類似性がLMの品質にどのように影響するかをよりよく理解し、抗体特異性予測問題の根底にあるもののような、抽出可能な配列-機能関係ルールを持つ解釈可能なモデルの設計に不可欠である。 抗体特異性の規則の解読は、合理的かつシリコバイオセラピー薬の設計を加速させるのに不可欠である。 ここでは、抗体言語の特性を定式化し、適応免疫受容体解析における言語ツールの応用の基礎のみならず、一般に免疫受容体特異性の体系的免疫言語学的研究の基礎を確立する。

Apparent parallels between natural language and biological sequence have led to a recent surge in the application of deep language models (LMs) to the analysis of antibody and other biological sequences. However, a lack of a rigorous linguistic formalization of biological sequence languages, which would define basic components, such as lexicon (i.e., the discrete units of the language) and grammar (i.e., the rules that link sequence well-formedness, structure, and meaning) has led to largely domain-unspecific applications of LMs, which do not take into account the underlying structure of the biological sequences studied. A linguistic formalization, on the other hand, establishes linguistically-informed and thus domain-adapted components for LM applications. It would facilitate a better understanding of how differences and similarities between natural language and biological sequences influence the quality of LMs, which is crucial for the design of interpretable models with extractable sequence-functions relationship rules, such as the ones underlying the antibody specificity prediction problem. Deciphering the rules of antibody specificity is crucial to accelerating rational and in silico biotherapeutic drug design. Here, we formalize the properties of the antibody language and thereby establish not only a foundation for the application of linguistic tools in adaptive immune receptor analysis but also for the systematic immunolinguistic studies of immune receptor specificity in general.
翻訳日:2022-09-27 18:11:57 公開日:2022-09-26
# より集中的な訓練と非集中的な実行:マルチエージェントな条件政策決定

More Centralized Training, Still Decentralized Execution: Multi-Agent Conditional Policy Factorization ( http://arxiv.org/abs/2209.12681v1 )

ライセンス: Link先を確認
Jiangxing Wang, Deheng Ye, and Zongqing Lu(参考訳) 協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントは、部分的に観察可能な環境に適した確率的ポリシーを学習することができる。 分散実行を可能にするローカルポリシーを学ぶという目標を考えると、エージェントは集中的なトレーニングであっても互いに独立していると一般的に想定される。 しかし、このような仮定は、エージェントが最適な共同政策を学ぶことを妨げうる。 この問題に対処するために、エージェント間の依存関係を集中トレーニングに明示的に取り込む。 これは最適なジョイント政策につながるが、分散実行には因果化されない。 それにもかかわらず、理論的には、そのような共同政策から、我々は常に同じ最適性を達成するが分散実行のためにファクタリングできる別の共同政策を導出することができる。 そこで本研究では,より集中的な学習を取り入れながら,分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。 我々は、様々な協調的MARLタスクにおけるMACPFを実証的に検証し、MACPFがベースラインよりも優れた性能または高速収束を達成することを示す。

In cooperative multi-agent reinforcement learning (MARL), combining value decomposition with actor-critic enables agents to learn stochastic policies, which are more suitable for the partially observable environment. Given the goal of learning local policies that enable decentralized execution, agents are commonly assumed to be independent of each other, even in centralized training. However, such an assumption may prohibit agents from learning the optimal joint policy. To address this problem, we explicitly take the dependency among agents into centralized training. Although this leads to the optimal joint policy, it may not be factorized for decentralized execution. Nevertheless, we theoretically show that from such a joint policy, we can always derive another joint policy that achieves the same optimality but can be factorized for decentralized execution. To this end, we propose multi-agent conditional policy factorization (MACPF), which takes more centralized training but still enables decentralized execution. We empirically verify MACPF in various cooperative MARL tasks and demonstrate that MACPF achieves better performance or faster convergence than baselines.
翻訳日:2022-09-27 18:11:32 公開日:2022-09-26
# 通信によるマルチエージェントシークエンシャル意思決定

Multi-Agent Sequential Decision-Making via Communication ( http://arxiv.org/abs/2209.12713v1 )

ライセンス: Link先を確認
Ziluo Ding, Kefan Su, Weixin Hong, Liwen Zhu, Tiejun Huang, and Zongqing Lu(参考訳) コミュニケーションは、エージェントが他人に関する情報を得るのに役立つため、より良い協調行動が学べる。 既存の作業では、予測された将来の軌道を他の作業者と伝達し、他の作業がよりよい調整のために何をするかを知ることを望んでいます。 しかし、エージェントが同期的に扱われると、円形の依存関係が発生することがあるため、意思決定の調整は困難である。 本稿では,新しい通信方式であるシーケンシャル・コミュニケーション(seqcomm)を提案する。 SeqCommはエージェントを非同期に扱う(上位のエージェントは下位のエージェントよりも先に決定する)。 交渉段階では、エージェントは観察の隠れた状態を伝達し、環境力学をモデル化して得られる意図の値を比較することによって意思決定の優先順位を決定する。 開始段階では、上位のエージェントが意思決定をリードし、下位のエージェントと彼らのアクションを伝達する。 理論的には、SeqCommが学んだ政策は単調に改善し収束することが保証されている。 実験により,SeqCommは様々なマルチエージェント協調作業において,既存の手法よりも優れていることを示す。

Communication helps agents to obtain information about others so that better coordinated behavior can be learned. Some existing work communicates predicted future trajectory with others, hoping to get clues about what others would do for better coordination. However, circular dependencies sometimes can occur when agents are treated synchronously so it is hard to coordinate decision-making. In this paper, we propose a novel communication scheme, Sequential Communication (SeqComm). SeqComm treats agents asynchronously (the upper-level agents make decisions before the lower-level ones) and has two communication phases. In negotiation phase, agents determine the priority of decision-making by communicating hidden states of observations and comparing the value of intention, which is obtained by modeling the environment dynamics. In launching phase, the upper-level agents take the lead in making decisions and communicate their actions with the lower-level agents. Theoretically, we prove the policies learned by SeqComm are guaranteed to improve monotonically and converge. Empirically, we show that SeqComm outperforms existing methods in various multi-agent cooperative tasks.
翻訳日:2022-09-27 18:10:59 公開日:2022-09-26
# 移動学習とナビゲーションのエンド・ツー・エンドによる高度化

Advanced Skills by Learning Locomotion and Local Navigation End-to-End ( http://arxiv.org/abs/2209.12827v1 )

ライセンス: Link先を確認
Nikita Rudin, David Hoeller, Marko Bjelonic and Marco Hutter(参考訳) 脚のあるロボットによる挑戦的な環境のローカルナビゲーションには、経路計画、経路追従、移動が必要であり、通常は、指示された速度を正確に追跡する移動制御ポリシーが必要である。 しかし、ナビゲーション問題をこれらのサブタスクに分割することにより、個々のタスクが完全なソリューション空間を考慮しないため、ロボットの能力を制限する。 本研究は, 深層強化学習によるエンドツーエンド政策の訓練により, 完全な問題を解決することを提案する。 事前に計算された経路を継続的に追跡する代わりに、ロボットは所定の時間内に目標位置に到達する必要がある。 タスクの成功はエピソードの最後にのみ評価されるため、ポリシーができるだけ早くターゲットに到達する必要はない。 その経路とロコモーションの歩行は自由に選択できる。 この方法でポリシーをトレーニングすると、より多くの可能なソリューションセットが開き、ロボットはより複雑な振る舞いを学習できるようになる。 速度追跡に対する我々のアプローチを比較し、タスク報酬の時間依存がこれらの新しい振る舞いをうまく学習するのに重要であることを示す。 最後に、実際の四足ロボットに対するポリシーの展開の成功を実証する。 このロボットは、以前不可能だった挑戦的な地形を横断でき、よりエネルギー効率の良い歩行と高い成功率を達成できる。

The common approach for local navigation on challenging environments with legged robots requires path planning, path following and locomotion, which usually requires a locomotion control policy that accurately tracks a commanded velocity. However, by breaking down the navigation problem into these sub-tasks, we limit the robot's capabilities since the individual tasks do not consider the full solution space. In this work, we propose to solve the complete problem by training an end-to-end policy with deep reinforcement learning. Instead of continuously tracking a precomputed path, the robot needs to reach a target position within a provided time. The task's success is only evaluated at the end of an episode, meaning that the policy does not need to reach the target as fast as possible. It is free to select its path and the locomotion gait. Training a policy in this way opens up a larger set of possible solutions, which allows the robot to learn more complex behaviors. We compare our approach to velocity tracking and additionally show that the time dependence of the task reward is critical to successfully learn these new behaviors. Finally, we demonstrate the successful deployment of policies on a real quadrupedal robot. The robot is able to cross challenging terrains, which were not possible previously, while using a more energy-efficient gait and achieving a higher success rate.
翻訳日:2022-09-27 18:10:43 公開日:2022-09-26
# 相互情報の最大化と最小化によるディープフェアクラスタリング

Deep Fair Clustering via Maximizing and Minimizing Mutual Information ( http://arxiv.org/abs/2209.12396v1 )

ライセンス: Link先を確認
Pengxin Zeng, Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Xi Peng(参考訳) フェアクラスタリングは、データを異なるクラスタに分割することを目的としており、センシティブな属性(例えば、性別、人種、RNAシークエンシング技術)がクラスタリングを支配するのを防ぐ。 近年、多くの研究が実施され大きな成功を収めているが、そのほとんどはヒューリスティックであり、アルゴリズム設計の統一理論が欠如している。 本研究では, 深層クラスタリングのための相互情報理論を開発し, FCMIと呼ばれる新しいアルゴリズムを設計することによって, この空白を埋める。 簡単に言うと、FCMIは相互情報の最大化と最小化を通じて、4つの特徴、すなわち、コンパクトでバランスの取れた、公平なクラスタ、および情報的な特徴を期待できるように設計されている。 理論とアルゴリズムへの貢献に加えて、この研究のもう一つの貢献は、情報理論に基づく新しい公正クラスタリング計量の提案である。 既存の評価指標とは異なり、我々の測定基準はクラスタリングの品質と公平さを別々に測定します。 提案するFCMIの有効性を検証するため,単細胞RNA-seqアトラスを含む6つのベンチマーク実験を行った。 コードは受理後にリリースされる。

Fair clustering aims to divide data into distinct clusters, while preventing sensitive attributes (e.g., gender, race, RNA sequencing technique) from dominating the clustering. Although a number of works have been conducted and achieved huge success in recent, most of them are heuristical, and there lacks a unified theory for algorithm design. In this work, we fill this blank by developing a mutual information theory for deep fair clustering and accordingly designing a novel algorithm, dubbed FCMI. In brief, through maximizing and minimizing mutual information, FCMI is designed to achieve four characteristics highly expected by deep fair clustering, i.e., compact, balanced, and fair clusters, as well as informative features. Besides the contributions to theory and algorithm, another contribution of this work is proposing a novel fair clustering metric built upon information theory as well. Unlike existing evaluation metrics, our metric measures the clustering quality and fairness in a whole instead of separate manner. To verify the effectiveness of the proposed FCMI, we carry out experiments on six benchmarks including a single-cell RNA-seq atlas compared with 11 state-of-the-art methods in terms of five metrics. Code will be released after the acceptance.
翻訳日:2022-09-27 18:01:18 公開日:2022-09-26
# 情報理論アクティブ知覚のための連続制御政策の学習

Learning Continuous Control Policies for Information-Theoretic Active Perception ( http://arxiv.org/abs/2209.12427v1 )

ライセンス: Link先を確認
Pengzhi Yang and Yuhan Liu and Shumon Koga and Arash Asgharivaskasi and Nikolay Atanasov(参考訳) 本稿では,情報理論コストを用いたランドマーク化と探索のための連続制御ポリシーの学習手法を提案する。 本研究では,センサの限られた範囲内でランドマークを検出する移動ロボットについて検討し,ランドマーク状態とセンサ観測の相互情報を最大化する制御ポリシーの学習に挑戦する。 我々は、カルマンフィルタを用いて、ランドマーク状態における部分可観測問題をマルコフ決定プロセス(mdp)へ変換し、報酬を形作るための微分可能な視野と、制御ポリシーを表す注意に基づくニューラルネットワークを用いる。 このアプローチはさらにアクティブボリュームマッピングと統合され、ランドマークのローカライゼーションに加えて探索を促進する。 この性能は、ベンチマーク手法と比較して、いくつかの模擬ランドマークローカライゼーションタスクで実証される。

This paper proposes a method for learning continuous control policies for active landmark localization and exploration using an information-theoretic cost. We consider a mobile robot detecting landmarks within a limited sensing range, and tackle the problem of learning a control policy that maximizes the mutual information between the landmark states and the sensor observations. We employ a Kalman filter to convert the partially observable problem in the landmark state to Markov decision process (MDP), a differentiable field of view to shape the reward, and an attention-based neural network to represent the control policy. The approach is further unified with active volumetric mapping to promote exploration in addition to landmark localization. The performance is demonstrated in several simulated landmark localization tasks in comparison with benchmark methods.
翻訳日:2022-09-27 18:00:54 公開日:2022-09-26
# 2人のゼロサムマルコフゲームにおける楽観的フォロー・ザ・レギュラライズド・リーダーの$o(t^{-1})$収束

$O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2209.12430v1 )

ライセンス: Link先を確認
Yuepeng Yang, Cong Ma(参考訳) 楽観的フォロー・ザ・レギュラライズド・リーダー(OFTRL)がスムーズな値更新とともに、フル情報を持つ2プレイヤーゼロサムマルコフゲームに対して、$O(T^{-1})$-approximate Nash平衡が$T$反復で得られることを証明した。 これにより、zhang et al (2022) で最近示された $\tilde{o}(t^{-5/6})$ 収束率が向上する。 精巧な分析は2つの必須成分にかかっている。 第一に、2人のプレイヤーの後悔の総和は、通常の形式ゲームのように必ずしも非負ではないが、マルコフゲームではほぼ非負である。 この特性により、学習ダイナミクスの2次経路の長さを制限できる。 第二に、追加の$\log T$ factorを剃るOFTRLによって展開される重みに関するより厳密な代数的不等式を証明する。 この重要な改善により、最終的な$O(T^{-1})$レートにつながる帰納的解析が可能になる。

We prove that optimistic-follow-the-regularized-leader (OFTRL), together with smooth value updates, finds an $O(T^{-1})$-approximate Nash equilibrium in $T$ iterations for two-player zero-sum Markov games with full information. This improves the $\tilde{O}(T^{-5/6})$ convergence rate recently shown in the paper Zhang et al (2022). The refined analysis hinges on two essential ingredients. First, the sum of the regrets of the two players, though not necessarily non-negative as in normal-form games, is approximately non-negative in Markov games. This property allows us to bound the second-order path lengths of the learning dynamics. Second, we prove a tighter algebraic inequality regarding the weights deployed by OFTRL that shaves an extra $\log T$ factor. This crucial improvement enables the inductive analysis that leads to the final $O(T^{-1})$ rate.
翻訳日:2022-09-27 18:00:39 公開日:2022-09-26
# 真理と選好 -- 質的選択論理のためのゲームアプローチ

Truth and Preferences -- A Game Approach for Qualitative Choice Logic ( http://arxiv.org/abs/2209.12777v1 )

ライセンス: Link先を確認
Robert Freiman, Michael Bernreiter(参考訳) 本稿では,質的選択論理(qcl)のためのゲーム理論的意味論(gts)について紹介する。 まず、ゲームセマンティクスがQCLの既存の学位ベースのセマンティクスを自然な方法でキャプチャできることを実証する。 第2に,ゲームセマンティクスを利用してQCLの言語に新たなセマンティクスを導出できることを示す。 特に, GTS否定を利用した新たな意味論を提案し, 既存のQCL意味論における否定問題を回避する。

In this paper, we introduce game-theoretic semantics (GTS) for Qualitative Choice Logic (QCL), which, in order to express preferences, extends classical propositional logic with an additional connective called ordered disjunction. Firstly, we demonstrate that game semantics can capture existing degree-based semantics for QCL in a natural way. Secondly, we show that game semantics can be leveraged to derive new semantics for the language of QCL. In particular, we present a new semantics that makes use of GTS negation and, by doing so, avoids problems with negation in existing QCL-semantics.
翻訳日:2022-09-27 17:54:27 公開日:2022-09-26
# RetiFluidNet:網膜CT流体セグメンテーションのための自己適応型マルチアタッチメント深部畳み込みネットワーク

RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation ( http://arxiv.org/abs/2209.12468v1 )

ライセンス: Link先を確認
Reza Rasti, Armin Biglari, Mohammad Rezapourian, Ziyun Yang, Sina Farsiu(参考訳) 光コヒーレンストモグラフィ(OCT)は、眼科医が黄斑浮腫、液体の蓄積、病変を顕微鏡で評価するのに役立つ。 網膜液の定量化は、正確な画像セグメンテーションステップに依存するOCT誘導治療管理に必要である。 網膜液の手動分析は時間を要する作業であり、主観的であり、エラーを起こしやすいため、高速で堅牢な自動ソリューションの需要が高まっている。 本研究では,マルチクラス網膜液分画にRetiFluidNetという新しい畳み込みニューラルアーキテクチャを提案する。 このモデルは、新しい自己適応型デュアルアテンション(SDA)モジュール、複数自己適応型アテンションベースのスキップ接続(SASC)、新しい多スケール深層自己監督学習(DSL)スキームを用いて、テクスチャ、コンテキスト、エッジ特徴の階層的表現学習の恩恵を受ける。 提案するSDAモジュールのアテンション機構により,異なるレベルの変形認識表現を自動的に抽出し,提案したSASCパスは,対応するエンコーダとデコーダユニットを結合する空間チャネルの相互依存性をさらに考慮し,表現能力を向上させる。 RetiFluidNetはまた、ダイスオーバーラップの重み付けバージョンとエッジ保存接続に基づく損失を含む共同損失関数を用いて最適化され、複数の階層的な局所損失を最適化プロセスに統合する。 このモデルは、RETOUCH、OPTIMA、DUKEの3つの公開データセットに基づいて検証され、いくつかのベースラインと比較される。 実験結果から, 提案手法は, 種々の画像走査装置で記録された網膜CTスキャンに適応する上で, 既存の最先端の流体分割アルゴリズムよりも有効であることが判明した。

Optical coherence tomography (OCT) helps ophthalmologists assess macular edema, accumulation of fluids, and lesions at microscopic resolution. Quantification of retinal fluids is necessary for OCT-guided treatment management, which relies on a precise image segmentation step. As manual analysis of retinal fluids is a time-consuming, subjective, and error-prone task, there is increasing demand for fast and robust automatic solutions. In this study, a new convolutional neural architecture named RetiFluidNet is proposed for multi-class retinal fluid segmentation. The model benefits from hierarchical representation learning of textural, contextual, and edge features using a new self-adaptive dual-attention (SDA) module, multiple self-adaptive attention-based skip connections (SASC), and a novel multi-scale deep self supervision learning (DSL) scheme. The attention mechanism in the proposed SDA module enables the model to automatically extract deformation-aware representations at different levels, and the introduced SASC paths further consider spatial-channel interdependencies for concatenation of counterpart encoder and decoder units, which improve representational capability. RetiFluidNet is also optimized using a joint loss function comprising a weighted version of dice overlap and edge-preserved connectivity-based losses, where several hierarchical stages of multi-scale local losses are integrated into the optimization process. The model is validated based on three publicly available datasets: RETOUCH, OPTIMA, and DUKE, with comparisons against several baselines. Experimental results on the datasets prove the effectiveness of the proposed model in retinal OCT fluid segmentation and reveal that the suggested method is more effective than existing state-of-the-art fluid segmentation algorithms in adapting to retinal OCT scans recorded by various image scanning instruments.
翻訳日:2022-09-27 17:45:43 公開日:2022-09-26
# Real-RawVSR: ベンチマークデータセットによる実世界の生ビデオ超解法

Real-RawVSR: Real-World Raw Video Super-Resolution with a Benchmark Dataset ( http://arxiv.org/abs/2209.12475v1 )

ライセンス: Link先を確認
Huanjing Yue, Zhiming Zhang, Jingyu Yang(参考訳) 近年、SRデータセットとそれに対応する実SR手法の開発により、実像超解像(SR)は有望な成果を上げている。 対照的に、real video srの分野は、特にreal rawビデオでは遅れを取っている。 sRGB 画像 SR よりも生画像 SR の方が優れていることを考慮し、実世界の生ビデオ SR データセットを構築し、対応する SR 手法を提案する。 2台のデジタル一眼レフカメラとビームスプリッターを用いて,低解像度 (lr) と高解像度 (hr) rawビデオを同時に2倍, 3倍, 4倍の倍率で撮影する。 私たちのデータセットには450の動画ペアがあり、シーンは屋内から屋外、カメラやオブジェクトの動きを含む動きがあります。 私たちの知る限り、これは最初の実世界の生のvsrデータセットです。 生映像はbayerパターンで特徴付けられるため,rggb配列と元のbayerパターン配列の両方を扱う2分岐ネットワークを提案し,これら2枝は相補的である。 提案した協調調整, 相互作用, 融合, 再構成モジュールを通過して, 対応するHR sRGB配列を生成する。 実験結果から,提案手法は実画像と合成ビデオのSR手法を生画像とsRGB入力で比較した。 私たちのコードとデータセットはhttps://github.com/zmzhang1998/Real-RawVSRで公開されています。

In recent years, real image super-resolution (SR) has achieved promising results due to the development of SR datasets and corresponding real SR methods. In contrast, the field of real video SR is lagging behind, especially for real raw videos. Considering the superiority of raw image SR over sRGB image SR, we construct a real-world raw video SR (Real-RawVSR) dataset and propose a corresponding SR method. We utilize two DSLR cameras and a beam-splitter to simultaneously capture low-resolution (LR) and high-resolution (HR) raw videos with 2x, 3x, and 4x magnifications. There are 450 video pairs in our dataset, with scenes varying from indoor to outdoor, and motions including camera and object movements. To our knowledge, this is the first real-world raw VSR dataset. Since the raw video is characterized by the Bayer pattern, we propose a two-branch network, which deals with both the packed RGGB sequence and the original Bayer pattern sequence, and the two branches are complementary to each other. After going through the proposed co-alignment, interaction, fusion, and reconstruction modules, we generate the corresponding HR sRGB sequence. Experimental results demonstrate that the proposed method outperforms benchmark real and synthetic video SR methods with either raw or sRGB inputs. Our code and dataset are available at https://github.com/zmzhang1998/Real-RawVSR.
翻訳日:2022-09-27 17:45:08 公開日:2022-09-26
# LiDAR点雲圧縮のためのマルチスケール遅延ガイドエントロピーモデル

Multiscale Latent-Guided Entropy Model for LiDAR Point Cloud Compression ( http://arxiv.org/abs/2209.12512v1 )

ライセンス: Link先を確認
Tingyu Fan, Linyao Gao, Yiling Xu, Dong Wang and Zhu Li(参考訳) LiDAR点雲(LPC)の非均一分布と極めてスパースの性質は、その高効率圧縮に重大な課題をもたらす。 本稿では,オリジナルlpcをoctree構造にエンコードし,階層的にoctreeエントロピーモデルを階層的に分解する,エンド・ツー・エンドの完全分解型深層フレームワークを提案する。 提案手法では,階層的潜在変数を用いて兄弟および祖先依存をカプセル化し,同一層内のoctreeノードの並列エンコーディングとデコードを可能にするとともに,ポイントクラウド分布のモデリングに十分なコンテキスト情報を提供する。 さらに,逐次ダウンサンプリングにより各層間の空間的相関を探索する潜在変数圧縮のための残差符号化フレームワークを提案し,それに対応する残差を完全分解エントロピーモデルでモデル化する。 さらに,ネットワークの柔軟性を向上させるために,残差符号化のソフト付加と減算を提案する。 LiDARベンチマークのSemanticKITTIとMPEG仕様データセットの総合的な実験結果から,提案したフレームワークが従来のLPCフレームワークすべてで最先端のパフォーマンスを達成することを示す。 さらに,従来のLPC圧縮技術と比較して,並列化と時間効率が向上し,復号時間の99.8%以上を節約できることを示した。

The non-uniform distribution and extremely sparse nature of the LiDAR point cloud (LPC) bring significant challenges to its high-efficient compression. This paper proposes a novel end-to-end, fully-factorized deep framework that encodes the original LPC into an octree structure and hierarchically decomposes the octree entropy model in layers. The proposed framework utilizes a hierarchical latent variable as side information to encapsulate the sibling and ancestor dependence, which provides sufficient context information for the modelling of point cloud distribution while enabling the parallel encoding and decoding of octree nodes in the same layer. Besides, we propose a residual coding framework for the compression of the latent variable, which explores the spatial correlation of each layer by progressive downsampling, and model the corresponding residual with a fully-factorized entropy model. Furthermore, we propose soft addition and subtraction for residual coding to improve network flexibility. The comprehensive experiment results on the LiDAR benchmark SemanticKITTI and MPEG-specified dataset Ford demonstrates that our proposed framework achieves state-of-the-art performance among all the previous LPC frameworks. Besides, our end-to-end, fully-factorized framework is proved by experiment to be high-parallelized and time-efficient and saves more than 99.8% of decoding time compared to previous state-of-the-art methods on LPC compression.
翻訳日:2022-09-27 17:44:42 公開日:2022-09-26
# フィーチャーマップのレンダリングによるボリュームセグメンテーションの高速化

Baking in the Feature: Accelerating Volumetric Segmentation by Rendering Feature Maps ( http://arxiv.org/abs/2209.12744v1 )

ライセンス: Link先を確認
Kenneth Blomqvist, Lionel Ott, Jen Jen Chung, Roland Siegwart(参考訳) 近年,色画像のみを用いて3dボリュームをクラスに密に分割する手法が提案されている。 驚くべきことに、これらの手法には比較的大量の監視が必要で、実際にオブジェクトを分割するには数分かかる可能性がある。 このようなシステムは、通常、以前見た画像からの事前情報を利用することなく、適合している特定のシーンでの表現のみを最適化する。 本稿では,既存の大規模データセットで学習したモデルから抽出した特徴を用いてセグメント化性能を向上させることを提案する。 この特徴表現をNeRF(Neural Radiance Field)に、特徴マップを体積的にレンダリングし、各入力画像から抽出した特徴を監督することにより、焼成する。 この表現をNeRFに焼くことで、その後の分類作業がより簡単になることを示す。 提案手法は,既存手法よりも意味的アノテーションが少なく,多様な場面で高いセグメンテーション精度を達成できることを示す。

Methods have recently been proposed that densely segment 3D volumes into classes using only color images and expert supervision in the form of sparse semantically annotated pixels. While impressive, these methods still require a relatively large amount of supervision and segmenting an object can take several minutes in practice. Such systems typically only optimize their representation on the particular scene they are fitting, without leveraging any prior information from previously seen images. In this paper, we propose to use features extracted with models trained on large existing datasets to improve segmentation performance. We bake this feature representation into a Neural Radiance Field (NeRF) by volumetrically rendering feature maps and supervising on features extracted from each input image. We show that by baking this representation into the NeRF, we make the subsequent classification task much easier. Our experiments show that our method achieves higher segmentation accuracy with fewer semantic annotations than existing methods over a wide range of scenes.
翻訳日:2022-09-27 17:44:07 公開日:2022-09-26
# スケール不変高速機能登録

Scale-Invariant Fast Functional Registration ( http://arxiv.org/abs/2209.12763v1 )

ライセンス: Link先を確認
Muchen Sun, Allison Pinosky, Ian Abraham, Todd Murphey(参考訳) 関数登録アルゴリズムは、点群を関数(例えば空間占有場)として表現し、従来の最小二乗登録アルゴリズムでは信頼できない対応推定を避ける。 しかし、既存の機能登録アルゴリズムは計算コストが高い。 さらにcadモデルに基づくオブジェクトのローカライズなどのタスクでは,未知のスケールでの登録機能が必要であるが,機能登録にはそのようなサポートが存在しない。 本研究では,スケール不変な線形時間複雑性関数登録アルゴリズムを提案する。 正規直交基底関数を用いた関数間のL2距離の効率的な近似により線形時間複雑性を実現する。 正規直交基底関数の使用は、最小二乗登録と互換性のある定式化をもたらす。 最小二乗の定式化に特化して、変換回転不変測定の理論を用いてスケール推定を分離し、スケール不変登録を実現する。 提案アルゴリズムはFLS(機能最小二乗)を標準3次元登録ベンチマークで評価し,FLSは精度とロバスト性を損なうことなく,最先端の機能的登録アルゴリズムよりも桁違いに高速であることを示した。 FLSはまた、未知のスケールで、精度と堅牢性に関して最先端の対応ベースの最小二乗登録アルゴリズムよりも優れている。 最後に,異なる密度と部分的重なりを持つ点雲の登録,同一カテゴリ内の異なる物体からの点雲,ノイズの多いrgb-d測定による実世界の物体からの点雲の登録にflsを適用することを実証する。

Functional registration algorithms represent point clouds as functions (e.g. spacial occupancy field) avoiding unreliable correspondence estimation in conventional least-squares registration algorithms. However, existing functional registration algorithms are computationally expensive. Furthermore, the capability of registration with unknown scale is necessary in tasks such as CAD model-based object localization, yet no such support exists in functional registration. In this work, we propose a scale-invariant, linear time complexity functional registration algorithm. We achieve linear time complexity through an efficient approximation of L2-distance between functions using orthonormal basis functions. The use of orthonormal basis functions leads to a formulation that is compatible with least-squares registration. Benefited from the least-square formulation, we use the theory of translation-rotation-invariant measurement to decouple scale estimation and therefore achieve scale-invariant registration. We evaluate the proposed algorithm, named FLS (functional least-squares), on standard 3D registration benchmarks, showing FLS is an order of magnitude faster than state-of-the-art functional registration algorithm without compromising accuracy and robustness. FLS also outperforms state-of-the-art correspondence-based least-squares registration algorithm on accuracy and robustness, with known and unknown scale. Finally, we demonstrate applying FLS to register point clouds with varying densities and partial overlaps, point clouds from different objects within the same category, and point clouds from real world objects with noisy RGB-D measurements.
翻訳日:2022-09-27 17:43:51 公開日:2022-09-26
# 幾何学グラフの距離測定

Distance Measures for Geometric Graphs ( http://arxiv.org/abs/2209.12869v1 )

ライセンス: Link先を確認
Sushovan Majhi and Carola Wenk(参考訳) 幾何学グラフ(英: geometry graph)は、ユークリッド空間への埋め込みから継承される幾何学を持つ組合せグラフである。 2つの幾何学的グラフの組合せ構造と幾何学的構造の両方における(非)相似性の有意義な尺度の定式化は、パターン認識において難しい問題である。 幾何学的編集距離 (ged) と幾何学的グラフ距離 (ggd) と呼ばれる幾何学的グラフに対する距離測度の概念について検討した。 前者は、あるグラフを編集して別のグラフに変換するというアイデアに基づいているが、後者は、グラフの不正確なマッチングから着想を得ている。 何十年もの間、両方の概念は、帰属グラフ間の類似性の尺度として、自分自身を貸し出している。 しかし、修正なしで使用しても、幾何グラフに対して有意義な距離測度を提供することができない。 幾何グラフの文脈に対するそれらの関連コスト関数をキュレートした。 ged と ggd の計量特性を研究するとともに,この2つの概念を比較した。 さらに,グラフが平面であり,任意のコスト係数が許される場合でも,距離が$\mathcal{NP}$-hardであることを示すことにより,GGDの計算面の理解を深める。

A geometric graph is a combinatorial graph, endowed with a geometry that is inherited from its embedding in a Euclidean space. Formulation of a meaningful measure of (dis-)similarity in both the combinatorial and geometric structures of two such geometric graphs is a challenging problem in pattern recognition. We study two notions of distance measures for geometric graphs, called the geometric edit distance (GED) and geometric graph distance (GGD). While the former is based on the idea of editing one graph to transform it into the other graph, the latter is inspired by inexact matching of the graphs. For decades, both notions have been lending themselves well as measures of similarity between attributed graphs. If used without any modification, however, they fail to provide a meaningful distance measure for geometric graphs -- even cease to be a metric. We have curated their associated cost functions for the context of geometric graphs. Alongside studying the metric properties of GED and GGD, we investigate how the two notions compare. We further our understanding of the computational aspects of GGD by showing that the distance is $\mathcal{NP}$-hard to compute, even if the graphs are planar and arbitrary cost coefficients are allowed.
翻訳日:2022-09-27 17:43:27 公開日:2022-09-26
# 海底環境における色付き点雲における3次元キーポイント検出器と記述器の性能評価

Performance Evaluation of 3D Keypoint Detectors and Descriptors on Coloured Point Clouds in Subsea Environments ( http://arxiv.org/abs/2209.12881v1 )

ライセンス: Link先を確認
Kyungmin Jung, Thomas Hitchcox, James Richard Forbes(参考訳) 近年の高精度海底光スキャナの開発により、3Dキーポイント検出器と特徴ディスクリプタが海底環境からの点雲スキャンで利用できるようになった。 しかし、この文献は、これらの困難で新しい環境で使用される検出器とディスクリプタの最良の組み合わせを特定するための包括的な調査を欠いている。 本稿では,商用水中レーザースキャナーを用いて収集したフィールドデータセットを用いて,最適な検出器/ディスクリプタペアを特定することを目的とする。 さらに、幾何学的特徴拡張のためのテクスチャ情報の導入は、合成データセットにおける特徴マッチングに堅牢性をもたらすことが示されている。 また,水中レーザースキャンにより色付き点雲を生成する新しい手法を提案し,この方法を用いて6次元点雲記述器の有効性について検討する。

The recent development of high-precision subsea optical scanners allows for 3D keypoint detectors and feature descriptors to be leveraged on point cloud scans from subsea environments. However, the literature lacks a comprehensive survey to identify the best combination of detectors and descriptors to be used in these challenging and novel environments. This paper aims to identify the best detector/descriptor pair using a challenging field dataset collected using a commercial underwater laser scanner. Furthermore, studies have shown that incorporating texture information to extend geometric features adds robustness to feature matching on synthetic datasets. This paper also proposes a novel method of fusing images with underwater laser scans to produce coloured point clouds, which are used to study the effectiveness of 6D point cloud descriptors.
翻訳日:2022-09-27 17:43:08 公開日:2022-09-26
# UDepth:視覚誘導水中ロボットの高速単眼深度推定

UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater Robots ( http://arxiv.org/abs/2209.12358v1 )

ライセンス: Link先を確認
Boxiao Yu, Jiayi Wu and Md Jahidul Islam(参考訳) 本稿では,低コスト水中ロボットの3次元知覚能力を実現するための高速単眼深度推定法を提案する。 我々は,自然水中シーンの画像形成特性のドメイン知識を取り入れた,UDepthという新しいエンドツーエンドの深層学習パイプラインを構築した。 まず,水中光減衰を事前に活用し,生のrgb画像空間からの新たな入力空間を適応させ,粗画素方向深度予測のための最小二乗定式化を考案する。 その後、9k rgb-dトレーニングサンプルでudepthのエンドツーエンド学習をガイドするドメインプロジェクション損失に拡張します。 UDepthは計算的に軽量なMobileNetV2バックボーンと、組み込みシステムの高速推論速度を保証するTransformerベースのオプティマイザで設計されている。 ドメイン認識設計の選択と包括的実験分析により,少ない計算フットプリントを確保しつつ,最先端の深さ推定性能を達成できることを実証する。 具体的には、既存のベンチマークよりも70%から80%少ないネットワークパラメータで、UDepthは同等で、しばしばより優れた深さ推定性能を達成する。 フルモデルでは、単一のGPU(CPUコア)上で66 FPS (13 FPS) の推論レートが提供されているが、粗い深さ予測のドメイン予測は、シングルボードのNVIDIA Jetson TX2上で51.5 FPSレートで実行される。 推論パイプラインはhttps://github.com/uf-robopi/UDepthで公開されている。

In this paper, we present a fast monocular depth estimation method for enabling 3D perception capabilities of low-cost underwater robots. We formulate a novel end-to-end deep visual learning pipeline named UDepth, which incorporates domain knowledge of image formation characteristics of natural underwater scenes. First, we adapt a new input space from raw RGB image space by exploiting underwater light attenuation prior, and then devise a least-squared formulation for coarse pixel-wise depth prediction. Subsequently, we extend this into a domain projection loss that guides the end-to-end learning of UDepth on over 9K RGB-D training samples. UDepth is designed with a computationally light MobileNetV2 backbone and a Transformer-based optimizer for ensuring fast inference rates on embedded systems. By domain-aware design choices and through comprehensive experimental analyses, we demonstrate that it is possible to achieve state-of-the-art depth estimation performance while ensuring a small computational footprint. Specifically, with 70%-80% less network parameters than existing benchmarks, UDepth achieves comparable and often better depth estimation performance. While the full model offers over 66 FPS (13 FPS) inference rates on a single GPU (CPU core), our domain projection for coarse depth prediction runs at 51.5 FPS rates on single-board NVIDIA Jetson TX2s. The inference pipelines are available at https://github.com/uf-robopi/UDepth.
翻訳日:2022-09-27 17:35:15 公開日:2022-09-26
# ウェーブレット変換による多段画像の雑音化

Multi-stage image denoising with the wavelet transform ( http://arxiv.org/abs/2209.12394v1 )

ライセンス: Link先を確認
Chunwei Tian, Menghua Zheng, Wangmeng Zuo, Bob Zhang, Yanning Zhang, David Zhang(参考訳) 深層畳み込みニューラルネットワーク(cnns)は、正確な構造情報を自動マイニングすることで画像の雑音化に使用される。 しかし、既存のcnnのほとんどが設計したネットワークの奥行きを拡大し、より良いデノイジン性能を得るため、トレーニングが困難になる可能性がある。 本稿では,ウェーブレット変換(MWDCNN)を動的畳み込みブロック(DCB)と2つのカスケードウェーブレット変換(WEB)と残差ブロック(RB)の3段階を経由した,CNNの多段化画像を提案する。 dcbは動的畳み込みを用いて複数の畳み込みのパラメータを動的に調整し、同期性能と計算コストのトレードオフを行う。 webでは、信号処理技術(すなわちウェーブレット変換)と識別学習を組み合わせてノイズを抑制し、より詳細な情報を回復する。 さらに冗長な特徴を除去するため、RBは、デノナイジング効果を改善するために得られた特徴を洗練し、高密度アーキテクチャの改善によりクリーンなイメージを再構築するために使用される。 実験結果から,提案したMWDCNNは定量的,定性的な分析において,一般的なデノナイジング法よりも優れていた。 コードはhttps://github.com/hellloxiaotian/mwdcnnで入手できる。

Deep convolutional neural networks (CNNs) are used for image denoising via automatically mining accurate structure information. However, most of existing CNNs depend on enlarging depth of designed networks to obtain better denoising performance, which may cause training difficulty. In this paper, we propose a multi-stage image denoising CNN with the wavelet transform (MWDCNN) via three stages, i.e., a dynamic convolutional block (DCB), two cascaded wavelet transform and enhancement blocks (WEBs) and residual block (RB). DCB uses a dynamic convolution to dynamically adjust parameters of several convolutions for making a tradeoff between denoising performance and computational costs. WEB uses a combination of signal processing technique (i.e., wavelet transformation) and discriminative learning to suppress noise for recovering more detailed information in image denoising. To further remove redundant features, RB is used to refine obtained features for improving denoising effects and reconstruct clean images via improved residual dense architectures. Experimental results show that the proposed MWDCNN outperforms some popular denoising methods in terms of quantitative and qualitative analysis. Codes are available at https://github.com/hellloxiaotian/MWDCNN.
翻訳日:2022-09-27 17:34:49 公開日:2022-09-26
# 画像超解像のための異種グループCNN

A heterogeneous group CNN for image super-resolution ( http://arxiv.org/abs/2209.12406v1 )

ライセンス: Link先を確認
Chunwei Tian, Yanning Zhang, Wangmeng Zuo, Chia-Wen Lin, David Zhang, Yixuan Yuan(参考訳) 畳み込みニューラルネットワーク(CNN)は、深いアーキテクチャを通して顕著な性能を得た。 しかし、これらのCNNは複雑なシーン下では画像超解像(SR)のロバスト性が低い。 本稿では,異種グループSR CNN(HGSRCNN)について,異なるタイプの構造情報を利用して高品質な画像を得る。 具体的には、HGSRCNNの各異種グループブロック(HGB)は、対称群畳み込みブロックと相補的畳み込みブロックを含む異種アーキテクチャを並列に使用し、異なるタイプのより豊かな低周波構造情報を容易にするために、異なるチャネルの内部および外部の関係を強化する。 得られた冗長な特徴の出現を防止するため、信号拡張を連続的に行う改良ブロックは、無駄な情報をフィルタリングするように設計されている。 原情報の喪失を防止するため、マルチレベルエンハンスメント機構はCNNを誘導し、HGSRCNNの表現能力を促進する対称アーキテクチャを実現する。 さらに、ブラインドSRモデルをトレーニングするために並列アップサンプリング機構が開発された。 広範な実験により,提案手法は定量的および質的分析において優れたsr性能を得た。 コードはhttps://github.com/hellloxiaotian/HGSRCNNでアクセスできる。

Convolutional neural networks (CNNs) have obtained remarkable performance via deep architectures. However, these CNNs often achieve poor robustness for image super-resolution (SR) under complex scenes. In this paper, we present a heterogeneous group SR CNN (HGSRCNN) via leveraging structure information of different types to obtain a high-quality image. Specifically, each heterogeneous group block (HGB) of HGSRCNN uses a heterogeneous architecture containing a symmetric group convolutional block and a complementary convolutional block in a parallel way to enhance internal and external relations of different channels for facilitating richer low-frequency structure information of different types. To prevent appearance of obtained redundant features, a refinement block with signal enhancements in a serial way is designed to filter useless information. To prevent loss of original information, a multi-level enhancement mechanism guides a CNN to achieve a symmetric architecture for promoting expressive ability of HGSRCNN. Besides, a parallel up-sampling mechanism is developed to train a blind SR model. Extensive experiments illustrate that the proposed HGSRCNN has obtained excellent SR performance in terms of both quantitative and qualitative analysis. Codes can be accessed at https://github.com/hellloxiaotian/HGSRCNN.
翻訳日:2022-09-27 17:34:23 公開日:2022-09-26
# コストマップの学習が簡単になった

Learning Cost-maps Made Easy ( http://arxiv.org/abs/2209.12413v1 )

ライセンス: Link先を確認
Kasi Vishwanath, P.B. Sujit and Srikanth Saripalli(参考訳) コストマップは、衝突のない経路を計画するためにロボット車両によって使用される。 地図内の各セルに関連するコストは、いくつかの試行錯誤の後、しばしば手動で決定される知覚された環境情報を表す。 オフロード環境では、いくつかの種類の機能が存在するため、各機能に関連するコスト値の手作りが困難である。 さらに、異なる手作りのコスト値が、望ましくない同じ環境の異なるパスにつながる可能性がある。 本稿では,ロバストな車両経路計画のための知覚環境からコストマップ値を学ぶ問題に対処する。 本稿では,経路計画のための適応的かつ堅牢なコストマップを提供する実演を通してパラメータを学習する,ディープラーニングアプローチを用いたCAMELと呼ばれる新しいフレームワークを提案する。 CAMELはRELLIS-3Dのようなマルチモーダルデータセットで訓練されている。 CAMELの評価は、オフロードシーンシミュレータ(MAVS)とIISER-Bキャンパスのフィールドデータに基づいて行われる。 また,地上ローバー上でのCAMELの実装も行う。 その結果,非構造地形における衝突のない車両の柔軟でロバストな運動が得られた。

Cost-maps are used by robotic vehicles to plan collision-free paths. The cost associated with each cell in the map represents the sensed environment information which is often determined manually after several trial-and-error efforts. In off-road environments, due to the presence of several types of features, it is challenging to handcraft the cost values associated with each feature. Moreover, different handcrafted cost values can lead to different paths for the same environment which is not desirable. In this paper, we address the problem of learning the cost-map values from the sensed environment for robust vehicle path planning. We propose a novel framework called as CAMEL using deep learning approach that learns the parameters through demonstrations yielding an adaptive and robust cost-map for path planning. CAMEL has been trained on multi-modal datasets such as RELLIS-3D. The evaluation of CAMEL is carried out on an off-road scene simulator (MAVS) and on field data from IISER-B campus. We also perform realworld implementation of CAMEL on a ground rover. The results shows flexible and robust motion of the vehicle without collisions in unstructured terrains.
翻訳日:2022-09-27 17:34:00 公開日:2022-09-26
# STD:3D位置認識のための安定な三角形記述子

STD: Stable Triangle Descriptor for 3D place recognition ( http://arxiv.org/abs/2209.12435v1 )

ライセンス: Link先を確認
Chongjian Yuan, Jiarong Lin, Zuhao Zou, Xiaoping Hong and Fu Zhang(参考訳) 本研究では,3次元位置認識のためのグローバルな安定三角形記述子(STD)を提案する。 三角形の場合、その形状は辺の長さや含む角度によって一意に決定される。 さらに、三角形の形状は剛変換に完全に不変である。 この特性に基づいて、3Dポイントクラウドから局所キーポイントを効率よく抽出し、これらのキーポイントを三角記述子に符号化するアルゴリズムを設計する。 そして、ポイントクラウド間のディスクリプタの側の長さ(およびその他の情報)をマッチングすることにより、位置認識を実現する。 ディスクリプタマッチングペアから得られる点対応は幾何的検証にさらに利用することができ、位置認識の精度を大幅に向上させることができる。 実験では,提案システムと,公開データセット(kitti,nclt,complex-urban)上の他の最先端システム(m2dp,scanコンテキスト)と,自己収集型データセット(非繰り返し走査型固体ライダー)を比較した。 以上の結果から,STDの適応性が向上し,精度が向上したことが明らかとなった。 調査結果を共有し、コミュニティへのコントリビューションを行うため、githubでコードをオープンソースとして公開しています。

In this work, we present a novel global descriptor termed stable triangle descriptor (STD) for 3D place recognition. For a triangle, its shape is uniquely determined by the length of the sides or included angles. Moreover, the shape of triangles is completely invariant to rigid transformations. Based on this property, we first design an algorithm to efficiently extract local key points from the 3D point cloud and encode these key points into triangular descriptors. Then, place recognition is achieved by matching the side lengths (and some other information) of the descriptors between point clouds. The point correspondence obtained from the descriptor matching pair can be further used in geometric verification, which greatly improves the accuracy of place recognition. In our experiments, we extensively compare our proposed system against other state-of-the-art systems (i.e., M2DP, Scan Context) on public datasets (i.e., KITTI, NCLT, and Complex-Urban) and our self-collected dataset (with a non-repetitive scanning solid-state LiDAR). All the quantitative results show that STD has stronger adaptability and a great improvement in precision over its counterparts. To share our findings and make contributions to the community, we open source our code on our GitHub: https://github.com/hku-mars/STD.
翻訳日:2022-09-27 17:33:44 公開日:2022-09-26
# EasyRec: 産業レコメンデーションシステム構築のための使いやすい、拡張可能な、効率的なフレームワーク

EasyRec: An easy-to-use, extendable and efficient framework for building industrial recommendation systems ( http://arxiv.org/abs/2209.12766v1 )

ライセンス: Link先を確認
Mengli Cheng, Yue Gao, Guoqiang Liu, HongSheng Jin, Xiaowen Zhang(参考訳) 産業レコメンデーションシステム構築のための,使いやすい,拡張可能な,効率的なレコメンデーションフレームワークであるEasyRecを提案する。 まず、EasyRecはモジュラーでプラグイン可能なデザインパターンを採用し、カスタムモデル構築の労力を削減します。次に、EasyRecはハイパーパラメータ最適化と機能選択アルゴリズムを実装し、モデルパフォーマンスを自動で改善します。 コードはhttps://github.com/alibaba/easyrec。

We present EasyRec, an easy-to-use, extendable and efficient recommendation framework for building industrial recommendation systems. Our EasyRec framework is superior in the following aspects: first, EasyRec adopts a modular and pluggable design pattern to reduce the efforts to build custom models; second, EasyRec implements hyper-parameter optimization and feature selection algorithms to improve model performance automatically; third, EasyRec applies online learning to fast adapt to the ever-changing data distribution. The code is released: https://github.com/alibaba/EasyRec.
翻訳日:2022-09-27 17:18:14 公開日:2022-09-26
# 誘惑的な忘れ

Abductive forgetting ( http://arxiv.org/abs/2209.12825v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 帰納的忘れは論理式から変数を取り除き、帰納的説明を維持することである。 それは2つの方法のいずれかで定義されるが、用途によって異なる。 どちらも、説明よりも結果を維持する通常の忘れ物とは異なる。 それとは違って、命題公式からの帰納的忘れは命題公式では表現されない。 必要かつ十分な条件はそれがいつあるかを示す。 この条件のチェックは \p{3}-completeであり、説明の最小性が必要であれば \p{4} となる。 帰納的忘れの表現性を保証する方法は、命題論理からデフォルト論理に切り替えることである。 もう1つは、新しい変数を導入することです。

Abductive forgetting is removing variables from a logical formula while maintaining its abductive explanations. It is defined in either of two ways, depending on its intended application. Both differ from the usual forgetting, which maintains consequences rather than explanations. Differently from that, abductive forgetting from a propositional formula may not be expressed by any propositional formula. A necessary and sufficient condition tells when it is. Checking this condition is \P{3}-complete, and is in \P{4} if minimality of explanations is required. A way to guarantee expressibility of abductive forgetting is to switch from propositional to default logic. Another is to introduce new variables.
翻訳日:2022-09-27 17:18:04 公開日:2022-09-26
# 最小ダイナミクスランダム化によるロバストロコモーションポリシーの学習と展開

Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization ( http://arxiv.org/abs/2209.12878v1 )

ライセンス: Link先を確認
Luigi Campanaro, Siddhant Gangapurwala, Wolfgang Merkt and Ioannis Havoutis(参考訳) 深層強化学習(DRL)のロコモーションポリシーの訓練は、望まれる行動に収束するために大量のデータを必要とすることが多い。 この点において、シミュレータは安価で豊富なソースを提供する。 sim-to-real転送を成功させるためには、システム識別、動的ランダム化、ドメイン適応といった徹底的に設計されたアプローチが一般的である。 その代替として、トレーニング中の摂動系力学に対するランダム・フォース・インジェクション(RFI)の簡単な戦略を検討する。 我々は,ランダムな力の応用により,動的ランダム化をエミュレートできることを示し,システムダイナミクスの変動にロバストなロコモーションポリシーを得ることができることを示した。 さらに、エピソディックアクティベーションオフセットを導入することで、拡張ランダム力注入(extended random force injection:erfi)と呼ばれるrfiをさらに拡張する。 ERFIはシステム質量の変動に対して,RFIよりも平均して61%向上した性能を示す。 また,ERFIは,屋外環境における不均一な地形上での知覚的移動においても,ANYmal CとUnitree A1の2つの異なる四面体プラットフォーム上でのシミュ---リアル移動を成功させるのに十分であることを示す。

Training deep reinforcement learning (DRL) locomotion policies often requires massive amounts of data to converge to the desired behavior. In this regard, simulators provide a cheap and abundant source. For successful sim-to-real transfer, exhaustively engineered approaches such as system identification, dynamics randomization, and domain adaptation are generally employed. As an alternative, we investigate a simple strategy of random force injection (RFI) to perturb system dynamics during training. We show that the application of random forces enables us to emulate dynamics randomization.This allows us to obtain locomotion policies that are robust to variations in system dynamics. We further extend RFI, referred to as extended random force injection (ERFI), by introducing an episodic actuation offset. We demonstrate that ERFI provides additional robustness for variations in system mass offering on average a 61% improved performance over RFI. We also show that ERFI is sufficient to perform a successful sim-to-real transfer on two different quadrupedal platforms, ANYmal C and Unitree A1, even for perceptive locomotion over uneven terrain in outdoor environments.
翻訳日:2022-09-27 17:17:55 公開日:2022-09-26
# 創造的AIの環境と社会的持続性

Environmental and Social Sustainability of Creative-Ai ( http://arxiv.org/abs/2209.12879v1 )

ライセンス: Link先を確認
Andr\'e Holzapfel, Petra J\"a\"askel\"ainen, Anna-Kaisa Kaila(参考訳) 人工知能の最近の発展は、主に自律的および協調的な文脈における芸術の創造能力を高める。 どちらの文脈でも、aiは既存の芸術スタイルを模倣し、結合し、拡張し、創造的な実践を変革することを目指している。 本研究は,持続可能性と倫理的観点から創造的AIを考察する。 2つの主な焦点は、創造的aiを含む芸術的過程の文脈における環境持続可能性の側面(材料、実践)の理解と、誰が創造プロセス(権力、権威、所有権)に関与するかに関する倫理的問題である。 本稿では,この2つの研究動向について概説する。 我々は、インタビュー、ワークショップ、オンラインエスノグラフィー、エネルギー測定を組み合わせた学際的アプローチを提示し、我々の研究課題に対処する。Creative-Aiは現在、アーティストコミュニティでどのように使われているか、アーティストが想像する将来の応用は何か? aiがアートの創造に応用されると、経済や環境にどのように影響するか? そして、これらの質問に対する答えは、creative-aiのための知的財産制度の要件をどのように導くか?

The recent developments of artificial intelligence increase its capability for the creation of arts in both largely autonomous and collaborative contexts. In both contexts, Ai aims to imitate, combine, and extend existing artistic styles, and can transform creative practices. In our ongoing research, we investigate such Creative-Ai from sustainability and ethical perspectives. The two main focus areas are understanding the environmental sustainability aspects (material, practices) in the context of artistic processes that involve Creative-Ai, and ethical issues related to who gets to be involved in the creation process (power, authorship, ownership). This paper provides an outline of our ongoing research in these two directions. We will present our interdisciplinary approach, which combines interviews, workshops, online ethnography, and energy measurements, to address our research questions: How is Creative-Ai currently used by artist communities, and which future applications do artists imagine? When Ai is applied to creating art, how might it impact the economy and environment? And, how can answers to these questions guide requirements for intellectual property regimes for Creative-Ai?
翻訳日:2022-09-27 17:17:35 公開日:2022-09-26
# 人とロボットの協力関係を計画するための学習

It Takes Two: Learning to Plan for Human-Robot Cooperative Carrying ( http://arxiv.org/abs/2209.12890v1 )

ライセンス: Link先を確認
Eley Ng, Ziang Liu, Monroe Kennedy III(参考訳) 協調型テーブルキャリングは、アクションと状態空間の連続的な性質、戦略のマルチモーダル性、環境における障害物の存在、および他のエージェントへの即時適応の必要性による複雑なタスクである。 そこで本研究では,協調ロボットチームにおける現実的な動作計画の予測手法を提案する。 変動リカレントニューラルネットワーク(VRNN)を用いて、人間-ロボットチームの軌道の変動を時間とともにモデル化し、インタラクション履歴からの情報を活用しながら、チームの将来の状態の分布をキャプチャすることができる。 このアプローチの鍵は、人間のデモデータを活用して、テスト期間中に人間とうまく相乗する軌道を生成する、私たちのモデルの能力にあります。 本モデルでは,ベースライン,サンプリングベースプランナー,高速探索ランダムツリー(rrt)と比較して,より人間的な動作を生成する。 さらに,人間のパートナーによるVRNNプランナの評価を行い,人間に近いパスを生成できると同時に,人間との計画においてRTよりも高いタスク成功率を達成する能力を示した。 最後に、VRNNプランナを使用したLoCoBotが、人間が別のLoCoBotを制御することで、タスクを正常に完了できることを実証する。

Collaborative table-carrying is a complex task due to the continuous nature of the action and state-spaces, multimodality of strategies, existence of obstacles in the environment, and the need for instantaneous adaptation to other agents. In this work, we present a method for predicting realistic motion plans for cooperative human-robot teams on a table-carrying task. Using a Variational Recurrent Neural Network, VRNN, to model the variation in the trajectory of a human-robot team over time, we are able to capture the distribution over the team's future states while leveraging information from interaction history. The key to our approach is in our model's ability to leverage human demonstration data and generate trajectories that synergize well with humans during test time. We show that the model generates more human-like motion compared to a baseline, centralized sampling-based planner, Rapidly-exploring Random Trees (RRT). Furthermore, we evaluate the VRNN planner with a human partner and show its ability to both generate more human-like paths and achieve higher task success rate than RRT can while planning with a human. Finally, we demonstrate that a LoCoBot using the VRNN planner can complete the task successfully with a human controlling another LoCoBot.
翻訳日:2022-09-27 17:17:18 公開日:2022-09-26
# サンプリング制約付き連続確率分布:一考察

Sampling Constrained Continuous Probability Distributions: A Review ( http://arxiv.org/abs/2209.12403v1 )

ライセンス: Link先を確認
Shiwei Lan and Lulu Kang(参考訳) 制約付き連続分布をサンプリングする問題は、多くの機械・統計学習モデルに頻繁に現れる。 多くのモンテカルロ・マルコフ・チェイン(MCMC)サンプリング法は、確率変数の異なる種類の制約を扱うように適応されている。 これらの手法の中で、ハミルトン・モンテカルロ(HMC)と関連するアプローチは、他の手法と比較して計算効率の面で大きな利点を示している。 本稿ではまず, HMCと拡張サンプリング法について概説し, そして, 3つの制約された HMC に基づくサンプリング法, 反射法, 再構成法, 球状 HMC について具体的に解説する。 例えば、これらの手法を3つのよく知られた制約付きサンプリング問題、切断された多変量正規分布、ベイズ正規化回帰、非パラメトリック密度推定に適用する。 本稿では,制約付きサンプリングを,制約付き設計空間の実験の統計的設計における類似の問題と結びつける。

The problem of sampling constrained continuous distributions has frequently appeared in many machine/statistical learning models. Many Monte Carlo Markov Chain (MCMC) sampling methods have been adapted to handle different types of constraints on the random variables. Among these methods, Hamilton Monte Carlo (HMC) and the related approaches have shown significant advantages in terms of computational efficiency compared to other counterparts. In this article, we first review HMC and some extended sampling methods, and then we concretely explain three constrained HMC-based sampling methods, reflection, reformulation, and spherical HMC. For illustration, we apply these methods to solve three well-known constrained sampling problems, truncated multivariate normal distributions, Bayesian regularized regression, and nonparametric density estimation. In this review, we also connect constrained sampling with another similar problem in the statistical design of experiments of constrained design space.
翻訳日:2022-09-27 17:16:56 公開日:2022-09-26
# データ駆動型地球科学発見におけるロバスト因果性と誤帰属

Robust Causality and False Attribution in Data-Driven Earth Science Discoveries ( http://arxiv.org/abs/2209.12580v1 )

ライセンス: Link先を確認
Elizabeth Eldhose (1), Tejasvi Chauhan (1), Vikram Chandel (1), Subimal Ghosh (1 and 2), and Auroop R. Ganguly (3 and 4) ((1) Department of Civil Engineering, Indian Institute of Technology Bombay, Mumbai, India, (2) Interdisciplinary Program in Climate Studies, Indian Institute of Technology Bombay, Mumbai, India, (3) Sustainability and Data Sciences Laboratory, Department of Civil and Environmental Engineering, Northeastern University, Boston, MA, USA, (4) Pacific Northwest National Laboratory, Richland, WA, USA)(参考訳) 因果研究と帰属研究は地球科学的な発見に不可欠であり、気候、生態学、水政策に重要なものである。 しかし、現在の世代の手法は、科学的およびステークホルダーの課題とデータ可用性の複雑さと、データ駆動手法の適切性に追従する必要がある。 物理学に詳しく知らなければ、因果関係と相関関係を混同したり、不正確な推定によって圧倒されるリスクを負う。 自然実験、制御された試行、介入、および反事実検査は、しばしば非現実的であり、情報理論の手法が開発され、地球科学において継続的に洗練されている。 ここでは,最近地球科学で注目されている移動エントロピーに基づく因果グラフが,統計学的に有意に拡張された場合でも,急激であることを示す。 我々は,頑健な因果解析のためのサブサンプルに基づくアンサンブル手法を開発した。 シミュレーションデータと気候と生態学の観察は、このアプローチの堅牢性と一貫性を示唆している。

Causal and attribution studies are essential for earth scientific discoveries and critical for informing climate, ecology, and water policies. However, the current generation of methods needs to keep pace with the complexity of scientific and stakeholder challenges and data availability combined with the adequacy of data-driven methods. Unless carefully informed by physics, they run the risk of conflating correlation with causation or getting overwhelmed by estimation inaccuracies. Given that natural experiments, controlled trials, interventions, and counterfactual examinations are often impractical, information-theoretic methods have been developed and are being continually refined in the earth sciences. Here we show that transfer entropy-based causal graphs, which have recently become popular in the earth sciences with high-profile discoveries, can be spurious even when augmented with statistical significance. We develop a subsample-based ensemble approach for robust causality analysis. Simulated data, and observations in climate and ecohydrology, suggest the robustness and consistency of this approach.
翻訳日:2022-09-27 17:16:43 公開日:2022-09-26
# 深層学習埋め込みを用いた音声自動分析における言語ミスマッチの効果

Effects of language mismatch in automatic forensic voice comparison using deep learning embeddings ( http://arxiv.org/abs/2209.12602v1 )

ライセンス: Link先を確認
D\'avid Sztah\'o and Attila Fejes(参考訳) 法医学的な音声比較では、過去10年間に話者埋め込みが広く普及している。 事前学習された話者の埋め込みのほとんどは英語のコーパスで訓練されている。 したがって、特に対象言語が言語的に非常に異なる場合、言語依存は自動法医学的音声比較において重要な要素となる。 多くの商用システムがあるが、モデルは主にターゲット言語とは別の言語(主に英語)で訓練されている。 低リソース言語の場合、ディープラーニングモデルを訓練するのに十分な話者を含む法医学的目的のためのコーパスを開発するのがコストがかかる。 本研究は,英語コーパスで事前学習したモデルが,学習されたモデルとは異なる低リソース言語(以下ハンガリー語)で使用できるかどうかを検討することを目的とする。 また、しばしば複数のサンプルが犯罪者(未知の話者)から入手できない。 したがって、サンプルは、疑似(既知の)話者に対する話者登録と非話者登録のペアワイズに比較される。 特に法医学的な目的で開発された2つのコーパスと、従来の話者認証を目的とした3番目のコーパスが適用される。 深層学習に基づく話者埋め込みベクトル抽出法として, x-vector と ECAPA-TDNN がある。 確率比フレームワークを用いて話者検証を行った。 言語の組み合わせ(モデリング、LR校正、評価)を比較する。 結果はminCllrとEERのメトリクスで評価された。 モデルが異なる言語で事前学習されているが、大量の話者を持つコーパスでは、言語ミスマッチのあるサンプルでうまく機能することが判明した。 サンプル継続時間と発話スタイルの影響についても検討した。 その結果, 試料の持続時間が長ければ長いほど, 性能が良くなることがわかった。 また、様々な話し方を適用しても本当の違いはない。

In forensic voice comparison the speaker embedding has become widely popular in the last 10 years. Most of the pretrained speaker embeddings are trained on English corpora, because it is easily accessible. Thus, language dependency can be an important factor in automatic forensic voice comparison, especially when the target language is linguistically very different. There are numerous commercial systems available, but their models are mainly trained on a different language (mostly English) than the target language. In the case of a low-resource language, developing a corpus for forensic purposes containing enough speakers to train deep learning models is costly. This study aims to investigate whether a model pre-trained on English corpus can be used on a target low-resource language (here, Hungarian), different from the model is trained on. Also, often multiple samples are not available from the offender (unknown speaker). Therefore, samples are compared pairwise with and without speaker enrollment for suspect (known) speakers. Two corpora are applied that were developed especially for forensic purposes, and a third that is meant for traditional speaker verification. Two deep learning based speaker embedding vector extraction methods are used: the x-vector and ECAPA-TDNN. Speaker verification was evaluated in the likelihood-ratio framework. A comparison is made between the language combinations (modeling, LR calibration, evaluation). The results were evaluated by minCllr and EER metrics. It was found that the model pre-trained on a different language but on a corpus with a huge amount of speakers performs well on samples with language mismatch. The effect of sample durations and speaking styles were also examined. It was found that the longer the duration of the sample in question the better the performance is. Also, there is no real difference if various speaking styles are applied.
翻訳日:2022-09-27 17:16:09 公開日:2022-09-26
# スケーラブルな量子畳み込みニューラルネットワーク

Scalable Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2209.12372v1 )

ライセンス: Link先を確認
Hankyul Baek, Won Joon Yun, Joongheon Kim(参考訳) ノイズの多い中間スケール量子(NISQ)時代の始まりとして、量子ニューラルネットワーク(QNN)が、古典的ニューラルネットワークでは解決できない問題の解決策として最近登場した。 さらに、QCNNは高次元ベクトル入力を処理できる次世代QNNとして注目されている。 しかしながら、量子コンピューティングの性質上、古典的なqcnnが十分な数の特徴を抽出することは困難である。 そこで本研究では,スケーラブルな量子畳み込みニューラルネットワーク(sqcnn)という,新しいバージョンのqcnnを提案する。 さらに、QCの忠実度を用いて、sQCNNの性能を最大化する逆忠実度トレーニング(RF-Train)と呼ばれるsQCNNトレーニングアルゴリズムを提案する。

With the beginning of the noisy intermediate-scale quantum (NISQ) era, quantum neural network (QNN) has recently emerged as a solution for the problems that classical neural networks cannot solve. Moreover, QCNN is attracting attention as the next generation of QNN because it can process high-dimensional vector input. However, due to the nature of quantum computing, it is difficult for the classical QCNN to extract a sufficient number of features. Motivated by this, we propose a new version of QCNN, named scalable quantum convolutional neural network (sQCNN). In addition, using the fidelity of QC, we propose an sQCNN training algorithm named reverse fidelity training (RF-Train) that maximizes the performance of sQCNN.
翻訳日:2022-09-27 17:07:53 公開日:2022-09-26
# フィードバック型が説明的対話学習に及ぼす影響

Impact of Feedback Type on Explanatory Interactive Learning ( http://arxiv.org/abs/2209.12476v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee(参考訳) Explanatory Interactive Learning (XIL)は、Human-in-the-Loop(HITL)ベースの対話型学習シナリオを実装するために、視覚モデルの説明に関するユーザフィードバックを収集する。 異なるユーザフィードバックタイプは、ユーザエクスペリエンスと、異なるフィードバックタイプが異なるレベルのイメージアノテーションを含むため、フィードバック収集に伴うコストに異なる影響を与える。 XILは複数のドメインにおける分類性能向上に利用されてきたが、モデル性能と説明精度に対する異なるユーザフィードバックタイプの影響はよく研究されていない。 今後,画像分類タスクにおける2つの異なるユーザフィードバックタイプの有効性を比較する。(1)刺激的な画像特徴を無視するアルゴリズムの指示,(2)有効な画像特徴にフォーカスするアルゴリズムの指示である。 グラディエント重み付きクラスアクティベーションマッピング(GradCAM)ベースのXILモデルからの説明を用いて、両方のフィードバックタイプをサポートする。 本研究では,モデルに有効な画像特徴にフォーカスするよう指示するユーザフィードバックよりも優れた分類と説明の精度で,モデルが有意な結果を見出すような突発的な画像特徴の識別と注釈を示す。

Explanatory Interactive Learning (XIL) collects user feedback on visual model explanations to implement a Human-in-the-Loop (HITL) based interactive learning scenario. Different user feedback types will have different impacts on user experience and the cost associated with collecting feedback since different feedback types involve different levels of image annotation. Although XIL has been used to improve classification performance in multiple domains, the impact of different user feedback types on model performance and explanation accuracy is not well studied. To guide future XIL work we compare the effectiveness of two different user feedback types in image classification tasks: (1) instructing an algorithm to ignore certain spurious image features, and (2) instructing an algorithm to focus on certain valid image features. We use explanations from a Gradient-weighted Class Activation Mapping (GradCAM) based XIL model to support both feedback types. We show that identifying and annotating spurious image features that a model finds salient results in superior classification and explanation accuracy than user feedback that tells a model to focus on valid image features.
翻訳日:2022-09-27 17:07:39 公開日:2022-09-26
# Neural-FacTOR: TOR匿名性に対するWebサイトフィンガープリント攻撃のためのニューラル表現学習

Neural-FacTOR: Neural Representation Learning for Website Fingerprinting Attack over TOR Anonymity ( http://arxiv.org/abs/2209.12482v1 )

ライセンス: Link先を確認
Haili Sun, Yan Huang, Lansheng Han, Xiang Long, Hongle Liu and Chunjie Zhou(参考訳) TOR(The Onion Router)ネットワークは、オープンソースの匿名通信ツールとして広く使われているが、TORの悪用により、犯罪ウェブサイトへのアクセスなどのオンライン犯罪の拡散を監視できない。 既存のTORネットワークの匿名化のアプローチのほとんどは、手作業で抽出した機能に大きく依存しているため、時間がかかり、パフォーマンスが低かった。 そこで本研究では,ウェブサイトの指紋を分類アルゴリズムに基づいて認識するニューラル表現学習手法を提案する。 我々は,CNNの知覚領域を改善し,入力データのシーケンシャルな特徴を捉えることができる,拡張と因果畳み込みを伴う畳み込みニューラルネットワーク(CNN)に基づく新しいWebサイト指紋検出モデルを構築した。 3つの主要な公開データセットの実験では、提案されたモデルはウェブサイトの指紋分類に堅牢で効果的であり、最先端の手法と比較して精度が12.21%向上している。

TOR (The Onion Router) network is a widely used open source anonymous communication tool, the abuse of TOR makes it difficult to monitor the proliferation of online crimes such as to access criminal websites. Most existing approches for TOR network de-anonymization heavily rely on manually extracted features resulting in time consuming and poor performance. To tackle the shortcomings, this paper proposes a neural representation learning approach to recognize website fingerprint based on classification algorithm. We constructed a new website fingerprinting attack model based on convolutional neural network (CNN) with dilation and causal convolution, which can improve the perception field of CNN as well as capture the sequential characteristic of input data. Experiments on three mainstream public datasets show that the proposed model is robust and effective for the website fingerprint classification and improves the accuracy by 12.21% compared with the state-of-the-art methods.
翻訳日:2022-09-27 17:07:17 公開日:2022-09-26
# Compressed Combinatory Proof Structures の生成 - 自動一階理論証明へのアプローチ

Generating Compressed Combinatory Proof Structures -- An Approach to Automated First-Order Theorem Proving ( http://arxiv.org/abs/2209.12592v1 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) ツリーに還元するコンビネータ項による証明木を表現することにより、ツリー内の微妙な形式の重複がコンビネータ項の重複部分項として実現される。 コンビネータのDAG表現では、これらは共有部分グラフに直結する。 証明を探索するために、コンビネータ項はクラウサル・タドーのように列挙され、列挙された構造のノードに関連付けられた公式の統一と織り交ぜられる。 探索空間を制限するために、列挙はパラメータ化コンビネータ項として定義された証明スキーマをベースとすることができる。 本稿では,この「証明構造としての組合せ項」アプローチを,一階の自動証明に導入し,実装と最初の実験結果を紹介する。 このアプローチは、凝縮剥離に根ざした証明構造の項ビューと接続法に基づいている。 これまで実装されていない接続構造計算から知られている特徴を実現する。

Representing a proof tree by a combinator term that reduces to the tree lets subtle forms of duplication within the tree materialize as duplicated subterms of the combinator term. In a DAG representation of the combinator term these straightforwardly factor into shared subgraphs. To search for proofs, combinator terms can be enumerated, like clausal tableaux, interwoven with unification of formulas that are associated with nodes of the enumerated structures. To restrict the search space, the enumeration can be based on proof schemas defined as parameterized combinator terms. We introduce here this "combinator term as proof structure" approach to automated first-order proving, present an implementation and first experimental results. The approach builds on a term view of proof structures rooted in condensed detachment and the connection method. It realizes features known from the connection structure calculus, which has not been implemented so far.
翻訳日:2022-09-27 17:07:00 公開日:2022-09-26
# well-loggingデータに基づく自己教師付き類似性モデル

Self-supervised similarity models based on well-logging data ( http://arxiv.org/abs/2209.12444v1 )

ライセンス: Link先を確認
Sergey Egorov, Narek Gevorgyan and Alexey Zaytsev(参考訳) データベースのアプローチの採用は、多数の石油・ガスログデータ処理問題のモデル改善に繋がる。 これらの改善は、ディープラーニングによって提供される新しい機能によって、さらに健全になる。 しかし、ディープラーニングの利用は、研究者が大量の高品質データを持っている領域に限定されている。 本稿では, 油田の異なる問題に対する解法に適した普遍的なデータ表現を, 少ない追加データで提供する手法を提案する。 当社のアプローチは、インターバルのシーケンシャルなログデータの自己管理手法に依存しているため、最初からラベル付きデータを必要としない。 受信表現の検証のために,分類とクラスタ化の問題を考える。 転校学習のシナリオも検討する。 変動型オートエンコーダを用いることで、最も信頼性が高く正確なモデルが得られることがわかった。 アプローチ また、研究者は、普遍表現の上に特定の問題を解決するために、ターゲットの油田に対して小さな別個のデータセットだけが必要であることも分かりました。

Adopting data-based approaches leads to model improvement in numerous Oil&Gas logging data processing problems. These improvements become even more sound due to new capabilities provided by deep learning. However, usage of deep learning is limited to areas where researchers possess large amounts of high-quality data. We present an approach that provides universal data representations suitable for solutions to different problems for different oil fields with little additional data. Our approach relies on the self-supervised methodology for sequential logging data for intervals from well, so it also doesn't require labelled data from the start. For validation purposes of the received representations, we consider classification and clusterization problems. We as well consider the transfer learning scenario. We found out that using the variational autoencoder leads to the most reliable and accurate models. approach We also found that a researcher only needs a tiny separate data set for the target oil field to solve a specific problem on top of universal representations.
翻訳日:2022-09-27 17:00:00 公開日:2022-09-26
# イベントトリガ通信に基づくDAGフェデレーション学習のためのエネルギー最適化

An Energy Optimized Specializing DAG Federated Learning based on Event Triggered Communication ( http://arxiv.org/abs/2209.12531v1 )

ライセンス: Link先を確認
Xiaofeng Xue, Haokun Mao, Qiong Li and Furong Huang(参考訳) Directed Acyclic Graph Federated Learning (SDAGFL) は、DAG-DLT (Directed Acyclic Graph Distributed Ledger Technology) を通じて、同様のデータ分布を持つデバイスからモデルを更新する新しいフェデレーション学習フレームワークである。 SDAGFLは個人化の利点があり、完全に分散化された連邦学習において単一障害点と中毒攻撃に抵抗する。 これらの利点のため、SDAGFLは、通常はバッテリー駆動のIoTシナリオにおけるフェデレーション学習に適している。 IoTにおけるSDAGFLの適用を促進するため,ESDAGFLと呼ばれるSDAGFLベースのイベントトリガー通信機構を提案する。 ESDAGFLでは、新しいモデルは大幅に変更されたときにのみ放送される。 本研究では,集合合成FEMNISTデータセットとシェークスピアとゲーテの作品のテキストからのデータセットを用いてESDAGFLを評価する。 実験の結果,sdagflと比較して,エネルギー消費量を33\%削減し,トレーニング精度とsdagflの特殊化のバランスを両立させることができた。

Specializing Directed Acyclic Graph Federated Learning(SDAGFL) is a new federated learning framework which updates model from the devices with similar data distribution through Directed Acyclic Graph Distributed Ledger Technology (DAG-DLT). SDAGFL has the advantage of personalization, resisting single point of failure and poisoning attack in fully decentralized federated learning. Because of these advantages, the SDAGFL is suitable for the federated learning in IoT scenario where the device is usually battery-powered. To promote the application of SDAGFL in IoT, we propose an energy optimized SDAGFL based event-triggered communication mechanism, called ESDAGFL. In ESDAGFL, the new model is broadcasted only when it is significantly changed. We evaluate the ESDAGFL on a clustered synthetically FEMNIST dataset and a dataset from texts by Shakespeare and Goethe's works. The experiment results show that our approach can reduce energy consumption by 33\% compared with SDAGFL, and realize the same balance between training accuracy and specialization as SDAGFL.
翻訳日:2022-09-27 16:59:46 公開日:2022-09-26
# ドロップアウトへの学習: 学習シーケンスvaesに対する敵意的アプローチ

Learning to Drop Out: An Adversarial Approach to Training Sequence VAEs ( http://arxiv.org/abs/2209.12590v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e Miladinovi\'c, Kumar Shridhar, Kushal Jain, Max B. Paulus, Joachim M. Buhmann, Carl Allen(参考訳) 原則として、変分オートエンコーダ(vaes)を逐次データに適用することは、シーケンス生成、操作、構造化表現学習を制御する方法を提供する。 自己回帰デコーダは、後部崩壊として知られる潜伏空間を使わずに、しばしばデータを説明できる。 これを緩和するために、最先端のモデルはデコーダ入力に一様ランダムなドロップアウトを適用することで、強力なデコーダを弱める。 これにより、潜在空間を利用して補償されるデコーダ入力によって提供される点回りの相互情報を除去することができる。 次に,情報に基づく確率的ドロップアウトを実現するための逆トレーニング戦略を提案する。 標準テキストベンチマークデータセットの均一なドロップアウトと比較して、我々のターゲットとなるアプローチは、シーケンスモデリング性能と潜時空間で取得した情報の両方を増大させる。

In principle, applying variational autoencoders (VAEs) to sequential data offers a method for controlled sequence generation, manipulation, and structured representation learning. However, training sequence VAEs is challenging: autoregressive decoders can often explain the data without utilizing the latent space, known as posterior collapse. To mitigate this, state-of-the-art models weaken the powerful decoder by applying uniformly random dropout to the decoder input. We show theoretically that this removes pointwise mutual information provided by the decoder input, which is compensated for by utilizing the latent space. We then propose an adversarial training strategy to achieve information-based stochastic dropout. Compared to uniform dropout on standard text benchmark datasets, our targeted approach increases both sequence modeling performance and the information captured in the latent space.
翻訳日:2022-09-27 16:59:30 公開日:2022-09-26
# PL-$k$NN:パラメータレスに近い近隣の分類器

PL-$k$NN: A Parameterless Nearest Neighbors Classifier ( http://arxiv.org/abs/2209.12647v1 )

ライセンス: Link先を確認
Danilo Samuel Jodas, Leandro Aparecido Passos, Ahsan Adeel, Jo\~ao Paulo Papa(参考訳) 機械学習モデルにおける最小パラメータ設定の要求は、時間を要する最適化プロセスを避けるために望ましい。 k$-Nearest Neighborsは、多くの問題で最も効果的で簡単なモデルの1つである。 その性能はよく知られているが、特定のデータ分散に対してk$の値が必要であり、高価な計算作業を必要とする。 本稿では、$k$の値を定義する必要性を回避した$k$-Nearest Neighbors分類器を提案する。 モデルは、トレーニングセットのデータ分布を考慮して、$k$値を適応的に計算する。 提案モデルを標準の$k$-nearest neighbors分類器と2つのパラメータなしバージョンと比較した。 11の公開データセットを対象とした実験では,提案手法の堅牢性を確認した。

Demands for minimum parameter setup in machine learning models are desirable to avoid time-consuming optimization processes. The $k$-Nearest Neighbors is one of the most effective and straightforward models employed in numerous problems. Despite its well-known performance, it requires the value of $k$ for specific data distribution, thus demanding expensive computational efforts. This paper proposes a $k$-Nearest Neighbors classifier that bypasses the need to define the value of $k$. The model computes the $k$ value adaptively considering the data distribution of the training set. We compared the proposed model against the standard $k$-Nearest Neighbors classifier and two parameterless versions from the literature. Experiments over 11 public datasets confirm the robustness of the proposed approach, for the obtained results were similar or even better than its counterpart versions.
翻訳日:2022-09-27 16:59:16 公開日:2022-09-26
# 帰属グラフ間のメトリクスを学習する簡単な方法

A simple way to learn metrics between attributed graphs ( http://arxiv.org/abs/2209.12727v1 )

ライセンス: Link先を確認
Yacouba Kaloga and Pierre Borgnat and Amaury Habrard(参考訳) オブジェクト間の良好な距離と類似度の選択は多くの機械学習手法において重要である。 したがって近年,分類法やクラスタリング法の性能向上のために,主にユークリッドデータのために多くの計量学習アルゴリズムが開発されている。 しかし, 属性グラフ間の計算可能, 効率的, 微分可能距離の確立が困難であったため, コミュニティの強い関心にもかかわらず, グラフに適応した計量学習アルゴリズムが開発されていない。 本稿では,単純なグラフ畳み込みニューラルネットワーク(SGCN)に基づくトレーニング可能なパラメータがほとんどない,新しいSGMLモデルと最適輸送理論の要素を提案することにより,この問題に対処する。 このモデルにより、ラベル付き(属性付き)グラフのデータベースから適切な距離を構築することができ、$k$-nnのような単純な分類アルゴリズムのパフォーマンスが向上します。 本論文で示すように, この距離は良好な性能を維持しつつ, 迅速に訓練することができる。

The choice of good distances and similarity measures between objects is important for many machine learning methods. Therefore, many metric learning algorithms have been developed in recent years, mainly for Euclidean data in order to improve performance of classification or clustering methods. However, due to difficulties in establishing computable, efficient and differentiable distances between attributed graphs, few metric learning algorithms adapted to graphs have been developed despite the strong interest of the community. In this paper, we address this issue by proposing a new Simple Graph Metric Learning - SGML - model with few trainable parameters based on Simple Graph Convolutional Neural Networks - SGCN - and elements of Optimal Transport theory. This model allows us to build an appropriate distance from a database of labeled (attributed) graphs to improve the performance of simple classification algorithms such as $k$-NN. This distance can be quickly trained while maintaining good performances as illustrated by the experimental study presented in this paper.
翻訳日:2022-09-27 16:59:04 公開日:2022-09-26
# fondue:変分オートエンコーダの潜在表現の最適次元を求めるアルゴリズム

FONDUE: an algorithm to find the optimal dimensionality of the latent representations of variational autoencoders ( http://arxiv.org/abs/2209.12806v1 )

ライセンス: Link先を確認
Lisa Bonheme and Marek Grzes(参考訳) 与えられたデータセット上で変分オートエンコーダ(VAE)をトレーニングする場合、遅延変数の最適数を決定するのは主にグリッドサーチ(計算時間と炭素フットプリントのコストの高いプロセス)によって行われる。 本稿では,データの本質的次元推定(IDE)と,VAEが学習した潜在表現について検討する。 その結果,vaeの平均値のideとサンプルされたvaeの表現との差は,わずか数ステップの訓練によって潜在空間におけるパッシブ変数の存在が明らかとなり,vaesは超流動な次元を示すことがわかった。 この特性を用いて,平均表現と標本表現が発散し始める潜在次元の数(すなわち受動的変数が導入されたとき)を素早く求めるアルゴリズムであるfanceueを提案し,vaesとオートエンコーダの潜在次元数を選択するための原理的手法を提案する。

When training a variational autoencoder (VAE) on a given dataset, determining the optimal number of latent variables is mostly done by grid search: a costly process in terms of computational time and carbon footprint. In this paper, we explore the intrinsic dimension estimation (IDE) of the data and latent representations learned by VAEs. We show that the discrepancies between the IDE of the mean and sampled representations of a VAE after only a few steps of training reveal the presence of passive variables in the latent space, which, in well-behaved VAEs, indicates a superfluous number of dimensions. Using this property, we propose FONDUE: an algorithm which quickly finds the number of latent dimensions after which the mean and sampled representations start to diverge (i.e., when passive variables are introduced), providing a principled method for selecting the number of latent dimensions for VAEs and autoencoders.
翻訳日:2022-09-27 16:58:47 公開日:2022-09-26
# 分類によるオンライン模倣学習の効率化について

On Efficient Online Imitation Learning via Classification ( http://arxiv.org/abs/2209.12868v1 )

ライセンス: Link先を確認
Yichen Li, Chicheng Zhang(参考訳) 模倣学習(il)は、逐次的な意思決定問題に取り組むための一般的な学習パラダイムである。 対話型模倣学習では、専門家によるデモンストレーションを対話的にクエリできるが、オフラインの学習や強化学習に比べて、サンプル効率の保証が著しく優れていることが示されている。 本研究では,分類に基づくオンライン模倣学習(abbrev。 この設定でoracle効率のよい後悔最小化アルゴリズムを設計するための基本的な実現可能性と$\textbf{coil}$)。 We make the following contributions: (1) we show that in the $\textbf{COIL}$ problem, any proper online learning algorithm cannot guarantee a sublinear regret in general; (2) we propose $\textbf{Logger}$, an improper online learning algorithmic framework, that reduces $\textbf{COIL}$ to online linear optimization, by utilizing a new definition of mixed policy class; (3) we design two oracle-efficient algorithms within the $\textbf{Logger}$ framework that enjoy different sample and interaction round complexity tradeoffs, and conduct finite-sample analyses to show their improvements over naive behavior cloning; (4) we show that under the standard complexity-theoretic assumptions, efficient dynamic regret minimization is infeasible in the $\textbf{Logger}$ framework. われわれの研究は、重要なil設定である分類ベースのオンライン模倣学習を、より強固な基盤に位置づけている。

Imitation learning (IL) is a general learning paradigm for tackling sequential decision-making problems. Interactive imitation learning, where learners can interactively query for expert demonstrations, has been shown to achieve provably superior sample efficiency guarantees compared with its offline counterpart or reinforcement learning. In this work, we study classification-based online imitation learning (abbrev. $\textbf{COIL}$) and the fundamental feasibility to design oracle-efficient regret-minimization algorithms in this setting, with a focus on the general nonrealizable case. We make the following contributions: (1) we show that in the $\textbf{COIL}$ problem, any proper online learning algorithm cannot guarantee a sublinear regret in general; (2) we propose $\textbf{Logger}$, an improper online learning algorithmic framework, that reduces $\textbf{COIL}$ to online linear optimization, by utilizing a new definition of mixed policy class; (3) we design two oracle-efficient algorithms within the $\textbf{Logger}$ framework that enjoy different sample and interaction round complexity tradeoffs, and conduct finite-sample analyses to show their improvements over naive behavior cloning; (4) we show that under the standard complexity-theoretic assumptions, efficient dynamic regret minimization is infeasible in the $\textbf{Logger}$ framework. Our work puts classification-based online imitation learning, an important IL setup, into a firmer foundation.
翻訳日:2022-09-27 16:58:29 公開日:2022-09-26
# 効率的な映像認識における解像度の再考

Rethinking Resolution in the Context of Efficient Video Recognition ( http://arxiv.org/abs/2209.12797v1 )

ライセンス: Link先を確認
Chuofan Ma, Qiushan Guo, Yi Jiang, Zehuan Yuan, Ping Luo, Xiaojuan Qi(参考訳) 本稿では,低解像度フレームを最大限に活用し,効率的な映像認識を実現する方法について実験的に検討する。 既存の手法は主にコンパクトネットワークの開発や、ビデオ入力の時間的冗長性を緩和して効率を向上させることに焦点を当てている。 主な懸念は低解像度フレームの認識精度の低さである。 したがって,低解像度フレームの性能劣化の原因を解析することから始める。 私たちの重要な発見は、劣化の主な原因はダウンサンプリングプロセスにおける情報損失ではなく、ネットワークアーキテクチャと入力スケールのミスマッチにあるということです。 知識蒸留(KD)の成功により,クロスレゾリューションKD(ResKD)を用いて,ネットワークと入力サイズの間のギャップを埋めることを提案する。 本研究では,reskdは低解像度フレームの認識精度を高めるための簡易かつ効果的な手法であることを示す。 ベルとホイッスルがなければ、ResKDは4つの大規模ベンチマークデータセット(ActivityNet、FCVID、Mini-Kinetics、Something V2)の効率と正確性において、競合するすべてのメソッドをかなり上回っている。 さらに,3D-CNNやビデオトランスフォーマーといった最先端アーキテクチャに対する有効性や,超低解像度フレームへのスケーラビリティを広く実証した。 結果から,reskdは最先端映像認識のための汎用的推論加速度法として機能することが示唆された。 私たちのコードはhttps://github.com/CVMI-Lab/ResKDで公開されます。

In this paper, we empirically study how to make the most of low-resolution frames for efficient video recognition. Existing methods mainly focus on developing compact networks or alleviating temporal redundancy of video inputs to increase efficiency, whereas compressing frame resolution has rarely been considered a promising solution. A major concern is the poor recognition accuracy on low-resolution frames. We thus start by analyzing the underlying causes of performance degradation on low-resolution frames. Our key finding is that the major cause of degradation is not information loss in the down-sampling process, but rather the mismatch between network architecture and input scale. Motivated by the success of knowledge distillation (KD), we propose to bridge the gap between network and input size via cross-resolution KD (ResKD). Our work shows that ResKD is a simple but effective method to boost recognition accuracy on low-resolution frames. Without bells and whistles, ResKD considerably surpasses all competitive methods in terms of efficiency and accuracy on four large-scale benchmark datasets, i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V2. In addition, we extensively demonstrate its effectiveness over state-of-the-art architectures, i.e., 3D-CNNs and Video Transformers, and scalability towards super low-resolution frames. The results suggest ResKD can serve as a general inference acceleration method for state-of-the-art video recognition. Our code will be available at https://github.com/CVMI-Lab/ResKD.
翻訳日:2022-09-27 16:43:17 公開日:2022-09-26
# Where2comm:空間信頼マップによるコミュニケーション効率の良い協調認識

Where2comm: Communication-Efficient Collaborative Perception via Spatial Confidence Maps ( http://arxiv.org/abs/2209.12836v1 )

ライセンス: Link先を確認
Yue Hu, Shaoheng Fang, Zixing Lei, Yiqi Zhong, Siheng Chen(参考訳) 多エージェント協調知覚は、エージェント同士がコミュニケーションを通じて相補的な情報を共有できるようにすることで、知覚性能を大幅に向上させることができる。 これは必然的に知覚性能と通信帯域幅の根本的なトレードオフをもたらす。 そこで本研究では,知覚情報の空間的不均一性を反映した空間信頼度マップを提案する。 エージェントは空間的にスパースだが、知覚的に重要な情報を共有するだけで、コミュニケーションの場所に貢献することができる。 この空間的信頼度マップに基づいて,コミュニケーション効率の良い協調認識フレームワークであるWhere2commを提案する。 where2commには2つの利点がある。 一 実用的圧縮を考慮し、知覚的に重要な領域に焦点をあてて高い知覚能力を達成するためにコミュニケーションを少なくすること 二 通信に関わる空間領域を動的に調整することにより、様々な通信帯域幅を扱えること。 where2commを評価するために,実世界およびシミュレーションシナリオにおいて,opv2v,v2x-sim,dair-v2xの4つのデータセット上の2つのモダリティ(カメラ/ライダー)と2つのエージェントタイプ(カー/ドロネス)を用いた3次元物体検出法を検討した。 例えば、100,000 \times$低い通信容量を達成し、それでもOPV2VではDiscoNetとV2X-ViTを上回っている。 私たちのコードはhttps://github.com/mediabrain-sjtu/where2commで利用可能です。

Multi-agent collaborative perception could significantly upgrade the perception performance by enabling agents to share complementary information with each other through communication. It inevitably results in a fundamental trade-off between perception performance and communication bandwidth. To tackle this bottleneck issue, we propose a spatial confidence map, which reflects the spatial heterogeneity of perceptual information. It empowers agents to only share spatially sparse, yet perceptually critical information, contributing to where to communicate. Based on this novel spatial confidence map, we propose Where2comm, a communication-efficient collaborative perception framework. Where2comm has two distinct advantages: i) it considers pragmatic compression and uses less communication to achieve higher perception performance by focusing on perceptually critical areas; and ii) it can handle varying communication bandwidth by dynamically adjusting spatial areas involved in communication. To evaluate Where2comm, we consider 3D object detection in both real-world and simulation scenarios with two modalities (camera/LiDAR) and two agent types (cars/drones) on four datasets: OPV2V, V2X-Sim, DAIR-V2X, and our original CoPerception-UAVs. Where2comm consistently outperforms previous methods; for example, it achieves more than $100,000 \times$ lower communication volume and still outperforms DiscoNet and V2X-ViT on OPV2V. Our code is available at https://github.com/MediaBrain-SJTU/where2comm.
翻訳日:2022-09-27 16:42:50 公開日:2022-09-26
# sapa: 機能アップサンプリングのための類似点対応

SAPA: Similarity-Aware Point Affiliation for Feature Upsampling ( http://arxiv.org/abs/2209.12866v1 )

ライセンス: Link先を確認
Hao Lu, Wenze Liu, Zixuan Ye, Hongtao Fu, Yuliang Liu, Zhiguo Cao(参考訳) これは,局所的デコーダ特徴点によって形成される意味クラスタに対する各アップサンプリング点の親和性を記述する概念であり,意味的類似性を持つ。 ポイントアフィリエーションを再考することで,アップサンプリングカーネルを生成するための汎用的な定式化を提案する。 カーネルは意味的滑らかさだけでなく、アップサンプリングされた特徴写像における境界シャープネスも奨励する。 このような性質は、セマンティックセグメンテーションのような密集した予測タスクに特に有用である。 提案方式の重要な考え方は,各エンコーダの特徴点とデコーダ特徴の空間的関連領域の類似性を比較し,類似性対応カーネルを生成することである。 このように、エンコーダ特徴点がキューとして機能し、アップサンプリングされた特徴点のセマンティッククラスタに通知する。 定式化を具現化するために,Simisity-Aware Point Affiliation (SAPA) と呼ばれる軽量なアップサンプリング演算子をインスタンス化し,その変形について検討する。 SAPAは、セマンティックセグメンテーション、オブジェクト検出、深さ推定、画像マッチングなど、多くの密集した予測タスクにおいて、一貫したパフォーマンス改善を推奨している。 コードはhttps://github.com/poppinace/sapaで入手できる。

We introduce point affiliation into feature upsampling, a notion that describes the affiliation of each upsampled point to a semantic cluster formed by local decoder feature points with semantic similarity. By rethinking point affiliation, we present a generic formulation for generating upsampling kernels. The kernels encourage not only semantic smoothness but also boundary sharpness in the upsampled feature maps. Such properties are particularly useful for some dense prediction tasks such as semantic segmentation. The key idea of our formulation is to generate similarity-aware kernels by comparing the similarity between each encoder feature point and the spatially associated local region of decoder features. In this way, the encoder feature point can function as a cue to inform the semantic cluster of upsampled feature points. To embody the formulation, we further instantiate a lightweight upsampling operator, termed Similarity-Aware Point Affiliation (SAPA), and investigate its variants. SAPA invites consistent performance improvements on a number of dense prediction tasks, including semantic segmentation, object detection, depth estimation, and image matting. Code is available at: https://github.com/poppinace/sapa
翻訳日:2022-09-27 16:42:23 公開日:2022-09-26
# センター・フィーチャー・フュージョン:センター・ベース・オブジェクトの選択的マルチセンサー・フュージョン

Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based Objects ( http://arxiv.org/abs/2209.12880v1 )

ライセンス: Link先を確認
Philip Jacobson, Yiyang Zhou, Wei Zhan, Masayoshi Tomizuka, Ming C. Wu(参考訳) カメラとLiDARのマルチモーダル融合の活用は、自動運転車のための正確で堅牢な3Dオブジェクト検出システムを構築する上で欠かせないものとなっている。 最近まで、ポイントデコレーションのアプローチでは、カメラ機能でポイントクラウドが強化され、この分野では主要なアプローチであった。 しかし、これらの手法はカメラの高解像度画像を利用できない。 鳥眼視(BEV)領域にカメラ機能を投影する最近の研究も提案されているが、背景情報のみを含む数百万ピクセルを投影する必要がある。 本研究では,カメラとlidarストリームの両方でセンタベースの検出ネットワークを活用し,関連する物体の位置を識別するアプローチセンタ機能融合(cff)を提案する。 次に、画像中の全数のごく一部であるオブジェクト位置に関連する画素の特徴の位置を特定するために、中心に基づく検出を行う。 これらはBEVフレームに投影され、融合される。 nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍も少ない特徴を持つ。

Leveraging multi-modal fusion, especially between camera and LiDAR, has become essential for building accurate and robust 3D object detection systems for autonomous vehicles. Until recently, point decorating approaches, in which point clouds are augmented with camera features, have been the dominant approach in the field. However, these approaches fail to utilize the higher resolution images from cameras. Recent works projecting camera features to the bird's-eye-view (BEV) space for fusion have also been proposed, however they require projecting millions of pixels, most of which only contain background information. In this work, we propose a novel approach Center Feature Fusion (CFF), in which we leverage center-based detection networks in both the camera and LiDAR streams to identify relevant object locations. We then use the center-based detection to identify the locations of pixel features relevant to object locations, a small fraction of the total number in the image. These are then projected and fused in the BEV frame. On the nuScenes dataset, we outperform the LiDAR-only baseline by 4.9% mAP while fusing up to 100x fewer features than other fusion methods.
翻訳日:2022-09-27 16:42:03 公開日:2022-09-26
# Anomaly-Derived Routine と Peculiarity Profile の特徴抽出によるクレーム分類の強化

Enhancing Claim Classification with Feature Extraction from Anomaly-Detection-Derived Routine and Peculiarity Profiles ( http://arxiv.org/abs/2209.11763v1 )

ライセンス: Link先を確認
Francis Duval, Jean-Philippe Boucher, Mathieu Pigeon(参考訳) 利用ベースの保険は自動車保険の新たな標準になりつつあるため、保険の運転データを利用する効率的な方法を見つけることが重要である。 車両の走行サマリーに異常検出を適用し,各車両の「ルーチン」と「並列性」の異常プロファイルを導出する手法を開発した。 この目的のために、異常検出アルゴリズムを使用して、車両の走行毎にルーチンと特異性異常スコアを算出する。 前者は、当該車両が行った他の旅行と比べて、その旅行の異常度を測定し、後者は、どの車両が行った旅行と比べて異常度を測定する。 結果の異常スコアベクトルは、ルーチンおよび特異性プロファイルとして使用される。 次にこれらのプロファイルから特徴を抽出し,クレーム分類フレームワークにおける予測力について検討する。 実データを用いて,車両の特異性プロファイルから抽出した特徴が分類を改善することがわかった。

Usage-based insurance is becoming the new standard in vehicle insurance; it is therefore relevant to find efficient ways of using insureds' driving data. Applying anomaly detection to vehicles' trip summaries, we develop a method allowing to derive a "routine" and a "peculiarity" anomaly profile for each vehicle. To this end, anomaly detection algorithms are used to compute a routine and a peculiarity anomaly score for each trip a vehicle makes. The former measures the anomaly degree of the trip compared to the other trips made by the concerned vehicle, while the latter measures its anomaly degree compared to trips made by any vehicle. The resulting anomaly scores vectors are used as routine and peculiarity profiles. Features are then extracted from these profiles, for which we investigate the predictive power in the claim classification framework. Using real data, we find that features extracted from the vehicles' peculiarity profile improve classification.
翻訳日:2022-09-27 16:40:20 公開日:2022-09-26
# 大域的かつ解釈可能なプロトタイプに基づくマンモグラム分類モデルに対する知識蒸留

Knowledge Distillation to Ensemble Global and Interpretable Prototype-Based Mammogram Classification Models ( http://arxiv.org/abs/2209.12420v1 )

ライセンス: Link先を確認
Chong Wang, Yuanhong Chen, Yuyuan Liu, Yu Tian, Fengbei Liu, Davis J. McCarthy, Michael Elliott, Helen Frazer, Gustavo Carneiro(参考訳) State-of-the-art (SOTA) の深層学習マンモグラム分類器は、弱いラベル付き画像で訓練され、しばしば、限定的な解釈可能性を持つ予測を生成するグローバルモデルに依存している。 一方で、プロトタイプベースのモデルは、画像プロトタイプのトレーニングと予測を関連付けることで解釈性を向上させるが、グローバルモデルよりも正確性は低く、プロトタイプは多様性が乏しい傾向がある。 BRAIxProtoPNet++は,プロトタイプベースのモデルで実装することで,グローバルモデルに解釈可能性を追加するものだ。 BRAIxProtoPNet++は、アンサンブルの分類精度を高めることを目的としてプロトタイプベースのモデルをトレーニングする際に、グローバルモデルの知識を蒸留する。 さらに,すべてのプロトタイプが異なるトレーニング画像に関連付けられることを保証し,プロトタイプの多様性を高める手法を提案する。 弱いラベル付きプライベートデータセットとパブリックデータセットの実験は、BRAIxProtoPNet++がSOTAグローバルモデルやプロトタイプベースモデルよりも高い分類精度を持つことを示している。 そこで, BRAIxProtoPNet++が他のプロトタイプベースモデルよりも有効であることを示すとともに, グローバルモデルのポストホックな説明を行う。 最後に,BRAIxProtoPNet++で学習したプロトタイプの多様性が,SOTAのプロトタイプベースアプローチよりも優れていることを示す。

State-of-the-art (SOTA) deep learning mammogram classifiers, trained with weakly-labelled images, often rely on global models that produce predictions with limited interpretability, which is a key barrier to their successful translation into clinical practice. On the other hand, prototype-based models improve interpretability by associating predictions with training image prototypes, but they are less accurate than global models and their prototypes tend to have poor diversity. We address these two issues with the proposal of BRAIxProtoPNet++, which adds interpretability to a global model by ensembling it with a prototype-based model. BRAIxProtoPNet++ distills the knowledge of the global model when training the prototype-based model with the goal of increasing the classification accuracy of the ensemble. Moreover, we propose an approach to increase prototype diversity by guaranteeing that all prototypes are associated with different training images. Experiments on weakly-labelled private and public datasets show that BRAIxProtoPNet++ has higher classification accuracy than SOTA global and prototype-based models. Using lesion localisation to assess model interpretability, we show BRAIxProtoPNet++ is more effective than other prototype-based models and post-hoc explanation of global models. Finally, we show that the diversity of the prototypes learned by BRAIxProtoPNet++ is superior to SOTA prototype-based approaches.
翻訳日:2022-09-27 16:35:17 公開日:2022-09-26
# 非教師付き異常検出のための自己教師付き誘導セグメンテーションフレームワーク

Self-Supervised Guided Segmentation Framework for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2209.12440v1 )

ライセンス: Link先を確認
Peng Xing, Yanpeng Sun, Zechao Li(参考訳) 非教師付き異常検出は、十分な異常サンプルの収集が不可能であるため、産業アプリケーションでは難しい課題である。 本稿では, 異常検出のためのセグメント化のガイダンス情報として, 鍛造異常試料の有効生成法と正常試料特徴を共同で検討し, 自己教師付きセグメント化フレームワーク (sgsf) を提案する。 具体的には, 生成した鍛造異常サンプルがモデルトレーニングに寄与することを保証するため, 塩分増強モジュール (sam) を提案する。 SAMは、サリエンシ・パーリンノイズマップを生成するためのサリエンシ・マップを導入し、サリエンシ領域で不規則なマスクを生成する適応セグメンテーション戦略を開発した。 そして、マスクを用いて鍛造された異常サンプルを負のサンプルとして生成する。 残念ながら、鍛造標本と実際の異常標本の間の分布ギャップは、鍛造標本に基づいて訓練されたモデルが実際の異常を効果的に見つけるのを困難にしている。 この目的のために,SGN(Self-supervised Guidance Network)を提案する。 自己教師付きモジュールを利用してノイズのない特徴を抽出し、セグメンテーションモジュールの事前知識として通常の意味情報を含む。 通常のパターンの知識を持つセグメンテーションモジュールは、ガイダンス機能とは異なる異常領域をセグメント化する。 異常検出におけるSGSFの有効性を評価するため、3つの異常検出データセットに対して広範な実験を行った。 実験の結果,sgsfは最先端の異常検出結果を得た。

Unsupervised anomaly detection is a challenging task in industrial applications since it is impracticable to collect sufficient anomalous samples. In this paper, a novel Self-Supervised Guided Segmentation Framework (SGSF) is proposed by jointly exploring effective generation method of forged anomalous samples and the normal sample features as the guidance information of segmentation for anomaly detection. Specifically, to ensure that the generated forged anomaly samples are conducive to model training, the Saliency Augmentation Module (SAM) is proposed. SAM introduces a saliency map to generate saliency Perlin noise map, and develops an adaptive segmentation strategy to generate irregular masks in the saliency region. Then, the masks are utilized to generate forged anomalous samples as negative samples for training. Unfortunately, the distribution gap between forged and real anomaly samples makes it difficult for models trained based on forged samples to effectively locate real anomalies. Towards this end, the Self-supervised Guidance Network (SGN) is proposed. It leverages the self-supervised module to extract features that are noise-free and contain normal semantic information as the prior knowledge of the segmentation module. The segmentation module with the knowledge of normal patterns segments out the abnormal regions that are different from the guidance features. To evaluate the effectiveness of SGSF for anomaly detection, extensive experiments are conducted on three anomaly detection datasets. The experimental results show that SGSF achieves state-of-the-art anomaly detection results.
翻訳日:2022-09-27 16:34:34 公開日:2022-09-26
# 分割メモリバンクモジュールによる視覚異常検出と誤差推定

Visual Anomaly Detection Via Partition Memory Bank Module and Error Estimation ( http://arxiv.org/abs/2209.12441v1 )

ライセンス: Link先を確認
Peng Xing, Zechao Li(参考訳) 視覚的異常検出のためのメモリモジュールに基づく再構成手法は、異常なサンプルに対して拡張しながら正常サンプルの再構成誤差を狭めようとする。 残念ながら、既存のメモリモジュールは異常検出タスクに完全に適用されておらず、異常サンプルの復元誤差は小さいままである。 そこで本研究では,効果的な正常特徴を共同学習し,不都合な再構成誤りを解消する,教師なし視覚異常検出手法を提案する。 具体的には,新しいパーティションメモリバンク(PMB)モジュールを提案し,通常のサンプルのセマンティックな整合性を持つ詳細な特徴を効果的に学習し,保存する。 コンテキスト情報を保存するための新しいパーティション機構とユニークなクエリ生成方法を開発し、メモリモジュールの学習能力を向上させる。 提案するpmbとスキップ接続は異常サンプルの再構成を悪化させるために検討されている。 より正確な局所化結果を得るとともに累積再構成誤差の問題を解決するために,差画像のヒストグラムによる不都合な誤差を適応的に除去する新しいヒストグラム誤差推定モジュールを提案する。 コストを増大させることなく、異常なローカライゼーション性能を向上させる。 提案手法の有効性を評価するため, 広く使用されている3つの異常検出データセットに対して, 広範囲にわたる実験を行った。 メモリモジュールに基づく最近の手法と比較して,提案手法の促進性能は,その優位性を示している。

Reconstruction method based on the memory module for visual anomaly detection attempts to narrow the reconstruction error for normal samples while enlarging it for anomalous samples. Unfortunately, the existing memory module is not fully applicable to the anomaly detection task, and the reconstruction error of the anomaly samples remains small. Towards this end, this work proposes a new unsupervised visual anomaly detection method to jointly learn effective normal features and eliminate unfavorable reconstruction errors. Specifically, a novel Partition Memory Bank (PMB) module is proposed to effectively learn and store detailed features with semantic integrity of normal samples. It develops a new partition mechanism and a unique query generation method to preserve the context information and then improves the learning ability of the memory module. The proposed PMB and the skip connection are alternatively explored to make the reconstruction of abnormal samples worse. To obtain more precise anomaly localization results and solve the problem of cumulative reconstruction error, a novel Histogram Error Estimation module is proposed to adaptively eliminate the unfavorable errors by the histogram of the difference image. It improves the anomaly localization performance without increasing the cost. To evaluate the effectiveness of the proposed method for anomaly detection and localization, extensive experiments are conducted on three widely-used anomaly detection datasets. The encouraging performance of the proposed method compared to the recent approaches based on the memory module demonstrates its superiority.
翻訳日:2022-09-27 16:34:00 公開日:2022-09-26
# 葉疾患識別のための画像品質評価(AgroPath)

Image Quality Assessment for Foliar Disease Identification (AgroPath) ( http://arxiv.org/abs/2209.12443v1 )

ライセンス: Link先を確認
Nisar Ahmed, Hafiz Muhammad Shahzad Asif, Gulshan Saleem and Muhammad Usman Younus(参考訳) 作物病は食料安全保障にとって大きな脅威であり、その急速な識別は収量減少を防ぐために重要である。 これらの病気の迅速な同定は、必要なインフラがないため困難である。 コンピュータビジョンの最近の進歩とスマートフォンの普及は、スマートフォン支援の病気識別への道を開いた。 植物病のほとんどは、植物の葉構造に特定のアーティファクトを残している。 この研究は2020年にパキスタンのラホール工科大学のコンピュータ科学工学科で行われ、葉に基づく植物病の同定が行なわれた。 本研究は,葉病の同定のための深層ニューラルネットワークに基づくソリューションを提供し,画像品質評価を組み込んで,識別に必要な品質の画像を選択し,それを農業病理学者(agro path)と命名した。 初心者写真家が捉えた画像は、ノイズ、構造の欠如、ぼやけが原因で診断が失敗または不正確になる可能性がある。 さらに、アグロパスモデルは葉病の同定に99.42%の精度を示した。 提案した添加物は、特に農業分野における葉病識別の応用に有用である。

Crop diseases are a major threat to food security and their rapid identification is important to prevent yield loss. Swift identification of these diseases are difficult due to the lack of necessary infrastructure. Recent advances in computer vision and increasing penetration of smartphones have paved the way for smartphone-assisted disease identification. Most of the plant diseases leave particular artifacts on the foliar structure of the plant. This study was conducted in 2020 at Department of Computer Science and Engineering, University of Engineering and Technology, Lahore, Pakistan to check leaf-based plant disease identification. This study provided a deep neural network-based solution to foliar disease identification and incorporated image quality assessment to select the image of the required quality to perform identification and named it Agricultural Pathologist (Agro Path). The captured image by a novice photographer may contain noise, lack of structure, and blur which result in a failed or inaccurate diagnosis. Moreover, AgroPath model had 99.42% accuracy for foliar disease identification. The proposed addition can be especially useful for application of foliar disease identification in the field of agriculture.
翻訳日:2022-09-27 16:33:20 公開日:2022-09-26
# YOLO v3:スマートサーベイランスシステムのための視覚的・リアルタイム物体検出モデル(3s)

YOLO v3: Visual and Real-Time Object Detection Model for Smart Surveillance Systems(3s) ( http://arxiv.org/abs/2209.12447v1 )

ライセンス: Link先を確認
Kanyifeechukwu Jane Oguine, Ozioma Collins Oguine, Hashim Ibrahim Bisallah(参考訳) すべて見えますか? 全て知ってるの? これらは現代の社会において、問題解決の傾向を評価するために投げ出された質問である。 近年の研究では、物体検出のいくつかのモデルが研究されているが、特に開発途上国や未開発国では、客観的さと予測精度の要求を満たすことができなかった。 その結果、いくつかの世界的なセキュリティの脅威は、これらの問題に取り組むための効率的なアプローチの開発を必要とした。 本稿では,スマートサーベイランスシステム(3s)と呼ばれるサイバー物理システムの物体検出モデルを提案する。 本研究は、リアルタイムおよび視覚オブジェクト検出におけるYOLO v3ディープラーニングアーキテクチャの利点を強調した2相アプローチを提案する。 本研究は, 学習時間と計算資源を削減するため, 転送学習手法を実装した。 モデルのトレーニングに使用されるデータセットは、328,000の注釈付きイメージインスタンスを含むMS COCOデータセットである。 事前処理、データパイプライン化、検出などのディープラーニング技術が実装され、効率が向上した。 他の新しい研究モデルと比較して、提案モデルの結果は監視映像中のWILD物体の検出において極めて良好に行われた。 99.71%の精度を記録し、改善されたmAPは61.5である。

Can we see it all? Do we know it All? These are questions thrown to human beings in our contemporary society to evaluate our tendency to solve problems. Recent studies have explored several models in object detection; however, most have failed to meet the demand for objectiveness and predictive accuracy, especially in developing and under-developed countries. Consequently, several global security threats have necessitated the development of efficient approaches to tackle these issues. This paper proposes an object detection model for cyber-physical systems known as Smart Surveillance Systems (3s). This research proposes a 2-phase approach, highlighting the advantages of YOLO v3 deep learning architecture in real-time and visual object detection. A transfer learning approach was implemented for this research to reduce training time and computing resources. The dataset utilized for training the model is the MS COCO dataset which contains 328,000 annotated image instances. Deep learning techniques such as Pre-processing, Data pipelining, and detection was implemented to improve efficiency. Compared to other novel research models, the proposed model's results performed exceedingly well in detecting WILD objects in surveillance footages. An accuracy of 99.71% was recorded, with an improved mAP of 61.5.
翻訳日:2022-09-27 16:32:57 公開日:2022-09-26
# Ablation Path Saliency

Ablation Path Saliency ( http://arxiv.org/abs/2209.12459v1 )

ライセンス: Link先を確認
Justus Sagem\"uller, Olivier Verdier(参考訳) ブラックボックスの分類を説明するために,様々な方法が提案されている。 画像アプリケーションでは、これは現在の決定に最も関係のある画像の一部を強調することを意味する。 これらの手法のいくつかは、分類器の領域を通した特定のアブレーション経路の探索に基づいて、1つのより一般的な手順のエッジケースと見なすことができる。 これは既存の方法に対する幾何学的な洞察を与える。 また, このアブレーションパス法を単独の手法として用いることが可能であり, 経路が与える付加情報に対して高い計算コストが取引されることを示した。

Various types of saliency methods have been proposed for explaining black-box classification. In image applications, this means highlighting the part of the image that is most relevant for the current decision. We observe that several of these methods can be seen as edge cases of a single, more general procedure based on finding a particular ablation path through the classifier's domain. This gives additional geometric insight to the existing methods. We also demonstrate that this ablation path method can be used as a technique in its own right, the higher computational cost being traded against additional information given by the path.
翻訳日:2022-09-27 16:32:40 公開日:2022-09-26
# eod:ieee grss 地球観測データベース

EOD: The IEEE GRSS Earth Observation Database ( http://arxiv.org/abs/2209.12480v1 )

ライセンス: Link先を確認
Michael Schmitt, Pedram Ghamisi, Naoto Yokoya, Ronny H\"ansch(参考訳) ディープラーニングの時代、注釈付きデータセットはリモートセンシングコミュニティにとって重要な資産となっている。 過去10年間、さまざまなデータセットが公開され、それぞれが特定のデータタイプと特定のタスクやアプリケーションを念頭に置いて設計された。 リモートセンシングデータセットのジャングルでは、すでに利用可能なものを追跡することは困難である。 本稿では,EOD - IEEE GRSS Earth Observation Database (EOD) - リモートセンシング画像を利用したさまざまな種類のデータセットをカタログ化するためのインタラクティブなオンラインプラットフォームについて紹介する。

In the era of deep learning, annotated datasets have become a crucial asset to the remote sensing community. In the last decade, a plethora of different datasets was published, each designed for a specific data type and with a specific task or application in mind. In the jungle of remote sensing datasets, it can be hard to keep track of what is available already. With this paper, we introduce EOD - the IEEE GRSS Earth Observation Database (EOD) - an interactive online platform for cataloguing different types of datasets leveraging remote sensing imagery.
翻訳日:2022-09-27 16:32:31 公開日:2022-09-26
# 深層学習を用いたデバイスフレンドリーなグアバ果実と葉病検出

Device-friendly Guava fruit and leaf disease detection using deep learning ( http://arxiv.org/abs/2209.12557v1 )

ライセンス: Link先を確認
Rabindra Nath Nandi, Aminul Haque Palash, Nazmul Siddique and Mohammed Golam Zilani(参考訳) 本研究は,果実と葉の画像を用いた深層植物病診断システムを提案する。 システムの実装には5つの最先端畳み込みニューラルネットワーク(cnn)が採用されている。 モデル精度はそのようなアプリケーションに焦点を合わせており、モデル最適化はエンドユーザーデバイスに適用できるモデルとして説明されていない。 float16やdynamic range quantizationのような2つのモデル量子化手法が5つの最先端cnnアーキテクチャに適用されている。 この研究は、量子化されたGoogleNetモデルが0.143MBの精度で97%の精度で達成したことを示している。 EfficientNetモデルは4.2MBの精度を99%と達成した。 ソースコードはhttps://github.com/compostieai/guava-disease-detectionで入手できる。

This work presents a deep learning-based plant disease diagnostic system using images of fruits and leaves. Five state-of-the-art convolutional neural networks (CNN) have been employed for implementing the system. Hitherto model accuracy has been the focus for such applications and model optimization has not been accounted for the model to be applicable to end-user devices. Two model quantization techniques such as float16 and dynamic range quantization have been applied to the five state-of-the-art CNN architectures. The study shows that the quantized GoogleNet model achieved the size of 0.143 MB with an accuracy of 97%, which is the best candidate model considering the size criterion. The EfficientNet model achieved the size of 4.2MB with an accuracy of 99%, which is the best model considering the performance criterion. The source codes are available at https://github.com/CompostieAI/Guava-disease-detection.
翻訳日:2022-09-27 16:32:21 公開日:2022-09-26
# 動作遅延トレーニングの再考:非均一な運動ブラインド画像のセグメンテーションに基づくシミュレーション

Rethinking Motion Deblurring Training: A Segmentation-Based Method for Simulating Non-Uniform Motion Blurred Images ( http://arxiv.org/abs/2209.12675v1 )

ライセンス: Link先を確認
Guillermo Carbajal, Patricia Vitoria, Pablo Mus\'e, and Jos\'e Lezama(参考訳) エンド・ツー・エンドのディープネットワークのトレーニングを成功させるには、リアルなぼやけた画像に一般化できるほどリアルで多彩な、鋭い画像ペアのデータセットが必要となる。 このようなデータセットの取得は依然として困難な作業である。 本稿では,既存のデブロワーリングベンチマークデータセットの限界を,一般化から野生のぼやけた画像への視点で概観する。 第2に,ぼやけた画像を生成するための単純なモデルに基づく,シャープ/ブルーのイメージペアを生成するための効率的な手続き手法を提案する。 これにより、事実上無限のリアルで多様なトレーニングペアを生成することができる。 提案手法の有効性を,実画像の4つの標準データセット間で評価し,実画像から既存のデブロアリングアーキテクチャをトレーニングすることで実証する。 提案手法を用いた訓練では,実際の動画像のゆらぎを解消する究極の課題に対して,優れた一般化性能が得られた。

Successful training of end-to-end deep networks for real motion deblurring requires datasets of sharp/blurred image pairs that are realistic and diverse enough to achieve generalization to real blurred images. Obtaining such datasets remains a challenging task. In this paper, we first review the limitations of existing deblurring benchmark datasets from the perspective of generalization to blurry images in the wild. Secondly, we propose an efficient procedural methodology to generate sharp/blurred image pairs, based on a simple yet effective model for the formation of blurred images. This allows generating virtually unlimited realistic and diverse training pairs. We demonstrate the effectiveness of the proposed dataset by training existing deblurring architectures on the simulated pairs and evaluating them across four standard datasets of real blurred images. We observed superior generalization performance for the ultimate task of deblurring real motion-blurred photos of dynamic scenes when training with the proposed method.
翻訳日:2022-09-27 16:32:08 公開日:2022-09-26
# InterCap:人間と物体のインタラクションにおける共同マーカーレス3次元追跡

InterCap: Joint Markerless 3D Tracking of Humans and Objects in Interaction ( http://arxiv.org/abs/2209.12354v1 )

ライセンス: Link先を確認
Yinghao Huang (1), Omid Tehari (1), Michael J. Black (1), Dimitrios Tzionas (2) ((1) Max Planck Institute for Intelligent Systems, T\"ubingen, Germany, (2) University of Amsterdam, Amsterdam, The Netherlands)(参考訳) 人間はタスクを達成するために毎日のオブジェクトと対話します。 このような相互作用を理解するために、コンピュータは全身体とシーンとの相互作用を観察するカメラからそれらを再構築する必要がある。 これは、体と物体の閉塞、動きのぼかし、深度/スケールのあいまいさ、手とつかみやすい物体の解像度の低いためである。 問題を扱いやすいものにするために、コミュニティは、相互作用する手、身体を無視する、相互作用する体に焦点を合わせ、手を無視する。 GRABデータセットは、器用な全身インタラクションに対処するが、マーカーベースのMoCapを使用し、画像が欠如している。 パラメトリック全体モデルSMPL-Xと既知のオブジェクトメッシュを用いて、多視点RGB-Dデータから体と物体の相互作用を再構築する新しい手法であるInterCapによる先行作業の限界に対処する。 上記の課題に対処するため、InterCapは2つの重要な観察結果を使用している。 (i)両手のポーズ推定を改善するために手と物体の接触を用いることができる。 (II)Azure Kinectセンサは、カメラ間の適切な同期を提供しながら、閉塞効果を最小限に抑える、シンプルなマルチビューRGB-Dキャプチャシステムを構築することができる。 この方法では、InterCapデータセットをキャプチャし、10人の被験者(男性5人、女性5人)が、手や足との接触を含む、さまざまなサイズの10のオブジェクトと対話する。 InterCapには223のRGB-Dビデオがあり、6つのRGB-D画像を含む67,357のマルチビューフレームがある。 本手法は,各映像フレームに対して疑似接地型ボディメッシュとオブジェクトを提供する。 InterCap法とデータセットは文献の重要なギャップを埋め、多くの研究方向を支援する。 私たちのデータとコードは研究目的で利用できます。

Humans constantly interact with daily objects to accomplish tasks. To understand such interactions, computers need to reconstruct these from cameras observing whole-body interaction with scenes. This is challenging due to occlusion between the body and objects, motion blur, depth/scale ambiguities, and the low image resolution of hands and graspable object parts. To make the problem tractable, the community focuses either on interacting hands, ignoring the body, or on interacting bodies, ignoring hands. The GRAB dataset addresses dexterous whole-body interaction but uses marker-based MoCap and lacks images, while BEHAVE captures video of body object interaction but lacks hand detail. We address the limitations of prior work with InterCap, a novel method that reconstructs interacting whole-bodies and objects from multi-view RGB-D data, using the parametric whole-body model SMPL-X and known object meshes. To tackle the above challenges, InterCap uses two key observations: (i) Contact between the hand and object can be used to improve the pose estimation of both. (ii) Azure Kinect sensors allow us to set up a simple multi-view RGB-D capture system that minimizes the effect of occlusion while providing reasonable inter-camera synchronization. With this method we capture the InterCap dataset, which contains 10 subjects (5 males and 5 females) interacting with 10 objects of various sizes and affordances, including contact with the hands or feet. In total, InterCap has 223 RGB-D videos, resulting in 67,357 multi-view frames, each containing 6 RGB-D images. Our method provides pseudo ground-truth body meshes and objects for each video frame. Our InterCap method and dataset fill an important gap in the literature and support many research directions. Our data and code are areavailable for research purposes.
翻訳日:2022-09-27 16:23:59 公開日:2022-09-26
# ロバスト動作認識のための変換器のマルチデータセット学習

Multi-dataset Training of Transformers for Robust Action Recognition ( http://arxiv.org/abs/2209.12362v1 )

ライセンス: Link先を確認
Junwei Liang, Enwei Zhang, Jun Zhang, Chunhua Shen(参考訳) 動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。 我々はその有効性のためにトランスフォーマーを用いた手法を構築した。 過去10年間、ビデオアクション認識の大きな進歩を目の当たりにしてきたが、複数のデータセットにまたがってうまく機能する単一のモデルをトレーニングする方法は、いまだに重要ではない。 本稿では、情報損失と投影損失という2つの新しい損失項を設計し、アクション認識のための堅牢な表現を学習することを目的とした、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。 特に、情報的損失は、各データセットの投影損失がデータセット全体のクラス間の固有の関係をマイニングする一方で、機能埋め込みの表現性を最大化する。 提案手法は,5つの挑戦的データセットである kinetics-400, kinetics-700, moments-in-time, activitynet, something-something-v2 データセットの有効性を検証する。 実験結果から,本手法は常に最先端の性能を向上できることが示された。

We study the task of robust feature representations, aiming to generalize well on multiple datasets for action recognition. We build our method on Transformers for its efficacy. Although we have witnessed great progress for video action recognition in the past decade, it remains challenging yet valuable how to train a single model that can perform well across multiple datasets. Here, we propose a novel multi-dataset training paradigm, MultiTrain, with the design of two new loss terms, namely informative loss and projection loss, aiming to learn robust representations for action recognition. In particular, the informative loss maximizes the expressiveness of the feature embedding while the projection loss for each dataset mines the intrinsic relations between classes across datasets. We verify the effectiveness of our method on five challenging datasets, Kinetics-400, Kinetics-700, Moments-in-Time, Activitynet and Something-something-v2 datasets. Extensive experimental results show that our method can consistently improve the state-of-the-art performance.
翻訳日:2022-09-27 16:23:27 公開日:2022-09-26
# 歩行認識のための時空間マルチスケールバイラテラル運動ネットワーク

Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition ( http://arxiv.org/abs/2209.12364v1 )

ライセンス: Link先を確認
Xinnan Ding, Shan Du, Yu Zhang, and Kejun Wang(参考訳) 歩行認識の重要な目標は、歩行シーケンスからフレーム間歩行習慣表現を取得することである。 しかし, フレーム間の関係は, フレーム内特徴に比べ, 十分に注目されていない。 本稿では,光学的流れを動機として,古典的畳み込み構造が特徴レベルでの歩行運動パターンを直接表現できる機能を持つような,左右の運動指向の特徴を提案する。 そこで,このような特徴に基づき,様々な時間分解能レベルにおいて,動きの文脈を豊かに記述する多スケールの時間表現を考案する。 さらに、より正確な歩行情報を得るためにシルエットのセグメンテーションノイズを除去して補正ブロックを考案する。 その後、時間的特徴集合と空間的特徴とを組み合わせ、総合的に歩行過程を特徴付ける。 CASIA-B と OU-MVLP のデータセットを用いて大規模な実験を行い,提案手法の有効性を実証した。

The critical goal of gait recognition is to acquire the inter-frame walking habit representation from the gait sequences. The relations between frames, however, have not received adequate attention in comparison to the intra-frame features. In this paper, motivated by optical flow, the bilateral motion-oriented features are proposed, which can allow the classic convolutional structure to have the capability to directly portray gait movement patterns at the feature level. Based on such features, we develop a set of multi-scale temporal representations that force the motion context to be richly described at various levels of temporal resolution. Furthermore, a correction block is devised to eliminate the segmentation noise of silhouettes for getting more precise gait information. Subsequently, the temporal feature set and the spatial features are combined to comprehensively characterize gait processes. Extensive experiments are conducted on CASIA-B and OU-MVLP datasets, and the results achieve an outstanding identification performance, which has demonstrated the effectiveness of the proposed approach.
翻訳日:2022-09-27 16:23:08 公開日:2022-09-26
# tad:ビデオ監視による交通事故検出のための大規模ベンチマーク

TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video Surveillance ( http://arxiv.org/abs/2209.12386v1 )

ライセンス: Link先を確認
Yajun Xu, Chuwen Huang, Yibing Nan, Shiguo Lian(参考訳) 自動交通事故検出は、自律的インテリジェント交通システム(ITS)の開発と交通安全の重要性から、機械ビジョンコミュニティにアピールしている。 しかしながら、交通事故の効率的な解析と予測に関するこれまでのほとんどの研究では、カバー範囲が限定された小規模データセットを使用しており、その効果と適用性が制限されている。 既存の交通事故のデータセットは小規模で、監視カメラからではなく、オープンソースではない。 高速道路で起きた事故は深刻な被害を招きやすいため、現場に着くには早すぎる。 監視カメラから収集した高速道路交通事故を対象とするオープンソースのデータセットは、非常に必要であり、実用上重要である。 視覚的コミュニティがこれらの欠点に対処するのを助けるため,多くのシーンをカバーする実交通事故の映像データを収集する。 様々な次元による統合とアノテーションの後に,TADという大規模交通事故データセットが提案されている。 本研究では, 画像分類, 物体検出, および映像分類に関する様々な実験を行い, 様々な手法の性能を示すために, 一般の視覚アルゴリズムやフレームワークを用いた。 提案したデータセットと実験結果は,特にITSにおいてコンピュータビジョン研究を改善するための新しいベンチマークとして提示される。

Automatic traffic accidents detection has appealed to the machine vision community due to its implications on the development of autonomous intelligent transportation systems (ITS) and importance to traffic safety. Most previous studies on efficient analysis and prediction of traffic accidents, however, have used small-scale datasets with limited coverage, which limits their effect and applicability. Existing datasets in traffic accidents are either small-scale, not from surveillance cameras, not open-sourced, or not built for freeway scenes. Since accidents happened in freeways tend to cause serious damage and are too fast to catch the spot. An open-sourced datasets targeting on freeway traffic accidents collected from surveillance cameras is in great need and of practical importance. In order to help the vision community address these shortcomings, we endeavor to collect video data of real traffic accidents that covered abundant scenes. After integration and annotation by various dimensions, a large-scale traffic accidents dataset named TAD is proposed in this work. Various experiments on image classification, object detection, and video classification tasks, using public mainstream vision algorithms or frameworks are conducted in this work to demonstrate performance of different methods. The proposed dataset together with the experimental results are presented as a new benchmark to improve computer vision research, especially in ITS.
翻訳日:2022-09-27 16:22:53 公開日:2022-09-26
# 一般化パラメトリックコントラスト学習

Generalized Parametric Contrastive Learning ( http://arxiv.org/abs/2209.12400v1 )

ライセンス: Link先を確認
Jiequan Cui, Zhisheng Zhong, Zhuotao Tian, Shu Liu, Bei Yu, Jiaya Jia(参考訳) 本稿では,不均衡なデータとバランスの取れたデータの両方でよく機能するGPaCo/PaCo(Generalized Parametric Contrastive Learning)を提案する。 理論的解析に基づき,教師付きコントラスト損失は高周波クラスをバイアスし,不均衡学習の難易度を増加させる傾向が観察された。 最適化の観点から再バランスを図るために、パラメトリックなクラスワイド学習可能なセンターのセットを導入する。 さらに, 平衡条件下でのGPaCo/PaCo損失の解析を行った。 分析の結果、GPaCo/PaCoは、より多くのサンプルが対応する中心と引き合わされるにつれて、同じクラスのサンプルをプッシュする強度を適応的に増強し、ハードサンプル学習に役立てることができることが示された。 長い尾のベンチマークの実験は、長い尾の認識のための新しい最先端を示す。 フルイメージネットでは、gpaco損失で訓練されたcnnから視覚トランスフォーマーまでのモデルは、maeモデルと比較して、より一般化された性能と強い堅牢性を示す。 さらに、GPaCoはセマンティックセグメンテーションタスクに適用でき、最も人気のある4つのベンチマークで明らかな改善が観察される。 私たちのコードはhttps://github.com/dvlab-research/parametric-contrastive-learningで利用可能です。

In this paper, we propose the Generalized Parametric Contrastive Learning (GPaCo/PaCo) which works well on both imbalanced and balanced data. Based on theoretical analysis, we observe that supervised contrastive loss tends to bias high-frequency classes and thus increases the difficulty of imbalanced learning. We introduce a set of parametric class-wise learnable centers to rebalance from an optimization perspective. Further, we analyze our GPaCo/PaCo loss under a balanced setting. Our analysis demonstrates that GPaCo/PaCo can adaptively enhance the intensity of pushing samples of the same class close as more samples are pulled together with their corresponding centers and benefit hard example learning. Experiments on long-tailed benchmarks manifest the new state-of-the-art for long-tailed recognition. On full ImageNet, models from CNNs to vision transformers trained with GPaCo loss show better generalization performance and stronger robustness compared with MAE models. Moreover, GPaCo can be applied to the semantic segmentation task and obvious improvements are observed on the 4 most popular benchmarks. Our code is available at https://github.com/dvlab-research/Parametric-Contrastive-Learning.
翻訳日:2022-09-27 16:22:34 公開日:2022-09-26
# 知識三重項からの情報テキスト生成

Informative Text Generation from Knowledge Triples ( http://arxiv.org/abs/2209.12733v1 )

ライセンス: Link先を確認
Zihao Fu, Yijiang River Dong, Lidong Bing, Wai Lam(参考訳) エンコーダ・デコーダアーキテクチャの開発により、研究者はより広い種類のデータを用いてテキスト生成タスクを研究できる。 KB-to-textは、知識の集合を人間の読みやすい文に変換することを目的としている。 元の設定では、入力三重項とテキストは具体的知識/情報の観点から正確に一致していると仮定する。 本稿では、この設定を拡張し、学習モデルによりより情報的なテキストを生成する方法、すなわち、入力三重項によって伝達されない三重項に関するより多くの情報を含む方法を検討する。 そこで本研究では、メモリネットワークを利用してトレーニング中に学習した有用な知識を記憶し、入力三重項と共にそのような情報を用いて操作・テスト段階のテキストを生成する新しいメモリ拡張ジェネレータを提案する。 新しい設定のためにwebnlgからデータセットを導出し、我々のモデルの有効性と設定の本質的特徴を明らかにするために広範囲な実験を行います。

As the development of the encoder-decoder architecture, researchers are able to study the text generation tasks with broader types of data. Among them, KB-to-text aims at converting a set of knowledge triples into human readable sentences. In the original setting, the task assumes that the input triples and the text are exactly aligned in the perspective of the embodied knowledge/information. In this paper, we extend this setting and explore how to facilitate the trained model to generate more informative text, namely, containing more information about the triple entities but not conveyed by the input triples. To solve this problem, we propose a novel memory augmented generator that employs a memory network to memorize the useful knowledge learned during the training and utilizes such information together with the input triples to generate text in the operational or testing phase. We derive a dataset from WebNLG for our new setting and conduct extensive experiments to investigate the effectiveness of our model as well as uncover the intrinsic characteristics of the setting.
翻訳日:2022-09-27 15:58:56 公開日:2022-09-26
# リプシッツ連続勾配を持つ局所強凸関数上の(1+1)-進化戦略の収束率とその単調変換

Convergence rate of the (1+1)-evolution strategy on locally strongly convex functions with lipschitz continuous gradient and their monotonic transformations ( http://arxiv.org/abs/2209.12467v1 )

ライセンス: Link先を確認
Daiki Morinaga, Kazuto Fukuchi, Jun Sakuma, and Youhei Akimoto(参考訳) 進化戦略(ES)は、ブラックボックス連続最適化のための有望なアルゴリズムの1つである。 応用において広く成功したにもかかわらず、収束速度の理論解析は凸二次函数とその単調変換に限られる。 % 理論上、凸函数上の最適値に収束する速度はあいまいである。 本研究では、u$-リプシッツ連続勾配を持つ局所的l$-強凸関数上の(1+1)-esの線形収束率の上限と下限をそれぞれ$\exp\left(-\omega_{d\to\infty}\left(\frac{l}{d\cdot u}\right)\right)$および$\exp\left(-\frac1d\right)$として導出する。 特に、リプシッツ定数のような目的関数の数学的性質に関する事前知識はアルゴリズムには与えられないが、既存の微分自由最適化アルゴリズムの分析にはそれらが必要である。

Evolution strategy (ES) is one of promising classes of algorithms for black-box continuous optimization. Despite its broad successes in applications, theoretical analysis on the speed of its convergence is limited on convex quadratic functions and their monotonic transformation.%theoretically how fast it converges to a optima on convex functions is still vague. In this study, an upper bound and a lower bound of the rate of linear convergence of the (1+1)-ES on locally $L$-strongly convex functions with $U$-Lipschitz continuous gradient are derived as $\exp\left(-\Omega_{d\to\infty}\left(\frac{L}{d\cdot U}\right)\right)$ and $\exp\left(-\frac1d\right)$, respectively. Notably, any prior knowledge on the mathematical properties of the objective function such as Lipschitz constant is not given to the algorithm, whereas the existing analyses of derivative-free optimization algorithms require them.
翻訳日:2022-09-27 15:58:21 公開日:2022-09-26
# 群知能技術の導入研究

Introductory Studies of Swarm Intelligence Techniques ( http://arxiv.org/abs/2209.12823v1 )

ライセンス: Link先を確認
Thounaojam Chinglemba, Soujanyo Biswas, Debashish Malakar, Vivek Meena, Debojyoti Sarkar, and Anupam Biswas(参考訳) 技術の急速な向上により、特定のプロセス、ソフトウェア、モデル、構造を最大限の精度と効率で微調整または最適化する必要が出てきた。 最適化アルゴリズムは、実験やシミュレーションによる他の最適化方法よりも、汎用的な問題解決能力と、人間の介入を最小限に抑える有望な有効性のために好まれる。 近年, アルゴリズム設計における自然現象の誘導は, 複雑な多次元, 非連続, 非微分可能, ノイズの多い問題探索空間の最適化プロセスの効率化を大いに引き起こしている。 この章は、より自然にインスパイアされた最適化アルゴリズム(nioas)のサブセットであるswarm intelligence(si)ベースのアルゴリズムまたはswarm optimizationアルゴリズムを扱う。 集団知性(swarm intelligence)とは、集団の知的行動につながる個人とその相互相互作用の集団研究である。 この章は様々な人口ベースのsiアルゴリズムとそれらの数学的モデルの基本構造を提示している。

With the rapid upliftment of technology, there has emerged a dire need to fine-tune or optimize certain processes, software, models or structures, with utmost accuracy and efficiency. Optimization algorithms are preferred over other methods of optimization through experimentation or simulation, for their generic problem-solving abilities and promising efficacy with the least human intervention. In recent times, the inducement of natural phenomena into algorithm design has immensely triggered the efficiency of optimization process for even complex multi-dimensional, non-continuous, non-differentiable and noisy problem search spaces. This chapter deals with the Swarm intelligence (SI) based algorithms or Swarm Optimization Algorithms, which are a subset of the greater Nature Inspired Optimization Algorithms (NIOAs). Swarm intelligence involves the collective study of individuals and their mutual interactions leading to intelligent behavior of the swarm. The chapter presents various population-based SI algorithms, their fundamental structures along with their mathematical models.
翻訳日:2022-09-27 15:58:05 公開日:2022-09-26
# 多変量データストリームのリアルタイム異常検出

Real-time Anomaly Detection for Multivariate Data Streams ( http://arxiv.org/abs/2209.12398v1 )

ライセンス: Link先を確認
Kenneth Odoh(参考訳) 本稿では,PEWMA(Probabilistic Exponentially Weighted moving Average)に基づくデータストリームに対するリアルタイム多変量異常検出アルゴリズムを提案する。 当社の定式化は,データの過渡的,突然の分布的,漸進的分布的)シフトに対してレジリエントである。 新たな異常検出ルーチンは、インクリメンタルなオンラインアルゴリズムを使用してストリームを処理する。 さらに,提案する異常検出アルゴリズムは,ラベル付き例を必要としない教師なし方式で動作する。 我々のアルゴリズムはうまく動作し、概念ドリフトに直面して弾力性がある。

We present a real-time multivariate anomaly detection algorithm for data streams based on the Probabilistic Exponentially Weighted Moving Average (PEWMA). Our formulation is resilient to (abrupt transient, abrupt distributional, and gradual distributional) shifts in the data. The novel anomaly detection routines utilize an incremental online algorithm to handle streams. Furthermore, our proposed anomaly detection algorithm works in an unsupervised manner eliminating the need for labeled examples. Our algorithm performs well and is resilient in the face of concept drifts.
翻訳日:2022-09-27 15:57:32 公開日:2022-09-26
# AIとデジタルツインの相互作用: データ駆動とモデル駆動のアプローチのギャップを埋める

The Interplay of AI and Digital Twin: Bridging the Gap between Data-Driven and Model-Driven Approaches ( http://arxiv.org/abs/2209.12423v1 )

ライセンス: Link先を確認
Lina Bariah and Merouane Debbah(参考訳) ネットワーク仮想化とネイティブ人工知能(AI)パラダイムの進化により、混合現実サービスの進歩は、デジタルプラットフォーム全体を通して運用される包括的なエンティティとしての将来の無線ネットワークのビジョンを概念化し、物理的なドメインとのスマートなインタラクションによって、デジタルツイン(DT)概念の開花への道を開いた。 DTネットワークに対する最近の関心は、ネットワークのオーケストレーションとリソース管理の複雑さを悪化させる新しい無線技術とユースケースの出現によって加速されている。 インターネット・オブ・センシング(internet-of-sensing)とai(ai)によって駆動されるdtの重要な原則は、物理エンティティとネットワークダイナミクスのための仮想ツインを作成することである。 twinで利用可能なデータは、aiモデルのトレーニングとインテリジェントな推論プロセスの基礎となる。 AIがDTのシードであるという一般的な理解にもかかわらず、DTとAIがそれぞれの制限を克服し、お互いの利益を補完する方法として、互いに有効になることを期待しています。 本稿では、モデル駆動型およびデータ駆動型アプローチの統合におけるDTの役割を明らかにするとともに、6Gネットワークの楽観的なビジョンを達成するために、DTが提供する機会を探る。 我々は、AIによるさらなる機会の解放における理論的基盤の役割をさらに広げ、信頼性、効率、低レイテンシDTの実現に対する彼らの重要な影響を明らかにする。 最後に、AI-DTの限界を特定し、将来の研究方向性を概観し、DTのためのAIと、AIのためのDTのさらなる探索のためのフロアを開く。

The advancements of mixed reality services, with the evolution of network virtualization and native artificial intelligence (AI) paradigms, have conceptualized the vision of future wireless networks as a comprehensive entity operating in whole over a digital platform, with smart interaction with the physical domain, paving the way for the blooming of the Digital Twin (DT) concept. The recent interest in the DT networks is fueled by the emergence of novel wireless technologies and use-cases, that exacerbate the level of complexity to orchestrate the network and to manage its resources. Driven by the internet-of-sensing and AI, the key principle of the DT is to create a virtual twin for the physical entities and network dynamics, where the virtual twin will be leveraged to generate synthetic data, in addition to the received sensed data from the physical twin in an on-demand manner. The available data at the twin will be the foundation for AI models training and intelligent inference process. Despite the common understanding that AI is the seed for DT, we anticipate the DT and AI will be enablers for each other, in a way that overcome their limitations and complement each other benefits. In this article, we dig into the fundamentals of DT, where we reveal the role of DT in unifying model-driven and data-driven approaches, and explore the opportunities offered by DT in order to achieve the optimistic vision of 6G networks. We further unfold the essential role of the theoretical underpinnings in unlocking further opportunities by AI, and hence, we unveil their pivotal impact on the realization of reliable, efficient, and low-latency DT. Finally, we identify the limitations of AI-DT and overview potential future research directions, to open the floor for further exploration in AI for DT and DT for AI.
翻訳日:2022-09-27 15:57:24 公開日:2022-09-26
# ティーンスピリットのような匂い:文学系における感覚スタイルの探索

Smells like Teen Spirit: An Exploration of Sensorial Style in Literary Genres ( http://arxiv.org/abs/2209.12352v1 )

ライセンス: Link先を確認
Osama Khalid, Padmini Srinivasan(参考訳) 感覚知覚と言語は、心理学、神経科学、感覚言語学の多くの研究を通して相互に相互に関連しているとよく認識されている。 このリッチな文脈で、文章における感覚言語の使用は言語スタイルの一部なのかを問う。 この問題は、豊富な言語特徴が探求されているテクトメトリックス研究の観点からは重要であるが、感覚言語に関連する特徴にはあまり注目されていない。 これを目標として、歌詞、小説、詩のコレクションにおいて、感性言語とスタイルに関するいくつかの角度を探求する。 例えば、個々の感覚言語の使用はランダムな現象ではなく、選択が関与している可能性が高い。 また、感覚的なスタイルは概して安定しており、シフトは非常に小さい。 さらに、感覚的な用語を持つ数百の文からスタイルを抽出することもできる。 また,各ジャンルにおける特徴と特徴を識別する。 例えば、小説コレクションの上位6つの代表的特徴のうち4つは、嗅覚言語を使う個人であり、非嗅覚言語を使うことを期待している。

It is well recognized that sensory perceptions and language have interconnections through numerous studies in psychology, neuroscience, and sensorial linguistics. Set in this rich context we ask whether the use of sensorial language in writings is part of linguistic style? This question is important from the view of stylometrics research where a rich set of language features have been explored, but with insufficient attention given to features related to sensorial language. Taking this as the goal we explore several angles about sensorial language and style in collections of lyrics, novels, and poetry. We find, for example, that individual use of sensorial language is not a random phenomenon; choice is likely involved. Also, sensorial style is generally stable over time - the shifts are extremely small. Moreover, style can be extracted from just a few hundred sentences that have sensorial terms. We also identify representative and distinctive features within each genre. For example, we observe that 4 of the top 6 representative features in novels collection involved individuals using olfactory language where we expected them to use non-olfactory language.
翻訳日:2022-09-27 15:48:35 公開日:2022-09-26
# GPT-3時代のニュース要約と評価

News Summarization and Evaluation in the Era of GPT-3 ( http://arxiv.org/abs/2209.12356v1 )

ライセンス: Link先を確認
Tanya Goyal, Junyi Jessy Li, Greg Durrett(参考訳) GPT-3のようなモデルによるゼロショットと少数ショットの成功は、NLP研究のパラダイムシフトにつながった。 本稿では,ニュース要約の古典的ベンチマーク領域に着目し,テキスト要約への影響について検討する。 まず,ゼロショットgpt-3を大規模要約データセットで学習した微調整モデルと比較する。 我々は、人間がgpt-3サマリーを圧倒的に好むだけでなく、事実の欠如のような共通のデータセット固有の問題に苦しむことも示している。 次に,これが評価にどのような意味を持つか,特に金標準テストセットの役割について検討する。 実験の結果,参照ベースと参照フリーの両自動メトリクス,例えば最近提案されたQAやエンターメントベースの事実性アプローチは,ゼロショットサマリーを確実に評価できないことがわかった。 最後に,汎用的な要約,特にキーワードおよびアスペクトベースの要約を超えた今後の研究課題について論じる。 さらなる研究を支援するために リリースします (a)4つの標準要約ベンチマークにおける微調整およびゼロショットモデルから10Kのコーパスを生成するサマリー。 (b)ジェネリックおよびキーワードに基づく要約のための異なるシステムを比較する1K人の嗜好判断と理性。

The recent success of zero- and few-shot prompting with models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how zero-shot GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics, e.g. recently proposed QA- or entailment-based factuality approaches, cannot reliably evaluate zero-shot summaries. Finally, we discuss future research challenges beyond generic summarization, specifically, keyword- and aspect-based summarization, showing how dominant fine-tuning approaches compare to zero-shot prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and zero-shot models across 4 standard summarization benchmarks, (b) 1K human preference judgments and rationales comparing different systems for generic- and keyword-based summarization.
翻訳日:2022-09-27 15:48:18 公開日:2022-09-26
# 記述意味論は理想的な言語モデルから抽出できる

Entailment Semantics Can Be Extracted from an Ideal Language Model ( http://arxiv.org/abs/2209.12407v1 )

ライセンス: Link先を確認
William Merrill and Alex Warstadt and Tal Linzen(参考訳) 言語モデルは、追加の根拠なしにテキストだけで訓練されることが多い。 このような手続きから自然言語の意味論がどの程度推測できるかについては議論がある。 我々は,言語学の言語理論からコミュニケーションの基本原理に従うエージェントであるGriceanエージェントが,訓練文を生成すると仮定して,目標分布を完全に学習した理想的な言語モデルから文間の係り受け判断を抽出できることを証明した。 また,これらのデータに基づいて学習した言語モデルの予測から,包含判断を復号化できることを示す。 その結果,未ラベルの言語データに符号化された意味情報を理解するための経路と,言語モデルから意味情報を抽出する潜在的枠組みが明らかになった。

Language models are often trained on text alone, without additional grounding. There is debate as to how much of natural language semantics can be inferred from such a procedure. We prove that entailment judgments between sentences can be extracted from an ideal language model that has perfectly learned its target distribution, assuming the training sentences are generated by Gricean agents, i.e., agents who follow fundamental principles of communication from the linguistic theory of pragmatics. We also show entailment judgments can be decoded from the predictions of a language model trained on such Gricean data. Our results reveal a pathway for understanding the semantic information encoded in unlabeled linguistic data and a potential framework for extracting semantics from language models.
翻訳日:2022-09-27 15:47:57 公開日:2022-09-26
# 共感的会話のための絡み合いによるコンテンツ・感情二重性モデリング

Modeling Content-Emotion Duality via Disentanglement for Empathetic Conversation ( http://arxiv.org/abs/2209.12495v1 )

ライセンス: Link先を確認
Peiqin Lin, Jiashuo Wang, Hinrich Sch\"utze, Wenjie Li(参考訳) 共感的応答生成の課題は、話者が経験にどのような感情を表現しているかを理解し、適切な回答を行うことである。 この課題を解決するためには、コンテンツビュー(例えば、個人の体験が記述されているもの)と感情ビュー(つまり、これらの体験における話者の感情)からなる対話の内容と感情の双対性をモデル化することが不可欠である。 そこで我々は,情緒的応答生成のための絡み合いを通じて,Cedual(Content-Emotion Duality)をモデル化するフレームワークを設計した。 アンタングル化することで,対話履歴をコンテンツと感情の両方からエンコードし,そのアンタングル化表現に基づいて共感応答を生成し,対話履歴の内容と感情情報を生成した応答に埋め込むことができる。 ベンチマークデータセットEMPATHETICDIALOGUESの実験は、CEDualモデルが自動測定と人的計測の両方で最先端のパフォーマンスを達成し、従来の手法よりも共感的な反応を生成することを示した。

The task of empathetic response generation aims to understand what feelings a speaker expresses on his/her experiences and then reply to the speaker appropriately. To solve the task, it is essential to model the content-emotion duality of a dialogue, which is composed of the content view (i.e., what personal experiences are described) and the emotion view (i.e., the feelings of the speaker on these experiences). To this end, we design a framework to model the Content-Emotion Duality (CEDual) via disentanglement for empathetic response generation. With disentanglement, we encode the dialogue history from both the content and emotion views, and then generate the empathetic response based on the disentangled representations, thereby both the content and emotion information of the dialogue history can be embedded in the generated response. The experiments on the benchmark dataset EMPATHETICDIALOGUES show that the CEDual model achieves state-of-the-art performance on both automatic and human metrics, and it also generates more empathetic responses than previous methods.
翻訳日:2022-09-27 15:47:45 公開日:2022-09-26
# メンションヘッド予測を用いたエンドツーエンド多言語照合分解能

End-to-end Multilingual Coreference Resolution with Mention Head Prediction ( http://arxiv.org/abs/2209.12516v1 )

ライセンス: Link先を確認
Ond\v{r}ej Pra\v{z}\'ak and Miloslav Konop\'ik(参考訳) 本稿では,CRAC 2022の多言語照合における共有タスクについて述べる。 我々のモデルは最先端のエンドツーエンドのコア参照解決システムに基づいている。 多言語訓練に参加することとは別に,注意ヘッド予測による結果の改善を行った。 また、依存関係情報をモデルに統合しようとしました。 私たちのシステムは最終的に$$3^{rd}になった。 さらに、13のうち2つのデータセットで最高のパフォーマンスに達しました。

This paper describes our approach to the CRAC 2022 Shared Task on Multilingual Coreference Resolution. Our model is based on a state-of-the-art end-to-end coreference resolution system. Apart from joined multilingual training, we improved our results with mention head prediction. We also tried to integrate dependency information into our model. Our system ended up in $3^{rd}$ place. Moreover, we reached the best performance on two datasets out of 13.
翻訳日:2022-09-27 15:47:25 公開日:2022-09-26
# 意味解析のための言語間多様体のメタラーニング

Meta-Learning a Cross-lingual Manifold for Semantic Parsing ( http://arxiv.org/abs/2209.12577v1 )

ライセンス: Link先を確認
Tom Sherborne Mirella Lapata(参考訳) 新しい言語をサポートするためにセマンティックパーサをローカライズするには、効果的な言語間一般化が必要である。 最近の研究は機械翻訳やゼロショット手法で成功したが、これらの手法はネイティブスピーカーが質問する方法をモデル化するのに苦労している。 言語間セマンティック解析において,新しい言語における最小限の注釈付き例を効果的に活用する方法を検討する。 本稿では,言語間伝達中に最大サンプル効率で意味的パーサを訓練する一階メタ学習アルゴリズムを提案する。 アルゴリズムは高リソース言語を用いてパーサを訓練し,同時に低リソース言語のための言語間一般化を最適化する。 ATIS上の6つの言語にまたがる結果は、我々の一般化ステップの組み合わせによって、各新言語でソーストレーニングデータの10パーセントを正確なセマンティックパーザがサンプリングできることを実証している。 われわれのアプローチは、英語を用いてスパイダーの競争モデルを訓練し、中国語も同様にトレーニングデータの$\le$10%をサンプリングする。

Localizing a semantic parser to support new languages requires effective cross-lingual generalization. Recent work has found success with machine-translation or zero-shot methods although these approaches can struggle to model how native speakers ask questions. We consider how to effectively leverage minimal annotated examples in new languages for few-shot cross-lingual semantic parsing. We introduce a first-order meta-learning algorithm to train a semantic parser with maximal sample efficiency during cross-lingual transfer. Our algorithm uses high-resource languages to train the parser and simultaneously optimizes for cross-lingual generalization for lower-resource languages. Results across six languages on ATIS demonstrate that our combination of generalization steps yields accurate semantic parsers sampling $\le$10% of source training data in each new language. Our approach also trains a competitive model on Spider using English with generalization to Chinese similarly sampling $\le$10% of training data.
翻訳日:2022-09-27 15:47:21 公開日:2022-09-26
# 大規模言語モデルはプロンプトを本当に理解できるか? 無効プロンプトを用いた1症例

Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts ( http://arxiv.org/abs/2209.12711v1 )

ライセンス: Link先を確認
Joel Jang, Seonghyeon Ye, Minjoon Seo(参考訳) これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。 本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。 我々は,(1) 異なるサイズ (125M - 175B) の事前訓練されたLM (OPT & GPT-3) ,(2) LM が新規プロンプト (インストラクトGPT) に一般化するためにさらに事前訓練されたLM (インストラクトGPT) ,(3) LM が少数例で提供され,(4) LM は負のプロンプトに微調整されている。 既存のlmsとメソッドの重大な制限を強調することで、コミュニティに対して、与えられた指示に実際に従うlmsを開発するための新しいアプローチの開発を促します。 https://github.com/joeljang/negated-prompts-for-llmsでネゲートプロンプトを探索するコードとデータセットを提供します。

Previous work has shown that there exists a scaling law between the size of Language Models (LMs) and their zero-shot performance on different downstream NLP tasks. In this work, we show that this phenomenon does not hold when evaluating large LMs on tasks with negated prompts, but instead shows an inverse scaling law. We evaluate 9 different tasks with negated prompts on (1) pretrained LMs (OPT & GPT-3) of varying sizes (125M - 175B), (2) LMs further pretrained to generalize to novel prompts (InstructGPT), (3) LMs provided with few-shot examples, and (4) LMs fine-tuned specifically on negated prompts; all LM types perform worse on negated prompts as they scale and show a huge performance gap between the human performance when comparing the average score on both original and negated prompts. By highlighting a critical limitation of existing LMs and methods, we urge the community to develop new approaches of developing LMs that actually follow the given instructions. We provide the code and the datasets to explore negated prompts at https://github.com/joeljang/negated-prompts-for-llms
翻訳日:2022-09-27 15:47:06 公開日:2022-09-26
# ComplexWoundDB: 複雑な組織の自動分類のためのデータベース

ComplexWoundDB: A Database for Automatic Complex Wound Tissue Categorization ( http://arxiv.org/abs/2209.12822v1 )

ライセンス: Link先を確認
Talita A. Pereira, Regina C. Popim, Leandro A. Passos, Danillo R. Pereira, Clayton R. Pereira, Jo\~ao P. Papa(参考訳) 複雑な傷は通常、部分的または全体的な皮膚厚の喪失に直面し、二次的な意図で治癒する。 急性または慢性であり、感染症、虚血、組織壊死、全身疾患と関連がある。 世界中の研究機関は、人的資源(例えば、医師や医療専門家)にかかわる深刻な公衆衛生問題に終止符を打つ無数のケースを報告し、生命の質に悪影響を及ぼす。 本論文は, 難治領域, 顆粒化, フィブリノイド組織, ドライ壊死, 血腫の5つのカテゴリーで, 複雑な創傷を自動的に分類するデータベースを提案する。 画像は, 圧, 血管潰瘍, 糖尿病, 熱傷, 合併症などの合併症を主訴に, 複雑な創傷を呈するシナリオが異なっていた。 ComplexWoundDBと呼ばれるこのデータセットは、野生で得られた27ドルの画像からピクセルレベルの分類、すなわち4人の健康専門家によってラベル付けされた画像が患者の家で収集されるため、ユニークなものである。 異なる機械学習技術を用いたさらなる実験は、コンピュータ支援の複雑な創傷組織分類の問題に対処する上での課題を証明している。 この写本は地域の今後の方向性に光を当てており、文献で広く使われている他のデータベースとの詳細な比較もされている。

Complex wounds usually face partial or total loss of skin thickness, healing by secondary intention. They can be acute or chronic, figuring infections, ischemia and tissue necrosis, and association with systemic diseases. Research institutes around the globe report countless cases, ending up in a severe public health problem, for they involve human resources (e.g., physicians and health care professionals) and negatively impact life quality. This paper presents a new database for automatically categorizing complex wounds with five categories, i.e., non-wound area, granulation, fibrinoid tissue, and dry necrosis, hematoma. The images comprise different scenarios with complex wounds caused by pressure, vascular ulcers, diabetes, burn, and complications after surgical interventions. The dataset, called ComplexWoundDB, is unique because it figures pixel-level classifications from $27$ images obtained in the wild, i.e., images are collected at the patients' homes, labeled by four health professionals. Further experiments with distinct machine learning techniques evidence the challenges in addressing the problem of computer-aided complex wound tissue categorization. The manuscript sheds light on future directions in the area, with a detailed comparison among other databased widely used in the literature.
翻訳日:2022-09-27 15:40:55 公開日:2022-09-26
# airtrack: 長距離航空機の検出と追跡のためのディープラーニングフレームワーク

AirTrack: Onboard Deep Learning Framework for Long-Range Aircraft Detection and Tracking ( http://arxiv.org/abs/2209.12849v1 )

ライセンス: Link先を確認
Sourish Ghosh and Jay Patrikar and Brady Moon and Milad Moghassem Hamidi and and Sebastian Scherer(参考訳) 検出・回避(DAA)能力は無人航空機システム(UAS)の安全運用に不可欠である。 本稿では, sUASシステムのサイズ, 重量, パワー(SWaP)の制約を考慮し, リアルタイムに視覚のみを検出するフレームワークであるAirTrackを紹介する。 遠距離航空機の信号対雑音比 (SNR) が低いことを考慮し, 連続した画像を整列させてエゴモーションを除去する深層学習の枠組みにおいて, フル解像度画像を用いることを提案する。 次に、アライメントされた画像は、カスケードされたプライマリとセカンダリの分類器で下流で使用され、複数のメトリクスにおける検出と追跡のパフォーマンスを改善する。 AirTrackはAmazon Airborne Object Tracking (AOT) Datasetで最先端のアートベースラインを上回っている。 セスナ 172による複数の実世界の飛行試験は一般の航空交通と相互作用し、さらにベルヘリコプターがUASに向かって飛行し、提案されたアプローチが新たに導入されたASTM F3442/F3442MのDAA標準を満足することを示した。 実験結果から,本システムでは95%以上のトラックを700mの範囲まで追跡する可能性が示唆された。 ビデオはhttps://youtu.be/h3ll_wjxjpw。

Detect-and-Avoid (DAA) capabilities are critical for safe operations of unmanned aircraft systems (UAS). This paper introduces, AirTrack, a real-time vision-only detect and tracking framework that respects the size, weight, and power (SWaP) constraints of sUAS systems. Given the low Signal-to-Noise ratios (SNR) of far away aircraft, we propose using full resolution images in a deep learning framework that aligns successive images to remove ego-motion. The aligned images are then used downstream in cascaded primary and secondary classifiers to improve detection and tracking performance on multiple metrics. We show that AirTrack outperforms state-of-the art baselines on the Amazon Airborne Object Tracking (AOT) Dataset. Multiple real world flight tests with a Cessna 172 interacting with general aviation traffic and additional near-collision flight tests with a Bell helicopter flying towards a UAS in a controlled setting showcase that the proposed approach satisfies the newly introduced ASTM F3442/F3442M standard for DAA. Empirical evaluations show that our system has a probability of track of more than 95% up to a range of 700m. Video available at https://youtu.be/H3lL_Wjxjpw .
翻訳日:2022-09-27 15:40:33 公開日:2022-09-26
# 一般データ分布に対するスコアベース生成モデリングの収束

Convergence of score-based generative modeling for general data distributions ( http://arxiv.org/abs/2209.12381v1 )

ライセンス: Link先を確認
Holden Lee, Jianfeng Lu, Yixin Tan(参考訳) 関数の不等式や強い滑らかさの仮定を満たすデータ分布に依存しない拡散モデルに多項式収束保証を与える。 l^2$-正確なスコア推定を仮定すると、有界な支持または十分に減衰した尾の分布に対するワッサースタイン距離保証と、さらに滑らかな仮定を持つ分布に対するtv保証が得られる。

We give polynomial convergence guarantees for denoising diffusion models that do not rely on the data distribution satisfying functional inequalities or strong smoothness assumptions. Assuming a $L^2$-accurate score estimate, we obtain Wasserstein distance guarantees for any distributions of bounded support or sufficiently decaying tails, as well as TV guarantees for distributions with further smoothness assumptions.
翻訳日:2022-09-27 15:39:46 公開日:2022-09-26
# 有界単純x構造行列分解

Bounded Simplex-Structured Matrix Factorization ( http://arxiv.org/abs/2209.12638v1 )

ライセンス: Link先を確認
Olivier Vu Thanh, Nicolas Gillis, Fabian Lecron(参考訳) 本稿では,BSSMF (bounded simplex-structured matrix factorization) と呼ばれる新しい低ランク行列分解モデルを提案する。 入力行列 $x$ と因子化ランク $r$ が与えられると、bssmf は$r$ の列を持つ行列 $w$ と $r$ の列を持つ行列 $h$ を探し、$x \approx wh$ となる。 BSSMFは非負行列分解 (NMF) と単純構造行列分解 (SSMF) を一般化する。 例えば、$X$の行がイメージを表す場合や、$X$のエントリが$[1,5]の間隔に属するNetflixやMovieLensデータセットのようなレーティングマトリックスである場合などである。 単純x構造行列 $h$ は、容易に理解可能な分解をもたらすだけでなく、$x$ のカラムのソフトクラスタリングを提供するだけでなく、$wh$ の各列のエントリが $w$ の列と同じ間隔に属することを意味する。 本稿では,まずBSSMFの高速アルゴリズムを提案する。 次に、BSSMFの識別可能性条件、すなわち、BSSMFが一意的な分解を許容する条件を自明な曖昧さまで提供する。 最後に,画像群における特徴抽出と推薦システムにおける行列補完問題という2つの応用におけるbssmfの有効性について述べる。

In this paper, we propose a new low-rank matrix factorization model dubbed bounded simplex-structured matrix factorization (BSSMF). Given an input matrix $X$ and a factorization rank $r$, BSSMF looks for a matrix $W$ with $r$ columns and a matrix $H$ with $r$ rows such that $X \approx WH$ where the entries in each column of $W$ are bounded, that is, they belong to given intervals, and the columns of $H$ belong to the probability simplex, that is, $H$ is column stochastic. BSSMF generalizes nonnegative matrix factorization (NMF), and simplex-structured matrix factorization (SSMF). BSSMF is particularly well suited when the entries of the input matrix $X$ belong to a given interval; for example when the rows of $X$ represent images, or $X$ is a rating matrix such as in the Netflix and MovieLens data sets where the entries of $X$ belong to the interval $[1,5]$. The simplex-structured matrix $H$ not only leads to an easily understandable decomposition providing a soft clustering of the columns of $X$, but implies that the entries of each column of $WH$ belong to the same intervals as the columns of $W$. In this paper, we first propose a fast algorithm for BSSMF, even in the presence of missing data in $X$. Then we provide identifiability conditions for BSSMF, that is, we provide conditions under which BSSMF admits a unique decomposition, up to trivial ambiguities. Finally, we illustrate the effectiveness of BSSMF on two applications: extraction of features in a set of images, and the matrix completion problem for recommender systems.
翻訳日:2022-09-27 15:39:37 公開日:2022-09-26
# 確率と物理学とニューラルネットワークの関係

A connection between probability, physics and neural networks ( http://arxiv.org/abs/2209.12737v1 )

ライセンス: Link先を確認
Sascha Ranftl(参考訳) 本稿では,先行研究が物理法則に従うニューラルネットワークの構築に活用可能なアプローチについて述べる。 まず、単純な単層ニューラルネットワーク(nn)から始めるが、まだアクティベーション関数の選択は控える。 ある条件と無限幅極限の下では、NNの出力がガウスとなる中心極限定理を適用することができる。 次に、ガウス過程(gp)理論にフォールバックすることで極限ネットワークを調査して操作する。 GP に作用する線型作用素が再び GP を生成することが観察される。 これは微分方程式を定義し、物理法則を記述する微分作用素にも当てはまる。 GP が物理的法則に従うことを要求した場合、この方程式は GP の共分散関数や核の方程式となり、その解は物理法則に従うために同値にモデルを制約する。 中心極限定理は、NNが無限幅極限の特定のカーネルと一致するような活性化関数を選択することによって、物理法則に従うように構築可能であることを示唆する。 この方法で構築されたアクティベーション関数は、非無限ネットワーク幅の近似誤差まで、NNを物理に従わないように保証する。 均一な1D-ヘルムホルツ方程式の簡単な例を議論し、単純核や活性化と比較する。

We illustrate an approach that can be exploited for constructing neural networks which a priori obey physical laws. We start with a simple single-layer neural network (NN) but refrain from choosing the activation functions yet. Under certain conditions and in the infinite-width limit, we may apply the central limit theorem, upon which the NN output becomes Gaussian. We may then investigate and manipulate the limit network by falling back on Gaussian process (GP) theory. It is observed that linear operators acting upon a GP again yield a GP. This also holds true for differential operators defining differential equations and describing physical laws. If we demand the GP, or equivalently the limit network, to obey the physical law, then this yields an equation for the covariance function or kernel of the GP, whose solution equivalently constrains the model to obey the physical law. The central limit theorem then suggests that NNs can be constructed to obey a physical law by choosing the activation functions such that they match a particular kernel in the infinite-width limit. The activation functions constructed in this way guarantee the NN to a priori obey the physics, up to the approximation error of non-infinite network width. Simple examples of the homogeneous 1D-Helmholtz equation are discussed and compared to naive kernels and activations.
翻訳日:2022-09-27 15:39:05 公開日:2022-09-26
# 効率的なガウスサンプリングのためのハミルトンモンテカルロ:長いステップとランダムステップ

Hamiltonian Monte Carlo for efficient Gaussian sampling: long and random steps ( http://arxiv.org/abs/2209.12771v1 )

ライセンス: Link先を確認
Simon Apers, Sander Gribling, D\'aniel Szil\'agyi(参考訳) ハミルトン・モンテカルロ (hamiltonian monte carlo, hmc) は、密度 $e^{-f(x)}$ の高次元分布からサンプリングするためのマルコフ連鎖アルゴリズムである。 興味のある特別な場合として、共分散行列 $\sigma$ を持つ次元ガウス分布のとき、その場合、$f(x) = x^\top \sigma^{-1} x$ である。 HMCは$\varepsilon$-closeの分布から$\widetilde{O}(\sqrt{\kappa} d^{1/4} \log(1/\varepsilon)$グラデーションクエリをサンプリングすることができ、$\kappa$は$\Sigma$の条件番号である。 我々のアルゴリズムはハミルトン力学に長いランダムな積分時間を用いる。 これは、ガウスの場合でさえ、一定の積分時間を持つ HMC に対して$\widetilde\Omega(\kappa d^{1/2})$クエリローバウンドを与える最近の結果とは対照的である。

Hamiltonian Monte Carlo (HMC) is a Markov chain algorithm for sampling from a high-dimensional distribution with density $e^{-f(x)}$, given access to the gradient of $f$. A particular case of interest is that of a $d$-dimensional Gaussian distribution with covariance matrix $\Sigma$, in which case $f(x) = x^\top \Sigma^{-1} x$. We show that HMC can sample from a distribution that is $\varepsilon$-close in total variation distance using $\widetilde{O}(\sqrt{\kappa} d^{1/4} \log(1/\varepsilon))$ gradient queries, where $\kappa$ is the condition number of $\Sigma$. Our algorithm uses long and random integration times for the Hamiltonian dynamics. This contrasts with (and was motivated by) recent results that give an $\widetilde\Omega(\kappa d^{1/2})$ query lower bound for HMC with fixed integration times, even for the Gaussian case.
翻訳日:2022-09-27 15:32:07 公開日:2022-09-26
# 視覚対話型ラベリングへの説明可能な機械学習アプローチ:非コミュニケーション性疾患データを用いた事例研究

An Explainable Machine Learning Approach to Visual-Interactive Labeling: A Case Study on Non-communicable Disease Data ( http://arxiv.org/abs/2209.12778v1 )

ライセンス: Link先を確認
Donlapark Ponnoprat (1), Parichart Pattarapanitchai (1), Phimphaka Taninpong (1), Suthep Suantai (2) ((1) Department of Statistics, Chiang Mai University, Chiang Mai, Thailand, (2) Department of Mathematics, Chiang Mai University, Chiang Mai, Thailand)(参考訳) データラベリングに説明可能な機械学習アプローチを採用する,新たなビジュアル対話型ツールである explainsable labeling assistant (xlabel) を紹介する。 xlabelの主なコンポーネントは、各入力特徴の最終的な予測への寄与を計算できる予測モデルである、説明可能なブースティングマシン(ebm)である。 xlabelを用いて, 糖尿病, 高血圧症, 慢性腎臓病, 脂肪血症の4つの非感染性疾患(ncd)のラベルを予測した。 EBMはルールベースや他の4つの機械学習モデルと比較することで予測モデルの優れた選択であることを示す。 427の医療記録で5倍のクロスバリデーションを行うことで、ebmの予測精度、精度、f1-scoreは4つのncdすべてで0.95以上になる。 2つのブラックボックスモデルと同様に動作し、これらの指標で他のモデルを上回った。 さらに、40%のレコードが意図的に誤記された場合、ebmは90%以上のレコードの正しいラベルを思い出すことができた。

We introduce a new visual-interactive tool: Explainable Labeling Assistant (XLabel) that takes an explainable machine learning approach to data labeling. The main component of XLabel is the Explainable Boosting Machine (EBM), a predictive model that can calculate the contribution of each input feature towards the final prediction. As a case study, we use XLabel to predict the labels of four non-communicable diseases (NCDs): diabetes, hypertension, chronic kidney disease, and dyslipidemia. We demonstrate that EBM is an excellent choice of predictive model by comparing it against a rule-based and four other machine learning models. By performing 5-fold cross-validation on 427 medical records, EBM's prediction accuracy, precision, and F1-score are greater than 0.95 in all four NCDs. It performed as well as two black-box models and outperformed the other models in these metrics. In an additional experiment, when 40% of the records were intentionally mislabeled, EBM could recall the correct labels of more than 90% of these records.
翻訳日:2022-09-27 15:31:42 公開日:2022-09-26
# カーネルの相違によるターゲット分離と収束

Targeted Separation and Convergence with Kernel Discrepancies ( http://arxiv.org/abs/2209.12835v1 )

ライセンス: Link先を確認
Alessandro Barp, Carl-Johann Simon-Gabriel, Mark Girolami, Lester Mackey(参考訳) kernel stein discrepancy (ksd) のような最大平均偏差 (mmd) は、仮説検定、標本選択、分布近似、変分推論など、幅広い応用の中心に成長してきた。 各設定では、これらのカーネルベースの不一致対策が必要である。 (i)目標pを他の確率測度や偶数と分離する 第二に、Pに対する弱収束を制御し、本項では、確実な新しい十分かつ必要な条件を導出する。 (i)および (ii) 分離可能な距離空間上のMDDに対して、ボヒナー埋め込み可能な測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離し、有界カーネルとの収束を制御するための単純な条件を導入する。 我々はこれらの結果を$\mathbb{r}^d$ を用いて, ksd分離および収束制御の既知の条件を大幅に拡大し, p への弱収束を正確に評価できる最初の ksd を開発する。

Maximum mean discrepancies (MMDs) like the kernel Stein discrepancy (KSD) have grown central to a wide range of applications, including hypothesis testing, sampler selection, distribution approximation, and variational inference. In each setting, these kernel-based discrepancy measures are required to (i) separate a target P from other probability measures or even (ii) control weak convergence to P. In this article we derive new sufficient and necessary conditions to ensure (i) and (ii). For MMDs on separable metric spaces, we characterize those kernels that separate Bochner embeddable measures and introduce simple conditions for separating all measures with unbounded kernels and for controlling convergence with bounded kernels. We use these results on $\mathbb{R}^d$ to substantially broaden the known conditions for KSD separation and convergence control and to develop the first KSDs known to exactly metrize weak convergence to P. Along the way, we highlight the implications of our results for hypothesis testing, measuring and improving sample quality, and sampling with Stein variational gradient descent.
翻訳日:2022-09-27 15:31:22 公開日:2022-09-26
# 近似記述長、被覆数、VC次元

Approximate Description Length, Covering Numbers, and VC Dimension ( http://arxiv.org/abs/2209.12882v1 )

ライセンス: Link先を確認
Amit Daniely and Gal Katzhendler(参考訳) 最近、Daniely と Granot (arXiv:1910.05697) は Approximate Description Length (ADL) と呼ばれる複雑さの概念を導入した。 彼らはこれをニューラルネットワークの新たな一般化境界の導出に用い、実質的な作業にもかかわらず、離散化、被覆数、ラデマッハ複雑性といったより古典的な手法には届かなかった。 本稿では,数やvc次元など関数複雑性の古典的概念とadlの関係について考察する。 範囲が実数である函数に対して、adlは本質的にこれらの古典的複雑性測度と同値である。 しかし、この同値性は高次元範囲の函数に対して破れる。

Recently, Daniely and Granot [arXiv:1910.05697] introduced a new notion of complexity called Approximate Description Length (ADL). They used it to derive novel generalization bounds for neural networks, that despite substantial work, were out of reach for more classical techniques such as discretization, Covering Numbers and Rademacher Complexity. In this paper we explore how ADL relates to classical notions of function complexity such as Covering Numbers and VC Dimension. We find that for functions whose range is the reals, ADL is essentially equivalent to these classical complexity measures. However, this equivalence breaks for functions with high dimensional range.
翻訳日:2022-09-27 15:31:03 公開日:2022-09-26
# ハイパーパラメータチューニングのための繰り返し学習率によるマルチ忠実度最適化の改善

Improving Multi-fidelity Optimization with a Recurring Learning Rate for Hyperparameter Tuning ( http://arxiv.org/abs/2209.12499v1 )

ライセンス: Link先を確認
HyunJae Lee, Gihyeon Lee, Junhwan Kim, Sungjun Cho, Dohyun Kim, Donggeun Yoo(参考訳) 畳み込みニューラルネットワーク(CNN)の進化にもかかわらず、その性能は驚くほどハイパーパラメータの選択に依存している。 しかし、現代のCNNの長い訓練期間のため、大規模なハイパーパラメータ検索空間を効率的に探索することは依然として困難である。 マルチフィデリティ最適化は、予測不能な構成を早期に終了することで、予算が与えられたハイパーパラメータ構成の探索を可能にする。 しかし、ハイパフォーマンスな構成でのトレーニングは、通常は初期段階でゆっくりと収束するので、しばしばサブ最適構成を選択する。 本稿では,cnnの最適化プロセスを多元的最適化に組み込んだ反復学習率(morl)による多元的最適化を提案する。 MORLはスロースタートの問題を緩和し、より正確な低忠実度近似を実現する。 一般画像分類,移動学習,半教師付き学習に関する総合的な実験は,逐次Halving Algorithm (SHA) や Hyperband などの他の多要素最適化手法に対する MORL の有効性を示した。 さらに,手作業によるハイパーパラメータ設定よりも,実用的な予算で大幅なパフォーマンス向上を実現している。

Despite the evolution of Convolutional Neural Networks (CNNs), their performance is surprisingly dependent on the choice of hyperparameters. However, it remains challenging to efficiently explore large hyperparameter search space due to the long training times of modern CNNs. Multi-fidelity optimization enables the exploration of more hyperparameter configurations given budget by early termination of unpromising configurations. However, it often results in selecting a sub-optimal configuration as training with the high-performing configuration typically converges slowly in an early phase. In this paper, we propose Multi-fidelity Optimization with a Recurring Learning rate (MORL) which incorporates CNNs' optimization process into multi-fidelity optimization. MORL alleviates the problem of slow-starter and achieves a more precise low-fidelity approximation. Our comprehensive experiments on general image classification, transfer learning, and semi-supervised learning demonstrate the effectiveness of MORL over other multi-fidelity optimization methods such as Successive Halving Algorithm (SHA) and Hyperband. Furthermore, it achieves significant performance improvements over hand-tuned hyperparameter configuration within a practical budget.
翻訳日:2022-09-27 15:29:44 公開日:2022-09-26
# 強化微調整による文書画像理解の改善

Improving Document Image Understanding with Reinforcement Finetuning ( http://arxiv.org/abs/2209.12561v1 )

ライセンス: Link先を確認
Bao-Sinh Nguyen, Dung Tien Le, Hieu M. Vu, Tuan Anh D. Nguyen, Minh-Tien Nguyen, Hung Le(参考訳) 成功した人工知能システムは、しばしば文書画像から情報を抽出するために多くのラベル付きデータを必要とする。 本稿では,特にトレーニングデータに制限がある場合の文書画像理解における人工知能システムの性能向上の問題について検討する。 本稿では,強化学習を用いた新しい微調整手法を提案する。 提案手法は,情報抽出モデルを政策ネットワークとして扱い,従来のクロスエントロピー損失を補完する報酬関数を最大化するために,ポリシー勾配学習を用いてモデルを更新する。 ラベルと専門家のフィードバックを用いた4つのデータセットに関する実験により、我々の微調整機構は、特に小さな訓練データ体制において、最先端の情報抽出器の性能を一貫して改善することを示した。

Successful Artificial Intelligence systems often require numerous labeled data to extract information from document images. In this paper, we investigate the problem of improving the performance of Artificial Intelligence systems in understanding document images, especially in cases where training data is limited. We address the problem by proposing a novel finetuning method using reinforcement learning. Our approach treats the Information Extraction model as a policy network and uses policy gradient training to update the model to maximize combined reward functions that complement the traditional cross-entropy losses. Our experiments on four datasets using labels and expert feedback demonstrate that our finetuning mechanism consistently improves the performance of a state-of-the-art information extractor, especially in the small training data regime.
翻訳日:2022-09-27 15:29:28 公開日:2022-09-26
# 有理関数上の非負行列分解に対する最小二乗法

Least-squares methods for nonnegative matrix factorization over rational functions ( http://arxiv.org/abs/2209.12579v1 )

ライセンス: Link先を確認
C\'ecile Hautecoeur, Lieven De Lathauwer, Nicolas Gillis, Fran\c{c}ois Glineur(参考訳) 非負行列分解(nmf)モデルは線形混合非負データを回収するために広く使われている。 データが連続的な信号のサンプリングによって作られる場合、NMFの因子は非負の有理関数のサンプルとして制約され、それは比較的一般的なモデルとなり、これは有理関数(R-NMF)を用いてNMFと呼ばれる。 弱い仮定の下では、R-NMF は本質的に NMF と異なり、ブラインドソース分離問題のような地道的要因を回復する必要があるアプリケーションにおいて重要である。 次に、R-NMFの解法として、R-HANLS、R-ANLS、R-NLS法を提案する。 私たちのテストでは、他の方法よりも大幅に優れるメソッドはなく、時間と正確性の間にトレードオフを行う必要があります。 実際、R-HANLSは大きな問題に対して高速かつ正確であり、R-ANLSはより正確であるが、時間とメモリの両方でリソースを必要とする。 R-NLSは非常に正確だが、小さな問題に限られる。 さらに、R-NMFは半合成連続信号の回復や実超スペクトル信号の分類問題など、様々なタスクにおいてNMFよりも優れていることを示す。

Nonnegative Matrix Factorization (NMF) models are widely used to recover linearly mixed nonnegative data. When the data is made of samplings of continuous signals, the factors in NMF can be constrained to be samples of nonnegative rational functions, which allow fairly general models; this is referred to as NMF using rational functions (R-NMF). We first show that, under mild assumptions, R-NMF has an essentially unique factorization unlike NMF, which is crucial in applications where ground-truth factors need to be recovered such as blind source separation problems. Then we present different approaches to solve R-NMF: the R-HANLS, R-ANLS and R-NLS methods. From our tests, no method significantly outperforms the others, and a trade-off should be done between time and accuracy. Indeed, R-HANLS is fast and accurate for large problems, while R-ANLS is more accurate, but also more resources demanding, both in time and memory. R-NLS is very accurate but only for small problems. Moreover, we show that R-NMF outperforms NMF in various tasks including the recovery of semi-synthetic continuous signals, and a classification problem of real hyperspectral signals.
翻訳日:2022-09-27 15:29:15 公開日:2022-09-26
# 株式買い戻しの自動識別と分類と短期的・中期的・長期的リターンへの影響

Automatic Identification and Classification of Share Buybacks and their Effect on Short-, Mid- and Long-Term Returns ( http://arxiv.org/abs/2209.12863v1 )

ライセンス: Link先を確認
Thilo Reintjes(参考訳) この論文は株式買い戻し、特に株式買い戻しの発表を調査している。 それは、その発表の認識方法、株式買い戻しの過剰なリターン、および株式買い戻しの発表後のリターンの予測に対処する。 株式買い戻し発表を自動的に検出するための2つのNLPアプローチについて説明する。 非常に少量のトレーニングデータであっても、最大90%の精度を達成できます。 この論文では、これらのNLPメソッドを使用して57,155株の買い戻し発表からなる大規模なデータセットを生成する。 この論文は、このデータセットを分析して、株式買い戻しを発表したほとんどの企業がMSCI Worldを下回っていることを示している。 しかし、少数の企業はMSCIワールドをはるかに上回っている。 この大きなオーバーパフォーマンスは、すべての企業の平均を見てみると、純利益につながる。 ベンチマーク指標が各企業の規模に合わせて調整された場合、平均オーバーパフォーマンスは消失し、過半数がさらにパフォーマンスが低下する。 しかし、調整されたベンチマークを使用した場合であっても、時価総額の1%以上で株式買い戻しを発表した企業は、平均してかなりのオーバーパフォーマンスを実現していることがわかった。 また、危機時の株式買い戻しを公表する企業は、市場全体よりも良好であることが判明した。 さらに、生成されたデータセットは72の機械学習モデルのトレーニングに使用された。 これにより、最大77%の精度を達成し、大きな余分なリターンを生み出す多くの戦略を見つけることができた。 6つの異なる時間枠で様々なパフォーマンス指標が改善され、かなりのオーバーパフォーマンスが特定できた。 これは、異なるタスクと時間フレームのために複数のモデルをトレーニングし、これらの異なるモデルを組み合わせることで達成され、弱い学習者を使って大きな改善をもたらし、1つの強い学習者を生み出す。

This thesis investigates share buybacks, specifically share buyback announcements. It addresses how to recognize such announcements, the excess return of share buybacks, and the prediction of returns after a share buyback announcement. We illustrate two NLP approaches for the automated detection of share buyback announcements. Even with very small amounts of training data, we can achieve an accuracy of up to 90%. This thesis utilizes these NLP methods to generate a large dataset consisting of 57,155 share buyback announcements. By analyzing this dataset, this thesis aims to show that most companies, which have a share buyback announced are underperforming the MSCI World. A minority of companies, however, significantly outperform the MSCI World. This significant overperformance leads to a net gain when looking at the averages of all companies. If the benchmark index is adjusted for the respective size of the companies, the average overperformance disappears, and the majority underperforms even greater. However, it was found that companies that announce a share buyback with a volume of at least 1% of their market cap, deliver, on average, a significant overperformance, even when using an adjusted benchmark. It was also found that companies that announce share buybacks in times of crisis emerge better than the overall market. Additionally, the generated dataset was used to train 72 machine learning models. Through this, it was able to find many strategies that could achieve an accuracy of up to 77% and generate great excess returns. A variety of performance indicators could be improved across six different time frames and a significant overperformance was identified. This was achieved by training several models for different tasks and time frames as well as combining these different models, generating significant improvement by fusing weak learners, in order to create one strong learner.
翻訳日:2022-09-27 15:23:01 公開日:2022-09-26
# unrolling と bilevel optimization を用いた変分モデルの学習

Learning Variational Models with Unrolling and Bilevel Optimization ( http://arxiv.org/abs/2209.12651v1 )

ライセンス: Link先を確認
Christoph Brauer, Niklas Breustedt, Timo de Wolff, Dirk A. Lorenz(参考訳) 本稿では,リスク最小化による教師あり学習の文脈における変動モデルの問題学習について考察する。 我々のゴールは、バイレベル最適化とアルゴリズムのアンロールによる変分モデルの学習の2つのアプローチをより深く理解することである。 前者は、変動モデルがリスク最小化問題より低いレベルの最適化問題であると考え、後者は、その問題をおよそ解くアルゴリズムによって下位レベルの最適化問題を置き換える。 どちらのアプローチも実際は使用されるが、アンローリングは計算の観点からはるかに単純である。 2つのアプローチを解析・比較するために,簡単な玩具モデルを検討し,リスクと各推定器を明示的に計算する。 アンローリングは二段階最適化手法よりも優れているが、アンローリングの性能はさらなるパラメータに大きく依存し、時には予期せぬ方法でも有益であることを示す: アンローリングアルゴリズムのステップサイズは重要であるが、アンローリングされたイテレーションの数は、その数が偶数か奇数かに限られており、これらの2つのケースは顕著に異なる。

In this paper we consider the problem learning of variational models in the context of supervised learning via risk minimization. Our goal is to provide a deeper understanding of the two approaches of learning of variational models via bilevel optimization and via algorithm unrolling. The former considers the variational model as a lower level optimization problem below the risk minimization problem, while the latter replaces the lower level optimization problem by an algorithm that solves said problem approximately. Both approaches are used in practice, but, unrolling is much simpler from a computational point of view. To analyze and compare the two approaches, we consider a simple toy model, and compute all risks and the respective estimators explicitly. We show that unrolling can be better than the bilevel optimization approach, but also that the performance of unrolling can depend significantly on further parameters, sometimes in unexpected ways: While the stepsize of the unrolled algorithm matters a lot, the number of unrolled iterations only matters if the number is even or odd, and these two cases are notably different.
翻訳日:2022-09-27 15:20:16 公開日:2022-09-26
# マルチ話者ニューラルテキスト音声合成のためのマルチタスク適応学習アルゴリズム

Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech ( http://arxiv.org/abs/2209.12549v1 )

ライセンス: Link先を確認
Yusuke Nakai, Yuki Saito, Kenta Udagawa, and Hiroshi Saruwatari(参考訳) 本稿では,マルチタスク逆学習に基づくマルチ話者ニューラルテキスト音声(TTS)モデルの新たなトレーニングアルゴリズムを提案する。 従来のgenerative adversarial network(gan)ベースの訓練アルゴリズムは、自然音声と合成音声の統計的差異を低減し、合成音声の品質を大幅に向上させる。 しかし、このアルゴリズムは、訓練データに含まれない未知話者の声合成において、訓練されたttsモデルの一般化性能を保証しない。 提案手法では,マルチタスク判別器とマルチスピーカーニューラルネットワークttsモデル(gan生成器)の2つの深層ニューラルネットワークを訓練する。 判別器は、自然音声と合成音声とを区別するだけでなく、入力音声の話者の存在の有無を検証するために訓練される(すなわち、目に見える話者の埋め込みベクトルを補間することによって新たに生成される)。 一方、このジェネレータは、ターゲット話者が見えない場合でも高品質なマルチスピーカTSを実現する判別器を騙すために、音声再構成損失と敵損失の重み付け和を最小限に抑えるように訓練される。 実験により,提案アルゴリズムは従来のGANSpeechアルゴリズムよりも合成音声の品質を向上することが示された。

We propose a novel training algorithm for a multi-speaker neural text-to-speech (TTS) model based on multi-task adversarial training. A conventional generative adversarial network (GAN)-based training algorithm significantly improves the quality of synthetic speech by reducing the statistical difference between natural and synthetic speech. However, the algorithm does not guarantee the generalization performance of the trained TTS model in synthesizing voices of unseen speakers who are not included in the training data. Our algorithm alternatively trains two deep neural networks: multi-task discriminator and multi-speaker neural TTS model (i.e., generator of GANs). The discriminator is trained not only to distinguish between natural and synthetic speech but also to verify the speaker of input speech is existent or non-existent (i.e., newly generated by interpolating seen speakers' embedding vectors). Meanwhile, the generator is trained to minimize the weighted sum of the speech reconstruction loss and adversarial loss for fooling the discriminator, which achieves high-quality multi-speaker TTS even if the target speaker is unseen. Experimental evaluation shows that our algorithm improves the quality of synthetic speech better than a conventional GANSpeech algorithm.
翻訳日:2022-09-27 15:11:22 公開日:2022-09-26
# 準保守的スコアベース生成モデル

Quasi-Conservative Score-based Generative Models ( http://arxiv.org/abs/2209.12753v1 )

ライセンス: Link先を確認
Chen-Hao Chao, Wei-Fang Sun, Bo-Wun Cheng, Chun-Yi Lee(参考訳) 既存のスコアベース生成モデル(SGM)は、パラメータ化アプローチに従って制約付きSGM(CSGM)または制約なしSGM(USGM)に分類される。 CSGMは確率密度関数をボルツマン分布としてモデル化し、それらの予測をスカラー値エネルギー関数の負勾配として割り当てる。 一方、USGMはエネルギー関数を明示的にモデル化することなくスコアを直接推定できる柔軟なアーキテクチャを採用している。 本稿では,CSGMのアーキテクチャ上の制約が,スコアマッチング能力を制限することを実証する。 さらに,USGMが保守性特性を維持できないことは,サンプリング効率の低下やサンプリング性能の低下につながる可能性が示唆された。 上記の課題に対処するため、CSGMとUSGMの両方の利点を維持するために、準保守スコアベース生成モデル(QCSGM)を提案する。 理論的導出は, ハッチンソントレース推定器を利用して, qcsgmsの訓練目標を効率的に訓練プロセスに統合できることを示す。 さらに、Cifar-10、Cifar-100、ImageNet、SVHNデータセットの実験結果により、QCSGMの有効性が検証された。 最後に、一層オートエンコーダの例を用いてQCSGMの利点を正当化する。

Existing Score-based Generative Models (SGMs) can be categorized into constrained SGMs (CSGMs) or unconstrained SGMs (USGMs) according to their parameterization approaches. CSGMs model the probability density functions as Boltzmann distributions, and assign their predictions as the negative gradients of some scalar-valued energy functions. On the other hand, USGMs employ flexible architectures capable of directly estimating scores without the need to explicitly model energy functions. In this paper, we demonstrate that the architectural constraints of CSGMs may limit their score-matching ability. In addition, we show that USGMs' inability to preserve the property of conservativeness may lead to serious sampling inefficiency and degraded sampling performance in practice. To address the above issues, we propose Quasi-Conservative Score-based Generative Models (QCSGMs) for keeping the advantages of both CSGMs and USGMs. Our theoretical derivations demonstrate that the training objective of QCSGMs can be efficiently integrated into the training processes by leveraging the Hutchinson trace estimator. In addition, our experimental results on the Cifar-10, Cifar-100, ImageNet, and SVHN datasets validate the effectiveness of QCSGMs. Finally, we justify the advantage of QCSGMs using an example of a one-layered autoencoder.
翻訳日:2022-09-27 15:05:23 公開日:2022-09-26
# shrinking unit: cnnライクな3dポイントクラウド機能抽出のためのグラフ畳み込みベースのユニット

Shrinking unit: a Graph Convolution-Based Unit for CNN-like 3D Point Cloud Feature Extractors ( http://arxiv.org/abs/2209.12770v1 )

ライセンス: Link先を確認
Alberto Tamajo (1), Bastian Pla{\ss} (2) and Thomas Klauer (2) ( (1) Department of Electronics and Computer Science, University of Southampton, (2) i3mainz, Institute for Spatial Information and Surveying Technology of Mainz University of Applied Sciences )(参考訳) 3Dポイントクラウドは、高品質なオブジェクト表現と効率的な取得方法により、アーキテクチャ、エンジニアリング、構築に注目が集まっている。 その結果、分類や部分分割などのワークフローを自動化するために、文献で多くのポイントクラウド特徴検出手法が提案されている。 それでも、ポイントクラウド自動化システムのパフォーマンスは、画像に遅れを取っている。 この障害の一部は、点雲の不規則性、非構造性、障害に起因するため、点雲の特徴検出のタスクは画像よりもかなり難しいが、画像領域からのインスピレーションの欠如が、そのようなギャップの主な原因であるかもしれない、と我々は主張する。 実際、画像特徴検出における畳み込みニューラルネットワーク(convolutional neural networks, cnns)の圧倒的な成功を考えると、ポイントクラウドに対応するものを設計するのは理にかなっているように思える。 具体的には、多くのアプローチが点雲における畳み込み操作を一般化しているが、CNNの多重機能検出とプール操作をエミュレートすることができない。 そこで我々は,cnn型3dポイントクラウド特徴抽出器の設計のために,垂直および水平に積み重ねることができるグラフ畳み込み型ユニット, shrinking unitを提案する。 点雲内の点間の自己、局所、大域的な相関関係が重要な空間的幾何情報を伝達していることから、特徴抽出過程においてそれらを活用する。 本提案は,modelnet-10ベンチマークデータセットの特徴抽出モデルを設計し,90.64%の分類精度を達成し,革新的アイデアが有効であることを示す。 私たちのコードはgithub.com/albertotamajo/Shrinking-unitで利用可能です。

3D point clouds have attracted increasing attention in architecture, engineering, and construction due to their high-quality object representation and efficient acquisition methods. Consequently, many point cloud feature detection methods have been proposed in the literature to automate some workflows, such as their classification or part segmentation. Nevertheless, the performance of point cloud automated systems significantly lags behind their image counterparts. While part of this failure stems from the irregularity, unstructuredness, and disorder of point clouds, which makes the task of point cloud feature detection significantly more challenging than the image one, we argue that a lack of inspiration from the image domain might be the primary cause of such a gap. Indeed, given the overwhelming success of Convolutional Neural Networks (CNNs) in image feature detection, it seems reasonable to design their point cloud counterparts, but none of the proposed approaches closely resembles them. Specifically, even though many approaches generalise the convolution operation in point clouds, they fail to emulate the CNNs multiple-feature detection and pooling operations. For this reason, we propose a graph convolution-based unit, dubbed Shrinking unit, that can be stacked vertically and horizontally for the design of CNN-like 3D point cloud feature extractors. Given that self, local and global correlations between points in a point cloud convey crucial spatial geometric information, we also leverage them during the feature extraction process. We evaluate our proposal by designing a feature extractor model for the ModelNet-10 benchmark dataset and achieve 90.64% classification accuracy, demonstrating that our innovative idea is effective. Our code is available at github.com/albertotamajo/Shrinking-unit.
翻訳日:2022-09-27 15:05:03 公開日:2022-09-26
# グラフ表現学習を用いた設計自動化のための材料予測

Material Prediction for Design Automation Using Graph Representation Learning ( http://arxiv.org/abs/2209.12793v1 )

ライセンス: Link先を確認
Shijie Bian, Daniele Grandi, Kaveh Hassani, Elliot Sadler, Bodia Borijin, Axel Fernandes, Andrew Wang, Thomas Lu, Richard Otis, Nhut Ho, Bingbing Li(参考訳) 材料選択の成功は、設計自動化のための製品の設計と製造において重要である。 設計者は、その知識と経験を活用して、パフォーマンス、製造性、持続可能性評価を通じて、最も適切な材料を選択することで、高品質な設計を創造する。 インテリジェントなツールは、設計者が以前の設計から学んだことを推奨することで、さまざまな専門知識を持つのに役立つ。 これを実現するために,アセンブリ内の物体の物質的予測を支援するグラフ表現学習フレームワークを提案する。 材料選択タスクをcadモデルのアセンブリグラフ表現よりもノードレベルの予測タスクとして定式化し,グラフニューラルネットワーク(gnns)を用いて取り組む。 Fusion 360 Galleryデータセットで実施された3つの実験プロトコルによる評価は、我々のアプローチの実現可能性を示している。 提案するフレームワークは,大規模データセットにスケールアップし,デザイナの知識を学習プロセスに組み込む。 これらの機能により、フレームワークはデザイン自動化のレコメンデーションシステムとなり、将来の作業のベースラインとなり、人間のデザイナーとインテリジェントなデザインエージェントの間のギャップを狭めることができる。

Successful material selection is critical in designing and manufacturing products for design automation. Designers leverage their knowledge and experience to create high-quality designs by selecting the most appropriate materials through performance, manufacturability, and sustainability evaluation. Intelligent tools can help designers with varying expertise by providing recommendations learned from prior designs. To enable this, we introduce a graph representation learning framework that supports the material prediction of bodies in assemblies. We formulate the material selection task as a node-level prediction task over the assembly graph representation of CAD models and tackle it using Graph Neural Networks (GNNs). Evaluations over three experimental protocols performed on the Fusion 360 Gallery dataset indicate the feasibility of our approach, achieving a 0.75 top-3 micro-f1 score. The proposed framework can scale to large datasets and incorporate designers' knowledge into the learning process. These capabilities allow the framework to serve as a recommendation system for design automation and a baseline for future work, narrowing the gap between human designers and intelligent design agents.
翻訳日:2022-09-27 15:04:33 公開日:2022-09-26
# ヒルベルト・シュミット独立性最適化による分布外検出

Out-of-Distribution Detection with Hilbert-Schmidt Independence Optimization ( http://arxiv.org/abs/2209.12807v1 )

ライセンス: Link先を確認
Jingyang Lin and Yu Wang and Qi Cai and Yingwei Pan and Ting Yao and Hongyang Chao and Tao Mei(参考訳) 異常検出タスクはAIの安全性において重要な役割を担っている。 この課題に対処するには大きな課題があった。 観察によると、ディープニューラルネットワーク分類器は通常、不正確にout-of-distribution(ood)入力を高い信頼度で非分散クラスに分類する傾向がある。 既存の作業は、訓練中にOOD入力が分類器に露出した場合に、明示的に分類器に不確実性を付与することで、この問題を解決する。 本稿では,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。 特に,訓練中のoodデータに関する情報を奥行き推定者にほとんど示さないよう,訓練中の異常データと外れ値データの間に統計的独立性が課される。 具体的には, ヒルベルト・シュミット独立基準 (hsic) を用いて, 異常値と外れ値の統計依存性を推定し, トレーニング中にペナルティを課す。 また,提案手法を,推論時間中に行った新しい統計テストと,主観的動機づけとを関連付けた。 実験結果から,本手法は様々なベンチマークにおいてOOD検出に有効で堅牢であることが示された。 提案手法は,SOTAモデルと比較して,FPR95,AUROC,AUPRメトリクスに関する大幅な改善を実現している。 コードは: \url{https://github.com/jylins/hood} で入手できる。

Outlier detection tasks have been playing a critical role in AI safety. There has been a great challenge to deal with this task. Observations show that deep neural network classifiers usually tend to incorrectly classify out-of-distribution (OOD) inputs into in-distribution classes with high confidence. Existing works attempt to solve the problem by explicitly imposing uncertainty on classifiers when OOD inputs are exposed to the classifier during training. In this paper, we propose an alternative probabilistic paradigm that is both practically useful and theoretically viable for the OOD detection tasks. Particularly, we impose statistical independence between inlier and outlier data during training, in order to ensure that inlier data reveals little information about OOD data to the deep estimator during training. Specifically, we estimate the statistical dependence between inlier and outlier data through the Hilbert-Schmidt Independence Criterion (HSIC), and we penalize such metric during training. We also associate our approach with a novel statistical test during the inference time coupled with our principled motivation. Empirical results show that our method is effective and robust for OOD detection on various benchmarks. In comparison to SOTA models, our approach achieves significant improvement regarding FPR95, AUROC, and AUPR metrics. Code is available: \url{https://github.com/jylins/hood}.
翻訳日:2022-09-27 15:04:16 公開日:2022-09-26
# ニューラルネットワークチェックポイントの生成モデルによる学習

Learning to Learn with Generative Models of Neural Network Checkpoints ( http://arxiv.org/abs/2209.12892v1 )

ライセンス: Link先を確認
William Peebles, Ilija Radosavovic, Tim Brooks, Alexei A. Efros, Jitendra Malik(参考訳) ニューラルネットワークを最適化するための学習のためのデータ駆動アプローチを探求する。 ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。 特に、我々のモデルは、初期入力パラメータベクトルと引き起こされた損失、エラー、返却を与えられた条件拡散変換器であり、所望のメトリックを達成するパラメータ更新の分布を予測する。 テスト時には、1回の更新でダウンストリームタスクの未確認パラメータでニューラルネットワークを最適化することができる。 提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。 さらに、マルチモーダルパラメータのソリューションをサンプリングすることができ、スケーリング特性も良好である。 本手法は,教師付き学習と強化学習において異なるニューラルネットワークアーキテクチャとタスクに適用する。

We explore a data-driven approach for learning to optimize neural networks. We construct a dataset of neural network checkpoints and train a generative model on the parameters. In particular, our model is a conditional diffusion transformer that, given an initial input parameter vector and a prompted loss, error, or return, predicts the distribution over parameter updates that achieve the desired metric. At test time, it can optimize neural networks with unseen parameters for downstream tasks in just one update. We find that our approach successfully generates parameters for a wide range of loss prompts. Moreover, it can sample multimodal parameter solutions and has favorable scaling properties. We apply our method to different neural network architectures and tasks in supervised and reinforcement learning.
翻訳日:2022-09-27 15:03:54 公開日:2022-09-26
# 臨床ノート表現学習からのスパーシティ低減のためのオートエンコーダの適応

Adaptation of Autoencoder for Sparsity Reduction From Clinical Notes Representation Learning ( http://arxiv.org/abs/2209.12831v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Rita Noumeir, Jerome Rambaud, Guillaume Sans, and Philippe Jouvet(参考訳) 近年の小さなデータセットで臨床テキスト分類を扱う際、十分に調整された多層パーセプトロンは、ディープラーニングを含む他の生成的分類器よりも優れていることが確認されている。 ニューラルネットワーク分類器の性能を向上させるために、学習表現の特徴選択を効果的に使用できる。 しかし,ほとんどの特徴選択法は,変数間の線形依存性の程度を推定し,一変量統計テストに基づいて最適な特徴を選択するのみである。 さらに、学習表現に関わる特徴空間の空間性も無視する。 目的: 本研究の目的は, 臨床像の特徴空間を圧縮することにより, スパーシネスに対処するための代替アプローチにアクセスすることであり, 限られた臨床記録も効果的に扱えるようにすることである。 方法: 本研究は, 臨床ノート表現のスパーシティ低減を利用した自動エンコーダ学習アルゴリズムを提案する。 その動機は, 臨床注記表現特徴空間の次元を小さくすることで, スパース高次元データの圧縮方法を決定することである。 分類器の分類性能は、訓練および圧縮された特徴空間で評価された。 結果: 提案手法により, 評価毎に最大3%の性能向上が得られた。 最後に、分類器は患者の状態を検出するために92%の精度、91%のリコール、91%の精度、91%のf1-scoreを達成した。 さらに,理論情報ボトルネックフレームワークを適用し,圧縮作業機構とオートエンコーダ予測プロセスを実証した。

When dealing with clinical text classification on a small dataset recent studies have confirmed that a well-tuned multilayer perceptron outperforms other generative classifiers, including deep learning ones. To increase the performance of the neural network classifier, feature selection for the learning representation can effectively be used. However, most feature selection methods only estimate the degree of linear dependency between variables and select the best features based on univariate statistical tests. Furthermore, the sparsity of the feature space involved in the learning representation is ignored. Goal: Our aim is therefore to access an alternative approach to tackle the sparsity by compressing the clinical representation feature space, where limited French clinical notes can also be dealt with effectively. Methods: This study proposed an autoencoder learning algorithm to take advantage of sparsity reduction in clinical note representation. The motivation was to determine how to compress sparse, high-dimensional data by reducing the dimension of the clinical note representation feature space. The classification performance of the classifiers was then evaluated in the trained and compressed feature space. Results: The proposed approach provided overall performance gains of up to 3% for each evaluation. Finally, the classifier achieved a 92% accuracy, 91% recall, 91% precision, and 91% f1-score in detecting the patient's condition. Furthermore, the compression working mechanism and the autoencoder prediction process were demonstrated by applying the theoretic information bottleneck framework.
翻訳日:2022-09-27 15:03:45 公開日:2022-09-26
# FastStamp: FPGA上の画像の高速化とデジタル透かし

FastStamp: Accelerating Neural Steganography and Digital Watermarking of Images on FPGAs ( http://arxiv.org/abs/2209.12391v1 )

ライセンス: Link先を確認
Shehzeen Hussain, Nojan Sheybani, Paarth Neekhara, Xinqiao Zhang, Javier Duarte, Farinaz Koushanfar(参考訳) ステガノグラフィとデジタル透かしは、画像ピクセルに復元可能なデータを隠蔽するタスクである。 ディープニューラルネットワーク(DNN)ベースの画像ステガノグラフィーとウォーターマーキング技術は、手動パイプラインを急速に置き換えている。 dnnベースの透かし技術は、埋め込み透かしのメッセージ容量、可視性、ロバスト性を大幅に改善した。 しかし、この改善は、透かしエンコーダニューラルネットワークの計算オーバーヘッドを増大させるコストが伴う。 本研究では,ハードウェア上の画像のデジタル透かしとDNNに基づくステガノグラフィーを行うための,最初のアクセラレータプラットフォームであるFastStampを設計する。 まず,画像画素に再生可能なビット列を埋め込むためのパラメータ効率の良いdnnモデルを提案する。 提案手法は,従来のDNNによる透かし手法の成功度と一致し,メモリフットプリントの点ではるかに高速かつ軽量である。 次に,データ並列性と計算パスをカスタマイズすることにより,モデルのスループットと消費電力をさらに向上させるfpgaベースのアクセラレータフレームワークを設計した。 FastStampは、デジタルメディアのメディア信頼性と所有権を確立するために、ハードウェアシグネチャをイメージに埋め込むことができる。 従来のDNNベースの透かしエンコーダのGPU実装と比較して消費電力を抑えながら68倍高速な推論を実現する。

Steganography and digital watermarking are the tasks of hiding recoverable data in image pixels. Deep neural network (DNN) based image steganography and watermarking techniques are quickly replacing traditional hand-engineered pipelines. DNN based watermarking techniques have drastically improved the message capacity, imperceptibility and robustness of the embedded watermarks. However, this improvement comes at the cost of increased computational overhead of the watermark encoder neural network. In this work, we design the first accelerator platform FastStamp to perform DNN based steganography and digital watermarking of images on hardware. We first propose a parameter efficient DNN model for embedding recoverable bit-strings in image pixels. Our proposed model can match the success metrics of prior state-of-the-art DNN based watermarking methods while being significantly faster and lighter in terms of memory footprint. We then design an FPGA based accelerator framework to further improve the model throughput and power consumption by leveraging data parallelism and customized computation paths. FastStamp allows embedding hardware signatures into images to establish media authenticity and ownership of digital media. Our best design achieves 68 times faster inference as compared to GPU implementations of prior DNN based watermark encoder while consuming less power.
翻訳日:2022-09-27 15:02:59 公開日:2022-09-26
# 車両運動予測のための注意GANの探索

Exploring Attention GAN for Vehicle Motion Prediction ( http://arxiv.org/abs/2209.12674v1 )

ライセンス: Link先を確認
Carlos G\'omez-Hu\'elamo, Marcos V. Conde, Miguel Ortiz, Santiago Montiel, Rafael Barea and Luis M. Bergasa(参考訳) 安全で信頼性の高い自動運転スタック(ADS)の設計は、我々の時代の最も困難な課題の1つである。 これらのADSは、完全な自律性と人間よりも信頼性の高い、非常にダイナミックな環境で駆動されることが期待されている。 その意味で、任意の複雑な交通シナリオを効率的に安全にナビゲートするには、ADSは周囲のアクターの将来の軌跡を予測できなければならない。 現在の最先端モデルは、通常、リカレント、グラフ、畳み込みネットワークに基づいており、車両予測のコンテキストにおいて顕著な結果を達成する。 本稿では,運動予測のための生成モデルにおける注意の影響について検討し,身体的・社会的両方の文脈を考慮し,最も妥当な軌跡を計算した。 まず,過去の軌跡をlstmネットワークを用いてエンコードし,ソーシャルコンテキストを計算するマルチヘッド・セルフアテンションモジュールへの入力として利用する。 一方、重み付き補間法を定式化し、最終観測フレームの速度と向きを計算し、我々の物理的文脈を表すHDMap情報の駆動性から抽出された許容目標点を計算する。 最後に, 生成器の入力は, 多変量正規分布からサンプリングされた白色雑音ベクトルであり, 社会的・物理的文脈はその条件である。 本稿では,Argoverse Motion Forecasting Benchmark 1.1 を用いて提案手法を検証する。

The design of a safe and reliable Autonomous Driving stack (ADS) is one of the most challenging tasks of our era. These ADS are expected to be driven in highly dynamic environments with full autonomy, and a reliability greater than human beings. In that sense, to efficiently and safely navigate through arbitrarily complex traffic scenarios, ADS must have the ability to forecast the future trajectories of surrounding actors. Current state-of-the-art models are typically based on Recurrent, Graph and Convolutional networks, achieving noticeable results in the context of vehicle prediction. In this paper we explore the influence of attention in generative models for motion prediction, considering both physical and social context to compute the most plausible trajectories. We first encode the past trajectories using a LSTM network, which serves as input to a Multi-Head Self-Attention module that computes the social context. On the other hand, we formulate a weighted interpolation to calculate the velocity and orientation in the last observation frame in order to calculate acceptable target points, extracted from the driveable of the HDMap information, which represents our physical context. Finally, the input of our generator is a white noise vector sampled from a multivariate normal distribution while the social and physical context are its conditions, in order to predict plausible trajectories. We validate our method using the Argoverse Motion Forecasting Benchmark 1.1, achieving competitive unimodal results.
翻訳日:2022-09-27 15:02:41 公開日:2022-09-26
# メドロイドシルエットの直接最適化によるクラスタリング

Clustering by Direct Optimization of the Medoid Silhouette ( http://arxiv.org/abs/2209.12553v1 )

ライセンス: Link先を確認
Lars Lenssen and Erich Schubert(参考訳) クラスタリング結果の評価は困難であり、評価されたデータセットとbeholderの視点に大きく依存している。 クラスタリング結果を検証するための一般的な手段を提供しようとする、クラスタリングの品質測定方法には、さまざまなものがある。 非常に人気のある尺度はシルエットである。 効率的なメドロイドベースのシルエットを議論し,その特性を理論的に解析し,直接最適化のために2つの高速バージョンを提供する。 我々は、オリジナルのSilhouetteのアイデアとよく知られたPAMアルゴリズムと、その最新の改良であるFasterPAMを組み合わせる。 バージョンの一つは元の変種と同じ結果を保証し、O(k^2)$のランスピードアップを提供する。 30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$\times$ Speedupが観測された。

The evaluation of clustering results is difficult, highly dependent on the evaluated data set and the perspective of the beholder. There are many different clustering quality measures, which try to provide a general measure to validate clustering results. A very popular measure is the Silhouette. We discuss the efficient medoid-based variant of the Silhouette, perform a theoretical analysis of its properties, and provide two fast versions for the direct optimization. We combine ideas from the original Silhouette with the well-known PAM algorithm and its latest improvements FasterPAM. One of the versions guarantees equal results to the original variant and provides a run speedup of $O(k^2)$. In experiments on real data with 30000 samples and $k$=100, we observed a 10464$\times$ speedup compared to the original PAMMEDSIL algorithm.
翻訳日:2022-09-27 14:56:52 公開日:2022-09-26
# 部分エピソードからのgflownetsの学習による収束と安定性の向上

Learning GFlowNets from partial episodes for improved convergence and stability ( http://arxiv.org/abs/2209.12782v1 )

ライセンス: Link先を確認
Kanika Madan, Jarrid Rector-Brooks, Maksym Korablyov, Emmanuel Bengio, Moksh Jain, Andrei Nica, Tom Bosc, Yoshua Bengio, Nikolay Malkin(参考訳) 生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムのファミリーであり、様々な確率論的モデリングタスクに成功している。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。 これらの代替案は勾配バイアス分散トレードオフの対極を表現し、その有害な効果を緩和するためにこのトレードオフを利用する方法を提案する。 強化学習における td($\lambda$) アルゴリズムに着想を得て,様々な長さの部分的動作列から学習可能な gflownet トレーニング目標であるsubtrajectory balance あるいは subtb($\lambda$) を導入する。 subtb($\lambda$) は,従来研究されていた新しい環境におけるサンプル収束を加速し,動作シーケンスが長い環境でのgflownetのトレーニングを可能にする。 また,gflownetトレーニングにおけるバイアス分散トレードオフと減算バランスの利点を浮き彫りにして,確率的勾配ダイナミクスの比較分析を行った。

Generative flow networks (GFlowNets) are a family of algorithms for training a sequential sampler of discrete objects under an unnormalized target density and have been successfully used for various probabilistic modeling tasks. Existing training objectives for GFlowNets are either local to states or transitions, or propagate a reward signal over an entire sampling trajectory. We argue that these alternatives represent opposite ends of a gradient bias-variance tradeoff and propose a way to exploit this tradeoff to mitigate its harmful effects. Inspired by the TD($\lambda$) algorithm in reinforcement learning, we introduce subtrajectory balance or SubTB($\lambda$), a GFlowNet training objective that can learn from partial action subsequences of varying lengths. We show that SubTB($\lambda$) accelerates sampler convergence in previously studied and new environments and enables training GFlowNets in environments with longer action sequences and sparser reward landscapes than what was possible before. We also perform a comparative analysis of stochastic gradient dynamics, shedding light on the bias-variance tradeoff in GFlowNet training and the advantages of subtrajectory balance.
翻訳日:2022-09-27 14:56:36 公開日:2022-09-26
# 点クラウドデータからの物体検出のための特徴ベースモデル選択

Feature-based model selection for object detection from point cloud data ( http://arxiv.org/abs/2209.12419v1 )

ライセンス: Link先を確認
Kairi Tokuda, Ryoichi Shinkuma, Takehiro Sato, Eiji Oki(参考訳) スマートシティの文脈では,三次元3次元画像センサを用いたスマートモニタリングが注目されている。 スマートモニタリングでは、車両や歩行者などの移動物体を検知して道路上の安全を確保するために、3次元画像センサで取得した点雲データから物体を検出する。 しかし、3D画像センサとして使用される光検出・測光ユニット(LIDAR)の特性や3D画像センサの設置位置により、点雲データの特徴は多様化している。 ポイントクラウドデータからオブジェクトを検出するための様々なディープラーニング(DL)モデルが研究されているが、ポイントクラウドデータの特徴に応じて複数のDLモデルをどのように利用するかを検討する研究は行われていない。 本研究では,複数のdl法を用いて様々なdlモデルを作成し,サンプリングとノイズ付加という2つの人工的手法によって生成された擬似不完全性を持つトレーニングデータを活用する特徴ベースモデル選択フレームワークを提案する。 実環境で取得したポイントクラウドデータの特徴に応じて、オブジェクト検出タスクに最も適したDLモデルを選択する。 提案手法の有効性を示すために,KITTIデータセットから作成したベンチマークデータセットを用いて複数のDLモデルの性能を比較し,実際の屋外実験により得られたオブジェクト検出の例を示す。 状況によって、検出精度はDLモデル間で最大32%まで変化し、状況に応じて適切なDLモデルを選択することの重要性を確認する。

Smart monitoring using three-dimensional (3D) image sensors has been attracting attention in the context of smart cities. In smart monitoring, object detection from point cloud data acquired by 3D image sensors is implemented for detecting moving objects such as vehicles and pedestrians to ensure safety on the road. However, the features of point cloud data are diversified due to the characteristics of light detection and ranging (LIDAR) units used as 3D image sensors or the install position of the 3D image sensors. Although a variety of deep learning (DL) models for object detection from point cloud data have been studied to date, no research has considered how to use multiple DL models in accordance with the features of the point cloud data. In this work, we propose a feature-based model selection framework that creates various DL models by using multiple DL methods and by utilizing training data with pseudo incompleteness generated by two artificial techniques: sampling and noise adding. It selects the most suitable DL model for the object detection task in accordance with the features of the point cloud data acquired in the real environment. To demonstrate the effectiveness of the proposed framework, we compare the performance of multiple DL models using benchmark datasets created from the KITTI dataset and present example results of object detection obtained through a real outdoor experiment. Depending on the situation, the detection accuracy varies up to 32% between DL models, which confirms the importance of selecting an appropriate DL model according to the situation.
翻訳日:2022-09-27 14:53:42 公開日:2022-09-26
# Delayed Geometric Discounts: 強化学習のための代替基準

Delayed Geometric Discounts: An Alternative Criterion for Reinforcement Learning ( http://arxiv.org/abs/2209.12483v1 )

ライセンス: Link先を確認
Firas Jarboui, Ahmed Akakzia(参考訳) 人工知能(AI)の取り組みは、複雑なタスクを達成できる自律エージェントを設計することである。 すなわち、強化学習(RL)は最適な振る舞いを学ぶ理論的背景を提案する。 実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。 残念ながら、これは将来のリターンが指数関数的にあまり価値がない決定プロセスをカバーするものではない。 問題によっては、この制限はサンプル非効率(フィードバックは指数関数的に減衰する)を誘導し、追加の曲率/爆発機構(スパース、デセプティブ、または敵対的な報酬を扱うため)を必要とする。 本稿では,遅延対象関数群を用いて,割引問題定式化を一般化し,この問題に取り組む。 導出するRL問題について検討する。 1)最適定常解と 2)最適非定常制御の近似 考案したアルゴリズムは,表環境における難解な探索問題を解決し,従来のシミュレーションロボットベンチマークにおけるサンプル効率を改善した。

The endeavor of artificial intelligence (AI) is to design autonomous agents capable of achieving complex tasks. Namely, reinforcement learning (RL) proposes a theoretical background to learn optimal behaviors. In practice, RL algorithms rely on geometric discounts to evaluate this optimality. Unfortunately, this does not cover decision processes where future returns are not exponentially less valuable. Depending on the problem, this limitation induces sample-inefficiency (as feed-backs are exponentially decayed) and requires additional curricula/exploration mechanisms (to deal with sparse, deceptive or adversarial rewards). In this paper, we tackle these issues by generalizing the discounted problem formulation with a family of delayed objective functions. We investigate the underlying RL problem to derive: 1) the optimal stationary solution and 2) an approximation of the optimal non-stationary control. The devised algorithms solved hard exploration problems on tabular environment and improved sample-efficiency on classic simulated robotics benchmarks.
翻訳日:2022-09-27 14:47:39 公開日:2022-09-26
# タイムアウェア深層学習による思春期の近視予測

Myopia prediction for adolescents via time-aware deep learning ( http://arxiv.org/abs/2209.12546v1 )

ライセンス: Link先を確認
Junjia Huang, Wei Ma, Rong Li, Na Zhao, Tao Zhou(参考訳) 背景: 可変長歴史視覚記録に基づく青年期の球面等価性の定量的予測 方法:2019年10月から2022年3月まで,中国成都市で6~20歳の青年37,586名を対象に,両眼視力,軸長,角膜曲率,軸方向の75,172眼について検討した。 80\%のサンプルはトレーニングセットからなり、残りの20\%はテストセットを構成する。 タイムアウェアロング短期記憶は、2年半以内に青少年の球面等価性を定量的に予測するために使用された。 結果: 実験セットの平均絶対予測誤差は, 0.189-0.160から0.596-0.473までの球面等価値に対して0.273-0.257であった。 結論: 時系列の時間的特徴は実データの特徴と一致し, 適用性が向上し, 早期の近視の進行の把握に有効である。 総誤差0.273は、臨床的に許容できる予測基準よりもはるかに小さい。

Background: Quantitative prediction of the adolescents' spherical equivalent based on their variable-length historical vision records. Methods: From October 2019 to March 2022, we examined binocular uncorrected visual acuity, axial length, corneal curvature, and axial of 75,172 eyes from 37,586 adolescents aged 6-20 years in Chengdu, China. 80\% samples consist of the training set and the remaining 20\% form the testing set. Time-Aware Long Short-Term Memory was used to quantitatively predict the adolescents' spherical equivalent within two and a half years. Result: The mean absolute prediction error on the testing set was 0.273-0.257 for spherical equivalent, ranging from 0.189-0.160 to 0.596-0.473 if we consider different lengths of historical records and different prediction durations. Conclusions: Time-Aware Long Short-Term Memory was applied to captured the temporal features in irregularly sampled time series, which is more in line with the characteristics of real data and thus has higher applicability, and helps to identify the progression of myopia earlier. The overall error 0.273 is much smaller than the criterion for clinically acceptable prediction, say 0.75.
翻訳日:2022-09-27 14:47:24 公開日:2022-09-26
# 効率的なマルチプライズ抽選券:精度、トレーニング、推論速度の向上

Efficient Multi-Prize Lottery Tickets: Enhanced Accuracy, Training, and Inference Speed ( http://arxiv.org/abs/2209.12839v1 )

ライセンス: Link先を確認
Hao Cheng, Pu Zhao, Yize Li, Xue Lin, James Diffenderfer, Ryan Goldhahn, and Bhavya Kailkhura(参考訳) 最近、diffenderferとkailkhuraは、ランダムに重み付けされた完全精度ニューラルネットワークをプラニングして量子化することによって、コンパクトで高精度なバイナリニューラルネットワークを学習するための新しいパラダイムを提案した。 しかし、これらのマルチプライズチケット(MPT)の精度は、適用性を制限する最適プーン比に非常に敏感である。 さらに、オリジナルの実装ではトレーニングや推論速度のメリットは得られなかった。 本稿では,これらの制限を克服するためのいくつかの改善点について論じる。 CIFAR-10の実験により提案手法の利点を示す。

Recently, Diffenderfer and Kailkhura proposed a new paradigm for learning compact yet highly accurate binary neural networks simply by pruning and quantizing randomly weighted full precision neural networks. However, the accuracy of these multi-prize tickets (MPTs) is highly sensitive to the optimal prune ratio, which limits their applicability. Furthermore, the original implementation did not attain any training or inference speed benefits. In this report, we discuss several improvements to overcome these limitations. We show the benefit of the proposed techniques by performing experiments on CIFAR-10.
翻訳日:2022-09-27 14:46:59 公開日:2022-09-26
# 線型部分空間への射影について

On Projections to Linear Subspaces ( http://arxiv.org/abs/2209.12485v1 )

ライセンス: Link先を確認
Erik Thordsen and Erich Schubert(参考訳) 線型部分空間にデータを投影する利点は、例えば次元の減少からよく知られている。 部分空間射影の1つの重要な側面、分散の最大保存(主成分分析)は徹底的に研究され、本質的な次元性のような測度に対するランダム線形射影の影響は現在も進行中である。 本稿では,異なる次元の明示的な部分空間への線形射影の深度と,そこから生じる分散の期待について検討する。 その結果、ユークリッド距離と内積に対する境界の新しい族となる。 これらの境界の品質を示すとともに,本質的次元推定との密接な関係について検討する。

The merit of projecting data onto linear subspaces is well known from, e.g., dimension reduction. One key aspect of subspace projections, the maximum preservation of variance (principal component analysis), has been thoroughly researched and the effect of random linear projections on measures such as intrinsic dimensionality still is an ongoing effort. In this paper, we investigate the less explored depths of linear projections onto explicit subspaces of varying dimensionality and the expectations of variance that ensue. The result is a new family of bounds for Euclidean distances and inner products. We showcase the quality of these bounds as well as investigate the intimate relation to intrinsic dimensionality estimation.
翻訳日:2022-09-27 14:44:41 公開日:2022-09-26
# fast-fnet:効率的なフーリエ層によるトランスフォーマーエンコーダモデル加速

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers ( http://arxiv.org/abs/2209.12816v1 )

ライセンス: Link先を確認
Nurullah Sevim, Ege Ozan \"Ozyedek, Furkan \c{S}ahinu\c{c}, Aykut Ko\c{c}(参考訳) トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。 同様の注意構造は、他のいくつかの分野で広く研究されている。 アテンション機構はモデルの性能を著しく向上させるが、その二次複雑性は長いシーケンスの効率的な処理を妨げる。 最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。 先駆的な研究により、トランスコーダアーキテクチャのアテンション層をフーリエ変換(ft)に置き換えるfnetが提案された。 FNetは、アテンション機構の計算負担を取り除き、トレーニングプロセスを加速しながら、オリジナルのトランスフォーマーエンコーダモデルに関する競争性能を達成する。 しかし、FNetモデルはFTの本質的な特性を古典的な信号処理から無視し、モデル効率をさらに高めることができる。 変換器エンコーダモデルにおいて,FTを効率的に展開するための異なる手法を提案する。 提案アーキテクチャでは,モデルパラメータの数が少なく,トレーニング時間の短縮,メモリ使用量の削減,さらなるパフォーマンス向上が図られている。 これらの改善は、一般的なベンチマークに関する広範な実験を通じて実証する。

Transformer-based language models utilize the attention mechanism for substantial performance improvements in almost all natural language processing (NLP) tasks. Similar attention structures are also extensively studied in several other areas. Although the attention mechanism enhances the model performances significantly, its quadratic complexity prevents efficient processing of long sequences. Recent works focused on eliminating the disadvantages of computational inefficiency and showed that transformer-based models can still reach competitive results without the attention layer. A pioneering study proposed the FNet, which replaces the attention layer with the Fourier Transform (FT) in the transformer encoder architecture. FNet achieves competitive performances concerning the original transformer encoder model while accelerating training process by removing the computational burden of the attention mechanism. However, the FNet model ignores essential properties of the FT from the classical signal processing that can be leveraged to increase model efficiency further. We propose different methods to deploy FT efficiently in transformer encoder models. Our proposed architectures have smaller number of model parameters, shorter training times, less memory usage, and some additional performance improvements. We demonstrate these improvements through extensive experiments on common benchmarks.
翻訳日:2022-09-27 14:39:15 公開日:2022-09-26
# DEFT:強化学習における高速トランスファーのためのディバースアンサンブル

DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning ( http://arxiv.org/abs/2209.12412v1 )

ライセンス: Link先を確認
Simeon Adebola, Satvik Sharma, Kaushik Shivakumar(参考訳) ディープアンサンブルは、典型的なアンサンブル学習で見られる正の効果をニューラルネットワークや強化学習(RL)に拡張することが示されている。 しかし、これらのアンサンブルモデルの効率を改善するためにはまだ多くのことが残っている。 本稿では,高マルチモーダル環境における強化学習のための新しいアンサンブルベース手法であるrl (deft) における高速転送のための多様なアンサンブルについて述べる。 このアルゴリズムは、アンサンブルメンバのトレーニングと、アンサンブルメンバの合成(あるいは微調整)と、新しい環境で動作するポリシの2つの主要なフェーズに分割されている。 アルゴリズムの第1フェーズでは、通常のポリシー勾配またはアクター批判エージェントを並列にトレーニングするが、これらのポリシーが互いに異なることを奨励する損失に用語を追加する。 これにより、個々の一助的エージェントは最適なポリシーの空間を探索し、単一のアクターよりも環境のマルチモダリティを捉えることができる。 DEFTの第2フェーズでは、コンポーネントポリシーを2つの方法で修正された環境でうまく機能する新しいポリシーに合成する。 DEFTの性能を評価するため、我々はPPOアルゴリズムのベースバージョンから始め、DEFTの修正を加えて拡張する。 以上の結果から,プレトレーニングフェーズはマルチモーダル環境における多様な政策の生成に有効であることが示された。 DEFTはしばしば、DEFTのないランダム初期化やアンサンブルメンバーの微調整など、選択肢よりもはるかに高速な報酬に収束する。 DEFTを理論的に分析し、さらに堅牢に拡張するには、もっと多くの作業が必要だが、シンプルなポリシー表現を持つRLメソッドを使用しながら、環境におけるマルチモダリティをキャプチャするための強力なフレームワークを提供すると考えている。

Deep ensembles have been shown to extend the positive effect seen in typical ensemble learning to neural networks and to reinforcement learning (RL). However, there is still much to be done to improve the efficiency of such ensemble models. In this work, we present Diverse Ensembles for Fast Transfer in RL (DEFT), a new ensemble-based method for reinforcement learning in highly multimodal environments and improved transfer to unseen environments. The algorithm is broken down into two main phases: training of ensemble members, and synthesis (or fine-tuning) of the ensemble members into a policy that works in a new environment. The first phase of the algorithm involves training regular policy gradient or actor-critic agents in parallel but adding a term to the loss that encourages these policies to differ from each other. This causes the individual unimodal agents to explore the space of optimal policies and capture more of the multimodality of the environment than a single actor could. The second phase of DEFT involves synthesizing the component policies into a new policy that works well in a modified environment in one of two ways. To evaluate the performance of DEFT, we start with a base version of the Proximal Policy Optimization (PPO) algorithm and extend it with the modifications for DEFT. Our results show that the pretraining phase is effective in producing diverse policies in multimodal environments. DEFT often converges to a high reward significantly faster than alternatives, such as random initialization without DEFT and fine-tuning of ensemble members. While there is certainly more work to be done to analyze DEFT theoretically and extend it to be even more robust, we believe it provides a strong framework for capturing multimodality in environments while still using RL methods with simple policy representations.
翻訳日:2022-09-27 14:36:14 公開日:2022-09-26
# ハイブリッド手法による5つ星ホテル顧客満足度分析

5-Star Hotel Customer Satisfaction Analysis Using Hybrid Methodology ( http://arxiv.org/abs/2209.12417v1 )

ライセンス: Link先を確認
Yongmin Yoo, Yeongjoon Park, Dongjin Lim and Deaho Seo(参考訳) コロナウイルスによる対面サービスの開発が急速に進んでいるため、販売や予約といったインターネット経由の商取引は急速に増加している。 消費者はウェブサイト上で商品やサービスに関するレビューや提案、判断を投稿する。 消費者が直接使用するレビューデータは、ビジネス価値の作成など、消費者に肯定的なフィードバックと良い影響を与えます。 したがって、レビューデータの解析はマーケティングの観点から非常に重要である。 本研究は,レビューデータから顧客満足度を推定する新しい方法を提案する。 本研究では,ビッグデータ分析手法であるデータマイニング手法と,自然言語処理手法である自然言語処理手法を混合・利用することにより,顧客満足度を判断する手法を適用した。 これまで実施されてきた顧客満足度に関する多くの研究と異なり,本研究は様々な手法を用いた論文の斬新性を持っている。 分析の結果,実験結果は非常に正確であった。

Due to the rapid development of non-face-to-face services due to the corona virus, commerce through the Internet, such as sales and reservations, is increasing very rapidly. Consumers also post reviews, suggestions, or judgments about goods or services on the website. The review data directly used by consumers provides positive feedback and nice impact to consumers, such as creating business value. Therefore, analysing review data is very important from a marketing point of view. Our research suggests a new way to find factors for customer satisfaction through review data. We applied a method to find factors for customer satisfaction by mixing and using the data mining technique, which is a big data analysis method, and the natural language processing technique, which is a language processing method, in our research. Unlike many studies on customer satisfaction that have been conducted in the past, our research has a novelty of the thesis by using various techniques. And as a result of the analysis, the results of our experiments were very accurate.
翻訳日:2022-09-27 14:30:02 公開日:2022-09-26
# より大きなオクトピは、まだ報告バイアスを増幅しているか? 典型的な色彩の判断からの証拠

Do ever larger octopi still amplify reporting biases? Evidence from judgments of typical colour ( http://arxiv.org/abs/2209.12786v1 )

ライセンス: Link先を確認
Fangyu Liu, Julian Martin Eisenschlos, Jeremy R. Cole, Nigel Collier(参考訳) 生のテキストでトレーニングされた言語モデル(lms)は、物理的世界に直接アクセスできない。 gordon and van durme (2013) は lms がバイアスを報告することに苦しむ可能性があることを指摘している。 LMがテキストコーパスでのみ訓練され、局所的共起統計を暗記している場合、自然界の偏見を学習することになる。 以前の研究では、小さなスケールのLM(例えばRoBERTa、GPT-2)が報告バイアスを増幅していることが繰り返し確認されているが、モデルがスケールアップされた後もそのような傾向が続くかどうかは不明である。 palm や gpt-3 のような大型言語モデル (llm) の色彩の観点からバイアスを報告している。 具体的には、知覚的に接地された物理的な常識の1つの単純なタイプのオブジェクトの典型的な色についてllmを問い合わせる。 驚いたことに、LLMはテキストに格納された表面パターンに過度に適合するのではなく、オブジェクトの典型的な色を判断し、人間の判断をより密に追跡する上で、より小さなLMよりもはるかに優れています。 これは、非常に大きな言語モデルだけで、局所的共起によって特徴づけられるある種の報告バイアスを克服できることを示している。

Language models (LMs) trained on raw texts have no direct access to the physical world. Gordon and Van Durme (2013) point out that LMs can thus suffer from reporting bias: texts rarely report on common facts, instead focusing on the unusual aspects of a situation. If LMs are only trained on text corpora and naively memorise local co-occurrence statistics, they thus naturally would learn a biased view of the physical world. While prior studies have repeatedly verified that LMs of smaller scales (e.g., RoBERTa, GPT-2) amplify reporting bias, it remains unknown whether such trends continue when models are scaled up. We investigate reporting bias from the perspective of colour in larger language models (LLMs) such as PaLM and GPT-3. Specifically, we query LLMs for the typical colour of objects, which is one simple type of perceptually grounded physical common sense. Surprisingly, we find that LLMs significantly outperform smaller LMs in determining an object's typical colour and more closely track human judgments, instead of overfitting to surface patterns stored in texts. This suggests that very large models of language alone are able to overcome certain types of reporting bias that are characterized by local co-occurrences.
翻訳日:2022-09-27 14:29:48 公開日:2022-09-26
# キャプション生成のための視覚的セマンティック類似表現:学習した教訓

Word to Sentence Visual Semantic Similarity for Caption Generation: Lessons Learned ( http://arxiv.org/abs/2209.12817v1 )

ライセンス: Link先を確認
Ahmed Sabir(参考訳) 本稿では,画像キャプチャ生成システムによって生成されるキャプションの強化に着目する。 本稿では,モデルが生成する最も可能性の高い出力ではなく,最も関連性の高い出力を選択することでキャプション生成システムを改善する手法を提案する。 我々のモデルは視覚的文脈の観点から言語生成出力ビーム探索を改訂する。 画像中の関連情報と適切なキャプションを一致させるために,単語と文レベルの視覚的意味尺度を用いる。 提案手法は後処理に基づく手法として任意の字幕システムに適用できる。

This paper focuses on enhancing the captions generated by image-caption generation systems. We propose an approach for improving caption generation systems by choosing the most closely related output to the image rather than the most likely output produced by the model. Our model revises the language generation output beam search from a visual context perspective. We employ a visual semantic measure in a word and sentence level manner to match the proper caption to the related information in the image. The proposed approach can be applied to any caption system as a post-processing based method.
翻訳日:2022-09-27 14:29:25 公開日:2022-09-26
# Oracleが期待するテキスト要約

Text Summarization with Oracle Expectation ( http://arxiv.org/abs/2209.12714v1 )

ライセンス: Link先を確認
Yumo Xu and Mirella Lapata(参考訳) 抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。 多くの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていないため、モデルトレーニングのためにオラクル抽出を外挿する異なるラベル付けアルゴリズムが提案されている。 この作業では、広く使われている欲望のラベリングアプローチの2つの欠陥を特定します。 両問題を緩和するために,ソフトな予測に基づく文ラベルを生成するシンプルなラベル付けアルゴリズムを提案する。 我々は,複数の oracle 要約からの学習信号を組み込んだ抽出要約のための新しい学習目標を定義し,各文書文に対する oracle の期待値を推定することと同値であることを証明した。 アーキテクチャの変更なしに、提案手法は、教師付き設定とゼロショット設定の両方において、ドメインや言語間の様々な要約ベンチマークにおいて優れた性能を達成する。

Extractive summarization produces summaries by identifying and concatenating the most important sentences in a document. Since most summarization datasets do not come with gold labels indicating whether document sentences are summary-worthy, different labeling algorithms have been proposed to extrapolate oracle extracts for model training. In this work, we identify two flaws with the widely used greedy labeling approach: it delivers suboptimal and deterministic oracles. To alleviate both issues, we propose a simple yet effective labeling algorithm that creates soft, expectation-based sentence labels. We define a new learning objective for extractive summarization which incorporates learning signals from multiple oracle summaries and prove it is equivalent to estimating the oracle expectation for each document sentence. Without any architectural modifications, the proposed labeling scheme achieves superior performance on a variety of summarization benchmarks across domains and languages, in both supervised and zero-shot settings.
翻訳日:2022-09-27 14:28:50 公開日:2022-09-26
# 言語誘導目標条件強化学習における規範的曖昧さの克服

Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2209.12758v1 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 自然言語を用いて新しいタスクを実行するようにエージェントに教えることは、解釈の曖昧さによって容易に妨げられる。 教師がその特徴を参照して対象について学習者に指示を行うと、学習者は教師の意図を誤解することができる。例えば、指示が対象の特徴を曖昧に言及している場合、参照曖昧性と呼ばれる現象は、教師の意図を誤解することができる。 認知科学から派生した2つの概念は、教育(正しい指示を選ぶ)と実践主義(帰納的推論を用いて他のエージェントの嗜好を学ぶ)という、これらの参照の曖昧さを解決するのにどのように役立つかを研究する。 シミュレーションロボット作業(ブロックスタッキング)に2つの人工エージェントを配置した教師/学習者に対して,これらのアイデアを適用した。 これらの概念が学習者の学習のサンプル効率を向上させることを示す。

Teaching an agent to perform new tasks using natural language can easily be hindered by ambiguities in interpretation. When a teacher provides an instruction to a learner about an object by referring to its features, the learner can misunderstand the teacher's intentions, for instance if the instruction ambiguously refer to features of the object, a phenomenon called referential ambiguity. We study how two concepts derived from cognitive sciences can help resolve those referential ambiguities: pedagogy (selecting the right instructions) and pragmatism (learning the preferences of the other agents using inductive reasoning). We apply those ideas to a teacher/learner setup with two artificial agents on a simulated robotic task (block-stacking). We show that these concepts improve sample efficiency for training the learner.
翻訳日:2022-09-27 14:28:34 公開日:2022-09-26
# deep manifold hashing: semi-paired unsupervised cross-modal retrieval のための分割・包括的アプローチ

Deep Manifold Hashing: A Divide-and-Conquer Approach for Semi-Paired Unsupervised Cross-Modal Retrieval ( http://arxiv.org/abs/2209.12599v1 )

ライセンス: Link先を確認
Yufeng Shi, Xinge You, Jiamiao Xu, Feng Zheng, Qinmu Peng, Weihua Ou(参考訳) データをバイナリコードにプロジェクションすることで、ストレージ使用量が少なく、クエリ速度が高いため、クロスモーダル検索の素晴らしい才能が示されています。 いくつかのシナリオでの実証的な成功にもかかわらず、既存のクロスモーダルハッシュ手法は、ラベル付き情報の豊富な完全ペアデータが存在する場合、通常、クロスモーダルギャップに失敗する。 この欠点を回避するために,我々は,半ペア型教師なしクロスモーダル検索の問題を3つのサブプロブレムに分割し,各サブプロブレムに対して1つの単純で効率のよいモデルを構築する,Deep Manifold Hashing (DMH)を提案する。 具体的には, 2次モデルと3次モデルは, それぞれハッシュ符号とハッシュ関数を学習することを目的として, 多様体学習に基づく半ペア化データを補完することにより, モダリティ不変性を得るために構築される。 3つのベンチマークによる大規模な実験は、最先端の完全対向型および半対向型非教師付きクロスモーダルハッシュ法と比較して、DMHの優位性を示している。

Hashing that projects data into binary codes has shown extraordinary talents in cross-modal retrieval due to its low storage usage and high query speed. Despite their empirical success on some scenarios, existing cross-modal hashing methods usually fail to cross modality gap when fully-paired data with plenty of labeled information is nonexistent. To circumvent this drawback, motivated by the Divide-and-Conquer strategy, we propose Deep Manifold Hashing (DMH), a novel method of dividing the problem of semi-paired unsupervised cross-modal retrieval into three sub-problems and building one simple yet efficiency model for each sub-problem. Specifically, the first model is constructed for obtaining modality-invariant features by complementing semi-paired data based on manifold learning, whereas the second model and the third model aim to learn hash codes and hash functions respectively. Extensive experiments on three benchmarks demonstrate the superiority of our DMH compared with the state-of-the-art fully-paired and semi-paired unsupervised cross-modal hashing methods.
翻訳日:2022-09-27 14:27:55 公開日:2022-09-26
# マルチモーダル映像生成

Multi-modal Video Chapter Generation ( http://arxiv.org/abs/2209.12694v1 )

ライセンス: Link先を確認
Xiao Cao, Zitan Chen, Canyu Le, Lei Meng(参考訳) 現在、チャプター生成はオンラインビデオの実用的な技術となっている。 章のブレークポイントは、ユーザが望むパーツを素早く見つけ、要約的なアノテーションを得ることを可能にする。 しかし、このタスクの公開メソッドやデータセットはありません。 この方向に沿った研究を容易にするために,約10万のユーザ生成ビデオと注釈付き章情報からなる章-Genという新しいデータセットを導入する。 我々のデータ収集手順は高速でスケーラブルで、追加のマニュアルアノテーションを必要としない。 このデータセットの上に,ビデオチャプタ生成タスクに有効なベースラインを具体的に設計する。 ヴィジュアルダイナミクスとナレーションテキストを含む、ビデオの2つの側面をキャプチャします。 ローカライゼーションとタイトル生成のために、ローカルとグローバルのビデオ機能をそれぞれ切り離している。 長い映像を効率よく解析するために、潜在的チャプタをローカライズするスキップスライディングウインドウ機構が設計されている。 また、タイトル生成のための局所的な特徴を集約するクロスアテンション多モード融合モジュールを開発した。 実験により,提案手法は既存の手法よりも優れた結果を得ることができ,同様のタスクのメソッド設計は微調整後も直接転送できないことを示した。 コードとデータセットはhttps://github.com/czt117/MVCGで入手できる。

Chapter generation becomes practical technique for online videos nowadays. The chapter breakpoints enable users to quickly find the parts they want and get the summative annotations. However, there is no public method and dataset for this task. To facilitate the research along this direction, we introduce a new dataset called Chapter-Gen, which consists of approximately 10k user-generated videos with annotated chapter information. Our data collection procedure is fast, scalable and does not require any additional manual annotation. On top of this dataset, we design an effective baseline specificlly for video chapters generation task. which captures two aspects of a video,including visual dynamics and narration text. It disentangles local and global video features for localization and title generation respectively. To parse the long video efficiently, a skip sliding window mechanism is designed to localize potential chapters. And a cross attention multi-modal fusion module is developed to aggregate local features for title generation. Our experiments demonstrate that the proposed framework achieves superior results over existing methods which illustrate that the method design for similar task cannot be transfered directly even after fine-tuning. Code and dataset are available at https://github.com/czt117/MVCG.
翻訳日:2022-09-27 14:27:26 公開日:2022-09-26
# LOViS:視覚・言語ナビゲーションのための学習指向と視覚信号

LOViS: Learning Orientation and Visual Signals for Vision and Language Navigation ( http://arxiv.org/abs/2209.12723v1 )

ライセンス: Link先を確認
Yue Zhang, Parisa Kordjamshidi(参考訳) 自然言語の指示に従うナビゲーションエージェントには,空間情報や視覚情報を理解することが不可欠である。 現在のTransformerベースのVLNエージェントは、向きと視覚情報を絡めて、各情報ソースの学習による利得を制限する。 本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。 これらのモジュールは、視覚環境への指示における空間情報とランドマークの言及をより効果的に理解する。 エージェントの空間的推論と視覚的知覚を強化するため、我々は、最終的なナビゲーションモデルで対応するモジュールをよりよく活用するために、特定の事前学習タスクをデザインする。 提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた結果の状態を検証した。

Understanding spatial and visual information is essential for a navigation agent who follows natural language instructions. The current Transformer-based VLN agents entangle the orientation and vision information, which limits the gain from the learning of each information source. In this paper, we design a neural agent with explicit Orientation and Vision modules. Those modules learn to ground spatial information and landmark mentions in the instructions to the visual environment more effectively. To strengthen the spatial reasoning and visual perception of the agent, we design specific pre-training tasks to feed and better utilize the corresponding modules in our final navigation model. We evaluate our approach on both Room2room (R2R) and Room4room (R4R) datasets and achieve the state of the art results on both benchmarks.
翻訳日:2022-09-27 14:27:10 公開日:2022-09-26
# MaxMatch: 最悪の一貫性を備えた半教師付き学習

MaxMatch: Semi-Supervised Learning with Worst-Case Consistency ( http://arxiv.org/abs/2209.12611v1 )

ライセンス: Link先を確認
Yangbangyan Jiang, Xiaodan Li, Yuefeng Chen, Yuan He, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, Qingming Huang(参考訳) 近年, 半教師付き学習(SSL)による非効率な教師付き問題を克服するために, ラベル付きデータを組み込むことが大きな進歩を遂げている。 最先端モデルの多くは、ラベルのないデータに対して一貫性のあるモデル予測を入力ノイズに追従するという考えに基づいている。 それでも、その成功の背景にある理由に関する理論的知見は乏しい。 本稿では,理論結果と実用結果のギャップを埋めるために,SSLの最悪ケース整合正則化手法を提案する。 具体的には、ラベル付きおよびラベルなしのトレーニングデータで観測される経験的損失項からなるsslの一般化を提案する。 この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。 提案するミニマックス問題を解くための単純だが効果的なアルゴリズムを提供し、理論上は定常点に収束することを示す。 提案手法の有効性を検証した5つのベンチマークデータセットの実験を行った。

In recent years, great progress has been made to incorporate unlabeled data to overcome the inefficiently supervised problem via semi-supervised learning (SSL). Most state-of-the-art models are based on the idea of pursuing consistent model predictions over unlabeled data toward the input noise, which is called consistency regularization. Nonetheless, there is a lack of theoretical insights into the reason behind its success. To bridge the gap between theoretical and practical results, we propose a worst-case consistency regularization technique for SSL in this paper. Specifically, we first present a generalization bound for SSL consisting of the empirical loss terms observed on labeled and unlabeled training data separately. Motivated by this bound, we derive an SSL objective that minimizes the largest inconsistency between an original unlabeled sample and its multiple augmented variants. We then provide a simple but effective algorithm to solve the proposed minimax problem, and theoretically prove that it converges to a stationary point. Experiments on five popular benchmark datasets validate the effectiveness of our proposed method.
翻訳日:2022-09-27 14:20:33 公開日:2022-09-26
# 低ランクテンソル近似畳み込みニューラルネットワークによる自己教師付き雑音除去

Self-supervised Denoising via Low-rank Tensor Approximated Convolutional Neural Network ( http://arxiv.org/abs/2209.12715v1 )

ライセンス: Link先を確認
Chenyin Gao, Shu Yang and Anru R. Zhang(参考訳) ノイズは画像取得中にユビキタスです。 十分デノイジングは画像処理にとって重要な第一歩であることが多い。 近年では、ディープニューラルネットワーク(dnn)が画像のデノイジングに広く使われている。 ほとんどのDNNベースの画像復号法では、大規模なデータセットや教師付き設定に重点を置く必要があり、クリーンな画像の単一/ペアやノイズの多い画像のセットが必要となる。 これは、画像取得プロセスに重大な負担をもたらす。 さらに、限られたスケールのデータセットでトレーニングされたデノイザは、過度に適合する可能性がある。 これらの問題を緩和するため,タッカー低ランクテンソル近似に基づく自己教師付き画像復調フレームワークを提案する。 提案した設計では,パラメータが少なく,単一の画像に基づいて学習することができるため,モデルの一般化性が大幅に向上し,データ取得のコストが削減される。 合成画像と実世界のノイズ画像の両方に関する広範な実験が行われている。 実験の結果,提案手法は既存の非学習手法(ローパスフィルタ,非局所平均など),シングルイメージ非教師付きデノイザ(DIP,NN+BM3D)を,サンプル内およびサンプル外の両方で評価した。 提案手法は、いくつかの教師付き手法(例えばDnCNN)で同等の性能を達成する。

Noise is ubiquitous during image acquisition. Sufficient denoising is often an important first step for image processing. In recent decades, deep neural networks (DNNs) have been widely used for image denoising. Most DNN-based image denoising methods require a large-scale dataset or focus on supervised settings, in which single/pairs of clean images or a set of noisy images are required. This poses a significant burden on the image acquisition process. Moreover, denoisers trained on datasets of limited scale may incur over-fitting. To mitigate these issues, we introduce a new self-supervised framework for image denoising based on the Tucker low-rank tensor approximation. With the proposed design, we are able to characterize our denoiser with fewer parameters and train it based on a single image, which considerably improves the model generalizability and reduces the cost of data acquisition. Extensive experiments on both synthetic and real-world noisy images have been conducted. Empirical results show that our proposed method outperforms existing non-learning-based methods (e.g., low-pass filter, non-local mean), single-image unsupervised denoisers (e.g., DIP, NN+BM3D) evaluated on both in-sample and out-sample datasets. The proposed method even achieves comparable performances with some supervised methods (e.g., DnCNN).
翻訳日:2022-09-27 14:20:17 公開日:2022-09-26
# 脳波スペクトル時間特性に基づく畳み込みニューラルネットワークを用いたメンタル算術課題分類

Mental arithmetic task classification with convolutional neural network based on spectral-temporal features from EEG ( http://arxiv.org/abs/2209.11767v1 )

ライセンス: Link先を確認
Zaineb Ajra, Binbin Xu, G\'erard Dray, Jacky Montmain, Stephane Perrey(参考訳) 近年、神経科学者は脳-コンピュータインターフェース(BCI)デバイスの開発に興味を持っている。 運動障害のある患者はコミュニケーションや運動機能の回復の手段としてBCIの恩恵を受けることがある。 脳電図(EEG)は神経活動を評価するのに最も用いられる。 多くのコンピュータビジョンアプリケーションでは、ディープニューラルネットワーク(DNN)が大きな利点を示している。 DNNの究極的な利用に向けて、我々は、主に2つの畳み込みニューラルネットワーク(CNN)層を使用し、比較的少ないパラメータと、EEGからスペクトル時間的特徴を高速に学習する浅いニューラルネットワークを提示する。 運動障害と視覚機能低下に適応した眼球閉鎖状態を用いて、心的算術課題に異なる深度を応用した他の3つのニューラルネットワークモデルと比較した。 実験の結果, 浅層cnnモデルは他のモデルよりも優れており, 最大分類精度は90.68%であった。 従来の方法の15.6%ではなく、精度の標準偏差は3%に過ぎません。

In recent years, neuroscientists have been interested to the development of brain-computer interface (BCI) devices. Patients with motor disorders may benefit from BCIs as a means of communication and for the restoration of motor functions. Electroencephalography (EEG) is one of most used for evaluating the neuronal activity. In many computer vision applications, deep neural networks (DNN) show significant advantages. Towards to ultimate usage of DNN, we present here a shallow neural network that uses mainly two convolutional neural network (CNN) layers, with relatively few parameters and fast to learn spectral-temporal features from EEG. We compared this models to three other neural network models with different depths applied to a mental arithmetic task using eye-closed state adapted for patients suffering from motor disorders and a decline in visual functions. Experimental results showed that the shallow CNN model outperformed all the other models and achieved the highest classification accuracy of 90.68%. It's also more robust to deal with cross-subject classification issues: only 3% standard deviation of accuracy instead of 15.6% from conventional method.
翻訳日:2022-09-27 14:19:45 公開日:2022-09-26
# Two-Tailed Averaging: 確率最適化のための任意の適応型一応最適イテレーション

Two-Tailed Averaging: Anytime Adaptive Once-in-a-while Optimal Iterate Averaging for Stochastic Optimization ( http://arxiv.org/abs/2209.12581v1 )

ライセンス: Link先を確認
G\'abor Melis(参考訳) 平均化はPolyak平均化の非漸近的振る舞いを改善し、その計算から確率最適化の多くの主要な反復を除外する。 実際には、有限数の最適化ステップとゼロに焼鈍できない学習率により、テール平均化は個々のイテレーションやPolyak平均よりもトレーニング損失の局所的な最小点にかなり近づくことができる。 しかし、無視すべきリードイテレートの数は重要なハイパーパラメータであり、平均化が早すぎるか遅すぎるかはリソースや最適でないソリューションの非効率な利用につながる。 一般化を改善するためにこのハイパーパラメータを設定することは、特に他のハイパーパラメータやオーバーフィッティングが存在する場合、さらに難しい。 さらに、平均化が始まる前に、損失は最終結果に弱い情報しか与えられず、早期停止は信頼できない。 これらの問題を緩和するために,超パラメータを持たず,すべての最適化ステップで最適なテールを近似する,時限型末尾平均化を提案する。 本アルゴリズムは,最適尾長で有界な2つのランニング平均に基づいており,そのうちの1つは一定の正則性で近似最適性を達成する。 2組の重みに対する追加記憶と損失の周期的評価のみを必要とするため、提案手法は確率最適化を改善するための実用的で広く適用可能な方法である。

Tail averaging improves on Polyak averaging's non-asymptotic behaviour by excluding a number of leading iterates of stochastic optimization from its calculations. In practice, with a finite number of optimization steps and a learning rate that cannot be annealed to zero, tail averaging can get much closer to a local minimum point of the training loss than either the individual iterates or the Polyak average. However, the number of leading iterates to ignore is an important hyperparameter, and starting averaging too early or too late leads to inefficient use of resources or suboptimal solutions. Setting this hyperparameter to improve generalization is even more difficult, especially in the presence of other hyperparameters and overfitting. Furthermore, before averaging starts, the loss is only weakly informative of the final performance, which makes early stopping unreliable. To alleviate these problems, we propose an anytime variant of tail averaging, that has no hyperparameters and approximates the optimal tail at all optimization steps. Our algorithm is based on two running averages with adaptive lengths bounded in terms of the optimal tail length, one of which achieves approximate optimality with some regularity. Requiring only the additional storage for two sets of weights and periodic evaluation of the loss, the proposed two-tailed averaging algorithm is a practical and widely applicable method for improving stochastic optimization.
翻訳日:2022-09-27 14:13:16 公開日:2022-09-26
# 潜在因果効果ジエンタングルメントを用いた神経状態空間モデリング

Neural State-Space Modeling with Latent Causal-Effect Disentanglement ( http://arxiv.org/abs/2209.12387v1 )

ライセンス: Link先を確認
Maryam Toloubidokhti, Ryan Missel, Xiajun Jiang, Niels Otani, Linwei Wang(参考訳) 時系列再構成への深層学習アプローチの進歩にもかかわらず、最適化損失への無視的な貢献により、局所的な活動が微小信号強度で発見されるような手法は存在しない。 このような局所的な活動は、心臓に異常な電気波の伝播を引き起こす余分な焦点など、生理系の重要な異常事象を示す可能性がある。 我々は、信号強度が小さいが、信号強度が大きいその後のグローバルな活動の原因となる局所的な活動を再構築する新しい手法について論じる。 私たちの中心となるイノベーションは、システムの潜在状態が潜在的な隠れた内部介入によってどのように影響を受けるかを明確にモデル化し、分離することでこれに取り組むことです。 状態空間モデルの新規なニューラル定式化(ssms)において,我々はまず,相互作用するニューラルオデムのシステムを介して潜在力学の因果効果モデルを導入する。 1)内的介入の連続時間ダイナミクス,及び 2)システムのネイティブ状態の軌跡への影響。 介入は直接観察できないが、観察された後続の効果とは無関係であるので、システムのネイティブ介入フリーダイナミクスの知識を統合し、実際の介入フリーダイナミクスと仮説的な介入フリーダイナミクスの相違の原因となると仮定して隠れ介入を推測する。 遠隔観察で正常心電図の伝播経路を乱す異所性fociを再構成する枠組みの実証実験を行った。

Despite substantial progress in deep learning approaches to time-series reconstruction, no existing methods are designed to uncover local activities with minute signal strength due to their negligible contribution to the optimization loss. Such local activities however can signify important abnormal events in physiological systems, such as an extra foci triggering an abnormal propagation of electrical waves in the heart. We discuss a novel technique for reconstructing such local activity that, while small in signal strength, is the cause of subsequent global activities that have larger signal strength. Our central innovation is to approach this by explicitly modeling and disentangling how the latent state of a system is influenced by potential hidden internal interventions. In a novel neural formulation of state-space models (SSMs), we first introduce causal-effect modeling of the latent dynamics via a system of interacting neural ODEs that separately describes 1) the continuous-time dynamics of the internal intervention, and 2) its effect on the trajectory of the system's native state. Because the intervention can not be directly observed but have to be disentangled from the observed subsequent effect, we integrate knowledge of the native intervention-free dynamics of a system, and infer the hidden intervention by assuming it to be responsible for differences observed between the actual and hypothetical intervention-free dynamics. We demonstrated a proof-of-concept of the presented framework on reconstructing ectopic foci disrupting the course of normal cardiac electrical propagation from remote observations.
翻訳日:2022-09-27 14:12:50 公開日:2022-09-26
# 音声法医学:ブラインド音声ミミリー検出

Speech Forensics: Blind Voice Mimicry Detection ( http://arxiv.org/abs/2209.12573v1 )

ライセンス: Link先を確認
Sahar Al Ajmi, Khizar Hayat, Alaa M. Al Obaidi, Naresh Kumar, Munaf Najmuldeen and Baptiste Magnier(参考訳) オーディオは人間のコミュニケーションの最もよく使われる方法の1つだが、同時に、人を騙すために簡単に誤用することができる。 aiの革命により、関連する技術はほとんどの人が利用できるようになり、犯罪者が犯罪や偽造を簡単に行えるようになった。 本研究では,入力音声を実か模倣かを盲目的に分類する分類器を開発するための深層学習手法を提案する。 提案モデルでは,大規模なオーディオデータセットから抽出した重要な特徴のセットに基づいて,異なるオーディオから同じ特徴のセットでテストされた分類器を学習した。 この研究のために、全英データセットと混合データセット(アラビア語と英語)の2つのデータセットが作成された。 これらのデータセットは、研究コミュニティがhttps://github.com/sass7/datasetで利用するためにgithubから入手できる。 比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。 その後の結果は興味深いものであり、非常に正確であった。

Audio is one of the most used way of human communication, but at the same time it can be easily misused by to trick people. With the revolution of AI, the related technologies are now accessible to almost everyone thus making it simple for the criminals to commit crimes and forgeries. In this work, we introduce a deep learning method to develop a classifier that will blindly classify an input audio as real or mimicked. The proposed model was trained on a set of important features extracted from a large dataset of audios to get a classifier that was tested on the same set of features from different audios. Two datasets were created for this work; an all English data set and a mixed data set (Arabic and English). These datasets have been made available through GitHub for the use of the research community at https://github.com/SaSs7/Dataset. For the purpose of comparison, the audios were also classified through human inspection with the subjects being the native speakers. The ensued results were interesting and exhibited formidable accuracy.
翻訳日:2022-09-27 14:12:23 公開日:2022-09-26
# サンプルランク付けによる画像クラスタリングの改善とリモートセンシング画像への応用

Improving Image Clustering through Sample Ranking and Its Application to remote--sensing images ( http://arxiv.org/abs/2209.12621v1 )

ライセンス: Link先を確認
Qinglin Li, Guoping Qiu(参考訳) 画像クラスタリングは、リモートセンシングを含むさまざまな領域に広く適用される、非常に有用なテクニックである。 近年,自己教師型学習による視覚表現は画像クラスタリングの性能を大幅に改善している。 そこで本研究では,クラスタリングモデルの改良のために,各クラスタ内のサンプルを,現在のクラスタに属するクラスタの信頼性に基づいてランク付けし,次に重み付きクロスエントロピー損失を定式化してモデルをトレーニングする手法を提案する。 サンプルのランク付けには,人口密度の密集した地域にあるかどうかに基づいて,現在のクラスタに属するサンプルの確率を計算し,モデルのトレーニングには,ランク付けされたサンプルを重み付けする戦略を提案する。 そこで本研究では,最新の画像クラスタリングモデルの改良に新たな手法を応用し,2.1\%$から15.9\%$までの精度向上を実現する実験結果を示す。 本手法をリモートセンシングから様々なデータセット上で実行することにより,リモートセンシング画像に対して効果的に適用できることを示す。

Image clustering is a very useful technique that is widely applied to various areas, including remote sensing. Recently, visual representations by self-supervised learning have greatly improved the performance of image clustering. To further improve the well-trained clustering models, this paper proposes a novel method by first ranking samples within each cluster based on the confidence in their belonging to the current cluster and then using the ranking to formulate a weighted cross-entropy loss to train the model. For ranking the samples, we developed a method for computing the likelihood of samples belonging to the current clusters based on whether they are situated in densely populated neighborhoods, while for training the model, we give a strategy for weighting the ranked samples. We present extensive experimental results that demonstrate that the new technique can be used to improve the State-of-the-Art image clustering models, achieving accuracy performance gains ranging from $2.1\%$ to $15.9\%$. Performing our method on a variety of datasets from remote sensing, we show that our method can be effectively applied to remote--sensing images.
翻訳日:2022-09-27 14:10:36 公開日:2022-09-26
# DeepFusion:ライダー、カメラ、レーダーのためのロバストでモジュラーな3Dオブジェクト検出器

DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars ( http://arxiv.org/abs/2209.12729v1 )

ライセンス: Link先を確認
Florian Drews, Di Feng, Florian Faion, Lars Rosenbaum, Michael Ulrich and Claudius Gl\"aser(参考訳) 我々は,ライダー,カメラ,レーダーを異なる組み合わせで融合して3次元物体検出を行うモジュール型マルチモーダルアーキテクチャであるDeepFusionを提案する。 特殊特徴抽出器は各モードの利点を生かし、容易に交換でき、アプローチをシンプルかつ柔軟にする。 抽出された特徴は核融合の共通表現として鳥の目視に変換される。 空間的および意味的なアライメントは、特徴空間内のモダリティを融合する前に実行される。 最後に、検出ヘッドはリッチなマルチモーダル機能を利用して、3D検出性能を向上させる。 lidar- camera, lidar-camera-radar, camera-radar fusionの実験結果は,我々の融合アプローチの柔軟性と有効性を示している。 本プロセスでは,遠距離車検出の課題を最大225~mで検討し,ライダー・カメラ融合の利点を示した。 さらに,3次元物体検出に必要なライダー点密度について検討し,悪天候に対するロバスト性を示す。 さらに,我々のカメラレーダ融合におけるアブレーション研究は,正確な深度推定の重要性を強調している。

We propose DeepFusion, a modular multi-modal architecture to fuse lidars, cameras and radars in different combinations for 3D object detection. Specialized feature extractors take advantage of each modality and can be exchanged easily, making the approach simple and flexible. Extracted features are transformed into bird's-eye-view as a common representation for fusion. Spatial and semantic alignment is performed prior to fusing modalities in the feature space. Finally, a detection head exploits rich multi-modal features for improved 3D detection performance. Experimental results for lidar-camera, lidar-camera-radar and camera-radar fusion show the flexibility and effectiveness of our fusion approach. In the process, we study the largely unexplored task of faraway car detection up to 225~meters, showing the benefits of our lidar-camera fusion. Furthermore, we investigate the required density of lidar points for 3D object detection and illustrate implications at the example of robustness against adverse weather conditions. Moreover, ablation studies on our camera-radar fusion highlight the importance of accurate depth estimation.
翻訳日:2022-09-27 14:10:18 公開日:2022-09-26
# LSAP: GANラテント空間におけるインバージョン忠実度、知覚、編集性の再考

LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN Latent Space ( http://arxiv.org/abs/2209.12746v1 )

ライセンス: Link先を確認
Cao Pu, Lu Yang, Dongxv Liu, Zhiwei Liu, Wenguan Wang, Shan Li, Qing Song(参考訳) 方法が進化するにつれて、反転は主に2つのステップに分けられる。 最初のステップはImage Embeddingで、エンコーダまたは最適化プロセスがイメージを埋め込み、対応する潜在コードを取得する。 その後、第2のステップは、インバージョンと編集結果を洗練することを目指しています。 第2のステップは忠実度を大幅に改善するが、知覚と編集性はほとんど変化せず、第1のステップで到達した逆潜時符号に深く依存する。 そのため,再現性を維持しつつ,認識や編集性が向上した潜伏符号の取得が重要な問題となっている。 本稿ではまず,これら2つの特徴が,合成分布と逆符号のアライメント(あるいは不一致)の程度に関係していることを指摘する。 そこで我々は,この問題に対する評価基準と解からなるLatent Space Alignment Inversion Paradigm (LSAP)を提案する。 具体的には,正規化スタイル空間 (\mathcal{S^N}$ space) と $\mathcal{S^N}$ Cosine Distance (SNCD) を導入し,逆法の不整合を測定する。 提案するSNCDは微分可能であるため,エンコーダと最適化方式の両方で最適化し,一様解を求めることができる。 様々な領域における大規模な実験により、SNCDは知覚と編集性を効果的に反映し、アライメントパラダイムは両方のステップで最先端をアーカイブする。 コードはhttps://github.com/caopulan/GANInverterで入手できる。

As the methods evolve, inversion is mainly divided into two steps. The first step is Image Embedding, in which an encoder or optimization process embeds images to get the corresponding latent codes. Afterward, the second step aims to refine the inversion and editing results, which we named Result Refinement. Although the second step significantly improves fidelity, perception and editability are almost unchanged, deeply dependent on inverse latent codes attained in the first step. Therefore, a crucial problem is gaining the latent codes with better perception and editability while retaining the reconstruction fidelity. In this work, we first point out that these two characteristics are related to the degree of alignment (or disalignment) of the inverse codes with the synthetic distribution. Then, we propose Latent Space Alignment Inversion Paradigm (LSAP), which consists of evaluation metric and solution for this problem. Specifically, we introduce Normalized Style Space ($\mathcal{S^N}$ space) and $\mathcal{S^N}$ Cosine Distance (SNCD) to measure disalignment of inversion methods. Since our proposed SNCD is differentiable, it can be optimized in both encoder-based and optimization-based embedding methods to conduct a uniform solution. Extensive experiments in various domains demonstrate that SNCD effectively reflects perception and editability, and our alignment paradigm archives the state-of-the-art in both two steps. Code is available on https://github.com/caopulan/GANInverter.
翻訳日:2022-09-27 14:10:01 公開日:2022-09-26
# Prayatul Matrix: 教師付き機械学習モデルの性能評価のための直接比較手法

Prayatul Matrix: A Direct Comparison Approach to Evaluate Performance of Supervised Machine Learning Models ( http://arxiv.org/abs/2209.12728v1 )

ライセンス: Link先を確認
Anupam Biswas(参考訳) 教師付き機械学習(ML)モデルの性能比較は、テストデータセット上で得られた様々な混乱行列に基づくスコアの観点から広く行われている。 しかし、データセットは難易度が異なる複数のインスタンスから構成される。 したがって、データセット全体のスコアを比較するよりも、個々のインスタンス上でのMLモデルの有効性を比較する方が論理的である。 本稿では,データセット内の個々のインスタンスの観点から,教師付きMLモデルの直接比較を行う方法を提案する。 emph{Prayatul Matrix}と呼ばれる直接比較行列が導入され、データセットの異なるインスタンス上での2つのMLアルゴリズムの比較結果が説明される。 祈願行列に基づく5つの異なるパフォーマンス尺度が設計されている。 提案手法の有効性を3つのデータセットの4つの分類手法を用いて評価した。 また、ResNet50V2、MobileNetV2、EfficientNet、XceptionNetという4つのディープラーニングモデルを持つ4つの大規模な複雑なイメージデータセットを分析した。 その結果、新たに設計された尺度は、既存の混乱行列ベースのスコア(精度、精度、リコール)では不可能なMLアルゴリズムの比較について、より多くの洞察を与えることができることが明らかとなった。

Performance comparison of supervised machine learning (ML) models are widely done in terms of different confusion matrix based scores obtained on test datasets. However, a dataset comprises several instances having different difficulty levels. Therefore, it is more logical to compare effectiveness of ML models on individual instances instead of comparing scores obtained for the entire dataset. In this paper, an alternative approach is proposed for direct comparison of supervised ML models in terms of individual instances within the dataset. A direct comparison matrix called \emph{Prayatul Matrix} is introduced, which accounts for comparative outcome of two ML algorithms on different instances of a dataset. Five different performance measures are designed based on prayatul matrix. Efficacy of the proposed approach as well as designed measures is analyzed with four classification techniques on three datasets. Also analyzed on four large-scale complex image datasets with four deep learning models namely ResNet50V2, MobileNetV2, EfficientNet, and XceptionNet. Results are evident that the newly designed measure are capable of giving more insight about the comparing ML algorithms, which were impossible with existing confusion matrix based scores like accuracy, precision and recall.
翻訳日:2022-09-27 14:03:09 公開日:2022-09-26
# 生成予習変圧器を用いた微細ダイニングレシピ生成に向けて

Towards Fine-Dining Recipe Generation with Generative Pre-trained Transformers ( http://arxiv.org/abs/2209.12774v1 )

ライセンス: Link先を確認
Konstantinos Katserelis, Konstantinos Skianis(参考訳) 食物は人間の生存に欠かせない。 味覚のニーズに合うように、さまざまなレシピを開発しました。 本稿では,トランスフォーマー,特に自己回帰型言語モデルを用いて,スクラッチから新しい精細なレシピを作成する新しい手法を提案する。 料理レシピの小さなデータセットを考えると、モデルを訓練し、調理技術を特定し、新しいレシピを提案し、最小限のデータで微調整のパワーをテストする。

Food is essential to human survival. So much so that we have developed different recipes to suit our taste needs. In this work, we propose a novel way of creating new, fine-dining recipes from scratch using Transformers, specifically auto-regressive language models. Given a small dataset of food recipes, we try to train models to identify cooking techniques, propose novel recipes, and test the power of fine-tuning with minimal data.
翻訳日:2022-09-27 14:00:21 公開日:2022-09-26
# ブラインドハイパースペクトルアンミキシングのためのエントロピー的Descent Archetypal解析

Entropic Descent Archetypal Analysis for Blind Hyperspectral Unmixing ( http://arxiv.org/abs/2209.11002v2 )

ライセンス: Link先を確認
Alexandre Zouaoui (1), Gedeon Muhawenayo (1), Behnood Rasti (2), Jocelyn Chanussot (1) and Julien Mairal (1) ((1) Thoth, Inria, UGA, CNRS, Grenoble INP, LJK, (2) HZDR)(参考訳) 本稿では, 終端部材の線形混合を前提とした, ブラインドハイパースペクトルアンミキシングのためのアーチティパル解析に基づく新しいアルゴリズムを提案する。 原型分析はこのタスクの自然な定式化である。 この方法は純粋なピクセル(すなわち1つの材料を含むピクセル)の存在を必要とせず、代わりに、元のハイパースペクトル画像に存在するいくつかのピクセルの凸結合としてエンドメンバーを表現する。 我々のアプローチはエントロピー勾配降下戦略を利用する。 (i)従来の古型分析アルゴリズムよりも高スペクトルアンミキシングのより良い解を提供し、 (ii)効率的なgpu実装につながる。 アルゴリズムの単一インスタンスの実行は高速であるため,計算複雑性を合理的に保ちつつ,ハイパーパラメータ選択にロバストな手法を実現する適切なモデル選択手順とともに,センシング機構を提案する。 6つの標準実データセットを用いて、我々の手法は最先端の行列分解や最近のディープラーニング手法よりも優れていることを示す。 また、オープンソースのPyTorch実装も提供しています。

In this paper, we introduce a new algorithm based on archetypal analysis for blind hyperspectral unmixing, assuming linear mixing of endmembers. Archetypal analysis is a natural formulation for this task. This method does not require the presence of pure pixels (i.e., pixels containing a single material) but instead represents endmembers as convex combinations of a few pixels present in the original hyperspectral image. Our approach leverages an entropic gradient descent strategy, which (i) provides better solutions for hyperspectral unmixing than traditional archetypal analysis algorithms, and (ii) leads to efficient GPU implementations. Since running a single instance of our algorithm is fast, we also propose an ensembling mechanism along with an appropriate model selection procedure that make our method robust to hyper-parameter choices while keeping the computational complexity reasonable. By using six standard real datasets, we show that our approach outperforms state-of-the-art matrix factorization and recent deep learning methods. We also provide an open-source PyTorch implementation: https://github.com/inria-thoth/EDAA.
翻訳日:2022-09-27 11:21:36 公開日:2022-09-26
# エピソード知識グラフによるエージェントインタラクションの評価

Evaluating Agent Interactions Through Episodic Knowledge Graphs ( http://arxiv.org/abs/2209.11746v2 )

ライセンス: Link先を確認
Selene B\'aez Santamar\'ia, Piek Vossen, Thomas Baier(参考訳) オープンドメインにおける会話エージェント(マルチモーダル)を評価するための,eKG(epsodic Knowledge Graphs)に基づく新しい手法を提案する。 このグラフは会話中に生の信号を解釈することで生成され、時間とともに知識の蓄積を捉えることができる。 得られたグラフの構造と意味解析を適用し,その特性を質的尺度に変換する。 これらの尺度を,会話エージェントによく用いられる既存の自動評価指標と手作業による評価指標と比較する。 我々の知識グラフに基づく評価は,インタラクションやエージェントの行動に対する質的な洞察を提供する。

We present a new method based on episodic Knowledge Graphs (eKGs) for evaluating (multimodal) conversational agents in open domains. This graph is generated by interpreting raw signals during conversation and is able to capture the accumulation of knowledge over time. We apply structural and semantic analysis of the resulting graphs and translate the properties into qualitative measures. We compare these measures with existing automatic and manual evaluation metrics commonly used for conversational agents. Our results show that our Knowledge-Graph-based evaluation provides more qualitative insights into interaction and the agent's behavior.
翻訳日:2022-09-27 11:21:07 公開日:2022-09-26
# Beatrix' Resurrections:Gram行列によるロバストなバックドア検出

The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices ( http://arxiv.org/abs/2209.11715v2 )

ライセンス: Link先を確認
Wanlun Ma, Derui Wang, Ruoxi Sun, Minhui Xue, Sheng Wen and Yang Xiang(参考訳) Deep Neural Networks(DNN)は、トレーニング中のバックドア攻撃の影響を受けやすい。 この方法でモデルは正常に機能するが、入力の特定のパターンによってトリガーされると、事前に定義されたターゲットラベルが生成される。 既存の防御は、通常、有毒なサンプルが同じ均一なトリガーを共有する普遍的なバックドア設定の仮定に依存している。 しかし、最近の先進的なバックドア攻撃は、トリガーが入力によって異なる動的バックドアでは、この仮定がもはや有効ではないことを示している。 本研究では,新しい手法であるbeatrix (backdoor detection via gram matrix)を提案する。 beatrixはgram matrixを使用して、特徴相関だけでなく、表現の適切な高次情報もキャプチャする。 正常なサンプルの活性化パターンからクラス条件の統計を学習することで、beatrixは活性化パターンの異常を捉えて有毒なサンプルを識別できる。 ターゲットラベルを識別する際のパフォーマンスをさらに向上するため、Beatrixはカーネルベースのテストを活用している。 本手法の有効性を,最先端の防御技術との比較と評価により実証する。 実験の結果,本手法は動的バックドアの検出において91.1%のf1スコアを達成できたが,36.9%に留まっていた。

Deep Neural Networks (DNNs) are susceptible to backdoor attacks during training. The model corrupted in this way functions normally, but when triggered by certain patterns in the input, produces a predefined target label. Existing defenses usually rely on the assumption of the universal backdoor setting in which poisoned samples share the same uniform trigger. However, recent advanced backdoor attacks show that this assumption is no longer valid in dynamic backdoors where the triggers vary from input to input, thereby defeating the existing defenses. In this work, we propose a novel technique, Beatrix (backdoor detection via Gram matrix). Beatrix utilizes Gram matrix to capture not only the feature correlations but also the appropriately high-order information of the representations. By learning class-conditional statistics from activation patterns of normal samples, Beatrix can identify poisoned samples by capturing the anomalies in activation patterns. To further improve the performance in identifying target labels, Beatrix leverages kernel-based testing without making any prior assumptions on representation distribution. We demonstrate the effectiveness of our method through extensive evaluation and comparison with state-of-the-art defensive techniques. The experimental results show that our approach achieves an F1 score of 91.1% in detecting dynamic backdoors, while the state of the art can only reach 36.9%.
翻訳日:2022-09-27 11:20:59 公開日:2022-09-26
# CNNを用いた肺CT画像からのCOVID-19検出と解析

COVID-19 Detection and Analysis From Lung CT Images using Novel Channel Boosted CNNs ( http://arxiv.org/abs/2209.10963v2 )

ライセンス: Link先を確認
Saddam Hussain Khan(参考訳) 2019年12月、中国・武漢の世界的なパンデミック(covid-19)が人間生活と世界経済に影響を及ぼした。 したがって, その拡散を制御するには効率的な診断システムが必要である。 しかし、自動診断システムは、限られた量のラベル付きデータ、小さなコントラスト変動、感染と背景の間の構造的類似性で課題を提起する。 そこで本研究では,2相ディープ畳み込みニューラルネットワーク(CNN)を用いた診断システムを提案する。 第1フェーズでは、新しいチャネルSqueezed and Boosted(SB)と拡張畳み込みベースのSplit-Transform-Merge(STM)ブロックを組み込んだ新しいSB-STM-BRNet CNNを開発し、COVID-19感染肺CT画像を検出する。 新しいSTMブロックはマルチパス領域平滑化と境界操作を実行し、小さなコントラストの変化とグローバルなCOVID-19パターンの学習に役立った。 さらに,STMブロックのSBとTransfer Learningの概念を用いて,新型コロナウイルス特異的画像と健康画像のテクスチャ変化を学習する。 第2段階では、covid-19感染地域を特定し分析するために、covid-19-cb-reseg segmentation cnnに新型コロナウイルス感染の画像が提供される。 提案したCOVID-CB-RESegは,各エンコーダデコーダブロックと補助チャネルを用いたブープドデコーダの領域均一性および均一性操作を用いて,新型コロナウイルス感染領域の低照度と境界を同時に学習する。 提案した診断システムは、精度が98.21 %、Fスコアが98.24%、Dice similarityが96.40 %、IOUが98.85 %である。 提案する診断システムは、迅速かつ正確なcovid-19診断に対する放射線科医の判断を強化し、負担を軽減する。

In December 2019, the global pandemic COVID-19 in Wuhan, China, affected human life and the worldwide economy. Therefore, an efficient diagnostic system is required to control its spread. However, the automatic diagnostic system poses challenges with a limited amount of labeled data, minor contrast variation, and high structural similarity between infection and background. In this regard, a new two-phase deep convolutional neural network (CNN) based diagnostic system is proposed to detect minute irregularities and analyze COVID-19 infection. In the first phase, a novel SB-STM-BRNet CNN is developed, incorporating a new channel Squeezed and Boosted (SB) and dilated convolutional-based Split-Transform-Merge (STM) block to detect COVID-19 infected lung CT images. The new STM blocks performed multi-path region-smoothing and boundary operations, which helped to learn minor contrast variation and global COVID-19 specific patterns. Furthermore, the diverse boosted channels are achieved using the SB and Transfer Learning concepts in STM blocks to learn texture variation between COVID-19-specific and healthy images. In the second phase, COVID-19 infected images are provided to the novel COVID-CB-RESeg segmentation CNN to identify and analyze COVID-19 infectious regions. The proposed COVID-CB-RESeg methodically employed region-homogeneity and heterogeneity operations in each encoder-decoder block and boosted-decoder using auxiliary channels to simultaneously learn the low illumination and boundaries of the COVID-19 infected region. The proposed diagnostic system yields good performance in terms of accuracy: 98.21 %, F-score: 98.24%, Dice Similarity: 96.40 %, and IOU: 98.85 % for the COVID-19 infected region. The proposed diagnostic system would reduce the burden and strengthen the radiologist's decision for a fast and accurate COVID-19 diagnosis.
翻訳日:2022-09-27 11:20:36 公開日:2022-09-26