このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230123となっている論文です。

PDF登録状況(公開日: 20230123)

TitleAuthorsAbstract論文公表日・翻訳日
# 開量子ラビモデルにおける量子ビット-オシレータ関係:散逸の役割

Qubit-oscillator relationships in the open quantum Rabi model: the role of dissipation ( http://arxiv.org/abs/2208.00708v2 )

ライセンス: Link先を確認
G. Di Bello, L. M. Cangemi, V. Cataudella, G. De Filippis, A. Nocera, C. A. Perroni(参考訳) 散逸性量子ラビモデルを用いて、弱から強および超強結合状態のボゾン浴と相互作用する高速量子調和振動子と結合する遅い量子ビットのダイナミクスを研究する。 量子ハイゼンベルク運動方程式を解き、量子ビットと振動子の内部結合を摂動的に解くことにより、ブロッホ球面の量子ビット座標と振動子観測可能性を直接結びつける関数的関係を導出する。 次に、正確な時間依存行列積状態シミュレーションを行い、その結果をハイゼンベルクの運動方程式の解析解と、振動子と環境の間の外部結合における摂動であるリンドブラッドのマスター方程式の数値解の両方と比較する。 実際、強い結合状態において、qubit状態は導出した機能的関係を正確に満たしていることを示す。 我々は、ブロッホ球面上の一般座標から始まる量子ビットの場合を詳細に分析し、ブロッホベクトルの3つの成分を振動子観測値の平均を通して評価する。 興味深いことに、バスとの弱い中間振動子結合は、キュービット-オシレータの関係がより即時であるため、ブロッホベクトルの評価を単純化することができる。 さらに、自由極限に対する量子ビットの忠実度をモニタリングすることにより、内部結合と外部結合の複合効果がクォービットブロッホベクトルの信頼性評価を妨げるパラメータ状態を求める。 最後に、超強結合状態において、非マルコフ効果は頑健になり、クォービットと発振子のダイナミクスは複雑に絡み合っており、クォービットブロッホベクトルの評価は困難である。

Using a dissipative quantum Rabi model, we study the dynamics of a slow qubit coupled to a fast quantum harmonic oscillator interacting with a bosonic bath from weak to strong and ultra-strong coupling regimes. Solving the quantum Heisenberg equations of motion, perturbative in the internal coupling between qubit and oscillator, we derive functional relationships directly linking the qubit coordinates in the Bloch sphere to oscillator observables. We then perform accurate time-dependent Matrix Product State simulations, and compare our results both with the analytical solutions of the Heisenberg equations of motion, and with numerical solutions of a Lindblad master equation, perturbative in the external coupling between oscillator and environment. Indeed, we show that, up to the strong coupling regime, the qubit state accurately fulfills the derived functional relationships. We analyse in detail the case of a qubit starting with generic coordinates on the Bloch sphere of which we evaluate the three components of the Bloch vector through the averages of oscillator observables. Interestingly, a weak to intermediate oscillator coupling to the bath is able to simplify the Bloch vector evaluation since qubit-oscillator relationships are more immediate. Moreover, by monitoring the qubit fidelity with respect to free limit, we find the parameter regime where the combined effect of internal and external couplings is able to hinder the reliable evaluation of the qubit Bloch vector. Finally, in the ultra-strong coupling regime, non-Markovian effects become robust and the dynamics of qubit and oscillator are inextricably entangled making the qubit Bloch vector evaluation difficult.
翻訳日:2023-02-02 19:02:52 公開日:2023-01-23
# Jetson Nanoを脳-コンピュータインターフェースに変換するデバイスJNEEG。 短い報告

Device JNEEG to convert Jetson Nano to brain-Computer interfaces. Short report ( http://arxiv.org/abs/2301.11110v1 )

ライセンス: Link先を確認
Ildar Rakhmatulin(参考訳) 近年、人工知能は大きな進歩を遂げており、神経科学の分野にも影響を与えた。 その結果,脳波信号から特徴をリアルタイムで抽出するアーキテクチャが実装された。 しかし、そのようなアーキテクチャを使用するには多くの計算能力が必要である。 その結果、EEGデバイスは通常、EEGデータの送信機としてのみ動作し、実際のデータ処理はサードパーティデバイスで実行される。 それは高価でコンパクトではありません。 本稿では,シングルボードコンピュータであるnvidiaのjetson nanoをブレイン・コンピュータ・インタフェースに変換するためのシールドを提案する。 本稿では,開発装置の試験結果について述べる。 https://github.com/HackerBCI/EEG-with-JetsonNano

Artificial intelligence has made significant advances in recent years and this has had an impact on the field of neuroscience. As a result, different architectures have been implemented to extract features from EEG signals in real time. However, the use of such architectures requires a lot of computing power. As a result, EEG devices typically act only as transmitters of EEG data, with the actual data processing taking place in a third-party device. That's expensive and not compact. In this paper, we present a shield that allows a single-board computer, the Jetson Nano from Nvidia, to be converted into a brain-computer interface and, most importantly, the Jetson Nano's capabilities allow machine learning tools to be used directly on the data collection device. Here we present the test results of the developed device. https://github.com/HackerBCI/EEG-with-JetsonNano
翻訳日:2023-01-27 13:45:13 公開日:2023-01-23
# 純粋状態ダイナミクスによる古典性,マルコビアン性,局所的詳細バランス

Classicality, Markovianity and local detailed balance from pure state dynamics ( http://arxiv.org/abs/2209.07977v2 )

ライセンス: Link先を確認
Philipp Strasberg, Andreas Winter, Jochen Gemmer, Jiaozi Wang(参考訳) 多体系における可観測体の有効ダイナミクスを記述するとき、系が短時間で最大エントロピー状態に戻るという繰り返しランダムネスの仮定は、有効ダイナミクスが古典的であることを保証し、局所的な詳細バランスに従うという決定的な仮説である。 後者の挙動は自然発生過程においてしばしば観察されるが、繰り返しランダムネスの仮定はシステムの微視的可逆性と矛盾する。 ここでは、繰り返しランダムネスの仮定を用いることは、観測可能かつ粗く、厳密に定義する2つの特性である観測可能の有効ダイナミクスの記述において正当化できることを示す。 すると、我々の導出は本質的に固有熱化仮説と典型論のみを呼び出す。 遅いオブザーバブルの仮定は、必要だが十分でない条件のみを提供するため微妙であるが、オープンなシステムや多体システムの集合オブザーバブルに適用できる統一的な視点も提供する。 我々のアイデアはすべてスピンチェーンの密度波の研究によって数値的に検証される。

When describing the effective dynamics of an observable in a many-body system, the repeated randomness assumption, which states that the system returns in a short time to a maximum entropy state, is a crucial hypothesis to guarantee that the effective dynamics is classical, Markovian and obeys local detailed balance. While the latter behaviour is frequently observed in naturally occurring processes, the repeated randomness assumption is in blatant contradiction to the microscopic reversibility of the system. Here, we show that the use of the repeated randomness assumption can be justified in the description of the effective dynamics of an observable that is both slow and coarse, two properties we will define rigorously. Then, our derivation will invoke essentially only the eigenstate thermalization hypothesis and typicality arguments. While the assumption of a slow observable is subtle, as it provides only a necessary but not sufficient condition, it also offers a unifying perspective applicable to, e.g., open systems as well as collective observables of many-body systems. All our ideas are numerically verified by studying density waves in spin chains.
翻訳日:2023-01-26 09:24:29 公開日:2023-01-23
# 二次元量子イジングモデルにおける界面ダイナミクス

Interface dynamics in the two-dimensional quantum Ising model ( http://arxiv.org/abs/2209.08992v2 )

ライセンス: Link先を確認
Federico Balducci, Andrea Gambassi, Alessio Lerose, Antonello Scardicchio and Carlo Vanoni(参考訳) 最近の論文(Phys. Rev. Lev. 129, 120601)では、二次元強磁性量子イジングモデルの対称性破壊相における界面のダイナミクスがエルゴディディディティ破壊の頑健な形態を示すことが示されている。 本稿では,この問題についてさらに詳しく述べる。 まず、正方格子上の初期状態の2つのクラスについて議論し、そのダイナミクスは実効ハミルトニアンにおける相補的な項によって駆動され、正確に解くことができる。 (a)周囲のスピンの反対方向に並んだ連続した隣接するスピンの帯 b) 2つの無限に拡張された領域と反対に整列したスピンを分離する「滑らかな」界面の存在を特徴とする大きな初期状態のクラス。 後者の状態の進化は、無限結合極限において可積分である効果的な一次元フェルミオン鎖の進化にマッピングすることができる。 この場合、数学における注目すべき結果と深い関係が出現し、古典統計物理学でも同様の問題が生じる。 本稿では, 界面変動や絡み合いエントロピーのダイナミクスを含む, 格子上および適切な連続極限におけるこれらの界面の進化を詳細に解析する。 第2に,フェルミイオン励起を極端に局在化させることから生じる観測された非エルゴード性が無限イジング結合限界から遠ざかるという結論を裏付ける解析的・数値的証拠を提供し,大面積の線形サイズの領域が崩壊する時間スケール$t\sim e^{c l\ln l}$の存在を強調する。 偽真空の崩壊という古典的な問題に対する我々の研究の意義についても論じる。

In a recent paper [Phys. Rev. Lett. 129, 120601] we have shown that the dynamics of interfaces, in the symmetry-broken phase of the two-dimensional ferromagnetic quantum Ising model, displays a robust form of ergodicity breaking. In this paper, we elaborate more on the issue. First, we discuss two classes of initial states on the square lattice, the dynamics of which is driven by complementary terms in the effective Hamiltonian and may be solved exactly: (a) strips of consecutive neighbouring spins aligned in the opposite direction of the surrounding spins, and (b) a large class of initial states, characterized by the presence of a well-defined "smooth" interface separating two infinitely extended regions with oppositely aligned spins. The evolution of the latter states can be mapped onto that of an effective one-dimensional fermionic chain, which is integrable in the infinite-coupling limit. In this case, deep connections with noteworthy results in mathematics emerge, as well as with similar problems in classical statistical physics. We present a detailed analysis of the evolution of these interfaces both on the lattice and in a suitable continuum limit, including the interface fluctuations and the dynamics of entanglement entropy. Second, we provide analytical and numerical evidence supporting the conclusion that the observed non-ergodicity -- arising from Stark localization of the effective fermionic excitations -- persists away from the infinite-Ising-coupling limit, and we highlight the presence of a timescale $T\sim e^{c L\ln L}$ for the decay of a region of large linear size $L$. The implications of our work for the classic problem of the decay of a false vacuum are also discussed.
翻訳日:2023-01-26 02:13:32 公開日:2023-01-23
# 深部MRI再構成のための振り返り k-space Subsampling スキームについて

On Retrospective k-space Subsampling schemes For Deep MRI Reconstruction ( http://arxiv.org/abs/2301.08365v2 )

ライセンス: Link先を確認
George Yiasemis, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) $\textbf{Purpose:}$ MRI $k$-spaceの取得には時間がかかる。 従来の手法は,近年のDL手法と組み合わせた高速化されたデータを取得することを目的としている。 従来、$k$-スペースのサブサンプリングは直立線軌跡を用いて行われ、DLを用いても不正確な再構成が可能であるが、現代のMRIスキャナーでは非直立線軌跡や非直立線軌跡の多重化が可能である。 本研究は、訓練されたDLモデルにより生成された再構成加速MRIの画質に及ぼす$k$-spaceサブサンプリングスキームの影響について検討する。 $\textbf{Methods:}$ The RecurrentVarNetは、DLベースのMRI再構成アーキテクチャとして使われた。 加速度の異なる3つのデータセットからカーデシアンフルサンプリングされた$k$-space測定を8つの異なるサブサンプリングスキーム(4つのカーデシアン-rectilinear、2つのカーデシアン非rectilinear、2つの非カルテジアン)を用いて遡及的にサブサンプリングした。 実験は2つのフレームワークで実施された: Scheme-specificでは、データセットサブサンプリングスキームペア毎に個別のモデルをトレーニングし、評価し、マルチスキーマでは、データセット毎に、ランダムに8つのスキームにサブサンプルされたデータに基づいてトレーニングし、すべてのスキームでサンプル化されたデータに基づいて評価する。 スキーム固有のrecurrentvarnetsのトレーニングと評価において$\textbf{results:}$は、特に高加速において優れた性能を示したが、マルチスキーム設定では、スキーム特有の実験と比較して、線形サブサンプリングデータの再構成性能が向上した。 $\textbf{Conclusion:}$$ DLベースのMRI再構成アルゴリズムを非直線的にサブサンプル化することで、より忠実な再構築が可能になる。

$\textbf{Purpose:}$ The MRI $k$-space acquisition is time consuming. Traditional techniques aim to acquire accelerated data, which in conjunction with recent DL methods, aid in producing high-fidelity images in truncated times. Conventionally, subsampling the $k$-space is performed by utilizing Cartesian-rectilinear trajectories, which even with the use of DL, provide imprecise reconstructions, though, a plethora of non-rectilinear or non-Cartesian trajectories can be implemented in modern MRI scanners. This work investigates the effect of the $k$-space subsampling scheme on the quality of reconstructed accelerated MRI measurements produced by trained DL models. $\textbf{Methods:}$ The RecurrentVarNet was used as the DL-based MRI-reconstruction architecture. Cartesian fully-sampled multi-coil $k$-space measurements from three datasets with different accelerations were retrospectively subsampled using eight distinct subsampling schemes (four Cartesian-rectilinear, two Cartesian non-rectilinear, two non-Cartesian). Experiments were conducted in two frameworks: Scheme-specific, where a distinct model was trained and evaluated for each dataset-subsampling scheme pair, and multi-scheme, where for each dataset a single model was trained on data randomly subsampled by any of the eight schemes and evaluated on data subsampled by all schemes. $\textbf{Results:}$ In the scheme-specific setting RecurrentVarNets trained and evaluated on non-rectilinearly subsampled data demonstrated superior performance especially for high accelerations, whilst in the multi-scheme setting, reconstruction performance on rectilinearly subsampled data improved when compared to the scheme-specific experiments. $\textbf{Conclusion:}$ Training DL-based MRI reconstruction algorithms on non-rectilinearly subsampled measurements can produce more faithful reconstructions.
翻訳日:2023-01-25 15:13:43 公開日:2023-01-23
# エントロピー最適輸送のための一階アルゴリズムの高速化

Improved Rate of First Order Algorithms for Entropic Optimal Transport ( http://arxiv.org/abs/2301.09675v1 )

ライセンス: Link先を確認
Yiling Luo, Yiling Xie, Xiaoming Huo(参考訳) 本稿では,エントロピー正則化最適輸送を解く一階法アルゴリズムの最先端の速度を改善する。 最適輸送量(ot)を近似するレートは$\widetilde{{o}}({n^{2.5}}/{\epsilon})$から$\widetilde{o}}({n^2}/{\epsilon})$に改善され、ここで$n$は問題サイズ、$\epsilon$は精度レベルである。 特に,分散低減を伴う主元-双対確率的ミラー降下アルゴリズムを提案する。 このような特別な設計は、他の加速された原始双対アルゴリズムと比較して、速度を改善するのに役立ちます。 さらに,並列計算による計算性能を向上させる確率的アルゴリズムのバッチ版を提案する。 比較するために、確率的シンクホーンアルゴリズムの計算複雑性は$\widetilde{{o}}({n^2}/{\epsilon^2})$であることを証明する。 実験は合成データと実データを用いて行われ、結果が理論値に合致する。 我々のアルゴリズムは、OTを解くために$$\widetilde{{O}}({n^2}/{\epsilon})$を持つ加速原始双対アルゴリズムを開発するためにより多くの研究を刺激するかもしれない。

This paper improves the state-of-the-art rate of a first-order algorithm for solving entropy regularized optimal transport. The resulting rate for approximating the optimal transport (OT) has been improved from $\widetilde{{O}}({n^{2.5}}/{\epsilon})$ to $\widetilde{{O}}({n^2}/{\epsilon})$, where $n$ is the problem size and $\epsilon$ is the accuracy level. In particular, we propose an accelerated primal-dual stochastic mirror descent algorithm with variance reduction. Such special design helps us improve the rate compared to other accelerated primal-dual algorithms. We further propose a batch version of our stochastic algorithm, which improves the computational performance through parallel computing. To compare, we prove that the computational complexity of the Stochastic Sinkhorn algorithm is $\widetilde{{O}}({n^2}/{\epsilon^2})$, which is slower than our accelerated primal-dual stochastic mirror algorithm. Experiments are done using synthetic and real data, and the results match our theoretical rates. Our algorithm may inspire more research to develop accelerated primal-dual algorithms that have rate $\widetilde{{O}}({n^2}/{\epsilon})$ for solving OT.
翻訳日:2023-01-25 15:07:16 公開日:2023-01-23
# 時系列のフレキシブル条件密度推定

Flexible conditional density estimation for time series ( http://arxiv.org/abs/2301.09671v1 )

ライセンス: Link先を確認
Gustavo Grivol, Rafael Izbicki, Alex A. Okuno and Rafael B. Stern(参考訳) 本稿では,時系列の新しい条件密度推定器FlexCodeTSを紹介する。 FlexCodeTSはフレキシブルな非パラメトリック条件密度推定器であり、任意の回帰法に基づくことができる。 FlexCodeTSは、選択された回帰法の収束率を継承している。 したがってFlexCodeTSは、データ構造に最も適合する回帰手法を用いることで、収束を適応することができる。 経験的観点では、FlexCodeTSはシミュレーションデータと実データの両方においてNNKCDEとGARCHと比較される。 FlexCodeTSは一般的に、選択したメソッドの中で、CDE損失またはピンボール損失に応じて最高のパフォーマンスを得る。

This paper introduces FlexCodeTS, a new conditional density estimator for time series. FlexCodeTS is a flexible nonparametric conditional density estimator, which can be based on an arbitrary regression method. It is shown that FlexCodeTS inherits the rate of convergence of the chosen regression method. Hence, FlexCodeTS can adapt its convergence by employing the regression method that best fits the structure of data. From an empirical perspective, FlexCodeTS is compared to NNKCDE and GARCH in both simulated and real data. FlexCodeTS is shown to generally obtain the best performance among the selected methods according to either the CDE loss or the pinball loss.
翻訳日:2023-01-25 15:06:47 公開日:2023-01-23
# 波動関数の特殊再正規化による連続MERAの生成

Exact Renormalization of Wave Functionals yields continuous MERA ( http://arxiv.org/abs/2301.09669v1 )

ライセンス: Link先を確認
Samuel Goldman, Nima Lashkari, Robert G. Leigh, Mudassir Moosa(参考訳) 正確な再正規化群(ERG)は場の理論の形式的性質を理解する強力なツールである。 一般化されたERGスキームを波動関数の流れに適用することにより、ガウス連続多スケール再正規化アンサツェ(cMERA)のクラスを含む多数の連続ユニタリネットワークが得られる。 これらの一般化波動関数ERGスキームの新たな特徴は、紫外線状態の絡み合い構造を劇的に変化させる分散関係の修正を可能にすることである。

The exact renormalization group (ERG) is a powerful tool for understanding the formal properties of field theories. By adapting generalized ERG schemes to the flow of wavefunctionals, we obtain a large class of continuous unitary networks, a special case of which includes a class of Gaussian continuous Multi-scale Renormalization Ansatzes (cMERAs). The novel feature of these generalized wavefunctional ERG schemes is allowing for modifications of the dispersion relation, which drastically changes the entanglement structure of the ultraviolet states.
翻訳日:2023-01-25 15:06:39 公開日:2023-01-23
# 視覚認識機構を用いた物体検出の性能向上

Improving Performance of Object Detection using the Mechanisms of Visual Recognition in Humans ( http://arxiv.org/abs/2301.09667v1 )

ライセンス: Link先を確認
Amir Ghasemi, Fatemeh Mottaghian, Akram Bayat(参考訳) オブジェクト認識システムは、通常、高解像度画像で訓練され、評価される。 しかし、現実世界のアプリケーションでは、画像の解像度が低く、サイズが小さいことが一般的である。 本研究では,画像分解能の関数として,最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を最初に追跡する。 その結果,低解像度画像が認識性能に与える影響が明らかになった。 また、異なる空間周波数が認識過程における物体に関する異なる情報を伝えることを示す。 マルチレゾリューション認識システムは、オブジェクトの認識をより良くする特徴の最適な選択について、より良い洞察を与えることができる。 これは、視覚シーンのマルチスケール表現を同時に実装できる人間の視覚システムのメカニズムと似ている。 そこで本研究では,単一解像度ネットワークではなく,マルチレゾリューションオブジェクト認識フレームワークを提案する。 提案手法はPASCAL VOC2007データベース上で評価される。 実験結果から, 入力画像上での高分解能高速RCNNフレームワークの性能は, 全解像度で平均平均精度(mAP)が9.14%, フルスペクトル画像で1.2%向上し, 単分解能高速RCNNよりも優れていた。 さらに,提案モデルにより,広い空間周波数における性能の堅牢性が得られる。

Object recognition systems are usually trained and evaluated on high resolution images. However, in real world applications, it is common that the images have low resolutions or have small sizes. In this study, we first track the performance of the state-of-the-art deep object recognition network, Faster- RCNN, as a function of image resolution. The results reveals negative effects of low resolution images on recognition performance. They also show that different spatial frequencies convey different information about the objects in recognition process. It means multi-resolution recognition system can provides better insight into optimal selection of features that results in better recognition of objects. This is similar to the mechanisms of the human visual systems that are able to implement multi-scale representation of a visual scene simultaneously. Then, we propose a multi-resolution object recognition framework rather than a single-resolution network. The proposed framework is evaluated on the PASCAL VOC2007 database. The experimental results show the performance of our adapted multi-resolution Faster-RCNN framework outperforms the single-resolution Faster-RCNN on input images with various resolutions with an increase in the mean Average Precision (mAP) of 9.14% across all resolutions and 1.2% on the full-spectrum images. Furthermore, the proposed model yields robustness of the performance over a wide range of spatial frequencies.
翻訳日:2023-01-25 15:06:29 公開日:2023-01-23
# 選択的な説明: 人間の入力を説明可能なAIに活用する

Selective Explanations: Leveraging Human Input to Align Explainable AI ( http://arxiv.org/abs/2301.09656v1 )

ライセンス: Link先を確認
Vivian Lai, Yiming Zhang, Chacha Chen, Q. Vera Liao, Chenhao Tan(参考訳) 近年、説明可能なAI(XAI)アルゴリズムの膨大なコレクションが開発されているが、人間による説明の作り方や消費方法との大きなギャップについてはしばしば批判されている。 その結果、現在のXAI技術は使用が難しく、有効性が欠如していることがしばしば見出される。 本研究では,人間の説明の基本的な特性であるai説明を,受取人の選好と一致するものに基づいて,多数のモデル理由のサブセットを選択的に提示することにより,これらのギャップを解消しようとする。 人間の入力を小さなサンプルに利用して選択的な説明を生成するための一般的なフレームワークを提案する。 このフレームワークは、異なる選択目標、入力の種類などを考慮したリッチな設計空間を開きます。 事例として,意思決定支援タスクを用いて,意思決定者が決定タスクにどう関係するかに基づいて,選択的な説明を探索する。 実験1では,提案する枠組みに基づいて,より広範なパラダイムの3つのうち3つを検討する実験を行った: 実験1では,参加者に対して,オープン・リミテッドと批判的インプットのいずれでも,選択的な説明を生成するための独自のインプットを提供することを依頼する。 研究2では、類似ユーザ(アノテーション)のパネルからの入力に基づいて、参加者の選択的な説明を示す。 我々の実験は、aiへの過度な依存を減らし、aiの判断結果や主観的知覚を改善するための選択的説明の可能性を実証すると同時に、これらのポジティブな効果のいくつかを、aiの説明を補強するための自身のインプットを提供する機会に特徴づけるニュアンス付き図を描いています。 我々の研究は、人間のコミュニケーション行動にインスパイアされた新しいXAIフレームワークを提案し、AI説明と人間の生産と説明の消費をより良く整合させるための今後の作業を促進する可能性を実証している。

While a vast collection of explainable AI (XAI) algorithms have been developed in recent years, they are often criticized for significant gaps with how humans produce and consume explanations. As a result, current XAI techniques are often found to be hard to use and lack effectiveness. In this work, we attempt to close these gaps by making AI explanations selective -- a fundamental property of human explanations -- by selectively presenting a subset from a large set of model reasons based on what aligns with the recipient's preferences. We propose a general framework for generating selective explanations by leveraging human input on a small sample. This framework opens up a rich design space that accounts for different selectivity goals, types of input, and more. As a showcase, we use a decision-support task to explore selective explanations based on what the decision-maker would consider relevant to the decision task. We conducted two experimental studies to examine three out of a broader possible set of paradigms based on our proposed framework: in Study 1, we ask the participants to provide their own input to generate selective explanations, with either open-ended or critique-based input. In Study 2, we show participants selective explanations based on input from a panel of similar users (annotators). Our experiments demonstrate the promise of selective explanations in reducing over-reliance on AI and improving decision outcomes and subjective perceptions of the AI, but also paint a nuanced picture that attributes some of these positive effects to the opportunity to provide one's own input to augment AI explanations. Overall, our work proposes a novel XAI framework inspired by human communication behaviors and demonstrates its potentials to encourage future work to better align AI explanations with human production and consumption of explanations.
翻訳日:2023-01-25 15:06:07 公開日:2023-01-23
# モンテカルロ政策評価による政策反復型強化学習の収束性について

On The Convergence Of Policy Iteration-Based Reinforcement Learning With Monte Carlo Policy Evaluation ( http://arxiv.org/abs/2301.09709v1 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 強化学習における一般的な手法は、与えられた方針のモンテカルロシミュレーションからの価値関数を評価し、推定値関数を用いて、推定値関数に対して欲張りな新しい方針を得ることである。 この文脈でよく知られたオープン問題は、ポリシーの実装から得られた単一のサンプルパスから得られたデータからポリシーの値関数が推定されたときに、そのようなスキームの収束を証明することである([Sutton and Barto, 2018]の99ページ、[Tsitsiklis, 2002]の8ページを参照)。 我々は,このような政策反復方式の初見バージョンが,単純な欲望的な政策改善ではなくlookahead[silver et al., 2016 mnih et al., 2016 silver et al., 2017b]を使用する場合に,その最適方針に実際に収束することを示すことによって,オープンな問題に対する解決策を提案する。 本稿では,関数近似設定における元の開問題と関数近似設定の拡張の両方に対して,アルゴリズムから得られたポリシが関数近似誤差内の最適ポリシに近く動作することを示す。

A common technique in reinforcement learning is to evaluate the value function from Monte Carlo simulations of a given policy, and use the estimated value function to obtain a new policy which is greedy with respect to the estimated value function. A well-known longstanding open problem in this context is to prove the convergence of such a scheme when the value function of a policy is estimated from data collected from a single sample path obtained from implementing the policy (see page 99 of [Sutton and Barto, 2018], page 8 of [Tsitsiklis, 2002]). We present a solution to the open problem by showing that a first-visit version of such a policy iteration scheme indeed converges to the optimal policy provided that the policy improvement step uses lookahead [Silver et al., 2016, Mnih et al., 2016, Silver et al., 2017b] rather than a simple greedy policy improvement. We provide results both for the original open problem in the tabular setting and also present extensions to the function approximation setting, where we show that the policy resulting from the algorithm performs close to the optimal policy within a function approximation error.
翻訳日:2023-01-25 14:58:44 公開日:2023-01-23
# フレキシブルなジョブショップスケジューリング問題の2段階学習

Two-Stage Learning For the Flexible Job Shop Scheduling Problem ( http://arxiv.org/abs/2301.09703v1 )

ライセンス: Link先を確認
Wenbo Chen, Reem Khir and Pascal Van Hentenryck(参考訳) フレキシブルジョブショップスケジューリング問題(FJSP)は、製造やサービス設定で発生する重要な組合せ最適化問題である。 FJSPは2つのサブプロブレムと、タスクをマシンに割り当てる代入問題と、選択したマシン上のタスクの開始時間を決定するスケジューリング問題で構成される。 fjspインスタンスの現実的なサイズと構成の解決は、シンプルで決定論的仮定の下でも進行中の課題である。 本稿では,サプライチェーン,製造,サービス運用における必然的ランダム性と不確実性から,FJSPの高速かつ正確な近似を生成するためのディープラーニングフレームワークの可能性について検討する。 特に,fjsp決定の階層的性質を明示的にモデル化する2段階学習フレームワーク2slfjspを提案し,信頼度に着目した分岐スキームを用いて割り当て予測からスケジューリングステージの適切なインスタンスを生成し,新しい対称性を破る定式化を利用して学習可能性を向上させる。 2SL-FJSPは、FJSPベンチマークライブラリのインスタンスで評価される。 その結果、2SL-FJSPはミリ秒で高品質なソリューションを生成でき、最近論文で提案された最先端の強化学習手法と、実際に一般的に用いられている他のヒューリスティックスよりも優れていることがわかった。

The Flexible Job-shop Scheduling Problem (FJSP) is an important combinatorial optimization problem that arises in manufacturing and service settings. FJSP is composed of two subproblems, an assignment problem that assigns tasks to machines, and a scheduling problem that determines the starting times of tasks on their chosen machines. Solving FJSP instances of realistic size and composition is an ongoing challenge even under simplified, deterministic assumptions. Motivated by the inevitable randomness and uncertainties in supply chains, manufacturing, and service operations, this paper investigates the potential of using a deep learning framework to generate fast and accurate approximations for FJSP. In particular, this paper proposes a two-stage learning framework 2SLFJSP that explicitly models the hierarchical nature of FJSP decisions, uses a confidence-aware branching scheme to generate appropriate instances for the scheduling stage from the assignment predictions and leverages a novel symmetry-breaking formulation to improve learnability. 2SL-FJSP is evaluated on instances from the FJSP benchmark library. Results show that 2SL-FJSP can generate high-quality solutions in milliseconds, outperforming a state-of-the-art reinforcement learning approach recently proposed in the literature, and other heuristics commonly used in practice.
翻訳日:2023-01-25 14:58:20 公開日:2023-01-23
# 教師なし領域適応型人物再同定のための画像合成による照度変化補正

Illumination Variation Correction Using Image Synthesis For Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2301.09702v1 )

ライセンス: Link先を確認
Jiaqi Guo and Amy R. Reibman and Edward J. Delp(参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (re-ID) は、ソースドメイン内のラベル付き画像から識別情報を学習し、ターゲットドメイン内のラベルなし画像に適用することを目的としている。 多くの教師なし再同定手法の大きな問題は、照明、視点、オクルージョンといった大きなドメインのバリエーションに対してうまく機能しないことである。 本稿では,教師なしのリIDにおける照明変動に対処する合成モデルバンク(SMB)を提案する。 提案したSMBは特徴抽出のためのいくつかの畳み込みニューラルネットワーク(CNN)と距離測定のためのマハラノビス行列からなる。 それらは異なる照明条件の合成データを用いて訓練され、その相乗効果によってSMBは照明変動に対して堅牢になる。 照明強度の定量化と合成画像の品質向上を目的として,GANに基づく画像合成のための3次元バーチャルヒューマンデータセットを提案する。 実験の結果,提案したSMBは,いくつかのre-IDベンチマークにおいて,他の合成手法よりも優れていた。

Unsupervised domain adaptive (UDA) person re-identification (re-ID) aims to learn identity information from labeled images in source domains and apply it to unlabeled images in a target domain. One major issue with many unsupervised re-identification methods is that they do not perform well relative to large domain variations such as illumination, viewpoint, and occlusions. In this paper, we propose a Synthesis Model Bank (SMB) to deal with illumination variation in unsupervised person re-ID. The proposed SMB consists of several convolutional neural networks (CNN) for feature extraction and Mahalanobis matrices for distance metrics. They are trained using synthetic data with different illumination conditions such that their synergistic effect makes the SMB robust against illumination variation. To better quantify the illumination intensity and improve the quality of synthetic images, we introduce a new 3D virtual-human dataset for GAN-based image synthesis. From our experiments, the proposed SMB outperforms other synthesis methods on several re-ID benchmarks.
翻訳日:2023-01-25 14:57:58 公開日:2023-01-23
# 自己指導型学習における騒音の最適化:重要度サンプリングからノイズコントラスト推定へ

Optimizing the Noise in Self-Supervised Learning: from Importance Sampling to Noise-Contrastive Estimation ( http://arxiv.org/abs/2301.09696v1 )

ライセンス: Link先を確認
Omar Chehab and Alexandre Gramfort and Aapo Hyvarinen(参考訳) 自己監督学習(self-supervised learning)は、教師なし学習(unsupervised learning)に対する、最先端の成果を達成するための、ますます一般的なアプローチである。 一般的なアプローチは、分類タスク内のデータポイントとノイズポイントの対比から成り立っている。 包括的理論が欠落している一方で、GAN(Generative Adversarial Networks)のように、最適な雑音分布をデータ分布と同等にすべきであると広く考えられている。 我々は経験的かつ理論的にこの仮定に挑戦する。 我々は,この自己教師付きタスクをエネルギーベースモデルの推定問題として根拠とするノイズコントラスト推定(nce)に目を向ける。 これにより、ノイズ分布の最適性は、漸近分散あるいは平均二乗誤差として厳密に定義される推定器のサンプル効率と結びついている。 正規化定数が不明な特別な場合において、nceは最適なノイズがデータ分布と実際に等しい重要なサンプリング推定器の族を回復することを示す。 しかし、エネルギーが未知の一般的な場合、最適な雑音密度はフィッシャースコアに基づく補正項によって乗算されたデータ密度であることが証明される。 特に、最適なノイズ分布は、データ分布と異なり、異なるファミリーである。 いずれにせよ,最適なノイズはサンプリングが困難である可能性があり,データに等しいノイズ分布を選択することに比べ,効率性の向上は緩やかである。

Self-supervised learning is an increasingly popular approach to unsupervised learning, achieving state-of-the-art results. A prevalent approach consists in contrasting data points and noise points within a classification task: this requires a good noise distribution which is notoriously hard to specify. While a comprehensive theory is missing, it is widely assumed that the optimal noise distribution should in practice be made equal to the data distribution, as in Generative Adversarial Networks (GANs). We here empirically and theoretically challenge this assumption. We turn to Noise-Contrastive Estimation (NCE) which grounds this self-supervised task as an estimation problem of an energy-based model of the data. This ties the optimality of the noise distribution to the sample efficiency of the estimator, which is rigorously defined as its asymptotic variance, or mean-squared error. In the special case where the normalization constant only is unknown, we show that NCE recovers a family of Importance Sampling estimators for which the optimal noise is indeed equal to the data distribution. However, in the general case where the energy is also unknown, we prove that the optimal noise density is the data density multiplied by a correction term based on the Fisher score. In particular, the optimal noise distribution is different from the data distribution, and is even from a different family. Nevertheless, we soberly conclude that the optimal noise may be hard to sample from, and the gain in efficiency can be modest compared to choosing the noise distribution equal to the data's.
翻訳日:2023-01-25 14:57:40 公開日:2023-01-23
# 分散マルチエージェント周辺防御のためのグラフニューラルネットワーク

Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense ( http://arxiv.org/abs/2301.09689v1 )

ライセンス: Link先を確認
Elijah S. Lee, Lifeng Zhou, Alejandro Ribeiro, Vijay Kumar(参考訳) 本研究では,攻撃者の捕獲を最大化するために,局所的な認識と通信を行うディフェンダーに対する計算行動を求める分散マルチエージェント周辺防御の問題について検討する。 実用的な実装のための大きな課題のひとつは、大規模な問題に対して、周囲防御戦略をスケーラブルにすることだ。 この目的のために,我々はグラフニューラルネットワーク(gnns)を利用して,ディフェンダーの局所的知覚とそのコミュニケーショングラフから行動へのマッピングを学ぶ模倣学習フレームワークを開発した。 提案したGNNベースの学習ネットワークは、学習行動がエキスパートアルゴリズムによって生成されるものに近いように、一元化した専門家アルゴリズムを模倣して訓練される。 提案するネットワークはエキスパートアルゴリズムに近い性能を示し,侵入者数を増やすことにより,他のベースラインアルゴリズムよりも優れていることを示す。 我々のGNNベースのネットワークは、小規模で訓練されており、大規模ケースに一般化することができる。 学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。

In this work, we study the problem of decentralized multi-agent perimeter defense that asks for computing actions for defenders with local perceptions and communications to maximize the capture of intruders. One major challenge for practical implementations is to make perimeter defense strategies scalable for large-scale problem instances. To this end, we leverage graph neural networks (GNNs) to develop an imitation learning framework that learns a mapping from defenders' local perceptions and their communication graph to their actions. The proposed GNN-based learning network is trained by imitating a centralized expert algorithm such that the learned actions are close to that generated by the expert algorithm. We demonstrate that our proposed network performs closer to the expert algorithm and is superior to other baseline algorithms by capturing more intruders. Our GNN-based network is trained at a small scale and can be generalized to large-scale cases. We run perimeter defense games in scenarios with different team sizes and configurations to demonstrate the performance of the learned network.
翻訳日:2023-01-25 14:57:07 公開日:2023-01-23
# ノイズ並列データアライメント

Noisy Parallel Data Alignment ( http://arxiv.org/abs/2301.09685v1 )

ライセンス: Link先を確認
Ruoyu Xie, Antonios Anastasopoulos(参考訳) 現在の自然言語処理における現在進行中の課題は、その主要な進歩がいかにリソース豊富な言語を不釣り合いに好んでいるかであり、多くの非リソース言語は残されている。 モデルのトレーニングと評価に必要なリソースが不足しているため、現代の言語技術の多くは、絶滅危惧言語、ローカル言語、非標準言語を処理できないか信頼できない。 光文字認識(OCR)は、絶滅危惧言語文書を機械可読データに変換するためにしばしば用いられる。 しかし、このようなocr出力は一般に騒がしく、ほとんどの単語アライメントモデルはそのような騒がしい条件下では動作しない。 本研究では,既存の単語レベルのアライメントモデルをノイズの多い設定で検討し,ノイズの多いデータに対してより堅牢にすることを目的とする。 複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により、最先端のニューラルネットワークアライメントモデルにおけるアライメントエラー率を59.6%まで削減できる。

An ongoing challenge in current natural language processing is how its major advancements tend to disproportionately favor resource-rich languages, leaving a significant number of under-resourced languages behind. Due to the lack of resources required to train and evaluate models, most modern language technologies are either nonexistent or unreliable to process endangered, local, and non-standardized languages. Optical character recognition (OCR) is often used to convert endangered language documents into machine-readable data. However, such OCR output is typically noisy, and most word alignment models are not built to work under such noisy conditions. In this work, we study the existing word-level alignment models under noisy settings and aim to make them more robust to noisy data. Our noise simulation and structural biasing method, tested on multiple language pairs, manages to reduce the alignment error rate on a state-of-the-art neural-based alignment model up to 59.6%.
翻訳日:2023-01-25 14:56:37 公開日:2023-01-23
# 動的カップリングを有するハイブリッド量子熱機械

Hybrid quantum thermal machines with dynamical couplings ( http://arxiv.org/abs/2301.09684v1 )

ライセンス: Link先を確認
Fabio Cavaliere, Luca Razzoli, Matteo Carrega, Giuliano Benenti, Maura Sassetti(参考訳) 量子熱機械は、電力、冷却、暖房などの有用なタスクを実行することができる。 本研究では,複数のタスクを同時に実行できるハイブリッド熱機械について考察する。 3つの熱浴に結合した量子高調波発振器であり、2つのカップリングを周期的に周期的に駆動する3端子型量子熱機械の最適動作条件を特徴付ける。 本研究では, 熱機械を純粋モードとハイブリッドモードの両方で効率的に動作させ, 駆動周波数を変えるだけで異なる動作モードを切り替えることができることを示す。 さらに,出力-入力信号および差分ゲインの観点から,提案手法を高性能トランジスタとして使用することもできる。 その汎用性と可変性のため、量子技術における工学的熱力学的タスクや熱管理にも関心があるかもしれない。

Quantum thermal machines can perform useful tasks, such as delivering power, cooling, or heating. In this work, we consider hybrid thermal machines, that can execute more than one task simultaneously. We characterize and find optimal working conditions for a three-terminal quantum thermal machine, where the working medium is a quantum harmonic oscillator, coupled to three heat baths, with two of the couplings driven periodically in time. We show that it is possible to operate the thermal machine efficiently, in both pure and hybrid modes, and to switch between different operational modes simply by changing the driving frequency. Moreover, the proposed setup can also be used as a high-performance transistor, in terms of output--to--input signal and differential gain. Due to its versatility and tunability, our model may be of interest for engineering thermodynamic tasks and for thermal management in quantum technologies.
翻訳日:2023-01-25 14:56:16 公開日:2023-01-23
# 有限絡み合いを持つ臨界ダイナミクスの普遍性

Universality of critical dynamics with finite entanglement ( http://arxiv.org/abs/2301.09681v1 )

ライセンス: Link先を確認
Nicholas E. Sherman, Alexander Avdoshkin, Joel E. Moore(参考訳) 系が量子臨界点を通ると、量子キブル・ズレーク機構は生成される励起の数やエネルギーなどの量の普遍的な予測を行う。 このメカニズムは現在、新興量子コンピュータやエミュレータの臨界指数を得るために使われており、場合によってはマトリックス生成状態(MPS)の数値研究と比較することができる。 しかし、このメカニズムは、多くの量子臨界点の忠実な記述に必要な絡み合いエントロピーの発散が実験や古典計算によって完全には捉えられない場合に修正される。 本研究では, 量子系の臨界近傍における低エネルギーダイナミクスが, MPS を例として記述した等角不変臨界点を用いて, 有限エンタングルメントによってどのように修正されるかを検討する。 キブル・ズレーク法における有限な絡み合いの効果は、動的に決定される2つの長さスケールの比の無次元スケーリング関数と、絡み合い制限によって決定される。 数値的には、まず有限結合次元 $\chi$ におけるダイナミクスが選択したアルゴリズムとは独立であることを確認し、次いで横磁場イジングモデルと3状態ポッツモデルにおけるスイープのスケーリング崩壊を得る。 この結果は、時間依存的臨界現象における絡み合いによる正確な役割を確立し、量子状態の準備と量子状態の古典的シミュレーションに直接的な意味を持つ。

When a system is swept through a quantum critical point, the quantum Kibble-Zurek mechanism makes universal predictions for quantities such as the number and energy of excitations produced. This mechanism is now being used to obtain critical exponents on emerging quantum computers and emulators, which in some cases can be compared to Matrix Product State (MPS) numerical studies. However, the mechanism is modified when the divergence of entanglement entropy required for a faithful description of many quantum critical points is not fully captured by the experiment or classical calculation. In this work, we study how low-energy dynamics of quantum systems near criticality are modified by finite entanglement, using conformally invariant critical points described approximately by an MPS as an example. We derive that the effect of finite entanglement on a Kibble-Zurek process is captured by a dimensionless scaling function of the ratio of two length scales, one determined dynamically and one by the entanglement restriction. Numerically we confirm first that dynamics at finite bond dimension $\chi$ is independent of the algorithm chosen, then obtain scaling collapses for sweeps in the transverse field Ising model and the 3-state Potts model. Our result establishes the precise role played by entanglement in time-dependent critical phenomena and has direct implications for quantum state preparation and classical simulation of quantum states.
翻訳日:2023-01-25 14:56:01 公開日:2023-01-23
# 量子ヘビーテールバンド

Quantum Heavy-tailed Bandits ( http://arxiv.org/abs/2301.09680v1 )

ライセンス: Link先を確認
Yulian Wu, Chaowen Guan, Vaneet Aggarwal and Di Wang(参考訳) 本稿では,重み付き報酬と量子報酬オラクルを用いたマルチアームバンディット(MAB)と確率線形バンディット(SLB)について検討する。 ここでは、報酬に対する有界/準ガウス分布を仮定する以前の量子包帯に関する研究とは異なり、報酬の分布は、ある$v\in (0,1]$に対して(1+v)$-第モーメントしか持たないというより弱い仮定の下で量子包帯問題を研究する。 まず,重み付きバンディットに対する後悔的な改善を達成するために,量子モンテカルロ平均推定器に基づく重み付き分布に対する新しい量子平均推定器を提案する。 量子平均推定器に基づき、量子重み付きMABおよびSLBに着目し、$Tilde{O}(T^{\frac{1-v}{1+v}})と$T$(T^{\frac{1-v}{1+v}})と$T$(T^{\frac{1+v}})の両方の問題に対するアッパー信頼境界(UCB)フレームワークに基づく量子アルゴリズムを提案する。 最後に,実験は理論結果をサポートし,提案手法の有効性を示す。

In this paper, we study multi-armed bandits (MAB) and stochastic linear bandits (SLB) with heavy-tailed rewards and quantum reward oracle. Unlike the previous work on quantum bandits that assumes bounded/sub-Gaussian distributions for rewards, here we investigate the quantum bandits problem under a weaker assumption that the distributions of rewards only have bounded $(1+v)$-th moment for some $v\in (0,1]$. In order to achieve regret improvements for heavy-tailed bandits, we first propose a new quantum mean estimator for heavy-tailed distributions, which is based on the Quantum Monte Carlo Mean Estimator and achieves a quadratic improvement of estimation error compared to the classical one. Based on our quantum mean estimator, we focus on quantum heavy-tailed MAB and SLB and propose quantum algorithms based on the Upper Confidence Bound (UCB) framework for both problems with $\Tilde{O}(T^{\frac{1-v}{1+v}})$ regrets, polynomially improving the dependence in terms of $T$ as compared to classical (near) optimal regrets of $\Tilde{O}(T^{\frac{1}{1+v}})$, where $T$ is the number of rounds. Finally, experiments also support our theoretical results and show the effectiveness of our proposed methods.
翻訳日:2023-01-25 14:55:37 公開日:2023-01-23
# 量子計算と情報

Notes on Quantum Computation and Information ( http://arxiv.org/abs/2301.09679v1 )

ライセンス: Link先を確認
Raghav G. Jha(参考訳) 量子ゲート,回路,アルゴリズム,定理,誤り訂正など,量子コンピューティングと情報の基礎を議論し,qiskitプログラムのコレクションと興味のある読者のためのエクササイズを提供する。

We discuss fundamentals of quantum computing and information - quantum gates, circuits, algorithms, theorems, error correction, and provide collection of QISKIT programs and exercises for the interested reader.
翻訳日:2023-01-25 14:55:05 公開日:2023-01-23
# モジュール型機械学習ソリューション開発に向けて - メリットとトレードオフ

Towards Modular Machine Learning Solution Development: Benefits and Trade-offs ( http://arxiv.org/abs/2301.09753v1 )

ライセンス: Link先を確認
Samiyuru Menik, Lakshmish Ramaswamy(参考訳) 機械学習技術は、様々な領域で大きな能力を示している。 近代ビジネスの成功において重要な役割を担っている。 しかし、機械学習技術の採用には多くの未解決の可能性がある。 ユニークなビジネス問題を解決するカスタム機械学習ソリューションを開発するコストは、機械学習技術の採用を遠ざかる主な要因である。 現在の機械学習アプリケーションで普及しているモノリシックな性質は、効率的でコスト効率のよい機械学習ソリューション開発の方法にあることを認識しています。 本研究では,モジュール型機械学習ソリューションのメリットを検討し,モジュール型機械学習ソリューションがモノリシックな機械学習ソリューションの主要なソリューションエンジニアリング上の制限を克服する方法について論じる。 モジュール型とモノリシックな機械学習ソリューションのトレードオフを,テキストベースとイメージベースという3つのディープラーニング問題を通じて分析する。 実験結果から,モジュール型機械学習ソリューションは,モノリシックな機械学習ソリューションが許さない方法で,パフォーマンスとデータアドバンテージを獲得しながら,モジュラリティのソリューション工学的優位性を享受する有望な可能性を見出した。

Machine learning technologies have demonstrated immense capabilities in various domains. They play a key role in the success of modern businesses. However, adoption of machine learning technologies has a lot of untouched potential. Cost of developing custom machine learning solutions that solve unique business problems is a major inhibitor to far-reaching adoption of machine learning technologies. We recognize that the monolithic nature prevalent in today's machine learning applications stands in the way of efficient and cost effective customized machine learning solution development. In this work we explore the benefits of modular machine learning solutions and discuss how modular machine learning solutions can overcome some of the major solution engineering limitations of monolithic machine learning solutions. We analyze the trade-offs between modular and monolithic machine learning solutions through three deep learning problems; one text based and the two image based. Our experimental results show that modular machine learning solutions have a promising potential to reap the solution engineering advantages of modularity while gaining performance and data advantages in a way the monolithic machine learning solutions do not permit.
翻訳日:2023-01-25 14:48:37 公開日:2023-01-23
# ニューラルネットワークのトポロジ的理解

Topological Understanding of Neural Networks, a survey ( http://arxiv.org/abs/2301.09742v1 )

ライセンス: Link先を確認
Tushar Pandey(参考訳) 一般にブラックボックスとして扱われるニューラルネットワークの内部構造を考察する。 最も簡単で理解しやすいことは、バイナリ分類を見て、ニューラルネットワークのアプローチを理解しようとすることです。 本稿では,アクティベーション関数の違い,それらに関連するネットワークアーキテクチャの種類,経験的データについて検討する。 我々は、興味深い観察と実際のデータセットのプロセスを検証するためにアイデアを構築する可能性を見出します。 我々は、3つの異なる方向から期待できる実験を提案している。

We look at the internal structure of neural networks which is usually treated as a black box. The easiest and the most comprehensible thing to do is to look at a binary classification and try to understand the approach a neural network takes. We review the significance of different activation functions, types of network architectures associated to them, and some empirical data. We find some interesting observations and a possibility to build upon the ideas to verify the process for real datasets. We suggest some possible experiments to look forward to in three different directions.
翻訳日:2023-01-25 14:48:21 公開日:2023-01-23
# DODEM: 安全な産業用IoT分析に向けた敵攻撃に対する二重抑止機構

DODEM: DOuble DEfense Mechanism Against Adversarial Attacks Towards Secure Industrial Internet of Things Analytics ( http://arxiv.org/abs/2301.09740v1 )

ライセンス: Link先を確認
Onat Gungor, Tajana Rosing, Baris Aksanli(参考訳) 産業用IoT(Industrial Internet of Things、I-IoT)は、産業用機器からのデータを監視し収集するためのデバイス、センサー、ネットワーク機器のコラボレーションである。 機械学習(ML)メソッドはこのデータを使用して、人間の介入を最小限に抑えて高いレベルの決定を行う。 データ駆動予測メンテナンス(PDM)は、産業資産の最適なメンテナンススケジュールを見つけるためのMLベースのI-IoTアプリケーションである。 これらのML手法の性能は、敵がデータを乱してMLモデルに送信し予測性能を低下させる敵攻撃によって深刻な脅威となる可能性がある。 入力データの摂動がモデルのパフォーマンスにどの程度影響するかによってロバスト性が測定される場合、モデルがこれらの攻撃に対して頑健である必要がある。 したがって、敵攻撃からこれらのモデルを保護する効果的な防御機構が必要である。 本研究では,I-IoT環境における敵攻撃の検出と軽減のための二重防御機構を提案する。 まず,与えられたサンプルに敵意攻撃があるかどうかを,新規検出アルゴリズムを用いて検出する。 そして,本アルゴリズムの結果に基づいて,攻撃的あるいは正常なインスタンスをマークし,敵の再訓練や標準訓練を選択し,二次防衛層を提供する。 攻撃があった場合、敵のリトレーニングはより堅牢なモデルを提供し、標準のトレーニングを通常のサンプルに適用します。 攻撃が起こるかどうか分からないため、我々の適応的なメカニズムはデータの不規則な変化を考慮できます。 その結果, モデルロバストネスを64.6%, 52%向上できる2重防衛戦略は, 標準的, 対角的リトレーニングに比べて, 極めて効率的であることが示唆された。

Industrial Internet of Things (I-IoT) is a collaboration of devices, sensors, and networking equipment to monitor and collect data from industrial operations. Machine learning (ML) methods use this data to make high-level decisions with minimal human intervention. Data-driven predictive maintenance (PDM) is a crucial ML-based I-IoT application to find an optimal maintenance schedule for industrial assets. The performance of these ML methods can seriously be threatened by adversarial attacks where an adversary crafts perturbed data and sends it to the ML model to deteriorate its prediction performance. The models should be able to stay robust against these attacks where robustness is measured by how much perturbation in input data affects model performance. Hence, there is a need for effective defense mechanisms that can protect these models against adversarial attacks. In this work, we propose a double defense mechanism to detect and mitigate adversarial attacks in I-IoT environments. We first detect if there is an adversarial attack on a given sample using novelty detection algorithms. Then, based on the outcome of our algorithm, marking an instance as attack or normal, we select adversarial retraining or standard training to provide a secondary defense layer. If there is an attack, adversarial retraining provides a more robust model, while we apply standard training for regular samples. Since we may not know if an attack will take place, our adaptive mechanism allows us to consider irregular changes in data. The results show that our double defense strategy is highly efficient where we can improve model robustness by up to 64.6% and 52% compared to standard and adversarial retraining, respectively.
翻訳日:2023-01-25 14:48:13 公開日:2023-01-23
# トポロジカル構造は学習におけるディープニューラルネットワークの成功を予測する

Topological Structure is Predictive of Deep Neural Network Success in Learning ( http://arxiv.org/abs/2301.09734v1 )

ライセンス: Link先を確認
Christopher Griffin and Trevor Karn and Benjamin Apple(参考訳) 機械学習は現代科学の基本的なツールとなっているが、その限界はまだ完全には理解されていない。 簡単な子どものゲームを用いて、基礎となるトレーニングデータのトポロジ的構造がディープニューラルネットワーク(DNN)分類器のデータの分類学習能力に劇的な影響を及ぼすことを示した。 次に,この玩具モデルから得られた知見を2つの物理データセット(素粒子物理学から1つ,音響学から1つ)に適用する。 それらのトポロジ的構造における単純さは、DNNがこれらのデータセットで操作する能力の大部分を、完全に解釈可能なトポロジ的分類器が、DNNとほぼ同等に動作可能であることを示すことによって説明できる。

Machine learning has become a fundamental tool in modern science, yet its limitations are still not fully understood. Using a simple children's game, we show that the topological structure of the underlying training data can have a dramatic effect on the ability of a deep neural network (DNN) classifier to learn to classify data. We then take insights obtained from this toy model and apply them to two physical data sets (one from particle physics and one from acoustics), which are known to be amenable to classification by DNN's. We show that the simplicity in their topological structure explains the majority of the DNN's ability to operate on these data sets by showing that fully interpretable topological classifiers are able to perform nearly as well as their DNN counterparts.
翻訳日:2023-01-25 14:47:44 公開日:2023-01-23
# リアルタイムサーモグラフィーを用いた低侵襲生体組織高密度熱物性モデリング

Minimally Invasive Live Tissue High-fidelity Thermophysical Modeling using Real-time Thermography ( http://arxiv.org/abs/2301.09733v1 )

ライセンス: Link先を確認
Hamza El-Kebir, Junren Ran, Yongseok Lee, Leonardo P. Chamorro, Martin Ostoja-Starzewski, Richard Berlin, Gabriela M. Aguiluz Cornejo, Enrico Benedetti, Pier C. Giulianotti, Joseph Bentsman(参考訳) 生体組織におけるエネルギーベース手術のための新しい熱力学的パラメータ推定フレームワークを提案する。 この枠組みは、組織に対する熱的損傷の正確な予測と電気外科的手順の損傷意識計画を可能にする組織特異的熱力学をリアルタイムに推定する問題に対処する。 本手法は,熱拡散率などの基本的な熱力学情報を提供し,熱緩和時間と熱源のモデルを得ることができ,実時間制御双曲熱力学モデルが得られる。 後者は電気外科的作用のモデル化に必要な有限熱伝搬時間であり、そこではプローブの動き速度が組織内の熱伝播の速度を超えることがしばしばある。 このアプローチはサーモグラフィ者のフィードバックと電気外科用鉛筆のパワーレベルと位置の知識のみに依存しており、組織-プローブ相互作用の高忠実性モデルを得るために通常の電気外科にほんの少しの調整しか行わない。 本手法は最小限の侵襲性を有し,その場で行うことができる。 本手法をまずブタの筋肉組織に基づくシミュレーションデータに適用し,その精度を検証し,次いで生体内肝組織に適用し,その結果と比較した。 この比較により,maxwell-cattaneoモデルのパラメータ化により,電気的衝撃に対する熱力学的組織応答のリアルタイムな再現性が現在より顕著に高まることが示された。 生体と死組織の熱力学の違いについても考察した。

We present a novel thermodynamic parameter estimation framework for energy-based surgery on live tissue, with direct applications to tissue characterization during electrosurgery. This framework addresses the problem of estimating tissue-specific thermodynamics in real-time, which would enable accurate prediction of thermal damage impact to the tissue and damage-conscious planning of electrosurgical procedures. Our approach provides basic thermodynamic information such as thermal diffusivity, and also allows for obtaining the thermal relaxation time and a model of the heat source, yielding in real-time a controlled hyperbolic thermodynamics model. The latter accounts for the finite thermal propagation time necessary for modeling of the electrosurgical action, in which the probe motion speed often surpasses the speed of thermal propagation in the tissue operated on. Our approach relies solely on thermographer feedback and a knowledge of the power level and position of the electrosurgical pencil, imposing only very minor adjustments to normal electrosurgery to obtain a high-fidelity model of the tissue-probe interaction. Our method is minimally invasive and can be performed in situ. We apply our method first to simulated data based on porcine muscle tissue to verify its accuracy and then to in vivo liver tissue, and compare the results with those from the literature. This comparison shows that parameterizing the Maxwell--Cattaneo model through the framework proposed yields a noticeably higher fidelity real-time adaptable representation of the thermodynamic tissue response to the electrosurgical impact than currently available. A discussion on the differences between the live and the dead tissue thermodynamics is also provided.
翻訳日:2023-01-25 14:47:26 公開日:2023-01-23
# ピアツーピアフェデレーション学習におけるバックドアアタック

Backdoor Attacks in Peer-to-Peer Federated Learning ( http://arxiv.org/abs/2301.09732v1 )

ライセンス: Link先を確認
Gokberk Yar, Cristina Nita-Rotaru, Alina Oprea(参考訳) 異なるグラフトポロジとデータセット上でのピアツーピア連合学習システムにおけるバックドア攻撃について検討する。 その結果,クリーンデータの精度を2%以上低下させることなく,攻撃成功率42%のバックドア攻撃を行うのに十分な攻撃ノードは5%に過ぎなかった。 また,攻撃者が少数のノードをクラッシュさせて攻撃を増幅できることを実証する。 我々は,集中型フェデレーション学習の文脈で提案した防衛効果を評価し,ピアツーピア環境では効果がないことを示す。 最後に、ノードによって訓練されたピアやローカルモデルから受信したモデル更新に対して、異なるクリッピング規範を適用して攻撃を緩和する防御法を提案する。

We study backdoor attacks in peer-to-peer federated learning systems on different graph topologies and datasets. We show that only 5% attacker nodes are sufficient to perform a backdoor attack with 42% attack success without decreasing the accuracy on clean data by more than 2%. We also demonstrate that the attack can be amplified by the attacker crashing a small number of nodes. We evaluate defenses proposed in the context of centralized federated learning and show they are ineffective in peer-to-peer settings. Finally, we propose a defense that mitigates the attacks by applying different clipping norms to the model updates received from peers and local model trained by a node.
翻訳日:2023-01-25 14:47:01 公開日:2023-01-23
# 正準相関解析を用いた長期安定筋電図分類

Long-term stable Electromyography classification using Canonical Correlation Analysis ( http://arxiv.org/abs/2301.09729v1 )

ライセンス: Link先を確認
Elisa Donati, Simone Benatti, Enea Ceolini, and Giacomo Indiveri(参考訳) 表面筋電図(sEMG)信号の復号化に基づく手動作の識別は、補綴器やヒューマン・マシン・インタフェース(HMI)の制御において確立されたアプローチである。 しかしながら、このアプローチが十分に制御された実験環境で達成した有望な結果にもかかわらず、長期的な実世界のアプリケーションシナリオへのデプロイは、いくつかの課題によって妨げられている。 最も重要な課題の1つは、デコードシステムを再トレーニングすることなく、複数日間にわたって高いemgデータ分類性能を維持することである。 この性能低下は、主に電極シフト、筋肉アーチファクト、疲労、ユーザ適応、皮膚-電極界面の問題によって引き起こされる高いEMG変動に起因する。 本稿では,数日間にわたってEMG分類性能を安定させ,補綴装置の長期制御を行う,正準相関解析(CCA)に基づく新しい統計手法を提案する。 複数日取得データセット間の相関を最大化することにより,CCAが標準分類器の性能低下を劇的に低減できることを示す。 実験初日のみに取得したEMGデータに基づいて訓練された分類器の性能が, 長期間にわたって発生するEMGデータの変動を補正し, 少数のジェスチャーから得られたデータに対するCAA変換を用いて, 90%の相対的精度を維持していることを示す。 このアプローチは,大規模データセットや複数ないし定期的なトレーニングセッションの必要性を排除し,従来のパターン認識に基づくアプローチのユーザビリティを損なう。

Discrimination of hand gestures based on the decoding of surface electromyography (sEMG) signals is a well-establish approach for controlling prosthetic devices and for Human-Machine Interfaces (HMI). However, despite the promising results achieved by this approach in well-controlled experimental conditions, its deployment in long-term real-world application scenarios is still hindered by several challenges. One of the most critical challenges is maintaining high EMG data classification performance across multiple days without retraining the decoding system. The drop in performance is mostly due to the high EMG variability caused by electrodes shift, muscle artifacts, fatigue, user adaptation, or skin-electrode interfacing issues. Here we propose a novel statistical method based on canonical correlation analysis (CCA) that stabilizes EMG classification performance across multiple days for long-term control of prosthetic devices. We show how CCA can dramatically decrease the performance drop of standard classifiers observed across days, by maximizing the correlation among multiple-day acquisition data sets. Our results show how the performance of a classifier trained on EMG data acquired only of the first day of the experiment maintains 90% relative accuracy across multiple days, compensating for the EMG data variability that occurs over long-term periods, using the CCA transformation on data obtained from a small number of gestures. This approach eliminates the need for large data sets and multiple or periodic training sessions, which currently hamper the usability of conventional pattern recognition based approaches
翻訳日:2023-01-25 14:46:49 公開日:2023-01-23
# 効果的なクラスマージンを用いたロングテール検出

Long-tail Detection with Effective Class-Margins ( http://arxiv.org/abs/2301.09724v1 )

ライセンス: Link先を確認
Jang Hyun Cho, Philipp Kr\"ahenb\"uhl(参考訳) 大規模オブジェクト検出とインスタンスセグメンテーションは、厳しいデータ不均衡に直面します。 粒度の細かいオブジェクトクラスは、データセットに現れる頻度を少なくします。 しかし、テスト時には、最も頻繁なクラスだけでなく、すべてのクラスでうまく機能する検出器が期待されます。 本稿では, 長絡検出問題の理論的理解について述べる。 未知のテストセットにおける平均平均精度評価基準が,長尾の物体検出訓練セットにおけるマージンに基づくバイナリ分類誤差とどのように結びついているかを示す。 マージンに基づくバイナリ分類の誤差を,新たなサロゲート目標である \textbf{ effective class-margin loss} (ecm) を用いて最適化する。 ECMの損失は単純で理論上よく動機付けられており、LVIS v1ベンチマークにおける他のヒューリスティックな結果よりも幅広いアーキテクチャや検出器で優れている。 コードは \url{https://github.com/janghyuncho/ecm-loss} で入手できる。

Large-scale object detection and instance segmentation face a severe data imbalance. The finer-grained object classes become, the less frequent they appear in our datasets. However, at test-time, we expect a detector that performs well for all classes and not just the most frequent ones. In this paper, we provide a theoretical understanding of the long-trail detection problem. We show how the commonly used mean average precision evaluation metric on an unknown test set is bound by a margin-based binary classification error on a long-tailed object detection training set. We optimize margin-based binary classification error with a novel surrogate objective called \textbf{Effective Class-Margin Loss} (ECM). The ECM loss is simple, theoretically well-motivated, and outperforms other heuristic counterparts on LVIS v1 benchmark over a wide range of architecture and detectors. Code is available at \url{https://github.com/janghyuncho/ECM-Loss}.
翻訳日:2023-01-25 14:46:22 公開日:2023-01-23
# 数学、単語問題、常識、人工知能

Mathematics, word problems, common sense, and artificial intelligence ( http://arxiv.org/abs/2301.09723v1 )

ライセンス: Link先を確認
Ernest Davis(参考訳) 本稿では,基本知識とコモンセンス推論を組み合わせた単語問題を解くために,現在の人工知能(AI)技術の能力と限界について論じる。 既存のAIシステムは、これらを確実に解決できない。 我々は、ai自然言語技術を用いて開発された3つのアプローチをレビューする: 解を直接出力し、問題を解くコンピュータプログラムを出力し、自動定理検証器に入力可能な形式化された表現を出力する。 これらのシステムを評価するために開発されたベンチマークと実験的研究についてレビューする。 我々は、これらの制限が純粋に数学研究のためのai技術を開発する上で重要であるかどうかは明らかでないが、数学の応用において重要であり、人間が書いた数学的内容を読み書きできるプログラムを開発する上で重要であると論じている。

The paper discusses the capacities and limitations of current artificial intelligence (AI) technology to solve word problems that combine elementary knowledge with commonsense reasoning. No existing AI systems can solve these reliably. We review three approaches that have been developed, using AI natural language technology: outputting the answer directly, outputting a computer program that solves the problem, and outputting a formalized representation that can be input to an automated theorem verifier. We review some benchmarks that have been developed to evaluate these systems and some experimental studies. We argue that it is not clear whether these kinds of limitations will be important in developing AI technology for pure mathematical research, but that they will be important in applications of mathematics, and may well be important in developing programs capable of reading and understanding mathematical content written by humans.
翻訳日:2023-01-25 14:46:08 公開日:2023-01-23
# PRIMEQA:最先端多言語質問応答研究・開発のためのプライムレポジトリ

PRIMEQA: The Prime Repository for State-of-the-Art MultilingualQuestion Answering Research and Development ( http://arxiv.org/abs/2301.09715v1 )

ライセンス: Link先を確認
Avirup Sil, Jaydeep Sen, Bhavani Iyer, Martin Franz, Kshitij Fadnis, Mihaela Bornea, Sara Rosenthal, Scott McCarley, Rong Zhang, Vishwajeet Kumar, Yulong Li, Md Arafat Sultan, Riyaz Bhat, Radu Florian, Salim Roukos(参考訳) 質問回答(QA)の分野は、大規模な事前学習言語モデルの出現、リーダーボードによる新しいリアルなベンチマークデータセット、レトリバーや読者のような重要なコンポーネントのための新しいアルゴリズムのおかげで、近年顕著な進歩を遂げている。 本稿では,1ストップでオープンソースのQAレポジトリであるPRIMEQAを紹介し,QAの再検討を民主化し,最先端(SOTA)QAメソッドの複製を容易にすることを目的とする。 PRIMEQAは、検索や読解といったコアQA機能と、質問生成などの補助機能をサポートし、フロントエンドアプリケーションの構築、pub-licベンチマーク上のSOTAメソッドの複製、既存のメソッドの拡張など、さまざまなユースケースのためのエンドツーエンドツールキットとして設計されている。 PRIMEQAはhttps://github.com/primeqa.comで入手できる。

The field of Question Answering (QA) has made remarkable progress in recent years, thanks to the advent of large pre-trained language models, newer realistic benchmark datasets with leaderboards, and novel algorithms for key components such as retrievers and readers. In this paper, we introduce PRIMEQA: a one-stop and open-source QA repository with an aim to democratize QA re-search and facilitate easy replication of state-of-the-art (SOTA) QA methods. PRIMEQA supports core QA functionalities like retrieval and reading comprehension as well as auxiliary capabilities such as question generation.It has been designed as an end-to-end toolkit for various use cases: building front-end applications, replicating SOTA methods on pub-lic benchmarks, and expanding pre-existing methods. PRIMEQA is available at : https://github.com/primeqa.
翻訳日:2023-01-25 14:45:53 公開日:2023-01-23
# 論説のトピックオントロジー

Topic Ontologies for Arguments ( http://arxiv.org/abs/2301.09759v1 )

ライセンス: Link先を確認
Yamen Ajjour, Johannes Kiesel, Benno Stein, and Martin Potthast(参考訳) スタンス分類のような多くの計算議論タスクはトピックに依存しており、これらのタスクに対するアプローチの有効性は、それらがテストされているものと同じトピックから議論に基づいて訓練されたかどうかに大きく依存する。 では、研究者がアプローチを訓練するトピックは何か? 本論文は,45の論題コーパスを総合的に評価し,話題の包括的調査に貢献する。 評価のために、議論トピックオントロジーを構築するための第一歩を踏み出し、世界経済フォーラム、ウィキペディアの議論トピックリスト、ディベートペディアの3つの様々な権威ソースをコンサルティングします。 オーソリティ・ソースとコーパスのトピックセットを比較した結果,公開オンライン・フォラで頻繁に議論されるコーパスのトピックは,情報源によってよくカバーされていることがわかった。 しかし、資料からの他のトピックは、現在のコーパスによってカバーされていないため、コーパス建設の興味深い方向性が明らかになっている。

Many computational argumentation tasks, like stance classification, are topic-dependent: the effectiveness of approaches to these tasks significantly depends on whether the approaches were trained on arguments from the same topics as those they are tested on. So, which are these topics that researchers train approaches on? This paper contributes the first comprehensive survey of topic coverage, assessing 45 argument corpora. For the assessment, we take the first step towards building an argument topic ontology, consulting three diverse authoritative sources: the World Economic Forum, the Wikipedia list of controversial topics, and Debatepedia. Comparing the topic sets between the authoritative sources and corpora, our analysis shows that the corpora topics-which are mostly those frequently discussed in public online fora - are covered well by the sources. However, other topics from the sources are less extensively covered by the corpora of today, revealing interesting future directions for corpus construction.
翻訳日:2023-01-25 14:38:14 公開日:2023-01-23
# 都市空力のための低高度空間容量評価のための深層強化学習手法

A deep reinforcement learning approach to assess the low-altitude airspace capacity for urban air mobility ( http://arxiv.org/abs/2301.09758v1 )

ライセンス: Link先を確認
Asal Mehditabrizi, Mahdi Samadzad, Sina Sabzekar(参考訳) 都市空気移動は、低高度空域を利用して高速で安全な旅行手段を提供することを目的とした新しい交通手段である。 この目的は、多数の垂直離着陸航空車両に対して、安全かつ効率的な飛行経路の割り当てを保証できる新しい飛行規制の実施なしには達成できない。 このようなルールは、計画目的のために低高度の空域の有効容量を推定することを可能にする。 パスプランニングは、多数のUAVが衝突の危険性に直面することなく、同時に空域を飛行できる都市空力において重要な課題である。 都市空気移動は新しい概念であるため、当局は依然として都市空気移動に適用可能な新しい飛行規則の見直しに取り組んでいる。 本研究では,深い強化学習手法と深い決定論的政策勾配アルゴリズムを用いて,自律型UAV経路計画フレームワークを提案する。 目的は、自力で訓練されたUAVを使用して、任意の環境において最も短い時間で目的地に到達することである。 動的または静的な障害との衝突を避け、パスに存在する事前の許可ゾーンに入るのを避ける必要がある。 報酬関数はトレーニングプロセスにおける決定要因である。 これにより、2つの異なる報酬関数組成を比較し、選択された組成をピソンでRLアルゴリズムを符号化してUAVを訓練する。 最後に、数値シミュレーションにより、空域の有効容量を推定できる様々なシナリオにおけるUAVの成功率を調査した。

Urban air mobility is the new mode of transportation aiming to provide a fast and secure way of travel by utilizing the low-altitude airspace. This goal cannot be achieved without the implementation of new flight regulations which can assure safe and efficient allocation of flight paths to a large number of vertical takeoff/landing aerial vehicles. Such rules should also allow estimating the effective capacity of the low-altitude airspace for planning purposes. Path planning is a vital subject in urban air mobility which could enable a large number of UAVs to fly simultaneously in the airspace without facing the risk of collision. Since urban air mobility is a novel concept, authorities are still working on the redaction of new flight rules applicable to urban air mobility. In this study, an autonomous UAV path planning framework is proposed using a deep reinforcement learning approach and a deep deterministic policy gradient algorithm. The objective is to employ a self-trained UAV to reach its destination in the shortest possible time in any arbitrary environment by adjusting its acceleration. It should avoid collisions with any dynamic or static obstacles and avoid entering prior permission zones existing on its path. The reward function is the determinant factor in the training process. Thus, two different reward function compositions are compared and the chosen composition is deployed to train the UAV by coding the RL algorithm in python. Finally, numerical simulations investigated the success rate of UAVs in different scenarios providing an estimate of the effective airspace capacity.
翻訳日:2023-01-25 14:37:59 公開日:2023-01-23
# 無限正方格子の包装色数は15である

The Packing Chromatic Number of the Infinite Square Grid is 15 ( http://arxiv.org/abs/2301.09757v1 )

ライセンス: Link先を確認
Bernardo Subercaseaux and Marijn J. H. Heule(参考訳) ここで、頂点は$\{1, \ldots, k\}$ から割り当てられ、共通色に割り当てられたすべての2つの頂点は$c \in \{1, \ldots, k\}$ 以上の距離でなければならない(標準的なグラフ彩色では$$$ である)。 漸進的な研究の連続にもかかわらず、無限平方格子の包装色数を決定することは2002年の導入以来未解決の問題のままである。 我々はこの数字を15と証明することで探索を成す。 我々は,この問題に対する最もよく知られた手法をおよそ2桁改善することで,この結果を得る。 パフォーマンスを向上する最も重要なテクニックは、パッキングカラー化のための新しい、驚くほど効果的な命題エンコーディングである。 さらに,代替対称性破砕法を開発した。 どちらの新しいテクニックも既存のテクニックよりも複雑であるため、信頼するには検証されたアプローチが必要である。 両手法を不満足の証明に含め、信頼されたコアを直接符号化の正しさに還元する。

A packing $k$-coloring is a natural variation on the standard notion of graph $k$-coloring, where vertices are assigned numbers from $\{1, \ldots, k\}$, and any two vertices assigned a common color $c \in \{1, \ldots, k\}$ need to be at a distance greater than $c$ (as opposed to $1$, in standard graph colorings). Despite a sequence of incremental work, determining the packing chromatic number of the infinite square grid has remained an open problem since its introduction in 2002. We culminate the search by proving this number to be 15. We achieve this result by improving the best-known method for this problem by roughly two orders of magnitude. The most important technique to boost performance is a novel, surprisingly effective propositional encoding for packing colorings. Additionally, we developed an alternative symmetry-breaking method. Since both new techniques are more complex than existing techniques for this problem, a verified approach is required to trust them. We include both techniques in a proof of unsatisfiability, reducing the trusted core to the correctness of the direct encoding.
翻訳日:2023-01-25 14:37:37 公開日:2023-01-23
# エクストリームラーニングマシンを用いた地震マグニチュードとb値予測モデル

Earthquake Magnitude and b value prediction model using Extreme Learning Machine ( http://arxiv.org/abs/2301.09756v1 )

ライセンス: Link先を確認
Gunbir Singh Baveja and Jaspreet Singh(参考訳) 地震予知は、この極めて不確実な災害の発生が予測される数十年間、困難な研究領域であった。 本稿では,パラメトリック特徴と非パラメトリック特徴を計算し,非パラメトリック特徴をパラメトリック特徴を用いて計算した。 グテンベルク・リヒター法(英語版)、総再発量、地震エネルギー放出量を用いて8ドルの地震特性を計算した。 さらに,適切な特徴を選択するために,最大妥当性や最大冗長性などの基準が適用された。 これらの特徴は他の機能とともに、エクストリームラーニングマシン(ELM)回帰モデルの入力として使用された。 Assam-Guwahati地域のマグニチュード・アンド・タイムデータを用いて、このモデルを用いてマグニチュード予測を行った。 テスト精度とテスト速度は、モードを評価するパラメータとしてRoot Mean Squared Error (RMSE)を用いて計算された。 結果が確認したように、EMMは従来のSupport Vector Machinesよりもはるかに高速なトレーニングとテスト速度(最大1000倍高速)でスケーラビリティを示している。 RMSEのテストは0.097ドル程度だった。 モデルのロバスト性をさらにテストするために、カリフォルニアからのマグニチュードタイムデータを使用して地震計を計算し、elmに供給し、その後、アッサム=グワハティ地域でテストした。 このモデルは堅牢であることが証明されており、災害対応と管理の主要な部分であり続けているため、早期警告システムで実装することができる。

Earthquake prediction has been a challenging research area for many decades, where the future occurrence of this highly uncertain calamity is predicted. In this paper, several parametric and non-parametric features were calculated, where the non-parametric features were calculated using the parametric features. $8$ seismic features were calculated using Gutenberg-Richter law, the total recurrence, and the seismic energy release. Additionally, criterions such as Maximum Relevance and Maximum Redundancy were applied to choose the pertinent features. These features along with others were used as input for an Extreme Learning Machine (ELM) Regression Model. Magnitude and time data of $5$ decades from the Assam-Guwahati region were used to create this model for magnitude prediction. The Testing Accuracy and Testing Speed were computed taking the Root Mean Squared Error (RMSE) as the parameter for evaluating the mode. As confirmed by the results, ELM shows better scalability with much faster training and testing speed (up to a thousand times faster) than traditional Support Vector Machines. The testing RMSE came out to be around $0.097$. To further test the model's robustness -- magnitude-time data from California was used to calculate the seismic indicators which were then fed into an ELM and then tested on the Assam-Guwahati region. The model proves to be robust and can be implemented in early warning systems as it continues to be a major part of Disaster Response and management.
翻訳日:2023-01-25 14:37:16 公開日:2023-01-23
# GyroFlow+:ジャイロスコープによる教師なし深部ホログラフィーと光フロー学習

GyroFlow+: Gyroscope-Guided Unsupervised Deep Homography and Optical Flow Learning ( http://arxiv.org/abs/2301.10018v1 )

ライセンス: Link先を確認
Haipeng Li and Kunming Luo and Bing Zeng and Shuaicheng Liu(参考訳) 既存のホモグラフィと光学フロー法は、明るさや勾配定数などの基本的な仮定が壊れているため、霧、雨、夜、雪などの困難な場面では誤りである。 本稿では,ジャイロスコープをホモグラフィと光フロー学習に融合させる教師なし学習手法を提案する。 具体的には、まずジャイロスコープの読みをジャイロフィールドと呼ばれる動き場に変換する。 第2に,ジャイロ場から抽出した背景運動と光流を融合させる自己誘導核融合モジュール(SGF)を設計し,移動の詳細に集中するようネットワークを誘導する。 一方,ジャイロ場とsgfの中間結果を組み合わせてホモグラフィを生成するホモグラフィデコーダモジュール(hd)を提案する。 私たちの知る限りでは、これはジャイロスコープデータと画像コンテンツを融合して、ディープホモグラフィとオプティカルフロー学習の両方を行う、初めてのディープラーニングフレームワークです。 提案手法を検証するために,規則的かつ困難な場面をカバーする新しいデータセットを提案する。 実験により,本手法は,通常シーンと挑戦シーンの両方において,最先端の手法よりも優れていた。

Existing homography and optical flow methods are erroneous in challenging scenes, such as fog, rain, night, and snow because the basic assumptions such as brightness and gradient constancy are broken. To address this issue, we present an unsupervised learning approach that fuses gyroscope into homography and optical flow learning. Specifically, we first convert gyroscope readings into motion fields named gyro field. Second, we design a self-guided fusion module (SGF) to fuse the background motion extracted from the gyro field with the optical flow and guide the network to focus on motion details. Meanwhile, we propose a homography decoder module (HD) to combine gyro field and intermediate results of SGF to produce the homography. To the best of our knowledge, this is the first deep learning framework that fuses gyroscope data and image content for both deep homography and optical flow learning. To validate our method, we propose a new dataset that covers regular and challenging scenes. Experiments show that our method outperforms the state-of-the-art methods in both regular and challenging scenes.
翻訳日:2023-01-25 13:35:53 公開日:2023-01-23
# 不完全歌詞からのメロディ生成のための深い注意に基づくアライメントネットワーク

Deep Attention-Based Alignment Network for Melody Generation from Incomplete Lyrics ( http://arxiv.org/abs/2301.10015v1 )

ライセンス: Link先を確認
Gurunath Reddy M, Zhe Zhang, Yi Yu, Florian Harscoet, Simon Canales, Suhua Tang(参考訳) 本研究では,不完全な歌詞を入力として歌詞とメロディを自動的に予測することを目的とした,注意に基づくアライメントネットワークを提案する。 最も重要なのは、不完全な歌詞(fewキーワード)が与えられた場合、より深いニューラルネットワークの歌詞対メロディネットをエンコーダ-デコーダ方法でトレーニングすることで、歌詞対メロディのペアを予測できることだ。 注意機構を利用して、予測された歌詞を歌詞からメロディ生成時のメロディに合わせる。 定性的・定量的評価指標により,本手法は,不完全なシード歌詞を付与された新曲を構成するための適切な歌詞と対応するメロディを生成できることがわかった。

We propose a deep attention-based alignment network, which aims to automatically predict lyrics and melody with given incomplete lyrics as input in a way similar to the music creation of humans. Most importantly, a deep neural lyrics-to-melody net is trained in an encoder-decoder way to predict possible pairs of lyrics-melody when given incomplete lyrics (few keywords). The attention mechanism is exploited to align the predicted lyrics with the melody during the lyrics-to-melody generation. The qualitative and quantitative evaluation metrics reveal that the proposed method is indeed capable of generating proper lyrics and corresponding melody for composing new songs given a piece of incomplete seed lyrics.
翻訳日:2023-01-25 13:35:00 公開日:2023-01-23
# Lexi: UI言語の自己監督型学習

Lexi: Self-Supervised Learning of the UI Language ( http://arxiv.org/abs/2301.10165v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Shweti Mahajan, Kushal Arora, Chitta Baral, Oriana Riva(参考訳) 人間はインストラクションマニュアルやハウツーガイドを読むことでアプリケーションのユーザーインターフェイス(UI)を操作することができる。 テキストに加えて、UIスクリーンショットのようなビジュアルコンテンツや、テキストで参照されたアプリケーションアイコンの画像が含まれる。 このデータを利用してUI画面とそのコンポーネントの汎用的な視覚言語表現を学ぶ方法について検討する。 これらの表現は、アクセシビリティ、音声ナビゲーション、タスク自動化など、多くの実アプリケーションで有用である。 以前のUI表現モデルはUIメタデータ(UIツリーとアクセシビリティラベル)に依存していた。 このような依存関係を回避し,テキストの豊かさやコンテキストの感度など,ui画面のユニークな機能を扱うように設計された,事前学習されたビジョンと言語モデルであるlexiを提案する。 Lexiのトレーニングには、114kのUIイメージとそれらの機能の記述を組み合わせたUICaptionデータセットをキュレートします。 UIアクションの付与、命令ベースのUIイメージ検索、接地参照式、UIエンティティ認識の4つのタスクでLexiを評価する。

Humans can learn to operate the user interface (UI) of an application by reading an instruction manual or how-to guide. Along with text, these resources include visual content such as UI screenshots and images of application icons referenced in the text. We explore how to leverage this data to learn generic visio-linguistic representations of UI screens and their components. These representations are useful in many real applications, such as accessibility, voice navigation, and task automation. Prior UI representation models rely on UI metadata (UI trees and accessibility labels), which is often missing, incompletely defined, or not accessible. We avoid such a dependency, and propose Lexi, a pre-trained vision and language model designed to handle the unique features of UI screens, including their text richness and context sensitivity. To train Lexi we curate the UICaption dataset consisting of 114k UI images paired with descriptions of their functionality. We evaluate Lexi on four tasks: UI action entailment, instruction-based UI image retrieval, grounding referring expressions, and UI entity recognition.
翻訳日:2023-01-25 12:59:14 公開日:2023-01-23
# 教育のための人工知能手法の積極的かつリアクティブな取り組み--レビュー

Proactive and Reactive Engagement of Artificial Intelligence Methods for Education: A Review ( http://arxiv.org/abs/2301.10231v1 )

ライセンス: Link先を確認
Sruti Mallik, Ahana Gangopadhyay(参考訳) 品質教育は、国連総会が特定した17の持続可能な開発目標(SDG)の1つであり、人工知能(AI)駆動のツールと技術の導入によって大きな恩恵を受ける。 必要なインフラ、デジタルデータ、一般社会認識の同時ブームは、aied(artificial intelligence for education)分野における大規模な研究と開発の取り組みを促している。 本稿では,人工知能,機械学習,深層学習手法が,学生,教育者,管理スタッフにどのように活用されているかを検討する。 我々はこれを、新しい分類アプローチのレンズを通して行う。 我々は,AIによる学習プロセスへの関与を,前向きな計画段階における学生の入学,コーススケジューリング等から,リアクティブな実行段階における知識提供,パフォーマンス評価等まで検討する。 我々は、過去20年間に発行された194のオリジナル研究論文の代表グループ(2003年~2022年)を用いて、AIの教育における積極的かつリアクティブな関与の下での主要な研究方向性を概説し、分析する。 本稿では,提案する解法におけるパラダイムシフト,すなわち,この期間に使用されるデータとアルゴリズムの選択について論じる。 新型コロナウイルス(COVID-19)のパンデミックが、この期間の終わりにどのように教育の状況に挑戦し、作り直したかをさらに掘り下げる。 最後に、教育に人工知能を採用する際の既存の制限を指摘し、今後の方向性を振り返る。

Quality education, one of the seventeen sustainable development goals (SDGs) identified by the United Nations General Assembly, stands to benefit enormously from the adoption of artificial intelligence (AI) driven tools and technologies. The concurrent boom of necessary infrastructure, digitized data and general social awareness has propelled massive research and development efforts in the artificial intelligence for education (AIEd) sector. In this review article, we investigate how artificial intelligence, machine learning and deep learning methods are being utilized to support students, educators and administrative staff. We do this through the lens of a novel categorization approach. We consider the involvement of AI-driven methods in the education process in its entirety - from students admissions, course scheduling etc. in the proactive planning phase to knowledge delivery, performance assessment etc. in the reactive execution phase. We outline and analyze the major research directions under proactive and reactive engagement of AI in education using a representative group of 194 original research articles published in the past two decades i.e., 2003 - 2022. We discuss the paradigm shifts in the solution approaches proposed, i.e., in the choice of data and algorithms used over this time. We further dive into how the COVID-19 pandemic challenged and reshaped the education landscape at the fag end of this time period. Finally, we pinpoint existing limitations in adopting artificial intelligence for education and reflect on the path forward.
翻訳日:2023-01-25 12:41:40 公開日:2023-01-23
# クエリ提案のためのキーワード埋め込み

Keyword Embeddings for Query Suggestion ( http://arxiv.org/abs/2301.08006v2 )

ライセンス: Link先を確認
Jorge Gab\'in, M. Eduardo Ares and Javier Parapar(参考訳) 今日では、検索エンジンのユーザは、クエリの提案に頼って初期入力を改善している。 現在のシステムは、ユーザのクエリに対する語彙適応やスペル修正を推奨するのに非常に適しています。 しかし、ユーザのクエリから意味論的に関連のあるキーワードを提案するのに苦労することが多い。 詳細なクエリの構築は、法的検索や学術検索などのタスクにおいて重要である。 これらのシナリオでは、クエリの定式化中にユーザを導くためにキーワード提案メソッドが不可欠である。 本稿では,科学文献を用いたキーワード提案タスクのための2つの新しいモデルを提案する。 我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。 また,これらのモデルとともに,学術論文にキーワードがどのように現れるかを活用した,特別に調整された負のサンプリング手法も提示する。 既知の検索シナリオとアドホックな検索シナリオの両方に従って,ランキングに基づく評価手法を考案する。 最後に,現状語と文の埋め込みモデルに対する提案を,タスクのベースラインよりも大幅に改善したことを示す。

Nowadays, search engine users commonly rely on query suggestions to improve their initial inputs. Current systems are very good at recommending lexical adaptations or spelling corrections to users' queries. However, they often struggle to suggest semantically related keywords given a user's query. The construction of a detailed query is crucial in some tasks, such as legal retrieval or academic search. In these scenarios, keyword suggestion methods are critical to guide the user during the query formulation. This paper proposes two novel models for the keyword suggestion task trained on scientific literature. Our techniques adapt the architecture of Word2Vec and FastText to generate keyword embeddings by leveraging documents' keyword co-occurrence. Along with these models, we also present a specially tailored negative sampling approach that exploits how keywords appear in academic publications. We devise a ranking-based evaluation methodology following both known-item and ad-hoc search scenarios. Finally, we evaluate our proposals against the state-of-the-art word and sentence embedding models showing considerable improvements over the baselines for the tasks.
翻訳日:2023-01-24 16:53:06 公開日:2023-01-23
# 新視点音響合成

Novel-View Acoustic Synthesis ( http://arxiv.org/abs/2301.08730v2 )

ライセンス: Link先を確認
Changan Chen, Alexander Richard, Roman Shapovalov, Vamsi Krishna Ithapu, Natalia Neverova, Kristen Grauman, Andrea Vedaldi(参考訳) 我々は,nvas(new-view acoustic synthesis)タスクについて紹介する。音源の視点で観測された視覚と音を考えると,対象とする視点からそのシーンの音を合成できるのか? 入力された音声・視覚的手がかりを分析し,空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。 このタスクをベンチマークするために、我々は2つの大規模マルチビューオーディオ視覚データセットを収集した。 提案手法は,空間的手がかりの推論に成功し,両データセットに忠実な音声を合成することを示す。 我々の知る限り、この研究は、AR/VRからアート、デザインに至るまで、エキサイティングな可能性のある、新しい視点の音響合成タスクを解決するための、最初の定式化、データセット、アプローチを表している。 この研究に縛られずに、我々は、新しいビュー合成の未来は、ビデオからのマルチモーダル学習にあると信じている。

We introduce the novel-view acoustic synthesis (NVAS) task: given the sight and sound observed at a source viewpoint, can we synthesize the sound of that scene from an unseen target viewpoint? We propose a neural rendering approach: Visually-Guided Acoustic Synthesis (ViGAS) network that learns to synthesize the sound of an arbitrary point in space by analyzing the input audio-visual cues. To benchmark this task, we collect two first-of-their-kind large-scale multi-view audio-visual datasets, one synthetic and one real. We show that our model successfully reasons about the spatial cues and synthesizes faithful audio on both datasets. To our knowledge, this work represents the very first formulation, dataset, and approach to solve the novel-view acoustic synthesis task, which has exciting potential applications ranging from AR/VR to art and design. Unlocked by this work, we believe that the future of novel-view synthesis is in multi-modal learning from videos.
翻訳日:2023-01-24 16:42:25 公開日:2023-01-23
# 大学院研究インターンのためのロボットの深層学習に関する研究

A Survey of research in Deep Learning for Robotics for Undergraduate research interns ( http://arxiv.org/abs/2301.08283v2 )

ライセンス: Link先を確認
Narayanan PP and Palacode Narayana Iyer Anantharaman(参考訳) ここ数年、ロボティクスベースのソリューションのユースケースは、工場のフロアから国内アプリケーションへと多様化してきた。 並行して、Deep Learningアプローチは、コンピュータビジョン、自然言語処理、音声処理などの従来のテクニックを置き換え、堅牢な結果を提供している。 本研究の目的は,「Deep Learning as applied to Robotics」の幅広い領域における多くのインターンシッププロジェクトを調査し,学生インターンを志すための簡潔な視点を示すことである。 本稿では,ロボット研究所サマー・スコラーズ(RISS, CMU)による研究成果について調査する。 特に、コアロボットの問題を解決するためにディープラーニングを使用する論文や、ロボットのソリューションに焦点を当てています。 われわれは、ロボット研究所(CMU)のインターンシップ・アスピラントに特に役立つと信じている。

Over the last several years, use cases for robotics based solutions have diversified from factory floors to domestic applications. In parallel, Deep Learning approaches are replacing traditional techniques in Computer Vision, Natural Language Processing, Speech processing, etc. and are delivering robust results. Our goal is to survey a number of research internship projects in the broad area of 'Deep Learning as applied to Robotics' and present a concise view for the benefit of aspiring student interns. In this paper, we survey the research work done by Robotic Institute Summer Scholars (RISS), CMU. We particularly focus on papers that use deep learning to solve core robotic problems and also robotic solutions. We trust this would be useful particularly for internship aspirants for the Robotics Institute, CMU
翻訳日:2023-01-24 16:42:08 公開日:2023-01-23
# 資源制約デバイスに対するCNNモデルの複雑さの最適化:QRS検出ケーススタディ

Optimising complexity of CNN models for resource constrained devices: QRS detection case study ( http://arxiv.org/abs/2301.09232v1 )

ライセンス: Link先を確認
Ahsan Habib, Chandan Karmakar and John Yearwood(参考訳) 従来のDLモデルは複雑でリソースが空いているため、(医療用)物のインターネット(IoT、IoMT)アプリケーションを効率と複雑さのトレードオフのバランスをとるために注意する必要がある。 最近のIoTソリューションは、そのような複雑さのためにディープラーニングメソッドの使用を避ける傾向があり、むしろ古典的なフィルタベースの方法が一般的である。 資源制約環境に適したポストプロセッシングなど,他の不可欠なソリューションコンポーネントを活用することで,浅いcnnモデルが十分なパフォーマンスを提供することができると仮定する。 IoMTアプリケーションコンテキストでは、ECG信号からのQRS検出とRピークのローカライゼーションを事例として、CNNモデルと後処理の複雑さを変化させて、対象とするリソース制限環境に適した組み合わせのセットを特定した。 我々の知る限りでは、ターゲットのリソース容量に合わせて、CNNモデルの複雑さを漸進的に増加させ、後処理の強度を活用することで、デプロイ可能な構成を見つけることが、その最初の方法です。 その結果, 対象制約環境のプロファイル化に使用可能な8-32層CNNにおいて, 浅層2層CNNは90 % F1スコア以上を達成でき, スコアは引き続き改善され続けていることがわかった。 その結果、目標性能特性とリソース(計算能力、メモリ)の制約が既知の最適DLソリューションを設計できることが示唆された。

Traditional DL models are complex and resource hungry and thus, care needs to be taken in designing Internet of (medical) things (IoT, or IoMT) applications balancing efficiency-complexity trade-off. Recent IoT solutions tend to avoid using deep-learning methods due to such complexities, and rather classical filter-based methods are commonly used. We hypothesize that a shallow CNN model can offer satisfactory level of performance in combination by leveraging other essential solution-components, such as post-processing that is suitable for resource constrained environment. In an IoMT application context, QRS-detection and R-peak localisation from ECG signal as a case study, the complexities of CNN models and post-processing were varied to identify a set of combinations suitable for a range of target resource-limited environments. To the best of our knowledge, finding a deploy-able configuration, by incrementally increasing the CNN model complexity, as required to match the target's resource capacity, and leveraging the strength of post-processing, is the first of its kind. The results show that a shallow 2-layer CNN with a suitable post-processing can achieve $>$90\% F1-score, and the scores continue to improving for 8-32 layer CNNs, which can be used to profile target constraint environment. The outcome shows that it is possible to design an optimal DL solution with known target performance characteristics and resource (computing capacity, and memory) constraints.
翻訳日:2023-01-24 14:29:53 公開日:2023-01-23
# GP-NASアンサンブル:NAS性能予測モデル

GP-NAS-ensemble: a model for NAS Performance Prediction ( http://arxiv.org/abs/2301.09231v1 )

ライセンス: Link先を確認
Kunlong Chen, Liu Yang, Yitian Chen, Kunjin Chen, Yidan Xu, Lujun Li(参考訳) アーキテクチャの性能を評価するのに多くの時間を要するため、ニューラルネットワークサーチ(NAS)の適用をトレーニングすることなく、与えられたモデルアーキテクチャのパフォーマンスを見積もることは非常に重要である。 本稿では,GP-NASアンサンブルと呼ばれる新しいNASフレームワークを提案する。 gp-nasモデルにいくつかの改良を加え,アンサンブル学習の利点を生かした。 本手法はcvpr2022第2軽量nasチャレンジ性能予測トラックで第2位である。

It is of great significance to estimate the performance of a given model architecture without training in the application of Neural Architecture Search (NAS) as it may take a lot of time to evaluate the performance of an architecture. In this paper, a novel NAS framework called GP-NAS-ensemble is proposed to predict the performance of a neural network architecture with a small training dataset. We make several improvements on the GP-NAS model to make it share the advantage of ensemble learning methods. Our method ranks second in the CVPR2022 second lightweight NAS challenge performance prediction track.
翻訳日:2023-01-24 14:29:26 公開日:2023-01-23
# セキュアで効率的なプライベート推論のためのディープニューラルネットワークの線形化学習

Learning to Linearize Deep Neural Networks for Secure and Efficient Private Inference ( http://arxiv.org/abs/2301.09254v1 )

ライセンス: Link先を確認
Souvik Kundu, Shunlin Lu, Yuke Zhang, Jacqueline Liu, Peter A. Beerel(参考訳) 既存のディープニューラルネットワークにおける多数のReLU非線形演算は、レイテンシ効率の良いプライベート推論(PI)に不適である。 既存のReLU操作を減らす技術は、しばしば手作業とかなりの精度を犠牲にする。 本稿では,まず非線形層のrelu感度を計測し,その同定に要する時間的作業の軽減を図る。 この感度に基づいて、所定のReLU予算に対して、各レイヤ毎のReLUカウントを自動的に割り当て、各レイヤのアクティベーションマップのReLUロケーションを決定し、非常に少ないReLUでモデルをトレーニングし、レイテンシと通信効率のよいPIを出力する3段階のトレーニング手法であるSENetを提案する。 各種データセット上での複数のモデルによる実験評価では,ReLUの削減と,既存の代替モデルと比較して分類精度の向上がSENetの優れた性能を示している。 特にSENetは、同じ精度で、最大で2倍のReLUを必要とするモデルを生成することができる。 同様のReLU予算のために、SENetはCIFAR-100で評価された分類精度を約2.32%改善したモデルが得られる。

The large number of ReLU non-linearity operations in existing deep neural networks makes them ill-suited for latency-efficient private inference (PI). Existing techniques to reduce ReLU operations often involve manual effort and sacrifice significant accuracy. In this paper, we first present a novel measure of non-linearity layers' ReLU sensitivity, enabling mitigation of the time-consuming manual efforts in identifying the same. Based on this sensitivity, we then present SENet, a three-stage training method that for a given ReLU budget, automatically assigns per-layer ReLU counts, decides the ReLU locations for each layer's activation map, and trains a model with significantly fewer ReLUs to potentially yield latency and communication efficient PI. Experimental evaluations with multiple models on various datasets show SENet's superior performance both in terms of reduced ReLUs and improved classification accuracy compared to existing alternatives. In particular, SENet can yield models that require up to ~2x fewer ReLUs while yielding similar accuracy. For a similar ReLU budget SENet can yield models with ~2.32% improved classification accuracy, evaluated on CIFAR-100.
翻訳日:2023-01-24 14:22:22 公開日:2023-01-23
# CircNet: 中心検出による3次元点雲のメッシュ化

CircNet: Meshing 3D Point Clouds with Circumcenter Detection ( http://arxiv.org/abs/2301.09253v1 )

ライセンス: Link先を確認
Huan Lei, Ruitao Leng, Liang Zheng, Hongdong Li(参考訳) 3次元点雲を三角形メッシュに再構成することは、計算幾何学と表面再構成の重要な問題である。 点雲三角測量は入力点にエッジ情報を提供することでこの問題を解決する。 頂点補間は関与しないので、表面の鋭い詳細を保存することは有益である。 三角測量における学習に基づく手法を利用すると、既存の手法では候補三角形の完全な組み合わせを列挙する。 本稿では,三角形と円心の双対性を利用して,円心を検知して点クラウド三角測量を実現するディープニューラルネットワークを提案する。 具体的には,各点の近傍空間を分割するために複数のアンカープリエントを導入する。 次にニューラルネットワークが学習し、アンカーの指導のもと、周辺施設の存在と位置を予測する。 検出した円周に双対な三角形を抽出して原始メッシュを形成し、そこからエッジマニフォールドメッシュを単純な後処理で生成する。 既存の学習に基づく三角法とは異なり,提案手法は三角形の組み合わせと局所表面パラメータ化の包括列挙をバイパスする。 我々は,水密面と開面面の両方の顕著なデータセットに対して,本手法の有効性,一般化,ロバスト性を検証した。 コードとトレーニングされたモデルはhttps://github.com/Ruitao-L/CircNetで提供されている。

Reconstructing 3D point clouds into triangle meshes is a key problem in computational geometry and surface reconstruction. Point cloud triangulation solves this problem by providing edge information to the input points. Since no vertex interpolation is involved, it is beneficial to preserve sharp details on the surface. Taking advantage of learning-based techniques in triangulation, existing methods enumerate the complete combinations of candidate triangles, which is both complex and inefficient. In this paper, we leverage the duality between a triangle and its circumcenter, and introduce a deep neural network that detects the circumcenters to achieve point cloud triangulation. Specifically, we introduce multiple anchor priors to divide the neighborhood space of each point. The neural network then learns to predict the presences and locations of circumcenters under the guidance of those anchors. We extract the triangles dual to the detected circumcenters to form a primitive mesh, from which an edge-manifold mesh is produced via simple post-processing. Unlike existing learning-based triangulation methods, the proposed method bypasses an exhaustive enumeration of triangle combinations and local surface parameterization. We validate the efficiency, generalization, and robustness of our method on prominent datasets of both watertight and open surfaces. The code and trained models are provided at https://github.com/Ruitao-L/CircNet.
翻訳日:2023-01-24 14:22:02 公開日:2023-01-23
# 混雑帯域:短期リセットによる最適ルーティング

Congested Bandits: Optimal Routing via Short-term Resets ( http://arxiv.org/abs/2301.09251v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Kush Bhatia, Sreenivas Gollapudi, Kostas Kollias(参考訳) トラフィックルーティングプラットフォームでは、ユーザに推奨するルートの選択は、これらのルートの混雑に依存する。 そこで我々は,過去の$$$Delta$のタイムステップにおいて,各腕の報酬が演奏された回数に依存するという,混雑バンドの問題を紹介した。 この過去のアクションの履歴への依存は、アルゴリズムの現在の選択が将来のペイオフにも影響を及ぼす動的システムへとつながり、そのためにはアルゴリズムが必要となる。 本研究では,マルチアームバンディット(mab)設定と文脈バンディット設定における混雑を考慮した定式化について線形報酬を用いて検討した。 マルチアーム設定のために,UCBスタイルのアルゴリズムを提案し,そのポリシーの後悔は$\tilde{O}(\sqrt{K \Delta T})$であることを示す。 線形文脈帯域設定では、反復最小二乗プランナーに基づくアルゴリズムは、ポリシー後悔を$\tilde{O}(\sqrt{dT} + \Delta)$とする。 実験的な観点からは、シミュレーション研究を通じてアルゴリズムの非回帰特性を補足する。

For traffic routing platforms, the choice of which route to recommend to a user depends on the congestion on these routes -- indeed, an individual's utility depends on the number of people using the recommended route at that instance. Motivated by this, we introduce the problem of Congested Bandits where each arm's reward is allowed to depend on the number of times it was played in the past $\Delta$ timesteps. This dependence on past history of actions leads to a dynamical system where an algorithm's present choices also affect its future pay-offs, and requires an algorithm to plan for this. We study the congestion aware formulation in the multi-armed bandit (MAB) setup and in the contextual bandit setup with linear rewards. For the multi-armed setup, we propose a UCB style algorithm and show that its policy regret scales as $\tilde{O}(\sqrt{K \Delta T})$. For the linear contextual bandit setup, our algorithm, based on an iterative least squares planner, achieves policy regret $\tilde{O}(\sqrt{dT} + \Delta)$. From an experimental standpoint, we corroborate the no-regret properties of our algorithms via a simulation study.
翻訳日:2023-01-24 14:21:44 公開日:2023-01-23
# 一般化の視点からのアクティブ3次元物体検出の探索

Exploring Active 3D Object Detection from a Generalization Perspective ( http://arxiv.org/abs/2301.09249v1 )

ライセンス: Link先を確認
Yadan Luo, Zhuoxiao Chen, Zijian Wang, Xin Yu, Zi Huang, Mahsa Baktashmotlagh(参考訳) LiDARベースの3Dオブジェクト検出における高アノテーションコストを軽減するため、アクティブラーニングは、モデル性能を損なうことなく、少量のラベルなしデータをアノテートするように選択する、有望なソリューションである。 しかし,本研究では,不確実性と多様性に基づくアクティブ・ラーニング・ポリシーは,ポイント・クラウド・インフォメーションとボックスレベルのアノテーションコストのトレードオフのバランスが取れないため,3d検出タスクに適用しても有効ではないことが示唆された。 この制限を克服するために,我々のフレームワーク Crb for point cloud acquisition - label conciseness}, feature representativeness and geometry balance の3つの新しい基準を共同で検討した。 理論的解析により,提案基準は選択された部分集合の限界分布と未確認テスト集合の先行分布とを一致させ,一般化誤差の上限を最小化することを示した。 KITTI と Waymo の2つのベンチマーク 3D オブジェクト検出データセットにおいて,その有効性と適用性を検証するため,1段目 (\textit{i.e.}, \textsc{Second}) と2段目 (Pv-rcnn) の2つの3D検出器 (Pv-rcnn) の2つの実験を行った。 実験によると、提案手法は既存のアクティブな学習戦略より優れており、それぞれ境界ボックスと点クラウドのアノテーションを1\%と8\%で完全に教師付きのパフォーマンスを達成する。 ソースコード:https://github.com/Luoyadan/CRB-active-3Ddet。

To alleviate the high annotation cost in LiDAR-based 3D object detection, active learning is a promising solution that learns to select only a small portion of unlabeled data to annotate, without compromising model performance. Our empirical study, however, suggests that mainstream uncertainty-based and diversity-based active learning policies are not effective when applied in the 3D detection task, as they fail to balance the trade-off between point cloud informativeness and box-level annotation costs. To overcome this limitation, we jointly investigate three novel criteria in our framework Crb for point cloud acquisition - label conciseness}, feature representativeness and geometric balance, which hierarchically filters out the point clouds of redundant 3D bounding box labels, latent features and geometric characteristics (e.g., point cloud density) from the unlabeled sample pool and greedily selects informative ones with fewer objects to annotate. Our theoretical analysis demonstrates that the proposed criteria align the marginal distributions of the selected subset and the prior distributions of the unseen test set, and minimizes the upper bound of the generalization error. To validate the effectiveness and applicability of \textsc{Crb}, we conduct extensive experiments on the two benchmark 3D object detection datasets of KITTI and Waymo and examine both one-stage (\textit{i.e.}, \textsc{Second}) and two-stage 3D detectors (i.e., Pv-rcnn). Experiments evidence that the proposed approach outperforms existing active learning strategies and achieves fully supervised performance requiring $1\%$ and $8\%$ annotations of bounding boxes and point clouds, respectively. Source code: https://github.com/Luoyadan/CRB-active-3Ddet.
翻訳日:2023-01-24 14:21:23 公開日:2023-01-23
# NeuroAI: ニューラルネットワークへの神経多様性の導入

Towards NeuroAI: Introducing Neuronal Diversity into Artificial Neural Networks ( http://arxiv.org/abs/2301.09245v1 )

ライセンス: Link先を確認
Feng-Lei Fan, Yingxin Li, Hanchuan Peng, Tieyong Zeng, Fei Wang(参考訳) 歴史を通じて、人工知能、特に人工知能ニューラルネットワークの開発は、畳み込みニューラルネットワークの先駆的な研究である新認知論のインスピレーションなど、脳の深い理解にオープンであり、常にインスピレーションを受けてきた。 新興分野の動機:neuroai: 膨大な量の神経科学知識は、より強力な能力を持つネットワークを内在させることで、次世代のaiを触媒するのに役立つ。 私たちが知っているように、ヒトの脳は多数の形態的、機能的に異なるニューロンを持ち、人工ニューラルネットワークは単一のニューロンタイプで構築されている。 ヒトの脳では、神経の多様性はあらゆる生物学的知的行動に有効である。 人工ネットワークは人間の脳のミニチュアであるため、効率性、解釈可能性、記憶などの人工ネットワークの本質的な問題に対処する上で、神経多様性を導入することは価値がある。 本プライマーでは,まず生物ニューロンの多様性と情報伝達・処理の特徴について論じる。 次に,人工ネットワークのための新しいニューロンの設計に関する研究について概説する。 次に、ニューロンの多様性が人工ネットワークや重要な分野における模範的応用に何をもたらすかについて議論する。 最後に,ニューロaiの可能性を探るために,神経細胞多様性の課題と今後の方向性について論じる。

Throughout history, the development of artificial intelligence, particularly artificial neural networks, has been open to and constantly inspired by the increasingly deepened understanding of the brain, such as the inspiration of neocognitron, which is the pioneering work of convolutional neural networks. Per the motives of the emerging field: NeuroAI, a great amount of neuroscience knowledge can help catalyze the next generation of AI by endowing a network with more powerful capabilities. As we know, the human brain has numerous morphologically and functionally different neurons, while artificial neural networks are almost exclusively built on a single neuron type. In the human brain, neuronal diversity is an enabling factor for all kinds of biological intelligent behaviors. Since an artificial network is a miniature of the human brain, introducing neuronal diversity should be valuable in terms of addressing those essential problems of artificial networks such as efficiency, interpretability, and memory. In this Primer, we first discuss the preliminaries of biological neuronal diversity and the characteristics of information transmission and processing in a biological neuron. Then, we review studies of designing new neurons for artificial networks. Next, we discuss what gains can neuronal diversity bring into artificial networks and exemplary applications in several important fields. Lastly, we discuss the challenges and future directions of neuronal diversity to explore the potential of NeuroAI.
翻訳日:2023-01-24 14:20:46 公開日:2023-01-23
# ストリームシーケンスタギングのための効率的なエンコーダ

Efficient Encoders for Streaming Sequence Tagging ( http://arxiv.org/abs/2301.09244v1 )

ライセンス: Link先を確認
Ayush Kaushal, Aditya Gupta, Shyam Upadhyay, Manaal Faruqui(参考訳) ストリーミングシーケンスのタグ付けに最先端の双方向エンコーダを適用するには、インクリメンタルなストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。 以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。 FLOPの増加は結果としてウォールクロック時間の増加とラベルのフリップの増加によってストリーミング性能が低下する。 本研究では,オフライン(あるいは完全)入力よりも双方向エンコーダの性能を維持しつつ,ストリーミング(あるいは不完全)入力の性能を向上させるとともに,これらの問題に対処するハイブリッドエンコーダを提案する。 HEARは、シーケンスタグ付けを行うためのハイブリッド一方向双方向エンコーダアーキテクチャと、エンコーダの双方向部分の再起動を選択的に導くアダプティブリスタートモジュール(ARM)を備えている。 4つのシーケンスタギングタスク全体で、HEARはストリーミング設定において最大71.1%のFLOPセーブを提供し、ストリーミングの正確な一致率でストリーミング予測のための双方向エンコーダを上回っている。

A naive application of state-of-the-art bidirectional encoders for streaming sequence tagging would require encoding each token from scratch for each new token in an incremental streaming input (like transcribed speech). The lack of re-usability of previous computation leads to a higher number of Floating Point Operations (or FLOPs) and higher number of unnecessary label flips. Increased FLOPs consequently lead to higher wall-clock time and increased label flipping leads to poorer streaming performance. In this work, we present a Hybrid Encoder with Adaptive Restart (HEAR) that addresses these issues while maintaining the performance of bidirectional encoders over the offline (or complete) inputs while improving performance on streaming (or incomplete) inputs. HEAR has a Hybrid unidirectional-bidirectional encoder architecture to perform sequence tagging, along with an Adaptive Restart Module (ARM) to selectively guide the restart of bidirectional portion of the encoder. Across four sequence tagging tasks, HEAR offers FLOP savings in streaming settings upto 71.1% and also outperforms bidirectional encoders for streaming predictions by upto +10% streaming exact match.
翻訳日:2023-01-24 14:20:08 公開日:2023-01-23
# 金融における高次元オプション価格設定のためのブラックスクールPDEの量子モンテカルロアルゴリズムとその次元の呪い克服の証明

Quantum Monte Carlo algorithm for solving Black-Scholes PDEs for high-dimensional option pricing in finance and its proof of overcoming the curse of dimensionality ( http://arxiv.org/abs/2301.09241v1 )

ライセンス: Link先を確認
Yongming Li, Ariel Neufeld(参考訳) 本稿では,高次元オプション価格の相関関係を持つ高次元黒弦pdesを解く量子モンテカルロアルゴリズムを提案する。 オプションの支払関数は一般的な形式であり、金融で使用される支払関数のほとんどをカバーする連続的かつ断片的アフィン(CPWA)のみを必要とする。 アルゴリズムの厳密な誤り解析と複雑性解析を提供する。 特に、我々のアルゴリズムの計算複雑性は PDE の空間次元$d$ と所定精度$\varepsilon$ の逆数で多項式化されることを証明し、我々の量子モンテカルロアルゴリズムが次元性の呪いに苦しめられていないことを示す。

In this paper we provide a quantum Monte Carlo algorithm to solve high-dimensional Black-Scholes PDEs with correlation for high-dimensional option pricing. The payoff function of the option is of general form and is only required to be continuous and piece-wise affine (CPWA), which covers most of the relevant payoff functions used in finance. We provide a rigorous error analysis and complexity analysis of our algorithm. In particular, we prove that the computational complexity of our algorithm is bounded polynomially in the space dimension $d$ of the PDE and the reciprocal of the prescribed accuracy $\varepsilon$ and so demonstrate that our quantum Monte Carlo algorithm does not suffer from the curse of dimensionality.
翻訳日:2023-01-24 14:19:42 公開日:2023-01-23
# カリキュラム学習による脳波からテキスト生成のための意味認識型コントラスト学習

Semantic-aware Contrastive Learning for Electroencephalography-to-Text Generation with Curriculum Learning ( http://arxiv.org/abs/2301.09237v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin(参考訳) 脳波信号から自然テキストを直接生成することを目的とした脳波-テキスト生成(EEG-to-Text)が近年,脳-コンピュータインターフェース(BCI)の潜在的可能性から注目されている。 しかし、主題依存型脳波表現と意味依存型テキスト表現との顕著な相違は、この課題に大きな課題をもたらす。 この課題を緩和するため,本研究では,概念依存の脳波表現と意味依存の脳波表現を効果的に再結合し,その差異を低減した,カリキュラム意味認識型コントラスト学習戦略(c-scl)を考案した。 具体的には、我々のC-SCLは意味論的に類似した脳波表現をまとめ、異種を分解する。 また、より有意義なコントラストペアを導入するために、有意義なコントラストペアを作るだけでなく、学習を段階的に進めるためにカリキュラム学習を慎重に採用する。 我々はZuCoベンチマークの広範な実験を行い、この手法と多様なモデルとアーキテクチャを組み合わせることで、3種類のメトリクスをまたいだ安定した改善と、新しい最先端の達成を実現している。 さらなる調査は、単一オブジェクトと低リソースの両方の設定における優位性だけでなく、ゼロショット設定における堅牢な一般化可能性も証明している。

Electroencephalography-to-Text generation (EEG-to-Text), which aims to directly generate natural text from EEG signals has drawn increasing attention in recent years due to the enormous potential for Brain-computer interfaces (BCIs). However, the remarkable discrepancy between the subject-dependent EEG representation and the semantic-dependent text representation poses a great challenge to this task. To mitigate this challenge, we devise a Curriculum Semantic-aware Contrastive Learning strategy (C-SCL), which effectively re-calibrates the subject-dependent EEG representation to the semantic-dependent EEG representation, thus reducing the discrepancy. Specifically, our C-SCL pulls semantically similar EEG representations together while pushing apart dissimilar ones. Besides, in order to introduce more meaningful contrastive pairs, we carefully employ curriculum learning to not only craft meaningful contrastive pairs but also make the learning progressively. We conduct extensive experiments on the ZuCo benchmark and our method combined with diverse models and architectures shows stable improvements across three types of metrics while achieving the new state-of-the-art. Further investigation proves not only its superiority in both the single-subject and low-resource settings but also its robust generalizability in the zero-shot setting.
翻訳日:2023-01-24 14:19:26 公開日:2023-01-23
# 衝突抵抗ハッシュ関数による公開鍵量子マネーの楽観性について

On the (Im)plausibility of Public-Key Quantum Money from Collision-Resistant Hash Functions ( http://arxiv.org/abs/2301.09236v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Zihan Hu, Henry Yuen(参考訳) 公開鍵量子マネー (public-key quantum money) は、非常に絡み合った量子状態を公に検証できるが、物理法則による偽造に抵抗する通貨として使用するための暗号的提案である。 重要な関心にもかかわらず、標準的な暗号的仮定に基づく公鍵量子マネースキームの構築は、依然として謎めいた目標である。 合理的にセキュアな候補スキームの提案さえも困難である。 これらの困難は、公開鍵量子マネースキームの構造とそれらに基づく仮定をより深く体系的に研究することを要求する。 そこで本研究では,量子マネーと暗号プリミティブのブラックボックス分離について述べる。 具体的には、銀行券検証がハッシュ関数に古典的なクエリを作成できる公開鍵量子マネースキームを構築するためのブラックボックスとして、衝突耐性ハッシュ関数は使用できないことを示す。 この結果は、Zhandryの圧縮オラクル技術を含む量子複雑性理論とシミュレーション技術による新しい状態合成技術の組み合わせを含む。

Public-key quantum money is a cryptographic proposal for using highly entangled quantum states as currency that is publicly verifiable yet resistant to counterfeiting due to the laws of physics. Despite significant interest, constructing provably-secure public-key quantum money schemes based on standard cryptographic assumptions has remained an elusive goal. Even proposing plausibly-secure candidate schemes has been a challenge. These difficulties call for a deeper and systematic study of the structure of public-key quantum money schemes and the assumptions they can be based on. Motivated by this, we present the first black-box separation of quantum money and cryptographic primitives. Specifically, we show that collision-resistant hash functions cannot be used as a black-box to construct public-key quantum money schemes where the banknote verification makes classical queries to the hash function. Our result involves a novel combination of state synthesis techniques from quantum complexity theory and simulation techniques, including Zhandry's compressed oracle technique.
翻訳日:2023-01-24 14:19:01 公開日:2023-01-23
# 時間的自己変調による貯水池ダイナミクスの学習

Learning Reservoir Dynamics with Temporal Self-Modulation ( http://arxiv.org/abs/2301.09235v1 )

ライセンス: Link先を確認
Yusuke Sakemi, Sou Nobukawa, Toshitaka Matsuki, Takashi Morie, Kazuyuki Aihara(参考訳) 貯留層計算(RC)は、入力信号を無作為に連結されたリカレントニューラルネットワーク(RNN)に転送することで、時系列データを効率的に処理することができる。 貯水池内の時系列データの高次元表現は、その後の学習タスクを大幅に単純化する。 このシンプルなアーキテクチャは、高速な学習とフィジカル実装を可能にするが、学習性能は他の最先端のRNNモデルよりも劣る。 本稿では,RCの学習能力を向上させるために,自己変調機構を付加してRCを拡張する自己変調RC(SM-RC)を提案する。 自己変調機構は入力ゲートと貯水池ゲートの2つのゲーティング変数で実現される。 入力ゲートは入力信号を変調し、貯水池ゲートは貯水池の動的特性を変調する。 SM-RCは、入力信号に応じて、入力情報を保持または破棄するアテンションタスクを実行できることを示した。 また,SM-RCの学習の結果,カオス状態が出現した。 これは、自己変調機構がRCに質的に異なる情報処理機能を提供することを示している。 さらに、SM-RC は NARMA と Lorentz のモデルタスクにおいて RC よりも優れていた。 特にSM-RCはローレンツモデルの10倍の精度でRCよりも高い予測精度を達成した。 SM-RCアーキテクチャは2つのゲートのみを必要とするため、RCとして物理的に実装可能であり、エッジAIを実現するための新たな方向を提供する。

Reservoir computing (RC) can efficiently process time-series data by transferring the input signal to randomly connected recurrent neural networks (RNNs), which are referred to as a reservoir. The high-dimensional representation of time-series data in the reservoir significantly simplifies subsequent learning tasks. Although this simple architecture allows fast learning and facile physical implementation, the learning performance is inferior to that of other state-of-the-art RNN models. In this paper, to improve the learning ability of RC, we propose self-modulated RC (SM-RC), which extends RC by adding a self-modulation mechanism. The self-modulation mechanism is realized with two gating variables: an input gate and a reservoir gate. The input gate modulates the input signal, and the reservoir gate modulates the dynamical properties of the reservoir. We demonstrated that SM-RC can perform attention tasks where input information is retained or discarded depending on the input signal. We also found that a chaotic state emerged as a result of learning in SM-RC. This indicates that self-modulation mechanisms provide RC with qualitatively different information-processing capabilities. Furthermore, SM-RC outperformed RC in NARMA and Lorentz model tasks. In particular, SM-RC achieved a higher prediction accuracy than RC with a reservoir 10 times larger in the Lorentz model tasks. Because the SM-RC architecture only requires two additional gates, it is physically implementable as RC, providing a new direction for realizing edge AI.
翻訳日:2023-01-24 14:18:43 公開日:2023-01-23
# stockemotions:金融感情分析と多変量時系列のための投資家感情発見

StockEmotions: Discover Investor Emotions for Financial Sentiment Analysis and Multivariate Time Series ( http://arxiv.org/abs/2301.09279v1 )

ライセンス: Link先を確認
Jean Lee, Hoyoul Luis Youn, Josiah Poon, Soyeon Caren Han(参考訳) 金融分野でのNLP技術の適用に対する関心は高まりつつあるが、資源は極めて限られている。 本稿では、金融ソーシャルメディアプラットフォームであるStockTwitsから収集された1万の英語コメントからなる、市場における感情を検出するための新しいデータセットであるStockEmotionsを紹介する。 行動金融にヒントを得て、投資家の感情のジェットコースターにまたがる12のきめ細かい感情クラスを提案する。 既存の財務感情データセットとは異なり、StockEmotionsは投資家の感情クラス、きめ細かい感情、絵文字、時系列データなどの細かい特徴を提示する。 データセットのユーザビリティを示すために,データセット分析を行い,実験的なダウンストリームタスクを実行する。 金銭的感情・感情分類タスクでは、DistilBERTは他のベースラインよりも優れており、多変量時系列予測では、価格指数、テキスト、感情特徴を組み合わせた時間的注意LSTMモデルが、1つの特徴よりも最高のパフォーマンスを達成する。

There has been growing interest in applying NLP techniques in the financial domain, however, resources are extremely limited. This paper introduces StockEmotions, a new dataset for detecting emotions in the stock market that consists of 10,000 English comments collected from StockTwits, a financial social media platform. Inspired by behavioral finance, it proposes 12 fine-grained emotion classes that span the roller coaster of investor emotion. Unlike existing financial sentiment datasets, StockEmotions presents granular features such as investor sentiment classes, fine-grained emotions, emojis, and time series data. To demonstrate the usability of the dataset, we perform a dataset analysis and conduct experimental downstream tasks. For financial sentiment/emotion classification tasks, DistilBERT outperforms other baselines, and for multivariate time series forecasting, a Temporal Attention LSTM model combining price index, text, and emotion features achieves the best performance than using a single feature.
翻訳日:2023-01-24 14:12:08 公開日:2023-01-23
# 状態依存ハミルトニアンによる波動関数の崩壊過程の記述

Describing the Wave Function Collapse Process with a State-dependent Hamiltonian ( http://arxiv.org/abs/2301.09274v1 )

ライセンス: Link先を確認
Le Hu, Andrew N. Jordan(参考訳) 量子力学では、決定論的かつよく記述されるユニタリ進化と、確率論的で一般には単項ではない波動関数の崩壊という2つの異なる進化が認められており、Schr\"{o}dinger方程式では説明できないことが知られている。 本稿では、純粋な状態から始めると、波動関数の連続的な崩壊が、確率的時間依存ハミルトニアンを持つシュルンディンガー方程式によってどのように記述できるかを示す。 我々は、任意の$n$レベルの系の射影測定と基底状態の高調波発振器の位置測定に責任を負うハミルトニアンを解析的に解き、結論を検証・活用するためのいくつかの実験的スキームを提案する。 重要な特徴は、ハミルトニアンが状態依存である必要があることである。 次に、上記の形式論を混合量子状態の波動関数の崩壊を記述するために応用する方法について議論する。 私たちが提案した形式主義は、量子力学における2つの異なる進化を統一するかもしれない。

It is well-known that quantum mechanics admits two distinct evolutions: the unitary evolution, which is deterministic and well described by the Schr\"{o}dinger equation, and the collapse of the wave function, which is probablistic, generally non-unitary, and cannot be described by the Schr\"{o}dinger equation. In this paper, starting with pure states, we show how the continuous collapse of the wave function can be described by the Schr\"{o}dinger equation with a stochastic, time-dependent Hamiltonian. We analytically solve for the Hamiltonian responsible for projective measurements on an arbitrary $n$-level system and the position measurement on an harmonic oscillator in the ground state, and propose several experimental schemes to verify and utilize the conclusions. A critical feature is that the Hamiltonian must be state-dependent. We then discuss how the above formalism can also be applied to describe the collapse of the wave function of mixed quantum states. The formalism we proposed may unify the two distinct evolutions in quantum mechanics.
翻訳日:2023-01-24 14:11:49 公開日:2023-01-23
# 膨張エッジを持つ量子ホール系におけるアナログ・ド・シッター宇宙

Analog de Sitter universe in quantum Hall systems with an expanding edge ( http://arxiv.org/abs/2301.09270v1 )

ライセンス: Link先を確認
Yasusada Nambu and Masahiro Hotta(参考訳) 量子ホール系におけるエッジの拡大は、量子1+1次元膨張宇宙のシミュレータとなる。 これらの系では、エッジの排他は曲線時空におけるカイラルスカラー場として表される。 このモデルにより予測されるホーキング放射と絡み合い挙動を、エッジ領域の膨張則がデ・シッター宇宙に対応すると仮定して検討する。 量子場の観測可能な量として、検出領域に関連する局所空間モードをフィールドのウィンドウ関数を用いて導入し、それらの相関性を評価する。 局所モードの自己相関関数に対するエッジ展開によるホーキング放射の影響を調べたところ,ホーキング放射による絡み合い死の発生が確認された。 この絡み合いの挙動は、宇宙のインフレーションにおける「量子から古典への遷移」に関連している。

Expanding edges in quantum Hall systems can become a simulator of quantum 1+1 dimensional expanding universes. In these systems, edge exciations are represented as a chiral scalar field in curved spacetimes. We investigate Hawking radiation and entanglement behavior predicted by this model assuming that the expansion law of the edge region corresponds to a de Sitter universe. As observable quantities for the quantum field, local spatial modes associated with detection regions are introduced using window functions for the field, and their correlations are evaluated. We found impact of Hawking radiation caused by the edge expansion on auto-correlation functions of the local modes, and confirmed that entanglement death due to Hawking radiation occurs. This behavior of entanglement is related to ``quantum to classical transition" in cosmic inflations.
翻訳日:2023-01-24 14:11:28 公開日:2023-01-23
# M22:レート歪みに着想を得たフェデレーション学習のためのコミュニケーション効率の良いアルゴリズム

M22: A Communication-Efficient Algorithm for Federated Learning Inspired by Rate-Distortion ( http://arxiv.org/abs/2301.09269v1 )

ライセンス: Link先を確認
Yangyi Liu, Stefano Rini, Sadaf Salehkalaibar, Jun Chen(参考訳) 連合学習(fl)では,遠隔学習者とパラメータサーバ(ps)間の通信制約が重要なボトルネックとなっている。 このため、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。 本稿では,深層ニューラルネットワーク(dnns)のフェデレーショントレーニングにおける勾配圧縮に対するレートゆらぎに基づくアプローチである ``\emph{${\bf m}$-magnitude weighted $l_{\bf 2}$ distortion + $\bf 2$ degrees of freedom'''' (m22) アルゴリズムを提案する。 特に,「$m$-magnitude weighted $l_2$''」ゆがみと呼ばれる元の勾配と再構成との間の歪み尺度の族を提案し,勾配更新が2自由度を持つ分布一般化正規またはワイブルに従うと仮定する。 歪み測度と勾配の両方において、それぞれの自由パラメータは、イテレーション番号の関数として適用できる。 勾配分布と歪み測度の選択を仮定し, 勾配再構成における推定歪みを最小化する量子化器の設計を行った。 通信制約下での勾配圧縮性能を測定するために, 1ビットの通信がトレーニング期間中に集中型モデルにもたらした精度の最適改善として, \emph{per-bit accuracy} を定義する。 この性能尺度を用いて, 勾配分布と歪み測度の選択を体系的に評価する。 我々はこれらの選択の役割についてかなりの洞察を与え、そのような速度歪みにインスパイアされた圧縮機を用いて、大幅な性能向上が達成できると主張している。

In federated learning (FL), the communication constraint between the remote learners and the Parameter Server (PS) is a crucial bottleneck. For this reason, model updates must be compressed so as to minimize the loss in accuracy resulting from the communication constraint. This paper proposes ``\emph{${\bf M}$-magnitude weighted $L_{\bf 2}$ distortion + $\bf 2$ degrees of freedom''} (M22) algorithm, a rate-distortion inspired approach to gradient compression for federated training of deep neural networks (DNNs). In particular, we propose a family of distortion measures between the original gradient and the reconstruction we referred to as ``$M$-magnitude weighted $L_2$'' distortion, and we assume that gradient updates follow an i.i.d. distribution -- generalized normal or Weibull, which have two degrees of freedom. In both the distortion measure and the gradient, there is one free parameter for each that can be fitted as a function of the iteration number. Given a choice of gradient distribution and distortion measure, we design the quantizer minimizing the expected distortion in gradient reconstruction. To measure the gradient compression performance under a communication constraint, we define the \emph{per-bit accuracy} as the optimal improvement in accuracy that one bit of communication brings to the centralized model over the training period. Using this performance measure, we systematically benchmark the choice of gradient distribution and distortion measure. We provide substantial insights on the role of these choices and argue that significant performance improvements can be attained using such a rate-distortion inspired compressor.
翻訳日:2023-01-24 14:11:16 公開日:2023-01-23
# PCBDet:エッジ上のPCBコンポーネントの自動検出のための効率的なディープニューラルネットワークオブジェクト検出アーキテクチャ

PCBDet: An Efficient Deep Neural Network Object Detection Architecture for Automatic PCB Component Detection on the Edge ( http://arxiv.org/abs/2301.09268v1 )

ライセンス: Link先を確認
Brian Li (1), Steven Palayew (1), Francis Li (1), Saad Abbasi (1 and 2), Saeejith Nair (2), Alexander Wong (1 and 2) ((1) DarwinAI, (2) University of Waterloo)(参考訳) 所定のpcb上には多数の電子部品があり、視覚検査のタスクで非常に時間を要する欠陥を検出し、特に大規模でエラーを起こしやすい。 そのため、特にディープラーニングを活用した自動PCBコンポーネント検出に大きな関心が寄せられている。 しかし、ディープニューラルネットワークは一般的に高い計算資源を必要とするため、製造における実世界のユースケースにおいて実現可能性を制限する可能性がある。 このユースケースにおける効率的なディープニューラルネットワークアーキテクチャの探索の結果、PCBDetは、最先端の推論スループットを提供しながら、他の最先端の効率的なアーキテクチャ設計と比較して優れたPCBコンポーネント検出性能を実現したアテンションコンデンサネットワーク設計である。 実験結果から、PCBDetはARM Cortex A72プロセッサで最大2$\times$推論スピードアップを達成でき、FICS-PCBベンチマークデータセットで2-4\%高いmAPを達成できることがわかった。

There can be numerous electronic components on a given PCB, making the task of visual inspection to detect defects very time-consuming and prone to error, especially at scale. There has thus been significant interest in automatic PCB component detection, particularly leveraging deep learning. However, deep neural networks typically require high computational resources, possibly limiting their feasibility in real-world use cases in manufacturing, which often involve high-volume and high-throughput detection with constrained edge computing resource availability. As a result of an exploration of efficient deep neural network architectures for this use case, we introduce PCBDet, an attention condenser network design that provides state-of-the-art inference throughput while achieving superior PCB component detection performance compared to other state-of-the-art efficient architecture designs. Experimental results show that PCBDet can achieve up to 2$\times$ inference speed-up on an ARM Cortex A72 processor when compared to an EfficientNet-based design while achieving $\sim$2-4\% higher mAP on the FICS-PCB benchmark dataset.
翻訳日:2023-01-24 14:10:43 公開日:2023-01-23
# FInC Flow: フローの正規化のための高速で可逆的な$k \times k$ Convolutions

FInC Flow: Fast and Invertible $k \times k$ Convolutions for Normalizing Flows ( http://arxiv.org/abs/2301.09266v1 )

ライセンス: Link先を確認
Aditya Kallappa, Sandeep Nagar, Girish Varma(参考訳) 可逆畳み込みは、Glow に導入されて以来、表現的正規化フローベース生成モデルを構築する上で不可欠な要素である。 非可逆な$k \times k$畳み込みを設計し、パスのトレーニングとサンプリングに効率的である。 これらの試みは表現率とサンプリング効率を向上させたが、サンプリング時間の観点からは1ドル1セントの畳み込みしか使わなかったGlowに大きく遅れを取っていた。 また、多くのアプローチは基盤となる畳み込みの多くのパラメータを隠蔽し、固定された実行時予算での表現性が低下する。 我々は、$k \times k$畳み込み層とDeep Normalizing Flowアーキテクチャを提案する。 動作時間 O$(n k^2)$$$(n$は入力画像の高さと幅、kはカーネルサイズ) の高速並列反転アルゴリズムを持つ。 ) レイヤ内の学習可能なパラメータの最小量をマスクする。 第3回。 他の$k \times k$ convolution-based model on real-world benchmarksに匹敵する、より優れたフォワードパスとサンプリングタイムを提供する。 本稿では,GPU上の可逆畳み込みを用いたサンプリングのための並列アルゴリズムの実装を提案する。 CIFAR-10、ImageNet、およびCelebAデータセットのベンチマークでは、サンプリング時間を大幅に改善しながら、次元ごとのビットに関する以前の研究と同等のパフォーマンスを示している。

Invertible convolutions have been an essential element for building expressive normalizing flow-based generative models since their introduction in Glow. Several attempts have been made to design invertible $k \times k$ convolutions that are efficient in training and sampling passes. Though these attempts have improved the expressivity and sampling efficiency, they severely lagged behind Glow which used only $1 \times 1$ convolutions in terms of sampling time. Also, many of the approaches mask a large number of parameters of the underlying convolution, resulting in lower expressivity on a fixed run-time budget. We propose a $k \times k$ convolutional layer and Deep Normalizing Flow architecture which i.) has a fast parallel inversion algorithm with running time O$(n k^2)$ ($n$ is height and width of the input image and k is kernel size), ii.) masks the minimal amount of learnable parameters in a layer. iii.) gives better forward pass and sampling times comparable to other $k \times k$ convolution-based models on real-world benchmarks. We provide an implementation of the proposed parallel algorithm for sampling using our invertible convolutions on GPUs. Benchmarks on CIFAR-10, ImageNet, and CelebA datasets show comparable performance to previous works regarding bits per dimension while significantly improving the sampling time.
翻訳日:2023-01-24 14:10:22 公開日:2023-01-23
# 限られた資源下での効率的な訓練

Efficient Training Under Limited Resources ( http://arxiv.org/abs/2301.09264v1 )

ライセンス: Link先を確認
Mahdi Zolnouri, Dounia Lakhmiri, Christophe Tribes, Eyy\"ub Sari, S\'ebastien Le Digabel(参考訳) データセットのトレーニング時間予算とサイズは、Deep Neural Network(DNN)のパフォーマンスに影響を与える要因のひとつだ。 本稿では、ニューラルネットワーク探索(NAS)、ハイパーパラメータ最適化(HPO)、データ拡張により、これらの2つの要因が限定される一方で、DNNの性能が向上することを示す。 しかし、最適なアーキテクチャと最適なハイパーパラメーター値を求めるには、低リソース下でのデータ拡張手法をうまく組み合わせる以外に、多くの実験が必要である。 本稿では,従来のモデルと比較して性能を保ちながらモデルを圧縮し,データセットが小さい場合のモデルの過度な適合を防止し,ハイパーパラメータチューニングを行うことにより,この目標を達成するための3つのステップを提案する。 我々はNASとHPOを行うためにデリバティブフリーアルゴリズムに基づくブラックボックス最適化ソフトウェアであるNOMADを使用した。 我々の研究は、ICLR 2021 Hardware Aware Efficient Training (HAET) Challengeで、Mini-ImageNetの小さなサブセットに対して86.0%の精度を達成した。 コンペの結果はhaet2021.github.io/challengeで、ソースコードはgithub.com/DouniaLakhmiri/ICLR\_HAET2021で確認できます。

Training time budget and size of the dataset are among the factors affecting the performance of a Deep Neural Network (DNN). This paper shows that Neural Architecture Search (NAS), Hyper Parameters Optimization (HPO), and Data Augmentation help DNNs perform much better while these two factors are limited. However, searching for an optimal architecture and the best hyperparameter values besides a good combination of data augmentation techniques under low resources requires many experiments. We present our approach to achieving such a goal in three steps: reducing training epoch time by compressing the model while maintaining the performance compared to the original model, preventing model overfitting when the dataset is small, and performing the hyperparameter tuning. We used NOMAD, which is a blackbox optimization software based on a derivative-free algorithm to do NAS and HPO. Our work achieved an accuracy of 86.0 % on a tiny subset of Mini-ImageNet at the ICLR 2021 Hardware Aware Efficient Training (HAET) Challenge and won second place in the competition. The competition results can be found at haet2021.github.io/challenge and our source code can be found at github.com/DouniaLakhmiri/ICLR\_HAET2021.
翻訳日:2023-01-24 14:09:59 公開日:2023-01-23
# MEMO : 大きなメモリシステムにおけるメモリ化による変圧器の高速化

MEMO : Accelerating Transformers with Memoization on Big Memory Systems ( http://arxiv.org/abs/2301.09262v1 )

ライセンス: Link先を確認
Yuan Feng, Hyeran Jeon, Filip Blagojevic, Cyril Guyot, Qing Li, and Dong Li(参考訳) トランスフォーマーは予測精度と推論スループットが優れているため人気がある。 しかし、変換器は計算集約的であり、長い推測時間を引き起こす。 トランスフォーマーの推論を加速する既存の作業には、トランスフォーマーアーキテクチャの変更や特別なハードウェアの必要性のために制限がある。 本稿では,上述の制限を伴わない変圧器における注意機構の高速化にメモ化を利用する機会を明らかにする。 推論シーケンスにまたがる注意計算に高い類似性があるという独自の観察に基づいて,新たに出現する巨大メモリシステム上に注意データベースを構築する。 本稿では,意味的に類似した入力を見つけるために埋め込み手法を導入し,計算の類似性を同定する。 また,メモリのコピーや不要なオーバーヘッドを回避するため,メモリマッピングや選択的メモ化といった手法も紹介する。 TBスケールのアテンションデータベースで平均21%の性能向上(最大68%)が可能であり,推測精度の低下も無視できる。

Transformers gain popularity because of their superior prediction accuracy and inference throughput. However, the transformer is computation-intensive, causing a long inference time. The existing work to accelerate transformer inferences has limitations because of the changes to transformer architectures or the need for specialized hardware. In this paper, we identify the opportunities of using memoization to accelerate the attention mechanism in transformers without the above limitation. Built upon a unique observation that there is a rich similarity in attention computation across inference sequences, we build an attention database upon the emerging big memory system. We introduce the embedding technique to find semantically similar inputs to identify computation similarity. We also introduce a series of techniques such as memory mapping and selective memoization to avoid memory copy and unnecessary overhead. We enable 21% performance improvement on average (up to 68%) with the TB-scale attention database and with ignorable loss in inference accuracy.
翻訳日:2023-01-24 14:09:35 公開日:2023-01-23
# LiDAR強度を用いたリアルタイム同時位置決めとマッピング

Real-Time Simultaneous Localization and Mapping with LiDAR intensity ( http://arxiv.org/abs/2301.09257v1 )

ライセンス: Link先を確認
Wenqiang Du and Giovanni Beltrame(参考訳) 本稿では,非構造環境における幾何縮退問題に対処する,実時間LiDAR強度画像を用いた同時局所化マッピング手法を提案する。 従来のLiDARベースのフロントエンドオドメトリーは、主に点、線、平面などの幾何学的特徴に依存している。 環境におけるこれらの特徴の欠如は、オドメトリーシステム全体の障害につながる可能性がある。 この問題を回避するため,LiDAR 強度画像の特徴と一致する特徴点を,LiDAR 生成点雲から抽出する。 次に抽出した特徴点を用いてスキャン登録を行い,ロボットのエゴ移動を推定する。 バックエンドについては,対応する特徴点間の距離と,地図上で識別された平面間の距離を共同で最適化する。 さらに,インテンシティ画像から抽出した特徴を用いて,前回のスキャンからループクロージャ候補を検出し,ポーズグラフ最適化を行う。 提案手法は,高い精度でリアルタイムに実行でき,照明変化,低テキスト環境,非構造化環境とうまく連携できることを示す。

We propose a novel real-time LiDAR intensity image-based simultaneous localization and mapping method , which addresses the geometry degeneracy problem in unstructured environments. Traditional LiDAR-based front-end odometry mostly relies on geometric features such as points, lines and planes. A lack of these features in the environment can lead to the failure of the entire odometry system. To avoid this problem, we extract feature points from the LiDAR-generated point cloud that match features identified in LiDAR intensity images. We then use the extracted feature points to perform scan registration and estimate the robot ego-movement. For the back-end, we jointly optimize the distance between the corresponding feature points, and the point to plane distance for planes identified in the map. In addition, we use the features extracted from intensity images to detect loop closure candidates from previous scans and perform pose graph optimization. Our experiments show that our method can run in real time with high accuracy and works well with illumination changes, low-texture, and unstructured environments.
翻訳日:2023-01-24 14:09:20 公開日:2023-01-23
# 視覚変換器を用いたプライバシー保護画像分類におけるフェデレーション学習と画像暗号化の併用

Combined Use of Federated Learning and Image Encryption for Privacy-Preserving Image Classification with Vision Transformer ( http://arxiv.org/abs/2301.09255v1 )

ライセンス: Link先を確認
Teru Nagamori and Hitoshi Kiya(参考訳) 近年,ディープラーニングのためのプライバシー保護手法が緊急問題となっている。 そこで本研究では,視覚トランスフォーマ(vit)を用いたプライバシー保護画像分類のためのフェデレーション学習(fl)と暗号化画像の併用を提案する。 提案手法では,複数の参加者に対して生データを直接共有することなくモデルをトレーニングできるだけでなく,テスト画像のプライバシ(クエリ)を初めて保護できる。 さらに、通常訓練されたモデルと同じ精度を維持することもできる。 実験では,CIFAR-10およびCIFAR-100データセットの性能劣化を伴わずに,良好な動作が得られた。

In recent years, privacy-preserving methods for deep learning have become an urgent problem. Accordingly, we propose the combined use of federated learning (FL) and encrypted images for privacy-preserving image classification under the use of the vision transformer (ViT). The proposed method allows us not only to train models over multiple participants without directly sharing their raw data but to also protect the privacy of test (query) images for the first time. In addition, it can also maintain the same accuracy as normally trained models. In an experiment, the proposed method was demonstrated to well work without any performance degradation on the CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-01-24 14:09:03 公開日:2023-01-23
# 量子状態への最も近い古典古典的状態の近似

Approximation of the Nearest Classical-Classical State to a Quantum State ( http://arxiv.org/abs/2301.09316v1 )

ライセンス: Link先を確認
BingZe Lu, Matthew. M Lin, Yuchen Shu(参考訳) 量子計算の能力は古典的コンピュータの能力を超える。 計算における革命的なステップは量子性(quantumness)または量子相関(quantum correlations)によって駆動されるが、これはエンタングルメントにおいて永続的であるが、しばしば分離可能な状態にあるため、量子系の状態の量子性を定量化することが重要な課題である。 量子性の正確な定量化はNPハード問題であり、近似する代替手法を考える。 本稿では,フロベニウスノルムを用いて目的関数を定式化し,スティフェル多様体上の勾配駆動降下流を提案して量を決定する。 目的値が証明と数値結果によってフローに沿って減少することを示す。 さらに、この方法は量子状態を特定の構造のテンソル積に分解し、基本的な量子仮定を維持する能力を保証する。 最後に,実環境における本手法の適用性を確認した。

The capacity of quantum computation exceeds that of classical computers. A revolutionary step in computation is driven by quantumness or quantum correlations, which are permanent in entanglements but often in separable states; therefore, quantifying the quantumness of a state in a quantum system is an important task. The exact quantification of quantumness is an NP-hard problem; thus, we consider alternative approaches to approximate it. In this paper, we take the Frobenius norm to establish an objective function and propose a gradient-driven descent flow on Stiefel manifolds to determine the quantity. We show that the objective value decreases along the flow by proofs and numerical results. Besides, the method guarantees the ability to decompose quantum states into tensor products of certain structures and maintain basic quantum assumptions. Finally, the numerical results eventually confirm the applicability of our method in real-world settings.
翻訳日:2023-01-24 14:03:00 公開日:2023-01-23
# 自然主義的運転環境における運転者の車追従行動のaiによる理解

AI-Based Framework for Understanding Car Following Behaviors of Drivers in A Naturalistic Driving Environment ( http://arxiv.org/abs/2301.09315v1 )

ライセンス: Link先を確認
Armstrong Aboah, Abdul Rashid Mussah, Yaw Adu-Gyamfi(参考訳) 道路上の最も一般的な事故は、後部事故である。 これらの事故は交通の流れに重大な悪影響を及ぼし、しばしば致命的である。 これらのシナリオをより実践的に理解するためには、車の後続の挙動を正確にモデル化する必要がある。 ドライバーの車追従行動のモデル化には多くの研究がなされているが、これらの研究の大部分はシミュレーションデータに依存しており、実際の事故を正確に表現していない。 さらに、ほとんどの研究はエゴ車の加速のモデル化に限定されており、エゴ車の挙動を説明するには不十分である。 その結果,本研究では,自然環境における運転行動の理解に関連する特徴を抽出する人工知能フレームワークを開発することにより,これらの課題に対処しようとしている。 さらに,NDSビデオから抽出した情報を用いて,エゴ車両と先頭車両の加速をモデル化した。 調査結果によると、若者は高齢者よりも攻撃的なドライバーになりやすいという。 また,ego車両の加速度をモデル化する際には,ego車両と先行車両の相対速度が両車両間距離よりも重要であることが判明した。

The most common type of accident on the road is a rear-end crash. These crashes have a significant negative impact on traffic flow and are frequently fatal. To gain a more practical understanding of these scenarios, it is necessary to accurately model car following behaviors that result in rear-end crashes. Numerous studies have been carried out to model drivers' car-following behaviors; however, the majority of these studies have relied on simulated data, which may not accurately represent real-world incidents. Furthermore, most studies are restricted to modeling the ego vehicle's acceleration, which is insufficient to explain the behavior of the ego vehicle. As a result, the current study attempts to address these issues by developing an artificial intelligence framework for extracting features relevant to understanding driver behavior in a naturalistic environment. Furthermore, the study modeled the acceleration of both the ego vehicle and the leading vehicle using extracted information from NDS videos. According to the study's findings, young people are more likely to be aggressive drivers than elderly people. In addition, when modeling the ego vehicle's acceleration, it was discovered that the relative velocity between the ego vehicle and the leading vehicle was more important than the distance between the two vehicles.
翻訳日:2023-01-24 14:02:45 公開日:2023-01-23
# 微分型ニューラルネットワークと加速器共爆発におけるハード制約の実現

Enabling Hard Constraints in Differentiable Neural Network and Accelerator Co-Exploration ( http://arxiv.org/abs/2301.09312v1 )

ライセンス: Link先を確認
Deokki Hong, Kanghyun Choi, Hye Yoon Lee, Joonsang Yu, Noseong Park, Youngsok Kim, and Jinho Lee(参考訳) 最適なニューラルアーキテクチャとハードウェアアクセラレーションの共存は、特にロープロファイルシステムにおける計算コスト問題に対処する関心の高まりのアプローチである。 大規模な共同探索空間は、しばしば、微分可能なニューラルアーキテクチャ探索という考え方を採用することで扱われる。 しかし,同探索の探索効率が優れているにもかかわらず,フレームレートなどの制約を体系的に満たさないという重要な課題に直面している。 微分可能共探索のハード制約問題に対処するため,グローバルな設計目的を損なうことなく,ハード制約されたソリューションを探索するHDXを提案する。 与えられたハード制約の利害関係の勾配を操作することで、制約を満たす高品質な解が得られる。

Co-exploration of an optimal neural architecture and its hardware accelerator is an approach of rising interest which addresses the computational cost problem, especially in low-profile systems. The large co-exploration space is often handled by adopting the idea of differentiable neural architecture search. However, despite the superior search efficiency of the differentiable co-exploration, it faces a critical challenge of not being able to systematically satisfy hard constraints such as frame rate. To handle the hard constraint problem of differentiable co-exploration, we propose HDX, which searches for hard-constrained solutions without compromising the global design objectives. By manipulating the gradients in the interest of the given hard constraint, high-quality solutions satisfying the constraint can be obtained.
翻訳日:2023-01-24 14:02:30 公開日:2023-01-23
# 幾何学的グラフニューラルネットワークの表現力について

On the Expressive Power of Geometric Graph Neural Networks ( http://arxiv.org/abs/2301.09308v1 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Cristian Bodnar, Simon V. Mathis, Taco Cohen, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)の表現力はWeisfeiler-Leman(WL)グラフ同型テストを通じて広く研究されている。 しかし、標準GNNとWLフレームワークは、生体分子、材料、その他の物理系などのユークリッド空間に埋め込まれた幾何学グラフには適用できない。 本研究では,幾何学的グラフを識別するための幾何版WLテスト(GWL)を提案し,その基礎となる物理対称性(置換,回転,反射,変換)を尊重する。 我々はGWLを用いて、幾何学グラフの区別の観点から、物理対称性に不変または同変である幾何学的GNNの表現力を特徴づける。 GWLは, 鍵設計選択が幾何的GNN表現性にどのように影響するかを解き明かす。(1) 不変層は, 1ホップの同一幾何グラフを区別できないため, 有限表現性を持つ; (2) 等変層は, 局所的に幾何学情報を伝播させることにより, グラフのより大きなクラスを区別する; (3) 高次テンソルとスカラー化により, 最大で強力な幾何的GNNを可能にする;(4) GWLの識別に基づく視点は普遍近似と等価である。 私たちの結果を補う合成実験はhttps://github.com/chaitjo/geometric-gnn-dojoで利用可能です。

The expressive power of Graph Neural Networks (GNNs) has been studied extensively through the Weisfeiler-Leman (WL) graph isomorphism test. However, standard GNNs and the WL framework are inapplicable for geometric graphs embedded in Euclidean space, such as biomolecules, materials, and other physical systems. In this work, we propose a geometric version of the WL test (GWL) for discriminating geometric graphs while respecting the underlying physical symmetries: permutations, rotation, reflection, and translation. We use GWL to characterise the expressive power of geometric GNNs that are invariant or equivariant to physical symmetries in terms of distinguishing geometric graphs. GWL unpacks how key design choices influence geometric GNN expressivity: (1) Invariant layers have limited expressivity as they cannot distinguish one-hop identical geometric graphs; (2) Equivariant layers distinguish a larger class of graphs by propagating geometric information beyond local neighbourhoods; (3) Higher order tensors and scalarisation enable maximally powerful geometric GNNs; and (4) GWL's discrimination-based perspective is equivalent to universal approximation. Synthetic experiments supplementing our results are available at https://github.com/chaitjo/geometric-gnn-dojo
翻訳日:2023-01-24 14:02:18 公開日:2023-01-23
# Chore Cutting: 好奇心と真実

Chore Cutting: Envy and Truth ( http://arxiv.org/abs/2301.09306v1 )

ライセンス: Link先を確認
Mohammad Azharuddin Sanpui(参考訳) 我々は,個人の情報を操作し,より優れたアロケーションを得る戦略エージェントと,細分化可能な悪質な資源の公平な分割について検討する。 特定の制約の中で、私たちは、分断的な評価よりも、真理的な妬みのないメカニズムが存在するかどうかに特に関心を持っています。 本研究は,コネクテッド・ピース・シナリオにおいて,決定論的に真理的なエンビー・フリーなメカニズムが存在しないことを実証する。 また, 決定論的かつ真正な独裁機構が, 無情な基準を満たすことは不可能であり, 独裁よりも非無駄な制約にも同じ結果が当てはまることを示す。 さらに、いくつかの関連する問題や方向性に対処する。

We study the fair division of divisible bad resources with strategic agents who can manipulate their private information to get a better allocation. Within certain constraints, we are particularly interested in whether truthful envy-free mechanisms exist over piecewise-constant valuations. We demonstrate that no deterministic truthful envy-free mechanism can exist in the connected-piece scenario, and the same impossibility result occurs for hungry agents. We also show that no deterministic, truthful dictatorship mechanism can satisfy the envy-free criterion, and the same result remains true for non-wasteful constraints rather than dictatorship. We further address several related problems and directions.
翻訳日:2023-01-24 14:01:48 公開日:2023-01-23
# 分散MIMOネットワークにおけるAI駆動型パワーアロケーションに対する現実的敵攻撃

Practical Adversarial Attacks Against AI-Driven Power Allocation in a Distributed MIMO Network ( http://arxiv.org/abs/2301.09305v1 )

ライセンス: Link先を確認
\"Omer Faruk Tuna, Fehmi Emre Kadan, Leyli Kara\c{c}ay(参考訳) 分散マルチインプット・マルチアウトプット(D-MIMO)ネットワークにおいて、電力制御はユーザのスペクトル効率を最適化するために不可欠であり、最大ミンフェアネス(MMF)電力制御は全ユーザに対して均一な品質のサービスを実現するため、一般的に使用される戦略である。 mmf電力制御の最適解は高い複雑性操作を必要とするため、ディープニューラルネットワークに基づく人工知能(ai)ソリューションが提案されている。 AIを使用することで極めて正確なモデルを実現することができるが、これらのモデルには、AIモデルの入力に注意深く摂動を適用する敵攻撃に対する固有の脆弱性がある。 本研究では,悪意のあるユーザや無線ユニットが生み出すターゲットAIモデルに対する脅威が,最も制約のある状況であっても,良好な対向サンプルを適用することでネットワーク性能を著しく低下させることができることを示す。 また,これらの攻撃に伴うリスクは,従来の攻撃脅威よりも高いことを実証する。 詳細なシミュレーションは、敵攻撃の有効性とスマートディフェンス技術の必要性を明らかにする。

In distributed multiple-input multiple-output (D-MIMO) networks, power control is crucial to optimize the spectral efficiencies of users and max-min fairness (MMF) power control is a commonly used strategy as it satisfies uniform quality-of-service to all users. The optimal solution of MMF power control requires high complexity operations and hence deep neural network based artificial intelligence (AI) solutions are proposed to decrease the complexity. Although quite accurate models can be achieved by using AI, these models have some intrinsic vulnerabilities against adversarial attacks where carefully crafted perturbations are applied to the input of the AI model. In this work, we show that threats against the target AI model which might be originated from malicious users or radio units can substantially decrease the network performance by applying a successful adversarial sample, even in the most constrained circumstances. We also demonstrate that the risk associated with these kinds of adversarial attacks is higher than the conventional attack threats. Detailed simulations reveal the effectiveness of adversarial attacks and the necessity of smart defense techniques.
翻訳日:2023-01-24 14:01:34 公開日:2023-01-23
# 2つの潜在フローの物語--近似推論のための短時間ランゲヴィンフローを用いた潜在空間正規化フローの学習

A Tale of Two Latent Flows: Learning Latent Space Normalizing Flow with Short-run Langevin Flow for Approximate Inference ( http://arxiv.org/abs/2301.09300v1 )

ライセンス: Link先を確認
Jianwen Xie, Yaxuan Zhu, Yifei Xu, Dingcheng Li, Ping Li(参考訳) トップダウンジェネレータモデルの潜時空間における正規化フローについて検討し, 正規化フローモデルがジェネレータのインフォメーション前モデルの役割を担っていることを示す。 本稿では,マルコフ連鎖モンテカルロ(MCMC)に基づく最大確率アルゴリズムを用いて,遅延空間正規化フロー先行モデルとトップダウンジェネレータモデルとを共同で学習し,抽出可能な後続分布から短絡したランゲヴィンサンプリングを行い,各観測例について遅延変数を推定することにより,正規化フロー前のパラメータと生成元のパラメータを推定潜在変数で更新する。 非収束短絡MCMCのシナリオでは、有限ステップランゲヴィン力学はフローのような近似推論モデルであり、学習目的は実際に最大推定(MLE)の摂動に従う。 さらに、学習フレームワークが求めていることを指摘します。 i) 短時間ランゲヴィン流によって生じる潜在空間正規化流と集約後部とを一致させ, (ii) 短いランゲヴィン流の推論が真の後部に近いように、MLEからモデルに偏りが生じる。 画像生成, 画像再構成, 異常検出, 教師あり画像の塗装, 教師なし画像の復元作業において, 提案した潜時空間正規化フローモデルの有効性を検証する実験結果が得られた。

We study a normalizing flow in the latent space of a top-down generator model, in which the normalizing flow model plays the role of the informative prior model of the generator. We propose to jointly learn the latent space normalizing flow prior model and the top-down generator model by a Markov chain Monte Carlo (MCMC)-based maximum likelihood algorithm, where a short-run Langevin sampling from the intractable posterior distribution is performed to infer the latent variables for each observed example, so that the parameters of the normalizing flow prior and the generator can be updated with the inferred latent variables. We show that, under the scenario of non-convergent short-run MCMC, the finite step Langevin dynamics is a flow-like approximate inference model and the learning objective actually follows the perturbation of the maximum likelihood estimation (MLE). We further point out that the learning framework seeks to (i) match the latent space normalizing flow and the aggregated posterior produced by the short-run Langevin flow, and (ii) bias the model from MLE such that the short-run Langevin flow inference is close to the true posterior. Empirical results of extensive experiments validate the effectiveness of the proposed latent space normalizing flow model in the tasks of image generation, image reconstruction, anomaly detection, supervised image inpainting and unsupervised image recovery.
翻訳日:2023-01-24 14:01:14 公開日:2023-01-23
# 自己教師あり画像表現学習:ペア画像オーバーレイによる超越マスク

Self-Supervised Image Representation Learning: Transcending Masking with Paired Image Overlay ( http://arxiv.org/abs/2301.09299v1 )

ライセンス: Link先を確認
Yinheng Li, Han Ding, Shaofei Wang(参考訳) 近年,データアノテーションを必要とせずに意味のある表現を学習する能力によって,自己指導型学習が普及している。 本稿では,自己教師あり学習では広く適用されていない新しい画像拡張手法であるオーバーレイ画像を提案する。 この方法は、モデルが基礎となる情報を理解するためのより良いガイダンスを提供し、より有用な表現をもたらすように設計されている。 提案手法は,ダウンストリームタスクにおいて強固な性能を示す自己教師付き学習手法であるコントラスト学習を用いて評価する。 その結果,提案手法が自己教師付きモデルの性能向上に有効であることが示された。

Self-supervised learning has become a popular approach in recent years for its ability to learn meaningful representations without the need for data annotation. This paper proposes a novel image augmentation technique, overlaying images, which has not been widely applied in self-supervised learning. This method is designed to provide better guidance for the model to understand underlying information, resulting in more useful representations. The proposed method is evaluated using contrastive learning, a widely used self-supervised learning method that has shown solid performance in downstream tasks. The results demonstrate the effectiveness of the proposed augmentation technique in improving the performance of self-supervised models.
翻訳日:2023-01-24 14:00:47 公開日:2023-01-23
# オンラインプラットフォームにおける避妊法に関する感性作法

Sensemaking About Contraceptive Methods Across Online Platforms ( http://arxiv.org/abs/2301.09295v1 )

ライセンス: Link先を確認
LeAnn McDowall, Maria Antoniak, David Mimno(参考訳) 避妊方法の選択は複雑な医療上の判断である。 避妊方法には重要な利点があるが、予測不能な副作用を生じさせ、差別されることもあり、多くの人はオンラインで追加情報を探し、そこで他の避妊剤使用者のレビュー、アドバイス、仮説、経験を見つけることができる。 しかし, 医療関係, センスメイキング活動, オンライン環境との関係はよく理解されていない。 われわれは、Twitter、Reddit、WebMDで共有されている出生管理に関するテキストを収集し、出生管理がオンライン上でどのように議論されるかを研究する。 トピック・モデリングとハンド・アノテーションを組み合わせることで、これらのプラットフォームで支配的なセンスメイキング・プラクティスを特定し、特徴付けし、避妊方法と副作用の比較を描くためのレキシコンを作成する。 副次的効果経験と方法使用法に関する調査報告から,これらの変化を計測するために使用する。 我々の研究結果は、オンラインプラットフォームが難しい医療選択を理解し、出生管理ユーザーのニーズを浮き彫りにするためにどのように使われているかの特徴である。

Selecting a birth control method is a complex healthcare decision. While birth control methods provide important benefits, they can also cause unpredictable side effects and be stigmatized, leading many people to seek additional information online, where they can find reviews, advice, hypotheses, and experiences of other birth control users. However, the relationships between their healthcare concerns, sensemaking activities, and online settings are not well understood. We gather texts about birth control shared on Twitter, Reddit, and WebMD -- platforms with different affordances, moderation, and audiences -- to study where and how birth control is discussed online. Using a combination of topic modeling and hand annotation, we identify and characterize the dominant sensemaking practices across these platforms, and we create lexicons to draw comparisons across birth control methods and side effects. We use these to measure variations from survey reports of side effect experiences and method usage. Our findings characterize how online platforms are used to make sense of difficult healthcare choices and highlight unmet needs of birth control users.
翻訳日:2023-01-24 14:00:37 公開日:2023-01-23
# 転写学習を用いたフルマンモグラム画像におけるルミナルサブタイプの分類

Classification of Luminal Subtypes in Full Mammogram Images Using Transfer Learning ( http://arxiv.org/abs/2301.09282v1 )

ライセンス: Link先を確認
Adarsh Bhandary Panambur, Prathmesh Madhu, Andreas Maier(参考訳) マンモグラフィ検診中の光・非光亜型患者の自動同定は、乳癌治療計画の合理化に臨床医を支援できる。 最近の機械学習技術は、マンモグラフィにおける分子サブタイプ分類に有望な結果を示しているが、それらはピクセルレベルのアノテーション、手作り、放射能の特徴に大きく依存している。 本研究では,画像レベルラベルのみを用いてトレーニングしたフルマンモグラム画像の発光サブタイプ分類について,最初の知見を提供する。 乳房異常分類タスクから転送学習を適用し、resnet-18ベースの発光と非発光サブタイプ分類タスクを微調整する。 提案手法は,公開可能な cmmd データセット上で,平均 auc スコア 0.6688 と平均 f1 スコア 0.6693 をテストデータセットで達成することで,ベースライン分類器を著しく上回っていることを示す。 ベースラインに対する改善は統計的に有意であり、p値はp<0.0001である。

Automatic identification of patients with luminal and non-luminal subtypes during a routine mammography screening can support clinicians in streamlining breast cancer therapy planning. Recent machine learning techniques have shown promising results in molecular subtype classification in mammography; however, they are highly dependent on pixel-level annotations, handcrafted, and radiomic features. In this work, we provide initial insights into the luminal subtype classification in full mammogram images trained using only image-level labels. Transfer learning is applied from a breast abnormality classification task, to finetune a ResNet-18-based luminal versus non-luminal subtype classification task. We present and compare our results on the publicly available CMMD dataset and show that our approach significantly outperforms the baseline classifier by achieving a mean AUC score of 0.6688 and a mean F1 score of 0.6693 on the test dataset. The improvement over baseline is statistically significant, with a p-value of p<0.0001.
翻訳日:2023-01-24 14:00:16 公開日:2023-01-23
# 弱教師付き深層学習に基づく生物医学文献の大規模細粒度意味インデクス

Large-scale fine-grained semantic indexing of biomedical literature based on weakly-supervised deep learning ( http://arxiv.org/abs/2301.09350v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Thomas Chatzopoulos, Anastasia Krithara, Grigorios Tsoumakas, Georgios Paliouras(参考訳) バイオメディカル文献のセマンティックインデックス化は通常、バイオメディカルコミュニティの関心事を表すMeSH記述子のレベルで行われる。 いくつかの関連するが異なる生体医学の概念は、しばしば単一の粗い粒度の記述子にまとめられ、セマンティックインデックスの単一のトピックとして扱われる。 本研究では,概念レベルにおける主題アノテーションの自動改良手法を提案し,深層学習手法について検討する。 このタスクにはラベル付きデータがないため、論文の要約における概念発生に基づく弱い監督に依存する。 提案手法は,MEDLINE/PubMedでアノテーションが利用可能になるMeSH記述子となる概念を活かして,拡張された大規模なレトロスペクティブシナリオで評価される。 以上の結果から,概念の出現は,自動アノテーション改良のための強いヒューリスティックであり,辞書に基づくヒューリスティックと組み合わせることでさらに拡張できることが示唆された。 さらに、このようなヒューリスティックは、深層学習モデルを開発するための弱い監督として有用であり、場合によってはさらなる改善を達成できる。

Semantic indexing of biomedical literature is usually done at the level of MeSH descriptors, representing topics of interest for the biomedical community. Several related but distinct biomedical concepts are often grouped together in a single coarse-grained descriptor and are treated as a single topic for semantic indexing. This study proposes a new method for the automated refinement of subject annotations at the level of concepts, investigating deep learning approaches. Lacking labelled data for this task, our method relies on weak supervision based on concept occurrence in the abstract of an article. The proposed approach is evaluated on an extended large-scale retrospective scenario, taking advantage of concepts that eventually become MeSH descriptors, for which annotations become available in MEDLINE/PubMed. The results suggest that concept occurrence is a strong heuristic for automated subject annotation refinement and can be further enhanced when combined with dictionary-based heuristics. In addition, such heuristics can be useful as weak supervision for developing deep learning models that can achieve further improvement in some cases.
翻訳日:2023-01-24 13:54:29 公開日:2023-01-23
# 量子力学における連続可観測物のデジタル表現

Digital representation of continuous observables in Quantum Mechanics ( http://arxiv.org/abs/2301.09348v1 )

ライセンス: Link先を確認
M. G. Ivanov, A. Yu. Polushkin(参考訳) 古典量子コンピュータや量子コンピュータで量子系をシミュレートするには、連続観測量(座標、運動量、エネルギー、時間など)を離散系に還元する必要がある。 この研究において、位置系で表される連続観測可能量は、和マンド (``digits``) 上のラディクスの連なりであると考え、これは離散スペクトルを持つエルミート作用素であることが判明した。 得られた桁の量子力学演算子,それらの間の可換関係,および格子と表現に対する数系の選択の影響について検討する。 さらに、分岐和のデジタル表現再正規化の構成中に自然に発生する。

To simulate the quantum systems at classical or quantum computers, it is necessary to reduce continuous observables (e.g. coordinate and momentum or energy and time) to discrete ones. In this work we consider the continuous observables represented in the positional systems as a series of powers of the radix mulitplied over the summands (``digits``), which turn out to be Hermitean operators with discrete spectrum. We investigate the obtained quantum mechanical operators of digits, the commutation relations between them and the effects of choice of numeral system on the lattices and representations. Furthermore, during the construction of the digital representation renormalizations of diverging sums naturally occur.
翻訳日:2023-01-24 13:54:10 公開日:2023-01-23
# ラクダ・車両衝突軽減システムのためのコンピュータビジョン

Computer Vision for a Camel-Vehicle Collision Mitigation System ( http://arxiv.org/abs/2301.09339v1 )

ライセンス: Link先を確認
Khalid Alnujaidi and Ghadah Alhabib(参考訳) 人口が増加し、土地が都市化に利用されていくにつれて、私たちの道路や車によって生態系は混乱しています。 このインフラストラクチャーの拡大は野生生物の領域を縮小し、多くの野生動物と車両の衝突(wvc)を引き起こした。 これらのWVCの事例は、グローバルな社会経済的影響を持つ世界的な問題であり、数十億ドルの財産損害と、時には自動車利用者の死亡率をもたらす。 サウジアラビアでも同様で、カメル・ヴェイクル衝突(CVC)はラクダの大きさが大きいため特に致命的であり、死亡率は25%となっている[4]。 この研究の焦点は、道路上でラクダを検出するタスクに基づいて、異なる物体検出モデルをテストすることである。 実験で使用されるDeep Learning(DL)オブジェクト検出モデルは、CenterNet、EfficientDet、Faster R-CNN、SSDである。 実験の結果、CenterNetは精度で最高の性能を示し、トレーニングにおいて最も効率的であった。 将来的には、田舎道をより安全にするシステムを開発することで、この事業を拡大する計画だ。

As the population grows and more land is being used for urbanization, ecosystems are disrupted by our roads and cars. This expansion of infrastructure cuts through wildlife territories, leading to many instances of Wildlife-Vehicle Collision (WVC). These instances of WVC are a global issue that is having a global socio-economic impact, resulting in billions of dollars in property damage and, at times, fatalities for vehicle occupants. In Saudi Arabia, this issue is similar, with instances of Camel-Vehicle Collision (CVC) being particularly deadly due to the large size of camels, which results in a 25% fatality rate [4]. The focus of this work is to test different object detection models on the task of detecting camels on the road. The Deep Learning (DL) object detection models used in the experiments are: CenterNet, EfficientDet, Faster R-CNN, and SSD. Results of the experiments show that CenterNet performed the best in terms of accuracy and was the most efficient in training. In the future, the plan is to expand on this work by developing a system to make countryside roads safer.
翻訳日:2023-01-24 13:53:56 公開日:2023-01-23
# 差を強調するために類似性を用いる:胸部x線登録法における解剖学的仮定の影響について

Employing similarity to highlight differences: On the impact of anatomical assumptions in chest X-ray registration methods ( http://arxiv.org/abs/2301.09338v1 )

ライセンス: Link先を確認
Astrid Berg, Eva Vandersmissen, Maria Wimmer, David Major, Theresa Neubauer, Dimitrios Lenis, Jeroen Cant, Annemiek Snoeckx and Katja B\"uhler(参考訳) 胸部x線所見の検出と解釈を容易にするため、同じ患者の以前の画像との比較は放射線科医にとって非常に有用である。 現在、胸部X線を自動的に検査するディープラーニング手法の最も一般的なアプローチは、患者の歴史を無視し、単一の画像のみを正常または異常に分類するものである。 それにもかかわらず、画像登録による比較作業を支援するいくつかの方法が過去に提案されている。 しかし, 心内膜や灌流などの病理学的変化を見逃しがちである。 固定解剖学的構造の仮定や登録品質の測定のため、移動画像と固定画像の差分画像の可視化に影響を及ぼす不自然に変形したワープフィールドを生成する傾向がある。 これらの制約を克服するために、解剖学的にペナル化された解剖学的登録のための個々のリブ対セグメンテーションに基づく新しいパラダイムを最初に用いた。 我々は,25以上の完全ラベル付きと50の部分的にラベル付きトレーニング画像から始まり,ホールドロップアウト,弱いラベル付け,粗さから細分化,ガウス混合モデルヒストグラムマッチングを用いた逐次インスタンスメモリセグメンテーションを用いて,他の方法が見落としているものを可視化する深層学習型ソリューションの開発が可能であることを示す。 我々は, 胸部X線登録におけるSOTA法の有用性を統計的に評価し, その限界を強調した。

To facilitate both the detection and the interpretation of findings in chest X-rays, comparison with a previous image of the same patient is very valuable to radiologists. Today, the most common approach for deep learning methods to automatically inspect chest X-rays disregards the patient history and classifies only single images as normal or abnormal. Nevertheless, several methods for assisting in the task of comparison through image registration have been proposed in the past. However, as we illustrate, they tend to miss specific types of pathological changes like cardiomegaly and effusion. Due to assumptions on fixed anatomical structures or their measurements of registration quality they tend to produce unnaturally deformed warp fields impacting visualization of the difference image between moving and fixed images. To overcome these limitations, we are the first to use a new paradigm based on individual rib pair segmentation for anatomy penalized registration, which proves a natural way to limit folding of the warp field, especially beneficial for image pairs with large pathological changes. We show that it is possible to develop a deep learning powered solution that can visualize what other methods overlook on a large data set of paired public images, starting from less than 25 fully labeled and 50 partly labeled training images, employing sequential instance memory segmentation with hole dropout, weak labeling, coarse-to-fine refinement and Gaussian mixture model histogram matching. We statistically evaluate the benefits of our method over the SOTA and highlight the limits of currently used metrics for registration of chest X-rays.
翻訳日:2023-01-24 13:53:33 公開日:2023-01-23
# 極大混合境界を持つ状態の量子条件エントロピーと操舵性

Quantum conditional entropies and steerability of states with maximally mixed marginals ( http://arxiv.org/abs/2301.09326v1 )

ライセンス: Link先を確認
Komal Kumar, Nirman Ganguly(参考訳) 量子ステアリングは、エンタングルメントとベル非局所性の間の位置を占める非対称な相関である。 主人公のアリスとボブが関与するパラダイムシナリオでは、両者が共有する絡み合った状態は、ボブ側のステアリングが局所隠れ状態(lhs)の記述を認めていない場合、アリスからボブまで操縦可能であると言われている。 一方、量子条件エントロピーは、量子相関の別のキャラクタリゼーションを提供する。 ある種の絡み合った状態に対する我々の一般的な直観的条件エントロピーとは対照的に、古典的領域から著しく離れている。 一般に量子ステアリングと量子非局所性は、量子条件エントロピーと複雑な関係を持つ。 本稿では,この関係について考察する。 重要なクラス、すなわち2量子ワイル状態について、条件R\'enyi 2-エントロピーと条件Tsallis 2-エントロピーの負性は、適切に選択された3つの設定の不等式を破る必要十分条件であることを示す。 同じ不等式に関して、条件付き r\'enyi 2-エントロピー の上限を見つけ、一般の 2-量子ビット状態は制御可能である。 特定のステアリング不等式から局所的な隠れ状態記述への移行により、LHSモデルを持つ2量子ワイル状態が非負条件R'enyi 2-エントロピーを持つことを示す。 しかし、非ワイル状態でも同じことが当てはまらない。 さらに,条件付きエントロピーモデルとLHSモデルの等方性とワーナー状態における非負性の関係について検討した。 これらの状態が LHS モデルを持つと、負でない条件R'enyi 2-エントロピーを持つ。 次に, 2-qudit werner状態のノイズ変種についても同じことが成り立つことを観測する。

Quantum steering is an asymmetric correlation which occupies a place between entanglement and Bell nonlocality. In the paradigmatic scenario involving the protagonists Alice and Bob, the entangled state shared between them, is said to be steerable from Alice to Bob, if the steering assemblage on Bob's side do not admit a local hidden state (LHS) description. Quantum conditional entropies, on the other hand provide for another characterization of quantum correlations. Contrary to our common intuition conditional entropies for some entangled states can be negative, marking a significant departure from the classical realm. Quantum steering and quantum nonlocality in general, share an intricate relation with quantum conditional entropies. In the present contribution, we investigate this relationship. For a significant class, namely the two-qubit Weyl states we show that negativity of conditional R\'enyi 2-entropy and conditional Tsallis 2-entropy is a necessary and sufficient condition for the violation of a suitably chosen three settings steering inequality. With respect to the same inequality, we find an upper bound for the conditional R\'enyi 2-entropy, such that the general two-qubit state is steerable. Moving from a particular steering inequality to local hidden state descriptions, we show that some two-qubit Weyl states which admit a LHS model possess non-negative conditional R\'enyi 2-entropy. However, the same does not hold true for some non-Weyl states. Our study further investigates the relation between non-negativity of conditional entropy and LHS models in two-qudits for the isotropic and Werner states. There we find that whenever these states admit a LHS model, they possess a non-negative conditional R\'enyi 2-entropy. We then observe that the same holds true for a noisy variant of the two-qudit Werner state.
翻訳日:2023-01-24 13:53:03 公開日:2023-01-23
# 開量子システムの非マルコフ性の評価と量子状態距離の測定に必要な一般化

Assessment of the degree of non-Markovianity of open quantum systems and the necessary generalization of quantum state distance measures ( http://arxiv.org/abs/2301.09323v1 )

ライセンス: Link先を確認
G. Mouloudakis, I. Stergou, and P. Lambropoulos(参考訳) 本研究では,一端が貯水池に結合した相互作用量子ビットのXX鎖に対する非マルコビアン性(DNM)の度合いを定量的に評価する。 DNMは、様々な量子状態距離(QSD)測度と、非マルコフスペクトル密度の様々なケースで評価される。 我々のアプローチは、マスター方程式を必要とせず、開鎖の密度行列を構成することに基づいている。 dnmの定量化のために、マルコフ崩壊と様々な非マルコフ損傷のケースの間のqsd測度のダイナミクスを計算する。 文献上, 保存密度行列を暗示する形で現れるいくつかのQSD測度から, 減衰したトレースを持つオープンシステムに適用できるように, 適切な修正を加えている。 その結果,様々なQSD尺度間に顕著な一貫性が得られた。 彼らはまた、qubit-qubit 相互作用と非マルコフ減衰の間の微妙で潜在的に有用な相互作用を明らかにしている。 我々の計算では、四角いローレンツ貯水池による散逸が驚くほど遅くなっていることも判明した。

We provide a quantitative evaluation of the degree of non-Markovianity (DNM) for an XX chain of interacting qubits with one end coupled to a reservoir. The DNM is assessed in terms of various quantum state distance (QSD) measures and various cases of non-Markovian spectral densities. Our approach is based on the construction of the density matrix of the open chain, without the necessity of a master equation. For the quantification of the DNM we calculate the dynamics of the QSD measures between the Markovian-damped and various types of non-Markovian-damped cases. Since in the literature several QSD measures, appear in forms that imply trace preserving density matrices, we introduced appropriate modifications so as to render them applicable to open systems with damped traces. Our results produce remarkable consistency between the various QSD measures. They also reveal a subtle and potentially useful interplay between qubit-qubit interaction and non-Markovian damping. Our calculations have also uncovered a surprisingly dramatic slowing-down of dissipation by the squared Lorentzian reservoir.
翻訳日:2023-01-24 13:52:29 公開日:2023-01-23
# 深層学習によるcovid-19脳微小出血の評価

Deep Learning-Based Assessment of Cerebral Microbleeds in COVID-19 ( http://arxiv.org/abs/2301.09322v1 )

ライセンス: Link先を確認
Neus Rodeja Ferrer, Malini Vendela Sagar, Kiril Vadimovic Klein, Christina Kruuse, Mads Nielsen, Mostafa Mehdipour Ghazi(参考訳) 脳のマイクロブリード(cmbs)は、典型的には感受性強調画像(swi)の低血圧として捉えられ、認知症、脳血管疾患、正常な加齢の研究に特に重要である。 最近のcovid-19に関する研究では、新型コロナウイルスのcmbの増加が示されている。 CMBの自動検出は、クラスを高度に不均衡にするため、CMBの自動検出は困難であり、また、石灰化、鉄、静脈などのCMBの模倣と類似性がある。 したがって、既存のディープラーニング手法は、ほとんどが非常に限られた研究データに基づいて訓練されており、高い変動性を持つ未発見のデータへの一般化に失敗し、臨床設定に使用できない。 そこで本研究では,マルチドメインデータに積極的に学習する効率的な3次元ディープラーニングフレームワークを提案する。 通常の老化、脳卒中、アルツハイマー病の分析に割り当てられた2つのパブリックデータセットと、COVID-19アセスメントのための社内データセットを使用して、モデルをトレーニングし評価する。 その結果, 提案手法は低解像度画像に対して頑健であり, テストセット全体の78%のリコールと80%の精度を実現し, 1スキャンあたりの平均偽陽性は1.6。

Cerebral Microbleeds (CMBs), typically captured as hypointensities from susceptibility-weighted imaging (SWI), are particularly important for the study of dementia, cerebrovascular disease, and normal aging. Recent studies on COVID-19 have shown an increase in CMBs of coronavirus cases. Automatic detection of CMBs is challenging due to the small size and amount of CMBs making the classes highly imbalanced, lack of publicly available annotated data, and similarity with CMB mimics such as calcifications, irons, and veins. Hence, the existing deep learning methods are mostly trained on very limited research data and fail to generalize to unseen data with high variability and cannot be used in clinical setups. To this end, we propose an efficient 3D deep learning framework that is actively trained on multi-domain data. Two public datasets assigned for normal aging, stroke, and Alzheimer's disease analysis as well as an in-house dataset for COVID-19 assessment are used to train and evaluate the models. The obtained results show that the proposed method is robust to low-resolution images and achieves 78% recall and 80% precision on the entire test set with an average false positive of 1.6 per scan.
翻訳日:2023-01-24 13:52:13 公開日:2023-01-23
# 食品安全シナリオの影響評価のための枠組み

A Framework for Evaluating the Impact of Food Security Scenarios ( http://arxiv.org/abs/2301.09320v1 )

ライセンス: Link先を確認
Rachid Belmeskine, Abed Benaichouche(参考訳) 本研究は,食品の安全性に及ぼすシナリオの影響を予測し,その応用を事例研究で示すアプローチを提案する。 このアプローチには,(1)シナリオ定義,(2)シナリオテンプレートを用いてシナリオの仮定と影響をエンドユーザが指定するシナリオ定義,(2)シナリオ評価,(3)ベクトル自己回帰(VAR)モデルをモンテカルロシミュレーションと組み合わせてシナリオの影響を予測するシナリオ評価,の2つのステップがある。 このケーススタディは、国連食糧農業機関(faostat)、世界銀行、アメリカ合衆国農務省(usda)のデータを用いて作成された、プロプライエタリな時系列食品安全保障データベースに基づいている。 データベースには、生産、貿易、消費、価格、可用性、アクセス、栄養価など、食品の安全に関する様々な指標に関する幅広いデータが含まれている。 その結果,提案手法は,食品セキュリティに対するシナリオの潜在的な影響を予測するために,また,プロプライエタリな時系列食品セキュリティデータベースを用いて,このアプローチをサポートすることができることが示された。 この研究は、このアプローチが、食品価格やケーススタディ地域での可用性などの食品の安全性に関する意思決定プロセスにどのように影響を与えるかについて、具体的な洞察を提供する。

This study proposes an approach for predicting the impacts of scenarios on food security and demonstrates its application in a case study. The approach involves two main steps: (1) scenario definition, in which the end user specifies the assumptions and impacts of the scenario using a scenario template, and (2) scenario evaluation, in which a Vector Autoregression (VAR) model is used in combination with Monte Carlo simulation to generate predictions for the impacts of the scenario based on the defined assumptions and impacts. The case study is based on a proprietary time series food security database created using data from the Food and Agriculture Organization of the United Nations (FAOSTAT), the World Bank, and the United States Department of Agriculture (USDA). The database contains a wide range of data on various indicators of food security, such as production, trade, consumption, prices, availability, access, and nutritional value. The results show that the proposed approach can be used to predict the potential impacts of scenarios on food security and that the proprietary time series food security database can be used to support this approach. The study provides specific insights on how this approach can inform decision-making processes related to food security such as food prices and availability in the case study region.
翻訳日:2023-01-24 13:51:55 公開日:2023-01-23
# 地球モニタリングの基礎モデルに向けて:自然災害セグメンテーションのための一般化可能な深層学習モデル

Toward Foundation Models for Earth Monitoring: Generalizable Deep Learning Models for Natural Hazard Segmentation ( http://arxiv.org/abs/2301.09318v1 )

ライセンス: Link先を確認
Johannes Jakubik, Michal Muszynski, Michael V\"ossing, Niklas K\"uhl, Thomas Brunschwiler(参考訳) 気候変動は、社会やビジネスを世界的な規模で危険にさらす極端な気象事象の確率を増加させる。 したがって、自然災害のほぼリアルタイムマッピングは、自然災害の救済、リスク管理、政府の政策決定の伝達を支援するための新たな優先事項である。 リアルタイムに近いマッピングを実現するための最近の手法は、ディープラーニング(DL)を活用している。 しかし、DLベースのアプローチは、衛星データの特定の周波数帯域に基づいて、1つの地理的領域における1つの特定のタスクのために設計されている。 そのため、特定の自然災害をマップするために使われるDLモデルは、目に見えない地域での他の種類の自然災害への一般化に苦しむ。 本研究では,適切なプレタスクによる事前学習に基づいて,DL自然災害マッパーの一般化可能性を大幅に向上させる手法を提案する。 対象領域からのデータにアクセスせずに、4つのU-Netアーキテクチャにまたがる一般化可能性の向上を実証する。 重要な点として,本手法は衛星データの周波数帯域の種類と地理的差に不変である。 公開可能な対象領域からのラベルなし画像の特性を活用することで,より微調整することなく,一般化動作をさらに改善することができる。 そこで本研究では,衛星画像の異なる領域にまたがる未知の自然災害を直接分類することを目的として,地球観測のための基盤モデルの開発を支援する。

Climate change results in an increased probability of extreme weather events that put societies and businesses at risk on a global scale. Therefore, near real-time mapping of natural hazards is an emerging priority for the support of natural disaster relief, risk management, and informing governmental policy decisions. Recent methods to achieve near real-time mapping increasingly leverage deep learning (DL). However, DL-based approaches are designed for one specific task in a single geographic region based on specific frequency bands of satellite data. Therefore, DL models used to map specific natural hazards struggle with their generalization to other types of natural hazards in unseen regions. In this work, we propose a methodology to significantly improve the generalizability of DL natural hazards mappers based on pre-training on a suitable pre-task. Without access to any data from the target domain, we demonstrate this improved generalizability across four U-Net architectures for the segmentation of unseen natural hazards. Importantly, our method is invariant to geographic differences and differences in the type of frequency bands of satellite data. By leveraging characteristics of unlabeled images from the target domain that are publicly available, our approach is able to further improve the generalization behavior without fine-tuning. Thereby, our approach supports the development of foundation models for earth monitoring with the objective of directly segmenting unseen natural hazards across novel geographic regions given different sources of satellite imagery.
翻訳日:2023-01-24 13:51:33 公開日:2023-01-23
# 行動可能な知識に関する調査

A Survey on Actionable Knowledge ( http://arxiv.org/abs/2301.09317v1 )

ライセンス: Link先を確認
Sayed Erfan Arefin(参考訳) Actionable Knowledge Discovery (AKD) は、データマイニングにおいて重要な側面であり、広く普及し、幅広い領域に適用されている。 これは、akdが大きなデータセットから貴重な洞察や情報(知識としても知られる)を抽出することができるためである。 本研究の目的は、様々な分野に焦点をあて、異なる目的を持つ様々な研究を調査することである。 本稿は,これらの研究で用いられている手法を詳細に検討し,議論する。 AKDはデータから実行可能な洞察を識別し抽出するプロセスであり、情報的意思決定やビジネス成果の改善に使用することができる。 顧客関係管理やマーケティング,不正検出など,さまざまなアプリケーションに使用可能な,データのパターンや傾向を明らかにするための強力なツールだ。 本稿では、医療、金融、電気通信など、さまざまな分野におけるAKDの様々な技術とアプローチについて検討する。 本稿は,この分野におけるakdの現状を徹底的に分析し,様々な研究で用いられる主な手法について概説する。 さらに,本論文では,各手法の利点とデメリットを評価し,その分野における新しい解や新しい解について論じる。 全体として、本論文はakdで使用される手法と技法の概要と異なるドメインへの影響について述べることを目的としている。

Actionable Knowledge Discovery (AKD) is a crucial aspect of data mining that is gaining popularity and being applied in a wide range of domains. This is because AKD can extract valuable insights and information, also known as knowledge, from large datasets. The goal of this paper is to examine different research studies that focus on various domains and have different objectives. The paper will review and discuss the methods used in these studies in detail. AKD is a process of identifying and extracting actionable insights from data, which can be used to make informed decisions and improve business outcomes. It is a powerful tool for uncovering patterns and trends in data that can be used for various applications such as customer relationship management, marketing, and fraud detection. The research studies reviewed in this paper will explore different techniques and approaches for AKD in different domains, such as healthcare, finance, and telecommunications. The paper will provide a thorough analysis of the current state of AKD in the field and will review the main methods used by various research studies. Additionally, the paper will evaluate the advantages and disadvantages of each method and will discuss any novel or new solutions presented in the field. Overall, this paper aims to provide a comprehensive overview of the methods and techniques used in AKD and the impact they have on different domains.
翻訳日:2023-01-24 13:51:14 公開日:2023-01-23
# ddml:stataのダブル/デバイアス機械学習

ddml: Double/debiased machine learning in Stata ( http://arxiv.org/abs/2301.09397v1 )

ライセンス: Link先を確認
Achim Ahrens, Christian B. Hansen, Mark E. Schaffer, Thomas Wiemann(参考訳) 本稿では,Double/Debiased Machine Learning (DDML) のパッケージddmlを紹介する。 5つの異なる計量モデルに対する因果パラメータの推定がサポートされ、未知の機能形式や多くの外因性変数の設定において内因性変数の因果効果を柔軟に推定することができる。 ddmlは、スタタの既存の教師付き機械学習プログラムと互換性がある。 マルチマシン学習者を最終予測器に組み合わせたスタック推定とddmlを併用することを推奨する。 我々は推薦を支持するためにモンテカルロの証拠を提供する。

We introduce the package ddml for Double/Debiased Machine Learning (DDML) in Stata. Estimators of causal parameters for five different econometric models are supported, allowing for flexible estimation of causal effects of endogenous variables in settings with unknown functional forms and/or many exogenous variables. ddml is compatible with many existing supervised machine learning programs in Stata. We recommend using DDML in combination with stacking estimation which combines multiple machine learners into a final predictor. We provide Monte Carlo evidence to support our recommendation.
翻訳日:2023-01-24 13:45:12 公開日:2023-01-23
# 2成分ボース・アインシュタイン凝縮体の相転移における非線形経路の普遍性

Universality in nonlinear passage through the miscible-immiscible phase transition in two component Bose-Einstein condensates ( http://arxiv.org/abs/2301.09389v1 )

ライセンス: Link先を確認
Xunda Jiang, Yikai Ji, Bin Liu, Feng Li, Xizhou Qin, Yongyao Li and Chaohong Lee(参考訳) 本研究では、2成分ボース・アインシュタイン凝縮体におけるドメイン欠陥と普遍臨界リアルタイムダイナミクスの形成と、不可解相転移の非線形焼成について検討する。 ボゴリューボフ励起を解析することにより, 欠陥密度, 相転移遅延, 相転移近傍のクエンチ時間との間には負の相関関係が得られた。 さらに,相転移における相転移のリアルタイムダイナミクスをシミュレートすることにより,相転移の遅れと領域欠陥の形成を明らかにした。 さらに, 領域欠陥は大きな非線形係数と長いクエンチ時間によって抑制されることがわかった。 ドメイン欠陥を正確に特徴付けるために,相関長と領域数を用いて欠陥励起量を定量化する。 さらに,相転移遅延とクエンチ時間とのパワーロー関係を組み合わせることにより,非線形係数の異なる臨界指数を抽出する。 本研究は, 臨界指数が非線形クエンチに敏感に依存しないだけでなく, 非線形励起の抑制に向けた動的経路も示している。

In this study, we investigate the formation of domain defects and the universal critical real-time dynamics in a two-component Bose-Einstein condensate with nonlinear quenching across the miscible-immiscible phase transition. By analyzing the Bogoliubov excitations, we obtain the power-law relations among the defect density, the phase transition delay and the quench time near the phase transition. Moreover, by simulating the real-time dynamics across the miscible-immiscible phase transition, we clearly show the formation of domain defects and the delay of the phase transition. Furthermore, we find that the domain defects are suppressed by large nonlinear coefficients and long quench times. To accurately characterize the domain defects, we quantify the defect excitations using the correlation length and the domain number. In addition, by combining the power-law relations between the phase transition delay and the quench time, we extract the critical exponents for different nonlinear coefficients. Our study not only confirms that the critical exponents do not sensitively depend on the nonlinear quenches but also provides a dynamic path toward the suppression of nonadiabatic excitation.
翻訳日:2023-01-24 13:45:03 公開日:2023-01-23
# LSTMとCNNによる重力波実データ中核崩壊超新星探索

LSTM and CNN application for core-collapse supernova search in gravitational wave real data ( http://arxiv.org/abs/2301.09387v1 )

ライセンス: Link先を確認
Alberto Iess and Elena Cuoco and Filip Morawski and Constantina Nicolaou and Ofer Lahav(参考訳) 価格:$context。 コア崩壊型超新星(CCSNe)は、銀河系や近隣の銀河の中で現在および将来の世代の干渉計によって検出される重力波信号を放出することが期待されている。 CCSNeから生じる信号の確率的性質は、マッチングフィルタリングに代わる検出方法を必要とする。 $Aims。 実データを用いた各種CCSNeシミュレート信号と雑音過渡音のマルチラベル分類における機械学習(ML)の可能性を示すことを目的としている。 我々は,1次元および2次元畳み込みニューラルネットワーク(CNN)の性能を,単一および複数検出器データ上で比較した。 また,Long Short-term memory (LSTM) ネットワークを用いた複数ラベル分類実験を行った。 methods です。 我々は、イベントトリガ発生器であるウェーブレット検出フィルタ(WDF)とMLを組み合わせたCCSNe信号の探索および分類手順を適用した。 mlモデルの入力として,データの時系列表現と時間周波数表現を用いた。 分類精度を計算するため,ニュートリノ駆動核崩壊の流体力学シミュレーションから得られた1\,kpc,CCSN波形を,O2 LIGOおよびVirgo科学ランからの干渉計ノイズに同時に注入した。 results.com。 単体検出器データにおける3つのモデルの性能を比較した。 次に、単一検出器によるノイズと天体の過渡現象の分類のためのモデルの出力をマージし、ligo ($\sim99\%$) と virgo ($\sim80\%$) の全体的なアキュラシーを得た。 3つのitf間で一致したトリガーを用いて解析をマルチ検出器ケースに拡張し,$\sim98\%$ の精度を得た。

$Context.$ Core-collapse supernovae (CCSNe) are expected to emit gravitational wave signals that could be detected by current and future generation interferometers within the Milky Way and nearby galaxies. The stochastic nature of the signal arising from CCSNe requires alternative detection methods to matched filtering. $Aims.$ We aim to show the potential of machine learning (ML) for multi-label classification of different CCSNe simulated signals and noise transients using real data. We compared the performance of 1D and 2D convolutional neural networks (CNNs) on single and multiple detector data. For the first time, we tested multi-label classification also with long short-term memory (LSTM) networks. $Methods.$ We applied a search and classification procedure for CCSNe signals, using an event trigger generator, the Wavelet Detection Filter (WDF), coupled with ML. We used time series and time-frequency representations of the data as inputs to the ML models. To compute classification accuracies, we simultaneously injected, at detectable distance of 1\,kpc, CCSN waveforms, obtained from recent hydrodynamical simulations of neutrino-driven core-collapse, onto interferometer noise from the O2 LIGO and Virgo science run. $Results.$ We compared the performance of the three models on single detector data. We then merged the output of the models for single detector classification of noise and astrophysical transients, obtaining overall accuracies for LIGO ($\sim99\%$) and ($\sim80\%$) for Virgo. We extended our analysis to the multi-detector case using triggers coincident among the three ITFs and achieved an accuracy of $\sim98\%$.
翻訳日:2023-01-24 13:44:41 公開日:2023-01-23
# ドメイン固有ニューラルネットワークアーキテクチャの設計への構造的アプローチ

A Structural Approach to the Design of Domain Specific Neural Network Architectures ( http://arxiv.org/abs/2301.09381v1 )

ライセンス: Link先を確認
Gerrit Nolte(参考訳) これは幾何学的深層学習の理論思想に関する修士論文である。 幾何学的ディープラーニングは、ニューラルネットワークアーキテクチャの構造的特徴付けを提供することを目的としている。 この論文は、学習性能に関する不変ニューラルネットワークの特性を特徴づける理論的な結果をコンパイルし、幾何学的深層学習の理論的評価を提供することを目的としている。

This is a master's thesis concerning the theoretical ideas of geometric deep learning. Geometric deep learning aims to provide a structured characterization of neural network architectures, specifically focused on the ideas of invariance and equivariance of data with respect to given transformations. This thesis aims to provide a theoretical evaluation of geometric deep learning, compiling theoretical results that characterize the properties of invariant neural networks with respect to learning performance.
翻訳日:2023-01-24 13:44:10 公開日:2023-01-23
# Crowd3D:1枚の画像から数百人の再建を目指す

Crowd3D: Towards Hundreds of People Reconstruction from a Single Image ( http://arxiv.org/abs/2301.09376v1 )

ライセンス: Link先を確認
Hao Wen, Jing Huang, Huili Cui, Haozhe Lin, YuKun Lai, Lu Fang and Kun Li(参考訳) 広視野大シーンにおける画像に基づく多人数再構築は,群集分析とセキュリティ警告にとって重要である。 しかし、既存の手法では数百人の人々を含む大きなシーンは扱えないため、多くの人々の挑戦、人間の規模の大きなバリエーション、複雑な空間分布に遭遇する。 本稿では,1つの大画面画像からグローバルな一貫性を持つ数百人の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。 このアプローチの核心は,新たな概念であるhvip(human-scene virtual interaction point)の助けを借りて,複雑なクラウドローカライゼーションの問題をピクセルローカライゼーションに変換することである。 観客をグローバルな整合性で再構築するために,シーンレベルのカメラと地上平面を事前推定することにより,HVIPに基づく進行的再構成ネットワークを提案する。 多数の人と様々な大きさの人間を扱うため、適応型人間中心のクロッピングスキームも設計する。 さらに,大規模シーンにおける群集再構築のためのベンチマークデータセット largecrowd もコントリビュートする。 実験の結果,提案手法の有効性が示された。 コードとデータセットは公開される予定だ。

Image-based multi-person reconstruction in wide-field large scenes is critical for crowd analysis and security alert. However, existing methods cannot deal with large scenes containing hundreds of people, which encounter the challenges of large number of people, large variations in human scale, and complex spatial distribution. In this paper, we propose Crowd3D, the first framework to reconstruct the 3D poses, shapes and locations of hundreds of people with global consistency from a single large-scene image. The core of our approach is to convert the problem of complex crowd localization into pixel localization with the help of our newly defined concept, Human-scene Virtual Interaction Point (HVIP). To reconstruct the crowd with global consistency, we propose a progressive reconstruction network based on HVIP by pre-estimating a scene-level camera and a ground plane. To deal with a large number of persons and various human sizes, we also design an adaptive human-centric cropping scheme. Besides, we contribute a benchmark dataset, LargeCrowd, for crowd reconstruction in a large scene. Experimental results demonstrate the effectiveness of the proposed method. The code and datasets will be made public.
翻訳日:2023-01-24 13:44:03 公開日:2023-01-23
# 低深さ変分量子アルゴリズムを用いたスケッチ位相図

Sketching phase diagrams using low-depth variational quantum algorithms ( http://arxiv.org/abs/2301.09369v1 )

ライセンス: Link先を確認
Jan Lukas Bosse, Raul Santos and Ashley Montanaro(参考訳) 古典的シミュレーションを用いた量子システムの位相図のマッピングは、熱力学的限界から遠く離れた小さな量子系をシミュレートするのに必要な計算資源のために困難または難解である。 本稿では,量子コンピュータと変分量子固有解法(vqe)を用いて検討する。 VQEを用いて正確な基底状態を作成するタスクとは対照的に、スケッチ相図は異なる位相を正確に識別するのに十分な密度の低い基底状態への近似を必要とするため、量子資源と精度が低い。 低深度VQE回路の古典的数値シミュレーションを用いて、1Dと2Dの混合を表す4つのよく研究されたスピンおよびフェルミオンモデルの秩序パラメータと、正確に解ける古典的ハードシステムの秩序パラメータを計算した。 真の基底状態との重なり合いが小さい場合でも,VQEが生成した状態を用いて,位相遷移の位置を妥当な精度で予測することが可能である。 さらに,vqeエネルギーが回路深度に対して向上する速度に基づいて,相転移のモデル非依存予測器を導入することにより,相転移の予測も可能となる。

Mapping out phase diagrams of quantum systems using classical simulations can be challenging or intractable due to the computational resources required to simulate even small quantum systems far away from the thermodynamic limit. We investigate using quantum computers and the Variational Quantum Eigensolver (VQE) for this task. In contrast to the task of preparing the exact ground state using VQE, sketching phase diagrams might require less quantum resources and accuracy, because low fidelity approximations to the ground state may be enough to correctly identify different phases. We used classical numerical simulations of low-depth VQE circuits to compute order parameters for four well-studied spin and fermion models which represent a mix of 1D and 2D, and exactly-solvable and classically hard systems. We find that it is possible to predict the location of phase transitions up to reasonable accuracy using states produced by VQE even when their overlap with the true ground state is small. Further, we introduce a model-agnostic predictor of phase transitions based on the speed with which the VQE energy improves with respect to the circuit depth, and find that in some cases this is also able to predict phase transitions.
翻訳日:2023-01-24 13:43:46 公開日:2023-01-23
# 量子生成モデルの性能評価

A performance characterization of quantum generative models ( http://arxiv.org/abs/2301.09363v1 )

ライセンス: Link先を確認
Carlos A. Riofr\'io, Oliver Mitevski, Caitlin Jones, Florian Krellner, Aleksandar Vu\v{c}kovi\'c, Joseph Doetsch, Johannes Klepsch, Thomas Ehmer, and Andre Luckow(参考訳) 量子生成モデリングは、産業関連アプリケーションへの関心が高まっている。 この分野はまだ初期段階にあり、多くの競合する技術がある。 この研究は、量子コンピューティングの実践者がどのモデルやテクニックをアプリケーションで使うかを決める際に、幅広い手法を体系的に比較する試みである。 量子生成モデリングに使用されるパラメトリック量子回路のアーキテクチャ上の要点を比較する。 1. 連続値のデータサンプルを生成する 'emph{continuous} アーキテクチャ、および 2. 離散グリッド上でサンプルを行う \emph{discrete} アーキテクチャ。 異なるデータ変換の性能を比較する: min-max変換による正規化や確率積分変換。 2つの一般的なトレーニング手法により、データセットの基盤となる確率分布を学習する。 1.量子回路ボルンマシン(QCBM)、及び 2.量子生成敵ネットワーク(QGAN) モデルパラメータの数が増えるにつれて、同様の訓練を受けた古典的ニューラルネットワークのベースラインとともに、それらのパフォーマンスとトレードオフを調査した。 この研究は6つの低次元合成と2つの実財務データに対して行われた。 私たちの2つの重要な発見は 1.すべてのデータセットに対して、我々の量子モデルは、古典的パラメータよりも類似または少ないパラメータを必要とする。 極端な場合、量子モデルは桁違いのパラメータを2つ必要とします。 2) 確率分布のコプラを学習する「emph{discrete} アーキテクチャ」の変種が他の手法よりも優れていることを実証的に見出した。

Quantum generative modeling is a growing area of interest for industry-relevant applications. With the field still in its infancy, there are many competing techniques. This work is an attempt to systematically compare a broad range of these techniques to guide quantum computing practitioners when deciding which models and techniques to use in their applications. We compare fundamentally different architectural ansatzes of parametric quantum circuits used for quantum generative modeling: 1. A \emph{continuous} architecture, which produces continuous-valued data samples, and 2. a \emph{discrete} architecture, which samples on a discrete grid. We compare the performance of different data transformations: normalization by the min-max transform or by the probability integral transform. We learn the underlying probability distribution of the data sets via two popular training methods: 1. quantum circuit Born machines (QCBM), and 2. quantum generative adversarial networks (QGAN). We study their performance and trade-offs as the number of model parameters increases, with the baseline of similarly trained classical neural networks. The study is performed on six low-dimensional synthetic and two real financial data sets. Our two key findings are that: 1. For all data sets, our quantum models require similar or fewer parameters than their classical counterparts. In the extreme case, the quantum models require two of orders of magnitude less parameters. 2. We empirically find that a variant of the \emph{discrete} architecture, which learns the copula of the probability distribution, outperforms all other methods.
翻訳日:2023-01-24 13:43:26 公開日:2023-01-23
# 深層学習時代の心音解析に関する総合的調査

A Comprehensive Survey on Heart Sound Analysis in the Deep Learning Era ( http://arxiv.org/abs/2301.09362v1 )

ライセンス: Link先を確認
Zhao Ren, Yi Chang, Thanh Tam Nguyen, Yang Tan, Kun Qian, Bj\"orn W. Schuller(参考訳) 心血管疾患の早期スクリーニングにおける臨床的有用性について検討した。 高度に訓練された専門家の聴診要求が高いため、信号処理や機械学習による自動聴診は、補助的な診断と専門医の負担軽減に役立つ。 それでも、古典的な機械学習は、ビッグデータの時代におけるパフォーマンス改善に限られている。 ディープラーニングは多くの研究分野において、効率的な表現を抽出する能力の強いより複雑なモデルアーキテクチャを採用するため、古典的な機械学習よりも優れたパフォーマンスを実現している。 深層学習は、近年、心臓の音の分析に成功している。 心臓音響分析に関するほとんどのレビューが2017年以前に行われたように、この調査は、2017年から2022年までの6年間に、深層学習による心臓音響解析に関する論文の概要をまとめた最初の調査である。 本稿では,古典的機械学習と深層学習の両方を比較し,心音響解析における深層学習の進歩と今後の研究方向性について考察する。

Heart sound auscultation has been demonstrated to be beneficial in clinical usage for early screening of cardiovascular diseases. Due to the high requirement of well-trained professionals for auscultation, automatic auscultation benefiting from signal processing and machine learning can help auxiliary diagnosis and reduce the burdens of training professional clinicians. Nevertheless, classic machine learning is limited to performance improvement in the era of big data. Deep learning has achieved better performance than classic machine learning in many research fields, as it employs more complex model architectures with stronger capability of extracting effective representations. Deep learning has been successfully applied to heart sound analysis in the past years. As most review works about heart sound analysis were given before 2017, the present survey is the first to work on a comprehensive overview to summarise papers on heart sound analysis with deep learning in the past six years 2017--2022. We introduce both classic machine learning and deep learning for comparison, and further offer insights about the advances and future research directions in deep learning for heart sound analysis.
翻訳日:2023-01-24 13:43:07 公開日:2023-01-23
# SMDDH: ヒンディー語の深層学習を用いたシングルトン調律検出

SMDDH: Singleton Mention detection using Deep Learning in Hindi Text ( http://arxiv.org/abs/2301.09361v1 )

ライセンス: Link先を確認
Kusum Lata, Pardeep Singh, and Kamlesh Dutta(参考訳) メンション検出は、名前、名義、代名詞などの言及が識別される、コア参照解決システムの重要な構成要素である。 これらの言及は、純粋にcoreferential mentionsまたはsingleton mentions(非coreferential mentions)である。 coreferential mentionsは、現実世界で同じエンティティを参照するテキスト中の言及である。 一方、シングルトン言及は1回だけテキストで言及され、次のテキストでは再び言及されないため、コア参照には参加しない。 これらのシングルトン項のフィルタリングは、コリファレンス解決プロセスの性能を大幅に改善することができる。 本稿では,完全接続されたネットワークと,ヒンズー語テキストのための畳み込みニューラルネットワークに基づくシングルトン参照検出モジュールを提案する。 このモデルは、いくつかの手作りの特徴と文脈情報と単語への単語埋め込みを利用する。 タスクには、3.6K文と78Kトークンからなるコア参照注釈ヒンディー語データセットが使用される。 精度,リコール,F測定の点で,得られた実験結果は良好である。

Mention detection is an important component of coreference resolution system, where mentions such as name, nominal, and pronominals are identified. These mentions can be purely coreferential mentions or singleton mentions (non-coreferential mentions). Coreferential mentions are those mentions in a text that refer to the same entities in a real world. Whereas, singleton mentions are mentioned only once in the text and do not participate in the coreference as they are not mentioned again in the following text. Filtering of these singleton mentions can substantially improve the performance of a coreference resolution process. This paper proposes a singleton mention detection module based on a fully connected network and a Convolutional neural network for Hindi text. This model utilizes a few hand-crafted features and context information, and word embedding for words. The coreference annotated Hindi dataset comprising of 3.6K sentences, and 78K tokens are used for the task. In terms of Precision, Recall, and F-measure, the experimental findings obtained are excellent.
翻訳日:2023-01-24 13:42:49 公開日:2023-01-23
# 公正なフェデレーション学習を加速する - Adaptive Federated Adam

Accelerating Fair Federated Learning: Adaptive Federated Adam ( http://arxiv.org/abs/2301.09357v1 )

ライセンス: Link先を確認
Li Ju, Tianru Zhang, Salman Toor and Andreas Hellander(参考訳) フェデレーション学習(federated learning)は、さまざまなパーティの分散データから統計モデルを協調的にトレーニングするための、分散およびプライバシ保護のアプローチである。 しかしながら、参加者のデータセットが独立で同一に分散していない場合(非IID)、単純フェデレーションアルゴリズムで訓練されたモデルは特定の参加者に偏りがあり、参加者間でのモデル性能は一様ではない。 これは連合学習における公正問題として知られている。 本稿では, 公平性制御型フェデレーション学習を動的多目的最適化問題として定式化し, 全参加者の公平性を確保する。 この問題を効率的に解決するために,フェデレート学習におけるサーバオプティマイザとしてのAdamの収束とバイアスについて検討し,適応型フェデレーションアダム(AdaFedAdam)を提案する。 我々は,AdaFedAdamの有効性,パレート最適性,ロバスト性を数値実験で検証し,AdaFedAdamが既存のアルゴリズムより優れており,フェデレートされたスキームの収束性や公正性が向上していることを示す。

Federated learning is a distributed and privacy-preserving approach to train a statistical model collaboratively from decentralized data of different parties. However, when datasets of participants are not independent and identically distributed (non-IID), models trained by naive federated algorithms may be biased towards certain participants, and model performance across participants is non-uniform. This is known as the fairness problem in federated learning. In this paper, we formulate fairness-controlled federated learning as a dynamical multi-objective optimization problem to ensure fair performance across all participants. To solve the problem efficiently, we study the convergence and bias of Adam as the server optimizer in federated learning, and propose Adaptive Federated Adam (AdaFedAdam) to accelerate fair federated learning with alleviated bias. We validated the effectiveness, Pareto optimality and robustness of AdaFedAdam in numerical experiments and show that AdaFedAdam outperforms existing algorithms, providing better convergence and fairness properties of the federated scheme.
翻訳日:2023-01-24 13:42:33 公開日:2023-01-23
# ダイソン予想を超えたレベル間隔のパワースペクトルと自己共分散

Power spectra and auto-covariances of level spacings beyond the Dyson conjecture ( http://arxiv.org/abs/2301.09441v1 )

ライセンス: Link先を確認
Roman Riser, Peng Tian, and Eugene Kanzieper(参考訳) ランダム行列理論の初期に導入され、自己共変$\delta I^j_k={\rm cov}(s_j, s_{j+k})$のレベル間隔$\{s_j\}$は個々の固有レベル間の相関関係に関する詳細な情報を満たす。 F. Dyson が最初に予想したのは、無限次元のランダム行列の展開スペクトルにおける遠方の固有レベルの自己共分散は、$\delta I^j_k\approx -1/\beta\pi^2k^2$で、$\beta$ は対称性指数である。 本稿では,レベル間隔の自己共分散とパワースペクトルとの正確な関係を確立し,第5のPainlev\'e超越項の表現が認められることを示す。 この結果はさらに、ダイソンの公式を再現する自己共分散の漸近展開を決定するために利用され、それに対する副リード補正を提供する。 高精度数値シミュレーションは, 実験結果を独立に支援する。

Introduced in the early days of random matrix theory, the auto-covariances $\delta I^j_k={\rm cov}(s_j, s_{j+k})$ of level spacings $\{s_j\}$ accommodate a detailed information on correlations between individual eigenlevels. It was first conjectured by F. Dyson that the auto-covariances of distant eigenlevels in the unfolded spectra of infinite-dimensional random matrices should exhibit a power-law decay $\delta I^j_k\approx -1/\beta\pi^2k^2$, where $\beta$ is the symmetry index. In this paper, we establish an exact link between the auto-covariances of level spacings and their power spectrum, and show that it admits a representation in terms of a fifth Painlev\'e transcendent. This result is further exploited to determine an asymptotic expansion for auto-covariances that reproduces the Dyson formula as well as provides the sub-leading corrections to it. High-precision numerical simulations lend independent support to our results.
翻訳日:2023-01-24 13:35:57 公開日:2023-01-23
# デジタル病理のためのマルチドメイン染色正規化:スライド画像全体に対するサイクル整合対向ネットワーク

Multi-domain stain normalization for digital pathology: A cycle-consistent adversarial network for whole slide images ( http://arxiv.org/abs/2301.09431v1 )

ライセンス: Link先を確認
Martin J. Hetz, Tabea-Clara Bucher, Titus J. Brinker(参考訳) 異なる医療センター間の組織学的染色の変化は、コンピュータ支援診断分野における最も重大な課題の1つである。 病理画像全体の外観の相違は、アルゴリズムの信頼性を低下させ、がん診断のような下流のタスクの幅広い適用性を阻害する。 さらに、異なる染色は、ドメインシフトがテストパフォーマンスに悪影響を及ぼすようなトレーニングにおいてバイアスをもたらす。 そこで本稿では,サイクガンに基づく染色正規化のマルチドメインアプローチであるmultistain-cycleganを提案する。 CycleGANの変更により、異なるモデルを再トレーニングしたり使用したりすることなく、異なる起源の画像の正規化が可能になります。 本手法は,様々なメトリクスを用いて広範囲な評価を行い,マルチドメイン対応の一般的な手法と比較する。 まず,画像に医療センターを割り当てようとするドメイン分類器を,我々の手法がいかにうまく騙すかを評価する。 次に,下流分類器の腫瘍分類性能について正常化試験を行った。 さらに,構造的類似度指標を用いた正規化画像の画質評価とfr\'echetインセプション距離を用いた領域シフトの低減効果について検討した。 以上の結果から,本手法はマルチドメイン能力を示し,比較手法の中で最も高い画質を提供し,腫瘍分類器の性能を維持しつつ,最も確実にドメイン分類器を騙すことができることを示す。 ドメインの影響を小さくすることで、データのバイアスを片手に取り除き、スライド画像全体の起源を他方に偽装することができ、患者のデータのプライバシーを高めることができる。

The variation in histologic staining between different medical centers is one of the most profound challenges in the field of computer-aided diagnosis. The appearance disparity of pathological whole slide images causes algorithms to become less reliable, which in turn impedes the wide-spread applicability of downstream tasks like cancer diagnosis. Furthermore, different stainings lead to biases in the training which in case of domain shifts negatively affect the test performance. Therefore, in this paper we propose MultiStain-CycleGAN, a multi-domain approach to stain normalization based on CycleGAN. Our modifications to CycleGAN allow us to normalize images of different origins without retraining or using different models. We perform an extensive evaluation of our method using various metrics and compare it to commonly used methods that are multi-domain capable. First, we evaluate how well our method fools a domain classifier that tries to assign a medical center to an image. Then, we test our normalization on the tumor classification performance of a downstream classifier. Furthermore, we evaluate the image quality of the normalized images using the Structural similarity index and the ability to reduce the domain shift using the Fr\'echet inception distance. We show that our method proves to be multi-domain capable, provides the highest image quality among the compared methods, and can most reliably fool the domain classifier while keeping the tumor classifier performance high. By reducing the domain influence, biases in the data can be removed on the one hand and the origin of the whole slide image can be disguised on the other, thus enhancing patient data privacy.
翻訳日:2023-01-24 13:35:34 公開日:2023-01-23
# raindiffusion:教師なし学習が実世界画像の拡散モデルと出会うとき

RainDiffusion:When Unsupervised Learning Meets Diffusion Models for Real-world Image Deraining ( http://arxiv.org/abs/2301.09430v1 )

ライセンス: Link先を確認
Mingqiang Wei, Yiyang Shen, Yongzhen Wang, Haoran Xie, Fu Lee Wang(参考訳) 教師なし学習が実世界画像の拡散モデルと出会うとどうなるか? そこで我々は,拡散モデルに基づく最初の教師なし画像デライニングパラダイムであるRainDiffusionを提案する。 RainDiffusionは、従来の教師なしのイメージデラリニングの知恵のほかに、弱い敵の訓練ではなく、現実のデータを安定的に訓練する。 レイン拡散は、非拡散翻訳分枝 (NTB) と拡散翻訳分枝 (DTB) の2つからなる。 NTBは、初期クリーン/レイン画像ペアを生成することで、標準拡散モデルの未ペアトレーニングの難しさを回避するために、サイクル一貫性アーキテクチャを利用する。 DTBは2つの条件付き拡散モジュールを利用して、初期画像対と拡散発生前の出力を段階的に洗練し、デラリニングと雨発生のより優れた一般化能力を得る。 rain-diffusionは、非敵対的なトレーニングパラダイムであり、現実世界のイメージレーディングの新しい標準バーとして機能する。 広範囲にわたる実験により, 雨水拡散が国連/半監督法よりも優れていることを確認し, 完全監督法よりもその優位性が示された。

What will happen when unsupervised learning meets diffusion models for real-world image deraining? To answer it, we propose RainDiffusion, the first unsupervised image deraining paradigm based on diffusion models. Beyond the traditional unsupervised wisdom of image deraining, RainDiffusion introduces stable training of unpaired real-world data instead of weakly adversarial training. RainDiffusion consists of two cooperative branches: Non-diffusive Translation Branch (NTB) and Diffusive Translation Branch (DTB). NTB exploits a cycle-consistent architecture to bypass the difficulty in unpaired training of standard diffusion models by generating initial clean/rainy image pairs. DTB leverages two conditional diffusion modules to progressively refine the desired output with initial image pairs and diffusive generative prior, to obtain a better generalization ability of deraining and rain generation. Rain-Diffusion is a non adversarial training paradigm, serving as a new standard bar for real-world image deraining. Extensive experiments confirm the superiority of our RainDiffusion over un/semi-supervised methods and show its competitive advantages over fully-supervised ones.
翻訳日:2023-01-24 13:35:09 公開日:2023-01-23
# エネルギーモデル学習における非収束サンプリングの効果について

Explaining the effects of non-convergent sampling in the training of Energy-Based Models ( http://arxiv.org/abs/2301.09428v1 )

ライセンス: Link先を確認
Elisabeth Agoritsas, Giovanni Catania, Aur\'elien Decelle, Beatriz Seoane(参考訳) 本稿では,非収束マルコフ連鎖を用いたエネルギーベースモデル(EBM)の訓練の効果を定量化する。 特に,非永続的ショートランで訓練したESMを用いて勾配を推定することにより,平衡測定のレベルでではなく,正確な動的プロセスによって,データの経験的統計を完璧に再現できることを示す。 本研究は,ESMの高品質試料を効率よく生成し,ESMを拡散モデルとして用いるための基礎となる基礎となる手法として,ランダム初期条件からのショートランの利用戦略を提案する。 この効果を汎用ebmsで説明した後、訓練パラメータにおける非収束サンプリングの効果を詳細に記述できる2つの可解モデルの解析を行った。 最後にボルツマンマシン上でこれらの予測を数値的に検証する。

In this paper, we quantify the impact of using non-convergent Markov chains to train Energy-Based models (EBMs). In particular, we show analytically that EBMs trained with non-persistent short runs to estimate the gradient can perfectly reproduce a set of empirical statistics of the data, not at the level of the equilibrium measure, but through a precise dynamical process. Our results provide a first-principles explanation for the observations of recent works proposing the strategy of using short runs starting from random initial conditions as an efficient way to generate high-quality samples in EBMs, and lay the groundwork for using EBMs as diffusion models. After explaining this effect in generic EBMs, we analyze two solvable models in which the effect of the non-convergent sampling in the trained parameters can be described in detail. Finally, we test these predictions numerically on the Boltzmann machine.
翻訳日:2023-01-24 13:34:49 公開日:2023-01-23
# 深層学習型メンタルヘルス対話システム

Deep Learning Mental Health Dialogue System ( http://arxiv.org/abs/2301.09412v1 )

ライセンス: Link先を確認
Lennart Brocki, George C. Dyer, Anna G{\l}adka, Neo Christopher Chung(参考訳) 精神的な健康カウンセリングは、コスト、汚職、恐怖、利用不可能のために現代社会において大きな課題である。 我々は、メンタルヘルスカウンセリング用に設計された生成人工知能(AI)モデルが、アクセス障壁を低くすることで、結果を改善することができると仮定する。 そこで我々は,Serenaと呼ばれるディープラーニング(DL)対話システムを開発した。 このシステムはコア生成モデルと後処理アルゴリズムで構成されている。 コア生成モデルは、2.7億パラメータのseq2seqトランスフォーマであり、何千もの人中心療法(pct)セッションで微調整されている。 一連の後処理アルゴリズムは矛盾を検出し、一貫性を改善し、繰り返し答えを除去する。 serena は \url{https://serena.chat} に実装され、デプロイされる。 対話システムは質的に共感的かつ魅力的な方法で応答できるが、時には幻覚や長期的不整合を示す。 全体として、深層学習型メンタルヘルス対話システムは、アクセス障壁の少ない従来のカウンセラーに対して、低コストで効果的な補完を提供する可能性があることを実証する。

Mental health counseling remains a major challenge in modern society due to cost, stigma, fear, and unavailability. We posit that generative artificial intelligence (AI) models designed for mental health counseling could help improve outcomes by lowering barriers to access. To this end, we have developed a deep learning (DL) dialogue system called Serena. The system consists of a core generative model and post-processing algorithms. The core generative model is a 2.7 billion parameter Seq2Seq Transformer fine-tuned on thousands of transcripts of person-centered-therapy (PCT) sessions. The series of post-processing algorithms detects contradictions, improves coherency, and removes repetitive answers. Serena is implemented and deployed on \url{https://serena.chat}, which currently offers limited free services. While the dialogue system is capable of responding in a qualitatively empathetic and engaging manner, occasionally it displays hallucination and long-term incoherence. Overall, we demonstrate that a deep learning mental health dialogue system has the potential to provide a low-cost and effective complement to traditional human counselors with less barriers to access.
翻訳日:2023-01-24 13:33:33 公開日:2023-01-23
# マイクロマザー量子電池における新しい充電プロトコルのAI発見

AI-discovery of a new charging protocol in a micromaser quantum battery ( http://arxiv.org/abs/2301.09408v1 )

ライセンス: Link先を確認
Carla Rodr\'iguez, Dario Rosa and Jan Olle(参考訳) 量子バッテリ(qb)におけるモデル依存パラメータを最適化するための汎用計算フレームワークを提案する。 この手法をマイクロマザーqbの2つの異なる充電シナリオに適用し,上部のヒルベルト空間におけるバッテリの安定化のための新しい充電プロトコルを,制御および自動的に発見した。 このプロトコルは安定で堅牢であることが判明し、マイクロマザーqbの充電効率が向上する。 さらに、我々の最適化フレームワークは非常に多用途で効率的であり、あらゆるスケールでQB技術の進歩を約束している。

We propose a general computational framework for optimizing model-dependent parameters in quantum batteries (QB). We apply this method to two different charging scenarios in the micromaser QB and we discover a new charging protocol for stabilizing the battery in upper-laying Hilbert space chambers in a controlled and automatic way. This protocol is found to be stable and robust, and it leads to an improved charging efficiency in micromaser QBs. Moreover, our optimization framework is highly versatile and efficient, holding great promise for the advancement of QB technologies at all scales.
翻訳日:2023-01-24 13:33:19 公開日:2023-01-23
# フィールドインストールファイバリンク上の決定論的単一光子源を用いた量子鍵分布

Quantum Key Distribution using Deterministic Single-Photon Sources over a Field-Installed Fibre Link ( http://arxiv.org/abs/2301.09399v1 )

ライセンス: Link先を確認
Mujtaba Zahidy, Mikkel T. Mikkelsen, Ronny M\"uller, Beatrice Da Lio, Martin Krehbiel, Ying Wang, Michael Galili, S{\o}ren Forchhammer, Peter Lodahl, Leif K. Oxenl{\o}we, Davide Bacco, and Leonardo Midolo(参考訳) 量子ドットベースの単一光子源は、コンピューティングと通信のためにオンデマンドのスケーラブルな量子リソースを提供する量子情報技術にとって重要な資産である。 しかし、長期的安定性や光源輝度の制限といった長期的問題は、伝統的に現実世界のアプリケーションでの採用を妨げてきた。 ここでは,コペンハーゲン大都市圏に分布する18kmの暗光ファイバーをまたいだ真の単一光子を用いた量子鍵分布場実験を,テレコム波長に最適化された量子ドット単一光子源周波数変換を用いて実現した。 偏光エンコードbb84方式により、9.6dbチャネル損失を超える2kbits/sの秘密鍵生成速度を実現し、24時間以上の連続動作で顕著な安定性を示す。 本研究は、量子インターネットの目標に向けて、デバイス非依存の量子鍵分布を含む高度な単一光子ベースの通信プロトコルを整備しつつ、決定論的単一光子ソース技術の成熟度を強調した。

Quantum-dot-based single-photon sources are key assets for quantum information technology, supplying on-demand scalable quantum resources for computing and communication. However, longlasting issues such as limited long-term stability and source brightness have traditionally impeded their adoption in real-world applications. Here, we realize a quantum key distribution field trial using true single photons across an 18-km-long dark fibre, located in the Copenhagen metropolitan area, using an optimized, state-of-the-art, quantum-dot single-photon source frequency-converted to the telecom wavelength. A secret key generation rate of 2 kbits/s realized over a 9.6 dB channel loss is achieved with a polarization-encoded BB84 scheme, showing remarkable stability for more than 24 hours of continuous operation. Our results highlight the maturity of deterministic single-photon source technology while paving the way for advanced single-photon-based communication protocols, including fully device-independent quantum key distribution, towards the goal of a quantum internet.
翻訳日:2023-01-24 13:33:09 公開日:2023-01-23
# Qutritの四極性ベリー相のトポロジー

Topology of quadrupolar Berry phase of a Qutrit ( http://arxiv.org/abs/2301.09476v1 )

ライセンス: Link先を確認
Rajeev Singh, Navneet Kumar Karn, Rahul Bhowmick, and Sourin Das(参考訳) スピン=1$系の純四極状態 (\langle \psi | \vec{S} | \psi \rangle = 0$) に関するベリー位相について検討する。 これらの状態のマヨラナ恒星表現を用いて、そのような四極性ベリー位相の位相的性質(ゼロあるいは$\pi$)を視覚化する。 四極子状態の$\pi$ berry相は、ブロック球面上のそれぞれの位置を交換することによって、マヨラナ星が集合的に閉路(大円)をたどることによって引き起こされることを実証する。 また、四極部分空間からの状態が静的磁場を受ける場合の力学の観点から問題を解析する。 このようなハミルトニアンが生成する時間発展により、状態は四極部分空間自身に制限され、0 または $\pi$ に量子化された幾何学的位相(アハラノフ・アナンダン型)を生成する。 四極部分空間を純粋実状態の部分空間に写像する大域的ユニタリ変換は、この部分空間の位相的性質とその反ユニタリ対称性との関係を理解する自然な方法を証明する。

We examine Berry phase pertaining to purely quadrupolar state ($\langle \psi | \vec{S} | \psi \rangle = 0$) of a spin-$1$ system. Using the Majorana stellar representation of these states, we provide a visualization for the topological (zero or $\pi$) nature of such quadrupolar Berry phase. We demonstrates that the $\pi$ Berry phase of quadrupolar state is induced by the Majorana stars collectively tracing out a closed path (a great circle) by exchanging their respective positions on the Bloch sphere. We also analyse the problem from the perspective of dynamics where a state from the quadrupolar subspace is subjected to a static magnetic field. We show that time evolution generated by such Hamiltonian restricts the states to the quadrupolar subspace itself thereby producing a geometric phase (of the Aharonov-Anandan type) quantized to zero or $\pi$. A global unitary transformation which maps the quadrupolar subspace to the subspace of purely real states proves a natural way of understanding the topological character of this subspace and its connection to the anti-unitary symmetries.
翻訳日:2023-01-24 13:27:07 公開日:2023-01-23
# DIFFormer:エネルギー制約拡散によるスケーラブル(グラフ)トランス

DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion ( http://arxiv.org/abs/2301.09474v1 )

ライセンス: Link先を確認
Qitian Wu, Chenxiao Yang, Wentao Zhao, Yixuan He, David Wipf, Junchi Yan(参考訳) 現実世界のデータ生成には、しばしばインスタンス間の複雑な相互依存があり、標準学習パラダイムのiidデータ仮説に違反し、望ましいインスタンス表現を学習するための幾何学的構造を明らかにするための課題となる。 この目的のために、データセットから進化状態へインスタンスのバッチをエンコードするエネルギー制約拡散モデルを導入し、その相互作用によって他のインスタンスの情報を取り込む。 拡散過程は下降条件 w.r.t.~ 潜在構造上のインスタンス表現の大域的一貫性を特徴づける原理エネルギー関数によって制約される。 我々は、任意のインスタンスペア間の対拡散強度の閉形式最適推定を示唆する厳密な理論を提案し、これは、DIFFormer (diffusion-based Transformers)と呼ばれる新しいタイプのニューラルエンコーダを生み出し、二つのインスタンスをインスタンス化する単純なバージョンと、複雑な構造を学ぶための高度なバージョンである。 実験では,大規模グラフのノード分類,半教師付き画像/テキスト分類,空間-時空間ダイナミクス予測など,様々なタスクにおいて優れた性能を持つ汎用エンコーダバックボーンとしてモデルの適用性が強調された。

Real-world data generation often involves complex inter-dependencies among instances, violating the IID-data hypothesis of standard learning paradigms and posing a challenge for uncovering the geometric structures for learning desired instance representations. To this end, we introduce an energy constrained diffusion model which encodes a batch of instances from a dataset into evolutionary states that progressively incorporate other instances' information by their interactions. The diffusion process is constrained by descent criteria w.r.t.~a principled energy function that characterizes the global consistency of instance representations over latent structures. We provide rigorous theory that implies closed-form optimal estimates for the pairwise diffusion strength among arbitrary instance pairs, which gives rise to a new class of neural encoders, dubbed as DIFFormer (diffusion-based Transformers), with two instantiations: a simple version with linear complexity for prohibitive instance numbers, and an advanced version for learning complex structures. Experiments highlight the wide applicability of our model as a general-purpose encoder backbone with superior performance in various tasks, such as node classification on large graphs, semi-supervised image/text classification, and spatial-temporal dynamics prediction.
翻訳日:2023-01-24 13:26:46 公開日:2023-01-23
# xx-ハミルトニアンが支配するスピン1/2鎖に沿った一励状態進化の近距離-neighbor近似

Nearest-neighbor approximation in one-excitation state evolution along spin-1/2 chain governed by XX-Hamiltonian ( http://arxiv.org/abs/2301.09469v1 )

ライセンス: Link先を確認
E.B.Fel'dman and A.I.Zenchuk(参考訳) 近接近傍相互作用(nni)の近似は、スピン-スピン相互作用の強度が$\sim 1/r^3$であるとき、双極子-双極子相互作用(ddi)を伴う短時間スピンダイナミクスにおいて広く用いられる。 しかし、NNIはそのような系の長い時間進化を近似することはできない。 我々は、スピンスピン相互作用の強度である $\sim 1/r^{\alpha}$, $\alpha\ge 3$ を考えるとともに、xx$-hamiltonian によって制御される斉次スピン鎖における任意の1励起初期量子状態の進化に対する nni の適用性の低い境界である $\alpha_c$ を見つける。 鎖長に対する$\alpha_c$の対数依存性を得る。

The approximation of nearest neighbor interaction (NNI) is widely used in short-time spin dynamics with dipole-dipole interactions (DDI) when the intensity of spin-spin interaction is $\sim 1/r^3$, where $r$ is a distance between those spins. However, NNI can not approximate the long time evolution in such systems. We consider the system with the intensity of the spin-spin interaction $\sim 1/r^{\alpha}$, $\alpha\ge 3$, and find the low boundary $\alpha_c$ of applicability of the NNI to the evolution of an arbitrary one-excitation initial quantum state in the homogeneous spin chain governed by the $XX$-Hamiltonian. We obtain the logarithmic dependence of $\alpha_c$ on the chain length.
翻訳日:2023-01-24 13:26:24 公開日:2023-01-23
# ジグザグおよび交互スピン-1/2鎖に沿った1量子状態転移におけるM近傍近似

M-neighbor approximation in one-qubit state transfer along zigzag and alternating spin-1/2 chains ( http://arxiv.org/abs/2301.09464v1 )

ライセンス: Link先を確認
E.B.Fel'dman and A.I.Zenchuk(参考訳) 我々は、$N$-ノードジグザグと、$XXZ$-ハミルトニアンと双極子-双極子相互作用によって支配される交互スピン鎖に沿った1量子純状態移動問題における$M$-neighbor近似を考える。 常に$m>1$、すなわち最も近い近傍の近似はそのような相互作用には適用されない。 さらに、全てのノード相互作用(M=N-1$)だけが交互鎖のダイナミクスを適切に記述している。 高確率状態遷移を提供する連鎖幾何と配向を特徴付けるパラメータ空間の領域を明らかにする。 ジグザグ及び交互鎖に対する最適な状態移動確率と適切な時間インスタントを比較する。

We consider the $M$-neighbor approximation in the problem of one-qubit pure state transfer along the $N$-node zigzag and alternating spin chains governed by the $XXZ$-Hamiltonian with the dipole-dipole interaction. We show that always $M>1$, i.e., the nearest neighbor approximation is not applicable to such interaction. Moreover, only all-node interaction ($M=N-1$) properly describes the dynamics in the alternating chain. We reveal the region in the parameter space characterizing the chain geometry and orientation which provide the high-probability state-transfer. The optimal state-transfer probability and appropriate time instant for the zigzag and alternating chains are compared.
翻訳日:2023-01-24 13:26:01 公開日:2023-01-23
# 頭蓋顔面重ね合わせの識別限界に関する研究

Study on the identification limits of craniofacial superimposition ( http://arxiv.org/abs/2301.09461v1 )

ライセンス: Link先を確認
\'Oscar Ib\'a\~nez, Enrique Bermejo, Andrea Valsecchi(参考訳) 頭蓋顔面の重ね合わせは、頭蓋骨の像と多数の人物のアンテモーテム顔像の重ね合わせと、その形態的対応の分析を含む。 1世紀にわたって使われてきたが、堅固な科学的アプローチ、重要な信頼性研究、国際標準がないため、まだ成熟して完全に受け入れられた技術ではない。 本稿では,鑑識識別技術としての頭蓋顔面重ね合わせの限界に関する包括的実験を行う。 この研究は、ランドマークに基づく自動3D/2D重ね合わせ法による100万回以上の比較実験を含む。 分析対象は320名, 頭蓋顔面ランドマーク29名であった。

Craniofacial Superimposition involves the superimposition of an image of a skull with a number of ante-mortem face images of an individual and the analysis of their morphological correspondence. Despite being used for one century, it is not yet a mature and fully accepted technique due to the absence of solid scientific approaches, significant reliability studies, and international standards. In this paper we present a comprehensive experimentation on the limitations of Craniofacial Superimposition as a forensic identification technique. The study involves different experiments over more than 1 Million comparisons performed by a landmark-based automatic 3D/2D superimposition method. The total sample analyzed consists of 320 subjects and 29 craniofacial landmarks.
翻訳日:2023-01-24 13:25:51 公開日:2023-01-23
# HRVQA:高分解能空中画像のためのビジュアル質問応答ベンチマーク

HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images ( http://arxiv.org/abs/2301.09460v1 )

ライセンス: Link先を確認
Kun Li, George Vosselman, Michael Ying Yang(参考訳) 視覚的質問応答(VQA)はコンピュータビジョンにおいて重要かつ困難なマルチモーダルタスクである。 近年, 災害監視, 都市計画, デジタルアース製品生成における現実的応用の可能性から, VQAタスクを航空画像に適用する試みがいくつか行われている。 しかしながら、空中画像における概念の出現、スケール、配向の大きな変化だけでなく、よく注釈されたデータセットの不足は、この領域におけるVQAの発達を制限する。 本稿では,1024×1024ピクセルと半自動生成1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。 航空画像に対するVQAモデルの理解能力を評価するために,HRVQAの関連手法を評価する。 さらに,ゲート型アテンションモジュールと相互融合モジュールを備えた新しいモデルgftransformerを提案する。 実験の結果,提案したデータセットは,特に属性関連質問において非常に難しいことがわかった。 本手法は従来の最先端手法と比較して優れた性能を実現する。 データセットとソースコードはhttps://hrvqa.nl/でリリースされる。

Visual question answering (VQA) is an important and challenging multimodal task in computer vision. Recently, a few efforts have been made to bring VQA task to aerial images, due to its potential real-world applications in disaster monitoring, urban planning, and digital earth product generation. However, not only the huge variation in the appearance, scale and orientation of the concepts in aerial images, but also the scarcity of the well-annotated datasets restricts the development of VQA in this domain. In this paper, we introduce a new dataset, HRVQA, which provides collected 53512 aerial images of 1024*1024 pixels and semi-automatically generated 1070240 QA pairs. To benchmark the understanding capability of VQA models for aerial images, we evaluate the relevant methods on HRVQA. Moreover, we propose a novel model, GFTransformer, with gated attention modules and a mutual fusion module. The experiments show that the proposed dataset is quite challenging, especially the specific attribute related questions. Our method achieves superior performance in comparison to the previous state-of-the-art approaches. The dataset and the source code will be released at https://hrvqa.nl/.
翻訳日:2023-01-24 13:25:41 公開日:2023-01-23
# 食品選択における非決定論的行動のモデル化

Modeling Non-deterministic Human Behaviors in Discrete Food Choices ( http://arxiv.org/abs/2301.09454v1 )

ライセンス: Link先を確認
Andrew Starnes, Anton Dereventsov, E. Susanne Blazek, Folasade Phillips(参考訳) 人口統計情報からユーザの食品嗜好を予測する非決定論的モデルを構築した。 我々のシミュレーターは、NHANESデータセットとドメインエキスパートの知識を、確立された行動研究の形でベースとしている。 我々のモデルは、元のデータセットに類似した分布の任意の量の合成データポイントを生成し、行動科学の期待と一致させることができる。 このようなシミュレータは、さまざまな機械学習タスク、特に人間の行動予測を必要とするアプリケーションで使用できる。

We establish a non-deterministic model that predicts a user's food preferences from their demographic information. Our simulator is based on NHANES dataset and domain expert knowledge in the form of established behavioral studies. Our model can be used to generate an arbitrary amount of synthetic datapoints that are similar in distribution to the original dataset and align with behavioral science expectations. Such a simulator can be used in a variety of machine learning tasks and especially in applications requiring human behavior prediction.
翻訳日:2023-01-24 13:25:23 公開日:2023-01-23
# 3次元蛍光顕微鏡による高速かつロバストな単一粒子再構成

Fast and robust single particle reconstruction in 3D fluorescence microscopy ( http://arxiv.org/abs/2301.09452v1 )

ライセンス: Link先を確認
Thibaut Eloy, Etienne Baudrier, Marine Laporte, Virginie Hamel, Paul Guichard, Denis Fortun(参考訳) 単一粒子の再構成は3次元蛍光顕微鏡において軸分解能と蛍光標識の程度を改善する強力な技術として最近登場している。 これは、未知のポーズによる複数の視点の獲得から生物粒子の平均体積を再構成することに基づいている。 現在の手法は、テンプレートバイアス、2次元データに対する制限、高い計算コスト、低蛍光ラベリングに対する堅牢性の欠如によって制限されている。 本研究では,これらの問題を克服する3次元蛍光顕微鏡における畳み込みモデル専用の単一粒子再構成法を提案する。 本稿では,粒子のポーズの同時再構成と推定について検討し,非凸最適化問題へと変換する。 提案手法は,この問題の多段階的修正と,各レベルにおける効率的な最適化手法の開発に基づいている。 提案手法は, 計算コストを低く抑えながら, 分解能および再構成誤差の点で, 標準的な手法よりも優れた合成データを示す。 また,本手法の具体的応用の可能性を示すために,実際のセントリルデータセットの再構築に成功した。

Single particle reconstruction has recently emerged in 3D fluorescence microscopy as a powerful technique to improve the axial resolution and the degree of fluorescent labeling. It is based on the reconstruction of an average volume of a biological particle from the acquisition multiple views with unknown poses. Current methods are limited either by template bias, restriction to 2D data, high computational cost or a lack of robustness to low fluorescent labeling. In this work, we propose a single particle reconstruction method dedicated to convolutional models in 3D fluorescence microscopy that overcome these issues. We address the joint reconstruction and estimation of the poses of the particles, which translates into a challenging non-convex optimization problem. Our approach is based on a multilevel reformulation of this problem, and the development of efficient optimization techniques at each level. We demonstrate on synthetic data that our method outperforms the standard approaches in terms of resolution and reconstruction error, while achieving a low computational cost. We also perform successful reconstruction on real datasets of centrioles to show the potential of our method in concrete applications.
翻訳日:2023-01-24 13:25:15 公開日:2023-01-23
# 競争力の低い自己監督型視覚モデルのための簡易レシピ

A Simple Recipe for Competitive Low-compute Self supervised Vision Models ( http://arxiv.org/abs/2301.09451v1 )

ライセンス: Link先を確認
Quentin Duval, Ishan Misra, Nicolas Ballas(参考訳) 視覚における自己監督的手法は、小さなアーキテクチャにとって大きなパフォーマンス低下に悩まされているように見えるため、大きなアーキテクチャに主に焦点を合わせてきた。 本稿では,高性能低計算ニューラルネットワークを訓練する簡易な自己教師付き蒸留手法を提案する。 本研究の主な知見は,既存の共同埋め込み型SSL手法を,大規模自己指導型教師から小学生モデルへの知識蒸留に活用できることである。 そこで我々は,共同埋め込みトレーニングの1つのブランチを大規模教師モデルに置き換えることによって,この手法をRoB(Replace one Branch)と呼ぶ。 RoBは、小さなResNets、MobileNets、ViTのような多くのアーキテクチャや、DINO、SwaV、iBOTといった事前訓練されたモデルに広く適用されている。 ImageNetデータセットで事前トレーニングを行うと、RoBは教師付き知識蒸留と競合するモデルを生成する。 MSNに適用すると、RoBは強力な半教師付き能力を持つ学生を生み出す。 最後に、私たちの最高のViT-Tinyモデルは、ImageNetのSSL以前の状態を2.3\%$で改善し、5つの下流転送タスク(iNaturalist、CIFAR、Clevr/Count、Clevr/Dist、Places)で蒸留されたDeiTと同等かそれ以上である。 RoBがより小規模で実践的なセルフスーパービジョンを実現することを願っている。

Self-supervised methods in vision have been mostly focused on large architectures as they seem to suffer from a significant performance drop for smaller architectures. In this paper, we propose a simple self-supervised distillation technique that can train high performance low-compute neural networks. Our main insight is that existing joint-embedding based SSL methods can be repurposed for knowledge distillation from a large self-supervised teacher to a small student model. Thus, we call our method Replace one Branch (RoB) as it simply replaces one branch of the joint-embedding training with a large teacher model. RoB is widely applicable to a number of architectures such as small ResNets, MobileNets and ViT, and pretrained models such as DINO, SwAV or iBOT. When pretraining on the ImageNet dataset, RoB yields models that compete with supervised knowledge distillation. When applied to MSN, RoB produces students with strong semi-supervised capabilities. Finally, our best ViT-Tiny models improve over prior SSL state-of-the-art on ImageNet by $2.3\%$ and are on par or better than a supervised distilled DeiT on five downstream transfer tasks (iNaturalist, CIFAR, Clevr/Count, Clevr/Dist and Places). We hope RoB enables practical self-supervision at smaller scale.
翻訳日:2023-01-24 13:24:59 公開日:2023-01-23
# 生産におけるエネルギー効率を実現する技術からスキルへのエネルギーワーカープロファイラ

The Energy Worker Profiler from Technologies to Skills to Realize Energy Efficiency in Manufacturing ( http://arxiv.org/abs/2301.09445v1 )

ライセンス: Link先を確認
Silvia Fareri, Riccardo Apreda, Valentina Mulas, Ruben Alonso(参考訳) 近年、製造業は総エネルギー消費量の55%近くを担っており、世界的なエコシステムに大きな影響を与えている。 厳格な規制、重工業と技術の進歩に対する規制は持続可能性を高めているが、ゼロエミッションと燃費効率のよい製造は依然としてユートピアの標的と見なされている。 同時に、デジタルイノベーションに投資した企業は、投資のリターンを最大化するために、内部の能力を調整する必要がある。 さらに、産業4.0の主な特徴は、エネルギー消費を最適化する機会を提供する生産プロセスのデジタル化である。 しかし、イノベーションそのものが示すスピードを考えると、テクノロジーがデジタルやグリーンの職業やスキルに与えた影響を計測できるツールはまだ設計中である。 本稿では、労働者が現在保有しているスキルをマッピングするソフトウェアであるWorker Profilerを紹介し、デジタルイノベーションと環境保全が課す新たな要求を満たすために理想的に保有すべきスキルとの相違を識別する。 第一に、著者は関心領域における重要な技術とスキルを推測し、特許の傾向が著しく増大しているものを分離し、緑とデジタルで実現可能なスキルと職業を特定する。 そのため、ソフトウェアはユーザーインタフェースレベルで設計・実装された。 自己評価のアウトプットは、デジタルスキルとグリーンスキルの欠如と、現在のスキルの観点から開始スキルに最も近い役割の定義である。 このツールは、ユーザーフレンドリーで、スキルのギャップを識別し、他のコンテキストに容易に適応できることを示す。

In recent years, the manufacturing sector has been responsible for nearly 55 percent of total energy consumption, inducing a major impact on the global ecosystem. Although stricter regulations, restrictions on heavy manufacturing and technological advances are increasing its sustainability, zero-emission and fuel-efficient manufacturing is still considered a utopian target. In parallel,companies that have invested in digital innovation now need to align their internal competencies to maximize their return on investment. Moreover, a primary feature of Industry 4.0 is the digitization of production processes, which offers the opportunity to optimize energy consumption. However, given the speed with which innovation manifests itself, tools capable of measuring the impact that technology is having on digital and green professions and skills are still being designed. In light of the above, in this article we present the Worker Profiler, a software designed to map the skills currently possessed by workers, identifying misalignment with those they should ideally possess to meet the renewed demands that digital innovation and environmental preservation impose. The creation of the Worker Profiler consists of two steps: first, the authors inferred the key technologies and skills for the area of interest, isolating those with markedly increasing patent trends and identifying green and digital enabling skills and occupations. Thus, the software was designed and implemented at the user-interface level. The output of the self-assessment is the definition of the missing digital and green skills and the job roles closest to the starting one in terms of current skills; both the results enable the definition of a customized retraining strategy. The tool has shown evidence of being user-friendly, effective in identifying skills gaps and easily adaptable to other contexts.
翻訳日:2023-01-24 13:24:33 公開日:2023-01-23
# グラフ結合によるGNNの表現力の再考

Rethinking the Expressive Power of GNNs via Graph Biconnectivity ( http://arxiv.org/abs/2301.09505v1 )

ライセンス: Link先を確認
Bohang Zhang, Shengjie Luo, Liwei Wang, Di He(参考訳) 表現型グラフニューラルネットワーク(gnns)の設計は、グラフ構造化データを学ぶ上で重要なトピックである。 Weisfeiler-Lehman (WL) テストにおいて、GNNを改善するための多くのアプローチが提案されているが、一般的には、それらが体系的かつ確実に得られる追加のパワーについて深い理解がない。 本稿では,WLテスト以外のGNNの表現力について,根本的に異なる視点で検討する。 具体的には,グラフバイコネクティビティを用いた新しい表現性指標のクラスを導入し,理論と実践の両方においてその重要性を強調する。 線形計算コストの単純なアルゴリズムで双連結性を容易に計算できるため、一般的なGNNでも容易に学習できると期待することは当然である。 しかし、以前のGNNアーキテクチャを徹底的にレビューした結果、これらの指標のほとんどに表現力がないことがわかった。 唯一の例外はESANフレームワーク(Bevilacqua et al., 2022)である。 両接続性指標すべてに対して確実に表現可能な一般距離ワイスフェイラーレーマン(GD-WL)と呼ばれる原理的かつ効率的なアプローチを導入する。 GD-WLは,表現性を保ち,完全な並列性を楽しむトランスフォーマーのようなアーキテクチャで実装可能であることを示す。 合成データセットと実データセットの両方に関する一連の実験は、我々のアプローチが従来のGNNアーキテクチャよりも一貫して優れていることを示した。

Designing expressive Graph Neural Networks (GNNs) is a central topic in learning graph-structured data. While numerous approaches have been proposed to improve GNNs in terms of the Weisfeiler-Lehman (WL) test, generally there is still a lack of deep understanding of what additional power they can systematically and provably gain. In this paper, we take a fundamentally different perspective to study the expressive power of GNNs beyond the WL test. Specifically, we introduce a novel class of expressivity metrics via graph biconnectivity and highlight their importance in both theory and practice. As biconnectivity can be easily calculated using simple algorithms that have linear computational costs, it is natural to expect that popular GNNs can learn it easily as well. However, after a thorough review of prior GNN architectures, we surprisingly find that most of them are not expressive for any of these metrics. The only exception is the ESAN framework (Bevilacqua et al., 2022), for which we give a theoretical justification of its power. We proceed to introduce a principled and more efficient approach, called the Generalized Distance Weisfeiler-Lehman (GD-WL), which is provably expressive for all biconnectivity metrics. Practically, we show GD-WL can be implemented by a Transformer-like architecture that preserves expressiveness and enjoys full parallelizability. A set of experiments on both synthetic and real datasets demonstrates that our approach can consistently outperform prior GNN architectures.
翻訳日:2023-01-24 13:17:41 公開日:2023-01-23
# 高次元スパーススライス逆回帰によるフェデレートな次元削減

Federated Sufficient Dimension Reduction Through High-Dimensional Sparse Sliced Inverse Regression ( http://arxiv.org/abs/2301.09500v1 )

ライセンス: Link先を確認
Wenquan Cui, Yue Zhao, Jianjun Xu, Haoyang Cheng(参考訳) フェデレーション学習は、ビッグデータ時代において、近年人気ツールとなっている。 データを分散化しながら、異なるクライアントのデータに基づいて集中モデルをトレーニングする。 本稿では,フェデレートされたスパースススライス逆回帰アルゴリズムを初めて提案する。 本手法では,中央次元縮小部分空間を同時推定し,フェデレーション設定で変数選択を行うことができる。 共分散行列を安全かつ無損失に構成することにより, この連立高次元スパースス逆回帰問題を凸最適化問題に変換する。 次に、乗算アルゴリズムの線形交互方向法を用いて中央部分空間を推定する。 また、中央部分空間の次元とアルゴリズムのハイパーパラメータを確認するため、ベイズ情報規準とホールドアウト検証のアプローチを提案する。 我々は,不均質な設定下で推定器の統計的誤差率の上限を定式化する。 本手法の有効性をシミュレーションと実世界応用により実証する。

Federated learning has become a popular tool in the big data era nowadays. It trains a centralized model based on data from different clients while keeping data decentralized. In this paper, we propose a federated sparse sliced inverse regression algorithm for the first time. Our method can simultaneously estimate the central dimension reduction subspace and perform variable selection in a federated setting. We transform this federated high-dimensional sparse sliced inverse regression problem into a convex optimization problem by constructing the covariance matrix safely and losslessly. We then use a linearized alternating direction method of multipliers algorithm to estimate the central subspace. We also give approaches of Bayesian information criterion and hold-out validation to ascertain the dimension of the central subspace and the hyper-parameter of the algorithm. We establish an upper bound of the statistical error rate of our estimator under the heterogeneous setting. We demonstrate the effectiveness of our method through simulations and real world applications.
翻訳日:2023-01-24 13:17:16 公開日:2023-01-23
# 教師なし車両再識別のためのトリプルトコントラスト学習

Triplet Contrastive Learning for Unsupervised Vehicle Re-identification ( http://arxiv.org/abs/2301.09498v1 )

ライセンス: Link先を確認
Fei Shen, Xiaoyu Du, Liyan Zhang, Jinhui Tang(参考訳) 部分的特徴学習は、車両の再識別における微粒な意味理解のための重要な技術である。 しかしながら、最近の教師なし再同定作業は、部分的特徴とグローバルな特徴を直接モデル化する場合、深刻な勾配崩壊問題を示す。 本稿では,この問題を解決するために,クラスタ機能を活用した新しい三重項コントラスト学習フレームワーク(tcl)を提案する。 特にTCLは, 特徴量に応じて特徴量を保存するために3つのメモリバンクを考案し, 隣接メモリバンク間のコントラスト学習を代行するプロキシコントラスト損失(PCL)を提案し, パートクラスタとクラスタ・グローバル・アソシエーションの遷移として, 部分特徴とグローバル特徴の関連性を示す。 クラスタメモリバンクはすべてのインスタンス機能を扱うため、それらを識別的な特徴表現にまとめることができる。 インスタンス情報を深く活用するために、tclは2つの追加の損失関数を提案する。 クラス間インスタンスの場合、ハイブリッドコントラスト損失(HCL)は、正のクラスタ特徴に近づき、すべての負のインスタンス特徴を残してサンプル相関を再定義する。 クラス内インスタンスでは、重み付き正規化クラスタコントラスト損失(wrccl)が、インスタンスの類似性に応じて誤ってラベルされた画像をペナルティ化することにより擬似ラベルを洗練する。 広範な実験により、tclは多くの最先端の未監視車両再識別アプローチを上回っていることが示された。 コードはhttps://github.com/muzishen/TCLで入手できる。

Part feature learning is a critical technology for finegrained semantic understanding in vehicle re-identification. However, recent unsupervised re-identification works exhibit serious gradient collapse issues when directly modeling the part features and global features. To address this problem, in this paper, we propose a novel Triplet Contrastive Learning framework (TCL) which leverages cluster features to bridge the part features and global features. Specifically, TCL devises three memory banks to store the features according to their attributes and proposes a proxy contrastive loss (PCL) to make contrastive learning between adjacent memory banks, thus presenting the associations between the part and global features as a transition of the partcluster and cluster-global associations. Since the cluster memory bank deals with all the instance features, it can summarize them into a discriminative feature representation. To deeply exploit the instance information, TCL proposes two additional loss functions. For the inter-class instance, a hybrid contrastive loss (HCL) re-defines the sample correlations by approaching the positive cluster features and leaving the all negative instance features. For the intra-class instances, a weighted regularization cluster contrastive loss (WRCCL) refines the pseudo labels by penalizing the mislabeled images according to the instance similarity. Extensive experiments show that TCL outperforms many state-of-the-art unsupervised vehicle re-identification approaches. The code will be available at https://github.com/muzishen/TCL.
翻訳日:2023-01-24 13:17:04 公開日:2023-01-23
# ECGAN : 心電図用自己教師付き生成対向ネットワーク

ECGAN: Self-supervised generative adversarial network for electrocardiography ( http://arxiv.org/abs/2301.09496v1 )

ライセンス: Link先を確認
Lorenzo Simone and Davide Bacciu(参考訳) 高品質な合成データは、特にまれな疾患や魅力的なプライバシー制約を受ける場合に、バイオメディカルタスクの効果的な予測モデルの開発を支援することができる。 これらの制限は、例えば不整脈に関する心電図データセットへのオープンアクセスに悪影響を及ぼす。 本研究は, 形態学的妥当性の向上を図った人工心電図時系列生成への自己監督的アプローチを導入する。 我々のモデル(ECGAN)は、特定のリズム異常に対する生成過程の条件付けを可能にし、文献モデルに関するサンプル間の同期と多様性を向上する。 不整脈分類器を利用する専用サンプル品質評価フレームワークも定義されている。 経験的な結果は、シーケンスと音声合成の最先端生成モデルに対する大幅な改善を浮き彫りにしている。

High-quality synthetic data can support the development of effective predictive models for biomedical tasks, especially in rare diseases or when subject to compelling privacy constraints. These limitations, for instance, negatively impact open access to electrocardiography datasets about arrhythmias. This work introduces a self-supervised approach to the generation of synthetic electrocardiography time series which is shown to promote morphological plausibility. Our model (ECGAN) allows conditioning the generative process for specific rhythm abnormalities, enhancing synchronization and diversity across samples with respect to literature models. A dedicated sample quality assessment framework is also defined, leveraging arrhythmia classifiers. The empirical results highlight a substantial improvement against state-of-the-art generative models for sequences and audio synthesis.
翻訳日:2023-01-24 13:16:38 公開日:2023-01-23
# BatchBALDの高速化: アクティブラーニングのための近似のk-BALDファミリー

Speeding Up BatchBALD: A k-BALD Family of Approximations for Active Learning ( http://arxiv.org/abs/2301.09490v1 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) アクティブな学習は、ラベル付きデータで機械学習モデルをトレーニングするための強力な方法である。 アクティブラーニングの一般的なテクニックの1つは、ベイズニューラルネットワークを使用してプールセットにラベル付けする最も有益なポイントを見つけるバッチバルドである。 しかしながら、特に大きなデータセットでは、BatchBALDの計算は非常に遅い。 本稿では,k-wise相互情報項を用いてBatchBALDを近似し,計算コストを低減した新しい近似k-BALDを提案する。 MNISTデータセットの結果から、k-BALDはBatchBALDよりも大幅に高速であり、同様の性能を維持していることがわかった。 さらに、近似の質に基づいてkを選択するための動的アプローチを提案し、より大きなデータセットに対してより効率的にする。

Active learning is a powerful method for training machine learning models with limited labeled data. One commonly used technique for active learning is BatchBALD, which uses Bayesian neural networks to find the most informative points to label in a pool set. However, BatchBALD can be very slow to compute, especially for larger datasets. In this paper, we propose a new approximation, k-BALD, which uses k-wise mutual information terms to approximate BatchBALD, making it much less expensive to compute. Results on the MNIST dataset show that k-BALD is significantly faster than BatchBALD while maintaining similar performance. Additionally, we also propose a dynamic approach for choosing k based on the quality of the approximation, making it more efficient for larger datasets.
翻訳日:2023-01-24 13:16:28 公開日:2023-01-23
# 異常検出のための収縮骨格力学埋め込み

Contracting Skeletal Kinematic Embeddings for Anomaly Detection ( http://arxiv.org/abs/2301.09489v1 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido Maria D'Amely di Melendugno, Stefano D'arrigo, Marco Aurelio Sterpa, Alessio Sampieri, Fabio Galasso(参考訳) 人間の行動の異常を検出することは、ストリートファイトや高齢者の転倒といった危険な状況を認識するのに最重要である。 しかし、異常検出は複雑であり、異常事象は稀であり、開集合認識タスクであるため、推論における異常とは何かが訓練中に観測されていない。 COSKADは、効率的なグラフ畳み込みネットワークによって骨格の人間の動きを符号化し、異常検出のために最小体積の潜伏超球面にSKinematicの埋め込みを抽出する新しいモデルである。 我々は, COSKAD の3つの潜在空間設計, 一般に付加されるユークリッド空間, 新たな球面半径および双曲体積について提案し, 解析する。 ShangaiTechCampus、The Avenue、および最新のUBnormalデータセットでは、ビデオベースの技術を含む3つのバリエーションが最先端で、新しい骨格のアノテーションや人間関連のビデオの選択に貢献しています。 ソースコードとデータセットは受理時にリリースされる。

Detecting the anomaly of human behavior is paramount to timely recognizing endangering situations, such as street fights or elderly falls. However, anomaly detection is complex, since anomalous events are rare and because it is an open set recognition task, i.e., what is anomalous at inference has not been observed at training. We propose COSKAD, a novel model which encodes skeletal human motion by an efficient graph convolutional network and learns to COntract SKeletal kinematic embeddings onto a latent hypersphere of minimum volume for Anomaly Detection. We propose and analyze three latent space designs for COSKAD: the commonly-adopted Euclidean, and the new spherical-radial and hyperbolic volumes. All three variants outperform the state-of-the-art, including video-based techniques, on the ShangaiTechCampus, the Avenue, and on the most recent UBnormal dataset, for which we contribute novel skeleton annotations and the selection of human-related videos. The source code and dataset will be released upon acceptance.
翻訳日:2023-01-24 13:16:15 公開日:2023-01-23
# ステップマニアの難易度推定のための正規回帰

Ordinal Regression for Difficulty Estimation of StepMania Levels ( http://arxiv.org/abs/2301.09485v1 )

ライセンス: Link先を確認
Billy Joe Franks, Benjamin Dinkelmann, Sophie Fellenz and Marius Kloft(参考訳) StepManiaはリズムベースのビデオゲームのオープンソースクローンとして人気がある。 人気ゲームでは一般的なように、コミュニティが設計したレベルが多数ある。 プレイヤーやレベルライターがそのようなコミュニティ貢献の難易度を決定することはしばしば困難である。 本研究では,StepManiaレベルの難易度予測タスクを順序回帰(OR)タスクとして形式化し,解析する。 私たちは、このデータのより広範囲で多様な選択を標準化し、5つのデータセットを作成します。 我々は、多くの競合モデルや非orモデルを評価し、ニューラルネットワークベースのモデルがアートの状態を著しく上回り、ステップマニアレベルのデータが深層やモデルにとって優れたテストベッドとなることを示す。 我々は、トレーニングされたモデルが人間のラベルよりも優れていることを示すユーザー実験で結論付けた。

StepMania is a popular open-source clone of a rhythm-based video game. As is common in popular games, there is a large number of community-designed levels. It is often difficult for players and level authors to determine the difficulty level of such community contributions. In this work, we formalize and analyze the difficulty prediction task on StepMania levels as an ordinal regression (OR) task. We standardize a more extensive and diverse selection of this data resulting in five data sets, two of which are extensions of previous work. We evaluate many competitive OR and non-OR models, demonstrating that neural network-based models significantly outperform the state of the art and that StepMania-level data makes for an excellent test bed for deep OR models. We conclude with a user experiment showing our trained models' superiority over human labeling.
翻訳日:2023-01-24 13:15:55 公開日:2023-01-23
# 多次元入力パラメトリックPDEシステムのモデル次数削減のための反復的多重忠実アプローチ

An iterative multi-fidelity approach for model order reduction of multi-dimensional input parametric PDE systems ( http://arxiv.org/abs/2301.09483v1 )

ライセンス: Link先を確認
Manisha Chetry, Domenico Borzacchiello, Lucas Lestandi, Luisa Rocha Da Silva(参考訳) 本研究では,多次元入力パラメトリック空間を用いた大規模PDEシステムの縮小のためのパラメトリックサンプリング手法を提案する。 この手法の設計により、ユーザーは事前の誤差推定器を必要としない個別のトレーニングセットからアドホックを適応的にサンプリングすることができる。 パラメトリック空間全体の低忠実度モデルを効率的なサンプリング戦略を用いてサンプリングポイントに利用し、サンプルパラメトリックポイントにおいて、高忠実度モデルを評価し、還元基底関数を復元する。 低忠実度モデルは、回収された基底関数にまたがる部分空間に射影によって構築された縮小順序モデル(rom)に適応される。 この過程は、パラメトリック空間の全てのパラメータに対して、低忠実度モデルが適切に高忠実度モデルを表現できるまで続く。 提案手法は,低忠実度モデルを用いてソリューションデータベースを同化するため,オフライン段階での計算コストを大幅に削減する。 本稿では、初期低忠実度モデルの構築と離散的経験補間法(DEIM)に基づくサンプリング戦略について述べる。 2つの異なる入力パラメータに対する2次元定常熱伝導問題に対して本手法をテストし,古典的グリーディ低減基底法(rbm)と定性的に比較し,さらに9次元パラメトリック非強制楕円問題についても検証し,点のグリーディ選択の異なるチューニングに基づいて計算性能を解析した。

We propose a parametric sampling strategy for the reduction of large-scale PDE systems with multidimensional input parametric spaces by leveraging models of different fidelity. The design of this methodology allows a user to adaptively sample points ad hoc from a discrete training set with no prior requirement of error estimators. It is achieved by exploiting low-fidelity models throughout the parametric space to sample points using an efficient sampling strategy, and at the sampled parametric points, high-fidelity models are evaluated to recover the reduced basis functions. The low-fidelity models are then adapted with the reduced order models ( ROMs) built by projection onto the subspace spanned by the recovered basis functions. The process continues until the low-fidelity model can represent the high-fidelity model adequately for all the parameters in the parametric space. Since the proposed methodology leverages the use of low-fidelity models to assimilate the solution database, it significantly reduces the computational cost in the offline stage. The highlight of this article is to present the construction of the initial low-fidelity model, and a sampling strategy based on the discrete empirical interpolation method (DEIM). We test this approach on a 2D steady-state heat conduction problem for two different input parameters and make a qualitative comparison with the classical greedy reduced basis method (RBM), and further test on a 9-dimensional parametric non-coercive elliptic problem and analyze the computational performance based on different tuning of greedy selection of points.
翻訳日:2023-01-24 13:15:44 公開日:2023-01-23
# 含意神経表現のモダリティ非依存的変動圧縮

Modality-Agnostic Variational Compression of Implicit Neural Representations ( http://arxiv.org/abs/2301.09479v1 )

ライセンス: Link先を確認
Jonathan Richard Schwarz and Jihoon Tack and Yee Whye Teh and Jaeho Lee and Jinwoo Shin(参考訳) 本稿では,インプリシットニューラル表現(INR)としてパラメータ付けされたデータの関数ビューに基づいて,モーダリティに依存しないニューラルデータ圧縮アルゴリズムを提案する。 潜在符号化と疎性の間のギャップを埋めて、サブネットワーク選択により各データ項目に共有INRベースネットワークを専門化できるソフトゲーティング機構に非線形にマッピングされたコンパクト潜在表現を得る。 このようなコンパクトな潜在表現のデータセットを得た後、非線形変換符号化を用いて、このモジュラリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。 本稿では,提案手法をVC-INR(Variformal Compression of Implicit Neural Representation)と呼び,同一の表現能力の事前量子化による性能向上と,他のINRベースの手法における従来の量子化方式よりも優れた性能を示す。 実験では,モーダリティ固有の帰納バイアスを伴わない同じアルゴリズムを用いて,多種多様なデータモダリティに対して強い結果を示す。 画像, 気候データ, 3次元形状, 映像, 音声, 映像に, JPEG 2000, MP3, AVC/HEVCなどの多種多様なコーデックよりも優れたVC-INRを導入した。

We introduce a modality-agnostic neural data compression algorithm based on a functional view of data and parameterised as an Implicit Neural Representation (INR). Bridging the gap between latent coding and sparsity, we obtain compact latent representations which are non-linearly mapped to a soft gating mechanism capable of specialising a shared INR base network to each data item through subnetwork selection. After obtaining a dataset of such compact latent representations, we directly optimise the rate/distortion trade-off in this modality-agnostic space using non-linear transform coding. We term this method Variational Compression of Implicit Neural Representation (VC-INR) and show both improved performance given the same representational capacity pre quantisation while also outperforming previous quantisation schemes used for other INR-based techniques. Our experiments demonstrate strong results over a large set of diverse data modalities using the same algorithm without any modality-specific inductive biases. We show results on images, climate data, 3D shapes and scenes as well as audio and video, introducing VC-INR as the first INR-based method to outperform codecs as well-known and diverse as JPEG 2000, MP3 and AVC/HEVC on their respective modalities.
翻訳日:2023-01-24 13:15:20 公開日:2023-01-23
# 単層wse$_2$のナノひずみプロファイルにおける単一光子放出子の発光イメージング

Photoluminescence imaging of single photon emitters within nanoscale strain profiles in monolayer WSe$_2$ ( http://arxiv.org/abs/2301.09478v1 )

ライセンス: Link先を確認
Artem N. Abramov, Igor Y. Chestnov, Ekaterina S. Alimova, Tatiana Ivanova, Ivan S. Mukhin, Dmitry N. Krizhanovskii, Ivan A. Shelykh, Ivan V. Iorsh and Vasily Kravtsov(参考訳) 原子的に薄いファンデルワールス材料の局所変形は、サイト制御されたチップ互換単光子エミッタ(SPE)を作成する強力なアプローチを提供する。 しかし、そのような歪誘起speの形成の基盤となる微視的なメカニズムはまだ完全には解明されていないため、量子光の実用的なオンチップ源を開発するためのナノフォトニクス構造との決定論的統合のさらなる努力を妨げている。 ここでは単光子純度を持つSPEをナノインデンテーションにより単層WSe$_2$で生成する。 原子間力顕微鏡と組み合わせたフォトルミネッセンスイメージングを用いて, 深度サブ波長空間スケール上の単一光子放出部位を特定し, 周囲の局所ひずみポテンシャルの詳細を再構築する。 その結果、観測された単一光子放出の起源は、暗黒励起状態のひずみ誘起スペクトルシフトと個々の欠陥の局所状態とのハイブリッド化と関連している可能性が示唆された。

Local deformation of atomically thin van der Waals materials provides a powerful approach to create site-controlled chip-compatible single-photon emitters (SPEs). However, the microscopic mechanisms underlying the formation of such strain-induced SPEs are still not fully clear, which hinders further efforts in their deterministic integration with nanophotonic structures for developing practical on-chip sources of quantum light. Here we investigate SPEs with single-photon purity up to 98% created in monolayer WSe$_2$ via nanoindentation. Using photoluminescence imaging in combination with atomic force microscopy, we locate single-photon emitting sites on a deep sub-wavelength spatial scale and reconstruct the details of the surrounding local strain potential. The obtained results suggest that the origin of the observed single-photon emission is likely related to strain-induced spectral shift of dark excitonic states and their hybridization with localized states of individual defects.
翻訳日:2023-01-24 13:14:45 公開日:2023-01-23
# 規則化とカットオフによるイベント駆動スパイクニューラルネットワークの最適化

Optimising Event-Driven Spiking Neural Network with Regularisation and Cutoff ( http://arxiv.org/abs/2301.09522v1 )

ライセンス: Link先を確認
Dengyu Wu and Gaojie Jin and Han Yu and Xinping Yi and Xiaowei Huang(参考訳) エネルギー効率の恩恵を受ける人工知能ニューラルネットワーク(ANN)の亜種であるスパイキングニューラルネットワーク(SNN)は、CIFAR10/100やImageNetといったベンチマークデータセット上で、ANNのそれに近い精度を達成した。 しかし、フレームベースの入力(イメージなど)と比較すると、ダイナミックビジョンセンサー(DVS)のようなイベントベースの入力は、SNNの非同期動作機構のおかげで、SNNをよりうまく活用することができる。 本稿では,SNNとイベントベース入力の結婚を,任意の時間最適SNN(AOI-SNN)を考慮し,推論中にいつでも終了し,最適な推論結果を得るための提案によって強化する。 AOI-SNNの正則化と遮断という2つの新しい最適化手法が提案されている。 正規化により、最適化性能を持つSNNのトレーニングと構築が可能となり、イベント駆動入力に対するSNNの推論を最適化する。 我々は、CIFAR10-DVS、N-Caltech101、DVS128 Gestureなど、複数のベンチマークイベントベースのデータセットで広範な実験を行う。 実験の結果,本手法は精度とレイテンシにおいて最先端技術よりも優れていることがわかった。

Spiking neural networks (SNNs), a variant of artificial neural networks (ANNs) with the benefit of energy efficiency, have achieved the accuracy close to its ANN counterparts, on benchmark datasets such as CIFAR10/100 and ImageNet. However, comparing with frame-based input (e.g., images), event-based inputs from e.g., Dynamic Vision Sensor (DVS) can make a better use of SNNs thanks to the SNNs' asynchronous working mechanism. In this paper, we strengthen the marriage between SNNs and event-based inputs with a proposal to consider anytime optimal inference SNNs, or AOI-SNNs, which can terminate anytime during the inference to achieve optimal inference result. Two novel optimisation techniques are presented to achieve AOI-SNNs: a regularisation and a cutoff. The regularisation enables the training and construction of SNNs with optimised performance, and the cutoff technique optimises the inference of SNNs on event-driven inputs. We conduct an extensive set of experiments on multiple benchmark event-based datasets, including CIFAR10-DVS, N-Caltech101 and DVS128 Gesture. The experimental results demonstrate that our techniques are superior to the state-of-the-art with respect to the accuracy and latency.
翻訳日:2023-01-24 13:09:20 公開日:2023-01-23
# WDC製品: 多次元エンティティマッチングベンチマーク

WDC Products: A Multi-Dimensional Entity Matching Benchmark ( http://arxiv.org/abs/2301.09521v1 )

ライセンス: Link先を確認
Ralph Peeters, Reng Chiz Der, Christian Bizer(参考訳) エンティティマッチングタスクの難しさは、コーナーケースペアの量、トレーニング中に見られなかったテストセット内のエンティティの割合、開発セットのサイズといった、複数の要因の組み合わせに依存する。 現在のエンティティマッチングベンチマークは、通常、そのような次元に沿った空間内の単一点を表すか、単一の次元に沿ったマッチングメソッドの評価(例えばトレーニングデータの量)を提供する。 本稿では,実単語データに依存しながら3次元の組み合わせによるマッチングシステムの体系的評価を行うエンティティマッチングベンチマークであるwdc製品について述べる。 3次元は (i)コーナーケースの量 (二 見えない実体への一般化、及び (iii)開発セットのサイズ。 unseenエンティティへの一般化は、既存のベンチマークではカバーされていない次元であるが、エンティティマッチングシステムの堅牢性を評価するために重要である。 WDC Productsは、スキーマ.orgアノテーションを使ったマークアップ製品が提供する何千ものe-shopsの異種製品データに基づいている。 エンティティペアのマッチング方法を学ぶ代わりに、エンティティマッチングは、マーカが個々のエンティティを認識する必要があるマルチクラス分類タスクとして定式化することもできる。 wdc productsは、ペアワイズとマルチクラスによる同じタスクの定式化を提供する最初のベンチマークであり、この2つの選択肢を直接比較することができる。 我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。 評価の結果、全てのマッチングシステムは、異なる程度に認識されない実体に苦しむことが示された。 また、あるシステムは他のシステムよりも効率的なトレーニングデータを持つことも示している。

The difficulty of an entity matching task depends on a combination of multiple factors such as the amount of corner-case pairs, the fraction of entities in the test set that have not been seen during training, and the size of the development set. Current entity matching benchmarks usually represent single points in the space along such dimensions or they provide for the evaluation of matching methods along a single dimension, for instance the amount of training data. This paper presents WDC Products, an entity matching benchmark which provides for the systematic evaluation of matching systems along combinations of three dimensions while relying on real-word data. The three dimensions are (i) amount of corner-cases (ii) generalization to unseen entities, and (iii) development set size. Generalization to unseen entities is a dimension not covered by any of the existing benchmarks yet but is crucial for evaluating the robustness of entity matching systems. WDC Products is based on heterogeneous product data from thousands of e-shops which mark-up products offers using schema.org annotations. Instead of learning how to match entity pairs, entity matching can also be formulated as a multi-class classification task that requires the matcher to recognize individual entities. WDC Products is the first benchmark that provides a pair-wise and a multi-class formulation of the same tasks and thus allows to directly compare the two alternatives. We evaluate WDC Products using several state-of-the-art matching systems, including Ditto, HierGAT, and R-SupCon. The evaluation shows that all matching systems struggle with unseen entities to varying degrees. It also shows that some systems are more training data efficient than others.
翻訳日:2023-01-24 13:08:59 公開日:2023-01-23
# 線形力学系の学習への新しいアプローチ

A New Approach to Learning Linear Dynamical Systems ( http://arxiv.org/abs/2301.09519v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra and Morris Yau(参考訳) 線形力学系は、制御理論が構築される基礎統計モデルである。 有名なカルマンフィルタと線形二次レギュレータは解析的保証を提供するために系の力学の知識を必要とする。 自然に、線形計測から線形力学系の力学を学ぶことは、1960年代のルドルフ・カルマンの先駆的研究以来、集中的に研究されてきた。 そこで本研究では, 線形力学系を, 可観測性, 制御性, 限界安定性といった最小仮定の下で多項式長軌道から多項式誤差まで学習する最初の多項式時間アルゴリズムを提案する。 本アルゴリズムはモーメント推定器を用いて,動的に抽出できるマルコフパラメータを直接推定する。 さらに,可観測性と制御可能性の仮定に違反した場合に統計的に下限を与える。

Linear dynamical systems are the foundational statistical model upon which control theory is built. Both the celebrated Kalman filter and the linear quadratic regulator require knowledge of the system dynamics to provide analytic guarantees. Naturally, learning the dynamics of a linear dynamical system from linear measurements has been intensively studied since Rudolph Kalman's pioneering work in the 1960's. Towards these ends, we provide the first polynomial time algorithm for learning a linear dynamical system from a polynomial length trajectory up to polynomial error in the system parameters under essentially minimal assumptions: observability, controllability, and marginal stability. Our algorithm is built on a method of moments estimator to directly estimate Markov parameters from which the dynamics can be extracted. Furthermore, we provide statistical lower bounds when our observability and controllability assumptions are violated.
翻訳日:2023-01-24 13:08:40 公開日:2023-01-23
# サンプリングに基づくnystr\"om近似とカーネル二次

Sampling-based Nystr\"om Approximation and Kernel Quadrature ( http://arxiv.org/abs/2301.09517v1 )

ライセンス: Link先を確認
Satoshi Hayakawa, Harald Oberhauser, Terry Lyons(参考訳) 確率測度に付随する正定値核のnystr\"om近似を解析した。 まず,従来のnystr\"om近似に対する連続的なサンプリングと特異値分解による誤差境界の改善を証明し,その証明手法を統計的学習理論から借用する。 我々はさらに,非i.i.d.ランドマーク点に適用可能な理論的保証を伴うnystr\"om近似における部分空間の洗練された選択を導入する。 最後に, 核の凸二次体への応用について論じ, 数値観測だけでなく理論上の新たな保証を与える。

We analyze the Nystr\"om approximation of a positive definite kernel associated with a probability measure. We first prove an improved error bound for the conventional Nystr\"om approximation with i.i.d. sampling and singular-value decomposition in the continuous regime; the proof techniques are borrowed from statistical learning theory. We further introduce a refined selection of subspaces in Nystr\"om approximation with theoretical guarantees that is applicable to non-i.i.d. landmark points. Finally, we discuss their application to convex kernel quadrature and give novel theoretical guarantees as well as numerical observations.
翻訳日:2023-01-24 13:08:28 公開日:2023-01-23
# オンラインカーネルスライス逆回帰

Online Kernel Sliced Inverse Regression ( http://arxiv.org/abs/2301.09516v1 )

ライセンス: Link先を確認
Wenquan Cui, Yue Zhao, Jianjun Xu, Haoyang Cheng(参考訳) オンライン次元の縮小は高次元ストリーミングデータ処理の一般的な方法である。 オンライン主成分分析,オンラインスライス逆回帰,オンラインカーネル主成分分析などの手法が深く研究されているが,我々の知る限り,オンライン監視非線形次元減少法は十分に研究されていない。 本稿では,オンラインカーネルスライス逆回帰法を提案する。 近似線形依存条件と辞書変数セットを導入することで,オンラインカーネルスライス逆回帰法において,サンプルサイズで変数寸法を増加させる問題に対処し,変数をオンラインに更新するための縮小次法を提案する。 次に,問題をオンライン一般化固有分解問題に変換し,確率的最適化法を用いて中心次元縮小方向を更新する。 シミュレーションと実データ解析により,本手法はバッチ処理カーネルスライス逆回帰に近づいた性能が得られることを示す。

Online dimension reduction is a common method for high-dimensional streaming data processing. Online principal component analysis, online sliced inverse regression, online kernel principal component analysis and other methods have been studied in depth, but as far as we know, online supervised nonlinear dimension reduction methods have not been fully studied. In this article, an online kernel sliced inverse regression method is proposed. By introducing the approximate linear dependence condition and dictionary variable sets, we address the problem of increasing variable dimensions with the sample size in the online kernel sliced inverse regression method, and propose a reduced-order method for updating variables online. We then transform the problem into an online generalized eigen-decomposition problem, and use the stochastic optimization method to update the centered dimension reduction directions. Simulations and the real data analysis show that our method can achieve close performance to batch processing kernel sliced inverse regression.
翻訳日:2023-01-24 13:08:18 公開日:2023-01-23
# StyleGAN-T: 大規模テキスト・画像合成のためのGANのアンロック

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis ( http://arxiv.org/abs/2301.09515v1 )

ライセンス: Link先を確認
Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila(参考訳) テキストから画像への合成は、最近、大規模な事前学習された言語モデル、大規模トレーニングデータ、拡散や自己回帰モデルのようなスケーラブルなモデルファミリの導入により、大きな進歩を遂げている。 しかしながら、ベストパフォーマンスモデルには、単一のサンプルを生成するために反復的な評価が必要となる。 対照的に、GAN(Generative Adversarial Network)は単一のフォワードパスのみを必要とする。 これらは非常に高速だが、現在、大規模なテキスト・画像合成の最先端には程遠い。 本稿では,競争力を取り戻すために必要なステップを特定することを目的とする。 提案するモデルであるstylegan-tは,大容量化,多種多様なデータセットに対する安定したトレーニング,強いテキストアライメント,制御可能な変動とテキストアライメントトレードオフといった,大規模テキスト対イメージ合成の具体的な要件に対処する。 StyleGAN-Tは、サンプルの品質と速度の観点から、以前のGANよりも大幅に改善し、蒸留拡散モデル(高速テキスト・画像合成における最先端技術)より優れています。

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.
翻訳日:2023-01-24 13:08:02 公開日:2023-01-23
# polyak-lojasiewicz不等式下における確率的不動点丸め誤差を伴う勾配降下法の収束について

On the Convergence of the Gradient Descent Method with Stochastic Fixed-point Rounding Errors under the Polyak-Lojasiewicz Inequality ( http://arxiv.org/abs/2301.09511v1 )

ライセンス: Link先を確認
Lu Xia and Michiel E. Hochstenbach and Stefano Massei(参考訳) 低精度の計算でニューラルネットワークを訓練する場合、丸め誤差はしばしば停滞を生じさせ、オプティマイザの収束に支障をきたす。この記事では、ポリアック・ロジャシェヴィチの不等式を満たす問題に対する勾配降下法(英語版)の収束に及ぼす丸め誤差の影響について検討する。 この文脈では、適切な丸め戦略を選択すると、消失する勾配問題を排除し、下降方向の丸めバイアスを強制するため、バイアス付き確率的丸め誤差が有益であることを示す。 さらに、偏りのない確率的丸めにより達成されるものよりも厳密な収束率の有界値を得る。 この理論解析は、低精度固定点数形式を用いていくつかの例を最適化する際の様々な丸め戦略の性能を比較することによって検証される。

When training neural networks with low-precision computation, rounding errors often cause stagnation or are detrimental to the convergence of the optimizers; in this paper we study the influence of rounding errors on the convergence of the gradient descent method for problems satisfying the Polyak-Lojasiewicz inequality. Within this context, we show that, in contrast, biased stochastic rounding errors may be beneficial since choosing a proper rounding strategy eliminates the vanishing gradient problem and forces the rounding bias in a descent direction. Furthermore, we obtain a bound on the convergence rate that is stricter than the one achieved by unbiased stochastic rounding. The theoretical analysis is validated by comparing the performances of various rounding strategies when optimizing several examples using low-precision fixed-point number formats.
翻訳日:2023-01-24 13:07:32 公開日:2023-01-23
# BayBFed: フェデレートラーニングのためのベイジアンバックドアディフェンス

BayBFed: Bayesian Backdoor Defense for Federated Learning ( http://arxiv.org/abs/2301.09508v1 )

ライセンス: Link先を確認
Kavita Kumari, Phillip Rieger, Hossein Fereidooni, Murtuza Jadliwala, Ahmad-Reza Sadeghi(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータを他の人と共有することなく、機械学習モデルを共同でトレーニングすることを可能にする。 しかし、FLはバックドア攻撃のような中毒攻撃に弱い。 その結果、主にグローバルモデル(ロジット)の中間状態や、グローバルモデルからローカルモデル(L2-ノルム)の距離を利用して悪意のあるバックドアを検出する様々な防衛法が提案されている。 しかし、これらのアプローチはクライアントのアップデートに直接依存するので、その効果はクライアントのデータ配信や敵の攻撃戦略といった要因に依存する。 本稿では,クライアント更新における悪意のある更新を検出するために,クライアント更新の確率分布を利用するBayBFedという,より汎用的なバックドア防御フレームワークを提案する。 したがって、クライアント更新を直接使用することによって生じる、以前のアプローチの欠点を克服します。 BayBFedは2つのベイズ非パラメトリック拡張を利用する。 (i)クライアントの更新を考慮し、確率的尺度を描く階層的なベータ・バーヌーリプロセス (II) CRP-ジェンセンと呼ばれる中国のレストランプロセス(CRP)の適応で、この確率的手法を利用して悪意のある更新を検出し、フィルタリングする。 CIFAR10、Reddit、IoT侵入検出、MNIST、FMNISTの5つのベンチマークデータセットに対する防御アプローチを広く評価し、グローバルモデルの良質な性能を損なうことなく、FLの悪意ある更新を効果的に検出・排除できることを示す。

Federated learning (FL) allows participants to jointly train a machine learning model without sharing their private data with others. However, FL is vulnerable to poisoning attacks such as backdoor attacks. Consequently, a variety of defenses have recently been proposed, which have primarily utilized intermediary states of the global model (i.e., logits) or distance of the local models (i.e., L2-norm) from the global model to detect malicious backdoors. However, as these approaches directly operate on client updates, their effectiveness depends on factors such as clients' data distribution or the adversary's attack strategies. In this paper, we introduce a novel and more generic backdoor defense framework, called BayBFed, which proposes to utilize probability distributions over client updates to detect malicious updates in FL: it computes a probabilistic measure over the clients' updates to keep track of any adjustments made in the updates, and uses a novel detection algorithm that can leverage this probabilistic measure to efficiently detect and filter out malicious updates. Thus, it overcomes the shortcomings of previous approaches that arise due to the direct usage of client updates; as our probabilistic measure will include all aspects of the local client training strategies. BayBFed utilizes two Bayesian Non-Parametric extensions: (i) a Hierarchical Beta-Bernoulli process to draw a probabilistic measure given the clients' updates, and (ii) an adaptation of the Chinese Restaurant Process (CRP), referred by us as CRP-Jensen, which leverages this probabilistic measure to detect and filter out malicious updates. We extensively evaluate our defense approach on five benchmark datasets: CIFAR10, Reddit, IoT intrusion detection, MNIST, and FMNIST, and show that it can effectively detect and eliminate malicious updates in FL without deteriorating the benign performance of the global model.
翻訳日:2023-01-24 13:07:03 公開日:2023-01-23
# 符号付きリレーショナル潜在距離モデルを用いたソーシャルネットワークの分極特性評価

Characterizing Polarization in Social Networks using the Signed Relational Latent Distance Model ( http://arxiv.org/abs/2301.09507v1 )

ライセンス: Link先を確認
Nikolaos Nakis and Abdulkadir \c{C}elikkanat and Louis Boucherie and Christian Djurhuus and Felix Burmester and Daniel Mathias Holmelund and Monika Frolcov\'a and Morten M{\o}rup(参考訳) グラフ表現学習は、一般およびソーシャルネットワークにおけるネットワークの構造を特徴づけ、理解するための重要なツールとなっている。 典型的には、これらの表現学習のアプローチはネットワークを低次元空間に埋め込み、各個人の役割は潜在的な位置から特徴づけられる。 ソーシャルネットワークにおける主要な関心事は、政治的暴力と民主主義の侵食につながると信じられている極端な立場によって定義される"us-versus-them"という考え方を促進する分極とフィルターバブルの出現である。 このような偏極ネットワークは、通常、好き嫌いを反映する符号付きリンクによって特徴づけられる。 そこで本研究では,slim(潜在関係潜在距離モデル)を初めてスキャラム分布を符号付きネットワークの確率関数として利用し,埋め込み空間をポリトープに制約することにより,異なる極端位置のキャラクタリゼーションにモデルを拡張した。 このモデルでは, モデルにポリトープに制限された埋め込み空間を付与する際, 極端位置で定義された解釈可能な可視化を提供しながら, 友情や敵意をよく予測する低次元特性を抽出することを示した。

Graph representation learning has become a prominent tool for the characterization and understanding of the structure of networks in general and social networks in particular. Typically, these representation learning approaches embed the networks into a low-dimensional space in which the role of each individual can be characterized in terms of their latent position. A major current concern in social networks is the emergence of polarization and filter bubbles promoting a mindset of "us-versus-them" that may be defined by extreme positions believed to ultimately lead to political violence and the erosion of democracy. Such polarized networks are typically characterized in terms of signed links reflecting likes and dislikes. We propose the latent Signed relational Latent dIstance Model (SLIM) utilizing for the first time the Skellam distribution as a likelihood function for signed networks and extend the modeling to the characterization of distinct extreme positions by constraining the embedding space to polytopes. On four real social signed networks of polarization, we demonstrate that the model extracts low-dimensional characterizations that well predict friendships and animosity while providing interpretable visualizations defined by extreme positions when endowing the model with an embedding space restricted to polytopes.
翻訳日:2023-01-24 13:06:26 公開日:2023-01-23
# OvarNet: オープンな語彙オブジェクト属性認識を目指す

OvarNet: Towards Open-vocabulary Object Attribute Recognition ( http://arxiv.org/abs/2301.09506v1 )

ライセンス: Link先を確認
Keyan Chen, Xiaolong Jiang, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie(参考訳) 本稿では,学習段階で手動のアノテーションが提供されていない場合であっても,オブジェクトを同時に検出し,画像中の視覚的属性を推測する問題について考察する。 この目標を達成するために、以下の貢献をします。 (i)CLIP-Attrと呼ばれるオープン語彙オブジェクトの検出と属性分類のための2段階的アプローチから始める。 候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。 (II)全ての利用可能なデータセットとトレーニングを組み合わせ、CLIPモデルを微調整し、属性と視覚表現を整合させるとともに、弱教師付き学習下で自由に利用できるオンライン画像キャプチャペアを活用する効果について検討する。 3)効率性を求めるため,テキストエンコーダから生成された分類器を用いて,クラスに依存しないオブジェクトの提案と属性の分類を行う,知識蒸留によるFaster-RCNN型のエンドツーエンドモデルを訓練する。 (iv)vaw,ms-coco,lsa,ovadデータセットについて広範な実験を行い,意味カテゴリーと属性の認識が視覚的なシーン理解に補完的であることを示した。

In this paper, we consider the problem of simultaneously detecting objects and inferring their visual attributes in an image, even for those with no manual annotations provided at the training stage, resembling an open-vocabulary scenario. To achieve this goal, we make the following contributions: (i) we start with a naive two-stage approach for open-vocabulary object detection and attribute classification, termed CLIP-Attr. The candidate objects are first proposed with an offline RPN and later classified for semantic category and attributes; (ii) we combine all available datasets and train with a federated strategy to finetune the CLIP model, aligning the visual representation with attributes, additionally, we investigate the efficacy of leveraging freely available online image-caption pairs under weakly supervised learning; (iii) in pursuit of efficiency, we train a Faster-RCNN type model end-to-end with knowledge distillation, that performs class-agnostic object proposals and classification on semantic categories and attributes with classifiers generated from a text encoder; Finally, (iv) we conduct extensive experiments on VAW, MS-COCO, LSA, and OVAD datasets, and show that recognition of semantic category and attributes is complementary for visual scene understanding, i.e., jointly training object detection and attributes prediction largely outperform existing approaches that treat the two tasks independently, demonstrating strong generalization ability to novel attributes and categories.
翻訳日:2023-01-24 13:06:04 公開日:2023-01-23
# SpArX: ニューラルネットワークのスパース説明的説明

SpArX: Sparse Argumentative Explanations for Neural Networks ( http://arxiv.org/abs/2301.09559v1 )

ライセンス: Link先を確認
Hamed Ayoobi, Nico Potyka, Francesca Toni(参考訳) ニューラルネットワーク(NN)はAIにさまざまな応用があるが、意思決定プロセスの説明は依然として難しい。 既存のアプローチはしばしば、個々の入力の変化がNNの出力にどのように影響するかを説明することに重点を置いている。 しかし、NNの入出力動作と一致する説明は、その実際の力学に必ずしも忠実ではない。 本稿では,多層パーセプトロン(MLP)と量的議論フレームワーク(QAF)の関係を利用して,MLPの力学に関する議論的な説明を作成する。 我々のSpArX法は、可能な限り元の力学を維持しながら、まずMLPをスペーサー化する。 その後、スパースMLPを等価なQAFに変換することで、MPPの根底にある決定プロセスに光を当て、グローバルおよび/またはローカルな説明を生み出す。 実験により,SpArXは既存のアプローチよりも忠実に説明できると同時に,MLPの実際の推論過程について深い洞察を与えることができることを示した。

Neural networks (NNs) have various applications in AI, but explaining their decision process remains challenging. Existing approaches often focus on explaining how changing individual inputs affects NNs' outputs. However, an explanation that is consistent with the input-output behaviour of an NN is not necessarily faithful to the actual mechanics thereof. In this paper, we exploit relationships between multi-layer perceptrons (MLPs) and quantitative argumentation frameworks (QAFs) to create argumentative explanations for the mechanics of MLPs. Our SpArX method first sparsifies the MLP while maintaining as much of the original mechanics as possible. It then translates the sparse MLP into an equivalent QAF to shed light on the underlying decision process of the MLP, producing global and/or local explanations. We demonstrate experimentally that SpArX can give more faithful explanations than existing approaches, while simultaneously providing deeper insights into the actual reasoning process of MLPs.
翻訳日:2023-01-24 12:59:07 公開日:2023-01-23
# Deep Learningがスパース正規化を達成 - 信号処理の視点

Deep Learning Meets Sparse Regularization: A Signal Processing Perspective ( http://arxiv.org/abs/2301.09554v1 )

ライセンス: Link先を確認
Rahul Parhi and Robert D. Nowak(参考訳) ディープラーニングは実践的に広く成功しており、最先端の機械学習手法のほとんどはニューラルネットワークに基づいている。 しかし、深層ニューラルネットワークの驚くべき性能を十分に説明できる厳密な数学的理論が欠如している。 本稿では,深層学習に対する深い理解の始まりを提供する,比較的新しい数学的枠組みを提案する。 このフレームワークは、データに適合するように訓練されたニューラルネットワークの機能特性を正確に特徴付ける。 このフレームワークをサポートする重要な数学的ツールは、変換領域スパース正規化、ctのラドン変換、および信号処理に深く根ざした近似理論である。 このフレームワークは、ニューラルネットワークトレーニングにおける重量減衰正則化の効果、ネットワークアーキテクチャにおけるスキップ接続と低ランク重量行列の使用、ニューラルネットワークにおける空間性の役割、そしてニューラルネットワークが高次元問題でうまく機能する理由を説明する。

Deep learning has been widely successful in practice and most state-of-the-art machine learning methods are based on neural networks. Lacking, however, is a rigorous mathematical theory that adequately explains the amazing performance of deep neural networks. In this article, we present a relatively new mathematical framework that provides the beginning of a deeper understanding of deep learning. This framework precisely characterizes the functional properties of neural networks that are trained to fit to data. The key mathematical tools which support this framework include transform-domain sparse regularization, the Radon transform of computed tomography, and approximation theory, which are all techniques deeply rooted in signal processing. This framework explains the effect of weight decay regularization in neural network training, the use of skip connections and low-rank weight matrices in network architectures, the role of sparsity in neural networks, and explains why neural networks can perform well in high-dimensional problems.
翻訳日:2023-01-24 12:58:50 公開日:2023-01-23
# メタファー駆動型研究用遠視界カメラ -AI技術を用いた設計-

The Entoptic Field Camera as Metaphor-Driven Research-through-Design with AI Technologies ( http://arxiv.org/abs/2301.09545v1 )

ライセンス: Link先を確認
Jesse Josua Benjamin, Heidi Biggs, Arne Berger, Julija Rukanskait\.e, Michael Heidt, Nick Merrill, James Pierce, Joseph Lindley(参考訳) 人工知能(AI)技術はスマートフォン写真に広く採用されており、プロンプトベースの画像合成モデルは急速に普及している。 本稿では,エントピーフィールドカメラの作成と使用を通じて,画像生成の手段とモードの変化を探求するrtd(research-through-design)プロジェクトについて述べる。 眼球運動現象は、通常、眼と脳の生理的相互作用から生じるフローターや明るい青い点の知覚を指す。 私たちは、ai技術におけるデータとモデルの物質的相互作用が現実の人間の体験をどのように形作るかを調べるために、entopticという用語をメタファーとして使用します。 第一人物設計とフィールドスタディを用いたケーススタディを通じて、AI技術に携わるために、批判的で、反射的で、より人間らしく、かつ、滑稽なデザインを含意すること、AIリテラシーの言説に寄与するRtD研究空間の概念化、AI技術の物質性と設計能力に関する研究軌跡を概説する。

Artificial intelligence (AI) technologies are widely deployed in smartphone photography; and prompt-based image synthesis models have rapidly become commonplace. In this paper, we describe a Research-through-Design (RtD) project which explores this shift in the means and modes of image production via the creation and use of the Entoptic Field Camera. Entoptic phenomena usually refer to perceptions of floaters or bright blue dots stemming from the physiological interplay of the eye and brain. We use the term entoptic as a metaphor to investigate how the material interplay of data and models in AI technologies shapes human experiences of reality. Through our case study using first-person design and a field study, we offer implications for critical, reflective, more-than-human and ludic design to engage AI technologies; the conceptualisation of an RtD research space which contributes to AI literacy discourses; and outline a research trajectory concerning materiality and design affordances of AI technologies.
翻訳日:2023-01-24 12:58:35 公開日:2023-01-23
# 視点学習:アクティブ物体検出のための決定変換器

Learning to View: Decision Transformers for Active Object Detection ( http://arxiv.org/abs/2301.09544v1 )

ライセンス: Link先を確認
Wenhao Ding, Nathalie Majcherczyk, Mohit Deshpande, Xuewei Qi, Ding Zhao, Rajasimman Madhivanan, Arnie Sen(参考訳) active perceptionは、計画システムと知覚システムを結合してロボットを移動させ、ロボットに環境に関する情報を与える、幅広い種類のテクニックを記述している。 ほとんどのロボットシステムでは、知覚は通常動き計画から独立している。 例えば、従来のオブジェクト検出は受動的で、受信した画像のみで動作する。 しかし、もし私たちが計画的に検出信号を消費し、ロボットが結果の品質を最大化する視点を収集できるなら、結果を改善するチャンスがある。 本稿では,ロボットを制御し,検出品質を最大化する画像を得るための強化学習(rl)手法を提案する。 具体的には,事前収集したエキスパートデータセットでまずポリシを最適化し,その後,より優れたソリューションを探索することで学習方針を改善する,オンラインの微調整を用いた意思決定トランスフォーマの利用を提案する。 室内シナリオシミュレータから収集した対話型データセットにおける提案手法の性能評価を行った。 実験結果から,本手法はエキスパートポリシーや純粋なオフラインRL手法など,すべてのベースラインより優れていることが示された。 また,報酬分布と観測空間の徹底的な解析を行う。

Active perception describes a broad class of techniques that couple planning and perception systems to move the robot in a way to give the robot more information about the environment. In most robotic systems, perception is typically independent of motion planning. For example, traditional object detection is passive: it operates only on the images it receives. However, we have a chance to improve the results if we allow planning to consume detection signals and move the robot to collect views that maximize the quality of the results. In this paper, we use reinforcement learning (RL) methods to control the robot in order to obtain images that maximize the detection quality. Specifically, we propose using a Decision Transformer with online fine-tuning, which first optimizes the policy with a pre-collected expert dataset and then improves the learned policy by exploring better solutions in the environment. We evaluate the performance of proposed method on an interactive dataset collected from an indoor scenario simulator. Experimental results demonstrate that our method outperforms all baselines, including expert policy and pure offline RL methods. We also provide exhaustive analyses of the reward distribution and observation space.
翻訳日:2023-01-24 12:58:17 公開日:2023-01-23
# 遠隔検証システムにおけるIDカードの提示攻撃検出の改善

Improving Presentation Attack Detection for ID Cards on Remote Verification Systems ( http://arxiv.org/abs/2301.09542v1 )

ライセンス: Link先を確認
Sebastian Gonzalez, Juan Tapia(参考訳) 本稿では,mobilenetv2に基づくidカードの遠隔生体認証システムに対する2段階のエンドツーエンドプレゼンテーションアタック検出法を提案する。 印刷物、表示物、複合物(収穫・散布地に基づく)、プラスチック(PVC)、および異なる捕獲源を用いた合成IDカード画像などの表示攻撃種を用いる。 この提案は、サードパーティ企業の支援を受けた190.000実ケースチリのidカードイメージからなるデータベースを用いて開発された。 また、ISO/IEC 30107-3規格に準拠したマルチクラスメトリクスを推定するために使用されるPyPADと呼ばれる新しいフレームワークが開発され、研究目的で利用可能になる予定である。 本手法は2つの畳み込みニューラルネットワークで個別に学習し,それぞれ1.69\%と2.36\%のIDカード攻撃でBPCER\textsubscript{100}スコアに達した。 両方のモデルを用いた2段階の手法は bpcer\textsubscript{100} スコア 0.92\% に達する。

In this paper, an updated two-stage, end-to-end Presentation Attack Detection method for remote biometric verification systems of ID cards, based on MobileNetV2, is presented. Several presentation attack species such as printed, display, composite (based on cropped and spliced areas), plastic (PVC), and synthetic ID card images using different capture sources are used. This proposal was developed using a database consisting of 190.000 real case Chilean ID card images with the support of a third-party company. Also, a new framework called PyPAD, used to estimate multi-class metrics compliant with the ISO/IEC 30107-3 standard was developed, and will be made available for research purposes. Our method is trained on two convolutional neural networks separately, reaching BPCER\textsubscript{100} scores on ID cards attacks of 1.69\% and 2.36\% respectively. The two-stage method using both models together can reach a BPCER\textsubscript{100} score of 0.92\%.
翻訳日:2023-01-24 12:57:58 公開日:2023-01-23
# 量子近似最適化アルゴリズムの理論と実装:qiskitとibm量子コンピュータを用いた理解可能な導入とケーススタディ

Theory and Implementation of the Quantum Approximate Optimization Algorithm: A Comprehensible Introduction and Case Study Using Qiskit and IBM Quantum Computers ( http://arxiv.org/abs/2301.09535v1 )

ライセンス: Link先を確認
Andreas Sturm(参考訳) 本チュートリアルは,量子近似最適化アルゴリズム(QAOA)の理論と実装について,理解し易い紹介を提供することを目的とする。 実世界のユースケースに基づいた概念実証量子アプリケーションの実現を通じて、実践的な側面とステップバイステップのガイドに重点を置いています。 すべてのステップで、まず基礎となる理論を説明し、次にIBMのQiskitを使って実装します。 この方法では、数学的モデリングと(量子)アルゴリズムの完全な理解と、それらの理論的な概念を実装するコードを適切に書く方法の等しく重要な知識を提供する。 このチュートリアルのもう一つの中心的な側面として、ibmq_ehningen の 27 qubits state-of-the-art 量子コンピュータに関する広範な実験がある。 これらの実験の議論から、量子コンピュータの現状を概観し、今日のハードウェア上でどの問題のサイズが有意義に実行できるのかを推測する。

The present tutorial aims to provide a comprehensible and easily accessible introduction into the theory and implementation of the famous Quantum Approximate Optimization Algorithm (QAOA). We lay our focus on practical aspects and step-by-step guide through the realization of a proof of concept quantum application based on a real-world use case. In every step we first explain the underlying theory and subsequently provide the implementation using IBM's Qiskit. In this way we provide a thorough understanding of the mathematical modelling and the (quantum) algorithms as well as the equally important knowledge how to properly write the code implementing those theoretical concepts. As another central aspect of this tutorial we provide extensive experiments on the 27 qubits state-of-the-art quantum computer ibmq_ehningen. From the discussion of these experiments we gain an overview on the current status of quantum computers and deduce which problem sizes can meaningfully be executed on today's hardware.
翻訳日:2023-01-24 12:57:41 公開日:2023-01-23
# Nested Monte Carlo SearchによるHPモデルの解法

Solving the HP model with Nested Monte Carlo Search ( http://arxiv.org/abs/2301.09533v1 )

ライセンス: Link先を確認
Milo Roucairol and Tristan Cazenave(参考訳) 本稿では,hpモデルにおけるタンパク質の基底状態エネルギーを求めるモンテカルロ探索(mcs)アルゴリズムを提案する。 また、HPモデルでは通常使われていない他のMCSアルゴリズムと比較し、HPモデルで使用されるアルゴリズムの概要を提供する。 本論文で提示されたアルゴリズムは,perm (hsu and grassberger 2011), remc (thachuk, shmygelska, hoos 2007) や wlre (w\"ust and landau 2012) など,最先端のアルゴリズムには勝っていない。 H、H。 -P。 and grassberger, p. 2011年。 PERMによる高分子のモンテカルロシミュレーションの概観 journal of statistical physics, 144 (3): 597 - 637。 タチュク c. とShmygelska, A。 とHoos, H. H. 2007。 HPモデルにおけるタンパク質折り畳みのためのモンテカルロの複製交換アルゴリズム bmcバイオインフォマティクス, 8(1): 342。 略称は「T」。 とLandau, D. P. 2012。 格子ポリマーの最適化Wang-Landauサンプリング:HPモデルタンパク質の基底状態探索と折り畳み熱力学 the journal of chemical physics, 137(6): 064903。

In this paper we present a new Monte Carlo Search (MCS) algorithm for finding the ground state energy of proteins in the HP-model. We also compare it briefly to other MCS algorithms not usually used on the HP-model and provide an overview of the algorithms used on HP-model. The algorithm presented in this paper does not beat state of the art algorithms, see PERM (Hsu and Grassberger 2011), REMC (Thachuk, Shmygelska, and Hoos 2007) or WLRE (W\"ust and Landau 2012) for better results. Hsu, H.-P.; and Grassberger, P. 2011. A review of Monte Carlo simulations of polymers with PERM. Journal of Statistical Physics, 144 (3): 597 to 637. Thachuk, C.; Shmygelska, A.; and Hoos, H. H. 2007. A replica exchange Monte Carlo algorithm for protein folding in the HP model. BMC Bioinformatics, 8(1): 342. W\"ust, T.; and Landau, D. P. 2012. Optimized Wang-Landau sampling of lattice polymers: Ground state search and folding thermodynamics of HP model proteins. The Journal of Chemical Physics, 137(6): 064903.
翻訳日:2023-01-24 12:57:27 公開日:2023-01-23
# DeepFEL: 病理画像解析のためのDeep Fastfood Ensemble Learning

DeepFEL: Deep Fastfood Ensemble Learning for Histopathology Image Analysis ( http://arxiv.org/abs/2301.09525v1 )

ライセンス: Link先を確認
Nima Hatami(参考訳) 計算病理タスクには, マルチギガピクセル画像, 退屈で頻繁なアノテーション, 多数のケースの有効性など, 特有の特徴がある。 これらの問題に対処するために、Deep Fastfood Ensembles - 完全に異なるソースドメイン(例えば、自然言語オブジェクト)で事前トレーニングされた、ランダムなプロジェクションを使用してさまざまな次元に投影された、一般的なCNNモデルからサンプリングされた、シンプルで高速で効果的な機能を組み合わせるための、Deep Fastfood Ensembles - いわゆるFastfood [11]を提案する。 最終的なアンサンブル出力は、単純な個別分類器のコンセンサスによって得られ、それぞれがランダム基底ベクトルの異なるコレクションに基づいて訓練される。 これは、特にトレーニング時間とドメインラベルが重要な場合に、非常に高速で効果的なソリューションを提供します。 組織像解析における3つの課題に対する最先端の手法と比較して,提案手法の有効性を実証する。

Computational pathology tasks have some unique characterises such as multi-gigapixel images, tedious and frequently uncertain annotations, and unavailability of large number of cases [13]. To address some of these issues, we present Deep Fastfood Ensembles - a simple, fast and yet effective method for combining deep features pooled from popular CNN models pre-trained on totally different source domains (e.g., natural image objects) and projected onto diverse dimensions using random projections, the so-called Fastfood [11]. The final ensemble output is obtained by a consensus of simple individual classifiers, each of which is trained on a different collection of random basis vectors. This offers extremely fast and yet effective solution, especially when training times and domain labels are of the essence. We demonstrate the effectiveness of the proposed deep fastfood ensemble learning as compared to the state-of-the-art methods for three different tasks in histopathology image analysis.
翻訳日:2023-01-24 12:57:06 公開日:2023-01-23
# アフターワンプロブレムアウト性能予測のためのRF+クラスト

RF+clust for Leave-One-Problem-Out Performance Prediction ( http://arxiv.org/abs/2301.09524v1 )

ライセンス: Link先を確認
Ana Nikolikj and Carola Doerr and Tome Eftimov(参考訳) per-instance automatic algorithm configuration and selectionは近年、進化的計算において重要な瞬間を得ている。 自動化機械学習(automl)の2つの重要な、時には暗黙的な要素は 1)問題インスタンスの特徴に基づく表現と 2) 特定のアルゴリズムインスタンスが与えられた問題インスタンス上でどれだけうまく機能するかを推定するために,特徴を入力とする性能予測手法。 当然のことながら、一般的な機械学習モデルでは、特徴に基づく表現が不足している、あるいはトレーニングデータにカバーされていないインスタンスの予測に失敗し、トレーニング中に見られない問題に対するモデルの一般化能力が低下する。 本研究では,特徴空間におけるコサイン類似度を用いて,性能予測を求める課題に十分近い問題インスタンスに対して,アルゴリズムが求めた性能値の重み付け平均値を用いて,標準ランダムフォレスト(rf)モデル予測を改善することができるかを分析する。 rf+clustアプローチは,いくつかの問題に対してより正確な性能予測を行うが,その予測能力は,選択された類似度閾値と,コサイン類似度を測定する特徴ポートフォリオに依存する。

Per-instance automated algorithm configuration and selection are gaining significant moments in evolutionary computation in recent years. Two crucial, sometimes implicit, ingredients for these automated machine learning (AutoML) methods are 1) feature-based representations of the problem instances and 2) performance prediction methods that take the features as input to estimate how well a specific algorithm instance will perform on a given problem instance. Non-surprisingly, common machine learning models fail to make predictions for instances whose feature-based representation is underrepresented or not covered in the training data, resulting in poor generalization ability of the models for problems not seen during training.In this work, we study leave-one-problem-out (LOPO) performance prediction. We analyze whether standard random forest (RF) model predictions can be improved by calibrating them with a weighted average of performance values obtained by the algorithm on problem instances that are sufficiently close to the problem for which a performance prediction is sought, measured by cosine similarity in feature space. While our RF+clust approach obtains more accurate performance prediction for several problems, its predictive power crucially depends on the chosen similarity threshold as well as on the feature portfolio for which the cosine similarity is measured, thereby opening a new angle for feature selection in a zero-shot learning setting, as LOPO is termed in machine learning.
翻訳日:2023-01-24 12:56:45 公開日:2023-01-23
# マルチエージェントQラーニングダイナミクスの漸近収束と性能

Asymptotic Convergence and Performance of Multi-Agent Q-Learning Dynamics ( http://arxiv.org/abs/2301.09619v1 )

ライセンス: Link先を確認
Aamal Abbas Hussain and Francesco Belardinelli and Georgios Piliouras(参考訳) 一般の$N$-playerゲームにおける複数の学習エージェントの収束は、安全で信頼性の高い機械学習(ML)アルゴリズムの開発と自律システムへの応用に不可欠である。 しかし、単純な2プレーヤゲームの境界外においては、収束は当然考慮できないことが知られている。 そこで本研究では, 学習エージェントが状態空間を探索したり, 報酬を活用したりする傾向を定量化する, 人気のある強化学習アルゴリズムである smooth q-learning のダイナミクスについて検討する。 我々は,Qラーニング力学が任意のゲームにおいて一意平衡に収束することが保証されるような探索速度の十分条件を示す。 この結果を,重み付きポテンシャルゲームや重み付きゼロサム多行列ゲームなど,任意の探索率でq-learningが収束するゲームと結びつける。 最後に, 平均社会福祉のQ-Learningダイナミックスの性能について検討し, 均衡によって達成された社会福祉との比較を行った。 q-ラーニングのダイナミクスが、ダイナミクスが収束しない場合でも平衡を上回ってしまうような十分な条件を提供する。

Achieving convergence of multiple learning agents in general $N$-player games is imperative for the development of safe and reliable machine learning (ML) algorithms and their application to autonomous systems. Yet it is known that, outside the bounds of simple two-player games, convergence cannot be taken for granted. To make progress in resolving this problem, we study the dynamics of smooth Q-Learning, a popular reinforcement learning algorithm which quantifies the tendency for learning agents to explore their state space or exploit their payoffs. We show a sufficient condition on the rate of exploration such that the Q-Learning dynamics is guaranteed to converge to a unique equilibrium in any game. We connect this result to games for which Q-Learning is known to converge with arbitrary exploration rates, including weighted Potential games and weighted zero sum polymatrix games. Finally, we examine the performance of the Q-Learning dynamic as measured by the Time Averaged Social Welfare, and comparing this with the Social Welfare achieved by the equilibrium. We provide a sufficient condition whereby the Q-Learning dynamic will outperform the equilibrium even if the dynamics do not converge.
翻訳日:2023-01-24 12:50:35 公開日:2023-01-23
# 大腸癌組織からのフルトランスフォーマーによるバイオマーカー予測 : 大規模多施設共同研究

Fully transformer-based biomarker prediction from colorectal cancer histology: a large-scale multicentric study ( http://arxiv.org/abs/2301.09617v1 )

ライセンス: Link先を確認
Sophia J. Wagner, Daniel Reisenb\"uchler, Nicholas P. West, Jan Moritz Niehues, Gregory Patrick Veldhuizen, Philip Quirke, Heike I. Grabsch, Piet A. van den Brandt, Gordon G. A. Hutchins, Susan D. Richman, Tanwei Yuan, Rupert Langer, Josien Christina Anna Jenniskens, Kelly Offermans, Wolfram Mueller, Richard Gray, Stephen B. Gruber, Joel K. Greenson, Gad Rennert, Joseph D. Bonner, Daniel Schmolze, Jacqueline A. James, Maurice B. Loughrey, Manuel Salto-Tellez, Hermann Brenner, Michael Hoffmeister, Daniel Truhn, Julia A. Schnabel, Melanie Boxberg, Tingying Peng, Jakob Nikolas Kather(参考訳) 背景: deep learning (dl) は大腸癌の病理診断スライドから予測および予後予測バイオマーカーを抽出することができる。 例えば、CRCにおけるマイクロサテライト不安定症(MSI)の診断のためのDL試験が2022年に承認された。 現在のアプローチは畳み込みニューラルネットワーク(CNN)に依存している。 トランスフォーマーネットワークはCNNよりも優れており、多くのアプリケーションで置き換えられているが、がんのバイオマーカー予測には使われていない。 さらに、ほとんどのDLアプローチは、臨床効果を制限する小さな患者コホートで訓練されている。 方法:本研究では,病理スライドからエンド・ツー・エンドのバイオマーカーを予測するための完全トランスフォーマーベースのパイプラインを開発した。 プリトレーニングトランスエンコーダとパッチアグリゲーションのためのトランスネットワークを組み合わせることで,患者レベルでの単一および多目的予測を可能にする。 10の大腸癌コホートから9000人以上の患者にパイプラインを訓練する。 結果: 完全にトランスフォーマティブなアプローチは,現在の最先端アルゴリズムと比較して,パフォーマンス,汎用性,データ効率,解釈性を大幅に向上させる。 大規模な多施設コホートを訓練した結果,手術標本のMSI予測では0.99の負の予測値で0.97の感度が得られた。 内視鏡的生検組織における検体のみの訓練が臨床成績に到達し,長期にわたる診断課題を解決した。 解釈: 何千もの病理スライドで訓練された完全なトランスフォーマーベースのエンドツーエンドパイプラインは、外科的切除と生検のバイオマーカー予測のための臨床グレードのパフォーマンスを得る。 私たちの新しいメソッドはオープンソースライセンスで自由に利用できます。

Background: Deep learning (DL) can extract predictive and prognostic biomarkers from routine pathology slides in colorectal cancer. For example, a DL test for the diagnosis of microsatellite instability (MSI) in CRC has been approved in 2022. Current approaches rely on convolutional neural networks (CNNs). Transformer networks are outperforming CNNs and are replacing them in many applications, but have not been used for biomarker prediction in cancer at a large scale. In addition, most DL approaches have been trained on small patient cohorts, which limits their clinical utility. Methods: In this study, we developed a new fully transformer-based pipeline for end-to-end biomarker prediction from pathology slides. We combine a pre-trained transformer encoder and a transformer network for patch aggregation, capable of yielding single and multi-target prediction at patient level. We train our pipeline on over 9,000 patients from 10 colorectal cancer cohorts. Results: A fully transformer-based approach massively improves the performance, generalizability, data efficiency, and interpretability as compared with current state-of-the-art algorithms. After training on a large multicenter cohort, we achieve a sensitivity of 0.97 with a negative predictive value of 0.99 for MSI prediction on surgical resection specimens. We demonstrate for the first time that resection specimen-only training reaches clinical-grade performance on endoscopic biopsy tissue, solving a long-standing diagnostic problem. Interpretation: A fully transformer-based end-to-end pipeline trained on thousands of pathology slides yields clinical-grade performance for biomarker prediction on surgical resections and biopsies. Our new methods are freely available under an open source license.
翻訳日:2023-01-24 12:50:15 公開日:2023-01-23
# 概念誘導を用いた深層学習隠れニューロン活性化の解説

Explaining Deep Learning Hidden Neuron Activations using Concept Induction ( http://arxiv.org/abs/2301.09611v1 )

ライセンス: Link先を確認
Abhilekha Dalal, Md Kamruzzaman Sarker, Adrita Barua, and Pascal Hitzler(参考訳) Explainable AIにおける現在の課題の1つは、隠れたニューロンの活性化を正しく解釈することである。 正確な解釈は、深層学習システムが内部的に「emph{detected}」を入力に関連付けているかどうかという疑問に洞察を与え、深層学習システムのブラックボックスのいくつかの特徴を持ち上げることになる。 この技術の現状は、隠されたノードのアクティベーションが、少なくとも場合によっては人間にとって意味のある方法で解釈可能であることを示している。 しかし、まず隠れたニューロンの活性化の解釈を仮定し、それを検証できる体系的な自動化手法はほとんど欠落している。 本稿では,そのような方法を提供し,意味のある解釈を提供することを示す。 これは、wikipediaのコンセプト階層から集められた約200万クラスのクラス階層である大規模なバックグラウンド知識と、元々セマンティックweb分野のアプリケーションのために開発された記述ロジックに基づいた、emph{concept induction}と呼ばれるシンボリック推論アプローチの使用に基づいている。 以上より,畳み込みニューラルネットワークの密集層内の個々のニューロンに,背景知識から有意なラベルを仮説と検証プロセスを通じて自動的に付加できることを示す。

One of the current key challenges in Explainable AI is in correctly interpreting activations of hidden neurons. It seems evident that accurate interpretations thereof would provide insights into the question what a deep learning system has internally \emph{detected} as relevant on the input, thus lifting some of the black box character of deep learning systems. The state of the art on this front indicates that hidden node activations appear to be interpretable in a way that makes sense to humans, at least in some cases. Yet, systematic automated methods that would be able to first hypothesize an interpretation of hidden neuron activations, and then verify it, are mostly missing. In this paper, we provide such a method and demonstrate that it provides meaningful interpretations. It is based on using large-scale background knowledge -- a class hierarchy of approx. 2 million classes curated from the Wikipedia Concept Hierarchy -- together with a symbolic reasoning approach called \emph{concept induction} based on description logics that was originally developed for applications in the Semantic Web field. Our results show that we can automatically attach meaningful labels from the background knowledge to individual neurons in the dense layer of a Convolutional Neural Network through a hypothesis and verification process.
翻訳日:2023-01-24 12:49:51 公開日:2023-01-23
# fedexp:外挿で平均フェデレーションを高速化

FedExP: Speeding up Federated Averaging Via Extrapolation ( http://arxiv.org/abs/2301.09604v1 )

ライセンス: Link先を確認
Divyansh Jhunjhunwala, Shiqiang Wang, Gauri Joshi(参考訳) Federated Averaging(FedAvg)は、シンプルな実装、ステートレスな性質、プライバシ保証とセキュアなアグリゲーションを組み合わせたため、Federated Learning(FL)最適化の最も一般的なアルゴリズムである。 最近の研究は、クライアントの更新を擬似段階として扱い、サーバのステップサイズを用いて、FedAvgのバニラ平均化を一般化した勾配降下ステップに一般化しようと試みている。 サーバステップサイズの使用は理論的にパフォーマンス改善をもたらすことが示されているが、サーバステップサイズの実用的メリットは、既存のほとんどの作業では見られていない。 本稿では、FLプロセス全体を通して動的に変化する擬似階調に基づいて、FLにおけるサーバステップサイズを適応的に決定するFedExPを提案する。 我々は、FedAvgとPOCS(Projection Onto Convex Sets)アルゴリズムの興味深い類似性を明らかにするために、過パラメータ化された凸系を考えることから始める。 次に、POCSの高速化に使用される外挿機構の新たな拡張としてFedExPを動機付ける方法を示す。 また,FedExPのパラメータ下および非凸状態における影響についても理論的に検討した。 実験結果から,FedExPはFedAvgよりも一貫して収束し,現実的なFLデータセットをベースラインとして競合することがわかった。

Federated Averaging (FedAvg) remains the most popular algorithm for Federated Learning (FL) optimization due to its simple implementation, stateless nature, and privacy guarantees combined with secure aggregation. Recent work has sought to generalize the vanilla averaging in FedAvg to a generalized gradient descent step by treating client updates as pseudo-gradients and using a server step size. While the use of a server step size has been shown to provide performance improvement theoretically, the practical benefit of the server step size has not been seen in most existing works. In this work, we present FedExP, a method to adaptively determine the server step size in FL based on dynamically varying pseudo-gradients throughout the FL process. We begin by considering the overparameterized convex regime, where we reveal an interesting similarity between FedAvg and the Projection Onto Convex Sets (POCS) algorithm. We then show how FedExP can be motivated as a novel extension to the extrapolation mechanism that is used to speed up POCS. Our theoretical analysis later also discusses the implications of FedExP in underparameterized and non-convex settings. Experimental results show that FedExP consistently converges faster than FedAvg and competing baselines on a range of realistic FL datasets.
翻訳日:2023-01-24 12:49:29 公開日:2023-01-23
# 異常検出から異常セグメンテーションへの超球ロス関数の適応

Adapting the Hypersphere Loss Function from Anomaly Detection to Anomaly Segmentation ( http://arxiv.org/abs/2301.09602v1 )

ライセンス: Link先を確認
Joao P. C. Bertoldo, Santiago Velasco-Forero, Jesus Angulo, Etienne Decenci\`ere(参考訳) 本稿では,異常検出から画像異常セグメンテーション(異常局所化)への一クラス分類アプローチの適応として,FCDD(Fully Convolutional Data Description)の漸進的な改善を提案する。 元の損失関数を解析し,前任のハイパースフィア分類器(HSC)によく似た代替関数を提案する。 どちらもMVTec Anomaly Detection Dataset (MVTec-AD)で比較されている -- トレーニングイメージは欠陥のないオブジェクト/コンテキストであり、未確認の欠陥をセグメントすることを目的としている。

We propose an incremental improvement to Fully Convolutional Data Description (FCDD), an adaptation of the one-class classification approach from anomaly detection to image anomaly segmentation (a.k.a. anomaly localization). We analyze its original loss function and propose a substitute that better resembles its predecessor, the Hypersphere Classifier (HSC). Both are compared on the MVTec Anomaly Detection Dataset (MVTec-AD) -- training images are flawless objects/textures and the goal is to segment unseen defects -- showing that consistent improvement is achieved by better designing the pixel-wise supervision.
翻訳日:2023-01-24 12:49:07 公開日:2023-01-23
# zorro: マスク付きマルチモーダルトランスフォーマー

Zorro: the masked multimodal transformer ( http://arxiv.org/abs/2301.09595v1 )

ライセンス: Link先を確認
Adri\`a Recasens, Jason Lin, Jo\=ao Carreira, Drew Jaegle, Luyu Wang, Jean-baptiste Alayrac, Pauline Luc, Antoine Miech, Lucas Smaira, Ross Hemsley, Andrew Zisserman(参考訳) 複数のモダリティからの入力を結合して単一のバックボーンネットワークに供給することができるため、注意に基づくモデルはマルチモーダル処理に魅力的です。 しかし、結果の表現はネットワーク全体に完全に絡み合っているため、必ずしも望ましいとは限らない: 学習において、コントラストのあるオーディオ視覚的自己教師付き学習は、独立したオーディオと視覚的特徴を必要とし、そうでなければ、崩壊を学習する; 推論では、オーディオまたはビデオのみのベンチマークでオーディオ視覚モデルの評価が可能であるべきである。 本稿では,各モダリティからの入力がトランスフォーマタ内でどのように制御され,表現モダリティ・ピュアの一部が保持されるかをマスクで制御する技術であるzorroを紹介する。 この手法を3つの人気のあるトランスフォーマーベースアーキテクチャ (ViT, Swin, HiP) に適用し, 対照的な事前学習により, マルチモーダルタスクのベンチマーク (AudioSet, VGGSound) で最先端の結果が得られることを示す。 さらに、結果のモデルは、Kinetics-400やESC-50のようなビデオとオーディオのベンチマークの両方で一様推論を行うことができる。

Attention-based models are appealing for multimodal processing because inputs from multiple modalities can be concatenated and fed to a single backbone network - thus requiring very little fusion engineering. The resulting representations are however fully entangled throughout the network, which may not always be desirable: in learning, contrastive audio-visual self-supervised learning requires independent audio and visual features to operate, otherwise learning collapses; in inference, evaluation of audio-visual models should be possible on benchmarks having just audio or just video. In this paper, we introduce Zorro, a technique that uses masks to control how inputs from each modality are routed inside Transformers, keeping some parts of the representation modality-pure. We apply this technique to three popular transformer-based architectures (ViT, Swin and HiP) and show that with contrastive pre-training Zorro achieves state-of-the-art results on most relevant benchmarks for multimodal tasks (AudioSet and VGGSound). Furthermore, the resulting models are able to perform unimodal inference on both video and audio benchmarks such as Kinetics-400 or ESC-50.
翻訳日:2023-01-24 12:48:53 公開日:2023-01-23
# 単光子と線形光学によるグラフ問題の解法

Solving graph problems with single-photons and linear optics ( http://arxiv.org/abs/2301.09594v1 )

ライセンス: Link先を確認
Rawad Mezher, Ana Filipa Carvalho, Shane Mansfield(参考訳) 現状と短期の量子デバイスにとって重要な課題は、それらをプリフォームできる有用なタスクを見つけることである。 まず、有界な$n \times n$ matrix $a$を2n$モードの線形光回路に効率的にエンコードする方法を示す。 次に、このエンコーディングを、$A$ がグラフ $G$ に関する情報を含む行列である場合に適用する。 単光子源からなるフォトニック量子プロセッサ、$A$を符号化する線形光回路、および単光子検出器により、2部グラフの完全マッチング数、永久多項式の計算、2つのグラフが同型かどうか、および$k$dsestサブグラフ問題などのグラフ問題を解くことができることを示す。 また,検出イベントの観測可能性を高め,性能を向上させるための前処理手法を提案する。 最後に, 実験結果を検証する数値シミュレーションを行った。

An important challenge for current and near-term quantum devices is finding useful tasks that can be preformed on them. We first show how to efficiently encode a bounded $n \times n$ matrix $A$ into a linear optical circuit with $2n$ modes. We then apply this encoding to the case where $A$ is a matrix containing information about a graph $G$. We show that a photonic quantum processor consisting of single-photon sources, a linear optical circuit encoding $A$, and single-photon detectors can solve a range of graph problems including finding the number of perfect matchings of bipartite graphs, computing permanental polynomials, determining whether two graphs are isomorphic, and the $k$-densest subgraph problem. We also propose pre-processing methods to boost the probabilities of observing the relevant detection events and thus improve performance. Finally, we present various numerical simulations which validate our findings.
翻訳日:2023-01-24 12:48:28 公開日:2023-01-23
# 数投影のない量子コンピュータにおけるAGPの状態生成

State preparation of AGP on a quantum computer without number projection ( http://arxiv.org/abs/2301.09586v1 )

ライセンス: Link先を確認
Armin Khamoshi and Rishab Dutta and Gustavo E. Scuseria(参考訳) 反対称性ゲミナルパワー (AGP) はBardeen-Cooper-Schrieffer (PBCS) 波動関数と等価である。 また、基本的な対称多項式(ESP)状態でもある。 我々は、量子コンピュータ上でのESP状態(またはAGP)の状態準備アルゴリズムにディック状態を決定論的に実装する以前の研究を一般化する。 本手法は決定論的であり, 多項式コストが高く, 数値対称性の破れや復元に依存しない。 また,本回路は,単一スレーター行列式に作用するユニタリー結合クラスタ演算子とユニタリージャストロー演算子の層と等価であることを示した。 ここでは, 従来のハートリーフォック型電子構造法ではアクセスできない非自明な絡み合い特性を捉えるために, ユニタリ結合クラスタをアンタングル化できることを強調した。

The antisymmetrized geminal power (AGP) is equivalent to the number projected Bardeen-Cooper-Schrieffer (PBCS) wavefunction. It is also an elementary symmetric polynomial (ESP) state. We generalize previous research on deterministically implementing the Dicke state to a state preparation algorithm for an ESP state, or equivalently AGP, on a quantum computer. Our method is deterministic and has polynomial cost, and it does not rely on number symmetry breaking and restoration. We also show that our circuit is equivalent to a disentangled unitary paired coupled cluster operator and a layer of unitary Jastrow operator acting on a single Slater determinant. The method presented herein highlights the ability of disentangled unitary coupled cluster to capture non-trivial entanglement properties that are hardly accessible with traditional Hartree-Fock based electronic structure methods.
翻訳日:2023-01-24 12:48:11 公開日:2023-01-23
# Huber-Robust Confidence Sequences

Huber-Robust Confidence Sequences ( http://arxiv.org/abs/2301.09573v1 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas(参考訳) 信頼シーケンスは逐次追跡可能な信頼区間であり、任意のデータ依存の停止時間に有効である。 本稿では,p-th中心モーメント(p>1)に既知の上界を持つ未知分布の平均値に対する信頼度列を示すが,ハマーの汚染モデルのように,任意の分布汚損の(ほとんどの場合) {\epsilon}分画を許容する。 我々は、新しいロバスト指数超行列を設計し、結果の信頼性シーケンスが非順序設定で達成された最適幅に達することを示す。 おそらく意外なことに、例えばトリミングされた平均に基づく固定時間ロバストな信頼区間よりも、シーケンシャルな結果と下限の間の一定のマージンは小さい。 信頼シーケンスはa/b/nテストやバンディットで使用される一般的なツールであるため、これらの結果は、異常値や敵対的破損に対して堅牢な逐次実験への扉を開く。

Confidence sequences are confidence intervals that can be sequentially tracked, and are valid at arbitrary data-dependent stopping times. This paper presents confidence sequences for a univariate mean of an unknown distribution with a known upper bound on the p-th central moment (p > 1), but allowing for (at most) {\epsilon} fraction of arbitrary distribution corruption, as in Huber's contamination model. We do this by designing new robust exponential supermartingales, and show that the resulting confidence sequences attain the optimal width achieved in the nonsequential setting. Perhaps surprisingly, the constant margin between our sequential result and the lower bound is smaller than even fixed-time robust confidence intervals based on the trimmed mean, for example. Since confidence sequences are a common tool used within A/B/n testing and bandits, these results open the door to sequential experimentation that is robust to outliers and adversarial corruptions.
翻訳日:2023-01-24 12:47:48 公開日:2023-01-23
# infinicity:無限大の都市合成

InfiniCity: Infinite-Scale City Synthesis ( http://arxiv.org/abs/2301.09637v1 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Willi Menapace, Menglei Chai, Aliaksandr Siarohin, Ming-Hsuan Yang and Sergey Tulyakov(参考訳) 本研究では,無限大の3次元都市合成に向けて,ランダムノイズから制約のない大規模3次元地下環境の構築とレンダリングを行う新しいフレームワーク,InfiniCityを提案する。 infinicityは一見非現実的なタスクを3つの実現可能なモジュールに分解し、2dと3dの両方のデータを利用する。 まず、無限画素画像合成モジュールが、鳥眼ビューから任意のスケールの2Dマップを生成する。 次にoctreeベースのvoxel補完モジュールは、生成された2dマップを3dオクターレにリフトする。 最後に、voxelベースのニューラルネットワークモジュールがvoxelをテキスト化し、2dイメージをレンダリングする。 これにより、InfiniCityは任意の規模の3D都市環境を合成し、フレキシブルでインタラクティブな編集を可能にする。 提案手法の有効性を定量的かつ質的に実証する。 プロジェクトページ: https://hubert0527.github.io/infinicity/

Toward infinite-scale 3D city synthesis, we propose a novel framework, InfiniCity, which constructs and renders an unconstrainedly large and 3D-grounded environment from random noises. InfiniCity decomposes the seemingly impractical task into three feasible modules, taking advantage of both 2D and 3D data. First, an infinite-pixel image synthesis module generates arbitrary-scale 2D maps from the bird's-eye view. Next, an octree-based voxel completion module lifts the generated 2D map to 3D octrees. Finally, a voxel-based neural rendering module texturizes the voxels and renders 2D images. InfiniCity can thus synthesize arbitrary-scale and traversable 3D city environments, and allow flexible and interactive editing from users. We quantitatively and qualitatively demonstrate the efficacy of the proposed framework. Project page: https://hubert0527.github.io/infinicity/
翻訳日:2023-01-24 12:41:00 公開日:2023-01-23
# スピンスクイーズに関する普遍理論

A Universal Theory of Spin Squeezing ( http://arxiv.org/abs/2301.09636v1 )

ライセンス: Link先を確認
Maxwell Block, Bingtian Ye, Brenden Roberts, Sabrina Chern, Weijie Wu, Zilin Wang, Lode Pollet, Emily J. Davis, Bertrand I. Halperin, Norman Y. Yao(参考訳) 有限温度、簡単な平面強磁性(XYオーダー)を示すハミルトニアンは、スケーラブルなスピンスクイーズを発生させ、量子増強センシングを行うことができる。 我々の予想は、純粋状態の量子フィッシャー情報と連続対称性の自発的な破れの間の深い関係によって導かれる。 スピンスケージングは,スケーラブルなスクイージングと非スケージングの間を鋭く遷移する相図を示す。 この遷移は、有限温度でのXY位における平衡相境界と一致する。 スケーラブルなスクイージングフェーズでは、標準量子限界である$N^{-7/10}$と、全結合容易平面スピンモデルである$N^{-5/6}$の間で、感度スケーリングを$N^{-7/10}$と予測する。 我々の結果は、気象学的に有用な量子状態を生成するために使用できるハミルトンの風景に関する基本的な洞察を与える。

We provide extensive numerical and analytic evidence for the following conjecture: Any Hamiltonian exhibiting finite temperature, easy-plane ferromagnetism (XY order) can be used to generate scalable spin squeezing, and thus to perform quantum-enhanced sensing. Our conjecture is guided by a deep connection between the quantum Fisher information of pure states and the spontaneous breaking of a continuous symmetry. We demonstrate that spin-squeezing exhibits a phase diagram with a sharp transition between scalable squeezing and non-squeezing. This transition coincides with the equilibrium phase boundary for XY order at a finite temperature. In the scalable squeezing phase, we predict a sensitivity scaling as $N^{-7/10}$, between the standard quantum limit, $N^{-1/2}$, and that achieved in all-to-all coupled easy-plane spin models, $N^{-5/6}$. Our results provide fundamental insight into the landscape of Hamiltonians that can be used to generate metrologically useful quantum states.
翻訳日:2023-01-24 12:40:46 公開日:2023-01-23
# 予測動力推論

Prediction-Powered Inference ( http://arxiv.org/abs/2301.09633v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Stephen Bates, Clara Fannjiang, Michael I. Jordan, Tijana Zrnic(参考訳) 実験データセットにAlphaFoldのような機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークとして,予測駆動推論$\unicode{x2013}を紹介した。 我々のフレームワークは、予測を提供する機械学習アルゴリズムを仮定することなく、証明可能な結論を得る。 予測の高精度さはより小さな信頼区間に変換され、より強力な推論が可能である。 予測を用いた推論は、手段、量子、線形およびロジスティック回帰係数などの統計対象に対する有効な信頼区間を計算するための単純なアルゴリズムを生成する。 プロテオミクス,ゲノミクス,電子投票,リモートセンシング,国勢調査解析,生態学のデータセットを用いた予測に基づく推論の利点を実証する。

We introduce prediction-powered inference $\unicode{x2013}$ a framework for performing valid statistical inference when an experimental data set is supplemented with predictions from a machine-learning system such as AlphaFold. Our framework yields provably valid conclusions without making any assumptions on the machine-learning algorithm that supplies the predictions. Higher accuracy of the predictions translates to smaller confidence intervals, permitting more powerful inference. Prediction-powered inference yields simple algorithms for computing valid confidence intervals for statistical objects such as means, quantiles, and linear and logistic regression coefficients. We demonstrate the benefits of prediction-powered inference with data sets from proteomics, genomics, electronic voting, remote sensing, census analysis, and ecology.
翻訳日:2023-01-24 12:40:27 公開日:2023-01-23
# hexplane: 動的シーンのための高速な表現

HexPlane: A Fast Representation for Dynamic Scenes ( http://arxiv.org/abs/2301.09632v1 )

ライセンス: Link先を確認
Ang Cao, Justin Johnson(参考訳) ダイナミックな3Dシーンのモデリングと再レンダリングは、3Dビジョンでは難しい課題だ。 以前のアプローチはNeRF上に構築され、暗黙の表現に依存していた。 多くのMLP評価を必要とし、現実世界のアプリケーションに制約を加えるため、これは遅い。 動的3Dシーンは、6つの学習された特徴の平面で明示的に表現できることを示し、HexPlaneと呼ばれるエレガントなソリューションを生み出します。 HexPlaneは、高効率な各平面から抽出されたベクトルを融合させることにより、時空の点の特徴を計算する。 hexplaneと小さなmlpを組み合わせることで、出力色やボリュームレンダリングによるトレーニングは、ダイナミックシーンの新しいビュー合成に印象的な結果をもたらし、以前の作業の画質にマッチすると同時に、トレーニング時間を100ドル以上削減する。 広範なアブレーションによりhexplaneの設計を確認し,異なる核融合機構,座標系,復号機構に頑健であることが確認された。 HexPlanesは4Dボリュームを表現するためのシンプルで効果的なソリューションであり、ダイナミックな3Dシーンの時空モデリングに広く貢献できることを願っています。

Modeling and re-rendering dynamic 3D scenes is a challenging task in 3D vision. Prior approaches build on NeRF and rely on implicit representations. This is slow since it requires many MLP evaluations, constraining real-world applications. We show that dynamic 3D scenes can be explicitly represented by six planes of learned features, leading to an elegant solution we call HexPlane. A HexPlane computes features for points in spacetime by fusing vectors extracted from each plane, which is highly efficient. Pairing a HexPlane with a tiny MLP to regress output colors and training via volume rendering gives impressive results for novel view synthesis on dynamic scenes, matching the image quality of prior work but reducing training time by more than $100\times$. Extensive ablations confirm our HexPlane design and show that it is robust to different feature fusion mechanisms, coordinate systems, and decoding mechanisms. HexPlanes are a simple and effective solution for representing 4D volumes, and we hope they can broadly contribute to modeling spacetime for dynamic 3D scenes.
翻訳日:2023-01-24 12:40:14 公開日:2023-01-23
# 個別予測の説明を用いた特徴構成

Feature construction using explanations of individual predictions ( http://arxiv.org/abs/2301.09631v1 )

ライセンス: Link先を確認
Bo\v{s}tjan Vouk, Matej Guid, Marko Robnik-\v{S}ikonja(参考訳) 機能構築は、機械学習モデルの理解性とパフォーマンスに寄与する。 残念ながら、通常は属性空間を徹底的に検索するか、有意義な特徴を生成するのに時間を要する。 本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間削減のための新しいヒューリスティックな手法を提案する。 提案する説明可能機能構築(efc)手法は,imeやshapなどの一般的な説明方法によって公開される共起属性群を同定する。 これらの群に対する探索の削減は、論理的、リレーショナル、カルト的、数値的、しきい値 num-of-N および X-of-N 構成作用素を用いた特徴構築の時間を大幅に短縮することを示す。 10の透過的な合成データセットの分析により、EFCは属性の情報グループを効果的に識別し、関連する特徴を構築できることが示されている。 実世界の30の分類データセットを用いて,複数の分類器の分類精度が大幅に向上し,大規模データセットにおいても提案する特徴構成の実現可能性を示す。 最後に、EFCは金融業界から現実の問題に関する解釈可能な機能を生成し、それがドメインの専門家によって確認された。

Feature construction can contribute to comprehensibility and performance of machine learning models. Unfortunately, it usually requires exhaustive search in the attribute space or time-consuming human involvement to generate meaningful features. We propose a novel heuristic approach for reducing the search space based on aggregation of instance-based explanations of predictive models. The proposed Explainable Feature Construction (EFC) methodology identifies groups of co-occurring attributes exposed by popular explanation methods, such as IME and SHAP. We empirically show that reducing the search to these groups significantly reduces the time of feature construction using logical, relational, Cartesian, numerical, and threshold num-of-N and X-of-N constructive operators. An analysis on 10 transparent synthetic datasets shows that EFC effectively identifies informative groups of attributes and constructs relevant features. Using 30 real-world classification datasets, we show significant improvements in classification accuracy for several classifiers and demonstrate the feasibility of the proposed feature construction even for large datasets. Finally, EFC generated interpretable features on a real-world problem from the financial industry, which were confirmed by a domain expert.
翻訳日:2023-01-24 12:39:57 公開日:2023-01-23
# lego-net:部屋の中のオブジェクトの定期的な並べ替えを学ぶ

LEGO-Net: Learning Regular Rearrangements of Objects in Rooms ( http://arxiv.org/abs/2301.09629v1 )

ライセンス: Link先を確認
Qiuhong Anna Wei, Sijie Ding, Jeong Joon Park, Rahul Sajnani, Adrien Poulenard, Srinath Sridhar, Leonidas Guibas(参考訳) 人間は、乱雑な部屋を掃除する仕事を普遍的に嫌います。 機械がこの作業を支援するためには、複数の対称性、共線形性、または共円性、線形パターンや円形パターンの均一性、さらにスタイルや機能に関連するオブジェクト間の関係など、通常の配置に対する人間の基準を理解する必要がある。 従来のアプローチでは、目標状態を明確に指定したり、スクラッチから合成したシーンを明示的に指定するために、人間の入力に依存していたが、このような方法では、目標状態を提供することなく、既存の乱雑なシーンの再配置に対応していない。 本稿では,乱雑な部屋での物体の規則的な並べ替えを学習するためのデータ駆動トランスフォーマーに基づく反復的手法であるlego-netを提案する。 LEGO-Netは、部分的に拡散モデルにインスパイアされている -- 最初の混乱状態から始まり、移動距離を減らしながら、オブジェクトの位置と方向を通常の状態に繰り返し“ノイズ”する。 プロが配置したシーンの既存のデータセットにおいて、ランダムに乱れた物体の位置と向きが与えられた場合、本手法は定期的な再配置の回復を訓練する。 その結果,本手法は部屋のシーンを確実に再構成し,他の手法よりも優れていることがわかった。 また,数理論機械を用いて部屋配置の規則性を評価する指標を提案する。

Humans universally dislike the task of cleaning up a messy room. If machines were to help us with this task, they must understand human criteria for regular arrangements, such as several types of symmetry, co-linearity or co-circularity, spacing uniformity in linear or circular patterns, and further inter-object relationships that relate to style and functionality. Previous approaches for this task relied on human input to explicitly specify goal state, or synthesized scenes from scratch -- but such methods do not address the rearrangement of existing messy scenes without providing a goal state. In this paper, we present LEGO-Net, a data-driven transformer-based iterative method for learning regular rearrangement of objects in messy rooms. LEGO-Net is partly inspired by diffusion models -- it starts with an initial messy state and iteratively "de-noises'' the position and orientation of objects to a regular state while reducing the distance traveled. Given randomly perturbed object positions and orientations in an existing dataset of professionally-arranged scenes, our method is trained to recover a regular re-arrangement. Results demonstrate that our method is able to reliably rearrange room scenes and outperform other methods. We additionally propose a metric for evaluating regularity in room arrangements using number-theoretic machinery.
翻訳日:2023-01-24 12:39:38 公開日:2023-01-23
# 並列化ブースティングの可能性

The Impossibility of Parallelizing Boosting ( http://arxiv.org/abs/2301.09627v1 )

ライセンス: Link先を確認
Amin Karbasi, Kasper Green Larsen(参考訳) 強化の目的は、弱い学習者の列を強い学習者に変換することである。 彼らの心では、これらの方法は完全にシーケンシャルです。 本稿では,並列化促進の可能性を検討する。 私たちの主な貢献は強い負の結果であり、トレーニングに必要なコンピューティングリソースの総量に対して、大幅な並列化が必要であることを示唆している。

The aim of boosting is to convert a sequence of weak learners into a strong learner. At their heart, these methods are fully sequential. In this paper, we investigate the possibility of parallelizing boosting. Our main contribution is a strong negative result, implying that significant parallelization of boosting requires an exponential blow-up in the total computing resources needed for training.
翻訳日:2023-01-24 12:39:18 公開日:2023-01-23
# 言語間およびプログレッシブトランスファー学習による効率的な言語モデル学習

Efficient Language Model Training through Cross-Lingual and Progressive Transfer Learning ( http://arxiv.org/abs/2301.09626v1 )

ライセンス: Link先を確認
Malte Ostendorff, Georg Rehm(参考訳) ほとんどのトランスフォーマー言語モデルは、主に英語のテキストで事前訓練されており、他の言語での使用を制限する。 モデルのサイズが大きくなるにつれて、計算量やデータリソースの少ない英語と他の言語のパフォーマンスギャップはさらに大きくなる。 その結果、リソースが少ない言語のギャップを埋めるために、よりリソース効率の良いトレーニング方法が必要となる。 この問題に対処するため,我々はclp-transferと呼ばれる言語間およびプログレッシブトランスファー学習アプローチを導入し,学習済みモデルが英語のように公に利用できるソース言語から新しいターゲット言語へモデルを転送する。 2つの言語間の言語間変換に焦点を当てた先行研究とは対照的に、モデルサイズに転送を拡張する。 ソース言語で事前訓練されたモデルを考えると、ターゲット言語で同じ大きさのモデルを目指しています。 モデルをスクラッチからトレーニングするのではなく、ターゲット言語にあるがリソースがはるかに少ない、より小さなモデルを活用します。 小さいモデルとソースモデルの両方を使用して、ソースとターゲット言語の重なり合う語彙に基づいて、より大きなモデルのトークン埋め込みを初期化する。 残りの重みはすべて、ソース言語のモデルから再利用されます。 このアプローチは、単独の言語間伝達よりも優れており、ランダム初期化と比較してトレーニングステップの最大80%を節約できる。

Most Transformer language models are primarily pretrained on English text, limiting their use for other languages. As the model sizes grow, the performance gap between English and other languages with fewer compute and data resources increases even further. Consequently, more resource-efficient training methods are needed to bridge the gap for languages with fewer resources available. To address this problem, we introduce a cross-lingual and progressive transfer learning approach, called CLP-Transfer, that transfers models from a source language, for which pretrained models are publicly available, like English, to a new target language. As opposed to prior work, which focused on the cross-lingual transfer between two languages, we extend the transfer to the model size. Given a pretrained model in a source language, we aim for a same-sized model in a target language. Instead of training a model from scratch, we exploit a smaller model that is in the target language but requires much fewer resources. Both small and source models are then used to initialize the token embeddings of the larger model based on the overlapping vocabulary of the source and target language. All remaining weights are reused from the model in the source language. This approach outperforms the sole cross-lingual transfer and can save up to 80% of the training steps compared to the random initialization.
翻訳日:2023-01-24 12:39:11 公開日:2023-01-23
# 全スライド画像の予測および予測モデリングのための最大平均不一致カーネル

Maximum Mean Discrepancy Kernels for Predictive and Prognostic Modeling of Whole Slide Images ( http://arxiv.org/abs/2301.09624v1 )

ライセンス: Link先を確認
Piotr Keller, Muhammad Dawood, Fayyaz ul Amir Afsar Minhas(参考訳) 2つの画像はどの程度似ていますか。 患者から採取したデジタルスキャンされた組織サンプルの全体スライド画像(WSI)が複数ギガピクセルの大きさとなる計算病理学において、2つのWSI間の類似度の決定は、多くの実用的応用において難しい課題である。 本稿では,WSI間のペアの類似性を決定するために,カーネル化された最大平均離散性(MMD)解析に基づく新しい戦略を検討する。 提案手法は,2つのWSI間のMMDを,画像パッチの深い特徴に対してカーネルを用いて計算する。 これにより、wsiのデータセット全体をwsiレベルクラスタリングのカーネルマトリックスとして表現することができ、乳癌患者の日常的なwsisからのtp-53変異状態の弱い教師付き予測と、アート予測性能の状態をサバイバル分析することができる。 この研究は、計算病理学における予測および予測タスクにwsiレベルのカーネルを応用するためのさらなる道を開くと信じている。

How similar are two images? In computational pathology, where Whole Slide Images (WSIs) of digitally scanned tissue samples from patients can be multi-gigapixels in size, determination of degree of similarity between two WSIs is a challenging task with a number of practical applications. In this work, we explore a novel strategy based on kernelized Maximum Mean Discrepancy (MMD) analysis for determination of pairwise similarity between WSIs. The proposed approach works by calculating MMD between two WSIs using kernels over deep features of image patches. This allows representation of an entire dataset of WSIs as a kernel matrix for WSI level clustering, weakly-supervised prediction of TP-53 mutation status in breast cancer patients from their routine WSIs as well as survival analysis with state of the art prediction performance. We believe that this work will open up further avenues for application of WSI-level kernels for predictive and prognostic tasks in computational pathology.
翻訳日:2023-01-24 12:38:52 公開日:2023-01-23
# 高分解能パンクロマティック画像による現代中国の産業成長の追跡--逐次畳み込みアプローチ

Tracking the industrial growth of modern China with high-resolution panchromatic imagery: A sequential convolutional approach ( http://arxiv.org/abs/2301.09620v1 )

ライセンス: Link先を確認
Ethan Brewer, Zhonghui Lv, and Dan Runfola(参考訳) アクセシブルな地域での開発データを得るのが不十分、あるいは困難であるため、リモートセンシングデータは、利害関係者が経済成長に関する情報を集める上で重要なツールである。 現在まで、深層学習を利用して個別のサイトレベルでの工業的成長を推定する研究は行われていない。 本研究では,高分解能パンクロマティック画像を用いて,多層コンピュータビジョンフレームワークを用いて,中華人民共和国の419の工業施設における開発経過を推定する。 本稿では,(1)Mask R-CNNセグメンテーションアルゴリズムを用いて推定した構造面積カバレッジと,(2)可視・赤外線放射率を直接計算するVIIRS(Visible Infrared Imaging Radiometer Suite)の手法を提案する。 これらの手法から生成されたラベルは比較的評価されテストされる。 19年にわたる2,078cmの解像度画像のデータセットにおいて,産業発展の2次元を,高分解能の昼間画像を用いて推定可能であることを示唆する。 (a)産業開発総平方メートル(平均誤差0.021$\textrm{km}^2$)及び (b)光の放射率(平均誤差 9.8$\mathrm {\frac{nW}{cm^{2}sr}}$) この手法のトレンド分析により,Mask R-CNN標識CNN-LSTM軌道真理測定から得られた推定値が最もよく明らかになった。 Mask R-CNNは、最も古い画像から最新の画像までの全てのサイトにおいて、平均的な変化は4,084ドル\textrm{m}^2$と見積もっている。

Due to insufficient or difficult to obtain data on development in inaccessible regions, remote sensing data is an important tool for interested stakeholders to collect information on economic growth. To date, no studies have utilized deep learning to estimate industrial growth at the level of individual sites. In this study, we harness high-resolution panchromatic imagery to estimate development over time at 419 industrial sites in the People's Republic of China using a multi-tier computer vision framework. We present two methods for approximating development: (1) structural area coverage estimated through a Mask R-CNN segmentation algorithm, and (2) imputing development directly with visible & infrared radiance from the Visible Infrared Imaging Radiometer Suite (VIIRS). Labels generated from these methods are comparatively evaluated and tested. On a dataset of 2,078 50 cm resolution images spanning 19 years, the results indicate that two dimensions of industrial development can be estimated using high-resolution daytime imagery, including (a) the total square meters of industrial development (average error of 0.021 $\textrm{km}^2$), and (b) the radiance of lights (average error of 9.8 $\mathrm{\frac{nW}{cm^{2}sr}}$). Trend analysis of the techniques reveal estimates from a Mask R-CNN-labeled CNN-LSTM track ground truth measurements most closely. The Mask R-CNN estimates positive growth at every site from the oldest image to the most recent, with an average change of 4,084 $\textrm{m}^2$.
翻訳日:2023-01-24 12:38:33 公開日:2023-01-23